La boîte à moustaches (boxplot)
Il est possible de résumer, sous la forme d'un graphique, l'information fournie par l'étendue, ainsi que par les trois quartiles et les intervalles qui les séparent. Ce graphique porte le nom de boîte à moustaches[1] , ou encore de boîte à pattes ou diagramme en boîte (boxplot en anglais).
Version de base
Méthode : Construction de la version de base
Méthode de construction
Fondamental : Lecture de la boîte à moustaches
Une boîte à moustaches nous indique de façon simple et visuelle quelques traits marquants de la série observée :
la médiane nous renseigne sur le milieu de la série ;
les largeurs des deux parties de la boîte rendent compte de la dispersion des valeurs situées au centre de la série (la boîte contient 50% (environ) de l'ensemble des observations : 25% à gauche de la médiane et 25% à sa droite) ;
la longueur des moustaches renseigne sur la dispersion des valeurs situées au début de la série ordonnée (les valeurs les plus petites correspondant à 25% des observations) ou à la fin de celle-ci (les valeurs les plus grandes correspondant aussi à 25% des observations) ;
de façon générale, la boîte et les moustaches seront d'autant plus étendues que la dispersion de la série statistique est grande.
Remarque : Pourquoi une version modifiée de la boîte à moustaches ?
Quand la série observée contient l'une ou l'autre valeur extrême (très petite ou très grande), les moustaches risquent de devenir très longues, ce qui nuit à leur interprétation. La solution à ce problème consiste à construire plutôt la version modifiée de la boîte à moustaches.
Version modifiée
Méthode : Construction de la version modifiée
La version modifiée de la boîte à moustaches se construit en 4 étapes :
construction de la boîte, comme dans la version de base ;
calcul des valeurs pivots gauche ( ) et droite ( ) ;
détermination des valeurs adjacentes gauche ( ) et droite ( ) : ces valeurs adjacentes correspondent aux extrémités des moustaches gauche et droite ;
détermination des valeurs extérieures éventuelles.
Les valeurs pivots
Définition :
Les valeurs pivots sont définies par les relations suivantes :
Elles sont situées de part et d'autre de la boîte, à une distance valant 1.5 fois l'écart interquartile.
Remarque :
La définition des valeurs pivots résulte d'une constatation : la plupart des séries statistiques qui ne contiennent pas de valeurs extrêmes ou aberrantes, ont leurs observations situées dans l'intervalle .
Remarque :
et ne coïncident généralement pas avec des valeurs observées. Il s'agit juste de valeurs calculées dans le but de déterminer, dans un deuxième temps, les valeurs adjacentes.
Les valeurs adjacentes (extrémités des moustaches)
Les valeurs adjacentes, contrairement aux valeurs pivots, doivent être des valeurs observées de la série statistique. Elles correspondront aux extrémités des moustaches gauche et droite du diagramme en boîte.
Définition :
On définit les valeurs adjacentes par rapport aux valeurs pivots et comme suit :
la valeur adjacente gauche, notée , est la plus petite valeur observée supérieure ou égale à ;
la valeur adjacente droite, notée , est la plus grande valeur observée inférieure ou égale à .
Les valeurs extérieures
Si toutes les observations sont comprises entre le pivot gauche et le pivot droit , alors et . Dans le cas contraire, on isole les valeurs observées situées en dehors de l'intervalle pour en examiner les caractéristiques.
Définition :
Toutes les observations situées en dehors de sont dites extérieures. Elles sont représentées par des symboles appropriés (étoiles, points, triangles, ...) de manière à être mises en évidence.
Remarque :
Lorsque toutes les observations sont comprises entre le pivot gauche et le pivot droit , , et il n'y a pas de valeur extérieure. Dans ce cas, la version modifiée de la boîte à moustaches coïncide avec la version de base.
Remarque :
Toute valeur extérieure n'est pas nécessairement extrême ou aberrante, mais une valeur extrême ou aberrante sera généralement une valeur extérieure.
Remarque : Valeurs pivots du second type
Afin de compléter l'analyse, on utilise parfois des valeurs pivots du second type définies par et . Elles sont situées de part et d'autre de la boîte à une distance valant deux fois l'écart interquartile.
Le fait pour une valeur extérieure d'être en dehors de l'intervalle renforce la présomption « d'aberration ».
La plupart des logiciels statistiques distinguent les valeurs extérieures qui se trouvent en dehors de l'intervalle des autres valeurs extérieures en les représentant sur le diagramme en boîte avec des symboles différents.
Usage et intérêt des boîtes à moustaches
L'usage des boîtes à moustaches permet de visualiser les concepts de centralité et de dispersion (de même que de symétrie ou d'asymétrie, comme nous le verrons lorsqu'on étudiera les mesures de forme). Elles sont particulièrement recommandées lorsqu'on veut comparer des séries statistiques ou des distributions entre elles.
Exemple : Résultats/étudiants (suite)
Reprenons le tableau contenant les résultats obtenus par 10 étudiants dans 7 matières différentes. Pour appréhender la dispersion des résultats, commençons par ordonner les observations par ordre croissant pour chacun des cours :
Déterminons la boîte à moustaches pour les résultats obtenus dans le cours :
(2e convention) ;
;
;
;
;
;
tous les résultats obtenus dans le cours sont compris dans l'intervalle ; et . La version modifiée de la boîte à moustaches coïncide avec la version de base.
Déterminons à présent la boîte à moustaches pour les résultats obtenus dans le cours :
(2e convention) ;
;
;
;
;
;
tous les résultats obtenus dans le cours sont supérieurs à ; dès lors, ;
le plus grand résultat inférieur ou égal à est ; on a donc et est une valeur extérieure, représentée par une étoile.
Manifestement, seul l'étudiant a trouvé grâce aux yeux de l'enseignant de .
Ces représentations graphiques sont simples à construire. Elles permettent de voir aisément la manière dont les observations se répartissent, soit par cours, soit par étudiant, et facilitent donc la comparaison entre cours et entre étudiants, comme on peut le constater dans les deux figures ci-dessous.