Analyse de la symétrie d'une distribution (skewness)
On distingue trois types de distributions selon qu'elles sont dissymétriques (asymétriques) à gauche (graphique de gauche), symétriques (graphique du milieu) ou dissymétriques (asymétriques) à droite (graphique de droite).
Souvent, l'analyse du diagramme en bâtons – ou de l'histogramme dans le cas d'une D.G.1 – permet de se rendre compte du caractère symétrique ou non d'une distribution. L'examen de la boîte à moustaches permet aussi de se faire une idée sur cette question selon que la boîte et les moustaches sont symétriques ou, au contraire, de plus petite amplitude à gauche (asymétrie à gauche) ou à droite (asymétrie à droite).
Ainsi, par exemple, le diagramme en bâtons et la boîte à moustaches ci-dessous permettent de se rendre compte aisément que la distribution observée présente une asymétrie gauche, c'est-à-dire que les petites valeurs observées sont plus fréquentes que les valeurs plus élevées.
Mais il est également possible de caractériser l'asymétrie et d'en quantifier l'importance via l'un ou l'autre coefficient d'asymétrie.
Le coefficient de Fisher
Le coefficient d'asymétrie de Fisher est basé sur la détermination préalable de , le moment centré d'ordre 3.
Définition : Le moment centré d'ordre 3
Complément : Propriétés du moment centré d'ordre 3
On peut vérifier que
pour une distribution symétrique, ;
pour une distribution dissymétrique à gauche, ;
pour une distribution dissymétrique à droite, .
Le premier résultat est évident : quand la distribution est symétrique, à chaque différence correspond une autre différence de même valeur absolue mais de signe opposé, associées toutes deux à un même effectif. Comme l'élévation à la puissance 3 conserve le signe des différences, est nul. Les deux autres résultats peuvent aussi se justifier intuitivement sans trop de difficultés.
Remarque :
On voit donc que le signe de permet d'objectiver l'existence d'une asymétrie de la distribution observée. Mais la valeur de permet-elle de quantifier l'importance de l'asymétrie ?
L'interprétation de la valeur de est délicate, car elle dépend de l'unité choisie pour exprimer les observations. Ainsi, par exemple, le moment centré d'ordre 3 d'une D.O.1 de tailles mesurées en mètres est une quantité qui s'exprimera en « mètres cubes ». Si l'on retraduit les tailles observées en centimètres – il suffit de multiplier les tailles initiales par 100 –, la distribution observée se verra alors associer un moment centré d'ordre 3 exprimé en « centimètres cubes », dont la valeur sera fois plus élevée que celle obtenue avec les tailles en mètres !
La solution à ce problème consiste à proposer un coefficient d'asymétrie qui
a le même signe que ;
est un coefficient sans unité (sans dimension), c'est-à-dire un coefficient dont la valeur reste inchangée quelle que soit l'unité choisie pour exprimer les observations de la distribution.
C'est ainsi que Fisher a introduit le coefficient d'asymétrie qui porte son nom.
Définition : Le coefficient d'asymétrie de Fisher
Le coefficient d'asymétrie de Fisher, noté , se définit comme étant le rapport entre le moment centré d'ordre 3 ( ) et le cube de l'écart-type ( ) :
Remarque :
Puisque l'écart-type est toujours positif, son cube l'est aussi ; ceci implique que a bien le même signe que .
L'écart-type s'exprime dans la même unité que les observations ; son cube s'exprime donc dans l'(unité des observations)3, tout comme . Il s'ensuit que le rapport de et est bien un nombre sans unité (sans dimension).
Exemple :
Considérons la distribution de tailles ( ) ci-dessous, avec les tailles mesurées tantôt en mètres (tableau de gauche), tantôt en centimètres (tableau de droite) :
Que les tailles soient mesurées en mètres ou en centimètres, le coefficient de Fisher a toujours la même valeur positive: (asymétrie à gauche).
Les coefficients empiriques
Il existe d'autres coefficients d'asymétrie plus rapides à calculer que , mais dont les propriétés résultent de constatations empiriques.
Le coefficient empirique de Pearson
Définition :
Le coefficient empirique de Pearson se fonde sur l'écart entre la moyenne et le mode de la distribution observée. Cet écart est divisé par l'écart-type de telle sorte que soit un nombre sans unité :
Remarque :
possède des propriétés semblables à celles de . En effet,
pour une distribution symétrique : et donc ;
pour une distribution dissymétrique à gauche : et donc ;
pour une distribution dissymétrique à droite : et donc .
Le coefficient empirique de Yule et Kendall
Définition :
Le coefficient empirique de Yule et Kendall se définit à partir des trois quartiles de la distribution observée :
Remarque :
possède des propriétés semblables à celles de . En effet, outre le fait d'être lui aussi un nombre sans dimension, on vérifie aisément que
pour une distribution symétrique : et donc ;
pour une distribution dissymétrique à gauche : et donc ;
pour une distribution dissymétrique à droite : et donc .
On peut également vérifier que .
Conseil :
Les deux coefficients empiriques d'asymétrie ( et ) sont beaucoup plus rapides à calculer que le coefficient de Fisher . Il faut cependant les interpréter avec prudence. Ainsi, par exemple, une distribution observée presque symétrique peut fournir des coefficients et de signes contraires. Ils ne peuvent donc être considérés que comme des outils d'appréciation, simples à obtenir, mais pouvant parfois être contradictoires.