La variance
Le calcul de l'écart moyen absolu ou de l'écart médian absolu est simple lorsqu'on dispose d'une série observée de petite taille. Il devient beaucoup plus fastidieux quand est grand. En outre, l'outil utilisé (la valeur absolue) est peu maniable et ne possède que de maigres propriétés mathématiques. C'est pourquoi ces mesures de dispersion sont relativement peu employées.
Une autre manière de considérer l'amplitude des écarts – autrement dit, de considérer les écarts sans tenir compte de leurs signes – consiste à élever ces écarts au carré. On obtient alors une mesure de dispersion aux propriétés plus riches : la variance[1] .
La variance d'une série statistique
Définition et interprétation
Définition :
La variance de la série statistique se note (ou encore ) et se définit comme suit :
Elle correspond à la moyenne des carrés des différences entre les observations et leur moyenne .
Exemple :
Reprenons la série statistique ( ) de moyenne . On obtient le tableau suivant :
Il s'ensuit que .
Complément : Interprétation de la variance
Malgré sa complexité apparente, la variance est très souvent calculée lorsqu'on étudie la dispersion d'une série statistique.
Dans une série statistique peu dispersée, les observations sont proches les unes des autres, et donc de leur moyenne. Dans ce cas, les écarts seront de faibles amplitudes et sera petit. Au contraire, plus une série statistique est dispersée, plus s'accroît.
Quelques remarques sur la variance
Remarque :
Tout comme les écarts moyen et médian absolus, la variance ne se conçoit que si la variable étudiée est quantitative et mesurée sur une échelle d'intervalles ou de rapports. Une série statistique constituée de valeurs mesurées sur une échelle ordinale ne permet pas le calcul de , de et de .
Remarque :
La variance est nulle si et seulement si toutes les observations ont la même valeur (aucune dispersion).
Remarque :
L'unité dans laquelle s'exprime la variance vaut le carré de l'unité utilisée pour les valeurs observées. Ainsi, par exemple, une série de poids exprimés en kilos possède une variance qui, elle, doit s'interpréter en "kilos-carré".
Ceci peut constituer une difficulté dans l'interprétation de la valeur de la variance qui a incité à compléter cette mesure de dispersion en calculant l'écart-type (voir la mesure de dispersion suivante).
Remarque :
Comme la moyenne arithmétique, la variance est sensible à la présence de valeurs extrêmes, non seulement parce que celles-ci seront éloignées de , mais aussi parce que leur présence va éloigner des autres valeurs (celles qui ne sont pas extrêmes).
Exemple :
et .
et .
Une valeur extrême (ou aberrante) « attire à elle » la moyenne et « fait exploser » la variance ; celle-ci surévalue alors très fortement la dispersion réelle de la série observée.
Remarque :
Dans la littérature anglo-saxonne, la variance est souvent définie par l'expression
que l'on désignera par et appellera la variance corrigée[2] . Cette expression – peu différente en pratique de lorsque est grand – est justifiée par des raisons théoriques qui seront exposées dans le chapitre consacré à l'estimation ponctuelle.
Remarquons que cette variance corrigée est souvent proposée en lieu et place de la variance sur les calculettes d'origine américaine.
Propriétés de la variance
Complément : Reformulation pratique de la variance
On vérifie aisément que la variance peut se réécrire sous la forme suivante, plus pratique à utiliser pour son calcul (car il n'est plus nécessaire de calculer les écarts ) :
Exemple : reprenons la série statistique ( ) de moyenne égale à et de variance égale à . Cette valeur de la variance peut être retrouvée en appliquant la formule ci-dessus.
La démonstration de cette propriété est toute simple :
Complément : Autre éclairage sur l'interprétation de la variance
On peut montrer que
Comparer les observations à la moyenne revient donc – à un facteur constant près – à comparer toutes les observations entre elles.
Complément : Variance d'une série agrégée
1re série (1er groupe) : taille , moyenne et variance
2e série (2e groupe) : taille , moyenne et variance
série agrégée : taille , moyenne et variance
On peut montrer que
Le premier terme – appelé variance dans les groupes – est une moyenne pondérée des variances des séries initiales (le poids affecté à étant égal à la proportion d'observations de la série agrégée provenant de la 1re série et le poids affecté à correspondant à la proportion d'observations de la série agrégée provenant de la 2e série) ; il est une mesure globale de la dispersion des observations à l'intérieur des séries (groupes) de départ.
Le second terme – appelé variance entre les groupes – est une mesure de la dispersion des moyennes des séries initiales autour de la moyenne globale ; il s'agit en fait de la variance des moyennes et des séries initiales.
Exemple : reprenons la série ordonnée ( ) partagée en deux groupes ( et Les moyennes de et valent respectivement et . Le calcul de leur variance nous fournit les valeurs et . Nous avons par ailleurs une moyenne globale La variance peut se calculer à partir de la série globale ; elle vaut La formule ci-dessus nous permet de retrouver ce résultat :
Une remarque intéressante découle de ce calcul : la variance dans les groupes vaut 2.67 (soit 11.8% de la variance globale) et la variance entre les groupes est égale à 20 (soit 88.2% de la variance globale). On peut dès lors considérer que la série globale est constituée de deux sous-groupes assez homogènes, la plus grande part de étant due à la différence entre leurs niveaux moyens et .
Remarque :
Cette dernière propriété peut être généralisée à l'agrégation de (ou la décomposition en) plusieurs séries statistiques.
La variance d'une D.O.1
Définition :
Si l'on dispose d'une D.O.1 , il est aisé de vérifier que la variance s'écrit comme suit :
Elle peut aussi s'obtenir par la relation suivante :
Conseil : Pour la facilité des calculs
Pour faciliter le calcul de , on peut compléter le tableau de la D.O.1 par une colonne supplémentaire dans laquelle on indique, pour , la valeur du produit Il suffit alors de faire la somme des éléments de cette nouvelle colonne et de diviser cette somme par pour obtenir puis de soustraire à cette quantité le carré de pour obtenir la variance
La variance d'une D.G.1
Définition :
Si l'on dispose d'une D.G.1, les expressions de la variance vues pour une D.O.1 peuvent être appliquées aux centres de classes pour obtenir une valeur approchée de la variance de la série statistique de départ :