Variante d'une question de l'examen de STAT-D-103 / 1re session / 2007-2008
Dans le cadre d'une étude sur les étudiants en première année à l'université, une enquête a été menée auprès de 1 948 étudiants. Le tableau suivant présente la distribution observée des âges. Malheureusement, suite à un incident lors de la pause café du chercheur, plusieurs résultats ont été effacés.
|
|
|
|
|
|
|
|
---|---|---|---|---|---|---|---|
1 | 17 | 22 | 22 | 1.13% | 1.13% | 374 | 6 358 |
2 | 18 | 1 306 | 1 328 | D | 68.17% | 23 508 | 423 144 |
3 | 19 | 410 | C | 21.05% | 89.22% | 7 790 | 148 010 |
4 | 20 | 135 | 1 873 | 6.93% | 96.15% | 2 700 | 54 000 |
5 | 21 | B | 1 905 | 1.64% | 97.79% | 672 | 14 112 |
A | 22 | 20 | 1 925 | 1.03% | 98.82% | F | 9 680 |
7 | 23 | 5 | 1 930 | 0.26% | 99.08% | 115 | 2 645 |
8 | 24 | 1 | 1 931 | 0.05% | 99.13% | 24 | 576 |
9 | 25 | 3 | 1 934 | 0.15% | 99.28% | 75 | G |
10 | 26 | 5 | 1 939 | 0.26% | 99.54% | 130 | 3 380 |
11 | 27 | 1 | 1 940 | 0.05% | 99.59% | 27 | 729 |
12 | 31 | 1 | 1 941 | 0.05% | 99.64% | 31 | 961 |
13 | 33 | 1 | 1 942 | 0.05% | 99.69% | 33 | 1 089 |
14 | 34 | 6 | 1 948 | 0.31% | E | 204 | 6 936 |
Total | 1 948 | H | 36 123 | 673 495 |
Question
Déterminez les valeurs des cases manquantes dans le tableau ci-dessus (A, B, C, ..., H).
A=6 ;
B est l'effectif associé à l'âge de 21 ans. Il peut s'obtenir comme la différence entre l'effectif cumulé associé à l'âge de 21 ans et l'effectif cumulé associé à l'âge de 20 ans : B=1 905-1 873=32 ;
C est l'effectif cumulé associé à l'âge de 19 ans : C=1 328+410=1 738 ;
D est la fréquence associée à l'âge de 18 ans : D=1 306/1 948=67.04% ;
E est la fréquence cumulée associée au plus grand âge observé : E=100% ;
F=20 x 22=440 ;
G=3 x 252=1 875 ;
H est la somme des fréquences associées aux différents âges observés : H=100%.
Question
Déterminez le mode, les trois quartiles et la moyenne de cette distribution observée.
Le mode est l'âge auquel est associé le plus grand effectif ou, de manière équivalente, la plus grande fréquence : .
L'âge moyen est égal à .
La fréquence cumulée théoriquement associée au premier quartile est 25%. Puisqu'aucune des fréquences cumulées de la D.O.1 n'est égale à 25%, on prend pour premier quartile le plus petit âge observé parmi ceux dont la fréquence cumulée dépasse 25%. On a donc (la fréquence cumulée qui lui est associée est égale à 68.17%).
La fréquence cumulée théoriquement associée à la médiane est 50%. Puisqu'aucune des fréquences cumulées de la D.O.1 n'est égale à 50%, on prend pour médiane le plus petit âge observé parmi ceux dont la fréquence cumulée dépasse 50%. On a donc ; la médiane et le premier quartile coïncident.
La fréquence cumulée théoriquement associée au troisième quartile est 75%. Puisqu'aucune des fréquences cumulées de la D.O.1 n'est égale à 75%, on prend pour troisième quartile le plus petit âge observé parmi ceux dont la fréquence cumulée dépasse 75%. On a donc (la fréquence cumulée qui lui est associée est égale à 89.22%).
Remarque :
On constate que 68.17% des étudiants sont âgés de 17 ou 18 ans ; 89.22% des étudiants ont au plus 19 ans. Il y a donc à peine un peu plus de 10% des étudiants qui ont plus de 19 ans.
Question
Déterminez l'étendue, l'écart interquartile et la variance de cette distribution observée.
L'étendue est égale à l'écart entre le plus grand âge observé et le plus petit âge observé : .
L'écart interquartile est égal à .
La variance est égale à .
Remarque :
Remarquons que l'écart interquartile et la variance sont très faibles, contrairement à l'étendue. Ceci est dû au fait que la dispersion de la grande majorité des âges observés est fort petite (89.22% des étudiants sont âgés de 17 à 19 ans) et que les étudiants plus âgés (de 20 à 34 ans) sont donc très minoritaires (10.88%).
Question
Déterminez les coefficients empiriques d'asymétrie de Pearson ( ) et de Yule et Kendall ( ).
.
.
Remarque :
Les deux coefficients empiriques d'asymétrie sont positifs, attestant ainsi de l'existence d'une asymétrie gauche.
Question
Dessinez la boîte à moustaches (version modifiée) associée à cette distribution observée. Que pouvez-vous en conclure sur la distribution des âges des étudiants en première année à l'université ?
Nous avons déjà obtenu que et .
Valeurs pivots :
;
.
Valeurs adjacentes (extrémités des moustaches) :
tous les âges observés sont supérieurs à ; on a donc ;
certains âges observés sont supérieurs à ; est dès lors le plus grand âge observé inférieur ou égal à , c'est-à-dire .
Tous les âges observés supérieurs à (21, 22, 23, 24, 25, 26, 27, 31, 33, 34) sont des valeurs extérieures à droite.
La boîte à moustaches est présentée ci-dessous :
La boîte à moustaches met clairement en évidence ce que nous avons déjà pu constater précédemment. La très grande majorité des étudiants ont des âges très peu dispersés (96.15% des étudiants sont âgés de 17 à 20 ans). La première année à l'université accueille cependant aussi des étudiants plus âgés (certains d'entre eux ont même plus de 30 ans), mais ceux-ci sont rares (seuls 3.85% des étudiants ont plus de 20 ans).