Statistique descriptive univariée

Variante d'une question de l'examen de STAT-D-103 / 1re session / 2007-2008

Dans le cadre d'une étude sur les étudiants en première année à l'université, une enquête a été menée auprès de 1 948 étudiants. Le tableau suivant présente la distribution observée des âges. Malheureusement, suite à un incident lors de la pause café du chercheur, plusieurs résultats ont été effacés.

1

17

22

22

1.13%

1.13%

374

6 358

2

18

1 306

1 328

D

68.17%

23 508

423 144

3

19

410

C

21.05%

89.22%

7 790

148 010

4

20

135

1 873

6.93%

96.15%

2 700

54 000

5

21

B

1 905

1.64%

97.79%

672

14 112

A

22

20

1 925

1.03%

98.82%

F

9 680

7

23

5

1 930

0.26%

99.08%

115

2 645

8

24

1

1 931

0.05%

99.13%

24

576

9

25

3

1 934

0.15%

99.28%

75

G

10

26

5

1 939

0.26%

99.54%

130

3 380

11

27

1

1 940

0.05%

99.59%

27

729

12

31

1

1 941

0.05%

99.64%

31

961

13

33

1

1 942

0.05%

99.69%

33

1 089

14

34

6

1 948

0.31%

E

204

6 936

Total

1 948

H

36 123

673 495

Question

Déterminez les valeurs des cases manquantes dans le tableau ci-dessus (A, B, C, ..., H).

Solution
  • A=6 ;

  • B est l'effectif associé à l'âge de 21 ans. Il peut s'obtenir comme la différence entre l'effectif cumulé associé à l'âge de 21 ans et l'effectif cumulé associé à l'âge de 20 ans : B=1 905-1 873=32 ;

  • C est l'effectif cumulé associé à l'âge de 19 ans : C=1 328+410=1 738 ;

  • D est la fréquence associée à l'âge de 18 ans : D=1 306/1 948=67.04% ;

  • E est la fréquence cumulée associée au plus grand âge observé : E=100% ;

  • F=20 x 22=440 ;

  • G=3 x 252=1 875 ;

  • H est la somme des fréquences associées aux différents âges observés : H=100%.

Question

Déterminez le mode, les trois quartiles et la moyenne de cette distribution observée.

Solution
  • Le mode est l'âge auquel est associé le plus grand effectif ou, de manière équivalente, la plus grande fréquence : .

  • L'âge moyen est égal à .

  • La fréquence cumulée théoriquement associée au premier quartile est 25%. Puisqu'aucune des fréquences cumulées de la D.O.1 n'est égale à 25%, on prend pour premier quartile le plus petit âge observé parmi ceux dont la fréquence cumulée dépasse 25%. On a donc (la fréquence cumulée qui lui est associée est égale à 68.17%).

  • La fréquence cumulée théoriquement associée à la médiane est 50%. Puisqu'aucune des fréquences cumulées de la D.O.1 n'est égale à 50%, on prend pour médiane le plus petit âge observé parmi ceux dont la fréquence cumulée dépasse 50%. On a donc ; la médiane et le premier quartile coïncident.

  • La fréquence cumulée théoriquement associée au troisième quartile est 75%. Puisqu'aucune des fréquences cumulées de la D.O.1 n'est égale à 75%, on prend pour troisième quartile le plus petit âge observé parmi ceux dont la fréquence cumulée dépasse 75%. On a donc (la fréquence cumulée qui lui est associée est égale à 89.22%).

Remarque

On constate que 68.17% des étudiants sont âgés de 17 ou 18 ans ; 89.22% des étudiants ont au plus 19 ans. Il y a donc à peine un peu plus de 10% des étudiants qui ont plus de 19 ans.

Question

Déterminez l'étendue, l'écart interquartile et la variance de cette distribution observée.

Solution
  • L'étendue est égale à l'écart entre le plus grand âge observé et le plus petit âge observé : .

  • L'écart interquartile est égal à .

  • La variance est égale à .

Remarque

Remarquons que l'écart interquartile et la variance sont très faibles, contrairement à l'étendue. Ceci est dû au fait que la dispersion de la grande majorité des âges observés est fort petite (89.22% des étudiants sont âgés de 17 à 19 ans) et que les étudiants plus âgés (de 20 à 34 ans) sont donc très minoritaires (10.88%).

Question

Déterminez les coefficients empiriques d'asymétrie de Pearson ( ) et de Yule et Kendall ( ).

Solution
  • .

  • .

Remarque

Les deux coefficients empiriques d'asymétrie sont positifs, attestant ainsi de l'existence d'une asymétrie gauche.

Question

Dessinez la boîte à moustaches (version modifiée) associée à cette distribution observée. Que pouvez-vous en conclure sur la distribution des âges des étudiants en première année à l'université ?

Solution

Nous avons déjà obtenu que et .

Valeurs pivots :

  • ;

  • .

Valeurs adjacentes (extrémités des moustaches) :

  • tous les âges observés sont supérieurs à ; on a donc ;

  • certains âges observés sont supérieurs à  ; est dès lors le plus grand âge observé inférieur ou égal à , c'est-à-dire .

Tous les âges observés supérieurs à (21, 22, 23, 24, 25, 26, 27, 31, 33, 34) sont des valeurs extérieures à droite.

La boîte à moustaches est présentée ci-dessous :

Boîte à moustaches

La boîte à moustaches met clairement en évidence ce que nous avons déjà pu constater précédemment. La très grande majorité des étudiants ont des âges très peu dispersés (96.15% des étudiants sont âgés de 17 à 20 ans). La première année à l'université accueille cependant aussi des étudiants plus âgés (certains d'entre eux ont même plus de 30 ans), mais ceux-ci sont rares (seuls 3.85% des étudiants ont plus de 20 ans).

PrécédentPrécédentSuivantSuivant
AccueilAccueilImprimerImprimerRéalisé avec Scenari (nouvelle fenêtre)