statistique descriptive...
TRANSCRIPT
Statistique descriptive bivariée
Michaël Genin
Université de Lille 2EA 2694 - Santé Publique : Epidémiologie et Qualité des soins
Plan
1 Introduction
2 Variable qualitative / Variable qualitative
3 Variable quantitative / Variable qualitative
4 Variable quantitative / Variable quantitative
Michaël Genin (Université de Lille 2) Statistique descriptive bivariée Version - 27 mai 2016 1 / 28
Plan
1 Introduction
2 Variable qualitative / Variable qualitative
3 Variable quantitative / Variable qualitative
4 Variable quantitative / Variable quantitative
Michaël Genin (Université de Lille 2) Statistique descriptive bivariée Version - 27 mai 2016 1 / 28
Plan
1 Introduction
2 Variable qualitative / Variable qualitative
3 Variable quantitative / Variable qualitative
4 Variable quantitative / Variable quantitative
Michaël Genin (Université de Lille 2) Statistique descriptive bivariée Version - 27 mai 2016 1 / 28
Plan
1 Introduction
2 Variable qualitative / Variable qualitative
3 Variable quantitative / Variable qualitative
4 Variable quantitative / Variable quantitative
Michaël Genin (Université de Lille 2) Statistique descriptive bivariée Version - 27 mai 2016 1 / 28
Introduction
Point étudié
1 Introduction
2 Variable qualitative / Variable qualitative
3 Variable quantitative / Variable qualitative
4 Variable quantitative / Variable quantitative
Michaël Genin (Université de Lille 2) Statistique descriptive bivariée Version - 27 mai 2016 2 / 28
Introduction
Motivations
Pour approfondir l’analyse, il est souvent utile de croiser certaines variables entreelles :
Croiser le niveau de satisfaction avec le sexe (les femmes sont-elles plus satisfaites queles hommes par rapport à ce produit ?)Croiser l’âge avec le sexe (quelle est la moyenne d’âge chez les hommes ? Chez lesfemmes ?)Croiser l’âge avec le poids (l’âge est-il corrélé au poids ? )
Les représentations statistiques diffèrent en fonction du type de variables croisées :qualitative/qualitativequalitative/quantitativequantitative/quantitative
L’analyse descriptive bivariée prépare l’inférence statistique :Liaison entre variablesCorrélation entre variables
Michaël Genin (Université de Lille 2) Statistique descriptive bivariée Version - 27 mai 2016 3 / 28
Variable qualitative / Variable qualitative
Point étudié
1 Introduction
2 Variable qualitative / Variable qualitativePrésentation des donnéesReprésentations graphiques
3 Variable quantitative / Variable qualitative
4 Variable quantitative / Variable quantitative
Michaël Genin (Université de Lille 2) Statistique descriptive bivariée Version - 27 mai 2016 4 / 28
Variable qualitative / Variable qualitative Présentation des données
Point étudié
1 Introduction
2 Variable qualitative / Variable qualitativePrésentation des donnéesReprésentations graphiques
3 Variable quantitative / Variable qualitative
4 Variable quantitative / Variable quantitative
Michaël Genin (Université de Lille 2) Statistique descriptive bivariée Version - 27 mai 2016 5 / 28
Variable qualitative / Variable qualitative Présentation des données
Présentation des données
ConsidéronsX = {x1, x2, . . . , xl}
Y = {y1, y2, . . . , ym}
deux variables qualitatives ayant respectivement l et m modalités.
ExempleNiveau de satisfaction : Mauvais, Passable, Bon, Excellent.Sexe : Masculin, Féminin
Tableau de contingenceBasé sur l’effectif et la fréquence de chaque croisement de modalitéNotions supplémentaires : fréquences lignes et fréquences colonnes (conditionnelles)Permet, d’une manière descriptive, d’étudier le "lien" entre deux variablesqualitatives
Michaël Genin (Université de Lille 2) Statistique descriptive bivariée Version - 27 mai 2016 6 / 28
Variable qualitative / Variable qualitative Présentation des données
Présentation des données - Effectifs joints / Effectifs marginaux
X = {x1, x2, . . . , xl}, Y = {y1, y2, . . . , ym}
Variable Yy1 y2 . . . yj . . . ym Total
Variable X
x1 n11 n12 . . . n1j . . . n1m n1.
x2 n21 n22 . . . n2j . . . n2m n2.
......
... . . .... . . .
......
xi ni1 ni2 . . . nij . . . nim ni....
...... . . .
... . . ....
...xl nl1 nl2 . . . nlj . . . nlm nl.
Total n.1 n.2 . . . n.j . . . n.m n
nij : effectif joint de la modalité xi et de la modalité yjni. : effectif marginal de la modalité xin.j : effectif marginal de la modalité yjn : taille de l’échantillon
Michaël Genin (Université de Lille 2) Statistique descriptive bivariée Version - 27 mai 2016 7 / 28
Variable qualitative / Variable qualitative Présentation des données
Présentation des données - Fréquences jointes / Fréquences marginales
Fréquence jointe : Fréquence du couple de modalités (xi , yj)
fij = nij
n
Fréquence marginale : Fréquence de la modalité (xi)
fi. = ni.
n(resp. f.j = n.j
n pour (yj))
Variable Yy1 y2 . . . yj . . . ym Total
Variable X
x1 f11 f12 . . . f1j . . . f1m f1.
x2 f21 f22 . . . f2j . . . f2m f2.
......
... . . .... . . .
......
xi fi1 fi2 . . . fij . . . fim fi....
...... . . .
... . . ....
...xl fl1 fl2 . . . flj . . . flm fl.
Total f.1 f.2 . . . f.j . . . f.m 1Michaël Genin (Université de Lille 2) Statistique descriptive bivariée Version - 27 mai 2016 8 / 28
Variable qualitative / Variable qualitative Présentation des données
Présentation des données - Fréquences conditionnelles lignes
Fréquence conditionnelle ligne : Fréquence de la modalité yj parmi les individusprésentant la modalité xi
fj/i = nij
ni.
Variable Yy1 y2 . . . yj . . . ym Total
Variable X
x1 f1/1 f2/1 . . . fj/1 . . . fm/1 1x2 f1/2 f2/2 . . . fj/2 . . . fm/2 1...
...... . . .
... . . ....
...xi f1/i f2/j . . . fj/i . . . fm/i 1...
...... . . .
... . . ....
...xl f1/l f2/l . . . fj/l . . . fm/l 1
Michaël Genin (Université de Lille 2) Statistique descriptive bivariée Version - 27 mai 2016 9 / 28
Variable qualitative / Variable qualitative Présentation des données
Présentation des données - Fréquences conditionnelles colonnes
Fréquence conditionnelle colonne : Fréquence de la modalité xi parmi les individusprésentant la modalité yj
fi/j = nij
n.j
Variable Yy1 y2 . . . yj . . . ym
Variable X
x1 f1/1 f1/2 . . . f1/j . . . f1/mx2 f2/1 f2/2 . . . f2/j . . . f2/m...
...... . . .
... . . ....
xi fi/1 fj/2 . . . fi/j . . . fi/m...
...... . . .
... . . ....
xl fl/1 fl/2 . . . fl/j . . . fl/m
Total 1 1 . . . 1 . . . 1
Michaël Genin (Université de Lille 2) Statistique descriptive bivariée Version - 27 mai 2016 10 / 28
Variable qualitative / Variable qualitative Présentation des données
Présentation des données - ExempleCroisement du niveau de satisfaction et du sexe
Effec%fs % %ligne %colonne Homme Femme total
Mauvais
30 0,11 0.75 0.20
10 0.04 0.25 0.08
40 0,14
Passable
45 0.16 0.69 0.30
20 0.07 0.31 0.15
65 0.23
Bon
50 0.18 0.43 0.33
65 0.23 0.57 0.27
115 0.41
Excellent
25 0.09 0.42 0.17
35 0.13 0.58 0.27
60 0.21
Total 150 0.54
130 0.46
280 1
Michaël Genin (Université de Lille 2) Statistique descriptive bivariée Version - 27 mai 2016 11 / 28
Variable qualitative / Variable qualitative Présentation des données
Présentation des données - Exemple
Croisement du niveau de satisfaction et du sexe
Effec%fs % %ligne %colonne Homme
Mauvais
30 0,11 0.75 0.20
Effectifs : Parmi 280 individus, 30 hommes ont noté « mauvais »
% : Parmi 280 individus, 11% sont des hommes qui ont noté « mauvais »
%ligne : Parmi 40 individus qui ont noté « mauvais », 75% étaient des hommes (30/40)
%colonne : Parmi 150 hommes ,20% ont noté « mauvais » (30/150)
Michaël Genin (Université de Lille 2) Statistique descriptive bivariée Version - 27 mai 2016 12 / 28
Variable qualitative / Variable qualitative Représentations graphiques
Point étudié
1 Introduction
2 Variable qualitative / Variable qualitativePrésentation des donnéesReprésentations graphiques
3 Variable quantitative / Variable qualitative
4 Variable quantitative / Variable quantitative
Michaël Genin (Université de Lille 2) Statistique descriptive bivariée Version - 27 mai 2016 13 / 28
Variable qualitative / Variable qualitative Représentations graphiques
Représentations graphiques - Diagramme en barre groupé
30
45
50
25
10
20
65
35
0
10
20
30
40
50
60
70
Mauvais Passable Bon Excellent
EFFECTIFS
APPRÉCIATION
Répartition del'appréciation enfonction dusexe
Homme Femme
Michaël Genin (Université de Lille 2) Statistique descriptive bivariée Version - 27 mai 2016 14 / 28
Variable qualitative / Variable qualitative Représentations graphiques
Représentations graphiques - Diagramme en barre empilé
30
4550
25
10
20
65
35
0
20
40
60
80
100
120
140
Mauvais Passable Bon Excellent
EFFECTIFSCU
MULÉS
APPRÉCIATION
Répartition del'appréciation enfonction dusexe
Homme Femme
Michaël Genin (Université de Lille 2) Statistique descriptive bivariée Version - 27 mai 2016 15 / 28
Variable qualitative / Variable qualitative Représentations graphiques
Représentations graphiques - Diagramme en mosaïque
Répartition de l'appréciation en fonction du sexe
Appréciation
Sexe
Mauvais Passable Bon Excellent
Femme
Homme
Michaël Genin (Université de Lille 2) Statistique descriptive bivariée Version - 27 mai 2016 16 / 28
Variable quantitative / Variable qualitative
Point étudié
1 Introduction
2 Variable qualitative / Variable qualitative
3 Variable quantitative / Variable qualitativePrésentation des donnéesReprésentations graphiques
4 Variable quantitative / Variable quantitative
Michaël Genin (Université de Lille 2) Statistique descriptive bivariée Version - 27 mai 2016 17 / 28
Variable quantitative / Variable qualitative Présentation des données
Point étudié
1 Introduction
2 Variable qualitative / Variable qualitative
3 Variable quantitative / Variable qualitativePrésentation des donnéesReprésentations graphiques
4 Variable quantitative / Variable quantitative
Michaël Genin (Université de Lille 2) Statistique descriptive bivariée Version - 27 mai 2016 18 / 28
Variable quantitative / Variable qualitative Présentation des données
Présentation des données
ConsidéronsVariable quantitative : X ∈ R
Variable qualitative : Y = {y1, y2, . . . , ym}
Variable Y Moyenne Ecart-type
y1 xy1 sy1
y2 xy2 sy2...
......
ym xym sym
Variable Y Médiane Q1 Q3
y1 med(x)y1 Q1(y1) Q3(y1)y2 med(x)y2 Q1(y2) Q3(y2)...
......
...ym med(x)ym Q1(ym) Q3(ym)
Michaël Genin (Université de Lille 2) Statistique descriptive bivariée Version - 27 mai 2016 19 / 28
Variable quantitative / Variable qualitative Présentation des données
Présentation des données
Exemple : croisement de l’âge en fonction du sexe
Sexe Moyenne Ecart-typeHomme 35 12Femme 29 9
Sexe Médiane Q1 Q3
Homme 22 33 45Femme 21 28 38
Michaël Genin (Université de Lille 2) Statistique descriptive bivariée Version - 27 mai 2016 20 / 28
Variable quantitative / Variable qualitative Représentations graphiques
Point étudié
1 Introduction
2 Variable qualitative / Variable qualitative
3 Variable quantitative / Variable qualitativePrésentation des donnéesReprésentations graphiques
4 Variable quantitative / Variable quantitative
Michaël Genin (Université de Lille 2) Statistique descriptive bivariée Version - 27 mai 2016 21 / 28
Variable quantitative / Variable qualitative Représentations graphiques
Représentations graphiques - Boîtes à moustachesCroisement de l’âge et du sexe
Femme Homme
2025
3035
4045
50
Distribution de l'âge en fonction du sexe
Sexe
Age
en
anné
es
Michaël Genin (Université de Lille 2) Statistique descriptive bivariée Version - 27 mai 2016 22 / 28
Variable quantitative / Variable quantitative
Point étudié
1 Introduction
2 Variable qualitative / Variable qualitative
3 Variable quantitative / Variable qualitative
4 Variable quantitative / Variable quantitativeReprésentation graphiqueIndicateur statistique
Michaël Genin (Université de Lille 2) Statistique descriptive bivariée Version - 27 mai 2016 23 / 28
Variable quantitative / Variable quantitative Représentation graphique
Point étudié
1 Introduction
2 Variable qualitative / Variable qualitative
3 Variable quantitative / Variable qualitative
4 Variable quantitative / Variable quantitativeReprésentation graphiqueIndicateur statistique
Michaël Genin (Université de Lille 2) Statistique descriptive bivariée Version - 27 mai 2016 24 / 28
Variable quantitative / Variable quantitative Représentation graphique
Représentation graphique - Nuage de pointsCroisement de la taille et du poids
140 160 180 200
6070
8090
100
110
120
Croisement de la taille et du poids
Taille en cm
Poi
ds e
n K
g
Michaël Genin (Université de Lille 2) Statistique descriptive bivariée Version - 27 mai 2016 25 / 28
Variable quantitative / Variable quantitative Indicateur statistique
Point étudié
1 Introduction
2 Variable qualitative / Variable qualitative
3 Variable quantitative / Variable qualitative
4 Variable quantitative / Variable quantitativeReprésentation graphiqueIndicateur statistique
Michaël Genin (Université de Lille 2) Statistique descriptive bivariée Version - 27 mai 2016 26 / 28
Variable quantitative / Variable quantitative Indicateur statistique
Indicateur statistique - Coefficient de corrélation
Coefficient de corrélation linéaire de Pearson (N ⩾ 30 )
Mesure l’intensité du lien entre X et YCoefficient compris entre -1 et 1 (R ∈ [1, 1])Si R = 0 il n’y a pas de corrélation linéaire entre X et Y. Réciproquement, siR = |1|, il y a une corrélation linéaire parfaite entre X et Y
r = sxy
sx sy=
∑ni=1
∑nj=1(xi − x)(yi − y)√∑n
i=1(xi − x)2√∑n
i=1(yi − y)2
Attention : l’absence de relation linéaire entre deux variables ne permet de conclure àl’absence de relation ⇒ (exponentiel, puissance, . . . ) ⇒ Coefficient de corrélation deSpearman.
Michaël Genin (Université de Lille 2) Statistique descriptive bivariée Version - 27 mai 2016 27 / 28
Variable quantitative / Variable quantitative Indicateur statistique
Indicateur statistique - Coefficient de corrélation
Croisement de la taille et du poids
140 160 180 200
6070
8090
100
110
120
Croisement de la taille et du poids
Taille en cm
Poi
ds e
n K
g
r = 0.68
Michaël Genin (Université de Lille 2) Statistique descriptive bivariée Version - 27 mai 2016 28 / 28