regression 05 03 07
TRANSCRIPT
-
8/14/2019 Regression 05 03 07
1/53
LES MESURES DE LIAISON
DISTRIBUTIONS A DEUX CARACTERES
REGRESSION - AJUSTEMENT CORRELATION
un individu de lchantillon on attache plusieurs caractres
VARIABLES STATISTIQUES
Variables indpendantes
CORRELATION
variables statistiques LIEES
par des relations fonctionnelles
variables lies
liaisons stochastiques
variables lies sans liaisons fonctionnelles
-
8/14/2019 Regression 05 03 07
2/53
lanalyse des liaisons peut se faire entre variables
quantitatives
quantitatives et qualitatives
qualitatives
tude dune corrlation entre une variable y et une variable x
quelle est la forme de la liaison ?linaire
polynomiale
logarithmique
exponentielle
comment mesurer lintensit de la liaison ?coefficient de corrlation
rapport de corrlation
-
8/14/2019 Regression 05 03 07
3/53
TAILLE xi 161 179 182 171 159 192 188 168 161
POIDS yi 55 75 81 67 45 103 79 80 74
srie statistique deux variables quantitatives, ensemble des couples (xi,yi)
notation : (x,y)
x1
x2
x3
x4
y1 n11 n12 n13 n14
y2 n21 n22 n23 n24
y3 n31 n32 n33 n34
y4 n41 n42 n43 n44
jn1
jn3
jn4
jn2
1k
n2k
n
3k
n4k
n
x
y
tableau deffectifs
tableau de contingence
effectifs marginaux
iin lments diagonaux
ijn lments non - diagonaux
-
8/14/2019 Regression 05 03 07
4/53
LIAISONS ENTRE DEUX VARIABLES QUALITATIVES
TABLEAUX DE CONTINGENCE
exemple
chantillon de n individus
variables x (couleurs des cheveux)
Variable y (couleurs des yeux)
i x y1 x1 y1
2 x2 y2
3 x3 y3
.
.
.
i xi yi
.
.
n xn yn
i
blond brun bleu vert1 0 1 0 1
2 0 1 1 0
3 1 0 1 0
.
.
.
i 1 0 1 0
.
.
n 0 1 1 0
x cheveux y yeux
quantificationprsent 1
absent 0
-
8/14/2019 Regression 05 03 07
5/53
TABLEAU CROISEbleu noir total
blond n11 n12 n1.brun n21 n22 n2.total n.1 n.2 n..
yeux
cheveux
nombre de blonds
nombre de bruns
nombre dyeux bleus nombre dyeux noirs effectiftotaltotaux marginaux
totaux
marginaux
in ligne
jn colonne
modalits
-
8/14/2019 Regression 05 03 07
6/53
ijneffectif partiel associ au couple (xi, yj)
n effectif total
=n
nf
ij
ij
frquence partielle sur effectif total
proportion dindividus satisfaisant la fois la modalit xi et
la modalit yi
j
ij
jin
nf
=/
=
i
ij
ij
n
nf /
frquences partielles conditionnelles
proportion dindividus prsentant la modalit xi parmi
les individus qui prsentent la modalit yif de i si j
proportion dindividus prsentant la modalit yi parmi
les individus qui prsentent la modalit xi
f de j si i
-
8/14/2019 Regression 05 03 07
7/53
MISE EN EVIDENCE DUNE LIAISON
bleu noir total
blond200 0 200
brun 0 150 150
total200 150 350
modalits
mo
da
lit
s
yeuxcheveux
tous les blonds ont les yeux bleus
tous les bruns ont les yeux noirs
tous les bruns ont les yeux noirstous les blonds ont les yeux bleus
LIAISON PARFAITE : une modalit ligne est associe une modalit colonne
-
8/14/2019 Regression 05 03 07
8/53
bleu noir vert TOTAL
blond 200 0 100 300brun 0 150 0 150
TOTAL 200 150 100 450
yeux
cheveux
2 variables avec desmodalits diffrentes
bleu ou vert noir TOTAL
blond 300 0 300
brun 0 150 150
TOTAL 300 150 450
yeux
cheveux
regroupement de
modalits
LIAISON PARFAITE
-
8/14/2019 Regression 05 03 07
9/53
bleu noir TOTAL
blond 200 100 300
brun 200 1O0 300
TOTAL 400 200 600
yeux
cheveux
valeurs identiques
LIAISON IMPARFAITE
-
8/14/2019 Regression 05 03 07
10/53
DEFINITION DES PROFILS
nombre de lignes : l nombre de colonnes : c
k
kj
n
n
j
kj
n
n
11
=
=
k
kj
c
j nn 1
1
=
=
j
kj
l
k nn
profils ligne profils colonnes
-
8/14/2019 Regression 05 03 07
11/53
n
n j
11
=
=
n
n jc
j
profils marginaux ligne
n
nk
11
=
=
n
njl
j
profils marginaux colonne
REMARQUE : connexion entre lensemble des frquences de ligne (de colonne)
et les profils marginaux de la ligne (de la colonne)
profils = frquences
-
8/14/2019 Regression 05 03 07
12/53
bleu noir TOTAL
blond 200 100 300
brun 20 10 30
TOTAL 220 110 330
recherche de la nature de liaison entre les variables
yeux
cheveux
-
8/14/2019 Regression 05 03 07
13/53
bleu noir TOTAL
blond
brun
TOTAL
bleu noir TOTAL
blond
brun
TOTAL
300
200
30
20
300
100
30
10
300
400
300
200
PROFILS DE LIGNE
220
200
220
20
220
220
110
100
110
10
110
110
220
400
220
40
220
440
300
300
300
300
300
600
PROFILS DE COLONNE
-
8/14/2019 Regression 05 03 07
14/53
ABSENCE DE LIAISON
=nn
nn j
k
kj
=nn
nn k
j
kjET
=
nnnn
jk
kj
effectifs observs effectifs thoriques
-
8/14/2019 Regression 05 03 07
15/53
LIAISONS INTERMEDIAIRES
nnnn
jk
kj 0
nnnn
jk
kj
0][11
== n
nnn
jk
kj
C
j
l
k
compensation entre les carts relatifs positifs et ngatifs
-
8/14/2019 Regression 05 03 07
16/53
2
11
][
==
n
nnn
jk
kj
C
j
l
k
mesure de la liaison
2
11
][ kjkj
C
j
l
k
TO ==
effectifs observs
effectifs thoriques
2
2
11
][
=
== kj
kjkjC
j
l
k T
TO
]1),[min(2
max
=
cln
-
8/14/2019 Regression 05 03 07
17/53
coefficient de CRAMER
2
max
2
=C
C
Coefficient
Cramer
nature de la
liaison
0 nulle
0 -
-
8/14/2019 Regression 05 03 07
18/53
=
n
nn
n
nnn
Cjk
jk
kj
kj
2][
contribution absolue dune case
1002
kjC
contribution relative dune case
-
8/14/2019 Regression 05 03 07
19/53
-
8/14/2019 Regression 05 03 07
20/53
LIAISONS ENTRE DEUX VARIABLES
QUANTITATIVES
x et y sont des variables quantitatives discrtes
(xi, yi) valeur des caractres de lindividu i
M(xi, yi) : point reprsentatif dans le repre choisi
le nuage de points permet de visualiser la nature de
la courbe dajustement
liaison positive : x et y varient dans le mme sens
liaison ngative : x et y varient en sens inverse
-
8/14/2019 Regression 05 03 07
21/53
+ ++ +
+ ++
+++ +
++++
x
y
+ +++
+++
+
+
+
+
+
+++
x
y
++
+
++ +
++++
+++
+ +
x
y
++
++
++
+
+
++
+
++
++
x
y
corrlation linaire corrlation exponentielle
corrlation polynomiale corrlation logarithmique
-
8/14/2019 Regression 05 03 07
22/53
y
x
++
+
+
+
++
+
++
+
++
++
+
+ + + +
+
++
+
+
indpendance entre les deux caractres
+ +
++
+
+
++
+
+
+
+
+
xx
yy
+
+
+ ++
+
++
+
+
+
+ +
+
+
+
+
+
+
+
+
+
+ + +
+
corrlation linaire
pente positive
corrlation linaire
pente positive
-
8/14/2019 Regression 05 03 07
23/53
MESURE DE LA LIAISON
ii
n
i
yxn
mesure
=
=1
1
mesure non satisfaisante
))((1
1
yyxxn
mesure iin
i
=
=
labsence de liaison est dtecte par
mesure = 0
variables deffectifs gal 1
covariance
yxyxn
yx ii
n
i
=
=
]1
[),cov(1
-
8/14/2019 Regression 05 03 07
24/53
cas dune distribution en classe
srie pondre
l : nombre de lignes c : nombre de colonnes
yxyxnn
yx jiijc
j
l
i
= ==
)(1),cov(11
yxyxfyx jiij
c
j
l
i=
==
)(),cov(11
-
8/14/2019 Regression 05 03 07
25/53
2 3 4 5
10 2 3 7 0
20 0 1 4 2
30 1 3 9 1
40 0 0 2 1
X
Y
127
14
3
3 7 22 4 36
CALCULER
x y xs ys xysi
n
in
ii
c
i
xnn
x
=
=1
1
ii
l
i
ynn
y
=
=1
1
75.336
135
36
452247332==
+++=x
36
34014307201210 +++=y
iixn
6 21 88 20 135
120140
420
120
iiyn
800
22.2236
800==y
ll
-
8/14/2019 Regression 05 03 07
26/53
2 3 4 5
10 2 3 7 0
20 0 1 4 2
30 1 3 9 1
40 0 0 2 1
X
Y
127
14
3
3 7 22 4 36
in
in
2
2
1
2
12
][
=
=
=
n
xnxnn
sii
c
i
ii
c
i
x
ys
2
2
1
2
12
][
=
=
=
n
ynynn
sii
l
i
ii
l
iy
xs
iiyn
120140
420
120
800
iixn
6 21 88 20 135
2iixn
2
ii yn
12 63 352 100
12002800
12600
4800
21400
2
22
36
]800[2140036 =ys
62.1002 =ys
527
2
22
36
]135[52736 =xs
58.02 =xs
-
8/14/2019 Regression 05 03 07
27/53
2 3 4 5
10 2 3 7 0
20 0 1 4 2
30 1 3 9 1
40 0 0 2 1
X
Y
2 3 4 5
4 9 28 0
0 3 16 10
2 9 36 5
0 0 8 5
10 20 30 70 0
20 0 20 80 40
30 30 90 270 30
40 0 0 80 40
iij
l
i yn=1
50 140 500 110
2 3 4 5
100 420 2000 550 3070
41
29
52
13
10
20
30
40
410
580
1560
520
3070
jij
c
jxn=1
95.122.22*75.336
3070==xys
-
8/14/2019 Regression 05 03 07
28/53
EXERCICES
0 1 2 3
0 4 1 0 010 0 2 7 1
20 0 0 1 3
xy
5 10 15 20 25 30 40 50 60
5 7 28 31 15 12 0 3 0 0
15 0 0 0 23 7 2 10 2 0
25 0 0 2 4 19 0 6 1 050 0 0 0 2 1 0 4 0 0
80 0 0 0 0 0 0 0 0 1
xy
CALCULER- les distributions marginales;- les moyennes et les carts types;
- la covariance.
-
8/14/2019 Regression 05 03 07
29/53
COURBES DE REGRESSION ET CORRELATION
POPULATION
= nN
individus
x, y
deux variables quantitatives
les variations de la variable x
(variable explicative) sont la
cause des variations de lavariable y (variable expliquer)
lorsque le nuage de points semble
avoir une allure gnrale identifiable,
on cherche approcher ( AJUSTER)le nuage par une courbe dont il faudra
dterminer les paramtres
Il existe trois catgories de courbes de rgression relatives une distribution
deux variables
)(xfy = )(ygx=
xyC / yxC /
-
8/14/2019 Regression 05 03 07
30/53
LIAISON FONCTIONNELLE
chaque valeur de xi correspond une valeur de yi et rciproquement
1 3 5
20 3 0 0 3
40 0 0 3 390 0 4 0 4
3 4 3 10
in
jn
x
yii
l
ij
j
ij
l
ij
iij
l
ij
j xxn
nxn
nxn
nx ====
=
== 111
11
ij
c
ji
iji
c
ji
jij
c
ji
i yyn
nyn
nyn
ny ====
=
== 111
11
les moyennes conditionnelles sont gales aux valeursdes variables
les courbes de rgression sont confondues
y=f(x) identique x=g(y)
Il existe une loi rigoureuse entre les deux variables
-
8/14/2019 Regression 05 03 07
31/53
LIAISON NULLE OU INDEPENDANCE TOTALE
deux variables x et y sont totalement indpendantes si les variations de lune
nentranent pas de variations de lautre
les courbes de rgerssion sont des droites perpendiculaires parallles aux axes
x1 x2
y1 3 5 8
y2 6 10 16
9 15 24
in
jn
xy
24
8
15
5
9
3/ ====
j
ij
jin
nf
2416
1510
96
/ ====
j
ij
jinnf
24
9
16
6
8
3/ ====
i
ij
ijn
nf
24
15
16
10
8
5/ ====
i
ij
ij
n
nf
= iji ff/ jij ff =/
les frquences conditionnelles sont
gales aux frquences marginales
les moyennes conditionnelles sont
gales aux moyennes marginales
pour chaque variable
-
8/14/2019 Regression 05 03 07
32/53
yy
x0
x
y
+ + + +
+ + + +
+ + + +
+ + + +
+ + + +
+ + + +
+ + + ++ + + +
+ + + +
+ + + ++ + + +
+ + + +
yxC /
xyC /
Indpendance totale
yxi
xyi
-
8/14/2019 Regression 05 03 07
33/53
LIAISON RELATIVE
Il ny a plus de proprits remarquables dans le tableau de contingence
la corrlation nest pas une proprit rciproque
y li x nimplique pas que x soit li y
corrlation directe ou positive
les deux caractres varient dans le mme sens
corrlation inverse ou ngative
les deux caractres varient en sens contraire
corrlation linaire
les deux courbes de rgression sont des droitesnon parallles aux axes de coordonnes
la liaison sera dautant plus forte que langle entre ces deux droites est petit
un angle de 90 correspond lindpendance dcrite prcdemment
la mesure de cet angle est une mesure de la qualit de la liaison fonctionnelle
-
8/14/2019 Regression 05 03 07
34/53
PRINCIPE DUN AJUSTEMENT LINEAIRE
OBJECTIF
partir des observations (xi, yi) on recherche une fonction qui lie les deux variables
y = ax + b
AJUSTEMENT AFFINE
les paramtres a et b de la droite dajustement sont obtenus en exprimant que
chaque observation est sur la droite une erreur prs appele rsidu
rsidu = yi(axi + b)
Rappel
si une droite est connue par un point M(x0, y0) et le coefficient directeur a,
lquation de la droite scrit
(y y0) = a(x x0)
-
8/14/2019 Regression 05 03 07
35/53
AJUSTEMENT GRAPHIQUE
laide de la rgle, on dtermine visuellement la droite qui partage le nuage de
points de manire quitable
),( yxGpoint dappui
LISSAGE PAR LA METHODE DES MOYENNES MOBILES
des groupes de points de mme effectif sont remplacs par leurs points moyens
(barycentres)
Lajustement graphique est ensuite plus ais sur un nombre de points restreint
-
8/14/2019 Regression 05 03 07
36/53
quation dune droite dfinie par deux points
),( 11 yx ),( 22 yx
baxy += 11 baxy+=
22
12
12
xxyya
=
b est obtenu en reportant a dans lune des quations de la droite
-
8/14/2019 Regression 05 03 07
37/53
METHODE DE MAYER
le nuage de points est partag en deux parties raisonnablement quilibres
on dtermine les deux points moyens partiels (barycentres) G1 et G2
la droite de Mayer passe par ces deux points
x
y
x
x
G1
G2
x
),( yxG
+
+
+ +
++
+
+
+
+
+
+
+
+
+
+
++
+
++
+
+
+
+ ++
+
O
-
8/14/2019 Regression 05 03 07
38/53
LA DROITE DALLOMETRIE
hypothse
la droite a un coefficient directeur positifrle symtrique de x et y
minimisation de la somme des produits
))((i
ii yx yixyx
=y
x
ix
iy
ix
iy
ix
iyiN
iP
iMx
x
x
iM point exprimental
iN
iP
points sur la droite dallomtrie
la droite dallomtrie passe par le point ),( yxG
)( xxayy =x
y
ssa =
-
8/14/2019 Regression 05 03 07
39/53
AJUSTEMENT LINEAIRE : METHODE DES MOINDRES CARRES
x
y baxy +=
x
x
x
x x
x
x
x
ix
iy
'iy
iM
1iM
1+iM
2+iM
'iM
-
8/14/2019 Regression 05 03 07
40/53
ajustement de y en fonction de x y = ax + b
les deux inconnues du problme sont a et b
pour chaque abscisse xi lordonnesera yi = axi + b
les rsidus sont algbriques et se notent'
iii yy =
si le point exprimental est sur la droite dajustement
0=
i
mthodes des moindres carrs
minimisation de la quantit
2
1
2
1
2 )]([),( baxybaS ii
N
i
i
N
i
+== ==
-
8/14/2019 Regression 05 03 07
41/53
procdure de minimisation
22222
1
2
1
]222[ babxxabyyaxyiiiiii
N
ii
N
i
+++===
minimisation
]222[][ 2
1
2
1iiii
N
i
i
N
i
bxaxyxa
++=
==
]222[][1
2
1
baxbyb
ii
N
i
i
N
i
++=
==
-
8/14/2019 Regression 05 03 07
42/53
systme de deux quations deux inconnues (a et b) rsoudre
0][1
=
=baxyx
iii
N
i
0][1
==
baxy ii
N
i
)1(
)2( 01111
= ===
N
i
i
N
i
i
N
i
bxay
NN
i
==
11
011
11
= ==
bxN
ayN
i
N
i
i
N
i
)2(
y x
0= bxay
la courbe dajustement passe bienpar le point
),( yxG
xayb =
dtermination de b
-
8/14/2019 Regression 05 03 07
43/53
dtermination de a
)1( 01
1
2
11
= ===
i
N
i
i
N
i
ii
N
i
xbxN
ayx
xayb =xNxi
N
i
==1
)1( 0
1 22
11
=+
== xabyxNxNayxi
N
iii
N
i
22
1
1
xNx
yxNyxa
i
N
i
ii
N
i
=
=
=
22
1
1
2
1
xNx
yxxxyb
i
N
i
ii
N
ii
N
i
=
=
==
-
8/14/2019 Regression 05 03 07
44/53
Remarque : si leffectif total de lchantillon est petit et si les caractres sont des
nombres entiers, il est conseill de centrer les variables. Dans ces conditions :
2
1
1
)(
))((
xx
yyxxa
i
N
i
ii
N
i
=
=
=
-
8/14/2019 Regression 05 03 07
45/53
AUTRE FORMULATION
baxy+=
)()( xxayy=
2
),cov(
xs
yxa =
xayb=
Rappel : la courbe dajustement passe par le point ),( yxG
x
s
yxyb
x
2
),cov(=
-
8/14/2019 Regression 05 03 07
46/53
permutation des rles
ajustement de x en fonction de y
)()( ' yyaxx =2
' ),cov(
ys
yxa =
le coefficient directeur decette droite est : '1
a
)(xfy =
)(ygx=
droite de coefficient directeur a
droite de coefficient directeur'
1
a
-
8/14/2019 Regression 05 03 07
47/53
coefficient de corrlation linaire = mesure de la corrlation
'2 aar =yxssyxr ),cov(= 11 + r
1=r 0=r 10
-
8/14/2019 Regression 05 03 07
48/53
x
x
y
Gy
x
y
x
xG
y
xO O
corrlation forte corrlation faible
-
8/14/2019 Regression 05 03 07
49/53
qualit dun ajustement
le coefficient de corrlation permet de mesurer la corrlation entre deux variables
dune srie statistique
la qualit de la rgression est mesure par lcart quadratique moyen
2
1
2
)]([
1ii
N
ic xfyNs
=
=yxfxfyyy iiii += )()(
222
rcy sss+=
contributionde lajustement
222 1 rss yc =2
1
2 ])([1
yxfN
s i
N
i
r = =
-
8/14/2019 Regression 05 03 07
50/53
AJUSTEMENTS NON LINEAIRES
-
8/14/2019 Regression 05 03 07
51/53
ajustement exponentiel
xbay =a et b sont des constantes
axby lnlnln +=
Y B xA
on arrive donc un ajustement de type linaire
xABY +=finalement
Aea =
Beb =
-
8/14/2019 Regression 05 03 07
52/53
ajustement logarithmique
bxay += lna et b sont des constantes xX ln=
on arrive donc un ajustement de type linaire
baXY +=
changement de variable
-
8/14/2019 Regression 05 03 07
53/53
ajustement par une fonction puissance
abxy =a et b sont des constantes
on arrive donc un ajustement de type linaire
aXBY +=
xaby lnlnln +=
Y B aX
finalementB
eb =