analyse multidimensionnelle des donnees
TRANSCRIPT
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
1/156
1
Analyse multidimensionnelle
des donnesF.-G. Carpentier
2011/2012
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
2/156
2
Interprtation
R
empiriqueS
gomtrique
Mthodes danalyse
Analyse multidimensionnelle des donnes : de quoi sagit-il ?
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
3/156
3
PAO PAA VIO VIA POT LEC RAI PLP
AGRI 167 1 163 23 41 8 6 6
SAAG 162 2 141 12 40 12 4 15
PRIN 119 6 69 56 39 5 13 41
CSUP 87 11 63 111 27 3 18 39
CMOY 103 5 68 77 32 4 11 30
EMPL 111 4 72 66 34 6 10 28
OUVR 130 3 76 52 43 7 7 16
INAC 138 7 117 74 53 8 12 20
Consommations annuelles de 8 types de denres alimentaires pour 8catgories socio-professionnelles
Source : Saporta, 1990
Exemples de donnes relevant de lanalyse multidimensionnelle
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
4/156
4
Variables :
PAO Pain ordinairePAA Autre painVIO Vin ordinaireVIA Autre vinPOT Pommes de terreLEC Lgumes secsRAI Raisin de table
PLP Plats prpars
Observations :
AGRI Exploitants agricolesSAAG Salaris agricolesPRIN Professions indpendantesCSUP Cadres suprieursCMOY Cadres moyensEMPL EmploysOUVR Ouvriers
INAC Inactifs
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
5/156
5
Droit Sciences Mdecine IUT
Exp. agri. 80 99 65 58
Patron 168 137 208 62
Cadre sup. 470 400 876 79
Employ 145 133 135 54
Ouvrier 166 193 127 129
Tableau de contingence : rpartition dtudiants en 1975-1976
Cit par Saporta (1990)
Exemples de donnes relevant de lanalyse multidimensionnelle
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
6/156
6
Exemples de donnes relevant de lanalyse multidimensionnelle
Questions rponses fermes : sexe (2 modalits), niveau de revenu (2modalits), prfrence (3 modalits)
1
Sexe
2
Revenu
3
Preference
s1
s2
s3
s4
s5
s6
s7
s8
s9
s10
F M A
F M A
F E B
F E C
F E C
H E C
H E B
H M B
H M B
H M A
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
7/156
7
Mthodes
danalysede donnes
Fondes surun modlelinaire
Exploratoires,descriptives, nonsupervises
Statistiques lmentairesAnalyse en composantes principalesMthodes de classification
Prdictives,supervises
Variable dpendantequantitative
Variable dpendantequalitative
Rgression linaire multipleRgression en composantes principalesPartial Least Squares
Rgression LogistiqueAnalyse discriminante
Non linaires Non supervises Rseauneuromimtique deKohonen
PrdictivesSupervises
Variable dpendantequantitative ou qualitative
Rseauneuromimtiquemulticouche
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
8/156
8
Analyse en composantes principales
Donnes :
Elment de cette matrice : xij
n
pVariables
Individu ouobservation
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
9/156
9
Principaux rsultats dune ACP
Coordonnesfactorielles ouscores
n
p
Variables
n
p
k
Valeurs propresk
Vecteurs propres (transposs)
k
Individus
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
10/156
10
Principe de la mthode
Calcul des distances entre individus
Recherche des directions de plus grande dispersion du nuagede points : axes factoriels
Plus grande dispersion : moindre dformation
Meilleur respect des distances entre individus
Maximisation de linertie du nuage projet
On procde axe par axe, mais les proprits restent vraies pour
le premier plan factoriel, le premier espace factoriel de dimension3, etc
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
11/156
11
Project ion des ind. sur le plan factoriel ( 1 x 2)
Observations avec la som m e des cos inus carrs >= 0,00
Active
AGRI
SAAG
PRINC SU P
CMOY EMPL
OUVR
INAC
-6 -4 -2 0 2 4
Fact. 1 : 77,60%
-1,0
-0,5
0 ,0
0 ,5
1 ,0
1 ,5
2 ,0
2 ,5
3 ,0
Fact.2:11,00%
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
12/156
12
Project ion des variables s ur le plan factor iel ( 1 x 2)
Active
PAO
PAA
VIOVIA
POT
LEC
R AI
PL P
-1 ,0 -0 ,5 0 ,0 0 ,5 1 ,0
Fact. 1 : 77,60%
-1,0
-0,5
0 ,0
0 ,5
1 ,0
Fact.2
:11,00%
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
13/156
13
M
P
O c1
c2
Cosinus carrs
2
2
11
2 ),(OMOcCPOMCos
2
2
22
2 ),(OM
OcCPOMCos
2
2
2 ),(OM
OPOPOMCosQUAL
QualitOM : vecteur de lobservation
OP
1Oc
2Oc
: vecteur de la projection sur le plan factoriel
: projection sur laxe 1
: projection sur laxe 2
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
14/156
14
QLT Coord. 1 Cos2 Ctr Coord. 2 Cos2 Ctr
AGRI0,889 1,35 0,884 22,89 -0,26 0,005 0,86
SAAG0,913 1,41 0,898 24,97 -0,48 0,014 2,84
PRIN0,576 -0,59 0,575 4,36 0,06 0,001 0,05
CSUP0,943 -1,75 0,942 38,26 0,19 0,002 0,44
CMOY 0,940 -0,69 0,753 5,94 -0,91 0,187 10,43
EMPL0,858 -0,32 0,428 1,31 -0,86 0,430 9,29
OUVR0,376 0,36 0,361 1,63 -0,20 0,015 0,48
INAC 0,987 0,23 0,056 0,64 2,46 0,932 75,61
100 100
Contributions des individus
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
15/156
15
Analyse factorielle
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
16/156
16
Analyse factorielle(factor analysis ou FA). Origine : travaux de Pearson(1901).Dveloppe au dpart par des psychologues.Vers 1940 : fondements thoriques, au niveau statistique,
- nombreuses variantes :parfois dsigne par le terme "analyse en facteurs communs et spcifiques",selon les variantes :"analyse factorielle exploratoire" (exploratory factor analysis ou EFA)"analyse factorielle confirmatoire" (confirmatory factor analysis ou CFA).
L'analyse en facteurs principaux (principal factor analysis ou PFA) est l'unedes variantes de l'analyse factorielle.
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
17/156
17
Mechanics(C) Vectors(C) Algebra(O) Analysis(O) Statistics(O)
1 77 82 67 67 81
2 63 78 80 70 81
3 75 73 71 66 81
4 55 72 63 70 68
5 63 63 65 70 63
6 ..
Exemple : 88 sujets 5 matires
On cherche un modle deux facteurs, en utilisantla mthode du maximum de vraisemblance.
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
18/156
18
Val. Propres (Open/Closed Book Data)
Extraction : Facteurs du max. de vrais.
Val Propre % Total Cumul Cumul
variance Val propre %
1 2,824170 56,48341 2,824170 56,48341
2 0,319491 6,38983 3,143662 62,87323
Communauts (Open/Closed Book) Rotation : Sans rot.
Pour 1 Pour 2 R-deux
Facteur Facteurs Multiple
Mechanics(C) 0,394878 0,534103 0,376414
Vectors(C) 0,483548 0,580944 0,445122
Algebra(O) 0,808935 0,811431 0,671358
Analysis(O) 0,607779 0,648207 0,540864
Statistics(O) 0,529029 0,568977 0,479319
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
19/156
19
Qualit d'ajust.,2 (Open/Closed Book Data)(Test de la nullit des lments en dehors de la diagonale dans la matrice
de corr.)
% expl. Chi dl p
Rsultat 62,87323 0,074710 1 0,784601
Corrlations des Rsidus (Open/Closed Book Data) (Rsidus marqus sont > ,100000)Mechanics(C) Vectors(C) Algebra(O) Analysis(O) Statistics(O)
Mechanics(C) 0,47 -0,00 0,00 -0,01 0,01
Vectors(C) -0,00 0,42 -0,00 0,01 -0,01
Algebra(O) 0,00 -0,00 0,19 -0,00 0,00
Analysis(O) -0,01 0,01 -0,00 0,35 -0,00Statistics(O) 0,01 -0,01 0,00 -0,00 0,43
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
20/156
20
Poids Factoriels(Sans rot.) (Open/Closed Book Data) (Poids marqus
>,700000)
Facteur 1 Facteur 2
Mechanics(C) -0,628393 0,373128
Vectors(C) -0,695376 0,312083Algebra(O) -0,899408 -0,049958
Analysis(O) -0,779602 -0,201066
Statistics(O) -0,727344 -0,199869
Var. Expl. 2,824170 0,319491
Prp.Tot 0,564834 0,063898
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
21/156
21
Poids factoriels, Fact. 1 vs. Fact. 2
Rotation : Sans rot.
Extraction : F acteurs du max. de vrais.
Mechanics(C)
Vectors(C)
Algebra(O)
Analysis(O) Statistics(O)
-0,95 -0,90 -0,85 -0,80 -0,75 -0,70 -0,65 -0,60
Facteur1
-0,3
-0,2
-0,1
0, 0
0, 1
0, 2
0, 3
0, 4
0, 5
Facteur2
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
22/156
22
ir
k
r
iri EFlX 1
spcifiqueerreurlatentevariablecoeff.observeVariable
- On a observ un ensemble X1, X2, ..., Xp de variables sur un chantillon- On fait l'hypothse que ces variables dpendent (linairement) en partie de k
variables non observables, ou variables latentes ou facteurs F1, F
2, ..., F
k.
On cherche donc dcomposer les variables observes Xi (supposes centres) de la
faon suivante :
avec les conditions suivantes :- Le nombre k de facteurs est fix l'avance.
- Les facteurs Fr sont centrs rduits, non corrls entre eux- Les termes d'erreur Ei sont non corrls avec les facteurs
- Les termes d'erreur Ei sont non corrls entre eux.
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
23/156
23
Mthodes dextraction des facteurs
Plusieurs mthodes (cf. Statistica). Par exemple :
PCA (principal component analysis) : la mthoderevient faire une ACP, mais avec la possibilitdeffectuer une rotation des facteurs
PFA (principal factor analysis) : on cherche maximiser les communauts
AF avec extraction par la mthode du maximumde vraisemblance (Maximum Likelihood extraction :MLE) : mais quest-ce que la vraisemblance ?
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
24/156
24
Notion de vraisemblance d'une valeur d'un paramtre :
Questions du type : "Etant donn des rsultats observs sur unchantillon, est-il vraisemblable qu'un paramtre donn de lapopulation ait telle valeur ?".
Exemple 1 : (variable discrte) Lors d'un rfrendum, on interrogetrois personnes. Deux dclarent voter "oui", la troisime dclarevoter "non".Au vu de ces observations, laquelle de ces deux hypothses est laplus vraisemblable :
- Le rsultat du rfrendum sera 40% de "oui"- Le rsultat du rfrendum sera 60% de "oui".
Solution. Si le rsultat du rfrendum est de 40% de "oui", laprobabilit d'observer trois personnes votant respectivement "oui","oui" et "non" est : P1 = 0,4x0,4x0,6 = 0,096. Si le rsultat durfrendum est de 60% de oui, la mme probabilit est : P2 =0,6x0,6x0,4 = 0,144. La seconde hypothse est donc plusvraisemblable que la premire.
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
25/156
25
Lors d'un test effectu sur un chantillon de 5 sujets, on a observ les scoressuivants :
90, 98, 103, 107, 112.
Deux modles sont proposs pour reprsenter la distribution des scoresdans la population parente :
- La loi normale de moyenne 100 et d'cart type 15- La loi normale de moyenne 102 et d'cart type 10.
Quel est le modle le plus vraisemblable ?
Notion de vraisemblance d'une valeur d'un paramtre
Exemple 2 :
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
26/156
26
On utilise la valeur de la distribution de la loi thorique au lieu de laprobabilit de la valeur observe. La vraisemblance associe chaquehypothse, calcule l'aide d'Excel, est donc :
Obs Modle 1 Modle 2
90 0,02130 0,01942
98 0,02636 0,03683
103 0,02607 0,03970107 0,02385 0,03521
112 0,01931 0,02420
Vraisemblance 6,74E-09 2,42E-08
Le modle 2, dont la vraisemblance est de 2,42 10-8 est plusvraisemblable que le modle 1.
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
27/156
27
Estimation du maximum de vraisemblance
L'estimation du maximum de vraisemblance (EMV, maximum likelihoodestimation ou MLE dans les ouvrages anglo-saxons) est la valeur duparamtre pour laquelle la vraisemblance est maximum -> valeur annulantune drive.
Les calculs de vraisemblance sont souvent multiplicatifs et conduisent des
nombres trs proches de 0.
On utilise gnralement la fonction L, oppose du logarithme de lavraisemblance. Dans le cas prcdent du referendum on aurait ainsi :
L = - ln P = - 2 ln p - ln(1 - p).
La recherche de l'estimation du maximum de vraisemblance revient alors chercher le minimum de cette fonction.
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
28/156
28
Mthode du maximum de vraisemblance : test statistique d'adquation du modle.
On fixe a priori un nombre k de facteurs extraire. Les poids factoriels des variables sur les
diffrents facteurs sont alors dtermins de manire optimiser une fonction de
vraisemblance..Test statistique permet valuant la validit du rsultat.
H0 : Il y a exactement kfacteurs communs.H1 : Plus de kfacteurs sont ncessaires.La statistique utilise suit approximativement une loi du khi-2 avec
kpkp 221
degrs de libert (p : nombre de variables, k : nombre de facteurs extraits).
Si le khi-2 trouv excde la valeur critique correspondant au niveau de
significativit choisi, H0 est rejete, et il faut considrer au moins k+1 facteurs
dans le modle.
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
29/156
29
Rotation des facteurs :rotations orthogonales, rotations obliques
Les facteurs extraits ne sont pas dtermins de manire unique
Toute rotation sur les facteurs produit une autre solution
Rechercher une solution qui "fasse sens", c'est--dire qui produise des facteurs
plus simples interprter.La transformation par rotation n'affecte pas l'adquation du modle aux
donnes. Les communauts, notamment, restent les mmes.
Les solutions avant ou aprs rotation peuvent tre interprts de faon
notablement diffrente.
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
30/156
30
Poids Factoriels (sansrotation)
Poids Factoriels (aprs rotationvarimax normalis)
Facteur 1 Facteur 2 Facteur 1 Facteur 2
Mechanics(C) -0,628393 0,373128 0,270028 0,679108
Vectors(C) -0,695376 0,312083 0,360346 0,671636
Algebra(O) -0,899408 -0,049958 0,742939 0,509384Analysis(O) -0,779602 -0,201066 0,740267 0,316563
Statistics(O) -0,727344 -0,199869 0,698141 0,285615
Var. Expl. 2,824170 0,319491 1,790119 1,353543
Prp.Tot 0,564834 0,063898 0,358024 0,270709
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
31/156
31
Calsyn et Kenny (1971) ont tudi la relation entre les aptitudesperues et les aspirations scolaires de 556 lves du 8 grade. Lesvariables observes taient les suivantes :
Self : auto-valuation des aptitudesParent : valuation par les parentsTeacher : valuation par l'enseignantFriend : valuation par les amisEduc Asp : aspirations scolairesCol Plan : projets d'tudes suprieures
Exemple danalyse factorielle confirmatoire
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
32/156
32
Feuille de donnes3
1
Self
2
Parent
3
Teacher
4
Friend
5
Educ Asp
6
Col Plan
Self
ParentTeacher
Friend
Educ Asp
Col Plan
Moyenne
Ec-Types
Nb Obs.Matrice
1,00 0,73 0,70 0,58 0,46 0,56
0,73 1,00 0,68 0,61 0,43 0,520,70 0,68 1,00 0,57 0,40 0,48
0,58 0,61 0,57 1,00 0,37 0,41
0,46 0,43 0,40 0,37 1,00 0,72
0,56 0,52 0,48 0,41 0,72 1,00
0,00000 0,00000 0,00000 0,00000 0,00000 0,00000
1,00000 1,00000 1,00000 1,00000 1,00000 1,00000
556,000001,00000
Corrlations entre les variables observes
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
33/156
33
Le modle tester fait les hypothses suivantes :- Les 4 premires variables mesurent la variable latente "aptitudes"- Les deux dernires mesurent la variable latente "aspirations".Ce modle est-il valide ? Et, s'il en est bien ainsi, les deux variableslatentes sont-elles corrles ?
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
34/156
34
Modle Estim (Ability and Aspiration dans AFC.stw)
Aptitudes Aspirations
Communa
utSpcific
it
Self 0,863 0,745 0,255
Parent 0,849 0,721 0,279
Teacher 0,805 0,648 0,352
Friend 0,695 0,483 0,517
Educ Asp 0,775 0,601 0,399Col Plan 0,929 0,863 0,137
Statistiques de Synthse (Ability and Aspiration dans AFC.stw)
Valeur
Chi-Deux MV 9,256Degrs de Libert 8,000
Niveau p 0,321
P=0,32 : bonne adquation du modle aux donnes
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
35/156
35
Analyse factorielle descorrespondances
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
36/156
36
Droit Sciences Mdecine IUT
Exp. agri. 80 99 65 58
Patron 168 137 208 62
Cadre sup. 470 400 876 79
Employ 145 133 135 54
Ouvrier 166 193 127 129
Tableau de contingence : rpartition dtudiants en 1975-1976
Cit par Saporta (1990)
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
37/156
37
Effectifs observs O
Droit Sciences Mdecine IUT
Exp. agri. 80 99 65 58
Patron 168 137 208 62
Cadre sup. 470 400 876 79
Employ 145 133 135 54Ouvrier 166 193 127 129
Test du khi-2 sur un tableau de contingence
Modalits lignes : variable X
Modalits colonnes : variable Y
Hypothses du test :H0 : Les variables X et Y sont indpendantesH1 : Les variables X et Y sont dpendantes
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
38/156
38
Effectifs observs Oij
Droit Scienc
es
Mdecine IUT Total
Exp. agri. 80 99 65 58 302
Patron 168 137 208 62 575
Cadre sup. 470 400 876 79 1825
Employ 145 133 135 54 467
Ouvrier 166 193 127 129 615
Total 1029 962 1411 382 3784
Construction de la statistique de test
Effectifs thoriques TijDroit Sciences Mdecine IUT
Exp. agri. 82,12 76,78 112,61 30,49
Patron 156,36 146,18 214,41 58,05Cadre sup. 496,28 463,97 680,52 184,24
Employ 126,99 118,72 174,14 47,14
Ouvrier 167,24 156,35 229,32 62,09
GnralTotal
jcolonneTotaliligneTotal
ijT
3784
102930282,12:Exemple
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
39/156
39
Contributions au khi-2
Droit Sciences Mdecine IUT
Exp. agri. 0,05 6,43 20,13 24,83
Patron 0,87 0,58 0,19 0,27
Cadre sup. 1,39 8,82 56,15 60,11
Employ 2,55 1,72 8,80 1,00
Ouvrier 0,01 8,59 45,66 72,12
Contributions au khi-2 : (O - T)2
/T
12,82
12,8280
05,0:Exemple
;)(
Ctr
2
2
ij
ij
ijij
T
TO
Calcul du khi-2
2,32012,72...05,0Ctr
,
2 ji
ijObs
Nombre de degrs de libert :
121-colonnesModalitsNb1-lignesModalitsNbddl
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
40/156
40
y=chi2(x;12)
0 5 10 15 20 25 30
0,00
0,02
0,04
0,06
0,08
0,10
Loi du khi-2
03,212 Crit
H0 retenue H0 rejete ; H1 retenue
5%95%
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
41/156
41
22
CritObs : on conclut donc sur H1
Les deux variables tudies dpendent lune de lautre
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
42/156
42
Effectifs et frquences marginaux
Droit Sciences
Mdecine
IUT Effectifsmarginauxlignes
Frquence
Exp. agri. 80 99 65 58 302 0,0798
Patron 168 137 208 62 575 0,1520
Cadre sup. 470 400 876 79 1825 0,4823
Employ 145 133 135 54 467 0,1234
Ouvrier 166 193 127 129 615 0,1625
Effectifsmarginaux
colonnes
1029 962 1411 382 3784
Frquence 0,2719 0,2542 0,3729 0,1010
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
43/156
43
Frquences thoriques dans l'hypothse d'indpendance
X 0,2719 0,2542 0,3729 0,1010
0,0798 0,0217 0,0203 0,0298 0,0081
0,1520 0,0413 0,0386 0,0567 0,0153
0,4823 = 0,1312 0,1226 0,1798 0,0487
0,1234 0,0336 0,0314 0,0460 0,01250,1625 0,0442 0,0413 0,0606 0,0164
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
44/156
44
Frquences thoriques dans l'hypothse d'indpendance
0164,00606,00413,00442,0
0125,00460,00314,00336,0
0487,01798,01226,01312,0
0153,00567,00386,00413,0
081,00298,00203,00217,0
1010,03729,02542,02719,0
1625,0
1234,0
4823,0
1520,0
0798,0
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
45/156
45
Effectifs thoriques dans le cas d'indpendance
0,0217 0,0203 0,0298 0,0081 82,12 76,78 112,61 30,49
0,0413 0,0386 0,0567 0,0153 156,36 146,18 214,41 58,05
0,1312 0,1226 0,1798 0,0487 496,28 463,97 680,52 184,24
0,0336 0,0314 0,0460 0,0125 126,99 118,72 174,14 47,14
0,0442 0,0413 0,0606 0,0164 x 3784 = 167,24 156,35 229,32 62,09
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
46/156
46
Effectifs observs O
Droit Sciences Mdecine IUT
Exp. agri. 80 99 65 58
Patron 168 137 208 62
Cadre sup. 470 400 876 79
Employ 145 133 135 54
Ouvrier 166 193 127 129
Effectifs thoriques T
Droit Sciences Mdecine IUT
Exp. agri. 82,12 76,78 112,61 30,49
Patron 156,36 146,18 214,41 58,05
Cadre sup. 496,28 463,97 680,52 184,24
Employ 126,99 118,72 174,14 47,14
Ouvrier 167,24 156,35 229,32 62,09
Ecarts l'indpendance : E = O - T
Droit Sciences Mdecine IUT
Exp. agri. -2,12 22,22 -47,61 27,51
Patron 11,64 -9,18 -6,41 3,95
Cadre sup. -26,28 -63,97 195,48 -105,24
Employ 18,01 14,28 -39,14 6,86
Ouvrier -1,24 36,65 -102,32 66,91
Droit Sciences Mdecine IUT
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
47/156
47
Effectifs thoriques T
Droit Sciences Mdecine IUT
Exp. agri. 82,12 76,78 112,61 30,49
Patron 156,36 146,18 214,41 58,05
Cadre sup. 496,28 463,97 680,52 184,24
Employ 126,99 118,72 174,14 47,14Ouvrier 167,24 156,35 229,32 62,09
Ecarts l'indpendance : E = O - TDroit Sciences Mdecine IUT
Exp. agri. -2,12 22,22 -47,61 27,51
Patron 11,64 -9,18 -6,41 3,95Cadre sup. -26,28 -63,97 195,48 -105,24
Employ 18,01 14,28 -39,14 6,86
Ouvrier -1,24 36,65 -102,32 66,91
Taux de liaison : (O - T)/T : valeursdans lintervalle [-1, + [
-0,42 : leffectif observ est infrieurde 42% leffectif thorique
1,08 : leffectif observ est suprieur
de 108% leffectif thorique
Droit Sciences Mdecine IUT
Exp. agri. -0,03 0,29 -0,42 0,90
Patron 0,07 -0,06 -0,03 0,07
Cadresup.
-0,05 -0,14 0,29 -0,57
Employ 0,14 0,12 -0,22 0,15
Ouvrier -0,01 0,23 -0,45 1,08
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
48/156
48
Les questions auxquelles on cherche rpondre :
- Quelles sont les modalits lignes qui sont proches du profil lignemoyen ? Quelles sont celles qui sen cartent le plus ?
- Quelles sont les modalits colonnes qui sont proches du profilcolonne moyen ? Quelles sont celles qui sen cartent le plus ?
- Quelles sont les modalits lignes et les modalits colonnes qui sattirent ? Quelles sont celles qui se repoussent ?
Analyse des correspondances
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
49/156
49
Notations :
Soit un tableau de contingence comportant p lignes et q colonnes.
- L'lment du tableau situ l'intersection de la ligne i et de lacolonne j est not nij.
- La somme des lments d'une ligne est note
- La somme des lments d'une colonne est note
in
jn
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
50/156
50
q
j i
ji
i
ij
j
iin
n
n
n
n
nd
1
2
'
'2
'
2222
2
12575
62
302
58
382
3784
575
208
302
65
1411
3784
575
137
302
99
962
3784
575
168
302
80
1029
3784
d
Distance (du Phi-2) entre deux profils lignes :
Exemple :
Droit Sciences Mdecine IUT Effectifs
marginaux lignesExp. agri. 80 99 65 58 302
Patron 168 137 208 62 575
Cadre sup. 470 400 876 79 1825
Employ 145 133 135 54 467
Ouvrier 166 193 127 129 615
Effectifs marginauxcolonnes
1029 962 1411 382 3784
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
51/156
51
p
i j
ij
j
ij
i
jjn
n
n
n
n
nd
1
2
'
'2 '
22222
2
12962
193
1029
166
615
3784
962
133
1029
145
467
3784
962
400
1029
470
1825
3784
962
137
1029
168
575
3784
962
99
1029
80
302
3784
d
Distance (du Phi-2) entre deux profils colonnes :
Exemple : distance entre les colonnes 1 et 2
Droit Sciences Mdecine IUT Effectifs
marginaux lignes
Exp. agri. 80 99 65 58 302
Patron 168 137 208 62 575
Cadre sup. 470 400 876 79 1825
Employ 145 133 135 54 467
Ouvrier 166 193 127 129 615
Effectifs marginauxcolonnes
1029 962 1411 382 3784
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
52/156
52
- Si on regroupe deux modalits lignes, les distances entre les
profils-colonnes, ou entre les autres profils-lignes restentinchanges.
- Si on regroupe deux modalits colonnes, les distances entre lesprofils-lignes, ou entre les autres profils-colonnes restentinchanges.
Proprit d'quivalence distributionnelle :
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
53/156
53
Principaux rsultats dune AFC
Coordonnesfactorielles deslignes
p
qModalits (individus) colonnes
p
q
k
Valeurs propresk
Coordonnes factorielles des colonnes
k
Modalits(individus)
lignes
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
54/156
54
Valeurs propres
ValProp. %ageinertie
%agecumul
Chi
1 0,082 97,35 97,35 311,78
2 0,002 2,01 99,36 6,45
3 0,001 0,64 100,00 2,04
Inertie totale du nuage de points :
22
2 PropresValeurs iGM
N
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
55/156
55
Rsultats relatifs aux lignes
Coord.Dim.1
Coord.Dim.2
Masse Qualit InertieRelative
InertieDim.1
CosinusDim.1
InertieDim.2
CosinusDim.2
Exp. Agri. 0,410 0,026 0,080 0,991 0,161 0,163 0,987 0,032 0,004
Patrons 0,020 -0,027 0,152 0,336 0,006 0,001 0,123 0,063 0,213
Cadres Sup. -0,263 0,016 0,482 0,999 0,395 0,404 0,996 0,069 0,004
Employs 0,142 -0,097 0,123 0,985 0,044 0,030 0,670 0,686 0,315
Ouvriers 0,451 0,040 0,163 1,000 0,395 0,402 0,992 0,150 0,008
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
56/156
56
Rsultats relatifs aux colonnes
Coord.Dim.1
Coord.Dim.2
Masse Qualit InertieRelative
InertieDim.1
CosinusDim.1
InertieDim.2
CosinusDim.2
Droit 0,028 -0,061 0,272 0,942 0,015 0,003 0,165 0,588 0,777Sciences 0,160 -0,003 0,254 0,948 0,082 0,079 0,948 0,001 0,000
Mdecine -0,303 0,030 0,373 1,000 0,409 0,416 0,990 0,193 0,009
IUT 0,640 0,061 0,101 0,998 0,494 0,502 0,989 0,219 0,009
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
57/156
57
Trac 2D des Coordonnes L igne & Co lonne ; D imen s ion : 1 x 2
Table d 'Entre (L ignes x Colonnes ) : 5 x 4
Standard isat ion : Pro fi ls l igne e t co lonne
Coord.L .
Coord.C.
Exp.Agri.
Pat rons
CadresSup .
Employs
Ouvriers
Dro i t
Sc iences
Mdec ine
IU T
-0 ,4 -0 ,3 -0 ,2 -0 ,1 0 ,0 0 ,1 0 ,2 0 ,3 0 ,4 0 ,5 0 ,6 0 ,7 0 ,8
Dim ens ion 1 ; Va leur Propre : ,08239 (97,35 % d 'Iner tie )
-0,12
-0,10
-0,08
-0,06
-0,04
-0,02
0,00
0,02
0,04
0,06
0,08
Dimension2;
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
58/156
58
Analyse des correspondancesmultiples
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
59/156
59
Sexe Revenu Preference
s1 F M A
s2 F M A
s3 F E B
s4 F E Cs5 F E C
s6 H E C
s7 H E B
s8 H M B
s9 H M Bs10 H M A
Tableau protocole : 3 questions, 7 modalits
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
60/156
60
Sexe:F
Sexe:H
Rev:M
Rev:E Pref:A Pref:B Pref:C
s1 1 0 1 0 1 0 0
s2 1 0 1 0 1 0 0
s3 1 0 0 1 0 1 0
s4 1 0 0 1 0 0 1
s5 1 0 0 1 0 0 1
s6 0 1 0 1 0 0 1
s7 0 1 0 1 0 1 0
s8 0 1 1 0 0 1 0
s9 0 1 1 0 0 1 0
s10 0 1 1 0 1 0 0
Tableau disjonctif complet
La disjonction complte
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
61/156
61
DEPARTEMENTS BLE VIN LAIT
DEP 1 NON ROUGE PEU
DEP 2 OUI ROSE MOYEN
DEP 3 OUI BLANC MOYEN
LA DISJONCTION EST UNE CODIFICATION EN DONNEES BINAIRES
CREATION DUNE VARIABLE POUR CHAQUE MODALITE
BLE VIN LAIT
DEPARTEMENTS OUI NON ROUGE ROSE BLANC PEU MOYEN BCP
DEP 1 0 1 1 0 0 1 0 0
DEP 2 1 0 0 1 0 0 1 0
DEP 3 1 0 0 0 1 0 1 0
La disjonction complte
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
62/156
62
Sexe Revenu Preference Effectif
F M A 2
F E B 1
F E C 2H E C 1
H E B 1
H M B 2H M A 1
Tableau deffectifs ou tableau des patrons de rponses
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
63/156
63
Sexe:F
Sexe:H
Rev:M
Rev:E Pref:A Pref:B Pref:C
FMA 2 0 2 0 2 0 0
FEB 1 0 0 1 0 1 0
FEC 2 0 0 2 0 0 2HEC 0 1 0 1 0 0 1
HEB 0 1 0 1 0 1 0
HMB 0 2 2 0 0 2 0
HMA 0 1 1 0 1 0 0
Tableau disjonctif des patrons de rponses
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
64/156
64
F H M E A B C
Sexe:F 5 0 2 3 2 1 2
Sexe:H 0 5 3 2 1 3 1
Revenu:M 2 3 5 0 3 2 0Revenu:E 3 2 0 5 0 2 3
Preference:A 2 1 3 0 3 0 0
Preference:B 1 3 2 2 0 4 0
Preference:C 2 1 0 3 0 0 3
Tableau de Burt
Le tableau de BURT
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
65/156
65
BLE VIN LAIT
OUI NON Rouge Ros Blanc Peu Moyen Bcp
0 1 1 0 0 1 0 0
1 0 0 1 0 0 1 0
1 0 0 0 1 0 1 0
OUI 0 1 12 0 0 1 1 0 2 0NON 1 0 0 0 1 1 0 0 1 0 0
Rouge 1 0 0 0 1 1 0 0 1 0 0
Ros 0 1 0 1 0 0 1 0 0 1 0
Blanc 0 0 1 1 0 0 0 1 0 1 0
Pau 1 0 0 0 1 1 0 0 1 0 0
Moyen 0 1 1 2 0 0 1 1 0 2 0Bcp 0 0 0 0 0 0 0 0 0 0 0
MATRICE DE BURT
t XX
t XX Tous les tris simplesTous les tris croiss
Si X est une matrice disjonctive complteLa Matrice de BURT est t XX
Le tableau de BURT
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
66/156
66
Analyse des correspondances multiples
Effectuer l'analyse des correspondances multiples, c'est effectuerl'analyse factorielle des correspondances du tableau disjonctifcomplet, muni des relations K (modalits embotes dans lesquestions) et I (individus embots dans les modalits de
chaque question).Rouanet et Le Roux
Proprit de lanalyse des correspondances (simple)
Lorsquil y a deux variables qualitatives runies dans un tableaudisjonctif X = [X1|X2], lanalyse factorielle des correspondances dutableau disjonctif est quivalente lanalyse des correspondances dutableau de contingence N = TX1 X2
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
67/156
67
Sexe Revenu Preference
s1 F M A
s2 F M A
s3 F E B
s4 F E Cs5 F E C
s6 H E C
s7 H E B
s8 H M B
s9 H M Bs10 H M A
Rsultats produits par lACM sur le tableau suivant :
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
68/156
68
Valeurs Propres et Inertie de toutes les Dimensions (Protocole dans Mini-ACM.stw) Table d'Entre (Lignes x Colonnes) : 7 x 7 (Table de Burt) InertieTotale = 1,3333
ValSing. ValProp. %age %age Chi
1 0,776426 0,602837 45,21275 45,2128 25,379432 0,680961 0,463708 34,77810 79,9909 19,52211
3 0,450509 0,202959 15,22190 95,2128 8,54456
4 0,252646 0,063830 4,78725 100,0000 2,68724
Valeurs propres
Valeurs propres : dcroissance lente -> taux dinertie modifis de Benzcri
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
69/156
69
ValProp. 1/Q (VP-1/Q)^2 %age
1 0,6028 0,3333 0,0726 81,04%
2 0,4637 0,3333 0,0170 18,96%
3 0,20304 0,0638
Somme 1,3333 0,089630
Calcul des taux modifis :
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
70/156
70
Coordonnes Colonne et Contributions l'Inertie (Protocole dans Mini-ACM.stw )
Table d'Entre (Lignes x Colonnes) : 7 x 7 (Table de Burt)
Inertie Totale = 1,3333
NomLigne
Ligne
Numro
Coord.
Dim.1
Coord.
Dim.2
Masse Qualit Inertie
Relative
Inertie
Dim.1
Cosinus
Dim.1
Inertie
Dim.2
Cosinus
Dim.2
Sexe:F
Sexe:H
Revenu:M
Revenu:E
Preference:A
Preference:B
Preference:C
1 -0,31 0,79 0,17 0,72 0,12 0,03 0,10 0,22 0,62
2 0,31 -0,79 0,17 0,72 0,12 0,03 0,10 0,22 0,62
3 0,94 0,14 0,17 0,90 0,13 0,24 0,88 0,01 0,02
4 -0,94 -0,14 0,17 0,90 0,13 0,24 0,88 0,01 0,02
5 1,03 1,02 0,10 0,91 0,18 0,18 0,46 0,23 0,45
6 0,19 -1,01 0,13 0,70 0,15 0,01 0,02 0,29 0,68
7 -1,29 0,32 0,10 0,75 0,18 0,28 0,71 0,02 0,04
Coordonnes, inertie et cosinus carrs
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
71/156
71
Trac 2D des Coordon nes Colon ne ; D im ens ion : 1 x 2
Table d 'Ent re (L ignes x Colonnes) : 7 x 7 (Table de Bu r t)
Sexe:F
Sexe:H
Revenu:M
Revenu:E
Preference:A
Preference:B
Preference:C
-2 ,0 -1 ,5 -1 ,0 -0 ,5 0 ,0 0 ,5 1 ,0 1 ,5
Dim ens ion 1; Valeur Propre : ,60284 (45,21 % d ' Iner tie)
-1,5
-1,0
-0,5
0 ,0
0 ,5
1 ,0
1 ,5
D
imension2;V
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
72/156
72
Trac 2D des Coordonnes Ligne & Colonne ; Dimension : 1 x 2
Table d'Entre (Lignes x Colonnes) : 7 x 7
Standardisation : Profils ligne et colonne
Coord.L.Coord.C.
FMA
FEB
FEC
HEC
HEB
HMB
HMA
Sexe:F
Sexe:H
Rev:M
Rev:E
Pref:A
Pref:B
Pref:C
-2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5
Dimension 1; Valeur Propre : ,60284 (45,21 % d'Inertie)
-1,5
-1,0
-0,5
0,0
0,5
1,0
1,5
Dimension
Trac 2D des Coordonnes Ligne & Colonne ; Dimension : 1 x 2
Table d'Entre (Lignes x Colonnes) : 7 x 7
Standardisation : Profils ligne et colonne
Coord.L.Coord.C.
FMA
FEB
FEC
HEC
HEB
HMB
HMA
Sexe:F
Sexe:H
Rev:M
Rev:E
Pref:A
Pref:B
Pref:C
-2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5
Dimension 1; Valeur Propre : ,60284 (45,21 % d'Inertie)
-1,5
-1,0
-0,5
0,0
0,5
1,0
1,5
Dimension
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
73/156
73
2 KQ
QNombre de modalits Nombre de questions
Nombre de questions
Valeur du Phi-2 :
Sur notre exemple :
Proprits algbriques et gomtriques de lACM
33,13
372
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
74/156
74
Contributions absolues et relatives des modalits colonnes linertie :
Q
fMCta kk
1)(
QK
fMCtr kk
1)(
Sur notre exemple :
%5,124
5,01])F:Sexe([
Ctr
%5,17
4
3,01])A:Pref([
Ctr
Contribution dautant plus forte que la modalit est plus rare
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
75/156
75
Inerties absolue et relative dune question :
Q
KXI
q
q
1)(
questionsdeNb-modalitsdetotalNb
1questionlademodalitsdeNb1)(
QK
KXInr
q
q
Kq : nombre de modalits de la question q
Sur lexemple :
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
76/156
76
Inerties absolue et relative dune question :
33,03
12)Revenu()Sexe( II
Sur l exemple :
67,03
13)Pref(
I
%254
12)Revenu()Sexe(
InrInr
%504
13)Pref(
I
Linertie dune question est dautant plus forte que laquestion comporte un plus grand nombre de modalits.
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
77/156
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
78/156
78
Distance dune ligne au profil moyen
d22
(O, Patron i) 1Nombre de Questions
1frquence de la modalit k
1
Somme tendue toutes les modalits faisant partie du patron i
Exemple :
44,113,0
1
5,0
1
5,0
1
3
1])[,(2 2
FMAOd
Un patron est dautant plus loin de lorigine quilcomporte des modalits rares
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
79/156
79
d22 (Mk, Mk' )
Effectif de k Effectif de k' 2 Effectif de la combinaison k & k'
Effectif de k Effectif de k' / Effectif total
Distances entre profils colonnes :
d22 (Mk, Mk')
1
fk
1
fk' 2
fkk'
fk fk'nk nk' 2nkk'
nknk' /n
4,210/55
2255
5,05,0
2,02
5,0
1
5,0
1)M:RevenuF,:Sexe(2 2
d
Exemple :
Deux modalits sont dautant plus loignes quelles sont defrquences faibles et rarement rencontres simultanment
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
80/156
80
Distance dune colonne au profil moyen :
d22 (O, Mk) 1
fk1 n
nk1 Effectif total
Effectif de k1
Exemple :
5,114
101
4,0
1)B:Pref,(2 2 Od
Une modalit est dautant plus loin de O que sa frquence est faible
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
81/156
81
1) Indpendance des modalits Mket Mk' :
),(),(),( '22
'
2
kkkk MOdMOdMMd
Autrement dit, dans l'espace multidimensionnel, le triangle OMkMk'est alors un triangle rectangle en O.
2) Si les modalits Mket Mk's'attirent, l'angle ', kk OMOM
est un angle aigu.
3) Si les modalits Mket Mk'se repoussent, l'angle ', kk OMOM
est un angle obtus.
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
82/156
82
4) Si l'effectif conjoint nkk'des modalits Mket Mk'est nul (en
particulier si Mket Mk'sont deux modalits d'une mme question) :
2),(),(),( '22
'
2 kkkk MOdMOdMMd
D i d d li h
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
83/156
83
Deux questions deux modalits chacune.
Cas 1 : les effectifs des modalits sont donns par :
A1 A2 Total
B1 50 50 100
B2 50 50 100
Total 100 100 200
Prvoir la forme de la reprsentation par rapport au premier plan factoriel.
Rponse :
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
84/156
84
Trac 2D des Coordonnes Colonne ; Dimension : 1 x 2
Table d'Entre (Lignes x Colonnes) : 4 x 4 (Table de Burt)
A:A1 A:A2
B:B1
B:B2
-1,5 -1,0 -0,5 0,0 0,5 1,0 1,5
Dimension 1; Valeur Propre : ,50000 (50,00 % d'Inertie)
-1,5
-1,0
-0,5
0,0
0,5
1,0
1,5
D
imension2;ValeurPropre:,50000(50,00%
d'Inertie)
p
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
85/156
85
Cas 2 : les effectifs des modalits sont donns par :
A1 A2 Total
B1 80 20 100
B2 80 20 100
Total 160 40 200
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
86/156
86
Trac 2D des Coordonnes Colonne ; Dimension : 1 x 2
Table d'Entre (Lignes x Colonnes) : 4 x 4 (Table de Burt)
A:A1A:A2
B:B1
B:B2
-2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0
Dimension 1; Valeur Propre : ,50000 (50,00 % d'Inertie)
-1,5
-1,0
-0,5
0,0
0,5
1,0
1,5
D
imension2;ValeurPropre:,50000(50,00%
d'Inertie)
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
87/156
87
Cas 3 : les effectifs des modalits sont donns par :
A1 A2 Total
B1 72 48 120
B2 48 32 80
Total 120 80 200
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
88/156
88
Trac 2D des Coordonnes Colonne ; Dimension : 1 x 2
Table d'Entre (Lignes x Colonnes) : 4 x 4 (Table de Burt)
A:A1
A:A2
B:B1 B:B2
-1,5 -1,0 -0,5 0,0 0,5 1,0 1,5
Dimension 1; Valeur Propre : ,50000 (50,00 % d'Inertie)
-1,5
-1,0
-0,5
0,0
0,5
1,0
1,5
D
imension2;ValeurPropre:,50000(50,00%
d'Inertie)
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
89/156
89
Cas 4 : les effectifs des modalits sont donns par :
A1 A2 Total
B1 80 50 130
B2 50 20 70
Total 130 70 200
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
90/156
90
Trac 2D des Coordonnes Colonne ; Dimension : 1 x 2
Table d'Entre (Lignes x Colonnes) : 4 x 4 (Table de Burt)
A:A1
A:A2
B:B1
B:B2
-1,5 -1,0 -0,5 0,0 0,5 1,0 1,5
Dimension 1; Valeur Propre : ,54945 (54,95 % d'Inertie)
-0,8
-0,6
-0,4
-0,2
0,0
0,2
0,4
0,6
0,8
1,0
1,2
Dimension2;ValeurPropre:,45055(45,05%
d'Inertie)
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
91/156
91
Cas 5 : les effectifs des modalits sont donns par :
A1 A2 Total
B1 73 56 129
B2 40 32 72
Total 113 88 201
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
92/156
92
Trac 2D des Coordonnes Colonne ; Dimension : 1 x 2
Table d'Entre (Lignes x Colonnes) : 4 x 4 (Table de Burt)
A:A1
A:A2
B:B1
B:B2
-1,2 -1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8
Dimension 1; Valeur Propre : ,50499 (50,50 % d'Inertie)
-1,0
-0,8
-0,6
-0,4
-0,2
0,0
0,2
0,4
0,6
0,8
1,0
1,2
Dimension2;ValeurPropre:,49501(49,50%
d'Inertie)
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
93/156
93
Mthodes de classification
Mth d d t t bil
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
94/156
94
Cration alatoire decentres de gravit.
Au dpart
Etape 1
Chaque observation est classeen fonction de sa proximit auxcentres de gravits.
Mthodes de type centres mobiles
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
95/156
95
Chaque centre de gravit estdplac de manire tre aucentre du groupecorrespondant
On rpte ltape 1avec les nouveauxcentres de gravit.
Etape 2
Etape 1
Et 2
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
96/156
96
Etape 2
De nouveau, chaque centrede gravit est recalcul.
On continue jusqu ce que les centres de gravit ne bougent plus.
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
97/156
97
1
animal-FR
2
nimal-US
3
nimal-VN
4
akery-FR
5
akery-US
6
akery-VN
7
andy-FR
8
andy-US
9
andy-VN
amber
anise
apricot
blackcurrant
butter
cat pee
cinnamon
civet
clove
cookies
detergent
eucalyptus
ginger
hazelnut
honey
jasmine
lavender
1,17 1,05 1,87 1,83 1,16 2,53 2,27 1,58 2,73
1,07 1 1,63 2,2 2,16 2,67 6,03 6,05 3,53
1,07 1,26 1,63 2,3 1,95 3,4 5,23 3,84 5,03
1,03 1,37 1,43 2,2 1,74 3,27 6,63 5,42 4,43
2,97 2,26 2,03 1,37 3,16 3,43 1,3 1,32 3,4
3,5 5,21 2,07 1 1,05 1,73 1,03 1,37 1,7
1,33 1,11 1,57 2,67 4,26 2,87 2,47 5,11 3,2
4,8 4,79 3,97 1 1,05 1,57 1,07 1,26 1,4
1,23 1,37 2,27 1,43 2,89 1,83 1,37 2,63 1,8
1,03 1 1,33 4,37 4,33 5,4 5,27 4,33 4,83
1,37 1,37 2,37 1,13 1,32 1,73 1,2 1,16 1,9
1,03 1,32 1,43 1 1,05 1,73 4,1 1,63 2,33
1,27 1,53 1,73 1,47 2,05 2,97 2,43 1,63 3,77
1,77 2,22 2,7 4,23 2,94 2,63 3,27 3,22 2,33
2,03 2,33 2,67 2,1 2,28 2,27 2,8 2,17 2,8
1,7 1,63 2,57 1,13 1,47 2,1 1,23 2,05 2,33
1,07 1,05 1,8 1 1,16 1,83 1,27 1,47 2,47
Exemple : typicalit des odeurs dans 3 cultures : FR, US, VN
Extrait des donnes
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
98/156
98
Exemple : typicalit des odeurs dans 3 cultures : FR, US, VN
Classe 1Composition de la Classe 1 (Odors dans Odors.stw )
et Distances au Centre de Classe Respectif
Classe avec 8 obs.
FR
Distance
anise
apricot
blackcurrant
cookies
melon
milk
pineapple
straw berry
0,853238
0,556198
0,475439
0,885102
0,854534
0,538125
0,616581
0,397054
Composition de la Classe 1 (Odors dans Odors.stw )
et Distances au Centre de Classe Respectif
Classe avec 6 obs.
VN
Distance
apricot
blackcurrantcookies
melon
pineapple
strawberry
0,221989
0,3562610,589538
0,385943
0,337747
0,291606
Composition de la Classe 5 (Odors dans Odors.stw )et Distances au Centre de Classe Respectif
Classe avec 5 obs.
US
Distance
apricot
blackcurrant
melon
pineapple
straw berry
0,597914
0,234945
0,419215
0,312601
0,331206
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
99/156
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
100/156
100
Exemple : typicalit des odeurs dans 3 cultures : FR, US, VN
Classe 3Composition de la Classe 3 (Odors dans Odors.stw )et Distances au Centre de Classe Respectif
Classe avec 16 obs.
FR
Distance
butter
cat pee
cinnamon
civet
clove
ginger
hazelnut
honey
moldy
mushroom
nutmeg
peanut
tea
truffle
w alnut
w oody
0,673286
0,752818
0,810755
1,056562
0,818287
0,655657
1,093172
0,605759
1,245204
1,222151
0,669163
0,677682
0,332057
0,551662
0,943539
0,533684
Composition de la Classe 2 (Odors dans Odors.stw )
et Distances au Centre de Classe Respectif
Classe avec 10 obs.
VN
Distance
cat pee
civethazelnut
leather
moldy
mushroom
nutmeg
peanut
truffle
w oody
0,348711
0,5714330,354241
0,348657
0,850417
0,439731
0,302967
0,348855
0,380382
0,252038
Composition de la Classe 2 (Odors dans Odors.stw )et Distances au Centre de Classe Respectif
Classe avec 10 obs.
US
Distance
butter
cat pee
civet
honey
leather
moldy
mushroomtea
truffle
w oody
0,686537
0,830411
0,712920
0,502343
0,551503
0,694570
0,6023220,417894
0,512148
0,487014
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
101/156
101
Exemple : typicalit des odeurs dans 3 cultures : FR, US, VN
Classe 4
Composition de la Classe 4 (Odors dans Odors.stw )
et Distances au Centre de Classe Respectif
Classe avec 6 obs.
FR
Distance
detergent
leather
moth ball
musk
pine
soap
0,433169
0,445424
0,362147
0,483415
0,471897
0,583448
Composition de la Classe 4 (Odors dans Odors.stw )
et Distances au Centre de Classe Respectif
Classe avec 12 obs.
VN
Distance
clove
detergenthoney
jasmine
lavender
moth ball
musk
orange blossom
pine
soap
tea
violet
0,431683
0,2991910,441126
0,396467
0,326566
0,371675
0,280186
0,531775
0,395162
0,573349
0,357944
0,174551
Composition de la Classe 3 (Odors dans Odors.stw )
et Distances au Centre de Classe RespectifClasse avec 12 obs.
US
Distance
amber
detergent
jasmine
lavender
mango
moth ball
musk
orange blossompine
rose
soap
violet
0,687928
0,424100
0,652539
0,461172
0,434236
0,814012
0,584099
0,5411480,579675
0,542605
0,883078
0,560355
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
102/156
102
Exemple : typicalit des odeurs dans 3 cultures : FR, US, VN
Classe 5
Composition de la Classe 5 (Odors dans Odors.stw )
et Distances au Centre de Classe Respectif
Classe avec 2 obs.
FR
Distance
eucalyptus
w intergreen
0,462265
0,462265Composition de la Classe 5 (Odors dans Odors.stw )
et Distances au Centre de Classe Respectif
Classe avec 4 obs.
VN
Distance
amber
eucalyptus
w alnut
w intergreen
0,435829
0,291722
0,313654
0,278881
Composition de la Classe 1 (Odors dans Odors.stw )et Distances au Centre de Classe Respectif
Classe avec 4 obs.
US
Distance
eucalyptus
ginger
nutmeg
w intergreen
0,794737
0,586028
0,709252
0,780444
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
103/156
103
Les quatre tapes de la mthode :
-Choix des variables reprsentant les individus
- Choix d'un indice de dissimilarit
-Choix d'un indice d'agrgation
-Algorithme de classification et rsultat produit
Classification Ascendante Hirarchique
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
104/156
104
d(Ii,Ij ) (xik x jk)2
k- Distance Euclidienne.
d(Ii,Ij ) (x ik x jk)2
k
- Distance Euclidienne au carr.
d(Ii,Ij ) xik x jkk
- Distance du City-block (Manhattan) :
d(Ii,Ij ) Maxxik xjk- Distance de Tchebychev :
d(Ii,Ij ) xik x jkp
k
1/ r
- Distance la puissance.
d(Ii,Ij ) Nombre de xik x jk
K- Percent disagreement.
ijji rIId 1),(- 1- r de Pearson :
Quelques distances ou indices de dissimilarit
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
105/156
105
D(A,B) maxIA
maxJB
d(I,J)- Diamtre ou complete linkage :
D(A,B) 1
nAnB
d(I,J)IA,JB
- Moyenne non pondre des groupes associs:
D(A,B) 1
(nA nB )(nA nB 1) d(I,J)
I,JA
B
- Moyenne pondre des groupes associs :
D(M,J)
(NJ NK)D(K,J) (NJ NL )D(L,J) NJD(K,L)
NJ NK NL
- Mthode de Ward (mthode du moment d'ordre 2). Si une classe M est obtenue en regroupant lesclasses K et L, sa distance la classe J est donne par :
- Centrode pondr des groupes associs (mdiane).
- Centrode non pondr des groupes associs.
Quelques indices dagrgation
L'algorithme de classification
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
106/156
106
L algorithme de classification
tape 1 : n lments classer ;
tape 2 : Construction de la matrice de distances entre les n lments etrecherche les deux plus proches, que lon agrge en un nouvel lment.On obtient une premire partition n-1 classes;
tape 3 : Construction dune nouvelle matrice des distances qui rsultent
de lagrgation, en calculant les distances entre le nouvel lment et leslments restants (les autres distances sont inchanges). Recherche desdeux lments les plus proches, que lon agrge. On obtient une deuximepartition avec n-2 classes et qui englobe la premire;tape m : on calcule les nouvelles distances, et lon ritre le processus
jusqu navoir plus quun seul lment regroupant tous les objets et quiconstitue la dernire partition.
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
107/156
107
Distance Euclidienne au carr et mthode de Ward
Inertie totale = Inertie intra + Inertie inter
A chaque tape, on runit les deux classes de faon augmenter le moins possible linertie intra
g
j
jj
g
j
n
i
ijj GGnMGIj
1
2
1 1
2
classesdeseffectifsles
parpondrsmoyenspointsdesInertie
classesles
dansInertie
totale
Inertie
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
108/156
108
Rsultat obtenu :
Une hirarchie de classes telles que :- toute classe est non vide- tout individu appartient une (et mme plusieurs) classes- deux classes distinctes sont disjointes, ou vrifient une relationd'inclusion (l'une d'elles est incluse dans l'autre)
- toute classe est la runion des classes qui sont incluses dans elle.
Ce rsultat est frquemment reprsent laide dun dendrogramme
Exemples de dendrogrammes
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
109/156
109
Dendrogramme de 9 Obs.
Mth. de Ward
Carr d istances Eucli diennes
0,0 0,1 0,2 0,3 0,4
Dist. Agr gatio n
BUFFET
PELEG
ABSTEN
LAGU
BAY
LEPEN
SANTINI
COPE
HUCHON
Dendrogramme de 12 Obs.
Saut Minimum
Carr distances Euclidiennes
0,00 0,01 0,02 0,03 0,04 0,05 0,06
Dist. Agrgation
Villiers
Nihous
Buffet
Laguiller
Schivardi
Besancenot
Sarkozy
Voynet
Bayrou
Bove
Royal
Le Pen
Dendrogramme de 23 Obs.
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
110/156
110
g
Mth. de Ward
Carr distances Euclidiennes
0,0 0,1 0,2 0,3 0,4 0,5 0,6
Dist. Agrgation
AlsaceCorseProvence-Alpes-Cote-d-Azur
BourgogneCentre
Haute-NormandieBasse-Normandie
Rhone-AlpesChampagne-Ardennes
Franche-ComteLorraine
Languedoc-RoussillonPicardie
Nord-Pas-de-CalaisLimousin
Midi-PyreneesAuvergne
Poitou-CharentesAquitaineBretagne
Pays-de-la-LoireIle-de-France
Outremer
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
111/156
111
Rgression linaire Multiple
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
112/156
112
Echantillon de n individus statistiques :
- p variables numriques X1, X2, ..., Xp (variables indpendantes ouexplicatives)
- une variable numrique Y (variable dpendante, ou " expliquer").
Exemple (30 comts amricains) :VARI_POP : Variation de la Population (1960-1970)N_AGRIC : Nb. de personnes travaillant dans le secteur primaireTX_IMPOS : Taux d'imposition des propritsPT_PHONE : Pourcentage d'installations tlphoniquesPT_RURAL : Pourcentage de la population vivant en milieu rural
AGE : Age mdianPT_PAUVR : Pourcentage de familles en dessous du seuil de pauvret
Matrice des corrlations
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
113/156
113
VARI_POP N_AGRIC PT_PAUVR TX_IMPOS
PT_PHONE PT_RURAL AGE
VARI_POP 1,00 0,04 -0,65 0,13 0,38 -0,02 -0,15
N_AGRIC 0,04 1,00 -0,17 0,10 0,36 -0,66 -0,36
PT_PAUVR -0,65 -0,17 1,00 0,01 -0,73 0,51 0,02
TX_IMPOS 0,13 0,10 0,01 1,00 -0,04 0,02 -0,05
PT_PHONE 0,38 0,36 -0,73 -0,04 1,00 -0,75 -0,08
PT_RURAL -0,02 -0,66 0,51 0,02 -0,75 1,00 0,31
AGE -0,15 -0,36 0,02 -0,05 -0,08 0,31 1,00
Le modle linaire :
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
114/156
114
On cherche exprimer Y sous la forme :
o E (erreur commise en remplaant Y par la valeur estime) estnulle en moyenne, et de variance minimale.
EXbXbXbbY pp ...22110
Solution au problme :
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
115/156
115
ppXbXbXbYb ...22110
Les coefficients bi (1ip) sont les solutions du systme dquations :
YXCovbXXCovbXXCovbXXCov
YXCovbXXCovbXXCovbXXCov
YXCovbXXCovbXXCovbXXCov
pppppp
pp
pp
,,.. .,,
....
,,.. .,,
,,.. .,,
2211
22222112
11221111
et
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
116/156
116
Sur lexemple propos :
PT_PAUVR = 31,2660 - 0,3923 VARI_POP + 0,0008 N_AGRIC+ 1,2301TX_IMPOS - 0,0832 PT_PHONE + 0,1655 PT_RURAL - 0,4193 AGE
Coefficients standardiss :
i
i
ib
Y
X
)(
)(
VARI_POP N_AGRIC TX_IMPOS PT_PHONE PT_RURAL AGE
-0,630788 0,238314 0,038799 -0,129627 0,618746 -0,188205
Test des coefficients de la rgression
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
117/156
117
PT_PAUVR PT_PAUVR PT_PAUVR PT_PAUVR -95,00% +95,00%
(param.) Err-Type t p Lim.Conf Lim.Conf
Ord.Orig. 31,2660 13,2651 2,3570 0,0273 3,8251 58,7070
VARI_POP -0,3923 0,0805 -4,8742 0,0001 -0,5589 -0,2258
N_AGRIC 0,0008 0,0004 1,6903 0,1045 -0,0002 0,0017
TX_IMPOS 1,2301 3,1899 0,3856 0,7033 -5,3686 7,8288
PT_PHONE -0,0832 0,1306 -0,6376 0,5300 -0,3533 0,1868
PT_RURAL 0,1655 0,0618 2,6766 0,0135 0,0376 0,2935
AGE -0,4193 0,2554 -1,6415 0,1143 -0,9476 0,1091
Approche factorielle de la rgression
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
118/156
118
X1
X2
Y
2211 XbXbY
a
Expliquer la variabilit de Y partir de celle des Xj :
Combinaison linaire des Xj qui reproduit au mieux lavariabilit des individus selon Y : combinaison linaire la pluscorrle avec Y.
Solution : combinaison linaire des Xj qui fait avec Y un angleminimum.
Approche factorielle de la rgression
Test de la rgression :
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
119/156
119
Sommes dl Moyennes F niveau p
Carrs Carrs
Rgress. 932,065 6 155,3441 13,44909 0,000002
Rsidus 265,662 23 11,5505
Total 1197,727
Variance de Y = Variance explique + Variance rsiduelle
)
()
()( YYVarYVarYVar
Analyse de variance
Coefficient de dtermination :
7782,0)(
)(2 YVar
YVarR
Valeurs Prvues vs. Observes
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
120/156
120
V a r. d p e n d a n t e : P T _ P A U V R
1 4 1 6 1 8 2 0 2 2 2 4 2 6 2 8 3 0 3 2 3 4 3 6 3 8
Val eu rs Prvues
1 0
1 5
2 0
2 5
3 0
3 5
4 0
4 5
Val.Ob
serves
9 5 % d e c o n f i a n c e
Analyse de mdiation
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
121/156
121
1) Rgression de la VD sur la VI : VD = b0 + b1 VICoefficient de rgression standardis : 1
2) Rgression de la mdiation sur la VI : M=b0 + b1 VICoefficient de rgression standardis : 1
3) Rgression multiple de la VD sur VI et M : VD = b0 + b1 VI + b2 MCoefficients de rgression standardiss : 1, 2
VI VD1
VI VD
M
1
1 2
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
122/156
122
Interprtation :
Si b1 est nettement plus proche de 0 que b1, enparticulier si b1 nest pas significativement diffrent de 0alors que b1 ltait, il y a mdiation (partielle ou totale)
1) Rgression de la VD sur la VI : SDNA = b0 + b1 IDENTCoefficient de rgression standardis : 1
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
123/156
123
Coefficient de rgression standardis : 1
2) Rgression de la mdiation sur la VI : DEROG=b0 + b1 IDENTCoefficient de rgression standardis : 1
3) Rgression multiple de la VD sur VI et M :SDNA = b0 + b1 IDENT + b2 DEROGCoefficients de rgression standardiss : 1, 2
IDENT SDNA1=0,24*
IDENT SDNA
DEROG
1=0,14 (NS)
1=0,33** 2=0,29*
1) Rgression de la VD sur la VI : SDNA = b0 + b1 IDENTCoefficient de rgression standardis : 1
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
124/156
124
Coefficient de rgression standardis : 1
2) Rgression de la mdiation sur la VI : DEROG=b0 + b1 IDENTCoefficient de rgression standardis : 1
3) Rgression multiple de la VD sur VI et M :SDNA = b0 + b1 IDENT + b2 DEROGCoefficients de rgression standardiss : 1, 2
IDENT SDNA1=0,24*
IDENT SDNA
FAVO
1=0,23 *
1=0,42** 2=0,07 (NS)
Pas deffet de mdiation
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
125/156
125
Rgression Logistique
Sur un chantillon de n individus statistiques, on a observ :
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
126/156
126
- p variables numriques ou dichotomiques X1, X2, ..., Xp (variablesindpendantes ou explicatives)
- une variable dichotomique Y (variable dpendante, ou " expliquer").
Exemple :
Echantillon de 30 sujets pour lesquels on a relev :
- d'une part le niveau des revenus (variable numrique)
- d'autre part la possession ou non d'un nouvel quipement lectro-mnager.
Exemple
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
127/156
127
Revenu 1085 1304 1331 1434 1541 1612 1729 1759
Possde 0 0 0 0 0 0 0 0
Revenu 1798 1997 2234 2346 2436 2753 2813 3204
Possde 1 1 1 1 1 1 1 1
Revenu 1863 2121 2395 2681 3390 4237 1241
Possde 0 0 0 0 0 0 1
Revenu 3564 3592 3762 3799 4037 4168 4484
Possde 1 1 1 1 1 1 1
Nuage de points
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
128/156
128
Nuage de Points (Feuille de donnes dans Reg-Logit-Cours.stw 10v*30c)
500 1000 1500 2000 2500 3000 3500 4000 4500 5000
Revenu
-0,2
0, 0
0, 2
0, 4
0, 6
0, 8
1, 0
1, 2
Possed
e
Rapport de chances et transformation logit
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
129/156
129
pp g
)1(1
)1(1
YP
YPp
Rapport de chances ou cote :
P
P
P 1ln)logit(
Transformation logit
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
130/156
Aides linterprtation : test du modle, odds-ratio ourapport de cotes
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
131/156
131
rapport de cotes
On utilise aussi frquemment lodds-ratio ou rapport de cotes :
La contribution de la variable X la variation de Y est calcule par :
L'odds-ratio correspondant au coefficient 0,001151 est :e0,001151=1,0012.
Autrement dit, une augmentation du revenu de 1 unit se traduit parune multiplication de la probabilit par 1,0012.
Intervalle de confiance pour OR : [1,000173, 1,002139] : significatifpuisque lintervalle ne contient pas la valeur 1.
modle)ledansXdecientexp(CoeffiOR
Une statistique qui suit une loi du khi-2 permet de tester la qualit
du modle. Sur notre exemple :Khi-2 = 7,63, dl=1, p=0,006
L'odds-ratio est dfini comme le rapport de deux rapports de chances. Ainsi,l' dd i l if l' d d l b dfi i d l i
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
132/156
132
l'odds-ratio relatif l'tendue des valeurs observes est dfini de la maniresuivante :
- On calcule le rapport de chances relatif la plus grande valeur observe durevenu :
Pour X = 4484, P1=0,919325 et
- On calcule le rapport de chances relatif la plus petite valeur observe durevenu :
Pour X = 1085, P2=0,185658 et
- L'odds-ratio est obtenu comme quotient des deux rapports prcdents :
3954,111 1
1 P
P
2280,01 2
2 P
P
98,492280,0
3954,11
1
1OR
2
2
1
1
P
P
P
P
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
133/156
133
Analyse discriminante
Position du problme
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
134/156
134
On dispose de n observations sur lesquelles on a relev :
-les valeurs d'une variable catgorielle comportant quelquesmodalits (2, 3, ...) : c'est le groupe ou diagnostic.
- les valeurs de p variables numriques : X1, X2, ..., Xp : ce sont lesprdicteurs.
On se pose des questions telles que :
- la valeur de Y est-elle lie aux valeurs de X1, X2, ..., Xp ?
- Etant donn d'autres observations, pour lesquelles X1, X2, ..., Xp sontconnues, mais Y ne l'est pas, est-il possible de prvoir Y (le groupe), etavec quel degr de certitude ?
Mini-exemple : deux variables sur 40 individus rpartis en deux groupes
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
135/156
135
Nuage de Points (Feuille de donnes dans Mini-AnaDiscrim.stw 4v*50c)
X1
X2
Groupe: G2Groupe: G1
-2 0 2 4 6 8 10 12 14 16 18 20 220
2
4
6
8
10
12
14
16
18
20
Une variable abstraite, combinaison linaire de X1 et X2permet de sparer les deux groupes : f(X1, X2)=X2+X1-19
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
136/156
136
Nuage de Points (Feuille de donnes dans Mini-AnaDiscrim.stw 4v*50c)
Fonction = X
Fonction = -X +19
X1
X2
Groupe: G2Groupe: G1
-2 0 2 4 6 8 10 12 14 16 18 20 22-4
-2
02
4
6
8
10
1214
16
18
20
22
24
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
137/156
Les dispersions des valeurs peuvent tre diffrentes selon les groupes.Pour en tenir compte :
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
138/156
138
Fonction = =normal(x;0;1)Fonction = normal(x;5;3)
y=normal(x;0;1)
-3 -2 -1 0 1 2 3 4 5 6 7 8 9 100,0
0,1
0,2
0,3
0,4
0,5
0,6
Pour en tenir compte :
distance dun point un centre de groupe : distance de Mahalanobis.
2
1
11
2
1 ),(
mxmxd
2
2
22
2
2 ),(
mxmxd
Matrice de classification ou Matrice de confusion
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
139/156
139
Matrice de classification ou Matrice de confusion.
Tableau croisant la classification observe avec la classification calculepar la mthode.
Matrice de Classification
Lignes : c lassifications observes
Colonnes : class if ications prvues
Groupe
%
Correct
G2
p=,50000
G1
p=,50000
G2
G1
Total
90,00000 18 2
95,00000 1 19
92,50000 19 21
Les Iris de Fisher
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
140/156
140
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
141/156
141
Analyse et rgression PLS
PLS : partial least squares
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
142/156
142
p q
On a observ sur un chantillon de n individus statistiques :
- d'une part, p variables indpendantes ou explicatives :X1, X2, ..., Xp
- d'autre part, q variables dpendantes, ou " expliquer" :Y1, Y2, ..., Yq.
On souhaite tablir entre les variables indpendantes et les variablesexplicatives q relations linaires du type :
qpqpqqq
pp
pp
XbXbbY
XbXbbY
XbXbbY
...
...
...
...
110
22121202
11111101
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
143/156
143
Un outil possible : la rgression linaire multiple, mais :
-Mthode trs sensible aux colinarits entre variables prdictives
- Inutilisable si le nombre dobservations est infrieur au nombre deprdicteurs
Une possibilit : faire dabord une ACP sur les prdicteurs, puis unergression linaire des variables dpendantes sur les variables principales :rsultat peu lisible
Ide de la rgression PLS : partir des prdicteurs, on dfinit descomposantes ou variables latentes, en tenant compte des variables
expliquer
Mini-exemple : 1 VD, 4 VI et 3 observations
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
144/156
144
Y X1 X2 X3 X4
s1 12 8 2 7 6
s2 10 2 12 5 7
s3 5 15 6 5 5
Variables centres rduites :
Yc Z1 Z2 Z3 Z4
0,8321 -0,0512 -0,9272 1,1547 0,0000
0,2774 -0,9734 1,0596 -0,5774 1,0000
-1,1094 1,0246 -0,1325 -0,5774 -1,0000
Premire tape :
P i i bl l t t P1
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
145/156
145
Premire variable latente P1 :
r(Y, Xi) Poids WiX1 -0,7247 -0,582
X2 -0,1653 -0,133
X3 0,7206 0,578
X4 0,6934 0,556
Somme carrs 1,553 1
Racine carre 1,246
P1 = - 0,582 * Z1 - 0,133 * Z2 + 0,578 * Z3+ 0,556 * Z4.
Valeurs de P1 sur les 3 observations Rgression linaire de Y sur P1
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
146/156
146
P1
s1 0,8206s2 0,6481
s3 -1,4687
Y = 2,7640 P1 +9
Y, Y estim et rsidus :
Y Y estim Rsidus
s1 12 11,2682 0,7318
s2 10 10,7915 -0,7915
s3 5 4,9404 0,0596
Coefficient de dtermination : R2(Y, Y estim) = 0,955
Deuxime tape : on recommence partir des rsidus de Y;nouvelle variable latente P2, etc
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
147/156
147
Analyse de segmentation
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
148/156
148
- Echantillon de n individus statistiques
- une variable dpendante numrique ou qualitative Y
- plusieurs variables numriques ou catgorielles X1,X2, ..., Xp.
Expliquer la variable Y laide dune ou plusieursvariables quantitatives ou qualitatives.
Crer des groupes dindividus ou dobservationshomognes.
Rsultat est fourni sous la forme d'un arbre dedcision binaire du type suivant :
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
149/156
149
Rappel : thorme de Huygens
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
150/156
150
g
jjj
g
jj yynII
1
2
1
groupesdeseffectifslesparpondrs
moyenspointsdesInertie
groupeslesdans
Inertie
totale
Inertie
Rappel : thorme de Huygens
L'inertie totale est la somme des inerties intra-groupes et de l'inertie despoints moyens des groupes, pondrs par l'effectif des groupes.
Exemple : 4 observations suivantes, rparties en deux groupes A et B :
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
151/156
151
5,2y
55,245,235,225,21totaleInertie 2222
22321 22 AI
2343222
BI
15,2325,222 22 InterI
Groupe A B A B
Y 1 2 3 4
Algorithme de segmentation
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
152/156
152
1) Au dpart : un seul segment contenant l'ensemble des
individus.
2) Examen de toutes les variables explicatives et de toutes lesdivisions possibles (de la forme Xj< A et Xj > A si Xj estnumrique, regroupement des modalits en deux sous-ensembles si Xj est catgorielle).
Pour chaque division, l'inertie inter-groupes est calcule.
3) La division choisie est celle qui maximise l'inertie inter-groupes.
4) On recommence la procdure dans chacun des deuxgroupes ainsi dfinis.
Critres d'arrt :
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
153/156
153
On peut utiliser comme critres darrt de lalgorithme desegmentation :
- La taille des groupes (classes) dcouper
- Le rapport entre l'inertie intra et la variance totale
- Des tests statistiques (tests de Student de comparaison demoyennes, tests du Khi deux)
Determinants of Wages from the 1985 Current Population Survey
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
154/156
154
Variable names in order from left to right:
EDUCATION: Number of years of education.SOUTH: Indicator variable for Southern Region (1=Person lives inSouth, 0=Person lives elsewhere).SEX: Indicator variable for sex (1=Female, 0=Male).EXPERIENCE: Number of years of work experience.
UNION: Indicator variable for union membership (1=Union member,0=Not union member).WAGE: Wage (dollars per hour).AGE: Age (years).RACE: Race (1=Other, 2=Hispanic, 3=White).OCCUPATION: Occupational category (1=Management, 2=Sales,
3=Clerical, 4=Service, 5=Professional, 6=Other).SECTOR: Sector (0=Other, 1=Manufacturing, 2=Construction).MARR: Marital Status (0=Unmarried, 1=Married)
Diagram m e de l 'a rbre 1 pour Sa la i re
Nb d e noe uds non- term inaux : 7 , Noeuds term inaux : 8
ID =1 N =534
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
155/156
155
Mu=9,024064
Var=26,360859
ID =2 N=160
Mu=12,207500
Var=39,315648
ID =5 N=128
Mu=13,165078
Var=40,244811
ID=3 N =374
Mu=7,662166
Var=14,628422
ID=9 N =304
Mu=7,042336
Var=11,571203
ID =11 N=220
Mu=7,680909
Var=12,908015
ID=12 N=176
Mu=7,189148
Var=10,799488
ID =4 N=32
Mu=8,377187
Var=17,259876
ID=6 N =85
Mu=12,115529
Var=38,284434
ID =7 N =43
Mu=15,239767
Var=37,638151
ID=8 N =70
Mu=10,354000
Var=18,991035
ID=10 N =84
Mu=5,369881
Var=4,204942
ID =14 N =97
Mu=6,493814
Var=7,225321
ID=15 N=79
Mu=8,042911
Var=13,865461
ID =13 N =44
Mu=9,647955
Var=16,505534
E m p l o i
= 1 , 5 = A u tre (s )
E duca t i on
12,500000
A ge
38 ,500000
Syndical i sat ion
= 1 = A u tre (s )
A ge
26 ,500000
E duca t i on
13 ,500000
Sexe
= 1 = A u tre(s )
Diagram m e de l 'a rbre 1 pour Log-sa la i re
Nb de n oeuds non- terminaux : 8 , Noeuds term inaux : 9
-
8/2/2019 Analyse Multidimensionnelle Des Donnees
156/156
ID= 1 N= 534
Mu=2,059189
Var=0,277990
ID= 2 N= 160
Mu=2,373068
Var=0,275205
ID= 5 N= 128
Mu=2,468820
Var=0,219382
ID= 3 N= 374
Mu=1,924908
Var=0,219003
ID= 9 N= 304
Mu=1,849582
Var=0,198345
ID= 11 N= 236
Mu=1,927534
Var=0,192925
ID= 12 N= 128
Mu=1,828838
Var=0,174867
ID= 13 N= 108
Mu=2,044507
Var=0,189100
ID= 4 N= 32
Mu=1,990063
Var=0,315134
ID= 6 N= 49
Mu=2,306861
Var=0,246234
ID= 7 N= 79
Mu=2,569275
Var=0,176366
ID= 8 N= 70
Mu=2,252042
Var=0,177059
ID= 10 N= 68
Mu=1,579043
Var=0,122874
ID= 14 N= 59
M 1 990258
ID= 15 N= 69
M 1 690811
ID= 16 N= 87
M 1 983171
ID= 17 N= 21
M 2 298612
Emploi
= 1, 5 = Aut re(s)
Education
< = 12,500000 > 12,500000
Age
< = 32,500000 > 32,500000
Syndicalisation
= 1 = Aut re(s)
Age
< = 25,500000 > 25,500000
Sexe
= 1 = Autre(s)
Emploi
= 3 = Aut re(s)
Education
< = 13,500000 > 13,500000