analyse multidimensionnelle des donnees

Upload: ilhem-el-ghoul

Post on 06-Apr-2018

252 views

Category:

Documents


0 download

TRANSCRIPT

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    1/156

    1

    Analyse multidimensionnelle

    des donnesF.-G. Carpentier

    2011/2012

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    2/156

    2

    Interprtation

    R

    empiriqueS

    gomtrique

    Mthodes danalyse

    Analyse multidimensionnelle des donnes : de quoi sagit-il ?

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    3/156

    3

    PAO PAA VIO VIA POT LEC RAI PLP

    AGRI 167 1 163 23 41 8 6 6

    SAAG 162 2 141 12 40 12 4 15

    PRIN 119 6 69 56 39 5 13 41

    CSUP 87 11 63 111 27 3 18 39

    CMOY 103 5 68 77 32 4 11 30

    EMPL 111 4 72 66 34 6 10 28

    OUVR 130 3 76 52 43 7 7 16

    INAC 138 7 117 74 53 8 12 20

    Consommations annuelles de 8 types de denres alimentaires pour 8catgories socio-professionnelles

    Source : Saporta, 1990

    Exemples de donnes relevant de lanalyse multidimensionnelle

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    4/156

    4

    Variables :

    PAO Pain ordinairePAA Autre painVIO Vin ordinaireVIA Autre vinPOT Pommes de terreLEC Lgumes secsRAI Raisin de table

    PLP Plats prpars

    Observations :

    AGRI Exploitants agricolesSAAG Salaris agricolesPRIN Professions indpendantesCSUP Cadres suprieursCMOY Cadres moyensEMPL EmploysOUVR Ouvriers

    INAC Inactifs

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    5/156

    5

    Droit Sciences Mdecine IUT

    Exp. agri. 80 99 65 58

    Patron 168 137 208 62

    Cadre sup. 470 400 876 79

    Employ 145 133 135 54

    Ouvrier 166 193 127 129

    Tableau de contingence : rpartition dtudiants en 1975-1976

    Cit par Saporta (1990)

    Exemples de donnes relevant de lanalyse multidimensionnelle

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    6/156

    6

    Exemples de donnes relevant de lanalyse multidimensionnelle

    Questions rponses fermes : sexe (2 modalits), niveau de revenu (2modalits), prfrence (3 modalits)

    1

    Sexe

    2

    Revenu

    3

    Preference

    s1

    s2

    s3

    s4

    s5

    s6

    s7

    s8

    s9

    s10

    F M A

    F M A

    F E B

    F E C

    F E C

    H E C

    H E B

    H M B

    H M B

    H M A

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    7/156

    7

    Mthodes

    danalysede donnes

    Fondes surun modlelinaire

    Exploratoires,descriptives, nonsupervises

    Statistiques lmentairesAnalyse en composantes principalesMthodes de classification

    Prdictives,supervises

    Variable dpendantequantitative

    Variable dpendantequalitative

    Rgression linaire multipleRgression en composantes principalesPartial Least Squares

    Rgression LogistiqueAnalyse discriminante

    Non linaires Non supervises Rseauneuromimtique deKohonen

    PrdictivesSupervises

    Variable dpendantequantitative ou qualitative

    Rseauneuromimtiquemulticouche

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    8/156

    8

    Analyse en composantes principales

    Donnes :

    Elment de cette matrice : xij

    n

    pVariables

    Individu ouobservation

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    9/156

    9

    Principaux rsultats dune ACP

    Coordonnesfactorielles ouscores

    n

    p

    Variables

    n

    p

    k

    Valeurs propresk

    Vecteurs propres (transposs)

    k

    Individus

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    10/156

    10

    Principe de la mthode

    Calcul des distances entre individus

    Recherche des directions de plus grande dispersion du nuagede points : axes factoriels

    Plus grande dispersion : moindre dformation

    Meilleur respect des distances entre individus

    Maximisation de linertie du nuage projet

    On procde axe par axe, mais les proprits restent vraies pour

    le premier plan factoriel, le premier espace factoriel de dimension3, etc

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    11/156

    11

    Project ion des ind. sur le plan factoriel ( 1 x 2)

    Observations avec la som m e des cos inus carrs >= 0,00

    Active

    AGRI

    SAAG

    PRINC SU P

    CMOY EMPL

    OUVR

    INAC

    -6 -4 -2 0 2 4

    Fact. 1 : 77,60%

    -1,0

    -0,5

    0 ,0

    0 ,5

    1 ,0

    1 ,5

    2 ,0

    2 ,5

    3 ,0

    Fact.2:11,00%

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    12/156

    12

    Project ion des variables s ur le plan factor iel ( 1 x 2)

    Active

    PAO

    PAA

    VIOVIA

    POT

    LEC

    R AI

    PL P

    -1 ,0 -0 ,5 0 ,0 0 ,5 1 ,0

    Fact. 1 : 77,60%

    -1,0

    -0,5

    0 ,0

    0 ,5

    1 ,0

    Fact.2

    :11,00%

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    13/156

    13

    M

    P

    O c1

    c2

    Cosinus carrs

    2

    2

    11

    2 ),(OMOcCPOMCos

    2

    2

    22

    2 ),(OM

    OcCPOMCos

    2

    2

    2 ),(OM

    OPOPOMCosQUAL

    QualitOM : vecteur de lobservation

    OP

    1Oc

    2Oc

    : vecteur de la projection sur le plan factoriel

    : projection sur laxe 1

    : projection sur laxe 2

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    14/156

    14

    QLT Coord. 1 Cos2 Ctr Coord. 2 Cos2 Ctr

    AGRI0,889 1,35 0,884 22,89 -0,26 0,005 0,86

    SAAG0,913 1,41 0,898 24,97 -0,48 0,014 2,84

    PRIN0,576 -0,59 0,575 4,36 0,06 0,001 0,05

    CSUP0,943 -1,75 0,942 38,26 0,19 0,002 0,44

    CMOY 0,940 -0,69 0,753 5,94 -0,91 0,187 10,43

    EMPL0,858 -0,32 0,428 1,31 -0,86 0,430 9,29

    OUVR0,376 0,36 0,361 1,63 -0,20 0,015 0,48

    INAC 0,987 0,23 0,056 0,64 2,46 0,932 75,61

    100 100

    Contributions des individus

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    15/156

    15

    Analyse factorielle

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    16/156

    16

    Analyse factorielle(factor analysis ou FA). Origine : travaux de Pearson(1901).Dveloppe au dpart par des psychologues.Vers 1940 : fondements thoriques, au niveau statistique,

    - nombreuses variantes :parfois dsigne par le terme "analyse en facteurs communs et spcifiques",selon les variantes :"analyse factorielle exploratoire" (exploratory factor analysis ou EFA)"analyse factorielle confirmatoire" (confirmatory factor analysis ou CFA).

    L'analyse en facteurs principaux (principal factor analysis ou PFA) est l'unedes variantes de l'analyse factorielle.

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    17/156

    17

    Mechanics(C) Vectors(C) Algebra(O) Analysis(O) Statistics(O)

    1 77 82 67 67 81

    2 63 78 80 70 81

    3 75 73 71 66 81

    4 55 72 63 70 68

    5 63 63 65 70 63

    6 ..

    Exemple : 88 sujets 5 matires

    On cherche un modle deux facteurs, en utilisantla mthode du maximum de vraisemblance.

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    18/156

    18

    Val. Propres (Open/Closed Book Data)

    Extraction : Facteurs du max. de vrais.

    Val Propre % Total Cumul Cumul

    variance Val propre %

    1 2,824170 56,48341 2,824170 56,48341

    2 0,319491 6,38983 3,143662 62,87323

    Communauts (Open/Closed Book) Rotation : Sans rot.

    Pour 1 Pour 2 R-deux

    Facteur Facteurs Multiple

    Mechanics(C) 0,394878 0,534103 0,376414

    Vectors(C) 0,483548 0,580944 0,445122

    Algebra(O) 0,808935 0,811431 0,671358

    Analysis(O) 0,607779 0,648207 0,540864

    Statistics(O) 0,529029 0,568977 0,479319

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    19/156

    19

    Qualit d'ajust.,2 (Open/Closed Book Data)(Test de la nullit des lments en dehors de la diagonale dans la matrice

    de corr.)

    % expl. Chi dl p

    Rsultat 62,87323 0,074710 1 0,784601

    Corrlations des Rsidus (Open/Closed Book Data) (Rsidus marqus sont > ,100000)Mechanics(C) Vectors(C) Algebra(O) Analysis(O) Statistics(O)

    Mechanics(C) 0,47 -0,00 0,00 -0,01 0,01

    Vectors(C) -0,00 0,42 -0,00 0,01 -0,01

    Algebra(O) 0,00 -0,00 0,19 -0,00 0,00

    Analysis(O) -0,01 0,01 -0,00 0,35 -0,00Statistics(O) 0,01 -0,01 0,00 -0,00 0,43

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    20/156

    20

    Poids Factoriels(Sans rot.) (Open/Closed Book Data) (Poids marqus

    >,700000)

    Facteur 1 Facteur 2

    Mechanics(C) -0,628393 0,373128

    Vectors(C) -0,695376 0,312083Algebra(O) -0,899408 -0,049958

    Analysis(O) -0,779602 -0,201066

    Statistics(O) -0,727344 -0,199869

    Var. Expl. 2,824170 0,319491

    Prp.Tot 0,564834 0,063898

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    21/156

    21

    Poids factoriels, Fact. 1 vs. Fact. 2

    Rotation : Sans rot.

    Extraction : F acteurs du max. de vrais.

    Mechanics(C)

    Vectors(C)

    Algebra(O)

    Analysis(O) Statistics(O)

    -0,95 -0,90 -0,85 -0,80 -0,75 -0,70 -0,65 -0,60

    Facteur1

    -0,3

    -0,2

    -0,1

    0, 0

    0, 1

    0, 2

    0, 3

    0, 4

    0, 5

    Facteur2

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    22/156

    22

    ir

    k

    r

    iri EFlX 1

    spcifiqueerreurlatentevariablecoeff.observeVariable

    - On a observ un ensemble X1, X2, ..., Xp de variables sur un chantillon- On fait l'hypothse que ces variables dpendent (linairement) en partie de k

    variables non observables, ou variables latentes ou facteurs F1, F

    2, ..., F

    k.

    On cherche donc dcomposer les variables observes Xi (supposes centres) de la

    faon suivante :

    avec les conditions suivantes :- Le nombre k de facteurs est fix l'avance.

    - Les facteurs Fr sont centrs rduits, non corrls entre eux- Les termes d'erreur Ei sont non corrls avec les facteurs

    - Les termes d'erreur Ei sont non corrls entre eux.

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    23/156

    23

    Mthodes dextraction des facteurs

    Plusieurs mthodes (cf. Statistica). Par exemple :

    PCA (principal component analysis) : la mthoderevient faire une ACP, mais avec la possibilitdeffectuer une rotation des facteurs

    PFA (principal factor analysis) : on cherche maximiser les communauts

    AF avec extraction par la mthode du maximumde vraisemblance (Maximum Likelihood extraction :MLE) : mais quest-ce que la vraisemblance ?

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    24/156

    24

    Notion de vraisemblance d'une valeur d'un paramtre :

    Questions du type : "Etant donn des rsultats observs sur unchantillon, est-il vraisemblable qu'un paramtre donn de lapopulation ait telle valeur ?".

    Exemple 1 : (variable discrte) Lors d'un rfrendum, on interrogetrois personnes. Deux dclarent voter "oui", la troisime dclarevoter "non".Au vu de ces observations, laquelle de ces deux hypothses est laplus vraisemblable :

    - Le rsultat du rfrendum sera 40% de "oui"- Le rsultat du rfrendum sera 60% de "oui".

    Solution. Si le rsultat du rfrendum est de 40% de "oui", laprobabilit d'observer trois personnes votant respectivement "oui","oui" et "non" est : P1 = 0,4x0,4x0,6 = 0,096. Si le rsultat durfrendum est de 60% de oui, la mme probabilit est : P2 =0,6x0,6x0,4 = 0,144. La seconde hypothse est donc plusvraisemblable que la premire.

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    25/156

    25

    Lors d'un test effectu sur un chantillon de 5 sujets, on a observ les scoressuivants :

    90, 98, 103, 107, 112.

    Deux modles sont proposs pour reprsenter la distribution des scoresdans la population parente :

    - La loi normale de moyenne 100 et d'cart type 15- La loi normale de moyenne 102 et d'cart type 10.

    Quel est le modle le plus vraisemblable ?

    Notion de vraisemblance d'une valeur d'un paramtre

    Exemple 2 :

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    26/156

    26

    On utilise la valeur de la distribution de la loi thorique au lieu de laprobabilit de la valeur observe. La vraisemblance associe chaquehypothse, calcule l'aide d'Excel, est donc :

    Obs Modle 1 Modle 2

    90 0,02130 0,01942

    98 0,02636 0,03683

    103 0,02607 0,03970107 0,02385 0,03521

    112 0,01931 0,02420

    Vraisemblance 6,74E-09 2,42E-08

    Le modle 2, dont la vraisemblance est de 2,42 10-8 est plusvraisemblable que le modle 1.

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    27/156

    27

    Estimation du maximum de vraisemblance

    L'estimation du maximum de vraisemblance (EMV, maximum likelihoodestimation ou MLE dans les ouvrages anglo-saxons) est la valeur duparamtre pour laquelle la vraisemblance est maximum -> valeur annulantune drive.

    Les calculs de vraisemblance sont souvent multiplicatifs et conduisent des

    nombres trs proches de 0.

    On utilise gnralement la fonction L, oppose du logarithme de lavraisemblance. Dans le cas prcdent du referendum on aurait ainsi :

    L = - ln P = - 2 ln p - ln(1 - p).

    La recherche de l'estimation du maximum de vraisemblance revient alors chercher le minimum de cette fonction.

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    28/156

    28

    Mthode du maximum de vraisemblance : test statistique d'adquation du modle.

    On fixe a priori un nombre k de facteurs extraire. Les poids factoriels des variables sur les

    diffrents facteurs sont alors dtermins de manire optimiser une fonction de

    vraisemblance..Test statistique permet valuant la validit du rsultat.

    H0 : Il y a exactement kfacteurs communs.H1 : Plus de kfacteurs sont ncessaires.La statistique utilise suit approximativement une loi du khi-2 avec

    kpkp 221

    degrs de libert (p : nombre de variables, k : nombre de facteurs extraits).

    Si le khi-2 trouv excde la valeur critique correspondant au niveau de

    significativit choisi, H0 est rejete, et il faut considrer au moins k+1 facteurs

    dans le modle.

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    29/156

    29

    Rotation des facteurs :rotations orthogonales, rotations obliques

    Les facteurs extraits ne sont pas dtermins de manire unique

    Toute rotation sur les facteurs produit une autre solution

    Rechercher une solution qui "fasse sens", c'est--dire qui produise des facteurs

    plus simples interprter.La transformation par rotation n'affecte pas l'adquation du modle aux

    donnes. Les communauts, notamment, restent les mmes.

    Les solutions avant ou aprs rotation peuvent tre interprts de faon

    notablement diffrente.

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    30/156

    30

    Poids Factoriels (sansrotation)

    Poids Factoriels (aprs rotationvarimax normalis)

    Facteur 1 Facteur 2 Facteur 1 Facteur 2

    Mechanics(C) -0,628393 0,373128 0,270028 0,679108

    Vectors(C) -0,695376 0,312083 0,360346 0,671636

    Algebra(O) -0,899408 -0,049958 0,742939 0,509384Analysis(O) -0,779602 -0,201066 0,740267 0,316563

    Statistics(O) -0,727344 -0,199869 0,698141 0,285615

    Var. Expl. 2,824170 0,319491 1,790119 1,353543

    Prp.Tot 0,564834 0,063898 0,358024 0,270709

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    31/156

    31

    Calsyn et Kenny (1971) ont tudi la relation entre les aptitudesperues et les aspirations scolaires de 556 lves du 8 grade. Lesvariables observes taient les suivantes :

    Self : auto-valuation des aptitudesParent : valuation par les parentsTeacher : valuation par l'enseignantFriend : valuation par les amisEduc Asp : aspirations scolairesCol Plan : projets d'tudes suprieures

    Exemple danalyse factorielle confirmatoire

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    32/156

    32

    Feuille de donnes3

    1

    Self

    2

    Parent

    3

    Teacher

    4

    Friend

    5

    Educ Asp

    6

    Col Plan

    Self

    ParentTeacher

    Friend

    Educ Asp

    Col Plan

    Moyenne

    Ec-Types

    Nb Obs.Matrice

    1,00 0,73 0,70 0,58 0,46 0,56

    0,73 1,00 0,68 0,61 0,43 0,520,70 0,68 1,00 0,57 0,40 0,48

    0,58 0,61 0,57 1,00 0,37 0,41

    0,46 0,43 0,40 0,37 1,00 0,72

    0,56 0,52 0,48 0,41 0,72 1,00

    0,00000 0,00000 0,00000 0,00000 0,00000 0,00000

    1,00000 1,00000 1,00000 1,00000 1,00000 1,00000

    556,000001,00000

    Corrlations entre les variables observes

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    33/156

    33

    Le modle tester fait les hypothses suivantes :- Les 4 premires variables mesurent la variable latente "aptitudes"- Les deux dernires mesurent la variable latente "aspirations".Ce modle est-il valide ? Et, s'il en est bien ainsi, les deux variableslatentes sont-elles corrles ?

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    34/156

    34

    Modle Estim (Ability and Aspiration dans AFC.stw)

    Aptitudes Aspirations

    Communa

    utSpcific

    it

    Self 0,863 0,745 0,255

    Parent 0,849 0,721 0,279

    Teacher 0,805 0,648 0,352

    Friend 0,695 0,483 0,517

    Educ Asp 0,775 0,601 0,399Col Plan 0,929 0,863 0,137

    Statistiques de Synthse (Ability and Aspiration dans AFC.stw)

    Valeur

    Chi-Deux MV 9,256Degrs de Libert 8,000

    Niveau p 0,321

    P=0,32 : bonne adquation du modle aux donnes

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    35/156

    35

    Analyse factorielle descorrespondances

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    36/156

    36

    Droit Sciences Mdecine IUT

    Exp. agri. 80 99 65 58

    Patron 168 137 208 62

    Cadre sup. 470 400 876 79

    Employ 145 133 135 54

    Ouvrier 166 193 127 129

    Tableau de contingence : rpartition dtudiants en 1975-1976

    Cit par Saporta (1990)

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    37/156

    37

    Effectifs observs O

    Droit Sciences Mdecine IUT

    Exp. agri. 80 99 65 58

    Patron 168 137 208 62

    Cadre sup. 470 400 876 79

    Employ 145 133 135 54Ouvrier 166 193 127 129

    Test du khi-2 sur un tableau de contingence

    Modalits lignes : variable X

    Modalits colonnes : variable Y

    Hypothses du test :H0 : Les variables X et Y sont indpendantesH1 : Les variables X et Y sont dpendantes

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    38/156

    38

    Effectifs observs Oij

    Droit Scienc

    es

    Mdecine IUT Total

    Exp. agri. 80 99 65 58 302

    Patron 168 137 208 62 575

    Cadre sup. 470 400 876 79 1825

    Employ 145 133 135 54 467

    Ouvrier 166 193 127 129 615

    Total 1029 962 1411 382 3784

    Construction de la statistique de test

    Effectifs thoriques TijDroit Sciences Mdecine IUT

    Exp. agri. 82,12 76,78 112,61 30,49

    Patron 156,36 146,18 214,41 58,05Cadre sup. 496,28 463,97 680,52 184,24

    Employ 126,99 118,72 174,14 47,14

    Ouvrier 167,24 156,35 229,32 62,09

    GnralTotal

    jcolonneTotaliligneTotal

    ijT

    3784

    102930282,12:Exemple

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    39/156

    39

    Contributions au khi-2

    Droit Sciences Mdecine IUT

    Exp. agri. 0,05 6,43 20,13 24,83

    Patron 0,87 0,58 0,19 0,27

    Cadre sup. 1,39 8,82 56,15 60,11

    Employ 2,55 1,72 8,80 1,00

    Ouvrier 0,01 8,59 45,66 72,12

    Contributions au khi-2 : (O - T)2

    /T

    12,82

    12,8280

    05,0:Exemple

    ;)(

    Ctr

    2

    2

    ij

    ij

    ijij

    T

    TO

    Calcul du khi-2

    2,32012,72...05,0Ctr

    ,

    2 ji

    ijObs

    Nombre de degrs de libert :

    121-colonnesModalitsNb1-lignesModalitsNbddl

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    40/156

    40

    y=chi2(x;12)

    0 5 10 15 20 25 30

    0,00

    0,02

    0,04

    0,06

    0,08

    0,10

    Loi du khi-2

    03,212 Crit

    H0 retenue H0 rejete ; H1 retenue

    5%95%

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    41/156

    41

    22

    CritObs : on conclut donc sur H1

    Les deux variables tudies dpendent lune de lautre

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    42/156

    42

    Effectifs et frquences marginaux

    Droit Sciences

    Mdecine

    IUT Effectifsmarginauxlignes

    Frquence

    Exp. agri. 80 99 65 58 302 0,0798

    Patron 168 137 208 62 575 0,1520

    Cadre sup. 470 400 876 79 1825 0,4823

    Employ 145 133 135 54 467 0,1234

    Ouvrier 166 193 127 129 615 0,1625

    Effectifsmarginaux

    colonnes

    1029 962 1411 382 3784

    Frquence 0,2719 0,2542 0,3729 0,1010

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    43/156

    43

    Frquences thoriques dans l'hypothse d'indpendance

    X 0,2719 0,2542 0,3729 0,1010

    0,0798 0,0217 0,0203 0,0298 0,0081

    0,1520 0,0413 0,0386 0,0567 0,0153

    0,4823 = 0,1312 0,1226 0,1798 0,0487

    0,1234 0,0336 0,0314 0,0460 0,01250,1625 0,0442 0,0413 0,0606 0,0164

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    44/156

    44

    Frquences thoriques dans l'hypothse d'indpendance

    0164,00606,00413,00442,0

    0125,00460,00314,00336,0

    0487,01798,01226,01312,0

    0153,00567,00386,00413,0

    081,00298,00203,00217,0

    1010,03729,02542,02719,0

    1625,0

    1234,0

    4823,0

    1520,0

    0798,0

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    45/156

    45

    Effectifs thoriques dans le cas d'indpendance

    0,0217 0,0203 0,0298 0,0081 82,12 76,78 112,61 30,49

    0,0413 0,0386 0,0567 0,0153 156,36 146,18 214,41 58,05

    0,1312 0,1226 0,1798 0,0487 496,28 463,97 680,52 184,24

    0,0336 0,0314 0,0460 0,0125 126,99 118,72 174,14 47,14

    0,0442 0,0413 0,0606 0,0164 x 3784 = 167,24 156,35 229,32 62,09

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    46/156

    46

    Effectifs observs O

    Droit Sciences Mdecine IUT

    Exp. agri. 80 99 65 58

    Patron 168 137 208 62

    Cadre sup. 470 400 876 79

    Employ 145 133 135 54

    Ouvrier 166 193 127 129

    Effectifs thoriques T

    Droit Sciences Mdecine IUT

    Exp. agri. 82,12 76,78 112,61 30,49

    Patron 156,36 146,18 214,41 58,05

    Cadre sup. 496,28 463,97 680,52 184,24

    Employ 126,99 118,72 174,14 47,14

    Ouvrier 167,24 156,35 229,32 62,09

    Ecarts l'indpendance : E = O - T

    Droit Sciences Mdecine IUT

    Exp. agri. -2,12 22,22 -47,61 27,51

    Patron 11,64 -9,18 -6,41 3,95

    Cadre sup. -26,28 -63,97 195,48 -105,24

    Employ 18,01 14,28 -39,14 6,86

    Ouvrier -1,24 36,65 -102,32 66,91

    Droit Sciences Mdecine IUT

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    47/156

    47

    Effectifs thoriques T

    Droit Sciences Mdecine IUT

    Exp. agri. 82,12 76,78 112,61 30,49

    Patron 156,36 146,18 214,41 58,05

    Cadre sup. 496,28 463,97 680,52 184,24

    Employ 126,99 118,72 174,14 47,14Ouvrier 167,24 156,35 229,32 62,09

    Ecarts l'indpendance : E = O - TDroit Sciences Mdecine IUT

    Exp. agri. -2,12 22,22 -47,61 27,51

    Patron 11,64 -9,18 -6,41 3,95Cadre sup. -26,28 -63,97 195,48 -105,24

    Employ 18,01 14,28 -39,14 6,86

    Ouvrier -1,24 36,65 -102,32 66,91

    Taux de liaison : (O - T)/T : valeursdans lintervalle [-1, + [

    -0,42 : leffectif observ est infrieurde 42% leffectif thorique

    1,08 : leffectif observ est suprieur

    de 108% leffectif thorique

    Droit Sciences Mdecine IUT

    Exp. agri. -0,03 0,29 -0,42 0,90

    Patron 0,07 -0,06 -0,03 0,07

    Cadresup.

    -0,05 -0,14 0,29 -0,57

    Employ 0,14 0,12 -0,22 0,15

    Ouvrier -0,01 0,23 -0,45 1,08

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    48/156

    48

    Les questions auxquelles on cherche rpondre :

    - Quelles sont les modalits lignes qui sont proches du profil lignemoyen ? Quelles sont celles qui sen cartent le plus ?

    - Quelles sont les modalits colonnes qui sont proches du profilcolonne moyen ? Quelles sont celles qui sen cartent le plus ?

    - Quelles sont les modalits lignes et les modalits colonnes qui sattirent ? Quelles sont celles qui se repoussent ?

    Analyse des correspondances

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    49/156

    49

    Notations :

    Soit un tableau de contingence comportant p lignes et q colonnes.

    - L'lment du tableau situ l'intersection de la ligne i et de lacolonne j est not nij.

    - La somme des lments d'une ligne est note

    - La somme des lments d'une colonne est note

    in

    jn

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    50/156

    50

    q

    j i

    ji

    i

    ij

    j

    iin

    n

    n

    n

    n

    nd

    1

    2

    '

    '2

    '

    2222

    2

    12575

    62

    302

    58

    382

    3784

    575

    208

    302

    65

    1411

    3784

    575

    137

    302

    99

    962

    3784

    575

    168

    302

    80

    1029

    3784

    d

    Distance (du Phi-2) entre deux profils lignes :

    Exemple :

    Droit Sciences Mdecine IUT Effectifs

    marginaux lignesExp. agri. 80 99 65 58 302

    Patron 168 137 208 62 575

    Cadre sup. 470 400 876 79 1825

    Employ 145 133 135 54 467

    Ouvrier 166 193 127 129 615

    Effectifs marginauxcolonnes

    1029 962 1411 382 3784

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    51/156

    51

    p

    i j

    ij

    j

    ij

    i

    jjn

    n

    n

    n

    n

    nd

    1

    2

    '

    '2 '

    22222

    2

    12962

    193

    1029

    166

    615

    3784

    962

    133

    1029

    145

    467

    3784

    962

    400

    1029

    470

    1825

    3784

    962

    137

    1029

    168

    575

    3784

    962

    99

    1029

    80

    302

    3784

    d

    Distance (du Phi-2) entre deux profils colonnes :

    Exemple : distance entre les colonnes 1 et 2

    Droit Sciences Mdecine IUT Effectifs

    marginaux lignes

    Exp. agri. 80 99 65 58 302

    Patron 168 137 208 62 575

    Cadre sup. 470 400 876 79 1825

    Employ 145 133 135 54 467

    Ouvrier 166 193 127 129 615

    Effectifs marginauxcolonnes

    1029 962 1411 382 3784

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    52/156

    52

    - Si on regroupe deux modalits lignes, les distances entre les

    profils-colonnes, ou entre les autres profils-lignes restentinchanges.

    - Si on regroupe deux modalits colonnes, les distances entre lesprofils-lignes, ou entre les autres profils-colonnes restentinchanges.

    Proprit d'quivalence distributionnelle :

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    53/156

    53

    Principaux rsultats dune AFC

    Coordonnesfactorielles deslignes

    p

    qModalits (individus) colonnes

    p

    q

    k

    Valeurs propresk

    Coordonnes factorielles des colonnes

    k

    Modalits(individus)

    lignes

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    54/156

    54

    Valeurs propres

    ValProp. %ageinertie

    %agecumul

    Chi

    1 0,082 97,35 97,35 311,78

    2 0,002 2,01 99,36 6,45

    3 0,001 0,64 100,00 2,04

    Inertie totale du nuage de points :

    22

    2 PropresValeurs iGM

    N

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    55/156

    55

    Rsultats relatifs aux lignes

    Coord.Dim.1

    Coord.Dim.2

    Masse Qualit InertieRelative

    InertieDim.1

    CosinusDim.1

    InertieDim.2

    CosinusDim.2

    Exp. Agri. 0,410 0,026 0,080 0,991 0,161 0,163 0,987 0,032 0,004

    Patrons 0,020 -0,027 0,152 0,336 0,006 0,001 0,123 0,063 0,213

    Cadres Sup. -0,263 0,016 0,482 0,999 0,395 0,404 0,996 0,069 0,004

    Employs 0,142 -0,097 0,123 0,985 0,044 0,030 0,670 0,686 0,315

    Ouvriers 0,451 0,040 0,163 1,000 0,395 0,402 0,992 0,150 0,008

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    56/156

    56

    Rsultats relatifs aux colonnes

    Coord.Dim.1

    Coord.Dim.2

    Masse Qualit InertieRelative

    InertieDim.1

    CosinusDim.1

    InertieDim.2

    CosinusDim.2

    Droit 0,028 -0,061 0,272 0,942 0,015 0,003 0,165 0,588 0,777Sciences 0,160 -0,003 0,254 0,948 0,082 0,079 0,948 0,001 0,000

    Mdecine -0,303 0,030 0,373 1,000 0,409 0,416 0,990 0,193 0,009

    IUT 0,640 0,061 0,101 0,998 0,494 0,502 0,989 0,219 0,009

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    57/156

    57

    Trac 2D des Coordonnes L igne & Co lonne ; D imen s ion : 1 x 2

    Table d 'Entre (L ignes x Colonnes ) : 5 x 4

    Standard isat ion : Pro fi ls l igne e t co lonne

    Coord.L .

    Coord.C.

    Exp.Agri.

    Pat rons

    CadresSup .

    Employs

    Ouvriers

    Dro i t

    Sc iences

    Mdec ine

    IU T

    -0 ,4 -0 ,3 -0 ,2 -0 ,1 0 ,0 0 ,1 0 ,2 0 ,3 0 ,4 0 ,5 0 ,6 0 ,7 0 ,8

    Dim ens ion 1 ; Va leur Propre : ,08239 (97,35 % d 'Iner tie )

    -0,12

    -0,10

    -0,08

    -0,06

    -0,04

    -0,02

    0,00

    0,02

    0,04

    0,06

    0,08

    Dimension2;

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    58/156

    58

    Analyse des correspondancesmultiples

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    59/156

    59

    Sexe Revenu Preference

    s1 F M A

    s2 F M A

    s3 F E B

    s4 F E Cs5 F E C

    s6 H E C

    s7 H E B

    s8 H M B

    s9 H M Bs10 H M A

    Tableau protocole : 3 questions, 7 modalits

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    60/156

    60

    Sexe:F

    Sexe:H

    Rev:M

    Rev:E Pref:A Pref:B Pref:C

    s1 1 0 1 0 1 0 0

    s2 1 0 1 0 1 0 0

    s3 1 0 0 1 0 1 0

    s4 1 0 0 1 0 0 1

    s5 1 0 0 1 0 0 1

    s6 0 1 0 1 0 0 1

    s7 0 1 0 1 0 1 0

    s8 0 1 1 0 0 1 0

    s9 0 1 1 0 0 1 0

    s10 0 1 1 0 1 0 0

    Tableau disjonctif complet

    La disjonction complte

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    61/156

    61

    DEPARTEMENTS BLE VIN LAIT

    DEP 1 NON ROUGE PEU

    DEP 2 OUI ROSE MOYEN

    DEP 3 OUI BLANC MOYEN

    LA DISJONCTION EST UNE CODIFICATION EN DONNEES BINAIRES

    CREATION DUNE VARIABLE POUR CHAQUE MODALITE

    BLE VIN LAIT

    DEPARTEMENTS OUI NON ROUGE ROSE BLANC PEU MOYEN BCP

    DEP 1 0 1 1 0 0 1 0 0

    DEP 2 1 0 0 1 0 0 1 0

    DEP 3 1 0 0 0 1 0 1 0

    La disjonction complte

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    62/156

    62

    Sexe Revenu Preference Effectif

    F M A 2

    F E B 1

    F E C 2H E C 1

    H E B 1

    H M B 2H M A 1

    Tableau deffectifs ou tableau des patrons de rponses

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    63/156

    63

    Sexe:F

    Sexe:H

    Rev:M

    Rev:E Pref:A Pref:B Pref:C

    FMA 2 0 2 0 2 0 0

    FEB 1 0 0 1 0 1 0

    FEC 2 0 0 2 0 0 2HEC 0 1 0 1 0 0 1

    HEB 0 1 0 1 0 1 0

    HMB 0 2 2 0 0 2 0

    HMA 0 1 1 0 1 0 0

    Tableau disjonctif des patrons de rponses

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    64/156

    64

    F H M E A B C

    Sexe:F 5 0 2 3 2 1 2

    Sexe:H 0 5 3 2 1 3 1

    Revenu:M 2 3 5 0 3 2 0Revenu:E 3 2 0 5 0 2 3

    Preference:A 2 1 3 0 3 0 0

    Preference:B 1 3 2 2 0 4 0

    Preference:C 2 1 0 3 0 0 3

    Tableau de Burt

    Le tableau de BURT

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    65/156

    65

    BLE VIN LAIT

    OUI NON Rouge Ros Blanc Peu Moyen Bcp

    0 1 1 0 0 1 0 0

    1 0 0 1 0 0 1 0

    1 0 0 0 1 0 1 0

    OUI 0 1 12 0 0 1 1 0 2 0NON 1 0 0 0 1 1 0 0 1 0 0

    Rouge 1 0 0 0 1 1 0 0 1 0 0

    Ros 0 1 0 1 0 0 1 0 0 1 0

    Blanc 0 0 1 1 0 0 0 1 0 1 0

    Pau 1 0 0 0 1 1 0 0 1 0 0

    Moyen 0 1 1 2 0 0 1 1 0 2 0Bcp 0 0 0 0 0 0 0 0 0 0 0

    MATRICE DE BURT

    t XX

    t XX Tous les tris simplesTous les tris croiss

    Si X est une matrice disjonctive complteLa Matrice de BURT est t XX

    Le tableau de BURT

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    66/156

    66

    Analyse des correspondances multiples

    Effectuer l'analyse des correspondances multiples, c'est effectuerl'analyse factorielle des correspondances du tableau disjonctifcomplet, muni des relations K (modalits embotes dans lesquestions) et I (individus embots dans les modalits de

    chaque question).Rouanet et Le Roux

    Proprit de lanalyse des correspondances (simple)

    Lorsquil y a deux variables qualitatives runies dans un tableaudisjonctif X = [X1|X2], lanalyse factorielle des correspondances dutableau disjonctif est quivalente lanalyse des correspondances dutableau de contingence N = TX1 X2

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    67/156

    67

    Sexe Revenu Preference

    s1 F M A

    s2 F M A

    s3 F E B

    s4 F E Cs5 F E C

    s6 H E C

    s7 H E B

    s8 H M B

    s9 H M Bs10 H M A

    Rsultats produits par lACM sur le tableau suivant :

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    68/156

    68

    Valeurs Propres et Inertie de toutes les Dimensions (Protocole dans Mini-ACM.stw) Table d'Entre (Lignes x Colonnes) : 7 x 7 (Table de Burt) InertieTotale = 1,3333

    ValSing. ValProp. %age %age Chi

    1 0,776426 0,602837 45,21275 45,2128 25,379432 0,680961 0,463708 34,77810 79,9909 19,52211

    3 0,450509 0,202959 15,22190 95,2128 8,54456

    4 0,252646 0,063830 4,78725 100,0000 2,68724

    Valeurs propres

    Valeurs propres : dcroissance lente -> taux dinertie modifis de Benzcri

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    69/156

    69

    ValProp. 1/Q (VP-1/Q)^2 %age

    1 0,6028 0,3333 0,0726 81,04%

    2 0,4637 0,3333 0,0170 18,96%

    3 0,20304 0,0638

    Somme 1,3333 0,089630

    Calcul des taux modifis :

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    70/156

    70

    Coordonnes Colonne et Contributions l'Inertie (Protocole dans Mini-ACM.stw )

    Table d'Entre (Lignes x Colonnes) : 7 x 7 (Table de Burt)

    Inertie Totale = 1,3333

    NomLigne

    Ligne

    Numro

    Coord.

    Dim.1

    Coord.

    Dim.2

    Masse Qualit Inertie

    Relative

    Inertie

    Dim.1

    Cosinus

    Dim.1

    Inertie

    Dim.2

    Cosinus

    Dim.2

    Sexe:F

    Sexe:H

    Revenu:M

    Revenu:E

    Preference:A

    Preference:B

    Preference:C

    1 -0,31 0,79 0,17 0,72 0,12 0,03 0,10 0,22 0,62

    2 0,31 -0,79 0,17 0,72 0,12 0,03 0,10 0,22 0,62

    3 0,94 0,14 0,17 0,90 0,13 0,24 0,88 0,01 0,02

    4 -0,94 -0,14 0,17 0,90 0,13 0,24 0,88 0,01 0,02

    5 1,03 1,02 0,10 0,91 0,18 0,18 0,46 0,23 0,45

    6 0,19 -1,01 0,13 0,70 0,15 0,01 0,02 0,29 0,68

    7 -1,29 0,32 0,10 0,75 0,18 0,28 0,71 0,02 0,04

    Coordonnes, inertie et cosinus carrs

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    71/156

    71

    Trac 2D des Coordon nes Colon ne ; D im ens ion : 1 x 2

    Table d 'Ent re (L ignes x Colonnes) : 7 x 7 (Table de Bu r t)

    Sexe:F

    Sexe:H

    Revenu:M

    Revenu:E

    Preference:A

    Preference:B

    Preference:C

    -2 ,0 -1 ,5 -1 ,0 -0 ,5 0 ,0 0 ,5 1 ,0 1 ,5

    Dim ens ion 1; Valeur Propre : ,60284 (45,21 % d ' Iner tie)

    -1,5

    -1,0

    -0,5

    0 ,0

    0 ,5

    1 ,0

    1 ,5

    D

    imension2;V

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    72/156

    72

    Trac 2D des Coordonnes Ligne & Colonne ; Dimension : 1 x 2

    Table d'Entre (Lignes x Colonnes) : 7 x 7

    Standardisation : Profils ligne et colonne

    Coord.L.Coord.C.

    FMA

    FEB

    FEC

    HEC

    HEB

    HMB

    HMA

    Sexe:F

    Sexe:H

    Rev:M

    Rev:E

    Pref:A

    Pref:B

    Pref:C

    -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5

    Dimension 1; Valeur Propre : ,60284 (45,21 % d'Inertie)

    -1,5

    -1,0

    -0,5

    0,0

    0,5

    1,0

    1,5

    Dimension

    Trac 2D des Coordonnes Ligne & Colonne ; Dimension : 1 x 2

    Table d'Entre (Lignes x Colonnes) : 7 x 7

    Standardisation : Profils ligne et colonne

    Coord.L.Coord.C.

    FMA

    FEB

    FEC

    HEC

    HEB

    HMB

    HMA

    Sexe:F

    Sexe:H

    Rev:M

    Rev:E

    Pref:A

    Pref:B

    Pref:C

    -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5

    Dimension 1; Valeur Propre : ,60284 (45,21 % d'Inertie)

    -1,5

    -1,0

    -0,5

    0,0

    0,5

    1,0

    1,5

    Dimension

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    73/156

    73

    2 KQ

    QNombre de modalits Nombre de questions

    Nombre de questions

    Valeur du Phi-2 :

    Sur notre exemple :

    Proprits algbriques et gomtriques de lACM

    33,13

    372

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    74/156

    74

    Contributions absolues et relatives des modalits colonnes linertie :

    Q

    fMCta kk

    1)(

    QK

    fMCtr kk

    1)(

    Sur notre exemple :

    %5,124

    5,01])F:Sexe([

    Ctr

    %5,17

    4

    3,01])A:Pref([

    Ctr

    Contribution dautant plus forte que la modalit est plus rare

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    75/156

    75

    Inerties absolue et relative dune question :

    Q

    KXI

    q

    q

    1)(

    questionsdeNb-modalitsdetotalNb

    1questionlademodalitsdeNb1)(

    QK

    KXInr

    q

    q

    Kq : nombre de modalits de la question q

    Sur lexemple :

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    76/156

    76

    Inerties absolue et relative dune question :

    33,03

    12)Revenu()Sexe( II

    Sur l exemple :

    67,03

    13)Pref(

    I

    %254

    12)Revenu()Sexe(

    InrInr

    %504

    13)Pref(

    I

    Linertie dune question est dautant plus forte que laquestion comporte un plus grand nombre de modalits.

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    77/156

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    78/156

    78

    Distance dune ligne au profil moyen

    d22

    (O, Patron i) 1Nombre de Questions

    1frquence de la modalit k

    1

    Somme tendue toutes les modalits faisant partie du patron i

    Exemple :

    44,113,0

    1

    5,0

    1

    5,0

    1

    3

    1])[,(2 2

    FMAOd

    Un patron est dautant plus loin de lorigine quilcomporte des modalits rares

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    79/156

    79

    d22 (Mk, Mk' )

    Effectif de k Effectif de k' 2 Effectif de la combinaison k & k'

    Effectif de k Effectif de k' / Effectif total

    Distances entre profils colonnes :

    d22 (Mk, Mk')

    1

    fk

    1

    fk' 2

    fkk'

    fk fk'nk nk' 2nkk'

    nknk' /n

    4,210/55

    2255

    5,05,0

    2,02

    5,0

    1

    5,0

    1)M:RevenuF,:Sexe(2 2

    d

    Exemple :

    Deux modalits sont dautant plus loignes quelles sont defrquences faibles et rarement rencontres simultanment

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    80/156

    80

    Distance dune colonne au profil moyen :

    d22 (O, Mk) 1

    fk1 n

    nk1 Effectif total

    Effectif de k1

    Exemple :

    5,114

    101

    4,0

    1)B:Pref,(2 2 Od

    Une modalit est dautant plus loin de O que sa frquence est faible

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    81/156

    81

    1) Indpendance des modalits Mket Mk' :

    ),(),(),( '22

    '

    2

    kkkk MOdMOdMMd

    Autrement dit, dans l'espace multidimensionnel, le triangle OMkMk'est alors un triangle rectangle en O.

    2) Si les modalits Mket Mk's'attirent, l'angle ', kk OMOM

    est un angle aigu.

    3) Si les modalits Mket Mk'se repoussent, l'angle ', kk OMOM

    est un angle obtus.

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    82/156

    82

    4) Si l'effectif conjoint nkk'des modalits Mket Mk'est nul (en

    particulier si Mket Mk'sont deux modalits d'une mme question) :

    2),(),(),( '22

    '

    2 kkkk MOdMOdMMd

    D i d d li h

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    83/156

    83

    Deux questions deux modalits chacune.

    Cas 1 : les effectifs des modalits sont donns par :

    A1 A2 Total

    B1 50 50 100

    B2 50 50 100

    Total 100 100 200

    Prvoir la forme de la reprsentation par rapport au premier plan factoriel.

    Rponse :

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    84/156

    84

    Trac 2D des Coordonnes Colonne ; Dimension : 1 x 2

    Table d'Entre (Lignes x Colonnes) : 4 x 4 (Table de Burt)

    A:A1 A:A2

    B:B1

    B:B2

    -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5

    Dimension 1; Valeur Propre : ,50000 (50,00 % d'Inertie)

    -1,5

    -1,0

    -0,5

    0,0

    0,5

    1,0

    1,5

    D

    imension2;ValeurPropre:,50000(50,00%

    d'Inertie)

    p

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    85/156

    85

    Cas 2 : les effectifs des modalits sont donns par :

    A1 A2 Total

    B1 80 20 100

    B2 80 20 100

    Total 160 40 200

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    86/156

    86

    Trac 2D des Coordonnes Colonne ; Dimension : 1 x 2

    Table d'Entre (Lignes x Colonnes) : 4 x 4 (Table de Burt)

    A:A1A:A2

    B:B1

    B:B2

    -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0

    Dimension 1; Valeur Propre : ,50000 (50,00 % d'Inertie)

    -1,5

    -1,0

    -0,5

    0,0

    0,5

    1,0

    1,5

    D

    imension2;ValeurPropre:,50000(50,00%

    d'Inertie)

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    87/156

    87

    Cas 3 : les effectifs des modalits sont donns par :

    A1 A2 Total

    B1 72 48 120

    B2 48 32 80

    Total 120 80 200

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    88/156

    88

    Trac 2D des Coordonnes Colonne ; Dimension : 1 x 2

    Table d'Entre (Lignes x Colonnes) : 4 x 4 (Table de Burt)

    A:A1

    A:A2

    B:B1 B:B2

    -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5

    Dimension 1; Valeur Propre : ,50000 (50,00 % d'Inertie)

    -1,5

    -1,0

    -0,5

    0,0

    0,5

    1,0

    1,5

    D

    imension2;ValeurPropre:,50000(50,00%

    d'Inertie)

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    89/156

    89

    Cas 4 : les effectifs des modalits sont donns par :

    A1 A2 Total

    B1 80 50 130

    B2 50 20 70

    Total 130 70 200

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    90/156

    90

    Trac 2D des Coordonnes Colonne ; Dimension : 1 x 2

    Table d'Entre (Lignes x Colonnes) : 4 x 4 (Table de Burt)

    A:A1

    A:A2

    B:B1

    B:B2

    -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5

    Dimension 1; Valeur Propre : ,54945 (54,95 % d'Inertie)

    -0,8

    -0,6

    -0,4

    -0,2

    0,0

    0,2

    0,4

    0,6

    0,8

    1,0

    1,2

    Dimension2;ValeurPropre:,45055(45,05%

    d'Inertie)

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    91/156

    91

    Cas 5 : les effectifs des modalits sont donns par :

    A1 A2 Total

    B1 73 56 129

    B2 40 32 72

    Total 113 88 201

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    92/156

    92

    Trac 2D des Coordonnes Colonne ; Dimension : 1 x 2

    Table d'Entre (Lignes x Colonnes) : 4 x 4 (Table de Burt)

    A:A1

    A:A2

    B:B1

    B:B2

    -1,2 -1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8

    Dimension 1; Valeur Propre : ,50499 (50,50 % d'Inertie)

    -1,0

    -0,8

    -0,6

    -0,4

    -0,2

    0,0

    0,2

    0,4

    0,6

    0,8

    1,0

    1,2

    Dimension2;ValeurPropre:,49501(49,50%

    d'Inertie)

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    93/156

    93

    Mthodes de classification

    Mth d d t t bil

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    94/156

    94

    Cration alatoire decentres de gravit.

    Au dpart

    Etape 1

    Chaque observation est classeen fonction de sa proximit auxcentres de gravits.

    Mthodes de type centres mobiles

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    95/156

    95

    Chaque centre de gravit estdplac de manire tre aucentre du groupecorrespondant

    On rpte ltape 1avec les nouveauxcentres de gravit.

    Etape 2

    Etape 1

    Et 2

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    96/156

    96

    Etape 2

    De nouveau, chaque centrede gravit est recalcul.

    On continue jusqu ce que les centres de gravit ne bougent plus.

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    97/156

    97

    1

    animal-FR

    2

    nimal-US

    3

    nimal-VN

    4

    akery-FR

    5

    akery-US

    6

    akery-VN

    7

    andy-FR

    8

    andy-US

    9

    andy-VN

    amber

    anise

    apricot

    blackcurrant

    butter

    cat pee

    cinnamon

    civet

    clove

    cookies

    detergent

    eucalyptus

    ginger

    hazelnut

    honey

    jasmine

    lavender

    1,17 1,05 1,87 1,83 1,16 2,53 2,27 1,58 2,73

    1,07 1 1,63 2,2 2,16 2,67 6,03 6,05 3,53

    1,07 1,26 1,63 2,3 1,95 3,4 5,23 3,84 5,03

    1,03 1,37 1,43 2,2 1,74 3,27 6,63 5,42 4,43

    2,97 2,26 2,03 1,37 3,16 3,43 1,3 1,32 3,4

    3,5 5,21 2,07 1 1,05 1,73 1,03 1,37 1,7

    1,33 1,11 1,57 2,67 4,26 2,87 2,47 5,11 3,2

    4,8 4,79 3,97 1 1,05 1,57 1,07 1,26 1,4

    1,23 1,37 2,27 1,43 2,89 1,83 1,37 2,63 1,8

    1,03 1 1,33 4,37 4,33 5,4 5,27 4,33 4,83

    1,37 1,37 2,37 1,13 1,32 1,73 1,2 1,16 1,9

    1,03 1,32 1,43 1 1,05 1,73 4,1 1,63 2,33

    1,27 1,53 1,73 1,47 2,05 2,97 2,43 1,63 3,77

    1,77 2,22 2,7 4,23 2,94 2,63 3,27 3,22 2,33

    2,03 2,33 2,67 2,1 2,28 2,27 2,8 2,17 2,8

    1,7 1,63 2,57 1,13 1,47 2,1 1,23 2,05 2,33

    1,07 1,05 1,8 1 1,16 1,83 1,27 1,47 2,47

    Exemple : typicalit des odeurs dans 3 cultures : FR, US, VN

    Extrait des donnes

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    98/156

    98

    Exemple : typicalit des odeurs dans 3 cultures : FR, US, VN

    Classe 1Composition de la Classe 1 (Odors dans Odors.stw )

    et Distances au Centre de Classe Respectif

    Classe avec 8 obs.

    FR

    Distance

    anise

    apricot

    blackcurrant

    cookies

    melon

    milk

    pineapple

    straw berry

    0,853238

    0,556198

    0,475439

    0,885102

    0,854534

    0,538125

    0,616581

    0,397054

    Composition de la Classe 1 (Odors dans Odors.stw )

    et Distances au Centre de Classe Respectif

    Classe avec 6 obs.

    VN

    Distance

    apricot

    blackcurrantcookies

    melon

    pineapple

    strawberry

    0,221989

    0,3562610,589538

    0,385943

    0,337747

    0,291606

    Composition de la Classe 5 (Odors dans Odors.stw )et Distances au Centre de Classe Respectif

    Classe avec 5 obs.

    US

    Distance

    apricot

    blackcurrant

    melon

    pineapple

    straw berry

    0,597914

    0,234945

    0,419215

    0,312601

    0,331206

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    99/156

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    100/156

    100

    Exemple : typicalit des odeurs dans 3 cultures : FR, US, VN

    Classe 3Composition de la Classe 3 (Odors dans Odors.stw )et Distances au Centre de Classe Respectif

    Classe avec 16 obs.

    FR

    Distance

    butter

    cat pee

    cinnamon

    civet

    clove

    ginger

    hazelnut

    honey

    moldy

    mushroom

    nutmeg

    peanut

    tea

    truffle

    w alnut

    w oody

    0,673286

    0,752818

    0,810755

    1,056562

    0,818287

    0,655657

    1,093172

    0,605759

    1,245204

    1,222151

    0,669163

    0,677682

    0,332057

    0,551662

    0,943539

    0,533684

    Composition de la Classe 2 (Odors dans Odors.stw )

    et Distances au Centre de Classe Respectif

    Classe avec 10 obs.

    VN

    Distance

    cat pee

    civethazelnut

    leather

    moldy

    mushroom

    nutmeg

    peanut

    truffle

    w oody

    0,348711

    0,5714330,354241

    0,348657

    0,850417

    0,439731

    0,302967

    0,348855

    0,380382

    0,252038

    Composition de la Classe 2 (Odors dans Odors.stw )et Distances au Centre de Classe Respectif

    Classe avec 10 obs.

    US

    Distance

    butter

    cat pee

    civet

    honey

    leather

    moldy

    mushroomtea

    truffle

    w oody

    0,686537

    0,830411

    0,712920

    0,502343

    0,551503

    0,694570

    0,6023220,417894

    0,512148

    0,487014

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    101/156

    101

    Exemple : typicalit des odeurs dans 3 cultures : FR, US, VN

    Classe 4

    Composition de la Classe 4 (Odors dans Odors.stw )

    et Distances au Centre de Classe Respectif

    Classe avec 6 obs.

    FR

    Distance

    detergent

    leather

    moth ball

    musk

    pine

    soap

    0,433169

    0,445424

    0,362147

    0,483415

    0,471897

    0,583448

    Composition de la Classe 4 (Odors dans Odors.stw )

    et Distances au Centre de Classe Respectif

    Classe avec 12 obs.

    VN

    Distance

    clove

    detergenthoney

    jasmine

    lavender

    moth ball

    musk

    orange blossom

    pine

    soap

    tea

    violet

    0,431683

    0,2991910,441126

    0,396467

    0,326566

    0,371675

    0,280186

    0,531775

    0,395162

    0,573349

    0,357944

    0,174551

    Composition de la Classe 3 (Odors dans Odors.stw )

    et Distances au Centre de Classe RespectifClasse avec 12 obs.

    US

    Distance

    amber

    detergent

    jasmine

    lavender

    mango

    moth ball

    musk

    orange blossompine

    rose

    soap

    violet

    0,687928

    0,424100

    0,652539

    0,461172

    0,434236

    0,814012

    0,584099

    0,5411480,579675

    0,542605

    0,883078

    0,560355

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    102/156

    102

    Exemple : typicalit des odeurs dans 3 cultures : FR, US, VN

    Classe 5

    Composition de la Classe 5 (Odors dans Odors.stw )

    et Distances au Centre de Classe Respectif

    Classe avec 2 obs.

    FR

    Distance

    eucalyptus

    w intergreen

    0,462265

    0,462265Composition de la Classe 5 (Odors dans Odors.stw )

    et Distances au Centre de Classe Respectif

    Classe avec 4 obs.

    VN

    Distance

    amber

    eucalyptus

    w alnut

    w intergreen

    0,435829

    0,291722

    0,313654

    0,278881

    Composition de la Classe 1 (Odors dans Odors.stw )et Distances au Centre de Classe Respectif

    Classe avec 4 obs.

    US

    Distance

    eucalyptus

    ginger

    nutmeg

    w intergreen

    0,794737

    0,586028

    0,709252

    0,780444

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    103/156

    103

    Les quatre tapes de la mthode :

    -Choix des variables reprsentant les individus

    - Choix d'un indice de dissimilarit

    -Choix d'un indice d'agrgation

    -Algorithme de classification et rsultat produit

    Classification Ascendante Hirarchique

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    104/156

    104

    d(Ii,Ij ) (xik x jk)2

    k- Distance Euclidienne.

    d(Ii,Ij ) (x ik x jk)2

    k

    - Distance Euclidienne au carr.

    d(Ii,Ij ) xik x jkk

    - Distance du City-block (Manhattan) :

    d(Ii,Ij ) Maxxik xjk- Distance de Tchebychev :

    d(Ii,Ij ) xik x jkp

    k

    1/ r

    - Distance la puissance.

    d(Ii,Ij ) Nombre de xik x jk

    K- Percent disagreement.

    ijji rIId 1),(- 1- r de Pearson :

    Quelques distances ou indices de dissimilarit

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    105/156

    105

    D(A,B) maxIA

    maxJB

    d(I,J)- Diamtre ou complete linkage :

    D(A,B) 1

    nAnB

    d(I,J)IA,JB

    - Moyenne non pondre des groupes associs:

    D(A,B) 1

    (nA nB )(nA nB 1) d(I,J)

    I,JA

    B

    - Moyenne pondre des groupes associs :

    D(M,J)

    (NJ NK)D(K,J) (NJ NL )D(L,J) NJD(K,L)

    NJ NK NL

    - Mthode de Ward (mthode du moment d'ordre 2). Si une classe M est obtenue en regroupant lesclasses K et L, sa distance la classe J est donne par :

    - Centrode pondr des groupes associs (mdiane).

    - Centrode non pondr des groupes associs.

    Quelques indices dagrgation

    L'algorithme de classification

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    106/156

    106

    L algorithme de classification

    tape 1 : n lments classer ;

    tape 2 : Construction de la matrice de distances entre les n lments etrecherche les deux plus proches, que lon agrge en un nouvel lment.On obtient une premire partition n-1 classes;

    tape 3 : Construction dune nouvelle matrice des distances qui rsultent

    de lagrgation, en calculant les distances entre le nouvel lment et leslments restants (les autres distances sont inchanges). Recherche desdeux lments les plus proches, que lon agrge. On obtient une deuximepartition avec n-2 classes et qui englobe la premire;tape m : on calcule les nouvelles distances, et lon ritre le processus

    jusqu navoir plus quun seul lment regroupant tous les objets et quiconstitue la dernire partition.

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    107/156

    107

    Distance Euclidienne au carr et mthode de Ward

    Inertie totale = Inertie intra + Inertie inter

    A chaque tape, on runit les deux classes de faon augmenter le moins possible linertie intra

    g

    j

    jj

    g

    j

    n

    i

    ijj GGnMGIj

    1

    2

    1 1

    2

    classesdeseffectifsles

    parpondrsmoyenspointsdesInertie

    classesles

    dansInertie

    totale

    Inertie

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    108/156

    108

    Rsultat obtenu :

    Une hirarchie de classes telles que :- toute classe est non vide- tout individu appartient une (et mme plusieurs) classes- deux classes distinctes sont disjointes, ou vrifient une relationd'inclusion (l'une d'elles est incluse dans l'autre)

    - toute classe est la runion des classes qui sont incluses dans elle.

    Ce rsultat est frquemment reprsent laide dun dendrogramme

    Exemples de dendrogrammes

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    109/156

    109

    Dendrogramme de 9 Obs.

    Mth. de Ward

    Carr d istances Eucli diennes

    0,0 0,1 0,2 0,3 0,4

    Dist. Agr gatio n

    BUFFET

    PELEG

    ABSTEN

    LAGU

    BAY

    LEPEN

    SANTINI

    COPE

    HUCHON

    Dendrogramme de 12 Obs.

    Saut Minimum

    Carr distances Euclidiennes

    0,00 0,01 0,02 0,03 0,04 0,05 0,06

    Dist. Agrgation

    Villiers

    Nihous

    Buffet

    Laguiller

    Schivardi

    Besancenot

    Sarkozy

    Voynet

    Bayrou

    Bove

    Royal

    Le Pen

    Dendrogramme de 23 Obs.

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    110/156

    110

    g

    Mth. de Ward

    Carr distances Euclidiennes

    0,0 0,1 0,2 0,3 0,4 0,5 0,6

    Dist. Agrgation

    AlsaceCorseProvence-Alpes-Cote-d-Azur

    BourgogneCentre

    Haute-NormandieBasse-Normandie

    Rhone-AlpesChampagne-Ardennes

    Franche-ComteLorraine

    Languedoc-RoussillonPicardie

    Nord-Pas-de-CalaisLimousin

    Midi-PyreneesAuvergne

    Poitou-CharentesAquitaineBretagne

    Pays-de-la-LoireIle-de-France

    Outremer

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    111/156

    111

    Rgression linaire Multiple

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    112/156

    112

    Echantillon de n individus statistiques :

    - p variables numriques X1, X2, ..., Xp (variables indpendantes ouexplicatives)

    - une variable numrique Y (variable dpendante, ou " expliquer").

    Exemple (30 comts amricains) :VARI_POP : Variation de la Population (1960-1970)N_AGRIC : Nb. de personnes travaillant dans le secteur primaireTX_IMPOS : Taux d'imposition des propritsPT_PHONE : Pourcentage d'installations tlphoniquesPT_RURAL : Pourcentage de la population vivant en milieu rural

    AGE : Age mdianPT_PAUVR : Pourcentage de familles en dessous du seuil de pauvret

    Matrice des corrlations

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    113/156

    113

    VARI_POP N_AGRIC PT_PAUVR TX_IMPOS

    PT_PHONE PT_RURAL AGE

    VARI_POP 1,00 0,04 -0,65 0,13 0,38 -0,02 -0,15

    N_AGRIC 0,04 1,00 -0,17 0,10 0,36 -0,66 -0,36

    PT_PAUVR -0,65 -0,17 1,00 0,01 -0,73 0,51 0,02

    TX_IMPOS 0,13 0,10 0,01 1,00 -0,04 0,02 -0,05

    PT_PHONE 0,38 0,36 -0,73 -0,04 1,00 -0,75 -0,08

    PT_RURAL -0,02 -0,66 0,51 0,02 -0,75 1,00 0,31

    AGE -0,15 -0,36 0,02 -0,05 -0,08 0,31 1,00

    Le modle linaire :

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    114/156

    114

    On cherche exprimer Y sous la forme :

    o E (erreur commise en remplaant Y par la valeur estime) estnulle en moyenne, et de variance minimale.

    EXbXbXbbY pp ...22110

    Solution au problme :

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    115/156

    115

    ppXbXbXbYb ...22110

    Les coefficients bi (1ip) sont les solutions du systme dquations :

    YXCovbXXCovbXXCovbXXCov

    YXCovbXXCovbXXCovbXXCov

    YXCovbXXCovbXXCovbXXCov

    pppppp

    pp

    pp

    ,,.. .,,

    ....

    ,,.. .,,

    ,,.. .,,

    2211

    22222112

    11221111

    et

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    116/156

    116

    Sur lexemple propos :

    PT_PAUVR = 31,2660 - 0,3923 VARI_POP + 0,0008 N_AGRIC+ 1,2301TX_IMPOS - 0,0832 PT_PHONE + 0,1655 PT_RURAL - 0,4193 AGE

    Coefficients standardiss :

    i

    i

    ib

    Y

    X

    )(

    )(

    VARI_POP N_AGRIC TX_IMPOS PT_PHONE PT_RURAL AGE

    -0,630788 0,238314 0,038799 -0,129627 0,618746 -0,188205

    Test des coefficients de la rgression

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    117/156

    117

    PT_PAUVR PT_PAUVR PT_PAUVR PT_PAUVR -95,00% +95,00%

    (param.) Err-Type t p Lim.Conf Lim.Conf

    Ord.Orig. 31,2660 13,2651 2,3570 0,0273 3,8251 58,7070

    VARI_POP -0,3923 0,0805 -4,8742 0,0001 -0,5589 -0,2258

    N_AGRIC 0,0008 0,0004 1,6903 0,1045 -0,0002 0,0017

    TX_IMPOS 1,2301 3,1899 0,3856 0,7033 -5,3686 7,8288

    PT_PHONE -0,0832 0,1306 -0,6376 0,5300 -0,3533 0,1868

    PT_RURAL 0,1655 0,0618 2,6766 0,0135 0,0376 0,2935

    AGE -0,4193 0,2554 -1,6415 0,1143 -0,9476 0,1091

    Approche factorielle de la rgression

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    118/156

    118

    X1

    X2

    Y

    2211 XbXbY

    a

    Expliquer la variabilit de Y partir de celle des Xj :

    Combinaison linaire des Xj qui reproduit au mieux lavariabilit des individus selon Y : combinaison linaire la pluscorrle avec Y.

    Solution : combinaison linaire des Xj qui fait avec Y un angleminimum.

    Approche factorielle de la rgression

    Test de la rgression :

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    119/156

    119

    Sommes dl Moyennes F niveau p

    Carrs Carrs

    Rgress. 932,065 6 155,3441 13,44909 0,000002

    Rsidus 265,662 23 11,5505

    Total 1197,727

    Variance de Y = Variance explique + Variance rsiduelle

    )

    ()

    ()( YYVarYVarYVar

    Analyse de variance

    Coefficient de dtermination :

    7782,0)(

    )(2 YVar

    YVarR

    Valeurs Prvues vs. Observes

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    120/156

    120

    V a r. d p e n d a n t e : P T _ P A U V R

    1 4 1 6 1 8 2 0 2 2 2 4 2 6 2 8 3 0 3 2 3 4 3 6 3 8

    Val eu rs Prvues

    1 0

    1 5

    2 0

    2 5

    3 0

    3 5

    4 0

    4 5

    Val.Ob

    serves

    9 5 % d e c o n f i a n c e

    Analyse de mdiation

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    121/156

    121

    1) Rgression de la VD sur la VI : VD = b0 + b1 VICoefficient de rgression standardis : 1

    2) Rgression de la mdiation sur la VI : M=b0 + b1 VICoefficient de rgression standardis : 1

    3) Rgression multiple de la VD sur VI et M : VD = b0 + b1 VI + b2 MCoefficients de rgression standardiss : 1, 2

    VI VD1

    VI VD

    M

    1

    1 2

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    122/156

    122

    Interprtation :

    Si b1 est nettement plus proche de 0 que b1, enparticulier si b1 nest pas significativement diffrent de 0alors que b1 ltait, il y a mdiation (partielle ou totale)

    1) Rgression de la VD sur la VI : SDNA = b0 + b1 IDENTCoefficient de rgression standardis : 1

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    123/156

    123

    Coefficient de rgression standardis : 1

    2) Rgression de la mdiation sur la VI : DEROG=b0 + b1 IDENTCoefficient de rgression standardis : 1

    3) Rgression multiple de la VD sur VI et M :SDNA = b0 + b1 IDENT + b2 DEROGCoefficients de rgression standardiss : 1, 2

    IDENT SDNA1=0,24*

    IDENT SDNA

    DEROG

    1=0,14 (NS)

    1=0,33** 2=0,29*

    1) Rgression de la VD sur la VI : SDNA = b0 + b1 IDENTCoefficient de rgression standardis : 1

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    124/156

    124

    Coefficient de rgression standardis : 1

    2) Rgression de la mdiation sur la VI : DEROG=b0 + b1 IDENTCoefficient de rgression standardis : 1

    3) Rgression multiple de la VD sur VI et M :SDNA = b0 + b1 IDENT + b2 DEROGCoefficients de rgression standardiss : 1, 2

    IDENT SDNA1=0,24*

    IDENT SDNA

    FAVO

    1=0,23 *

    1=0,42** 2=0,07 (NS)

    Pas deffet de mdiation

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    125/156

    125

    Rgression Logistique

    Sur un chantillon de n individus statistiques, on a observ :

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    126/156

    126

    - p variables numriques ou dichotomiques X1, X2, ..., Xp (variablesindpendantes ou explicatives)

    - une variable dichotomique Y (variable dpendante, ou " expliquer").

    Exemple :

    Echantillon de 30 sujets pour lesquels on a relev :

    - d'une part le niveau des revenus (variable numrique)

    - d'autre part la possession ou non d'un nouvel quipement lectro-mnager.

    Exemple

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    127/156

    127

    Revenu 1085 1304 1331 1434 1541 1612 1729 1759

    Possde 0 0 0 0 0 0 0 0

    Revenu 1798 1997 2234 2346 2436 2753 2813 3204

    Possde 1 1 1 1 1 1 1 1

    Revenu 1863 2121 2395 2681 3390 4237 1241

    Possde 0 0 0 0 0 0 1

    Revenu 3564 3592 3762 3799 4037 4168 4484

    Possde 1 1 1 1 1 1 1

    Nuage de points

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    128/156

    128

    Nuage de Points (Feuille de donnes dans Reg-Logit-Cours.stw 10v*30c)

    500 1000 1500 2000 2500 3000 3500 4000 4500 5000

    Revenu

    -0,2

    0, 0

    0, 2

    0, 4

    0, 6

    0, 8

    1, 0

    1, 2

    Possed

    e

    Rapport de chances et transformation logit

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    129/156

    129

    pp g

    )1(1

    )1(1

    YP

    YPp

    Rapport de chances ou cote :

    P

    P

    P 1ln)logit(

    Transformation logit

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    130/156

    Aides linterprtation : test du modle, odds-ratio ourapport de cotes

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    131/156

    131

    rapport de cotes

    On utilise aussi frquemment lodds-ratio ou rapport de cotes :

    La contribution de la variable X la variation de Y est calcule par :

    L'odds-ratio correspondant au coefficient 0,001151 est :e0,001151=1,0012.

    Autrement dit, une augmentation du revenu de 1 unit se traduit parune multiplication de la probabilit par 1,0012.

    Intervalle de confiance pour OR : [1,000173, 1,002139] : significatifpuisque lintervalle ne contient pas la valeur 1.

    modle)ledansXdecientexp(CoeffiOR

    Une statistique qui suit une loi du khi-2 permet de tester la qualit

    du modle. Sur notre exemple :Khi-2 = 7,63, dl=1, p=0,006

    L'odds-ratio est dfini comme le rapport de deux rapports de chances. Ainsi,l' dd i l if l' d d l b dfi i d l i

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    132/156

    132

    l'odds-ratio relatif l'tendue des valeurs observes est dfini de la maniresuivante :

    - On calcule le rapport de chances relatif la plus grande valeur observe durevenu :

    Pour X = 4484, P1=0,919325 et

    - On calcule le rapport de chances relatif la plus petite valeur observe durevenu :

    Pour X = 1085, P2=0,185658 et

    - L'odds-ratio est obtenu comme quotient des deux rapports prcdents :

    3954,111 1

    1 P

    P

    2280,01 2

    2 P

    P

    98,492280,0

    3954,11

    1

    1OR

    2

    2

    1

    1

    P

    P

    P

    P

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    133/156

    133

    Analyse discriminante

    Position du problme

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    134/156

    134

    On dispose de n observations sur lesquelles on a relev :

    -les valeurs d'une variable catgorielle comportant quelquesmodalits (2, 3, ...) : c'est le groupe ou diagnostic.

    - les valeurs de p variables numriques : X1, X2, ..., Xp : ce sont lesprdicteurs.

    On se pose des questions telles que :

    - la valeur de Y est-elle lie aux valeurs de X1, X2, ..., Xp ?

    - Etant donn d'autres observations, pour lesquelles X1, X2, ..., Xp sontconnues, mais Y ne l'est pas, est-il possible de prvoir Y (le groupe), etavec quel degr de certitude ?

    Mini-exemple : deux variables sur 40 individus rpartis en deux groupes

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    135/156

    135

    Nuage de Points (Feuille de donnes dans Mini-AnaDiscrim.stw 4v*50c)

    X1

    X2

    Groupe: G2Groupe: G1

    -2 0 2 4 6 8 10 12 14 16 18 20 220

    2

    4

    6

    8

    10

    12

    14

    16

    18

    20

    Une variable abstraite, combinaison linaire de X1 et X2permet de sparer les deux groupes : f(X1, X2)=X2+X1-19

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    136/156

    136

    Nuage de Points (Feuille de donnes dans Mini-AnaDiscrim.stw 4v*50c)

    Fonction = X

    Fonction = -X +19

    X1

    X2

    Groupe: G2Groupe: G1

    -2 0 2 4 6 8 10 12 14 16 18 20 22-4

    -2

    02

    4

    6

    8

    10

    1214

    16

    18

    20

    22

    24

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    137/156

    Les dispersions des valeurs peuvent tre diffrentes selon les groupes.Pour en tenir compte :

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    138/156

    138

    Fonction = =normal(x;0;1)Fonction = normal(x;5;3)

    y=normal(x;0;1)

    -3 -2 -1 0 1 2 3 4 5 6 7 8 9 100,0

    0,1

    0,2

    0,3

    0,4

    0,5

    0,6

    Pour en tenir compte :

    distance dun point un centre de groupe : distance de Mahalanobis.

    2

    1

    11

    2

    1 ),(

    mxmxd

    2

    2

    22

    2

    2 ),(

    mxmxd

    Matrice de classification ou Matrice de confusion

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    139/156

    139

    Matrice de classification ou Matrice de confusion.

    Tableau croisant la classification observe avec la classification calculepar la mthode.

    Matrice de Classification

    Lignes : c lassifications observes

    Colonnes : class if ications prvues

    Groupe

    %

    Correct

    G2

    p=,50000

    G1

    p=,50000

    G2

    G1

    Total

    90,00000 18 2

    95,00000 1 19

    92,50000 19 21

    Les Iris de Fisher

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    140/156

    140

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    141/156

    141

    Analyse et rgression PLS

    PLS : partial least squares

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    142/156

    142

    p q

    On a observ sur un chantillon de n individus statistiques :

    - d'une part, p variables indpendantes ou explicatives :X1, X2, ..., Xp

    - d'autre part, q variables dpendantes, ou " expliquer" :Y1, Y2, ..., Yq.

    On souhaite tablir entre les variables indpendantes et les variablesexplicatives q relations linaires du type :

    qpqpqqq

    pp

    pp

    XbXbbY

    XbXbbY

    XbXbbY

    ...

    ...

    ...

    ...

    110

    22121202

    11111101

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    143/156

    143

    Un outil possible : la rgression linaire multiple, mais :

    -Mthode trs sensible aux colinarits entre variables prdictives

    - Inutilisable si le nombre dobservations est infrieur au nombre deprdicteurs

    Une possibilit : faire dabord une ACP sur les prdicteurs, puis unergression linaire des variables dpendantes sur les variables principales :rsultat peu lisible

    Ide de la rgression PLS : partir des prdicteurs, on dfinit descomposantes ou variables latentes, en tenant compte des variables

    expliquer

    Mini-exemple : 1 VD, 4 VI et 3 observations

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    144/156

    144

    Y X1 X2 X3 X4

    s1 12 8 2 7 6

    s2 10 2 12 5 7

    s3 5 15 6 5 5

    Variables centres rduites :

    Yc Z1 Z2 Z3 Z4

    0,8321 -0,0512 -0,9272 1,1547 0,0000

    0,2774 -0,9734 1,0596 -0,5774 1,0000

    -1,1094 1,0246 -0,1325 -0,5774 -1,0000

    Premire tape :

    P i i bl l t t P1

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    145/156

    145

    Premire variable latente P1 :

    r(Y, Xi) Poids WiX1 -0,7247 -0,582

    X2 -0,1653 -0,133

    X3 0,7206 0,578

    X4 0,6934 0,556

    Somme carrs 1,553 1

    Racine carre 1,246

    P1 = - 0,582 * Z1 - 0,133 * Z2 + 0,578 * Z3+ 0,556 * Z4.

    Valeurs de P1 sur les 3 observations Rgression linaire de Y sur P1

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    146/156

    146

    P1

    s1 0,8206s2 0,6481

    s3 -1,4687

    Y = 2,7640 P1 +9

    Y, Y estim et rsidus :

    Y Y estim Rsidus

    s1 12 11,2682 0,7318

    s2 10 10,7915 -0,7915

    s3 5 4,9404 0,0596

    Coefficient de dtermination : R2(Y, Y estim) = 0,955

    Deuxime tape : on recommence partir des rsidus de Y;nouvelle variable latente P2, etc

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    147/156

    147

    Analyse de segmentation

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    148/156

    148

    - Echantillon de n individus statistiques

    - une variable dpendante numrique ou qualitative Y

    - plusieurs variables numriques ou catgorielles X1,X2, ..., Xp.

    Expliquer la variable Y laide dune ou plusieursvariables quantitatives ou qualitatives.

    Crer des groupes dindividus ou dobservationshomognes.

    Rsultat est fourni sous la forme d'un arbre dedcision binaire du type suivant :

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    149/156

    149

    Rappel : thorme de Huygens

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    150/156

    150

    g

    jjj

    g

    jj yynII

    1

    2

    1

    groupesdeseffectifslesparpondrs

    moyenspointsdesInertie

    groupeslesdans

    Inertie

    totale

    Inertie

    Rappel : thorme de Huygens

    L'inertie totale est la somme des inerties intra-groupes et de l'inertie despoints moyens des groupes, pondrs par l'effectif des groupes.

    Exemple : 4 observations suivantes, rparties en deux groupes A et B :

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    151/156

    151

    5,2y

    55,245,235,225,21totaleInertie 2222

    22321 22 AI

    2343222

    BI

    15,2325,222 22 InterI

    Groupe A B A B

    Y 1 2 3 4

    Algorithme de segmentation

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    152/156

    152

    1) Au dpart : un seul segment contenant l'ensemble des

    individus.

    2) Examen de toutes les variables explicatives et de toutes lesdivisions possibles (de la forme Xj< A et Xj > A si Xj estnumrique, regroupement des modalits en deux sous-ensembles si Xj est catgorielle).

    Pour chaque division, l'inertie inter-groupes est calcule.

    3) La division choisie est celle qui maximise l'inertie inter-groupes.

    4) On recommence la procdure dans chacun des deuxgroupes ainsi dfinis.

    Critres d'arrt :

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    153/156

    153

    On peut utiliser comme critres darrt de lalgorithme desegmentation :

    - La taille des groupes (classes) dcouper

    - Le rapport entre l'inertie intra et la variance totale

    - Des tests statistiques (tests de Student de comparaison demoyennes, tests du Khi deux)

    Determinants of Wages from the 1985 Current Population Survey

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    154/156

    154

    Variable names in order from left to right:

    EDUCATION: Number of years of education.SOUTH: Indicator variable for Southern Region (1=Person lives inSouth, 0=Person lives elsewhere).SEX: Indicator variable for sex (1=Female, 0=Male).EXPERIENCE: Number of years of work experience.

    UNION: Indicator variable for union membership (1=Union member,0=Not union member).WAGE: Wage (dollars per hour).AGE: Age (years).RACE: Race (1=Other, 2=Hispanic, 3=White).OCCUPATION: Occupational category (1=Management, 2=Sales,

    3=Clerical, 4=Service, 5=Professional, 6=Other).SECTOR: Sector (0=Other, 1=Manufacturing, 2=Construction).MARR: Marital Status (0=Unmarried, 1=Married)

    Diagram m e de l 'a rbre 1 pour Sa la i re

    Nb d e noe uds non- term inaux : 7 , Noeuds term inaux : 8

    ID =1 N =534

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    155/156

    155

    Mu=9,024064

    Var=26,360859

    ID =2 N=160

    Mu=12,207500

    Var=39,315648

    ID =5 N=128

    Mu=13,165078

    Var=40,244811

    ID=3 N =374

    Mu=7,662166

    Var=14,628422

    ID=9 N =304

    Mu=7,042336

    Var=11,571203

    ID =11 N=220

    Mu=7,680909

    Var=12,908015

    ID=12 N=176

    Mu=7,189148

    Var=10,799488

    ID =4 N=32

    Mu=8,377187

    Var=17,259876

    ID=6 N =85

    Mu=12,115529

    Var=38,284434

    ID =7 N =43

    Mu=15,239767

    Var=37,638151

    ID=8 N =70

    Mu=10,354000

    Var=18,991035

    ID=10 N =84

    Mu=5,369881

    Var=4,204942

    ID =14 N =97

    Mu=6,493814

    Var=7,225321

    ID=15 N=79

    Mu=8,042911

    Var=13,865461

    ID =13 N =44

    Mu=9,647955

    Var=16,505534

    E m p l o i

    = 1 , 5 = A u tre (s )

    E duca t i on

    12,500000

    A ge

    38 ,500000

    Syndical i sat ion

    = 1 = A u tre (s )

    A ge

    26 ,500000

    E duca t i on

    13 ,500000

    Sexe

    = 1 = A u tre(s )

    Diagram m e de l 'a rbre 1 pour Log-sa la i re

    Nb de n oeuds non- terminaux : 8 , Noeuds term inaux : 9

  • 8/2/2019 Analyse Multidimensionnelle Des Donnees

    156/156

    ID= 1 N= 534

    Mu=2,059189

    Var=0,277990

    ID= 2 N= 160

    Mu=2,373068

    Var=0,275205

    ID= 5 N= 128

    Mu=2,468820

    Var=0,219382

    ID= 3 N= 374

    Mu=1,924908

    Var=0,219003

    ID= 9 N= 304

    Mu=1,849582

    Var=0,198345

    ID= 11 N= 236

    Mu=1,927534

    Var=0,192925

    ID= 12 N= 128

    Mu=1,828838

    Var=0,174867

    ID= 13 N= 108

    Mu=2,044507

    Var=0,189100

    ID= 4 N= 32

    Mu=1,990063

    Var=0,315134

    ID= 6 N= 49

    Mu=2,306861

    Var=0,246234

    ID= 7 N= 79

    Mu=2,569275

    Var=0,176366

    ID= 8 N= 70

    Mu=2,252042

    Var=0,177059

    ID= 10 N= 68

    Mu=1,579043

    Var=0,122874

    ID= 14 N= 59

    M 1 990258

    ID= 15 N= 69

    M 1 690811

    ID= 16 N= 87

    M 1 983171

    ID= 17 N= 21

    M 2 298612

    Emploi

    = 1, 5 = Aut re(s)

    Education

    < = 12,500000 > 12,500000

    Age

    < = 32,500000 > 32,500000

    Syndicalisation

    = 1 = Aut re(s)

    Age

    < = 25,500000 > 25,500000

    Sexe

    = 1 = Autre(s)

    Emploi

    = 3 = Aut re(s)

    Education

    < = 13,500000 > 13,500000