regression 05 03 07

Upload: ae

Post on 30-May-2018

234 views

Category:

Documents


0 download

TRANSCRIPT

  • 8/14/2019 Regression 05 03 07

    1/53

    LES MESURES DE LIAISON

    DISTRIBUTIONS A DEUX CARACTERES

    REGRESSION - AJUSTEMENT CORRELATION

    un individu de lchantillon on attache plusieurs caractres

    VARIABLES STATISTIQUES

    Variables indpendantes

    CORRELATION

    variables statistiques LIEES

    par des relations fonctionnelles

    variables lies

    liaisons stochastiques

    variables lies sans liaisons fonctionnelles

  • 8/14/2019 Regression 05 03 07

    2/53

    lanalyse des liaisons peut se faire entre variables

    quantitatives

    quantitatives et qualitatives

    qualitatives

    tude dune corrlation entre une variable y et une variable x

    quelle est la forme de la liaison ?linaire

    polynomiale

    logarithmique

    exponentielle

    comment mesurer lintensit de la liaison ?coefficient de corrlation

    rapport de corrlation

  • 8/14/2019 Regression 05 03 07

    3/53

    TAILLE xi 161 179 182 171 159 192 188 168 161

    POIDS yi 55 75 81 67 45 103 79 80 74

    srie statistique deux variables quantitatives, ensemble des couples (xi,yi)

    notation : (x,y)

    x1

    x2

    x3

    x4

    y1 n11 n12 n13 n14

    y2 n21 n22 n23 n24

    y3 n31 n32 n33 n34

    y4 n41 n42 n43 n44

    jn1

    jn3

    jn4

    jn2

    1k

    n2k

    n

    3k

    n4k

    n

    x

    y

    tableau deffectifs

    tableau de contingence

    effectifs marginaux

    iin lments diagonaux

    ijn lments non - diagonaux

  • 8/14/2019 Regression 05 03 07

    4/53

    LIAISONS ENTRE DEUX VARIABLES QUALITATIVES

    TABLEAUX DE CONTINGENCE

    exemple

    chantillon de n individus

    variables x (couleurs des cheveux)

    Variable y (couleurs des yeux)

    i x y1 x1 y1

    2 x2 y2

    3 x3 y3

    .

    .

    .

    i xi yi

    .

    .

    n xn yn

    i

    blond brun bleu vert1 0 1 0 1

    2 0 1 1 0

    3 1 0 1 0

    .

    .

    .

    i 1 0 1 0

    .

    .

    n 0 1 1 0

    x cheveux y yeux

    quantificationprsent 1

    absent 0

  • 8/14/2019 Regression 05 03 07

    5/53

    TABLEAU CROISEbleu noir total

    blond n11 n12 n1.brun n21 n22 n2.total n.1 n.2 n..

    yeux

    cheveux

    nombre de blonds

    nombre de bruns

    nombre dyeux bleus nombre dyeux noirs effectiftotaltotaux marginaux

    totaux

    marginaux

    in ligne

    jn colonne

    modalits

  • 8/14/2019 Regression 05 03 07

    6/53

    ijneffectif partiel associ au couple (xi, yj)

    n effectif total

    =n

    nf

    ij

    ij

    frquence partielle sur effectif total

    proportion dindividus satisfaisant la fois la modalit xi et

    la modalit yi

    j

    ij

    jin

    nf

    =/

    =

    i

    ij

    ij

    n

    nf /

    frquences partielles conditionnelles

    proportion dindividus prsentant la modalit xi parmi

    les individus qui prsentent la modalit yif de i si j

    proportion dindividus prsentant la modalit yi parmi

    les individus qui prsentent la modalit xi

    f de j si i

  • 8/14/2019 Regression 05 03 07

    7/53

    MISE EN EVIDENCE DUNE LIAISON

    bleu noir total

    blond200 0 200

    brun 0 150 150

    total200 150 350

    modalits

    mo

    da

    lit

    s

    yeuxcheveux

    tous les blonds ont les yeux bleus

    tous les bruns ont les yeux noirs

    tous les bruns ont les yeux noirstous les blonds ont les yeux bleus

    LIAISON PARFAITE : une modalit ligne est associe une modalit colonne

  • 8/14/2019 Regression 05 03 07

    8/53

    bleu noir vert TOTAL

    blond 200 0 100 300brun 0 150 0 150

    TOTAL 200 150 100 450

    yeux

    cheveux

    2 variables avec desmodalits diffrentes

    bleu ou vert noir TOTAL

    blond 300 0 300

    brun 0 150 150

    TOTAL 300 150 450

    yeux

    cheveux

    regroupement de

    modalits

    LIAISON PARFAITE

  • 8/14/2019 Regression 05 03 07

    9/53

    bleu noir TOTAL

    blond 200 100 300

    brun 200 1O0 300

    TOTAL 400 200 600

    yeux

    cheveux

    valeurs identiques

    LIAISON IMPARFAITE

  • 8/14/2019 Regression 05 03 07

    10/53

    DEFINITION DES PROFILS

    nombre de lignes : l nombre de colonnes : c

    k

    kj

    n

    n

    j

    kj

    n

    n

    11

    =

    =

    k

    kj

    c

    j nn 1

    1

    =

    =

    j

    kj

    l

    k nn

    profils ligne profils colonnes

  • 8/14/2019 Regression 05 03 07

    11/53

    n

    n j

    11

    =

    =

    n

    n jc

    j

    profils marginaux ligne

    n

    nk

    11

    =

    =

    n

    njl

    j

    profils marginaux colonne

    REMARQUE : connexion entre lensemble des frquences de ligne (de colonne)

    et les profils marginaux de la ligne (de la colonne)

    profils = frquences

  • 8/14/2019 Regression 05 03 07

    12/53

    bleu noir TOTAL

    blond 200 100 300

    brun 20 10 30

    TOTAL 220 110 330

    recherche de la nature de liaison entre les variables

    yeux

    cheveux

  • 8/14/2019 Regression 05 03 07

    13/53

    bleu noir TOTAL

    blond

    brun

    TOTAL

    bleu noir TOTAL

    blond

    brun

    TOTAL

    300

    200

    30

    20

    300

    100

    30

    10

    300

    400

    300

    200

    PROFILS DE LIGNE

    220

    200

    220

    20

    220

    220

    110

    100

    110

    10

    110

    110

    220

    400

    220

    40

    220

    440

    300

    300

    300

    300

    300

    600

    PROFILS DE COLONNE

  • 8/14/2019 Regression 05 03 07

    14/53

    ABSENCE DE LIAISON

    =nn

    nn j

    k

    kj

    =nn

    nn k

    j

    kjET

    =

    nnnn

    jk

    kj

    effectifs observs effectifs thoriques

  • 8/14/2019 Regression 05 03 07

    15/53

    LIAISONS INTERMEDIAIRES

    nnnn

    jk

    kj 0

    nnnn

    jk

    kj

    0][11

    == n

    nnn

    jk

    kj

    C

    j

    l

    k

    compensation entre les carts relatifs positifs et ngatifs

  • 8/14/2019 Regression 05 03 07

    16/53

    2

    11

    ][

    ==

    n

    nnn

    jk

    kj

    C

    j

    l

    k

    mesure de la liaison

    2

    11

    ][ kjkj

    C

    j

    l

    k

    TO ==

    effectifs observs

    effectifs thoriques

    2

    2

    11

    ][

    =

    == kj

    kjkjC

    j

    l

    k T

    TO

    ]1),[min(2

    max

    =

    cln

  • 8/14/2019 Regression 05 03 07

    17/53

    coefficient de CRAMER

    2

    max

    2

    =C

    C

    Coefficient

    Cramer

    nature de la

    liaison

    0 nulle

    0 -

  • 8/14/2019 Regression 05 03 07

    18/53

    =

    n

    nn

    n

    nnn

    Cjk

    jk

    kj

    kj

    2][

    contribution absolue dune case

    1002

    kjC

    contribution relative dune case

  • 8/14/2019 Regression 05 03 07

    19/53

  • 8/14/2019 Regression 05 03 07

    20/53

    LIAISONS ENTRE DEUX VARIABLES

    QUANTITATIVES

    x et y sont des variables quantitatives discrtes

    (xi, yi) valeur des caractres de lindividu i

    M(xi, yi) : point reprsentatif dans le repre choisi

    le nuage de points permet de visualiser la nature de

    la courbe dajustement

    liaison positive : x et y varient dans le mme sens

    liaison ngative : x et y varient en sens inverse

  • 8/14/2019 Regression 05 03 07

    21/53

    + ++ +

    + ++

    +++ +

    ++++

    x

    y

    + +++

    +++

    +

    +

    +

    +

    +

    +++

    x

    y

    ++

    +

    ++ +

    ++++

    +++

    + +

    x

    y

    ++

    ++

    ++

    +

    +

    ++

    +

    ++

    ++

    x

    y

    corrlation linaire corrlation exponentielle

    corrlation polynomiale corrlation logarithmique

  • 8/14/2019 Regression 05 03 07

    22/53

    y

    x

    ++

    +

    +

    +

    ++

    +

    ++

    +

    ++

    ++

    +

    + + + +

    +

    ++

    +

    +

    indpendance entre les deux caractres

    + +

    ++

    +

    +

    ++

    +

    +

    +

    +

    +

    xx

    yy

    +

    +

    + ++

    +

    ++

    +

    +

    +

    + +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    + + +

    +

    corrlation linaire

    pente positive

    corrlation linaire

    pente positive

  • 8/14/2019 Regression 05 03 07

    23/53

    MESURE DE LA LIAISON

    ii

    n

    i

    yxn

    mesure

    =

    =1

    1

    mesure non satisfaisante

    ))((1

    1

    yyxxn

    mesure iin

    i

    =

    =

    labsence de liaison est dtecte par

    mesure = 0

    variables deffectifs gal 1

    covariance

    yxyxn

    yx ii

    n

    i

    =

    =

    ]1

    [),cov(1

  • 8/14/2019 Regression 05 03 07

    24/53

    cas dune distribution en classe

    srie pondre

    l : nombre de lignes c : nombre de colonnes

    yxyxnn

    yx jiijc

    j

    l

    i

    = ==

    )(1),cov(11

    yxyxfyx jiij

    c

    j

    l

    i=

    ==

    )(),cov(11

  • 8/14/2019 Regression 05 03 07

    25/53

    2 3 4 5

    10 2 3 7 0

    20 0 1 4 2

    30 1 3 9 1

    40 0 0 2 1

    X

    Y

    127

    14

    3

    3 7 22 4 36

    CALCULER

    x y xs ys xysi

    n

    in

    ii

    c

    i

    xnn

    x

    =

    =1

    1

    ii

    l

    i

    ynn

    y

    =

    =1

    1

    75.336

    135

    36

    452247332==

    +++=x

    36

    34014307201210 +++=y

    iixn

    6 21 88 20 135

    120140

    420

    120

    iiyn

    800

    22.2236

    800==y

    ll

  • 8/14/2019 Regression 05 03 07

    26/53

    2 3 4 5

    10 2 3 7 0

    20 0 1 4 2

    30 1 3 9 1

    40 0 0 2 1

    X

    Y

    127

    14

    3

    3 7 22 4 36

    in

    in

    2

    2

    1

    2

    12

    ][

    =

    =

    =

    n

    xnxnn

    sii

    c

    i

    ii

    c

    i

    x

    ys

    2

    2

    1

    2

    12

    ][

    =

    =

    =

    n

    ynynn

    sii

    l

    i

    ii

    l

    iy

    xs

    iiyn

    120140

    420

    120

    800

    iixn

    6 21 88 20 135

    2iixn

    2

    ii yn

    12 63 352 100

    12002800

    12600

    4800

    21400

    2

    22

    36

    ]800[2140036 =ys

    62.1002 =ys

    527

    2

    22

    36

    ]135[52736 =xs

    58.02 =xs

  • 8/14/2019 Regression 05 03 07

    27/53

    2 3 4 5

    10 2 3 7 0

    20 0 1 4 2

    30 1 3 9 1

    40 0 0 2 1

    X

    Y

    2 3 4 5

    4 9 28 0

    0 3 16 10

    2 9 36 5

    0 0 8 5

    10 20 30 70 0

    20 0 20 80 40

    30 30 90 270 30

    40 0 0 80 40

    iij

    l

    i yn=1

    50 140 500 110

    2 3 4 5

    100 420 2000 550 3070

    41

    29

    52

    13

    10

    20

    30

    40

    410

    580

    1560

    520

    3070

    jij

    c

    jxn=1

    95.122.22*75.336

    3070==xys

  • 8/14/2019 Regression 05 03 07

    28/53

    EXERCICES

    0 1 2 3

    0 4 1 0 010 0 2 7 1

    20 0 0 1 3

    xy

    5 10 15 20 25 30 40 50 60

    5 7 28 31 15 12 0 3 0 0

    15 0 0 0 23 7 2 10 2 0

    25 0 0 2 4 19 0 6 1 050 0 0 0 2 1 0 4 0 0

    80 0 0 0 0 0 0 0 0 1

    xy

    CALCULER- les distributions marginales;- les moyennes et les carts types;

    - la covariance.

  • 8/14/2019 Regression 05 03 07

    29/53

    COURBES DE REGRESSION ET CORRELATION

    POPULATION

    = nN

    individus

    x, y

    deux variables quantitatives

    les variations de la variable x

    (variable explicative) sont la

    cause des variations de lavariable y (variable expliquer)

    lorsque le nuage de points semble

    avoir une allure gnrale identifiable,

    on cherche approcher ( AJUSTER)le nuage par une courbe dont il faudra

    dterminer les paramtres

    Il existe trois catgories de courbes de rgression relatives une distribution

    deux variables

    )(xfy = )(ygx=

    xyC / yxC /

  • 8/14/2019 Regression 05 03 07

    30/53

    LIAISON FONCTIONNELLE

    chaque valeur de xi correspond une valeur de yi et rciproquement

    1 3 5

    20 3 0 0 3

    40 0 0 3 390 0 4 0 4

    3 4 3 10

    in

    jn

    x

    yii

    l

    ij

    j

    ij

    l

    ij

    iij

    l

    ij

    j xxn

    nxn

    nxn

    nx ====

    =

    == 111

    11

    ij

    c

    ji

    iji

    c

    ji

    jij

    c

    ji

    i yyn

    nyn

    nyn

    ny ====

    =

    == 111

    11

    les moyennes conditionnelles sont gales aux valeursdes variables

    les courbes de rgression sont confondues

    y=f(x) identique x=g(y)

    Il existe une loi rigoureuse entre les deux variables

  • 8/14/2019 Regression 05 03 07

    31/53

    LIAISON NULLE OU INDEPENDANCE TOTALE

    deux variables x et y sont totalement indpendantes si les variations de lune

    nentranent pas de variations de lautre

    les courbes de rgerssion sont des droites perpendiculaires parallles aux axes

    x1 x2

    y1 3 5 8

    y2 6 10 16

    9 15 24

    in

    jn

    xy

    24

    8

    15

    5

    9

    3/ ====

    j

    ij

    jin

    nf

    2416

    1510

    96

    / ====

    j

    ij

    jinnf

    24

    9

    16

    6

    8

    3/ ====

    i

    ij

    ijn

    nf

    24

    15

    16

    10

    8

    5/ ====

    i

    ij

    ij

    n

    nf

    = iji ff/ jij ff =/

    les frquences conditionnelles sont

    gales aux frquences marginales

    les moyennes conditionnelles sont

    gales aux moyennes marginales

    pour chaque variable

  • 8/14/2019 Regression 05 03 07

    32/53

    yy

    x0

    x

    y

    + + + +

    + + + +

    + + + +

    + + + +

    + + + +

    + + + +

    + + + ++ + + +

    + + + +

    + + + ++ + + +

    + + + +

    yxC /

    xyC /

    Indpendance totale

    yxi

    xyi

  • 8/14/2019 Regression 05 03 07

    33/53

    LIAISON RELATIVE

    Il ny a plus de proprits remarquables dans le tableau de contingence

    la corrlation nest pas une proprit rciproque

    y li x nimplique pas que x soit li y

    corrlation directe ou positive

    les deux caractres varient dans le mme sens

    corrlation inverse ou ngative

    les deux caractres varient en sens contraire

    corrlation linaire

    les deux courbes de rgression sont des droitesnon parallles aux axes de coordonnes

    la liaison sera dautant plus forte que langle entre ces deux droites est petit

    un angle de 90 correspond lindpendance dcrite prcdemment

    la mesure de cet angle est une mesure de la qualit de la liaison fonctionnelle

  • 8/14/2019 Regression 05 03 07

    34/53

    PRINCIPE DUN AJUSTEMENT LINEAIRE

    OBJECTIF

    partir des observations (xi, yi) on recherche une fonction qui lie les deux variables

    y = ax + b

    AJUSTEMENT AFFINE

    les paramtres a et b de la droite dajustement sont obtenus en exprimant que

    chaque observation est sur la droite une erreur prs appele rsidu

    rsidu = yi(axi + b)

    Rappel

    si une droite est connue par un point M(x0, y0) et le coefficient directeur a,

    lquation de la droite scrit

    (y y0) = a(x x0)

  • 8/14/2019 Regression 05 03 07

    35/53

    AJUSTEMENT GRAPHIQUE

    laide de la rgle, on dtermine visuellement la droite qui partage le nuage de

    points de manire quitable

    ),( yxGpoint dappui

    LISSAGE PAR LA METHODE DES MOYENNES MOBILES

    des groupes de points de mme effectif sont remplacs par leurs points moyens

    (barycentres)

    Lajustement graphique est ensuite plus ais sur un nombre de points restreint

  • 8/14/2019 Regression 05 03 07

    36/53

    quation dune droite dfinie par deux points

    ),( 11 yx ),( 22 yx

    baxy += 11 baxy+=

    22

    12

    12

    xxyya

    =

    b est obtenu en reportant a dans lune des quations de la droite

  • 8/14/2019 Regression 05 03 07

    37/53

    METHODE DE MAYER

    le nuage de points est partag en deux parties raisonnablement quilibres

    on dtermine les deux points moyens partiels (barycentres) G1 et G2

    la droite de Mayer passe par ces deux points

    x

    y

    x

    x

    G1

    G2

    x

    ),( yxG

    +

    +

    + +

    ++

    +

    +

    +

    +

    +

    +

    +

    +

    +

    +

    ++

    +

    ++

    +

    +

    +

    + ++

    +

    O

  • 8/14/2019 Regression 05 03 07

    38/53

    LA DROITE DALLOMETRIE

    hypothse

    la droite a un coefficient directeur positifrle symtrique de x et y

    minimisation de la somme des produits

    ))((i

    ii yx yixyx

    =y

    x

    ix

    iy

    ix

    iy

    ix

    iyiN

    iP

    iMx

    x

    x

    iM point exprimental

    iN

    iP

    points sur la droite dallomtrie

    la droite dallomtrie passe par le point ),( yxG

    )( xxayy =x

    y

    ssa =

  • 8/14/2019 Regression 05 03 07

    39/53

    AJUSTEMENT LINEAIRE : METHODE DES MOINDRES CARRES

    x

    y baxy +=

    x

    x

    x

    x x

    x

    x

    x

    ix

    iy

    'iy

    iM

    1iM

    1+iM

    2+iM

    'iM

  • 8/14/2019 Regression 05 03 07

    40/53

    ajustement de y en fonction de x y = ax + b

    les deux inconnues du problme sont a et b

    pour chaque abscisse xi lordonnesera yi = axi + b

    les rsidus sont algbriques et se notent'

    iii yy =

    si le point exprimental est sur la droite dajustement

    0=

    i

    mthodes des moindres carrs

    minimisation de la quantit

    2

    1

    2

    1

    2 )]([),( baxybaS ii

    N

    i

    i

    N

    i

    +== ==

  • 8/14/2019 Regression 05 03 07

    41/53

    procdure de minimisation

    22222

    1

    2

    1

    ]222[ babxxabyyaxyiiiiii

    N

    ii

    N

    i

    +++===

    minimisation

    ]222[][ 2

    1

    2

    1iiii

    N

    i

    i

    N

    i

    bxaxyxa

    ++=

    ==

    ]222[][1

    2

    1

    baxbyb

    ii

    N

    i

    i

    N

    i

    ++=

    ==

  • 8/14/2019 Regression 05 03 07

    42/53

    systme de deux quations deux inconnues (a et b) rsoudre

    0][1

    =

    =baxyx

    iii

    N

    i

    0][1

    ==

    baxy ii

    N

    i

    )1(

    )2( 01111

    = ===

    N

    i

    i

    N

    i

    i

    N

    i

    bxay

    NN

    i

    ==

    11

    011

    11

    = ==

    bxN

    ayN

    i

    N

    i

    i

    N

    i

    )2(

    y x

    0= bxay

    la courbe dajustement passe bienpar le point

    ),( yxG

    xayb =

    dtermination de b

  • 8/14/2019 Regression 05 03 07

    43/53

    dtermination de a

    )1( 01

    1

    2

    11

    = ===

    i

    N

    i

    i

    N

    i

    ii

    N

    i

    xbxN

    ayx

    xayb =xNxi

    N

    i

    ==1

    )1( 0

    1 22

    11

    =+

    == xabyxNxNayxi

    N

    iii

    N

    i

    22

    1

    1

    xNx

    yxNyxa

    i

    N

    i

    ii

    N

    i

    =

    =

    =

    22

    1

    1

    2

    1

    xNx

    yxxxyb

    i

    N

    i

    ii

    N

    ii

    N

    i

    =

    =

    ==

  • 8/14/2019 Regression 05 03 07

    44/53

    Remarque : si leffectif total de lchantillon est petit et si les caractres sont des

    nombres entiers, il est conseill de centrer les variables. Dans ces conditions :

    2

    1

    1

    )(

    ))((

    xx

    yyxxa

    i

    N

    i

    ii

    N

    i

    =

    =

    =

  • 8/14/2019 Regression 05 03 07

    45/53

    AUTRE FORMULATION

    baxy+=

    )()( xxayy=

    2

    ),cov(

    xs

    yxa =

    xayb=

    Rappel : la courbe dajustement passe par le point ),( yxG

    x

    s

    yxyb

    x

    2

    ),cov(=

  • 8/14/2019 Regression 05 03 07

    46/53

    permutation des rles

    ajustement de x en fonction de y

    )()( ' yyaxx =2

    ' ),cov(

    ys

    yxa =

    le coefficient directeur decette droite est : '1

    a

    )(xfy =

    )(ygx=

    droite de coefficient directeur a

    droite de coefficient directeur'

    1

    a

  • 8/14/2019 Regression 05 03 07

    47/53

    coefficient de corrlation linaire = mesure de la corrlation

    '2 aar =yxssyxr ),cov(= 11 + r

    1=r 0=r 10

  • 8/14/2019 Regression 05 03 07

    48/53

    x

    x

    y

    Gy

    x

    y

    x

    xG

    y

    xO O

    corrlation forte corrlation faible

  • 8/14/2019 Regression 05 03 07

    49/53

    qualit dun ajustement

    le coefficient de corrlation permet de mesurer la corrlation entre deux variables

    dune srie statistique

    la qualit de la rgression est mesure par lcart quadratique moyen

    2

    1

    2

    )]([

    1ii

    N

    ic xfyNs

    =

    =yxfxfyyy iiii += )()(

    222

    rcy sss+=

    contributionde lajustement

    222 1 rss yc =2

    1

    2 ])([1

    yxfN

    s i

    N

    i

    r = =

  • 8/14/2019 Regression 05 03 07

    50/53

    AJUSTEMENTS NON LINEAIRES

  • 8/14/2019 Regression 05 03 07

    51/53

    ajustement exponentiel

    xbay =a et b sont des constantes

    axby lnlnln +=

    Y B xA

    on arrive donc un ajustement de type linaire

    xABY +=finalement

    Aea =

    Beb =

  • 8/14/2019 Regression 05 03 07

    52/53

    ajustement logarithmique

    bxay += lna et b sont des constantes xX ln=

    on arrive donc un ajustement de type linaire

    baXY +=

    changement de variable

  • 8/14/2019 Regression 05 03 07

    53/53

    ajustement par une fonction puissance

    abxy =a et b sont des constantes

    on arrive donc un ajustement de type linaire

    aXBY +=

    xaby lnlnln +=

    Y B aX

    finalementB

    eb =