disc rim in ante

Upload: achrafmarketing

Post on 07-Apr-2018

216 views

Category:

Documents


0 download

TRANSCRIPT

  • 8/6/2019 Disc Rim in Ante

    1/271

    1

    Analyse d isc r im inant e ,c lass i f ic a t ion supervise,

    scor ing

    Gi lber t Sapor t a Conservato i re Nat iona l des Ar t s e t Mt iers

    Gilber t .sapor t a@c nam .frh t tp : / /cedr ic .cnam. f r /~sapor ta

    Versio n du 8/11/2009

    mailto:[email protected]://cedric.cnam.fr/~saportahttp://cedric.cnam.fr/~saportamailto:[email protected]
  • 8/6/2019 Disc Rim in Ante

    2/271

    2

    Bib l iographie

    Bardos: Analyse discriminante , Dunod, 2001 Hastie, Tibshirani, Friedman : The Elements of Statistical

    Learning , 2nd edition, Springer-Verlag, 2009 http://www-

    stat.stanford.edu/~hastie/Papers/ESLII.pdf Nakache, Confais: Statistique explicative applique , Technip,2003

    Thiria et al. : Statistique et mthodes neuronales Dunod, 1997

    Thomas, Edelman,Crook: Credit scoring and its applications ,SIAM, 2002 Tuffry: Data Mining et statistique dcisionnelle ,Technip, 2007 Tuffry: tude de cas en statistique dcisionnelle ,Technip, 2009 Vapnik : Statistical Learning Theory , Wiley 1998

    http://www-stat.stanford.edu/~hastie/Papers/ESLII.pdfhttp://www-stat.stanford.edu/~hastie/Papers/ESLII.pdfhttp://www-stat.stanford.edu/~hastie/Papers/ESLII.pdfhttp://www-stat.stanford.edu/~hastie/Papers/ESLII.pdfhttp://www-stat.stanford.edu/~hastie/Papers/ESLII.pdfhttp://www-stat.stanford.edu/~hastie/Papers/ESLII.pdf
  • 8/6/2019 Disc Rim in Ante

    3/271

    3

    Plan

    I Lanalyse factorielle discriminante II Discrimination sur variables qualitatives :

    le scoring. III Analyse discriminante probabiliste

    IV Rgression logistique V SVM

    VI ValidationVII Choix de modles et thorie de lapprentissage

    statistiqueVIII Arbres de dcision

  • 8/6/2019 Disc Rim in Ante

    4/271

    4

    Objet d t ude Observations multidimensionnelles rparties en k

    groupes dfinis a priori.Autre terminologie: classification supervise Exemples dapplication :

    Pronostic des infarctus (J.P. Nakache) 2 groupes : dcs, survie (variables mdicales) Iris de Fisher :

    3 espces : 4 variables (longueur et largeur des ptales et spales)Risque des demandeurs de crdit

    2 groupes : bons, mauvais (variables qualitatives)

    Autres : Mto, publipostage, reclassement dans une typologie.

  • 8/6/2019 Disc Rim in Ante

    5/271

    5

    Quelques dat es :

    P.C. Mahalanobis 1927 H. Hotelling 1931 R. A. Fisher 1936 J.Berkson 1944 C.R.Rao 1950

    T.W.Anderson 1951 D.Mc Fadden 1973V.Vapnik 1998

  • 8/6/2019 Disc Rim in Ante

    6/271

    6

    Objec t i fs Y variable expliquer qualitative k catgories

    X1, X2, , Xp variables explicatives

    Objectif 1 : Dcrire tude de la distribution des Xi/ Y Gomtrie : Analyse factorielle discriminante AFD Tests : Analyse de variance multidimensionnelle MANOVA

    Objectif 2 : Classer tude de P(Y/ X1, X2, , Xp) Modlisation fonctionnelle : Approche baysienne Modlisation logique : Arbre de dcision Mthodes gomtriques.

  • 8/6/2019 Disc Rim in Ante

    7/271

    7

    1. Rduction de dimension, axes et

    variables discriminantes.2. Cas de 2 groupes.3. Mthodes gomtriques de

    classement.

    1re part ie : L analysefac t o r ie l le d isc r im inant e

  • 8/6/2019 Disc Rim in Ante

    8/271

    8

    Reprsent at ion des donnes

    2 cas : prdicteurs numriques prdicteurs qualitatifs

    n points dans Rp appartenant k groupes.

    1 2

    1 1 1 1

    1 2

    1 2

    1 2 1 2

    1

    2

    ...

    0 1 ... 0

    1 0 ... 0

    ...

    0 0 ... 1

    1 0 ... 0

    indicatrices des groupes variables explicatives

    j p

    j pi i i i

    j p

    n n n n

    k j p

    i

    n

    X X X X

    X X X X

    X X X X

  • 8/6/2019 Disc Rim in Ante

    9/271

    9

    I .1 Rduc t ion de d im ens ion.

    Rec herc he d ax es et de var iab lesd iscr im inantes .

    Dispersion intergroupeet dispersion intragroupe.

    W = matrice variance intraW = 1/n ni Vi

    B = matrice variance inter B = 1/n ni (gi - g) (gi - g)

    V = W + B variance totale

    V1

    g1

    V2

    g2

    Vk

    gk

  • 8/6/2019 Disc Rim in Ante

    10/271

    10

    Ax es disc r im inant s : deux

    ob jec t i f s

    Dispersion intraclasse minimale : minuWu

    Dispersion interclasse maximale : maxuBu

    u

    g2

    gkg1

  • 8/6/2019 Disc Rim in Ante

    11/271

    11

    Ax es disc r im inant s : deux

    ob jec t i f s

    Simultanit impossible

    Compromis :

    -1 -1

    min max

    max

    V W B

    u V u u W u u B u

    u B u u B uou

    u V u u W u

    V Bu u W Bu u

    = +

    = +

    = =

    min ' min i

    max ' max

    u Wu Wu u

    u Bu Bu u i

    =

    =

  • 8/6/2019 Disc Rim in Ante

    12/271

    12

    Ax es disc r im inant s : deux

    ob jec t i f s

    ACP du nuage des gi avec :Mtrique V-1

    Mtrique W-1 Mahalanobis

    ( )

    1

    -1

    a) Bu u

    Bu u

    Bu (W B)u

    1- Bu Wu

    b) W Bu u u1-

    V

    V

    =

    == +

    == =

  • 8/6/2019 Disc Rim in Ante

    13/271

    13

    Les di f f rent s c as se lon1

    1. 1 = 0 : aucune sparation linaire nest possible, groupes

    concentriques

    2. 1=1 : sparation parfaite

    3. Mais 0 < 1 < 1 : sparation possible avec groupes non recouvrants

  • 8/6/2019 Disc Rim in Ante

    14/271

    14

    Nom bre dax es d isc r im inant s

    ACP des groupes : dimension de lespace contenantles centres des groupes gi

    Si n>p>k (cas frquent), k-1 axes discriminantsExemple clbre : Iris de Fisher K = 3 Setosa, Versicolor, Virginica P=4 longueur ptale, longueur spale, largeur ptale, largeur

    spale n1=n2=n3=50

    Donc deux axes

  • 8/6/2019 Disc Rim in Ante

    15/271

    15

    Iris setosa Iris versicolor Iris virginica

  • 8/6/2019 Disc Rim in Ante

    16/271

    16

  • 8/6/2019 Disc Rim in Ante

    17/271

    17

    Di t d MAHALANOBIS

  • 8/6/2019 Disc Rim in Ante

    18/271

    18

    Dist anc e de MAHALANOBIS

    Distance au sens de la mtrique W-1

    .

    1. pour p=1 :

    2. p quelconque :

    Standardisation de chaque composante xj Dcorrlation...

    ( ) ( )2 11 2 1 2'pD g g W g g=

    g1

    Dp g2

    ( ) ( )

    ( ) ( )

    2 1

    1 2 1 2

    2 1/ 2 1/ 2

    1 2 1 2

    1/2

    '

    p

    p

    W X

    D g g W g g

    D g g W W g g

    =

    =

    2

    21 2 1 2 1 21 1 2

    1 2 1 2(1; 2)

    n n x x n n

    D F n nn n n n

    = + + +

  • 8/6/2019 Disc Rim in Ante

    19/271

    19

    In t e rpr t a t ion probab i l i s t e

    ( ) ( )

    ( ) ( )

    ( ) ( )

    2 2 -1

    p 1 2 1 2

    p p1 2

    2 2

    p

    1 1 2 2

    2 1

    1 2 1 2

    thorique : '

    2 populations N , et N ,

    estimation (biaise) de

    2

    = '

    p

    p

    Le

    D

    n V n V Wn

    D g g W g g

    =

    += =

  • 8/6/2019 Disc Rim in Ante

    20/271

    20

    ( )

    ( )( )

    2 2

    1 2

    2

    1 2

    21 2p

    2

    1

    0

    1D ~ ; 1

    2

    p p

    n pnE D n p n n

    Si

    n n n pF p n p

    n p n

    = +

    = =

    In t e rpr t a t ion probab i l i s t e

    Dist anc es de Mahalanobis

  • 8/6/2019 Disc Rim in Ante

    21/271

    21

    Dist anc es de Mahalanobis

    ent re 2 groupes parm i k

    Thoriques :

    Estimes :

    ( ) ( )2 1' p i j i j =

    ( ) ( )1

    2 'p i j i jn

    D g g W g gn k

    =

    ( ) ( )

    2

    2

    0

    n-k-p+1;n-k-p+1n-k

    i j

    p

    i j

    Si

    n n

    D F pn n p

    =

    =+

  • 8/6/2019 Disc Rim in Ante

    22/271

    22

    I .2 Cas de deux groupes g1 et g2 sont sur une une droite : 1 seul axe discriminant :

    RAPPEL : en ACP axe a, facteur u = M a

    Combinaison discriminante proportionnelle

    M (g2 - g1) = W-1

    (g2 - g1) ou V-1

    (g2 - g1)

    FONCTION DE FISHER :

    1 1

    2 1

    1 1

    2 1

    2 1

    ( )

    p p

    X X

    W g g W

    X X

    =

    e

    a

    d e ae Ma e u

    M= < >= =

    ,

    a g g= ( )1 2

  • 8/6/2019 Disc Rim in Ante

    23/271

    23

    His tor ique

    ( )

    pj

    jj=1

    1 2

    d

    1, 2 p

    -1 1 2

    -

    Historiquement : d= u x =X u

    d -dTest (de Student) de comparaison de 2 moyennes : T=

    s

    Fisher (1936)

    Trouver u , u , ..., u tel que T maximal.

    Solution : u proportionnel W g -g

    Nota : W

    ( ) ( )( )

    1 -1 21 21 2 1 2 p

    n ng -g = V g -g avec : =1+ D

    n n-2

    i i

  • 8/6/2019 Disc Rim in Ante

    24/271

    24

    Une rgression incorrecte

    y 2 valeurs (-1;+1) ou (0;1) ou (a;b) a=n/n

    1b=-n/n

    2

    Dp distance de Mahalanobis entre groupesIncomprhensions et controverses!

    1

    1 2

    2 22 2

    22 1 2

    1 2

    ( )

    ( 2)( 2) 1

    p

    p

    p

    D n n RR Dn n n n R

    Dn n

    =

    = = +

    V g g

  • 8/6/2019 Disc Rim in Ante

    25/271

    25

    Consquences

    Pas de test,pas derreurs standard sur les coefficients

    MAIS possibilit dutiliser les mthodes de pas pasen rgression.

    Modle linaire usuel non valide :

    en discriminante cest linverse que lon suppose :

    2 / ( ; )y N X X I

    / ( ; )p j y j N =X

  • 8/6/2019 Disc Rim in Ante

    26/271

    26

    FONCTION LINEAIRE DISCRIMINANTE

    VARIABLES CORRELATIONS COEFFICIENTS ECARTS T P

    ........ VARIABLES FONCTION REGRESSION TYPES STUDENT

    NUM LIBELLES AVEC F.L.D. DISC. (RES. TYPE REG.)

    (SEUIL= 0.20)

    ..............................................................................................

    3 FRCAR 0.232 0.0588 0.0133 0.0092 1.44 0.154

    4 INCAR -0.697 -6.1539 -1.3887 0.4966 2.80 0.006

    5 INSYS -0.673 0.1668 0.0376 0.0374 1.01 0.317

    6 PRDIA 0.474 -0.0203 -0.0046 0.0351 0.13 0.897

    7 PAPUL 0.431 0.1650 0.0372 0.0271 1.37 0.173

    8 PVENT 0.269 0.0469 0.0106 0.0176 0.60 0.5499 REPUL 0.650 -0.0002 0.0000 0.0002 0.19 0.849

    CONSTANTE -1.604374 -0.367565 0.9373 0.3922 0.6958

    ..............................................................................................

    R2 = 0.55759 F = 16.74489 PROBA = 0.000

    D2 = 4.94213 T2 = 124.77643 PROBA = 0.000

    ..............................................................................................

    I 3 Mt h d t i

  • 8/6/2019 Disc Rim in Ante

    27/271

    27

    I -3 Mt hodes gom t r iques

    de c lassem ent chantillon dapprentissage

    e observation de groupe inconnu

    e class dans le groupe i tel que:d(e ; gi) minimal

    e

    ?

    y x x p' . . .

    .

    .

    .

    1

    1

    2

    1

    g1

    g2

    g3

    G1

    G2

    G3

    e

    Ut i l i sa t ion des fonc t ions

  • 8/6/2019 Disc Rim in Ante

    28/271

    28

    Ut i l i sa t ion des fonc t ions d isc r im inan tes

    On classe dans le groupe pour lequel la fonction est maximale.

    ( ) ( ) ( )

    ( )

    2 1 1 1 1

    2 1 1

    1 2 k

    1

    11 21 k1

    2

    p

    1p 2p kp

    ; ' ' 2 ' '

    min d ; max 2 ' '

    groupes k fonctions discriminantes

    1 2 ....... k

    1

    X

    X

    X

    i

    i i i i i i

    i i i i

    d e g e g W e g e W e g W e g W g

    e g g W e g W g

    k

    = = + =

  • 8/6/2019 Disc Rim in Ante

    29/271

    29

    Linear Discriminant Function for Species

    Setosa Versicolor Virginica

    Constant -85.20986 -71.75400 -103.26971

    SepalLength Sepal Length in mm. 2.35442 1.56982 1.24458

    SepalWidth Sepal Width in mm. 2.35879 0.70725 0.36853

    PetalLength Petal Length in mm. -1.64306 0.52115 1.27665

    PetalWidth Petal Width in mm. -1.73984 0.64342 2.10791

  • 8/6/2019 Disc Rim in Ante

    30/271

    30

    Number of Observations Classified into Species

    FromSpecies Setosa Versicolor Virginica Total

    Setosa 50 0 0 50

    Versicolor 0 48 2 50

    Virginica 0 1 49 50

    Total 50 49 51 150

    Priors 0.33333 0.33333 0.33333

  • 8/6/2019 Disc Rim in Ante

    31/271

    31

    pour deux groupes

    On classe dans G1 si:

    Fonction de Fisher >cScore de Fisher:

    ' 1 ' 1 ' 1 ' 1

    1 1 1 2 2 2

    1 ' 1 ' 111 2 1 1 2 22

    2 2

    ( ) ' ( )

    g W e g W g g W e g W g

    g g W e g W g g W g

    >

    >

    1 ' 1 ' 111 2 1 1 2 22

    ( ) ' ( )g g W e g W g g W g

    Int e rp r t a t ion gom t r ique

  • 8/6/2019 Disc Rim in Ante

    32/271

    32

    Int e rp r t a t ion gom t r ique

    Projection sur la droite des centres avec lamtrique W-1

    Dualit axe-frontire plane frontire

    axe discriminant

    Rgle de c lassem ent des plus

  • 8/6/2019 Disc Rim in Ante

    33/271

    33

    Rgle de c lassem ent des plus

    proc hes vois ins

    On compte le nombre dobservations de G1,G2, parmi les k plus proches voisins et onclasse dans le groupe le plus frquent.

    Cas limite k = 1

    Mt hode des p lus proc hes vo is ins (H ast ie and al)

  • 8/6/2019 Disc Rim in Ante

    34/271

    34

    p p ( )

  • 8/6/2019 Disc Rim in Ante

    35/271

    35

  • 8/6/2019 Disc Rim in Ante

    36/271

    36

  • 8/6/2019 Disc Rim in Ante

    37/271

    37

  • 8/6/2019 Disc Rim in Ante

    38/271

    38

  • 8/6/2019 Disc Rim in Ante

    39/271

    39

  • 8/6/2019 Disc Rim in Ante

    40/271

    40

    Deux im e part ie : Disc r im inat ion sur var iab les

    qua l i t a t i ves e t sc or ing

    1. Le problme2. Disqual3. Les objectifs du credit scoring

    I I .1 Disc r im inat ion sur

  • 8/6/2019 Disc Rim in Ante

    41/271

    41

    sc at o su

    variab les qua l i t a t ives 1 2 p 1 2 p

    variable de groupe

    X , X , ... , X Variables explicatives m , m , ... , m modalits

    bon payeurY :

    mauvais payeur

    Y

    Solvabilit d'emprunteurs auprs de banquesExemples

    1 2

    1 2

    X : sexe, X : catgorie professionnelle etc.

    bon conducteur (pas d'accidents)Y :mauvais conducteur

    X : sexe, X : t

    Risque en assurance automobile

    3ranche d'ge, X : vhicule sportif ou non ...

    Y numro de groupe

    Reclassement dans une typologie

  • 8/6/2019 Disc Rim in Ante

    42/271

    42

    Un peu de (pr)h is t o i re

    Fisher (1940)

    Un seul prdicteur Equations de lAFC

    Introduction du vocable Scores

  • 8/6/2019 Disc Rim in Ante

    43/271

    43

  • 8/6/2019 Disc Rim in Ante

    44/271

    44

    Cas de 2 groupes : le

  • 8/6/2019 Disc Rim in Ante

    45/271

    45

    scor ing

    Deux ides quivalentes :

    Transformer les variables qualitativesexplicatives en variables quantitatives.Donner des valeurs numriques (notesou scores) aux modalits de faon

    optimale: maximiser la distance deMahalanobis dans Rp

    Travailler sur le tableau disjonctif desvariables explicatives

    Une ralisation : Passage parlintermdiaire dune analyse descorrespondances multiples.

    1 2

    0 1 1 0 0

    . . . .

    .

    .

    X X

    Var iables ex p l ic a t ives

  • 8/6/2019 Disc Rim in Ante

    46/271

    46

    qua l i ta t i ves

    Quantification : Transformer une variablequalitative en une variable numrique et se ramenerau cas prcdent.

    Exemple : tat matrimonial de 7 individus

    Quantification :

    1

    1

    2

    2

    2

    3

    4

    aC

    aCC Clibataire

    aM M Maria

    V Veuf M a

    D DivorcV a

    D a

    =

    = =

    =

  • 8/6/2019 Disc Rim in Ante

    47/271

    47

    X Tableau disjonctif des variables

    indicatricesC M V D

    1 0 0 0

    1 0 0 00 1 0 0

    0 1 0 0

    0 1 0 00 0 1 0

    0 0 0 1

    F

    H

    GGGGG

    GGGG

    I

    K

    JJJJJ

    JJJJ

    Quant i f i ca t ion

    x

    a

    a

    a

    a

    a

    a

    a

    a

    aa

    a

    Xa=

    F

    H

    GGGGGG

    GGG

    I

    K

    JJJJJJ

    JJJ

    F

    H

    GGGG

    I

    K

    JJJJ

    =

    1

    1

    2

    2

    2

    3

    4

    1

    2

    3

    4

    = X

    La fonc t ion de Fisher es t une

  • 8/6/2019 Disc Rim in Ante

    48/271

    48

    c om bina ison l inai re des var iab les quant i f ies

    S est une combinaisonlinaire des (m1 + m2 + +

    mp) indicatrices desvariables

    i

    1

    j1

    X

    1

    i

    p

    i

    Im

    i jj

    s

    X

    =

    =

    =

    =

    X nest pas de plein rang: rank(X) m p

  • 8/6/2019 Disc Rim in Ante

    49/271

    49

    X nest pas de plein rang: rank(X)=mi-pSolution classique: liminer une indicatrice par

    prdicteur (GLM , LOGISTIC de SAS)

    Disqual (Saporta, 1975):ADL effectue sur une slection de facteurs de lACMde X. Analogue de la rgression sur composantesprincipales

    Composantes slectionnes de manire experte seloninertie et pouvoir discriminant

    I I .2 DISQUAL

  • 8/6/2019 Disc Rim in Ante

    50/271

    50

    1re

    tape Analyse des correspondances du tableau des

    prdicteurs.

    k variables numriques : garder les coordonnesfactorielles les plus discriminantes

    1 . . .

    1

    2

    .=

    .

    .

    n

    kz z

    Z

    1 2 3 4 Prop. Loc

    Profession Logement

    P P P P .

    1 1 0 0 0 0 1

    2 0 1 0 0 1 0

    . .

    .... .

    . .

    . .

    variables indicatrices

    X

    n

    =

  • 8/6/2019 Disc Rim in Ante

    51/271

    51

    2m e t ape :

    Analyse discriminante linaire (Fisher).

    Score = combinaison linaire des coordonnes factorielles=combinaison linaire des indicatrices des catgories

    Coefficients = grille de notation

    1

    Scorek

    j

    j

    j

    d=

    = s z

    : coordonnes des catgories sur l'axe njj j jz = Xu u

    1 1

    grille de score

    k kj j

    j j

    j j

    s d Xu X d u= =

    = =

    ( )1 1 21 2

    .

    .

    ( ).

    .

    j j

    j j

    z zd

    V

    = =

    V g gz

  • 8/6/2019 Disc Rim in Ante

    52/271

    52

    Slec t ion des ax es

    Selon lordre de lACM% dinertie

    Selon le pouvoir discriminantStudent sur 2 groupes,F sur k groupes

    Rgularisation, contrle de la VC dimension

    E l

  • 8/6/2019 Disc Rim in Ante

    53/271

    53

    Ex em ple assuranc e(SPAD)

    1106 contrats automobile belges: 2 groupes: 1 bons, 2 mauvais 9 prdicteurs: 20 catgories

    Usage (2), sexe (3), langue (2), age (3), rgion(2), bonus-malus (2), puissance (2), dure (2),age du vhicule (2)

    ACM

  • 8/6/2019 Disc Rim in Ante

    54/271

    54

    ADL de Fisher sur les composantes

  • 8/6/2019 Disc Rim in Ante

    55/271

    55

    FACTEURS CORRELATIONS COEFFICIENTS..............................................................................1 F 1 0.719 6.9064

    2 F 2 0.055 0.71493 F 3 -0.078 -0.82114 F 4 -0.030 -0.46155 F 5 0.083 1.25816 F 6 0.064 1.02747 F 7 -0.001 0.21698 F 8 0.090 1.31339 F 9 -0.074 -1.138310 F 10 -0.150 -3.3193

    11 F 11 -0.056 -1.4830CONSTANTE 0.093575..............................................................................R2 = 0.57923 F = 91.35686D2 = 5.49176 T2 = 1018.69159..............................................................................

    Score= 6.90 F1 - 0.82 F3 + 1.25 F5 + 1.31 F8 - 1.13 F9 - 3.31 F10

  • 8/6/2019 Disc Rim in Ante

    56/271

    56

    scores normaliss

    Echelle de 0 1000Transformation linaire du score et du seuil

  • 8/6/2019 Disc Rim in Ante

    57/271

    C d di t i

  • 8/6/2019 Disc Rim in Ante

    58/271

    58

    Cas des prd ic t eurs num r iques

    Si prdicteurs numriques (taux

    dendettement, revenu )Dcoupage en classes

    Avantages, dtection des liaisons non linaires

    P i t d i t t i

  • 8/6/2019 Disc Rim in Ante

    59/271

    59

    Pr ise en c om pt e des int e rac t ions

    Amlioration

    considrable delefficacit du score

    Exemple : tatmatrimonial et nombredenfants.

    ( ) ( )

    ( )

    1 1 0 . . . 02 0 1 . . . 0. .. .

    . ...n

    3

    1 2 1 2 3

    1 1 1 2 2

    2 catgories 3 catgories

    M M E E E

    variable croise 6 catgories

    M E M E M E

    ( ) ( )1 1 2 2 ...Score f x f x= + +Rappel :Modle additif interactionsans

    Un ex em ple banc a ire

  • 8/6/2019 Disc Rim in Ante

    60/271

    60

    15 000 dossiers de demandes de prt 1000 passs en contentieux

    Variables: Taux dendettement

    Revenu disponible par personne du mnage Situation dans le logement Statut matrimonial

    Nombre denfants ProfessionAnciennet dans lemploi

    Gri l le de sc ore

  • 8/6/2019 Disc Rim in Ante

    61/271

    61

    Gri l le de sc ore

    Ratio dendettement :

    Revenu disponible par personne du mnage :

    Situation dans le logement :

    Gri l le de sc ore (su i t e) i i l f h

  • 8/6/2019 Disc Rim in Ante

    62/271

    62

    ta t m at r im onial et enfan ts c harge :

    Gri l le de sc ore (su i t e)f i t t b i l i t d l l i

  • 8/6/2019 Disc Rim in Ante

    63/271

    63

    profess ion e t s t ab i l i t dans l em plo i :

    Ex em ple :

  • 8/6/2019 Disc Rim in Ante

    64/271

    64

    Ex em ple :

    Note de score : + 60

    Rpar t i t ions par t ranc hes de sc ore

  • 8/6/2019 Disc Rim in Ante

    65/271

    65

    Rpar t i t ions par t ranc hes de sc ore

    Rpar t i t ion se lon le sc ore

  • 8/6/2019 Disc Rim in Ante

    66/271

    66

    Rpar t i t ion se lon le sc ore

    Simula t ion

  • 8/6/2019 Disc Rim in Ante

    67/271

    67

    Simula t ion

    Courbe de l i f t (e f f ic ac i t du c ib lage)

  • 8/6/2019 Disc Rim in Ante

    68/271

    68

    Courbe de l i f t (e f f ic ac i t du c ib lage)

    I I .3 Les ob jec t i fs du c redi t

  • 8/6/2019 Disc Rim in Ante

    69/271

    69

    scor ing

    Slec t ion des r isques

    Prv is ion des im pays

    Su ivi e t c ont r le

    c red it sc or ing

  • 8/6/2019 Disc Rim in Ante

    70/271

    70

    Credit scoring is the set of decision models and theirunderlying techniques that aid lenders in the granting of

    consumer credit.

    Credit scoring is one the most successful applications of

    statistical modeling in finance and banking. Yet becausecredit scoring does not have the same glamour as thepricing of exotic financial derivatives or portfolio analysis,

    the literature on the subject is very limited.Thomas & al. 2002

  • 8/6/2019 Disc Rim in Ante

    71/271

    71

    Le c om i t de Ble sur la superv is ion banca i re

    Cr en 1974 par le G10Banque des Rglements Internationaux (BIS)

    Rduire la vulnrabilit par la mise en place dunratio prudentiel attestant dun niveau minimalde fonds propres.

    Accords Ble II

    Ble 2

  • 8/6/2019 Disc Rim in Ante

    72/271

    72

    Une rvolution quantitative (A.L.Rmy CrditAgricole) banks are expected to provide an estimate of

    the PD and LGD PD (probability de dfaut) LGD (perte en cas de dfaut) EAD (exposition en cas de dfaut)

    Calcul du capital ncessaire au niveau de

    confiance 99.9% un an

  • 8/6/2019 Disc Rim in Ante

    73/271

    73

    Impact norme sur les tudes statistiques.

    Exigence de justification statistique et debacktesting impos par le rgulateur (CommissionBancaire)

    Recrutements massifsLe New Basel Capital Accord rgulera les prts

    bancaires partir de 2007

    LES DIFFERENTES ETAPESDE REALISATION

  • 8/6/2019 Disc Rim in Ante

    74/271

    74

    ECHANTILLONNAGECOLLECTE DE LINFORMATIONREDRESSEMENTSELECTION DES CRITERESCONSTRUCTION DU MODELE

    SIMULATIONMISE EN OEUVRE

    1. ECHANTILLONNAGE

  • 8/6/2019 Disc Rim in Ante

    75/271

    75

    OBJECTIF :

    CONSTRUIRE UN ECHANTILLON REPRESENTATIF DE LADEMANDE ET DU COMPORTEMENT DU PAYEUR. 1.1. PRISE EN COMPTE DES DOSSIERS REFUSES

    LES TROIS STRATES DE LA DEMANDE

    PROBLEME

  • 8/6/2019 Disc Rim in Ante

    76/271

    76

    UN SCORE CALCULE UNIQUEMENT SUR LES

    DOSSIERS ACCEPTES NE SAPPLIQUE PAS ALENSEMBLE DE LA DEMANDE.

    PRISE EN COMPTE DE LADIMENSION TEMPORELLE

  • 8/6/2019 Disc Rim in Ante

    77/271

    77

    DEUX POSSIBILITES :A ) OBSERVER UNE COUPE INSTANTANEE

    INCONVENIENT: CERTAINS DOSSIERS SONT CONSIDERES COMME BONS

    ALORS QUILS DEVIENDRONT MAUVAIS PAR LA SUITE. B ) OBSERVER UNE POPULATION DE DOSSIERS

    TERMINES

    INCONVENIENT: LA STRUCTURE DE LA POPULATION OBSERVEE NECORRESPOND PAS A LA STRUCTURE ACTUELLE.

    2. LA COLLECTE DELINFORMATION

  • 8/6/2019 Disc Rim in Ante

    78/271

    78

    OBJECTIF:

    BATIR UN FICHIER CONTENANT TOUTES LES INFORMATIONSCONNUES SUR LES REFUSES AINSI QUE LES BONS ET MAUVAISPAYEURS.

    PROBLEMES: PAS DE STOCKAGE INFORMATIQUE DES OBSERVATIONSINDIVIDUELLES

    PAS DE CONSERVATION DES DOSSIERS REFUSES

    PAS DE STATISTIQUES PERMETTANT DELABORER LE PLAN DESONDAGE

    HISTORIQUE TROP COURT OU ABSENT

    3. REDRESSEMENT

  • 8/6/2019 Disc Rim in Ante

    79/271

    79

    OBJECTIF: REDONNER A LECHANTILLON LA

    STRUCTURE DE LA DEMANDE ACTUELLE. DEUX FAMILLES DE METHODES :A) SCORE ACCEPTE/REFUSE

    HYPOTHESE: LES REFUSES DUN TRANCHE ONT LE MEMECOMPORTEMENT QUE LES ACCEPTES.

    3. REDRESSEMENT

  • 8/6/2019 Disc Rim in Ante

    80/271

    80

    B) SIMULATION DU COMPORTEMENT

    PRINCIPE : CHAQUE DOSSIER REFUSE SERAITDEVENU BON (OU MAUVAIS) AVEC UNE PROBABILITEA ESTIMER.

    4. SELECTION DES CRITERES

  • 8/6/2019 Disc Rim in Ante

    81/271

    81

    OBJECTIF:

    CHOISIR LES VARIABLES ET LES INTERACTIONS AINTRODUIRE DANS LE MODELE.

    LES PROBLEMES : DECOUPAGE/REGROUPEMENT EN CATEGORIES. CHOIX DES INTERACTIONS.

    CHOIX DES VARIABLES LES PLUS EXPLICATIVES. CHOIX DES VARIABLES LES MOINS CORRELEES ENTREELLES.

    7. LA MISE EN UVRE

  • 8/6/2019 Disc Rim in Ante

    82/271

    82

    OBJECTIF:INTRODUIRE LE SCORE COMME OUTIL DE

    SELECTION, DE PREVISION ET DE SUIVI.

    LES PROBLEMES : FORMATION DES UTILISATEURS. MISE EN PLACE DES OUTILS INFORMATIQUES.REACTUALISATION.

    3m e par t ie : Analyse

  • 8/6/2019 Disc Rim in Ante

    83/271

    83

    d isc r im inant e probabi l is t e .

    1. Rgle baysienne et loi normale.2. Mthodes non paramtriques.

    Insuf f isanc es des rg les gomt r iques

  • 8/6/2019 Disc Rim in Ante

    84/271

    84

    Mesures de distances ?

    Risques derreurs ? Probabilits dappartenance ?

    x

    g1

    g2

    I I I .1Rgle baysienne

  • 8/6/2019 Disc Rim in Ante

    85/271

    85

    3 possibilits : Paramtrique : lois normales avec galit ou non desj Non paramtrique : noyaux ou plus proches voisins Semi-paramtrique : rgression logistique estimation

    directe de : ( )( )

    '

    0

    j

    0

    exp

    P (G / ) 1 exp '

    x

    x x

    +

    = + +

    pj probabilit a priori dappartenir au groupe j

    fj (x) loi des xi dans le groupe j

    1

    ( )

    Formule de Bayes : ( / )( )

    j j

    j k

    j j

    j

    p f

    P Gp f

    =

    =

    x

    xx

    Problme : estimer lesfj (x)

    La rgle bays iennenave dans le c adre norm al

  • 8/6/2019 Disc Rim in Ante

    86/271

    86

    ( ) ( )

    ( )( )

    ( ) ( )

    ( )

    ( ) ( )

    j

    1

    1/ 2/ 2

    j j

    1j j

    x densit d'une N ;

    1 1exp -

    22

    max p f x attribuer x au groupe le plus

    probable a posteriori

    1 1max Ln p 2 2

    j j

    j j j jp

    j

    j j j

    f

    f x x x

    x x Ln

    =

    rgle quadratique

    La rgle bays ienne

  • 8/6/2019 Disc Rim in Ante

    87/271

    87

    1 2

    1 1 1

    j

    1

    j

    simplificatrice : ... =

    On attribue x au groupe j tel que :

    1 1max Ln p

    2 2

    1: max Ln p

    2

    j j j

    j j

    j

    indpendantdu groupe

    a

    Hypothse

    x x x

    donc

    =

    +

    1

    j j

    Rgle linaire quivalente la rgle gomtrique si quiprobabilit, aprs estimation

    de par g et de par W.

    jx

    +

    Analyse d isc r im inant e probab i l is t e :

    c as de deux groupes

  • 8/6/2019 Disc Rim in Ante

    88/271

    88

    ( )( ) ( )

    ( ) ( ) ( )

    1 1 2 2

    1

    1

    2 2

    1 2 2 2 2

    21 2 1 2 1 2

    1fonction de Fisher

    Affecter au groupe 1 si ( ) ( )

    1 1( ) exp '

    22

    1 1ln( ) ln( )

    2 2

    1' ln '2

    i i ip

    p f p f

    f

    p p

    pp

    >

    =

    + > +

    > + +

    ' -1 ' -1 ' -1 ' -1

    1 1 1

    -1 -1

    x x

    x x x

    x x

    x

    Fonc t ion de sc ore e t p robabi l i t

  • 8/6/2019 Disc Rim in Ante

    89/271

    89

    Fonction de score S(x) :

    Rgle :affecter au groupe 1 si S(x)>0Probabilit dappartenance au groupe 1 :

    ( )( ) ( )

    ( ) ( ) ( ) ( )

    ( ) ( ) ( ) ( )1

    11

    1 2

    2 1

    11 1

    1 11 1 2 2

    1 11 1 2 2

    1/2

    1/2 1/2

    1/2 1/2

    G /

    /

    P

    1/ 1

    x x

    x x x x

    x x x x

    p ex

    p e p e

    p p ep

    +

    +

    =

    = +

    1 111 2 1 2 1 2

    2

    1( ) ( ) ' ln( ) ( ) ' ( )

    2

    pS

    p

    = + +x x

    probabi l i t

    ( ) ( )S

  • 8/6/2019 Disc Rim in Ante

    90/271

    90

    Fonction logistique du score

    Expression en fonction des distances de Mahalanobisaux centres :

    ( ) ( )

    ( ) ( ) ( )

    2 2

    2 11/ 2 ; ;

    2 1

    2 2

    2 1 2 1

    1

    1 /

    Si P alors S x 1/ 2 ; ;

    x xPP P e

    P x x

    = +

    = =

    ( ) ( )1 1

    1 ( )

    ln(1/ ( / ) 1) ( ) 1/ ( / ) 1

    1 exp( ( ))

    ( / ) 1 1 exp( ( ))

    S

    S

    P G S P G e

    S

    P G e S

    = = +

    = =+ +

    x

    x

    x x x

    x

    x x

    S(x)

  • 8/6/2019 Disc Rim in Ante

    91/271

    91

    2

    1

    1( ( ) 0) ln

    2

    p

    p

    pP S x P U

    p

    > = > +

    Probabilit derreur de classement de G2 en G1 :

    On classe en G1 si S(x)>0

    Rgle de Bayes avec c ot s d er reur

  • 8/6/2019 Disc Rim in Ante

    92/271

    92

    Maximiser la probabilit a posterioripeut conduire des rglesabsurdes. Cots d erreurs :

    C(1/2) si on classe en G1 un individu de G2 C(1/1) = 0

    Cot moyen a posterioridun classement en G1 : C(1/2) P(G2/x) Cot moyen a posterioridun classement en G2 : C(2/1) P(G1/x) On classera x en G1 si C(1/2) P(G2/x) < C(2/1) P(G1/x)

    ( ) ( ) ( )( )

    ( ) ( )

    2 2 1 1 1 1

    1 1 2 2 1 1 2 2 2 2

    ' '

    1 1 2 2

    1/ 21/ 2 < c 2/1 donc si : >

    c 2/1

    Rgle habituelle avec p =p c 2/1 et p =p c 1/2

    c p f p f p f c

    p f p f p f p f p f + +

  • 8/6/2019 Disc Rim in Ante

    93/271

    Fent re m obi le : c asun id imens ionnel

  • 8/6/2019 Disc Rim in Ante

    94/271

    94

    Ide (Parzen-Rosenblatt): un histogramme o

    chaque classe serait centre sur lobservationcourante

    h

    xFentre mobile

    Fent re m obi le

  • 8/6/2019 Disc Rim in Ante

    95/271

    95

    ( ) /

    Estimateurdiscontinu.

    x f x n nh=

    dens i t

  • 8/6/2019 Disc Rim in Ante

    96/271

    96

    1

    1/2-1/2 0

    ( )

    ( )( ) ] [

    1

    i

    1

    t 1/ 2 ; 1/ 210 sinon

    h h1 si x x- ; x+

    2 2

    n

    i

    i

    i

    x x f x k

    nh h

    siK tK t

    x xK

    h

    =

    =

    = = =

    ( )1

    1Mthode du noyau

    fonction de densit

    n

    i

    i

    x x f x k

    nh h

    k

    =

    =

    Choix du noyau

  • 8/6/2019 Disc Rim in Ante

    97/271

    97

    K continue, paire, unimodaleExemples

    K pas forcment positif

    ( ) 1K x dx+

    =

    221 1 3( ) exp ( ) 1 pour 5 Epanechnikov

    2 52 4 5

    uK u u K u u

    = =

  • 8/6/2019 Disc Rim in Ante

    98/271

    98

    Il nexiste pas destimateur sans biais dune

    densit qui soit continu, symtrique en xi

    Critre du MISE

    ( ( )) ( ) est impossibleE f x f x x=

    ( )2 ( ) ( ) E f x f x dx+

    Si

    ( ) ( )

    2

    2

    42 2

    2

    ( ) 1 ( ) 0 et ( )

    1

    MISE "( ) ( )4

    K x dx xK x dx x K x dx k

    h

    k f x dx K x dxnh

    + + +

    + +

    = = =

    +

  • 8/6/2019 Disc Rim in Ante

    99/271

    99

    En substituant hopt qui dpend de f

    Calcul des variations:

    K optimal = Epanechnikov Noyau moins influent que la constante de lissage

    ( ) ( )

    ( ) ( )4 1

    2 12 25 5

    5 52

    MISE ( ) ( )4

    ( ) "( )optimal

    k f x dx K x dxnh

    h k K x dx f x dx n + +

    +

    =

    ( ) ( )4 1

    2 42 25 55 5

    25 ( ) "( )4

    ISE k K x dx f x dx n+ +

    Param t re de l issage h

  • 8/6/2019 Disc Rim in Ante

    100/271

    100

    h (ou r) Joue le mme rle que la largeur de classe

    dans lhistogramme. Estimation de h :

    Mthodes visuelles (si p = 1)Maximum de vraisemblance

    h petit : h grand :

    15 25 35 45 55

    0

    0.01

    0.02

    0.03

    0.04

    0.05

    0.06

    15 25 35 45 55

    0

    0.01

    0.02

    0.03

    0.04

    0.05

    Est im at ion de dens i t par la m t hode du noyau lm ent a i re

  • 8/6/2019 Disc Rim in Ante

    101/271

    101

    Noyau uniforme On compte le nombre

    dobservations appartenant la boule de rayon r.

    Ce nombre est alatoire.

    Plus proches voisins. k nombre de voisins est fix.Volume de la boule :

    alatoire.

    ( ) k paramtre fixerk

    f x nV=

    r

    x

    noyaux

    ( ) ( )1

    fnoyaux x k x y =

  • 8/6/2019 Disc Rim in Ante

    102/271

    102

    ( ) ( )

    ( ) ( )

    ( ) ( )

    ( ) ( )

    t

    -1 2

    tt

    1

    t 20

    t 1

    f

    1

    si z' Vuniforme k

    0 sinon

    1 1 '

    normal k exp - 2

    'Epanechnikov k 1

    noyaux tt y

    r

    t

    x k x yn

    z rV tz

    z V z

    z C t r

    z V z C t

    =

    =

    =

    =

    ( ) ( )

    ( ) ( )

    1-1 2

    t2

    21

    t 2 2

    31

    t 3 2

    si z' V

    'Biweight k 1

    'Triweight k 1

    t

    t

    t

    zz r

    r

    z V z z C t

    r

    z V z z C t r

    =

    =

    Est im at ion de densi t versusd isc r im inat ion l ina i re

  • 8/6/2019 Disc Rim in Ante

    103/271

    103

    Discrimination linaire : simplicit, robustesse, interprtation inefficace si non linarits fortes

    Estimation de densit : prcision, adaptation aux donnes calculs complexes, absence dinterprtation

    4 m e part ie : La rgress ion

    log is t ique

  • 8/6/2019 Disc Rim in Ante

    104/271

    104

    log is t ique

    IV.1 Le modle logistique simpleIV.2 Odds ratiosIV.3 Interprtation conomtrique

    IV.4 EstimationIV.5 TestsIV.6 Rgression logistique multiple

    IV.7 Comparaison avec lanalyse discriminante

  • 8/6/2019 Disc Rim in Ante

    105/271

    105

    Berkson (biostatistique) 1944

    Cox 1958 Mc Fadden (conomtrie) 1973

    IV.1 Le modle logistique simple

    Rponse dichotomique : Y = 0 / 1

  • 8/6/2019 Disc Rim in Ante

    106/271

    106

    Rponse dichotomique : Y = 0 / 1Variable explicative : XObjectif : Modliser

    Le modle linaire (x) = 0 + 1x

    convient mal lorsque X est continue. Le modle logistique est plus naturel

    (x) = Prob(Y = 1/X = x)

    Ex em ple : Age and Coronary Heart Disease St at us (CHD) (Hosm er & Lemeshow ; M.Tenenhaus)

  • 8/6/2019 Disc Rim in Ante

    107/271

    107

    Les donnes

    ID AGRP AGE CHD

    1

    2

    3

    4

    597

    98

    99

    100

    1

    1

    1

    1

    18

    8

    8

    8

    20

    23

    24

    25

    2564

    64

    65

    69

    0

    0

    0

    0

    10

    1

    1

    1

  • 8/6/2019 Disc Rim in Ante

    108/271

    108

    AGE

    70605040302010

    CHD

    1.2

    1.0

    .8

    .6

    .4

    .2

    0.0

    -.2

    Desc r ip t ion des donnes regroupes

    par c lasse d age

  • 8/6/2019 Disc Rim in Ante

    109/271

    109

    p g

    Age Group n

    CHD

    absent

    CHD

    present

    Mean

    (Proportion)

    20 29

    30 3435 39

    40 44

    45 49

    50 54

    55 - 59

    60 - 69

    10

    1512

    15

    13

    8

    17

    10

    9

    139

    107

    3

    4

    2

    1

    23

    56

    5

    13

    8

    0.10

    0.130.25

    0.330.46

    0.63

    0.76

    0.80Total 100 57 43 0.43

    Tableau des effectifs

    de CHD par classe dage

    Graphique des proportions

    de CHD par classe dage

    AGEGRP

    87654321

    Proportio

    n(CHD)

    1.0

    .8

    .6

    .4

    .2

    0.0

    Le m od le log is t ique s im ple

  • 8/6/2019 Disc Rim in Ante

    110/271

    110

    x

    x

    10

    10

    e1e)x( +

    +

    +=

    x))x(1

    )x(

    (Log 10 +=

    ou

    Probabilit d'une maladie cardiaque

    en fonction de l'age

    AGE

    70605040302010

    Pr

    ob(Y=1/X)

    1.0

    .8

    .6

    .4

    .2

    0.0

    Fonction de lien : Logit

    Il sagit bien dun problme de rgression:Modlisation de lesprance conditionnelle

  • 8/6/2019 Disc Rim in Ante

    111/271

    111

    Modlisation de l esprance conditionnelle E(Y/X=x)=f(x)

    Choix de la forme logistique en pidmiologie:Sajuste bienInterprtation de 1 en termes dodds-ratio

    IV.2 Odds-Rat io

  • 8/6/2019 Disc Rim in Ante

    112/271

    112

    Si X binaire (sujet expos X=1, non expos

    X=0)0 1 0

    0 1 0

    1 / 1 ( 1 / 0)( ) 1 1

    Y X P Y X Pe e

    e e

    +

    +

    = = = == =+ +

    1( 1/ 1) / ( 0 / 1)( 1/ 0) / ( 0 / 0)

    P Y X P Y X OR eP Y X P Y X

    = = = == == = = =

    Odds-Ratio

    Mesure lvolution du rapport des chances

  • 8/6/2019 Disc Rim in Ante

    113/271

    113

    Mesure l volution du rapport des chancesdapparition de lvnement Y=1 contre Y=0

    (la cote des parieurs) lorsque X passe de x x+1.

    Formule gnrale:

    1( 1) /(1 ( 1))

    ( ) /(1 ( ))

    x x

    OR ex x

    + +

    = =

    IV.3 In t erpr t a t ion c onom t r ique

  • 8/6/2019 Disc Rim in Ante

    114/271

    114

    Y possession dun bien durable par un

    mnage: manifestation visible dune variablelatente Zinobservable continue.

    Z est l intensit du dsir de possder lebienSi Z

  • 8/6/2019 Disc Rim in Ante

    115/271

    115

    pour le mnage ide caractristiques xi (ge, sexe,revenu, CSP...), la possession du bien procure unniveau dutilit U(1,xi), la non possession U(0,xi).

    Yi= 1U(1,xi) > U(0,xi)Yi= 0U(0,xi) > U(1,xi)

    Variable latente Zi= U(1,xi) U(0,xi).

    Modle d u t i l i t (su i t e)

  • 8/6/2019 Disc Rim in Ante

    116/271

    116

    Zi = xi + ii = P(Yi=1|xi)= P(Zi > 0)=P(xi > -i) = F(xi)F fonction de rpartition de -iChoix de F:

    Logistique :modle logit, rgression logistique

    Normal: modle probit

    Com paraison logi t -probi t

  • 8/6/2019 Disc Rim in Ante

    117/271

    117

    Logit:F(x) = 1/(1+e-x

    )E(X)=O V(X)=2/3 Peu diffrent en

    pratique Logit plus simple

    numriquement

    IV .4 Est im at ion des param t res

  • 8/6/2019 Disc Rim in Ante

    118/271

    118

    Les donnes

    X Y

    x1

    xi xn

    y1

    yi yn

    yi = 1 si caractre prsent,

    0 sinon

    i10

    i10

    x

    x

    ii

    e1

    e

    )xX/1Y(P)x(

    ++

    +=

    ===

    Le modle

    Vra isem blanc e (c ond i t ionne l le !)

    Probabilit dobserver les donnes

  • 8/6/2019 Disc Rim in Ante

    119/271

    119

    [(x1,y1), , (xi,yi), , (xn,yn)]

    =

    ===n

    1iii )xX/yY(Prob

    =

    =n

    1i

    y1i

    yi

    ii ))x(1()x(

    ),(L10

    ==

    +

    +

    +

    +

    +

    +=

    n

    1i

    y1

    x

    xy

    x

    x

    i

    i10

    i10

    i

    i10

    i10

    )e1

    e1()

    e1

    e(

    m ax im um de vraisemb lanc e

    maximisent

    Maximisation de la log-vraisemblance

    10et 0 1( , ) ( )L L =

  • 8/6/2019 Disc Rim in Ante

    120/271

    120

    Maximisation de la log-vraisemblance

    Estimateurs obtenus par des procduresnumriques: pas dexpression analytique

    [ ]1

    ( ) log ( ) log ( ) (1 ) log(1 ( ))

    n

    i i i i

    i

    L y x y x =

    = = +

    10

    11

    ( )( ( )) 0

    ( )( ( )) 0

    n

    i i

    i

    n

    i i i

    i

    y x

    x y x

    =

    =

    = =

    = =

    Prc is ion (asym pt o t ique) des est im at eurs

    L t i

  • 8/6/2019 Disc Rim in Ante

    121/271

    121

    La matrice

    est estime par la matrice

    0 0 1

    0 1 1

    ( ) ( , )( ) ( , ) ( )

    V CovV

    Cov V

    =

    12

    2

    ( )Log L

    =

    12

    2

    ( )( )V

    =

    =

  • 8/6/2019 Disc Rim in Ante

    122/271

    122

    1

    1 1

    2

    1 1

    1 1 1 1

    (1 ) (1 )

    (1 ) (1 )

    1 (1 ) 0 1

    1 0 (1 ) 1

    n n

    i i i i ii i

    n n

    i i i i i i

    i i

    n n n n

    x

    x x

    x x

    x x

    = =

    = =

    =

    =

    1

    1( ) .

    = X VX

    Analysis of Maximum Likelihood EstimatesParameter Standard Wald Pr > Standardized Odds

    Variable DF Estimate Error Chi-Square Chi-Square Estimate Ratio

  • 8/6/2019 Disc Rim in Ante

    123/271

    123

    INTERCPT 1 -5.3095 1.1337 21.9350 0.0001 . .AGE 1 0.1109 0.0241 21.2541 0.0001 0.716806 1.117

    5,3095 0,1109

    5,3095 0,1109( ) 1

    x

    x

    e

    x e

    +

    += +

  • 8/6/2019 Disc Rim in Ante

    124/271

    124

    IV .5 Test s sur les param t res

  • 8/6/2019 Disc Rim in Ante

    125/271

    125

    Trois mthodes sont disponibles pour testerlapport de la variable X au modle :

    1. Le test de Wald2. La mthode du rapport de vraisemblance

    3. Le test du score

    H0 : j = 0

    H1 : j 0

    Test de Wald

    analogue un test de Student en rgression usuelle

  • 8/6/2019 Disc Rim in Ante

    126/271

    126

    analogue un test de Student en rgression usuelle,si lon considre la statistique w dfinie par :

    reprsente lestimation de lcart-type delestimateur de 1.

    Sous lhypothse H0, w2 suit approximativement une

    loi du khi-deux un degr de libert . Rejet de H0 si w2

    1

    1

    ( )w

    s

    =

    1

    ( )s

    )1(21

    Test du rappor t des v raisem blanc es

    Lapport de la variable X est mesur laide de la

  • 8/6/2019 Disc Rim in Ante

    127/271

    127

    L apport de la variable X est mesur l aide de la

    statistique :G= -2 log [ ]

    sous lhypothse H0 G suit asymptotiquement une loi dukhi-deux un degr de libert.

    Vraisemblance sans la variable:

    Vraisemblance sans la variable

    Vraisemblance avec la variable

    01

    01

    nnnn

    n n

    Test du sc ore

    00 0

    1

    ( ) ( ) ( )H HHscore U J U

    =

  • 8/6/2019 Disc Rim in Ante

    128/271

    128

    Uvecteur des drives partielles de la log-

    vraisemblance estimesLe score suit galement asymptotiquement

    sous H0 une loi du khi-deux un degr delibertEn rgression logistique simple, le score est

    gal nr2 , o r est le coefficient de corrlationlinaire (abusif!) entre Y et X

    Com para ison des 3 t es t s

  • 8/6/2019 Disc Rim in Ante

    129/271

    129

    Model Fitting Information and Testing Global Null Hypothesis BETA=0

    Intercept

  • 8/6/2019 Disc Rim in Ante

    130/271

    130

    Intercept

    Intercept and

    Criterion Only Covariates Chi-Square for Covariates

    AIC 138.663 111.353 .

    SC 141.268 116.563 .

    -2 LOG L 136.663 107.353 29.310 with 1 DF (p=0.0001)

    Score . . 26.399 with 1 DF (p=0.0001)

    In t erva l le de c onf ianc e de l odds-Rat io

  • 8/6/2019 Disc Rim in Ante

    131/271

    131

    2

    11

    s)(Var =

    Do lintervalle de confiance de OR(1) au niveau 0.95:

    ]e,e[ 1111 s96.1

    s96.1

    +

    In t e rva l le de c onf ianc e de (x )au n iveau 95%

    2)(V 222

  • 8/6/2019 Disc Rim in Ante

    132/271

    132

    x

    x

    10

    10

    e1

    e)x(

    +

    +

    +

    =

    De xs2xss)x(Var 0122

    12010 ++=+

    on dduit lintervalle de confiance de :

    ]e1

    e;

    e1

    e[

    )x(Var96.1x

    )x(Var96.1x

    )x(Var96.1x

    )x(Var96.1x

    1010

    1010

    1010

    1010

    +++

    +++

    ++

    ++

    ++

    Com para ison ent re les propor t ionsobserves e t t hor iques

    1.0

    Proportion observe :

  • 8/6/2019 Disc Rim in Ante

    133/271

    133

    Classe d'age

    87654321

    Prop

    ortion

    .8

    .6

    .4

    .2

    0.0

    Prop. observe

    Prop. thorique

    Proportion observe :

    Classei

    Classei ny /

    Proportion thorique :

    Classei

    Classei n/

    puisque E(yi) = iestim par

    i

    IV.6 Rgress ion logis t iquemu l t i p le

    Gnralisation p variables explicatives

  • 8/6/2019 Disc Rim in Ante

    134/271

    134

    Gnralisation p variables explicatives

    X1,, Xp.

    Estimation par le maximum de vraisemblanceNe converge pas toujours: cas de la sparationcomplte

    0 1 1

    0 1 1

    ...

    ...( ) ( 1 / )

    1

    p p

    p p

    x x

    x x

    e x P Y X x

    e

    + + +

    + + += = = =

    +

    Probab i l i ts a pos t e r io r i et s t ra t i f i c a t ion

    Estimer P demande de connatre les vraies probabilits a priori

  • 8/6/2019 Disc Rim in Ante

    135/271

    135

    Estimer P demande de connatre les vraies probabilits a priori Les modifier change seulement

    0en ADL et en logistique:on ajoute

    Proc DISCRIM PRIORS statement

    Proc LOGISTIC PEVENT option MODEL statement (SAS 8) PRIOR (ou PRIOREVENT) option SCORE statement (SAS 9)

    Important pour les probabilits , pas pour un score

    1

    2

    lnp

    p

    Tes ts

    Tests dabsence deffet de toutes les

  • 8/6/2019 Disc Rim in Ante

    136/271

    136

    Tests d absence d effet de toutes les

    variables: H0 : 1 = = p = 0Rapport de vraisemblance GScore test UTest de WaldSous H0, suivent tous trois asymptotiquement une

    loi du 2 p ddl

    IV.7 Com paraison avecl analyse d isc r im inant e

    Avantages proclams:Unicit et interprtabilit des coefficients (odds

  • 8/6/2019 Disc Rim in Ante

    137/271

    137

    Unicit et interprtabilit des coefficients (odds-

    ratios)Erreurs standard calculables

    Modlisation des probabilitsHypothses plus gnrales quen AD gaussienneMaximum de vraisemblance au lieu de moindres

    carrs (rgression linaire de Y sur les Xj)Prise en charge facile des X qualitatifs (logiciels)

    Mais:Erreurs standard asymptotiques , bootstrap en AD

    Non convergence en cas de sparation parfaite.Fisher existe toujours

  • 8/6/2019 Disc Rim in Ante

    138/271

    138

    Maximum de vraisemblance conditionnel:non

    optimal dans le cas gaussien standardLAD peut aussi traiter les variables qualitatives, et

    de manire plus robuste grce aux contraintes desous-espace (Disqual)

    Querelle largement idologique (modlisationversus analyse des donnes)LAD est aussi un modle, mais sur les lois des X/Y,

    la logistique sur les lois de Y/X

  • 8/6/2019 Disc Rim in Ante

    139/271

    139

    En pratique diffrences peu nettes: fonctionsde score souvent trs proches It is generally felt that logistic regression is a safer,

    more robust bet than the LDA model, relying on fewerassumptions . It is our experience that the models givevery similar results , even when LDA is used ininappropriately, such as with qualitative variables.

    Hastie and al.(2001)

    In fa rc t us: c om paraisonFisher e t log is t ique

    Courbe ROC

  • 8/6/2019 Disc Rim in Ante

    140/271

    140

    1 - Spcificit

    1.00.75.50.250.00

    Sens

    itivit

    1.00

    .75

    .50

    .25

    0.00

    Source de la courbe

    SCORLOG

    SCORFISH

    Assurance

  • 8/6/2019 Disc Rim in Ante

    141/271

    141

    Usages souvent diffrents: AD pour classer, logistiquepour modliser (facteurs de risque)

  • 8/6/2019 Disc Rim in Ante

    142/271

    142

    Logistique aussi utilise en scoring

    Si lobjectif est de classer: On ne fait plus de la science mais de laide la dcision

    Mieux vaut essayer les deux mthodes. Mais comment les comparer? Le vrai critre de choix est la performance en gnralisation

    5m e part ie: les SVM (sparat eurs vast e

  • 8/6/2019 Disc Rim in Ante

    143/271

    143

    m arge ou support vec t o r mach ines )

    V.1 Du perc ep t ron aux SVM

    Algorithme de Rosenblatt (1958), la premire machine apprendre

  • 8/6/2019 Disc Rim in Ante

    144/271

    144

    Du perc ept ron aux SVM

    Equation de lhyperplan sparateur( ) 0f b= + =x w'x

  • 8/6/2019 Disc Rim in Ante

    145/271

    145

    ( ) 0f b= + =x w x

    Un peu de gom et r ie

    Equation dun hyperplan:

  • 8/6/2019 Disc Rim in Ante

    146/271

    146

    Coefficients dfinis un facteur prs:

    b=1 ouDistance lhyperplan:

    ( ) 0 f b b= + = + =x w'x x'w

    bd += w'xw

    1=w

    Minimiser la somme des distances au plan desobservations mal classes

    Yi=1 mal class si wxi+b

  • 8/6/2019 Disc Rim in Ante

    147/271

    147

    i a c ass s i b 0

    Yi=-1 mal class si wxi+b>0

    mal classs

    mal classs mal classs

    min ( ( ))

    gradientb

    i i

    i i i

    y b

    y y

    +

    = =

    w'x

    xw

    Gradient stochastique (obs. par obs.)

    i iy

    yb b

    +

    xw w

  • 8/6/2019 Disc Rim in Ante

    148/271

    148

    coefficient dapprentissage

    Solutions multiples dans le cas sparableselon linitialisation

    Non convergence dans le cas non sparable

    1 in nyb b

    V.2 L hyperp lan opt im al (Vapnik )

  • 8/6/2019 Disc Rim in Ante

    149/271

    149

    Front ire avec no mans land maximal,Hyperplan pais

    Hyperplan op t im a l

    Maximise la marge ou rayon du corridor:

  • 8/6/2019 Disc Rim in Ante

    150/271

    150

    distance du point le plus proche lhyperplan

    Cas sparable

    Marge C: tous les points sont une distance> C

  • 8/6/2019 Disc Rim in Ante

    151/271

    151

    '

    '

    '

    max sous ( ) et 1

    contrainte quivalente: ( )

    1ou car et dfinis l'chel

    min sous ( ) 1

    le prs

    i i

    i i

    i i

    C y b C

    y b

    y b

    C

    bC

    + =

    +

    =

    +

    x w w

    x w w

    w x w

    w w

    Program m e quadrat ique

    Lagrangien:

    Do:

    2 '2 ( ) 1i i iy b + w x wn n

  • 8/6/2019 Disc Rim in Ante

    152/271

    152

    D o:

    Dual de Wolfe

    1 1et 0i i i i i

    i iy y = == = w x

    '

    1

    1max

    2

    avec 0 et 0

    i i k i k i k

    n

    i i i

    i

    y y

    y

    =

    =

    x x

    Conditions de Khn et Tucker:

    ( ) 1 0i i

    y b + = '

    i

    '

    x w

  • 8/6/2019 Disc Rim in Ante

    153/271

    153

    w, donc lhyperplan, ne dpend que despoints supports o les

    i

    sont non nuls.

    0 alors ( ) 1( ) 1 alors 0

    i i

    i i

    Si y bSi y b

    > + =+ > =

    '

    i

    '

    i

    x wx w

    Solution

    0

    i

    n

    i i iy

    >

    = w x

  • 8/6/2019 Disc Rim in Ante

    154/271

    154

    f(x) ne dpend que des points supports

    est une combinaison linaire des variables (score) rgle de dcision selon le signe de f(x)

    '

    0 0

    ( )

    i

    i i

    n n

    i i i i i f b y b y b

    > >

    = + = + = + ix w x x x x x

    Lhyperplan optimal ne dpend que des pointsproches (diffre de Fisher)

    VC dimension: 22

    o xR

    h RC

  • 8/6/2019 Disc Rim in Ante

    155/271

    155

    Plus la marge est grande, meilleure est larobustesse en principe.

    Mais pas toujours :

    C

    V.3 Le c as non sparable

  • 8/6/2019 Disc Rim in Ante

    156/271

    156

    Deux solutions: modifier le critre changer despace pour rendre leproblme linairement sparable

    Variables dcart

    min sous ( ) 1i i

    y b + 'iw x w

  • 8/6/2019 Disc Rim in Ante

    157/271

    157

    On borne la proportion de points tombant dumauvais ct.

    La solution ne dpend que des pointssupports o :

    eti

    '

    ix w

    Formulation quivalente:

  • 8/6/2019 Disc Rim in Ante

    158/271

    158

    C contrle le trade-off entre la marge etlerreur.0

  • 8/6/2019 Disc Rim in Ante

    159/271

    159

    Un sparateur linaire dans (E) donne unsparateur non-linaire dans E.

  • 8/6/2019 Disc Rim in Ante

    160/271

    160

  • 8/6/2019 Disc Rim in Ante

    161/271

    161

    Solut ion

    1max

    2

    0 et 0

    i i k i k

    i i i

    y y

    C y

    < < =

    i k

    (x ) (x )

  • 8/6/2019 Disc Rim in Ante

    162/271

    162

    1

    Solution ( )n

    i i

    i

    f y b=

    = + ix (x ) (x)

    Ne dpend que des produits scalaires

    Espac es de Hi lber t noyauxreproduisants

    Noyaux K(x,x)=(x) (x)

  • 8/6/2019 Disc Rim in Ante

    163/271

    163

    Le kernel trick :choisir astucieusement Kpour faire les calculs uniquement danslespace de dpart.

    Exemple:Dans lespace darrive:

    2 2

    1 2 1 1 2 2x ( ; ) (x) ( ; 2 ; ) x x x x x x= =

    2 '2 ' ' 2 '2

    1 1 1 2 1 2 2 2

    ' ' 2 2

    1 1 2 2

    (x) (x ') 2

    ( ) (xx ')

    x x x x x x x x

    x x x x

    = + +

    = + =

    On peut donc calculer le produit scalaire dans(E) sans utiliser

  • 8/6/2019 Disc Rim in Ante

    164/271

    164

    Conditions de Mercer pour avoir un noyau:

    k(xi;xj) terme gnral dune matrice sdp

    supports

    Solution ( ) ( ; )i i ii

    f y K b

    = +x x x

    Ex em ples de noyaux

    Linaire K(x;x)= d d

  • 8/6/2019 Disc Rim in Ante

    165/271

    165

    Polynomial K(x;x)=() ou ( +1)Gaussien (radial basis)

    K(x;x)=exp-(||x-x||2

    )/2

    )

  • 8/6/2019 Disc Rim in Ante

    166/271

    166Joachims

  • 8/6/2019 Disc Rim in Ante

    167/271

    167

  • 8/6/2019 Disc Rim in Ante

    168/271

    168

    Hastie, Tibshirani, Friedman : The Elements of Statistical Learning , Springer-Verlag, 2001

    Le problm e de la gnra l isa t ion .les SVM v i t ent :

    Le risque de surapprentissage ( curse ofdimensionality )

  • 8/6/2019 Disc Rim in Ante

    169/271

    169

    y )Linfinit de solutions dans le cas sparable

    (problme mal pos)

    Le problm e de la gnra l isa t ion .les SVM :

    Contrlent la capacit de gnralisation enaugmentant la marge car:

  • 8/6/2019 Disc Rim in Ante

    170/271

    170

    Ne dpend pas de la dimension de lespace(ventuellement )

    2

    2o x

    Rh R

    C

    Approc hes vois ines

    LS-SVM, GDA (Baudat, Anouar) : fonction de Fisherdans le feature space

  • 8/6/2019 Disc Rim in Ante

    171/271

    171

    Quelques r frenc es

    http://www.kernel-machines.org Th.Joachims tutorial SVM

  • 8/6/2019 Disc Rim in Ante

    172/271

    172

    C.Burges a tutorial on SVM for pattern recognition O.Bousquet introduction aux SVM ,

    http://www.math.u-psud.fr/~blanchard/gtsvm/intro.pdf

    J.Suykens et al. Least squares support vectormachines , World Scientific, 2002 Logiciels:

    http://svm.dcs.rhbnc.ac.uk/pagesnew/GPat.shtml http://www.csie.ntu.edu.tw/~cjlin/

    6 m e part ie : va l idat ion

    http://www.math.u-psud.fr/~blanchard/gtsvm/intro.pdfhttp://svm.dcs.rhbnc.ac.uk/pagesnew/GPat.shtmlhttp://www.csie.ntu.edu.tw/~cjlin/http://www.csie.ntu.edu.tw/~cjlin/http://svm.dcs.rhbnc.ac.uk/pagesnew/GPat.shtmlhttp://www.math.u-psud.fr/~blanchard/gtsvm/intro.pdf
  • 8/6/2019 Disc Rim in Ante

    173/271

    173

    VI-1 Qualit dun scoreVI-2 Qualit dune rgle de classement

    VI-1 Qual i t d un sc ore

    Quil soit obtenu par Fisher, logistique ouautre (une probabilit est un score)

  • 8/6/2019 Disc Rim in Ante

    174/271

    174

    Comparaison des distributions du score surles deux groupesdensitsfonctions de rpartition

    Fonc t ions de rpart i t ion

  • 8/6/2019 Disc Rim in Ante

    175/271

    175

    Courbe ROC

  • 8/6/2019 Disc Rim in Ante

    176/271

    176

    Courbe ROC: int erprt at ion

    Groupe dtecter G1: scores levs

    1 f

  • 8/6/2019 Disc Rim in Ante

    177/271

    177

    Sensibilit 1-= P(S>s/G1):% de vrais positifsSpcificit 1-=P(S

  • 8/6/2019 Disc Rim in Ante

    178/271

    178

    seuil varieProportion de vrais positifs en fonction de la

    proportion de faux positifs

    Un site: http://www.anaesthetist.com/mnm/stats/roc/

    http://www.anaesthetist.com/mnm/stats/roc/http://www.anaesthetist.com/mnm/stats/roc/
  • 8/6/2019 Disc Rim in Ante

    179/271

    179

    Surfac e sous la c ourbe ROC

    Surface thorique sous la courbe ROC:P(X

    1>X

    2) si on tire au hasard et

    i d d t b ti d G t

  • 8/6/2019 Disc Rim in Ante

    180/271

    180

    1 2indpendemment une observation de G1 etune observation de G2

    Estimation non-paramtrique de la surface:Proportion de paires concordantes

    (1 ( )) ( )ss

    AUC s d s ==+

    =

    1 2

    cncn n

    =

    m esures de c onc ordanc e

    Coefficients d association entre les probabilitscalcules et les rponses observes. Paires formes dune obs o Y=1 et dune o Y=0 .

    N b d i t 1 2 1+ 2

  • 8/6/2019 Disc Rim in Ante

    181/271

    181

    Nombre de paires t=n1n2 n=n1+n2 Si lobservation telle que Y= 1 a une probabilit

    estime que Y= 1, plus grande que celle delobservation o Y= 0 la paire est concordante.

    nc = nombre de paires concordantes; nd = nombrede paires discordantes; t - nc - nd = nombre dex-aequo

    Courbe ROC: propr it s

    Courbe ROC et surface sont des mesuresintrinsques de sparabilit, invariantes pourt t t f ti t i t d

  • 8/6/2019 Disc Rim in Ante

    182/271

    182

    toute transformation monotone croissante duscore

    La surface est lie aux statistiques U de Mann-Whitney et W de Wilcoxon nc= U

    U+W= n1n2+0.5n1(n1+1)AUC=U/n1n2

    In fa rc t us: c om paraisonFisher e t log is t ique

    Courbe ROC

    1.00

  • 8/6/2019 Disc Rim in Ante

    183/271

    183

    1 - Spcificit

    1.00.75.50.250.00

    Se

    nsitivit

    .75

    .50

    .25

    0.00

    Source de la courbe

    SCORLOG

    SCORFISH

    Aut res m esures

    D de Somers = (nc - nd) / t Gamma = (nc - nd) / (nc + nd) Tau a = 2 (nc nd) / n(n 1)

  • 8/6/2019 Disc Rim in Ante

    184/271

    184

    Tau-a = 2 (nc - nd) / n(n-1) Indice de Gini

    Double de la surface entre la courbe ROC et la diagonale

    G=2AUC-1 En labsence dex-aequo: G identique au D de Somers

    La capacit prdictive du modle est dautantmeilleure que ces indices sont proches de 1.

    Courbe de l i f t

    % de la cible

  • 8/6/2019 Disc Rim in Ante

    185/271

    185

    Sur fac e sous la c ourbe l i f t

    Pourcentage dindividus ayant un score>s1 1(1 ) (1 )p p +

    { }

  • 8/6/2019 Disc Rim in Ante

    186/271

    186

    Surface { }1 1

    1 1

    11

    (1 ) (1 ) (1 )

    (1 ) (1 ) (1 ) (1 )

    (1 )2

    L d p p

    p d p d p

    p AUC

    = + =

    +

    = +

    Coef f ic ient K i (K x en)

    Ki=(surface entre liftestim et alatoire) /(surface entre lift idal

  • 8/6/2019 Disc Rim in Ante

    187/271

    187

    (surface entre lift idalet alatoire)

    Ki=2(surface ROC)-1

    1 1

    1 1

    12(1 ) 1

    2 2 11 1

    2

    L p p AUC

    Ki AUC p p

    + = = =

    VI-2 Qual i t d une rg le de c lassement

    Tableau de classement :On classe des observations dont le groupe est connu :

    groupe prdit

  • 8/6/2019 Disc Rim in Ante

    188/271

    188

    Pourcentage de bien classs :

    Taux derreur de classement :

    n n

    n11 22+

    n n

    n12 21+

    groupe prdit

    groupe n n

    rel n n

    1 2

    1

    2

    11 12

    21 22

    Sur quel c hant i l lon fa i re c et ableau ?

    chantillon test dindividus supplmentaires. Si on reclasse lchantillon ayant servi construire la rgle

    (estimation des coefficients) : mthode de resubstitutionBIAIS

  • 8/6/2019 Disc Rim in Ante

    189/271

    189

    (estimation des coefficients) : mthode de resubstitution BIAIS

    surestimation du pourcentage de bien classs.

    Solutions pour des chantillons de petite taille :Validation croise n discriminations avec un chantillon test dune unit : % de

    bien classs sans biais (mais variance souvent forte)bien class

    2 n -1 n

    mal class

    1

    Boots t rap

    B analyses discriminantes do distributions empiriques descoefficients et du % de bien classs.

    chantillon B Rplications par tirage avec

  • 8/6/2019 Disc Rim in Ante

    190/271

    190

    chantillon B Rplications par tirage avecremise de n parmi n

    Sept im e part ie : du c ho ix de

    m odles la t hor ie del apprent issage s t a t i st ique

  • 8/6/2019 Disc Rim in Ante

    191/271

    191

    VII.1 Slection de variablesVII.2 Choix de modles par vraisemblance

    pnalise

    VII.3 Lapprentissage selon Vapnik

    VII .1 Slec t ion de var iab lesRdui re le nom bre de prd ic t eurs

    Pourquoi ? conomie

    Pertinence Stabilit

  • 8/6/2019 Disc Rim in Ante

    192/271

    192

    Stabilit

    Comment ?Recherche exhaustive 2p-1 sous-ensemblesMthodes pas pas ascendantes, descendantes

    Cri tres

    Le % de bien classs nest pas utilis dans leslogiciels classiques (SAS, SPSS): trop de calculs.

    Algorithmes usuels en analyse discriminante:

  • 8/6/2019 Disc Rim in Ante

    193/271

    193

    Algorithmes usuels en analyse discriminante: Critre de Wilks :

    On recherche minimiser : quivaut maximiser D pour k=2 Suppose implicitement la normalit

    Mthodes pas pas : non optimales.

    Pour k=2 recherche exhaustive par lalgorithme de Furnival etWilson.

    = W V

    Test s de var iab les en AD

    Test dapport dune variable : Sous lhypothse de nonapport :

    k-1 ; n-k-p1 ~F1

    pn k pk

  • 8/6/2019 Disc Rim in Ante

    194/271

    194

    Test de non discrimination : (analyse de variancemultidimensionnelle)

    11 pk +

    ( )1-

    3 F 2p ; n-p-22

    k>3 approximations

    p

    k n p

    pour

    = =

    Slec t ion de variab les en

    rgress ion logis t ique

    Mthode ascendante :

  • 8/6/2019 Disc Rim in Ante

    195/271

    195

    Mthode ascendante : Selon le score dans la proc logistic de SAS

    Mthode descendante: Selon la statistique de Wald dans la proc logistic de SAS

    VI I .2 Choix de m odles par v ra isem blanc e pna l ise

    Comparer des modles ayant des nombres deparamtres diffrents: Knombre de paramtres

    estimer.

  • 8/6/2019 Disc Rim in Ante

    196/271

    196

    Critre dAkake :AIC = -2 ln(L) + 2K

    Critre de Schwartz : BIC = -2 ln(L) + K ln(n)

    On prfrera le modle pour lequel ces critres ont lavaleur la plus faible.

    AIC et BIC ne sont semblables quenapparence

    Thories diffrentesAIC : approximation de la divergence de Kullback-

    Leibler entre la vraie distribution f et le meilleurchoix dans une famille paramtre

  • 8/6/2019 Disc Rim in Ante

    197/271

    197

    choix dans une famille paramtre

    Asymptotiquement:

    ( )( ; ) ( ) ln (ln( ( )) (ln( ( ))

    ( )f f

    f t I f g f t dt E f t E g t

    g t= =

    (ln( ( ; )) ln( ( ))f E E g t L k

    BIC : choix bayesien de modlesm modles Mi paramtrs par i de probabilits a prioriP(Mi) gales.

    Distribution a prioride ipour chaque modle P(i/ Mi).Distribution a posteriori du modle sachant les donnes ou vraisemblanceintgre P(x/Mi)

    Choix du modle le plus probable a posteriorirevient maximiser

    l ( ( / ) l ( ( / ) l ( )k

    P M P M

  • 8/6/2019 Disc Rim in Ante

    198/271

    198

    ln( ( / ) ln( ( / , ) ln( )2

    i i iP M P M n x x

    0.5

    0.5

    1

    ( / )i

    j

    BIC

    i mBIC

    j

    eP M

    e

    =

    =

    x

    Com paraison AIC BIC

    Si ntend vers linfini la probabilit que le BICchoisisse levrai modle tend vers 1, ce qui est faux pour lAIC.

    AICva choisir le modle qui maximisera la vraisemblance defutures donnes et ralisera le meilleur compromis biais-

  • 8/6/2019 Disc Rim in Ante

    199/271

    199

    pvariance

    LAICest un critre prdictif tandis que le BICest un critreexplicatif. Pour nfini: rsultats contradictoires. BICne choisit pas

    toujours le vrai modle: il a tendance choisir des modlestrop simples en raison de sa plus forte pnalisation

    AIC BIC ra l is t es?

    Vraisemblance pas toujours calculable. Nombre de paramtres non plus: ridge, PLS etc. Vrai modle?

  • 8/6/2019 Disc Rim in Ante

    200/271

    200

    tous les modles sont faux ; certains sont utiles G.Box

    Vapnik : c ho is i r se lon la VC

    d imens ion

    VII .3 : La t hor ie del apprent issage s t a t is t ique

    Une introduction aux thories de V.Vapnik(rdige en collaboration avec Michel Bera, Kxen)

  • 8/6/2019 Disc Rim in Ante

    201/271

    201

    Un mathmaticien russe arriv aux USA en 92, qui travailledepuis chez NEC aprs les Bell (aujourdhui AT&T) Labs.

    Premiers papiers en russe ds 1972.Premier livre chez Springer Verlag en 1982US Medalen sciences en 1992.Un troisime livre ( 800 pages ) chez J. Wiley,en 1998

    Norbert Wiener 1948

    Image courtesy of the Research Laboratory of Electronics at MIT.

    http://en.wikipedia.org/wiki/MIThttp://en.wikipedia.org/wiki/MIT
  • 8/6/2019 Disc Rim in Ante

    202/271

    202

    Frank Rosenblatt 1962

    Vladimir Vapnik 1982

    Le prob lm e de la bot e no i re e t l apprent issage superv is

    Etant donne une entre x, un systme nondterministe renvoie une variable y = f(x)+e. On

    dispose de n paires (xi,yi) et on cherche une fonctionqui approxime la fonction inconnue f

  • 8/6/2019 Disc Rim in Ante

    203/271

    203

    qui approxime la fonction inconnue f. Deux conceptions:

    Une bonne approximation est une fonction proche de f Une bonne approximation est une fonction qui donne

    un taux derreur voisin de celui de la bote noire

    Risque d apprent i ssage

    Apprentissage supervisY rponse prdire, X prdicteurs

    Y numrique rgression ; binaire (-1;+1) discriminationdl l l d

  • 8/6/2019 Disc Rim in Ante

    204/271

    204

    Un modle calcule un prdicteur

    o: fclasse de fonction

    w est un paramtre qui dfinit le modle, estim surlensemble dapprentissage

    ),( wXfy =

    Fonction de perte L(y;f(x,w)) Rgression L(y;f(x,w))=(y-f(x))2

    Discrimination : taux (ou cot) derreur de classement

    y et valeurs dans {-1 ;+1}

    ( )21 1 ( ; )

    2 4L y y y y y y= =

    y

  • 8/6/2019 Disc Rim in Ante

    205/271

    205

    Risque (erreur de gnralisation sur denouvelles donnes z = (X, y) )

    ( ) ( , ) ( )R E L L z w dP z= =

    2 4

    Objectif impossible: minimiser sur w le Risque

    P(z) probabilit inconnue

    On dispose seulement de n casdapprentissage (z z ) tirs suivant la loi

  • 8/6/2019 Disc Rim in Ante

    206/271

    206

    d apprentissage (z1, .. , zn) tirs suivant la loi

    P(z), au lieu de minimiser R, on minimise leRisque Empirique :

    1

    1 ( ; ( ; ))n

    emp i i

    i

    R L y f n =

    = x w

    Problme central en thorie delapprentissage:Quelle est la relation entre le Risque R et le

  • 8/6/2019 Disc Rim in Ante

    207/271

    207

    risque empirique Remp ?

    Quelle est la capacit de gnralisation de

    ce genre de modle?

    Le d i lem m e b ia is -var ianc e

    Modle y=f(x )+, f estim sur donnesdapprentissage

    Erreur de prdiction 0 0 0 0 ( ) ( )y y f x f x = +

  • 8/6/2019 Disc Rim in Ante

    208/271

    208

    Doublement alatoire

    Erreur quadratique moyenne de prdiction(risque R)

    ( ) ( ) ( )( ) ( )2

    22 2 20 0 0 0 0 0 0

    ( ) ( ) ( ) ( ) ( )E y y E f x f x E f x f x V f x = + = + +

    biais variance

    premier terme: ala irrductible deuxime terme: carr du biais du modle troisime terme: variance de la prdiction

    ( ) ( ) ( )( ) ( )222 2 2

    0 0 0 0 0 0 0 ( ) ( ) ( ) ( ) ( )E y y E f x f x E f x f x V f x = + = + +

  • 8/6/2019 Disc Rim in Ante

    209/271

    209

    Plus un modle sera complexe plus le biais sera faible,mais au dtriment de la variance.Mais comment mesurer la complexit?

    Robustesse

    Modle robuste: erreurs en apprentissage eten gnralisation du mme ordre de grandeur

  • 8/6/2019 Disc Rim in Ante

    210/271

    210

  • 8/6/2019 Disc Rim in Ante

    211/271

    Cons is tence

    Un processus dapprentissage est consistent silerreur sur lensemble dapprentissageconverge lorsque la taille de cet ensemble

  • 8/6/2019 Disc Rim in Ante

    212/271

    212

    converge, lorsque la taille de cet ensemble

    augmente, vers lerreur en gnralisation.

    %erreurErreur en gnralisation

    Apprent issage c onsis t ent

  • 8/6/2019 Disc Rim in Ante

    213/271

    213

    Taille ens. dapprentissage

    Erreur dapprentissage

    %erreur

    Erreur engnralisation

    Apprent issage non c ons is t ent

  • 8/6/2019 Disc Rim in Ante

    214/271

    214

    Taille ens. dapprentissage

    tion

    Erreur dapprentissage

    Les quat re pi l iers de la t hor ie de l apprent i ssage

    1 Consistence (garantit la gnralisation) Sous quelles conditions un modle peut-il gnraliser?

  • 8/6/2019 Disc Rim in Ante

    215/271

    215

    2Vitesse de convergence en fonction du nombre

    dexemples (mesure de la gnralisation) Comment samliore la gnralisation lorsque le nombre

    dexemples augmente ?

    Quat re p i l iers de la t hor ie de l apprent issage

    3 Contrle de la capacit de gnralisation Comment contrler efficacement la gnralisation partir

    de linformation contenue dans un ensembledapprentissage de taille finie ?

  • 8/6/2019 Disc Rim in Ante

    216/271

    216

    g

    4 Construire des algorithmes dapprentissage Existe-t-il une stratgie pour construire des algorithmes

    qui garantissent, mesurent et contrlent la capacit degnralisation de modles dapprentissage ?

    La VC d im ension

    Dimension de Vapnik-Cervonenkis: une mesure dupouvoir sparateur (complexit) dune famille de

    fonctionsVC dimension : un nombre entier attach une

    ( , ) : p f X w

  • 8/6/2019 Disc Rim in Ante

    217/271

    217

    famille Fde fonctions Chaque fde F cest--dire, pour un w donn

    peut-tre utilis pour de la classification :

    f (X,w) >= 0 : X class en 1f (X,w) < 0 : X class en -1

    VC d im ens ion su i t e

    Pour un chantillon de n points (x1, .. , xn) deR p Il existe 2n manires diffrentes de

    sparer cet chantillon en deux sous-chantillons

  • 8/6/2019 Disc Rim in Ante

    218/271

    218

    chantillons

    Un ensemble Fde fonctions f(X,w)hache(shatters)lchantillon si les 2n sparationspeuvent tre faites par desf(X,w) diffrentesde la famille F

    Aucune ligne

    Exemple

    En 2-D, les fonctions linaires (droites)peuvent hacher 3 points, mais pas 4

  • 8/6/2019 Disc Rim in Ante

    219/271

    219

    droite ne

    peut sparerles pointsnoirs des

    points roses

    Un ensem ble de fonc t ions de

    Rp

    -> R a la d im ensionh s i :

    Il existe un jeu de h points deR p

    qui peuttre hach, quel que soit ltiquetage des

  • 8/6/2019 Disc Rim in Ante

    220/271

    220

    pointsAucun ensemble de h+1 points ne peut tre

    hach par cet ensemble de fonctions.

    Quelques ex em ples

    La VC dimension de lensemble deshyperplans de R p est p+1

    Hyper-rectangles de Rp

    parallles aux axesh=2p

  • 8/6/2019 Disc Rim in Ante

    221/271

    221

    (V.Cherkassky, F.Mulier, 1998)

    Sphres de R p

    h=p+1

    Mais les VC dimensions ne sont PASgales au nombre de paramtres libres

    La VC dimension de lensemble de fonctionsf(x,w) = sign (sin (w.x) ),c < x < 1, c>0,

    avec un paramtre libre w est infinie.

  • 8/6/2019 Disc Rim in Ante

    222/271

    222

    Hastie et al. 2001

    Deux c as im por t ant s : a) rg ress ion r idge

    La VC dimension de lensemble desindicatrices linaires ( )

    ( )1

    ( , ) 1p

    i ii f X sign w x

    X R

    == +

    w

    1

  • 8/6/2019 Disc Rim in Ante

    223/271

    223

    satisfaisant la condition :dpend de Cet peut prendre toute valeur de0 p+1.

    2 2

    1

    1p

    iiW w C==

    2

    2min ; 1

    Rh ent p

    C

    +

    b) L hyperp lan de m a rge m ax im ale

    M lt t

  • 8/6/2019 Disc Rim in Ante

    224/271

    224

    Mme rsultat:

    2

    2min ; 1

    R

    h ent pC

    +

    Thorm e de Vapnik :

    Q : Quelles sont les conditions ncessaires etsuffisantes pour assurer la consistence ?

    R : Le processus dapprentissage est consistent si etseulement si la famille de modles a une VCdi i fi i h

  • 8/6/2019 Disc Rim in Ante

    225/271

    225

    dimension finie h La VC dimension finie ne garantit pas seulement la

    gnralisation, mais cest LA SEULE MANIERE qui

    permet la gnralisation de se produire.

    Vi t esse de convergenc e

    Erreur en gnralisation

    % erreur

  • 8/6/2019 Disc Rim in Ante

    226/271

    226

    Taille de lens. dapprentissage: n

    Intervalle

    Erreur en gnralisation

    Erreur dapprentissage

    Vit esse de c onve rgenc e (2 )

    Q : Quelle est la diffrence entre les erreursdapprentissage et de test pour une taille

    donne de lensemble dapprentissage ?R : La diffrence entre les erreurs

  • 8/6/2019 Disc Rim in Ante

    227/271

    227

    a d e ce e e es e eu s

    dapprentissage et de test dpend du rapportentre la VC dimension, h, et la taille delensemble dapprentissage, n.

    Ingal i t de Vapnik

    Avec la probabilit 1- :

    ( )( )ln 2 1 ln ( 4)h n hR R

    + < +

  • 8/6/2019 Disc Rim in Ante

    228/271

    228

    ne fait pas intervenir p mais la VC dimension hNe fait pas intervenir la distribution de probabilit P

    empR R

    n

    < +

    n fix

  • 8/6/2019 Disc Rim in Ante

    229/271

    229

    De Gui l laum e dOc k ham Vapnik

    Guillaume dOccam (1285 - 3 avril 1349), dit le docteurinvincible franciscain philosophe logicien et thologienscolastique.Etudes Oxford, puis Paris. Enseigne quelques annes

    Oxford.Accus d'hrsie, convoqu pour sexpliquer Avignon,excommuni , se rfugie Munich, la cour de Louis de

  • 8/6/2019 Disc Rim in Ante

    230/271

    230

    wikipedia

    Bavire, lui-mme excommuni. Meurt de l'pidmie de

    peste noire.A inspir le personnage du moine franciscain Guillaume deBaskerville dans le Nom de la rose d'Umberto Eco.Premier jour, vpres : il ne faut pas multiplier lesexplications et les causes sans qu'on en ait une strictencessit.

    Le rasoi r d Oc k ham ou p r inc ipe de parc imon ie

    Principe de raisonnement attribu Ockham : Les multiples nedoivent pas tre utiliss sans ncessit (pluralitas non estponenda sine necessitate).

    Rasoir d'Ockham et science moderne

    Le rasoir d'Ockham n'est malheureusement pas un outil trs incisif car il ne donne pas de

  • 8/6/2019 Disc Rim in Ante

    231/271

    231

    Le rasoir d Ockham n est malheureusement pas un outil trs incisif, car il ne donne pas de

    principe opratoire clair pour distinguer entre les hypothses en fonction de leurcomplexit : ce n'est que dans le cas o deux hypothses ont la mme vraisemblancequ'on favorisera l'hypothse la plus simple (ou parcimonieuse). Il s'agit en fait d'uneapplication directe du thorme de Bayes o l'hypothse la plus simple a reu laprobabilit a priori la plus forte. Des avatars modernes du rasoir sont les mesures

    d'information du type AIC, BIC o des mesures de pnalit de la complexit sontintroduites dans la log-vraisemblance.

    wikipedia

    De Gui l laum e dOc k ham Vapnik

    Si deux familles de modles expliquent les donnesavec une qualit gale, alors la famille qui a la plus

    faible VC dimension doit tre prfre.

  • 8/6/2019 Disc Rim in Ante

    232/271

    232

    1re dcouverte: La VC (Vapnik-Chervonenkis) dimension mesure lacomplexit dune famille de modles.

    De Gui l laum e d Oc k ham Vapnik

    Si deux modles expliquent les donnes avec unequalit gale, alors celui qui provient dune

    famille plus faible VC dimension a une meilleureperformance en gnralisation.

  • 8/6/2019 Disc Rim in Ante

    233/271

    233

    2me dcouverte: La VC dimension peut tre relie des rsultats degnralisation (rsultats sur de nouvelles donnes).

    De Gui l laum e d Oc k ham Vapnik

    Pour construire le meilleur modle partir de donnes, ilfaut tenter doptimiser la fois sa performance sur

    lensemble dapprentissage,et sa performance de gnralisation tire de la VCdimension : pour ce faire, il faut parcourir une suite defamilles dapplications pour y construire ce modle

  • 8/6/2019 Disc Rim in Ante

    234/271

    234

    familles d applications pour y construire ce modle

    3me dcouverte: Au lieu dobserver des diffrences entre desmodles, mieux vaut les contrler..

    Cont r le de la Capac i t de Gnra l isat ion

    Risque = Risque dApprentissage +

    Intervalle de Confiance Minimiser la seule erreur dapprentissage ne

    donnera pas une esprance derreur faible

    ( )( )emp

    ln 2 1 ln ( 4)h n hR R

    n

    + < +

  • 8/6/2019 Disc Rim in Ante

    235/271

    235

    donnera pas une esprance d erreur faible(une bonne gnralisation)

    minimiser la somme de lerreur

    dapprentissage et de lintervalle deconfiance.

    Pr inc ipe de m in im isat ion st ruc t ure du r isque (SRM) (1)

    lorsque n/h est faible (h trop grand), ledeuxime terme est grand

    ( )( )

    L

    qhLhwEwR

    ln12ln)()(

    ++