la regression dans la pratique

190

Upload: fatima-chelihi

Post on 07-Nov-2015

5 views

Category:

Documents


2 download

DESCRIPTION

regression simple et multiple

TRANSCRIPT

  • Ricco Rakotomalala

    Pratique de la Rgression Linaire Multiple

    Diagnostic et slection de variables

    Version 2.1

    Universit Lumire Lyon 2

    Page: 1 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

  • Page: 2 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

  • Avant-propos

    Ce support dcrit quelques techniques statistiques destines valider et amliorer les rsultats fournis

    par la rgression linaire multiple. Il correspond la dernire partie des enseignements d'conomtrie (je

    prfre l'appellation Rgression Linaire Multiple) en L3-IDS de la Facult de Sciences Economiques de

    l'Universit Lyon 2 (http://dis.univ-lyon2.fr/).

    Ce support se veut avant tout oprationnel. Il se concentre sur les principales formules et leur mise

    en oeuvre pratique avec un tableur. Autant que possible nous ferons le parallle avec les rsultats fournis

    par les logiciels de statistique. Le bien-fond des tests, la pertinence des hypothses opposer sont peu

    ou prou discutes. Nous invitons le lecteur dsireux d'approfondir les bases de la rgression consulter

    le document "conomtrie - Rgression Linaire Simple et Multiple" ([18]), accessible sur ma page de

    fascicules (http://eric.univ-lyon2.fr/~ricco/cours/cours_econometrie.html).

    Un document ne vient jamais du nant. Pour laborer ce support, je me suis appuy sur direntes

    rfrences, des ouvrages disais-je plus tt, mais aussi des ressources en ligne qui sont de plus en plus

    prsents aujourd'hui dans la diusion de la connaissance.

    Les seuls bmols par rapport ces documents sont (1) le doute que l'on pourrait mettre sur l'exac-

    titude des informations prodigues, mais la plupart de leurs auteurs sont des enseignants-chercheurs qui

    font srieusement leur travail ; (2) une disponibilit plus ou moins alatoire, au gr des migrations des

    serveurs et de la volont de leurs auteurs, auquel il est trs dicile de remdier

    1

    ; (3) les informations sont

    disparates, avec une absence d'organisation, la dirence des ouvrages qui suivent une ligne pdagogique

    trs structurante.

    Nanmoins, ces ressources en ligne renouvellent profondment le panorama des documents disponibles

    pour les enseignements. La gratuit n'est pas le moindre de leurs atouts.

    Ce support n'engage que son auteur. Toutes suggestions ou commentaires qui peuvent en amliorer

    le contenu sont le bienvenu.

    1. Je fais systmatiquement des copies... mais je me vois trs mal les diuser moi mme via ma page web.

    Page: 3 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

  • Page: 4 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

  • Table des matires

    Partie I La rgression dans la pratique

    1 tude des rsidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

    1.1 Diagnostic graphique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

    1.1.1 Graphiques des rsidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

    1.1.2 Graphiques des rsidus pour les donnes CONSO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

    1.2 Tester le caractre alatoire des erreurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

    1.2.1 Test de Durbin-Watson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

    1.2.2 Test des squences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

    1.3 Test de normalit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

    1.3.1 Graphique Q-Q plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

    1.3.2 Test de symtrie de la distribution des rsidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

    1.3.3 Test de Jarque-Bera . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

    1.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

    2 Points aberrants et points inuents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

    2.1 Points aberrants : dtection univarie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

    2.2 Dtection multivarie sur les exognes : le levier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

    2.3 Rsidu standardis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

    2.4 Rsidu studentis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

    2.5 Autres indicateurs usuels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

    2.5.1 DFFITS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

    2.5.2 Distance de COOK . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

    2.5.3 DFBETAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

    2.5.4 COVRATIO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

    2.6 Bilan et traitement des donnes atypiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

    3 Colinarit et slection de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

    3.1 Dtection de la colinarit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

    3.1.1 Consquences de la colinarit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

    Page: 5 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

  • 6 Table des matires

    3.1.2 Illustration de l'eet nocif de la colinarit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

    3.1.3 Quelques techniques de dtection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

    3.2 Traitement de la colinarit - Slection de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

    3.2.1 Slection par optimisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

    3.2.2 Techniques bases sur le F partiel de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

    3.3 Rgression stagewise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

    3.4 Coecient de corrlation partielle et slection de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

    3.4.1 Coecient de corrlation brute . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

    3.4.2 Coecient de corrlation partielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

    3.4.3 Calcul de la corrlation partielle d'ordre suprieur 1 . . . . . . . . . . . . . . . . . . . . . . . . . 70

    3.4.4 Procdure de slection fonde sur la corrlation partielle . . . . . . . . . . . . . . . . . . . . . . . 72

    3.4.5 quivalence avec la slection fonde sur le t de Student de la rgression . . . . . . . . . 73

    3.5 Les rgressions partielles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

    3.5.1 Principe des rgression partielles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

    3.5.2 Traitement des donnes CONSO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

    3.6 Rgressions croises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

    3.6.1 Principe des rgressions croises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

    3.6.2 Rgressions croises sur les donnes CONSO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

    3.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

    4 Rgression sur des exognes qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

    4.1 Analyse de variance 1 facteur et transposition la rgression . . . . . . . . . . . . . . . . . . . . . . . 83

    4.1.1 Un exemple introductif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

    4.1.2 ANOVA 1 facteur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

    4.2 Inadquation du codage disjonctif complet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

    4.2.1 Codage disjonctif complet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

    4.2.2 Rgression sans constante et lecture des coecients . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

    4.2.3 Vers des solutions plus gnrales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

    4.3 Codage "Cornered eect" de l'exogne qualitative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

    4.3.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

    4.3.2 Lecture des rsultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

    4.3.3 Application aux donnes LOYER . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

    4.4 Comparaisons entres groupes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

    4.4.1 Comparaisons avec le groupe de rfrence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

    4.4.2 Comparaisons entre deux groupes quelconques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

    4.5 Rgression avec plusieurs explicatives qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

    4.5.1 Rgression sur les indicatrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

    4.5.2 Prise en compte des interactions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

    4.5.3 Ajout de nouvelles indicatrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

    Page: 6 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

  • Table des matires 7

    4.5.4 Tester la signicativit de l'interaction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

    4.5.5 Interprtation des coecients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

    4.6 Rgression avec un mix d'explicatives qualitatives et quantitatives . . . . . . . . . . . . . . . . . . . . 108

    4.6.1 Interprtation des coecients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

    4.6.2 Prise en compte des interactions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

    4.6.3 Lien avec la comparaison de rgressions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112

    4.7 Slection de variables en prsence d'exognes qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

    4.7.1 Traitement group des indicatrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

    4.7.2 Traitement individuel des indicatrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118

    4.8 Autres stratgies de codage d'une exogne qualitative nominale . . . . . . . . . . . . . . . . . . . . . . . 120

    4.8.1 Le codage "centered eect" d'une exogne qualitative nominale . . . . . . . . . . . . . . . . 120

    4.8.2 Le codage "contrast eect" d'une exogne qualitative . . . . . . . . . . . . . . . . . . . . . . . . . 123

    4.9 Codage d'une exogne qualitative ordinale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126

    4.9.1 Un exemple introductif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126

    4.9.2 (In)adquation du codage pour variable qualitative nominale . . . . . . . . . . . . . . . . . . . 128

    4.9.3 Utilisation du codage cumulatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130

    4.9.4 Codage "backward dierence". . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132

    4.9.5 Codage "forward dierence" . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

    4.9.6 Codage "Helmert" . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134

    4.10 Codage polynomial orthogonal d'une exogne qualitative ordinale . . . . . . . . . . . . . . . . . . . . . 136

    4.10.1 Construction du codage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136

    4.10.2 Rgression sur les variables recodes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137

    4.11 Les erreurs ne pas commettre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139

    4.11.1 Codage numrique d'une variable discrte nominale . . . . . . . . . . . . . . . . . . . . . . . . . . . 139

    4.11.2 Codage numrique d'une variable discrte ordinale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139

    4.12 Conclusion pour le traitement des exognes qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140

    5 Rupture de structure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141

    5.1 Rgression contrainte et rgression non-contrainte - Test de Chow . . . . . . . . . . . . . . . . . . . . 143

    5.1.1 Formulation et test statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143

    5.1.2 Un exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145

    5.2 Dtecter la nature de la rupture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146

    5.2.1 Tester la stabilit de la constante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146

    5.2.2 Tester la stabilit du coecient d'une des exognes . . . . . . . . . . . . . . . . . . . . . . . . . . . 148

    5.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150

    6 Dtection et traitement de la non linarit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153

    6.1 Non linarit dans la rgression simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153

    6.1.1 Linarisation par transformation de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153

    6.1.2 Dtecter numriquement la non-linarit dans la rgression simple . . . . . . . . . . . . . . 155

    Page: 7 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

  • 8 Table des matires

    6.1.3 Tester l'adquation d'une spcication . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160

    6.2 Non linarit dans la rgression multiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162

    6.2.1 Lecture des rsidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162

    6.2.2 Rsidus partiels et rsidus partiels augments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163

    6.2.3 Un exemple "raliste" : traitement des donnes "mtcars" sous R . . . . . . . . . . . . . . . . 166

    A Table de Durbin Watson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173

    B Gestion des versions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175

    C Fichiers associs ce support . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177

    D Tutoriels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179

    Littrature . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181

    Page: 8 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

  • Partie I

    La rgression dans la pratique

    Page: 1 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

  • Page: 2 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

  • 3La rgression dans la pratique

    Le vritable travail du statisticien commence aprs la premire mise en oeuvre de la rgression linaire

    multiple sur un chier de donnes. Aprs ces calculs, qu'on lance toujours "pour voir", il faut se poser la

    question de la pertinence des rsultats, vrier le rle de chaque variable, interprter les coecients, etc.

    En schmatisant, la modlisation statistique passe par plusieurs tapes

    2

    : proposer une solution (une

    conguration de l'quation de rgression), estimer les paramtres, diagnostiquer, comprendre les rsultats,

    rchir une formulation concurrente, etc.

    Dans ce support, nous mettrons l'accent, sans se limiter ces points, sur deux aspects de ce processus :

    le diagnostic de la rgression l'aide de l'analyse des rsidus, il peut tre ralis avec des tests statistiques,

    mais aussi avec des outils graphiques simples ; l'amlioration du modle l'aide de la slection de variables,

    elle permet entre autres de se dgager du pige de la colinarit entre les variables exognes.

    Notations

    Le point de dpart est l'estimation des paramtres d'une rgression mettant en jeu une variable

    endogne Y et p variables exognes Xj . Nous disposons de n observations.

    L'quation de rgression s'crit :

    yi = a0 + a1xi;1 + + apxi;p + "i (0.1)

    o yi est la i-me observation de la variable Y ; xi;j est la i-me observation de la j-me variable ; "i

    est l'erreur du modle, il rsume les informations manquantes qui permettrait d'expliquer linairement

    les valeurs de Y l'aide des p variables Xj .

    Nous devons estimer (p+ 1) paramtres. En adoptant une criture matricielle :

    Y = Xa+ " (0.2)

    les dimensions de matrices sont respectivement :

    Y ! (n; 1) X ! (n; p+ 1) a! (p+ 1; 1) "! (n; 1)La matrice X de taille (n; p + 1) contient l'ensemble des observations sur les exognes, avec une

    premire colonne forme par la valeur 1 indiquant que l'on intgre la constante a0 dans l'quation.

    2. http://www.itl.nist.gov/div898/handbook/pmd/section4/pmd41.htm

    Page: 3 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

  • 4 0BBBBB@1 x1;1 x1;p1 x2;1 x2;p.

    .

    .

    1 xn;1 xn;p

    1CCCCCARemarque 1 (Rgression sans constante). Dans certains problmes, la rgression sans constante peut se

    justier. Il y a p paramtres estimer dans la rgression. On peut aussi voir la rgression sans constante

    comme une rgression avec la contrainte a0 = 0. Il faut simplement faire attention aux degrs de libert

    pour les tests. Il faut noter galement que le coecient de dtermination R2 n'est plus interprtable en

    termes de dcomposition de la variance, il peut prendre des valeurs ngatives d'ailleurs.

    Donnes

    Autant que possible, nous utiliserons le mme chier de donnes pour illustrer les dirents chapitres

    de ce support. On veut expliquer la consommation en L/100km de vhicules partir de p = 4 variables :

    le prix, la cylindre, la puissance et le poids (Figure 0.1). Nous disposons de n = 31 observations.

    Nous connaissons la marque et le modle de chaque vhicule, cela nous permettra d'aner certains

    commentaires.

    Fig. 0.1. Tableau de donnes CONSO - Consommation des vhicules

    Nous eectuons sous TANAGRA une premire rgression sur l'ensemble des exognes. Nous en extra-

    yons quelques informations importantes (Figure 0.2) :

    Page: 4 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

  • 5 la rgression semble de trs bonne qualit puisque que nous expliquons R2 = 95:45% de la variance

    de l'endogne ;

    impression conrme par le test de Fisher, F = 136:54 avec une p-value < 0:000001 : le modle est

    globalement trs signicatif ;

    mis part la variable cylindre, toutes les variables sont signicatives au risque de 10%.

    Fig. 0.2. Rsultat de la rgression sur les donnes CONSO (cf. Donnes, gure 0.1)

    La mme rgression sous EXCEL donne exactement les mmes rsultats (Figure 0.3)

    3

    . Seul le mode de

    prsentation des rsultats est un peu dirent. Nous avons calcul dans la foule la prdiction ponctuelle

    y^i et les rsidus "^i = yi y^i de la rgression.

    Remarque 2 (Interprtation des coecients). D'ores et dj, sans trop renter dans les dtails, on note des

    bizarreries dans le rle des variables. Que le prix et la consommation soient d'une certaine manire lis,

    on peut le comprendre. En revanche, imaginer que le prix inue directement sur la consommation parat

    trange. Cela voudrait dire qu'en diminuant articiellement le prix d'un vhicule, on pourrait diminuer

    la consommation. Concernant la cylindre, la taille du moteur, on s'tonne quand mme qu'elle ne joue

    aucun rle sur la consommation. Cela voudrait dire qu'on peut augmenter indniment la taille du moteur

    sans que cela ne soit prjudiciable la consommation de carburant... Nous reviendrons plus en dtail sur

    la slection des variables et l'interprtation des rsultats plus loin.

    3. Fonction DROITEREG(...)

    Page: 5 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

  • 6Fig. 0.3. Rsultat de la rgression sous EXCEL

    Logiciels

    Nous utiliserons principalement le tableur EXCEL. Mais plusieurs reprises nous ferons appel des

    logiciels gratuits tels que TANAGRA

    4

    , REGRESS

    5

    , LAZSTATS/OPENSTAT

    6

    et R

    7

    ; et des logiciels

    commerciaux tels que SPSS

    8

    et STATISTICA

    9

    . Qu'importe le logiciel en ralit, le plus important est

    de savoir lire correctement les sorties des outils statistiques.

    4. TANAGRA : Un logiciel gratuit de Data Mining pour l'enseignement et la recherche - http://eric.

    univ-lyon2.fr/~ricco/tanagra/fr/tanagra.html

    5. http://tutoriels-data-mining.blogspot.com/2011/05/regress-dans-la-distribution-sipina.html

    6. http://tutoriels-data-mining.blogspot.com/2011/05/regression-avec-le-logiciel-lazstats.html

    7. The R Project for Statistical Computing - http://www.r-project.org/

    8. Pour une lecture dtaille des rsultats fournis par SPSS, voir http://www2.chass.ncsu.edu/garson/PA765/

    regress.htm

    9. Pour une lecture des rsultats de STATISTICA, voir http://www.statsoft.com/textbook/stmulreg.html

    Page: 6 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

  • 1tude des rsidus

    L'infrence statistique relative la rgression (estimation par intervalle des coecients, tests d'hypo-

    thses, etc.) repose principalement sur les hypothses lies au terme d'erreur " qui rsume les informations

    absentes du modle. Il importe donc que l'on vrie ces hypothses an de pouvoir interprter les rsul-

    tats

    1

    .

    Rappelons brivement les hypothses lies au terme d'erreur :

    sa distribution doit tre symtrique, plus prcisment elle suit une loi normale ;

    sa variance est constante ;

    les erreurs "i (i = 1; : : : ; n) sont indpendantes.

    Pour inspecter ces hypothses, nous disposons des erreurs observes, les rsidus, "^i produites par la

    dirence entre les valeurs observes de l'endogne yi et les prdictions ponctuelles de la rgression y^i

    "^i = yi y^i (1.1)

    avec y^i = a^0 + a^1xi;1 + + a^pxi;p

    Remarque 3 (Moyenne des rsidus). Dans un modle avec constante, la moyenne des rsidus

    ^" = 1nP

    i "^i

    est mcaniquement gale zro. Ce rsultat ne prjuge donc en rien de la pertinence de la rgression. En

    revanche, si elle est dirente de 0, cela indique coup sr des calculs errons. Ce commentaire n'a pas

    lieu d'tre pour une rgression sans constante.

    1.1 Diagnostic graphique

    1.1.1 Graphiques des rsidus

    Aussi simpliste qu'il puisse paratre, le diagnostic graphique est pourtant un outil puissant pour

    valider une rgression. Il fournit un nombre important d'informations que les indicateurs statistiques

    1. Voir Dodge, pages 113 120.

    Page: 7 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

  • 8 1 tude des rsidus

    apprhendent mal. Toute analyse de rgression devrait tre immdiatement suivie des graphiques des

    rsidus observs... car il y en a plusieurs.

    Avant d'numrer les dirents types de graphiques, donnons quelques principes gnraux (Figure

    1.1) :

    les rsidus sont ports en ordonne ;

    les points doivent tre uniformment rpartis au hasard dans un intervalle, que nous prciserons

    plus loin

    2

    , sur l'ordonne ;

    aucun point ne doit se dmarquer ostensiblement des autres ;

    on ne doit pas voir apparatre une forme de rgularit dans le nuage de points.

    Le type du graphique dpend de l'information que nous portons en abcisse.

    Rsidus en fonction de l'endogne Y

    Ce type de graphique permet de se rendre compte de la qualit de la rgression. Les rsidus "^i doivent

    tre rpartis alatoirement autour de la valeur 0, ils ne doivent pas avoir tendance prendre des valeurs

    direntes selon les valeurs de Y . On cherche surtout voir si la prdiction est d'gale qualit sur tout

    le domaine de valeurs de Y (Figure 1.1). Si pour une valeur ou une plage de valeur de Y , les rsidus

    s'cartent visiblement, il faut s'inquiter car cela indique que la valeur yi a t mal reconstitue par le

    modle.

    Fig. 1.1. Graphique "normal" des rsidus. Endogne vs. Rsidus.

    Rsidus en fonction de chaque exogne Xj

    Il doit tre produit pour chaque variable exogne. L'ide est de dtecter s'il y a une relation quel-

    conque entre le terme d'erreur et les exognes. Rappelons que les variables exognes et les erreurs sont

    indpendantes par hypothse (covariance nulle), cela doit tre conrm visuellement.

    2. Voir chapitre 2 sur les points atypiques

    Page: 8 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

  • 1.1 Diagnostic graphique 9

    Graphique de rsidus pour les donnes longitudinales

    Dans le cas particulier des sries temporelles, nous pouvons produire un graphique supplmentaire en

    portant en abcisse la variable temps. Elle permet d'ordonner les valeurs d'une autre manire. Il est alors

    possible de dtecter une rupture de structure associe une date particulire (ex. guerre, crise politique,

    choc conomique, etc.).

    Cas pathologiques

    Il est dicile de prtendre l'exhaustivit, nous nous contenterons de caractriser quelques situations

    singulires qui doivent attirer notre attention.

    Points atypiques et points inuents

    Par dnition, un point atypique, on parle aussi de point aberrant, est une observation qui s'carte

    rsolument des autres. Cela peut tre d une erreur de recueil des donnes, cela peut aussi correspondre

    un individu qui n'appartient pas la population tudie. Dans le graphique de rsidus, il s'agit de

    points loigns des autres, que la variable en abcisse soit l'endogne ou une des exognes (Figure 1.2).

    Fig. 1.2. Un point prsente une valeur atypique pour une des exognes. De plus, elle est mal reconstitue par la

    rgression (le rsidu est lev).

    Les points inuents sont des observations qui psent exagrment sur les rsultats de la rgression.

    On peut les distinguer de plusieurs manires : ils sont "isols" des autres points, on constate alors que

    la distribution des rsidus est asymtrique (Figure 1.3) ; ils correspondent des valeurs extrmes des

    variables, en cela ils se rapprochent des points atypiques.

    Bien souvent la distinction entre les points atypiques et les points inuents est dicile. Elle est assez

    mal comprise : un point peut tre inuent sans tre atypique, il peut tre atypique sans tre inuent.

    La meilleure manire de le circonscrire est de recalculer les coecients de la rgression en cartant le

    point : si les rsultats dirent signicativement, en termes de prdiction ou terme de dirence entre les

    Page: 9 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

  • 10 1 tude des rsidus

    coecients estims, le point est inuent. Cela est dicilement discernable dans un graphique des rsidus,

    il est plus appropri de passer par des calculs que nous dtaillerons dans le chapitre consacr la dtection

    des points atypiques et inuents (Chapitre 2).

    Asymtrie des rsidus

    Signe que la distribution des rsidus ne suit pas la loi normale, cette situation (Figure 1.3) survient

    lorsque certains points se dmarquent des autres, ils sont mal reconstitus par la rgression. La

    moyenne des rsidus est mcaniquement gale 0, mais la dispersion est trs ingale de part et

    d'autre de cette valeur.

    lorsque les donnes sont en ralit forms par plusieurs populations (ex. en mdecine, eectuer une

    rgression en mlangeant les hommes et les femmes, sachant qu'ils ragissent de manire dirente

    la maladie tudie).

    lorsqu'on est face un problme de spcication, une variable exogne importante manque.

    etc.

    Fig. 1.3. La distribution des rsidus est asymtrique.

    Non-linarit

    Dans ce cas, la relation tudie est en ralit non-linaire, elle ne peut pas tre modlise l'aide de la

    rgression linaire multiple. Les rsidus apparaissent alors en "blocs" au-dessus (prdiction sous-estime)

    ou en-dessous (prdiction sur-estim) de la valeur 0 (Figure 1.4). On peut y remdier en ajoutant une

    variable transforme dans le modle (par ex. en passant une des variables au carr, ou en utilisant une

    transformation logarithmique, etc.). On peut aussi passer une rgression non-linaire (ex. rseaux de

    neurones, etc.).

    Rupture de structure

    Dans certains cas, il arrive que la relation entre les exognes et l'endogne ne soit pas la mme sur

    tout le domaine de dnition : on parle de rupture de structure. Il y a en ralit deux ou plusieurs

    Page: 10 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

  • 1.1 Diagnostic graphique 11

    Fig. 1.4. La relation modliser est non-linaire

    rgressions mener. Ils peuvent tre totalement indpendants. On peut aussi imposer que les coecients

    de quelques variables soient identiques d'une rgression l'autre. L'erreur dans ce cas est d'imposer une

    seule rgression pour tous les groupes d'individus. Nous obtenons alors des rsidus en "blocs", qui peuvent

    tre assez proches de ce que l'on obtient lorsque les relations sont non-linaires (Figure 1.4), ils indiquent

    en tous les cas qu'il y a bien des groupes distincts que l'on ne peut pas modliser de manire identique

    dans la population (Figure 1.5).

    Fig. 1.5. Rsidus caractristiques d'une rupture de structure

    Htroscdasticit

    Souvent associe une des exognes en abcisse, ce type de graphique (Figure 1.6) indique que la

    variance des rsidus n'est pas constante, et qu'elle dpend d'une des exognes. Il existe des tests spciques

    pour dtecter l'htroscdasticit (Bourbonnais, pages 130 143).

    Page: 11 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

  • 12 1 tude des rsidus

    Fig. 1.6. La variance des rsidus augmente avec les valeurs d'une des exognes

    Autocorrlation des rsidus

    Ce problme est spcique aux donnes longitudinales. Dans le graphique des rsidus, nous plaons

    des dates en abcisse, nous essayons de dtecter si les erreurs suivent un processus particulier au cours du

    temps. L'autocorrlation peut tre positive (des "blocs" de rsidus sont positifs ou ngatifs, gure 1.8)

    ou ngative (les rsidus sont alternativement positifs et ngatifs, gure 1.7).

    Fig. 1.7. Autocorrlation ngative des rsidus

    1.1.2 Graphiques des rsidus pour les donnes CONSO

    Nous avons lanc la rgression sur les donnes CONSO (Figures 0.2 et 0.3). Nous construisons les

    dirents graphiques des rsidus en les croisant avec l'endogne et les exognes (Figure 1.9). Nous avons

    utilis le logiciel R.

    Une information, essentiellement, saute aux yeux : 2 points semblent se dmarquer systmatiquement

    sur l'endogne Y , le prix, la cylindre et la puissance. Pourtant ils ne semblent pas particulirement mal

    restitus par la rgression puisque le rsidu (erreur de prdiction) ne prend pas des valeurs anormalement

    Page: 12 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

  • 1.2 Tester le caractre alatoire des erreurs 13

    Fig. 1.8. Autocorrlation positive des rsidus

    leves (en valeur absolue) sur ces observations. Nous dtaillerons l'analyse de ces vhicules dans le

    chapitre consacr l'analyse des points atypiques et inuents.

    1.2 Tester le caractre alatoire des erreurs

    Lorsque nous travaillons avec des donnes longitudinales, la date dnit naturellement l'ordonnance-

    ment des observations. Il est important de vrier que les rsidus sont produits de manire totalement

    alatoire. Si l'on conclut au rejet de cette hypothse, les rsidus sont produits par un processus quel-

    conque, l'hypothse d'indpendance des erreurs est rejete, la mthode des moindres carrs ordinaires

    n'est plus BLUE

    3

    : elle est certes non-biaise, mais elle n'est plus variance minimale, et la matrice

    de variance covariance n'est plus estime de manire convergente, les tests de signicativit ne sont plus

    oprants.

    La dtection de l'autocorrlation des rsidus peut s'eectuer visuellement l'aide du graphique des

    rsidus (Figures 1.8 et 1.7). Elle peut galement s'appuyer sur des techniques statistiques. La plus connue

    est certainement le test de Durbin-Watson qui dtecte une forme particulire de l'autocorrlation. Nous

    pouvons aussi utiliser des tests plus gnraux comme le test des squences de Wald.

    Les causes de l'autocorrlation des rsidus peuvent tre multiples. Elles se rapprochent des problmes

    de spcications l'origine des violations des hypothses (Bourbonnais, page 114) : une variable exogne

    importante est absente de l'quation de rgression ; la liaison modlise n'est pas linaire ; les donnes ont

    t manipules (ex. moyenne mobile, reconstitue par interpolation, etc.), c'est souvent le cas lorsqu'elles

    sont produites par des observatoires statistiques.

    Remarque 4 (Test l'autocorrlation pour les donnes transversales). Tester l'autocorrlation des rsidus

    n'a aucun sens sur les donnes transversales. En eet, il n'y a pas d'ordonnancement naturel des obser-

    vations. Il sera toujours possible de les mlanger diremment de manire ce que les rsidus ne suivent

    3. Best Linear Unbiased Estimator

    Page: 13 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

  • 14 1 tude des rsidus

    Fig. 1.9. Graphiques des rsidus - Donnes CONSO

    aucun processus particulier. Il est nanmoins possible de retrouver un agencement particulier des rsidus

    en les triant selon l'endogne par exemple. Mais il faut rester trs prudent par rapport aux tests, le plus

    sage est de s'appuyer sur les techniques graphiques simples pour dtecter d'ventuelles anomalies (ex.

    Page: 14 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

  • 1.2 Tester le caractre alatoire des erreurs 15

    les valeurs ngatives des rsidus sont regroups sur les petites valeurs de Y , les valeurs positives sur les

    grandes valeurs de Y : manifestement il y a un problme dans le modle...).

    1.2.1 Test de Durbin-Watson

    Principe

    Le test de Durbin-Watson permet de dtecter une autocorrlation de la forme :

    "i = : "i1 + i; avec i N (0; ) (1.2)

    Le test d'hypothses s'crit :

    H0 : = 0

    H1 : 6= 0

    On utilise la statistique de Durbin-Watson

    d =

    Pni=2 (ei ei1)2Pn

    i=1 e2i

    (1.3)

    Par construction, 0 d 4, d = 2 lorsque ^ = 0. Elle a t tabule par Durbin et Watson (AnnexesA) pour direntes tailles d'chantillon n et de nombre de vraies variables explicatives k (sans compter

    la constante). La rgle de dcision n'est pas usuelle, nous pouvons la rsumer de la manire suivante pour

    un test bilatral (Bourbonnais, pages 115 et 116) :

    Acceptation de H0 si dU < d < 4 dU Rejet de H0 si d < dL ( > 0) ou d > 4 dL ( < 0) Incertitude si dL < d < dU ou 4 dU < d < 4 dL

    Le test de Durbin-Watson est assez limit. Il ne teste que les autocorrlation des rsidus d'ordre 1.

    De plus, son utilisation est encadre par des conditions draconiennes (Johnston, page 189) :

    la rgression doit comporter un terme constant ;

    les variables X sont certaines (non-stochastiques), en particulier elles ne doivent pas comporter

    l'endogne retarde

    4

    .

    Remarque 5 (Autres formes d'autocorrlation des rsidus). D'autres tests ont t mis au point pour valuer

    d'autres formes de relation entre les rsidus (ex. processus auto-rgressif d'ordre 4 pour les donnes

    trimestrielles, etc. Johnston, pages 180 200).

    4. On doit utiliser une version modie du test de Durbin (Johnston, page 190)

    Page: 15 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

  • 16 1 tude des rsidus

    Exemple : Prdiction de la consommation de textile

    Pour illustrer la mise en oeuvre du test de Durbin-Watson, nous reprenons un exemple extrait de

    l'ouvrage de Theil (1971)

    5

    . L'objectif est de prdire la consommation de textile partir du revenu par

    tte des personnes et du prix. Nous disposons d'observations sur 17 annes partir de 1923 (Figure 1.10).

    Fig. 1.10. Donnes de Theil sur le textile

    Fig. 1.11. Test de Durbin-Watson sur les donnes de Theil

    L'quation de rgression mettre en place est

    yi = a0 + a1xi;1 + a2xi;2 + "i , i = 1; : : : ; 17

    o y est la consommation en textile, x1 le prix du textile et x2 le revenu par habitant.

    5. Theil, H., Principles of Econometrics, Wiley, 1971. Page 102. L'exemple et la description des rsultats du

    test sont accessibles sur le site http://shazam.econ.ubc.ca/intro/dwdist.htm

    Page: 16 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

  • 1.2 Tester le caractre alatoire des erreurs 17

    Les calculs sont organiss comme suit (Figure 1.11) :

    1. A l'aide de la fonction DROITEREG() d'EXCEL, nous obtenons les coecients a0 = 130:71, a1 =

    1:38 et a2 = 1:06.2. Nous formons la prdiction y^i avec ces coecients.

    3. Nous calculons l'erreur de prdiction, le rsidu de la rgression "^i = ei = yi y^i.4. Nous pouvons alors calculer la statistique de Durbin-Watson. En formant le numrateur 874:66 et le

    dnominateur 433:31, nous obtenons d = 2:02.

    5. Pour un test bilatral 10%, nous rcuprons les valeurs critiques dans la table de Durbin-Watson

    (Annexes A). Pour n = 17 et k = 2, dL = 1:02 et dU = 1:54.

    6. Nous constatons que nous sommes dans la rgion dU < d < 4 dU , l'hypothse d'absence d'autocor-rlation d'ordre 1 des rsidus n'est pas contredite par les donnes ( = 0).

    1.2.2 Test des squences

    Le test des squences

    6

    , appel galement test de Wald-Wolfowitz, est plus gnrique que le prcdent.

    Il cherche dtecter toute forme de rgularit lorsque les rsidus sont ordonns selon le temps. Il dtecte

    autant les autocorrlations ngatives (les rsidus sont alternativement ngatives et positives) que les

    autocorrlations positives (des blocs de rsidus conscutifs sont positifs ou ngatifs). tant plus gnrique,

    il est bien entendu moins puissant pour des formes particulires d'autocorrlation. On lui prfrera le test

    de Durbin-Watson par exemple si on veut vrier expressment la prsence d'un processus auto-rgressif

    d'ordre 1 des rsidus.

    Principe

    Bien entendu, les donnes doivent tre ordonnes pour que le test puisse oprer. Notre rfrence est

    la date pour les donnes longitudinales.

    Le test repose sur la dtection des squences de valeurs positives '+' ou ngatives '-' des rsidus. La

    statistique du test r est le nombre total de squences dans la srie d'observations.

    Exemple 1. Si tous les rsidus ngatifs sont regroups sur les petites valeurs de Y , et inversement, les

    rsidus positifs, sur les grandes valeurs de Y , nous aurons simple r = 2 squences. C'est minemment

    suspect si l'on se rfre l'hypothse H0 selon laquelle les rsidus sont gnrs alatoirement.

    Posons n+ (resp. n) le nombre de rsidus positifs (resp. ngatifs) dans la srie des rsidus. Sous l'hy-

    pothse H0 le processus de gnration des donnes est alatoire, la statistique r suit asymptotiquement7

    une loi normale de paramtres :

    6. Voir Siegel, S., Castellan, J., Nonparametric statistics for the behavioral sciences, McGraw-Hill, 1988, pages

    58 64, section "The one-Sample runs test of randomness"

    7. Pour les petites valeurs de n+ et n, les valeurs critique de r ont t tabules. Voir par exemple Siegel-

    Castellan, Table G, page 331. Curieusement, je n'ai pas pu en trouver en ligne...

    Page: 17 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

  • 18 1 tude des rsidus

    r =2n+n

    n+ 1 (1.4)

    r =

    r(r 1)(r 2)

    n 1 (1.5)

    Nous pouvons former la statistique centre et rduite z = rrr . La rgion critique du test rejet de

    l'hypothse de gnration alatoire des rsidus s'crit :

    R:C: : jzj > u12

    o u12 est le fractile d'ordre 1 2 de la loi normale centre et rduite N (0; 1).

    Remarque 6 (Le test de squences est un test bilatral). Attention, le test des squences est bien un test

    bilatral. Des '+' et '-' alterns (r lev) sont tout aussi suspects que des blocs de '+' et '-' (r faible). Ce

    test permet autant de dtecter les autocorrlations ngatives que positives.

    Prdiction de la consommation de textile

    Fig. 1.12. Test de Wald-Wolfowitz sur les donnes de Theil

    Reprenons l'exemple de la consommation de textile (Theil, 1971), nous reproduisons les calculs l'aide

    d'un tableur (Figure 1.12) :

    1. A l'aide de la fonction DROITEREG() d'EXCEL, nous obtenons les coecients a0 = 130:71, a1 =

    1:38 et a2 = 1:06.

    Page: 18 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

  • 1.3 Test de normalit 19

    2. Nous formons la prdiction y^i avec ces coecients.

    3. Nous calculons l'erreur de prdiction, le rsidu de la rgression "^i = ei = yi y^i.4. Nous annotons avec le caractre '+' (resp. '-') les rsidus positifs (resp. ngatifs).

    5. Nous comptons le nombre de valeurs positives et ngatives, n+ = 9 et n = 8, nous vrions que

    n = n+ + n = 17.

    6. Nous pouvons calculer la moyenne et l'cart-type de la statistique de test sous l'hypothse nulle :

    r = 9:47 et r = 1:99.

    7. Nous aectons un numro chaque squence de '+' et '-', nous obtenons ainsi le nombre de squences

    r = 7.

    8. Nous calculons enn la statistique centre et rduite z = 79:471:99 = 1:24 ;9. Que nous comparons au fractile d'ordre 0:95 (pour un test bilatral 10%) de la loi normal centre

    et rduite u0:95 = 1:64.

    Nous sommes dans la rgion d'acceptation de H0. Nous pouvons conclure que les rsidus sont ind-

    pendants, ils sont gnrs par un processus purement alatoire.

    1.3 Test de normalit

    Une grande partie de l'infrence statistique (ex. test de pertinence globale de la rgression, prdiction

    par intervalle, etc.) repose sur l'hypothse de distribution normaleN (0; ") du terme d'erreur de l'quationde rgression (quation 0.1). Vrier cette hypothse semble incontournable pour obtenir des rsultats

    exacts

    8

    .

    Nous disposons des erreurs observs "^i, les rsidus de la rgression, pour valuer les caractristiques

    des erreurs thoriques "i. Cela n'est pas sans poser des problmes. En eet, si la variance de l'erreur

    est constante V ("i) = 2" , la variance du rsidu, l'erreur observe, ne l'est pas V ("^i) =

    2"(1 hii), o

    hii est lue sur la diagonale principale de la hat matrix H = X(X0X)1X 0. Et surtout, la covariance

    cov("^i; "^j) = 2"hij entre deux rsidus observs n'est pas nulle en gnral.De fait, la loi des statistiques sous H0 (normalit des erreurs) que l'on pourrait utiliser dans cette

    section sont modis, induisant galement une modication des valeurs critiques pour un mme risque .

    Comment ? Il n'y a pas vraiment de rponses tablies. Il semble nanmoins que les tests usuels restent

    valables, pour peu que l'on ait susamment d'observations (n 50) 9. Il faut surtout voir les tests comme8. Pour un tour d'horizon des consquences des violations des hypothses dans la rgression, nous conseillons

    l'excellent document de J.Ravet disponible en ligne http://homepages.ulb.ac.be/~jravet/stateco/docs/

    econometrie.pdf

    9. Cette valeur est vraiment donn comme un ordre d'ides. En ralit, le problme de l'utilisation des rsidus

    pour valuer la normalit des erreurs est souvent pass sous silence dans la littrature. Le seul ouvrage o cela

    est pos clairement est celui de Capra P., Van Cutsem B., Mthodes et modles en statistique non paramtrique

    - Expos fondamental, Dunod, Presse de l'Universit de Laval, 1988 ; pages 306 et 307

    Page: 19 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

  • 20 1 tude des rsidus

    des indicateurs supplmentaires pour valuer la rgression, il faut rellement s'inquiter si la distribution

    empirique des rsidus s'carte trs fortement de l'hypothse de normalit c.--d. avec des p-value trs

    faibles lorsque les tests sont mis en oeuvre. C'est en ce sens que nous les prsentons

    10

    .

    1.3.1 Graphique Q-Q plot

    Principe

    Il ne s'agit pas d'un test au sens statistique du terme. Le graphique Q-Q plot (quantile-quantile plot)

    est un graphique "nuage de points" qui vise confronter les quantiles de la distribution empirique et

    les quantiles d'une distribution thorique normale, de moyenne et d'cart type estims sur les valeurs

    observes. Si la distribution est compatible avec la loi normale, les points forment une droite. Dans la

    littrature francophone, ce dispositif est appel Droite de Henry.

    Remarque 7. Pour plus de dtails, nous conseillons la lecture du document en ligne http://eric.

    univ-lyon2.fr/~ricco/cours/cours/Test_Normalite.pdf, section 1.5.

    Application sur les donnes CONSO

    A partir du descriptif de notre document de rfrence, nous avons construit la Droite de Henry dans

    le tableur EXCEL (Figure 1.13). Le dtail des calculs est le suivant :

    1. Trier les rsidus "^i de manire croissante, ce sont les quantiles observs.

    2. Produire la fonction de rpartition empirique, lisse en accord avec la loi normale Fi =i0:375n+0:25

    3. Calculer les quantiles thoriques normalises zi en utilisant la fonction inverse de la loi normale centre

    rduite.

    4. En dduire les quantiles thoriques d-normalises "i = ~" zi. Si la distribution empirique cadreparfaitement avec la loi normale, les points devraient tre aligns sur la diagonale principale. Ici, pour

    simplier

    11

    , nous prenons ~" =q

    1n

    Pni=1 "^

    2i .

    Nous constatons que les points sont relativement bien aligns. Il n'y a pas d'incompatibilit manifeste

    avec une distribution normale.

    10. Pour une prsentation dtaille des tests d'adquation la loi normale d'une distribution empirique, nous

    conseillons un de nos supports accessibles en ligne http://eric.univ-lyon2.fr/~ricco/cours/cours/Test_

    Normalite.pdf. Des liens vers d'autres documents et des chiers exemples sont disponibles sur notre site de

    supports de cours http://eric.univ-lyon2.fr/~ricco/cours/supports_data_mining.html, section Statistique

    11. En toute rigueur, nous devrions utiliser l'estimateur sans biais de l'cart-type de l'erreur (^"). Mais cette

    petite entorse ne tire pas consquence dans notre procdure. Il s'agit simplement d'un changement d'chelle. Si

    les rsidus sont compatibles avec la distribution normale, les points formeront une droite que l'on utilise l'un ou

    l'autre des estimateurs.

    Page: 20 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

  • 1.3 Test de normalit 21

    Fig. 1.13. Droite de Henry sur les rsidus des MCO Donnes CONSO

    Bien souvent, on peut se contenter de ce diagnostic. Nous ragissons uniquement si l'cart avec la

    normalit est trs marque. Nanmoins, pour les puristes, nous pouvons consolider les conclusions en

    s'appuyant sur la batterie des tests de normalit. Nous nous contenterons de tests asymptotiques simples.

    1.3.2 Test de symtrie de la distribution des rsidus

    Principe du test

    Ce test est bas sur le coecient d'asymtrie

    1 =33(1.6)

    o 3 est le moment centr d'ordre 3, et l'cart-type.

    On sait que 1 est gal 0 si la distribution est normale. Le test d'hypothses s'crit de la manire

    suivante :

    H0 : " suit une loi normale, par consquent 1 = 0

    H1 : " ne suit pas une loi normale, par consquent 1 6= 0

    Remarque 8. Attention, les hypothses ne sont pas symtriques. Si on tablit que 1 6= 0, nous savonsque la distribution n'est pas gaussienne. En revanche, conclure 1 = 0 indique que la distribution est

    seulement compatible avec une loi normale.

    Page: 21 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

  • 22 1 tude des rsidus

    Statistique du test et rgion critique

    Pour raliser le test, nous devons dnir la statistique du test et sa loi de distribution sous H0. Nous

    utilisons le coecient d'asymtrie empirique :

    g1 =1n

    Pi "^

    3i

    1n

    Pi "^

    2i

    32

    (1.7)

    Sous H0, elle suit asymptotiquement une loi normale d'esprance et d'cart-type12

    1 0

    1 r

    6

    n

    Nous formons le rapport c1 =g11. Pour un test bilatral au risque , la rgion critique est dnie par

    R:C: : jc1j u12

    o u12 est le fractile d'ordre 1 2 de la loi normale centre rduite.

    Application sur les donnes CONSO

    Nous construisons le test ci-dessus sur les rsidus des MCO sur nos donnes CONSO. Voici les prin-

    cipales tapes (Figure 1.14) :

    1. Nous rcuprons la colonne des rsidus "^i.

    2. Nous calculons les colonnes de "^2i et "^3i .

    3. Nous calculons les sommes et formons g1 =0:12200:56023=2

    = 0:2909.4. Nous calculons l'cart-type 1 =

    q631 = 0:4399, et le rapport jc1j = 0:6612.5. Nous observons que jc1j < 1:6449 = u0:95, pour un test bilatral 10%. Nous ne sommes pas dans largion critique.

    Si l'on se rfre au rsultats du test, l'hypothse de compatibilit avec la normale ne peut pas tre

    rejete.

    1.3.3 Test de Jarque-Bera

    Principe

    Ce test complte le prcdent en intgrant le coecient d'aplatissement 2 =44 3 dans la procdure.Les hypothses deviennent :

    12. Une formulation plus prcise de l'cart-type est disponible dans http://eric.univ-lyon2.fr/~ricco/

    cours/cours/Test_Normalite.pdf

    Page: 22 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

  • 1.3 Test de normalit 23

    Fig. 1.14. Test de normalit des rsidus fond sur le coecient de symtrie sur les donnes CONSO

    H0 : " suit une loi normale, par consquent 1 = 0 et 2 = 0

    H1 : " ne suit pas une loi normale, par consquent 1 6= 0 ou 2 6= 0

    o 4 est le moment centr d'ordre 4, est l'cart-type.

    Remarque 9 (Rejet de l'hypothse de normalit). Ici galement, le test n'est pas symtrique. Si la distribu-

    tion est compatible avec la loi normale, 1 et 2 sont simultanment zro. En revanche, il sut que l'un

    des deux soient dirents de zro pour que l'hypothse de normalit soit rejete. Autre point important,

    on conjecture que les statistiques associes chaque coecient sont indpendants (asymptotiquement).

    Statistique du test et rgion critique

    Estimateur de 2

    Nous devons dterminer la statistique et la distribution sous H0 du coecient d'aplatissement. Le

    plus simple est d'utiliser l'estimation triviale dduite de la dnition du coecient 2 :

    g2 =1n

    Pi "^

    4i

    1n

    Pi "^

    2i

    2 3 (1.8)Sous H0, l'esprance et l'cart-type de g2 sont :

    Page: 23 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

  • 24 1 tude des rsidus

    2 0

    2 r

    24

    n

    La statistique standardise suit une loi normale : c2 =g22 N (0; 1).

    Statistique de Jarque-Bera

    Maintenant, il faut trouver une manire de combiner les deux statistiques g1 et g2. Puisqu'ils sont

    indpendants (asymptotiquement), le plus simple est de proposer la statistique de Jarque-Bera

    13

    :

    T =(n p 1)

    6

    g21 +

    g224

    (1.9)

    Remarque 10 (Degr de libert). La valeur (n p 1) reprsente le degr de libert : nous disposons d'unchantillon de taille n, il y a (p+1) coecients estimer dans la rgression avec constante. Cette prise en

    compte des degrs de liberts entrane une correction des rsultats fournis par les logiciels (ex. la fonction

    jarqueberaTest(.) du package fBasics de R) d'autant plus importante que le nombre de variables vraies p

    est grand et que la taille de l'chantillon n est faible.

    Sous H0, la statistique T suit une loi du 2 2 degrs de libert. La rgion critique du test, au risque

    , s'crit :

    R:C: : T > 21(2)

    Il s'agit d'un test unilatral, 21(2) correspond au fractile d'ordre 1 de la loi du 2 2 degrsde libert.

    Application sur les donnes CONSO

    Nous compltons le test fond sur le coecient d'asymtrie en utilisant les rsidus de la rgression sur

    les donnes CONSO. Voici les principales tapes (Figure 1.15) :

    1. Nous rcuprons la colonne des rsidus "^i.

    2. Nous calculons les colonnes de "^2i , "^3i et "^

    4i .

    3. Nous calculons les sommes et formons g1 =0:12200:56023=2

    = 0:2909.4. Nous formons g2 =

    0:70200:56022 3 = 0:7626.5. Reste la calculer la statistique de Jarque-Bera : T = 31416

    h(0:2909)2 + (0:7626)24

    i= 0:9967.

    6. Que l'on compare avec le seuil critique 20:90(2) = 4:6052.

    Au risque de = 10%, nous ne pouvons pas rejeter l'hypothse d'un distribution gaussienne des

    rsidus.

    13. http://fr.wikipedia.org/wiki/Test_de_Jarque_Bera

    Page: 24 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

  • 1.4 Conclusion 25

    Fig. 1.15. Test de Jarque-Bera pour vrier la normalit des rsidus sur les donnes CONSO

    1.4 Conclusion

    Examiner les rsidus est un des moyens les plus srs d'valuer la qualit d'une rgression. Nous avons

    prsent dans ce chapitre quelques outils, plus ou moins sophistiqus, pour apprcier correctement les

    informations qu'ils peuvent nous apporter. Dans la majorit des cas, les cueils qui peuvent invalider une

    rgression sont :

    la liaison tudie est non-linaire ;

    un problme de spcication, par ex. une variable exogne importante manque ;

    l'existence de points atypiques ou exagrment inuents ;

    les erreurs ne sont pas indpendants et/ou dpendent d'une des exognes ;

    il y a une rupture de structure dans la relation ou les donnes sont organises en blocs non homo-

    gnes,...

    Malgr la puissance des procdures numriques avances, les techniques graphiques trs simples sont

    privilgier, au moins dans un premier temps : leurs conditions d'applications sont universelles, elles

    proposent un diagnostic nuanc de situations qui peuvent s'avrer complexes. Rien ne nous empche par

    la suite de complter le diagnostic visuel l'aide des tests statistiques.

    Page: 25 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

  • Page: 26 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

  • 2Dtection des points aberrants et des points inuents

    L'objectif de la dtection des points aberrants et inuents est de reprer des points qui jouent un rle

    anormal dans la rgression, jusqu' en fausser les rsultats. Il faut s'entendre sur le terme anormal, nous

    pourrons en rsumer les direntes tournures de la manire suivante :

    L'observation prend une valeur inhabituelle sur une des variables. Nous parlons alors de dtection

    univarie car nous tudions les variables individuellement. Par exemple, un des vhicules a une

    puissance 700 cv, nous avons intgr une Formule 1 dans notre chier de vhicules.

    Une combinaison de valeurs chez les exognes est inhabituelle. Par exemple, une voiture trs lgre

    et trs puissante : le poids pris individuellement ne se dmarque pas, la puissance non plus, mais

    leur concomitance est surprenante (Figure 2.1).

    L'observation est trs mal reconstitue par la rgression, n'obissant pas de manire ostensible la

    relation modlise entre les exognes et l'endogne. Dans ce cas, le rsidu observ est trop lev.

    L'observation pse de manire exagre dans la rgression, au point que les rsultats obtenus (pr-

    diction, coecient, ...) sont trs dirents selon que nous l'intgrons ou non dans la rgression.

    Fig. 2.1. Le point entour est suspect car la combinaison de valeurs est inhabituelle

    Outre les ouvrages enumrs en bibliographie, deux rfrences en ligne compltent merveille ce

    chapitre : le document de J. Confais et M. Le Guen [12], section 4:3, pages 307 311 ; et la prsentation de

    Page: 27 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

  • 28 2 Points aberrants et points inuents

    A.Gueguen, La rgression linaires - Outils diagnostics, http://ifr69.vjf.inserm.fr/~webifr/ppt/

    outilsdiag.ppt.

    2.1 Points aberrants : dtection univarie

    Bote moustache et dtection des points atypiques

    L'outil le plus simple pour se faire une ide de la distribution d'une variable continue est la bote

    moustaches (Figure 2.2), dite box-plot

    1

    . Elle ore une vue synthtique sur plusieurs indicateurs impor-

    tants : le premier quartile (Q1), la mdiane (Me) et le troisime quartile (Q3). On peut aussi jauger

    visuellement l'intervalle inter-quartile qui mesure la dispersion (IQ = Q3Q1).

    Fig. 2.2. Boxplot de la variable endogne "consommation (y)", 2 observations se dmarquent

    On pense tort que les extrmits de la bote correspond aux valeurs minimales et maximales. En

    ralit il s'agit des valeurs minimales et maximales non atypiques. Les seuils dsignant les valeurs atypiques

    sont dnies par les rgles suivantes

    2

    :

    LIF = Q1 1:5 IQUIF = Q3 + 1:5 IQ

    o LIF signie "lower inner fence" et UIF "upper inner fence".

    Les points situs au del de ces limites sont souvent juges atypiques. Il convient de se pencher

    attentivement sur les observations correspondantes.

    1. http://en.wikipedia.org/wiki/Box_plot

    2. http://www.itl.nist.gov/div898/handbook/prc/section1/prc16.htm

    Page: 28 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

  • 2.1 Points aberrants : dtection univarie 29

    Remarque 11 (Rgle des 3-sigma). Une autre rgle empirique est largement rpandue dans la communaut

    statistique, il s'agit de la rgle des 3-sigma. Elle xe les bornes basses et hautes 3 fois l'cart-type autour

    de la moyenne. Si l'on considre que la distribution est normale, 99:7% des observations sont situes dans

    cet intervalle. La principale faiblesse de cette approche est l'hypothse de normalit sous-jacente qui en

    rduit la porte.

    Les "outer fence"

    Il est possible de durcir les conditions ci-dessus en largissant les bornes des valeurs. On parle alors

    de outer fence. Elles sont dnies de la manire suivante :

    LOF = Q1 3 IQUOF = Q3 + 3 IQ

    Pour distinguer les points dtects selon la rgle inner ou outer, on parle de "points moyennement

    atypiques" (mild outlier) et "points extrmement atypiques" (extreme outlier).

    Application sur les donnes CONSO

    Il est possible de produire une bote moustache pour chaque variable du chier de donnes. Nous

    disposons ainsi trs rapidement d'informations sur l'talement de la distribution, de la prsence de points

    qui s'cartent fortement des autres. Pour la variable endogne (Figure 2.2), nous dtectons immdiatement

    2 observations suspectes qui consomment largement plus que les autres vhicules : la Ferrari 456 GT et

    la Mercedes S 600.

    Une autre manire de procder est d'utiliser simplement le tableur EXCEL (Figure 2.3) :

    1. de produire le 1er et le 3me quartile ;

    2. d'en dduire l'intervalle inter-quartile ;

    3. de calculer les bornes LIF et UIF ;

    4. et de s'appuyer sur la mise en forme conditionnelle pour distinguer les points "suspects" pour chaque

    variable.

    Il semble que 3 vhicules soient assez dirents du reste de l'chantillon, sur la quasi-totalit des

    variables. Nous produisons dans un tableau rcapitulatif les associations "observation-variable" suspects

    (Tableau 2.1).

    Page: 29 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

  • 30 2 Points aberrants et points inuents

    Fig. 2.3. Dtection univarie des points atypiques pour chaque variable

    Observations Prix Cylindre Puissance Poids Consommation

    Ferrari 456 GT * * * *

    Mercedes S 600 * * * * *

    Maserati Ghibli GT * *

    Tableau 2.1. Points suspects chier CONSO : dtection univarie

    2.2 Dtection multivarie sur les exognes : le levier

    Le levier

    La dtection univarie donne dj des informations intressantes. Mais elle prsente le dfaut de ne

    pas tenir compte des interactions entre les variables. Dans cette section, nous tudions un outil capital

    pour l'tude des points atypiques et inuents : le levier.

    Son interprtation est relativement simple. Il indique, pour l'observation i, la distance avec le centre

    de gravit du nuage de points dans l'espace dni par les exognes. La mesure a de particulier qu'elle

    tient compte de la forme du nuage de points, il s'agit de la distance de Mahalanobis (Tenenhaus, page

    94). La prise en compte de la conguration des points dans l'espace de reprsentation permet de mieux

    juger de l'loignement d'une observation par rapport aux autres (Figure 2.4).

    Page: 30 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

  • 2.2 Dtection multivarie sur les exognes : le levier 31

    Fig. 2.4. Le point 4 et le centre de gravit } sont situs aux mmes coordonnes dans les graphiques (a) et (b).Pourtant 4 apparat nettement atypique dans (b).

    Le levier hii de l'observation i est lue sur la diagonale principale de la matrice H, dite Hat Matrix,

    dnie de la manire suivante

    H = X(X 0X)1X 0 (2.1)

    La matriceH joue un rle trs important dans la rgression, elle permet de passer des valeurs observes

    de Y vers les valeurs prdites Y^ , elle permet aussi le passage de l'erreur thorique vers les rsidus observs 3.

    Les lments hij de la matrice H prsentent un certain nombre de proprits. Concernant les lments

    de la diagonale principale hii, on parle de levier car il dtermine l'inuence de l'observation i sur les

    estimateurs obtenus par les moindres carrs (Dodge, page 130). Mme s'il n'utilise que les informations

    en provenance des exognes Xj , le champ d'action du levier dpasse la dtection multivarie des points

    aberrants. Nous le retrouverons dans la grande majorit des formules de dtection des points atypiques

    et inuents que nous prsenterons dans la suite de ce chapitre.

    Calcul des lments diagonaux de la matrice H

    La taille (nn) de la matrice H peut tre considrable ds lors que la taille de l'chantillon augmente.Il est possible d'en calculer uniquement les lments diagonaux en utilisant la formule

    hii = hi = xi(X0X)1x0i

    o xi reprsente la i-me ligne de la matrice X.

    Rgion critique

    Nous disposons d'un indicateur. Il nous faut maintenant dterminer partir de quelle valeur de hi

    nous devons nous pencher attentivement sur une observation. Autrement dit, quelle est la valeur critique

    qui permet d'indiquer qu'un point est "suspect" ?

    3. "^ = [I X(X 0X)1X 0]"

    Page: 31 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

  • 32 2 Points aberrants et points inuents

    Pour cela, penchons-nous sur quelques proprits du levier. Par dnition 0 hi 1, et surtoutPni=1 hi = p+ 1, o p+ 1 est le nombre de coecients estimer dans une rgression avec constante. On

    considre que le levier d'une observation est anormalement lev ds lors que :

    R:C: : hi > 2 p+ 1n(2.2)

    Remarque 12 (Seuil de coupure et tude des points). La rgle dnie ci-dessus, aussi rpandue soit-elle,

    est avant tout empirique. Dans la pratique, il est tout aussi pertinent de trier les observations selon la

    valeur de hi de manire mettre en vidence les cas extrmes. Une tude approfondie de ces observations

    permet de statuer sur leur positionnement par rapport aux autres.

    Application sur les donnes CONSO

    Fig. 2.5. Quelques indicateurs de points atypiques et inuents dans TANAGRA. Donnes CONSO.

    Page: 32 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

  • 2.2 Dtection multivarie sur les exognes : le levier 33

    Nous appliquons les calculs ci-dessus sur les donnes CONSO. Nous avons utilis le logiciel TANAGRA

    (Figure 2.5)

    4

    . La valeur de coupure est 2 4+131 = 0:3226, 3 points se dmarquent immdiatement, lesmmes que pour la dtection univarie : la Ferrari (h8 = 0:8686), la Mercedes (h9 = 0:4843) et la Maserati

    (h10 = 0:6418). Les raisons semblent videntes : il s'agit de grosses cylindres luxueuses, des limousines

    (Mercedes) ou des vhicules sportifs (Ferrari, Maserati).

    Essayons d'approfondir notre analyse en triant cette fois-ci les observations de manire dcroissante

    selon hi. Les 3 observations ci-dessus arrivent bien videmment en premire place, mais nous constatons

    que d'autres observations prsentaient un levier proche de la valeur seuil. Il s'agit de la Toyota Previa

    Salon, et dans une moindre mesure de la Hyundai Sonata 3000 (Figure 2.6). La premire est un monospace

    (nous remarquons proximit 2 autres monospaces, la Seat Alhambra et la Peugeot 806) qui se distingue

    par la conjonction d'un prix et d'un poids levs ; la seconde est une voiture de luxe corenne, les raisons

    de son loignement par rapport aux autres vhicules tiennent, semble-t-il, en la conjonction peu courante

    d'un prix relativement moyen et d'une cylindre leve.

    Fig. 2.6. Trier les donnes CONSO selon la valeur du levier

    4. Nous avons utilis un logiciel spcialis par commodit. L'enchanement des calculs peut tre facilement

    reproduit sur un tableur, il sut d'utiliser bon escient les fonctions matricielles.

    Page: 33 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

  • 34 2 Points aberrants et points inuents

    2.3 Rsidu standardis

    Rsidu standardis

    Le rsidu standardis, appel galement rsidu studentis interne dans certains ouvrages, s'intresse

    l'importance du rsidus observ "^i = yi y^i. S'il est anormalement lev, en valeur absolue, le point at mal reconstitu par le modle : il s'carte ostensiblement de la relation modlise entre les exognes

    et l'endogne.

    Si par hypothse, la variance de l'erreur 2"i = 2" est constante, il en va autrement du rsidu

    2"^i

    =

    2"(1 hi). Nous devons donc normaliser le rsidu par son cart-type pour rendre les carts comparablesd'une observation l'autre.

    Lorsque nous travaillons sur un chantillon, nous ne disposons pas de la vraie valeur de 2" , nous

    estimons la variance des rsidus avec

    ^2"^i = ^2"(1 hi) (2.3)

    o hi est lue dans la Hat Matrix H, ^2" =

    Pi "^i

    np1 est l'estimateur de la variance de l'erreur.

    Le rsidu standardis est dni par le rapport

    ti ="^i^"^i

    ="^i

    ^"p

    (1 hi)(2.4)

    Rgion critique

    Pour dcider du statut d'un point, il nous faut dnir une valeur seuil au del de laquelle le rsidu

    standardis est anormalement lev (en valeur absolue).

    Nous pouvons nous appuyer sur un appareillage statistique ici. En eet, par hypothse "i N (0; "),nous en dduisons que "^i N (0; "^i). On peut montrer facilement que ^2"^i suit une loi du 2 (np1)degrs de libert.

    De fait, le rsidu standardis, dni par le rapport (Equation 2.4) entre une loi normale et la racine

    carre d'une loi du 2 normalise), suit une loi de Student (n p 1) degrs de libert

    ti T (n p 1) (2.5)

    Nous dcidons qu'une observation est particulirement mal reconstitue par le modle (d'une certaine

    manire atypique) lorsque

    R:C: : jtij > t12 (n p 1)

    o t12 (n p 1) est le fractile d'ordre 1 2 de la loi de Student (n p 1) degrs de libert.Il s'agit bien d'un test bilatral. Le rsidu est suspect s'il est particulirement lev en valeur absolue.

    Au nal, un point apparat comme aberrant avec un rsidu standardis lev si :

    Page: 34 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

  • 2.3 Rsidu standardis 35

    il est mal prdit c.--d. "^i est lev ;

    la rgression est prcise c.--d. ^" est faible ; en eet, si la rgression est globalement prcise, un

    point mal prdit apparat comme d'autant plus suspect ;

    le point est loign des autres dans l'espace des exognes ; en eet, plus hi est lev (hi 1), plus(1 hi) 0, et le rapport est lev.

    Application sur les donnes CONSO

    TANAGRA fournit automatiquement les rsidus standardiss lors de l'analyse des points atypiques

    (Figure 2.5). Il faut comparer la valeur absolue de la colonne avec la valeur seuil t0:95(26) = 1:7056 pour

    un risque 10%.

    Lorsque le nombre d'observations est lev, il devient mal ais d'inspecter le tableau des valeurs

    du rsidus standardis. Il est plus commode de revenir au graphique des rsidus en mettant en abcisse

    l'endogne et en ordonne le rsidu standardis. Nous traons alors une ligne matrialisant les valeurs

    seuils t12 et +t12 (Figure 2.7) 5.

    Fig. 2.7. Graphique des rsidus standardiss vs. endogne - Donnes CONSO

    Remarque 13 (Taille d'chantillon et risque ). Autre approche pragmatique, nous pouvons trier les don-

    nes selon jtij. Les vhicules suspects sont trs facilement mis en vidence (Figure 2.8). Cette technique estd'autant plus intressante que le nombre de vhicules situs dans la rgion critique s'accrot mcanique-

    ment mesure que la taille n de l'chantillon augmente, laissant croire un nombre lev d'observations

    5. Graphique ralis avec le logiciel R, il est trs facile de placer des tiquettes aux coordonnes choisies.

    Page: 35 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

  • 36 2 Points aberrants et points inuents

    aberrantes. Il faudrait ajuster le risque en accord avec la taille d'chantillon n. Mais il s'agit l d'une

    opration dlicate. En utilisant un tri simple, nous pouvons considrer, par ordre d'importance, les points

    les moins bien reconnus par le modle sans se poser la question d'un seuil critique convenable.

    Fig. 2.8. Observations tries selon la valeur absolue du rsidu standardis

    Les calculs aboutissent des rsultats contrasts, correspondant des situations trs direntes (Fi-

    gure 2.8) :

    La Mercedes cumule un rsidu fort (1:374) et un levier lev (0:4843). Ce type de vhicule appar-tient une catgorie spcique qui n'a rien en commun avec les voitures recenss dans ce chier.

    La "Ferrari" est mal reconstitue parce qu'elle est avant tout trs dirente des autres h = 0:8686.

    Le rsidu brut "^ = 0:610 n'est pas trs lev, on prdit correctement sa consommation au regard

    de ses caractristiques. Mais le rsidu rapport l'cart-type montre qu'il s'agit quand mme d'un

    vhicule bien particulier.

    La Hyundai et la Mitsubishi Galant correspondent une tout autre situation. Ces observations se

    fondent dans l'ensemble de la population, le levier est en de du seuil critique. En revanche ils

    n'obissent pas la relation mise en vidence entre les exognes et l'endogne (Equation 0.1). La

    Hyundai consomme fortement par rapport ses caractristiques "^ = y y^ = 11:710:264 = 1:436 ;la Mitsubishi est en revanche particulirement sobre (au regard de sa cylindre) "^ = 7:6 9:168 =1:568.

    Page: 36 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

  • 2.4 Rsidu studentis 37

    2.4 Rsidu studentis

    Le rsidu studentis

    Principe

    Le rsidu standardis est un indicateur certes intressant mais il prsente un inconvnient fort : nous

    valuons l'importance du rsidu "^i d'une observation qui a particip la construction de la droite de

    rgression. De fait, le point est juge et partie dans l'valuation : on l'utilise pour construire le modle,

    puis on regarde s'il a bien t modlis. Si l'observation est fortement inuente, au sens qu'elle "tire"

    exagrment les rsultats de manire prsenter un rsidu brut trs faible "^ 0, nous conclurons tortqu'elle est bien reconstitue et donc ne fausse en rien les rsultats de la modlisation (Figure 2.9).

    Fig. 2.9. Exemple de rgression simple o l'observation 4 est certes bien modlise ("^ 0) mais elle faussetotalement les calculs : on parle de point exagrment inuent.

    Il faudrait mettre en place une procdure qui permet de confronter les rsultats selon qu'une

    observation participe ou non aux calculs. Parmi les pistes possible, nous nous penchons sur l'erreur

    de prdiction. Une mesure objective devrait ne pas faire participer le point i dans la construction du

    modle utilis pour prdire la valeur y^i. Le rsidu studentis, on parle de rsidu studentis externe ou

    RSTUDENT dans certains ouvrages, s'appuie sur ce principe, il utilise la procdure suivante (Dodge,

    page 135) :

    Pour chaque observation i,

    Nous la retirons de l'ensemble des donnes, et nous calculons les paramtres de la rgression.

    Nous eectuons la prdiction sur l'observation i en donne supplmentaire y^i(i) Nous obtenons aussi l'estimation de l'cart-type des erreurs ^"(i), le levier hi(i) obtenu avec laformule hi(i) = xi(X 0iXi)1x0i o Xi correspond la matrice des X sans la ligne numro i. A l'instar du rsidu standardis, nous formons le rsidu studentis partir du rapport

    Page: 37 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

  • 38 2 Points aberrants et points inuents

    ti =yi y^i(i)

    ^"(i)p

    (1 hi(i))(2.6)

    Le principe de la donne supplmentaire permet de mieux apprhender le rle/le poids de l'observation

    i dans la rgression. Si, exclue de la rgression, elle reste bien prdite, elle est fondue dans la masse des

    points ; en revanche, si son exclusion des calculs entrane une trs mauvaise prdiction, on peut penser

    qu'elle pse fortement, peut-tre tort, sur les calculs (Figure 2.10).

    Fig. 2.10. Principe de la donne supplmentaire : l'observation 4, exclue du calcul de la droite de rgression,devient trs mal prdite

    Une autre interprtation

    Il existe une autre manire de calculer le rsidu studentis. Elle ne facilite pas spcialement les calculs.

    En revanche, elle a le mrite de mettre en lumire la loi de distribution que nous pourrons utiliser par la

    suite pour dnir la rgion critique du test.

    Le principe est le suivant, nous eectuons n rgressions avec toutes les observations. Pour la rgression

    numro i, nous introduisons une variable muette z dnie de la manire suivante

    z = 1 pour l'observation numro i

    = 0 sinon

    La rgression numro i s'crit donc de la manire suivante :

    y = a0 + a1x1 + : : :+ apxp + b z + " (2.7)

    Le rsidu studentis correspond au t de Student du test de signicativit du coecient b. Nous savons

    que cette statistique suit une loi de Student T (n p 2) (n p 2) degrs de libert. En eet, il y abien (p+ 2) coecients estimer dans l'quation 2.7.

    Page: 38 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

  • 2.4 Rsidu studentis 39

    Calcul pratique

    Si le concept sous-jacent semble relativement simple, il reste produire les rsultats. Quelle que soit

    l'approche adopte, il faudrait eectuer n rgressions. Si n est lev, le calcul est trs lourd, il peut se

    rvler rdhibitoire.

    A ce stade intervient une proprit remarquable du rsidu studentis : il est possible de le calculer

    pour chaque observation i sans avoir procder explicitement aux n rgressions. Nous utilisons

    pour cela d'une formule de transformation du rsidu standardis (Tenenhaus, page 95)

    6

    :

    ti = ti

    sn p 2

    n p 1 t2i(2.8)

    Le calcul supplmentaire demand est ngligeable.

    Rgion critique

    A partir de la formulation sous forme d'quation de rgression (quation 2.7), il est possible d'crire

    rigoureusement le test d'hypothses permettant de dterminer si une observation est atypique/inuente

    ou non. On oppose :

    H0 : b = 0

    H1 : b 6= 0

    Sous H0, la statistique ti T (n p 2), on en dduit la rgion critique du test :

    R:C: : jti j > t12 (n p 2)

    o t12 (n p 2) est le fractile d'ordre 1 2 de la loi de Student (n p 2) degrs de libert.Il s'agit bien d'un test bilatral. Le rsidu est suspect s'il est particulirement lev en valeur absolue.

    Comparaisons multiples et contrle du risque I

    En multipliant les tests, nous valuons n observations, nous augmentons le risque de signaler tort

    des points atypiques. Certains auteurs prconisent de rendre la dtection plus exigeante en introduisant

    la correction de Bonferroni pour les comparaisons multiples : on divise le risque par l'eectif n. Pour

    chaque observation tester, nous comparons le rsidu studentis avec le fractile d'ordre 1 2n . Dansl'exemple CONSO, le vrai risque utiliser serait 1 0:1231 = 0:9984 et le seuil critique t0:9984(25) = 3:539.On constate que sur les donnes CONSO (Figure 2.11), aucune observation n'est atypique avec cette

    procdure.

    6. La formule propose dans Dodge semble errone (page 135)

    Page: 39 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

  • 40 2 Points aberrants et points inuents

    Comparaisons multiples et contrle du risque II

    Si l'on comprend le principe de la correction du risque, multiplier les tests augmente les chances de

    dsigner tort un point aberrant, il faut donc tre plus exigeant, la rectication ci-dessus est purement

    empirique. Pour dpasser ces problmes, d'autres auteurs proposent tout simplement de comparer di-

    rectement le rsidu studentis avec une valeur ad hoc, inspire nanmoins des seuils fournis par la loi

    de Student, la valeur la plus utilise est 2 en rfrence un test 5%. Pour ma part, je pense que le

    plus simple encore est de trier les observations selon jti j, cela nous donne plus de latitude pour juger del'ampleur des carts.

    Application sur les donnes CONSO

    Nous compltons le tableau EXCEL en ajoutant la colonne des rsidus studentiss. La valeur seuil

    10% est 1:7081. Nous trions les donnes selon la valeur absolue de cette colonne. Nous constatons que ce

    sont les mmes points que prcdemment (cf. le rsidu standardis) qui se dmarquent ((Mercedes S600,

    Hyundai Sonata, Ferrari 456 GT et Mitsubishi Galant, gure 2.11).

    Fig. 2.11. Observations tries selon la valeur absolue du rsidu studentis

    Dans notre exemple, les deux indicateurs ti et ti concordent. Ce n'est pas toujours le cas en pratique.

    Il faut alors privilgier le rsidu studentis pour les raisons voques ci-dessus : le fait de considrer

    l'observation numro i comme un point supplmentaire permet de mieux apprhender son inuence sur

    la rgression.

    Page: 40 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

  • 2.5 Autres indicateurs usuels 41

    2.5 Autres indicateurs usuels

    Dans cette section, nous numrons d'autres indicateurs de points atypiques/inuents couramment

    rencontrs dans les logiciels. Nous simplions la prsentation en mettant l'accent sur 3 aspects : le principe,

    la formule et la rgle de dtection. Les rsultats relatifs au chier de donnes CONSO ont t produites

    l'aide du logiciel TANAGRA (Figure 2.5).

    2.5.1 DFFITS

    Le DFFITS s'appuie sur le mme principe que le RSTUDENT, mais il compare cette fois-ci la pr-

    diction en resubstitution y^i et la prdiction en donne supplmentaire y^i(i). Dans le premier cas, l'ob-servation a particip la construction du modle de prdiction, dans le second, non. Nous pouvons ainsi

    mesurer l'inuence du point sur la rgression. Dans notre exemple ctif (Figures 2.9 et 2.10), la dirence

    serait trs marque, conrmant le rle mysticateur de l'individu 4.Le DFFITS est normalise de la manire suivante

    DFFITSi =y^i y^i(i)^"(i)

    phi(2.9)

    Nous considrons qu'une observation est inuente lorsque

    R:C: : jDFFITSij > 2rp+ 1

    n

    mais le plus simple toujours est de trier les observations selon jDFFITSij pour mettre en videnceles points suspects.

    Sur le chier CONSO, le seuil critique est 2q

    4+131 = 0:8032. Nous constatons que la Ferrari (tout

    particulirement), la Mercedes et la Hyundai se dmarquent toujours. La Mitsubishi en revanche ne

    dpasse pas le seuil (0:7800) mais en est susamment proche pour qu'on ne remette pas en cause l'analyse

    propose dans la section sur le rsidu studentis. On voit l tout l'intrt de ne pas prendre pour argent

    comptant les valeurs seuils (Figure 2.12).

    Calcul pratique du DFFITS

    Il n'est heureusement pas ncessaire d'eectuer les n rgressions pour calculer les DFFITSi, on peut

    l'obtenir partir du rsidu studentis

    DFFITSi = ti

    rhi

    1 hi (2.10)

    2.5.2 Distance de COOK

    La distance de COOK gnralise le DFFITS dans le sens o, au lieu de mesurer l'eet de la suppression

    de l'observation i sur la prdiction de yi, il mesure son eet sur la prdiction des n valeurs de l'endogne.

    Page: 41 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

  • 42 2 Points aberrants et points inuents

    Fig. 2.12. Observations tries selon la valeur absolue du DFFITS

    La premire formulation de la distance de Cook Di est la suivante :

    Di =

    Pnj=1 [y^i y^i(i)]2^2"(p+ 1)(2.11)

    Ainsi, pour valuer l'inuence du point i sur la rgression, nous la supprimons du calcul des coecients,

    et nous comparons les prdictions avec le modle complet (construit avec tous les points) et le modle

    valuer (construit sans le point i). Si la dirence est leve, le point joue un rle important dans

    l'estimation des coecients.

    Il nous faut dnir la valeur seuil partir de laquelle nous pouvons dire que l'inuence est exagre.

    La rgle la plus simple est :

    R:C: : Di > 1 (2.12)

    Mais elle est juge un peu trop permissive, laissant chapper tort des points douteux, on lui prfre

    parfois la disposition plus exigeante suivante (Confais, page 309) :

    R:C: : Di >4

    n p 1 (2.13)

    La distance de Cook a t calcule pour chaque observation du chier CONSO. Les individus ont t

    tris selon Di dcroissants. La Ferrari, encore une fois trs fortement, et la Mercedes se dmarquent selon

    la premire rgle de dtection (quation 2.12). Si nous passons la seconde rgle Di >4

    np1 = 0:1538

    (quation 2.13), la Hyundai se rvle galement suspecte (Figure 2.13).

    Calcul pratique de la distance de Cook

    De nouveau, il n'est pas question d'eectuer les n rgressions en supprimant tour tour chaque

    observation. Nous pouvons grandement simplier les calculs en drivant la distance de Cook partir des

    rsidus standardiss

    Page: 42 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

  • 2.5 Autres indicateurs usuels 43

    Fig. 2.13. Observations tries selon la distance de Cook Di

    Di =t2i

    (p+ 1)

    hi(1 hi) (2.14)

    Distance de Cook entre les coecients estims

    Nous avons dnis la distance de Cook comme un cart entre les prdictions. Il est galement possible

    de la dnir comme une distance entre les coecients estims, avec ou sans l'observation i analyser.

    Dans ce cas, la distance de Cook s'crit

    Di =(a^ a^(i))0(X 0X)1(a^ a^(i))

    ^2"(p+ 1)(2.15)

    o a^ est le vecteur des (p + 1) coecients estims (a^0; a^1; : : : ; a^p)0avec les n observations ; a^(i) lemme vecteur estim sans l'observation i.

    La distance de Cook s'interprte, dans ce cas, comme l'amplitude de l'cart entre les coecients

    estims de la rgression, avec et sans le point i. Il va sans dire que la valeur calcule Di est exactement

    la mme que celle obtenue avec la premire dnition (quation 2.11).

    De ce point de vue, la distance de Cook peut se lire comme la statistique du test de comparaison de

    deux vecteurs de coecients. Sauf que qu'il ne peut s'agir d'un vritable test puisque les chantillons ne

    sont pas (pas du tout) indpendants. Nanmoins, si l'on poursuit l'ide, la distance de Cook suivrait une

    loi de Fisher (p + 1; n p 1) degrs de libert. On s'appuie sur la p-value du test pour dtecter lespoints atypiques : on considre qu'un point est suspect ds lors que la p-value calcule est infrieure

    50% 7. On peut aussi imaginer une procdu