la regression dans la pratique
DESCRIPTION
regression simple et multipleTRANSCRIPT
-
Ricco Rakotomalala
Pratique de la Rgression Linaire Multiple
Diagnostic et slection de variables
Version 2.1
Universit Lumire Lyon 2
Page: 1 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13
-
Page: 2 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13
-
Avant-propos
Ce support dcrit quelques techniques statistiques destines valider et amliorer les rsultats fournis
par la rgression linaire multiple. Il correspond la dernire partie des enseignements d'conomtrie (je
prfre l'appellation Rgression Linaire Multiple) en L3-IDS de la Facult de Sciences Economiques de
l'Universit Lyon 2 (http://dis.univ-lyon2.fr/).
Ce support se veut avant tout oprationnel. Il se concentre sur les principales formules et leur mise
en oeuvre pratique avec un tableur. Autant que possible nous ferons le parallle avec les rsultats fournis
par les logiciels de statistique. Le bien-fond des tests, la pertinence des hypothses opposer sont peu
ou prou discutes. Nous invitons le lecteur dsireux d'approfondir les bases de la rgression consulter
le document "conomtrie - Rgression Linaire Simple et Multiple" ([18]), accessible sur ma page de
fascicules (http://eric.univ-lyon2.fr/~ricco/cours/cours_econometrie.html).
Un document ne vient jamais du nant. Pour laborer ce support, je me suis appuy sur direntes
rfrences, des ouvrages disais-je plus tt, mais aussi des ressources en ligne qui sont de plus en plus
prsents aujourd'hui dans la diusion de la connaissance.
Les seuls bmols par rapport ces documents sont (1) le doute que l'on pourrait mettre sur l'exac-
titude des informations prodigues, mais la plupart de leurs auteurs sont des enseignants-chercheurs qui
font srieusement leur travail ; (2) une disponibilit plus ou moins alatoire, au gr des migrations des
serveurs et de la volont de leurs auteurs, auquel il est trs dicile de remdier
1
; (3) les informations sont
disparates, avec une absence d'organisation, la dirence des ouvrages qui suivent une ligne pdagogique
trs structurante.
Nanmoins, ces ressources en ligne renouvellent profondment le panorama des documents disponibles
pour les enseignements. La gratuit n'est pas le moindre de leurs atouts.
Ce support n'engage que son auteur. Toutes suggestions ou commentaires qui peuvent en amliorer
le contenu sont le bienvenu.
1. Je fais systmatiquement des copies... mais je me vois trs mal les diuser moi mme via ma page web.
Page: 3 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13
-
Page: 4 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13
-
Table des matires
Partie I La rgression dans la pratique
1 tude des rsidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1 Diagnostic graphique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1.1 Graphiques des rsidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1.2 Graphiques des rsidus pour les donnes CONSO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.2 Tester le caractre alatoire des erreurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.2.1 Test de Durbin-Watson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.2.2 Test des squences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.3 Test de normalit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.3.1 Graphique Q-Q plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.3.2 Test de symtrie de la distribution des rsidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.3.3 Test de Jarque-Bera . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2 Points aberrants et points inuents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.1 Points aberrants : dtection univarie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.2 Dtection multivarie sur les exognes : le levier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.3 Rsidu standardis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.4 Rsidu studentis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.5 Autres indicateurs usuels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.5.1 DFFITS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.5.2 Distance de COOK . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.5.3 DFBETAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.5.4 COVRATIO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
2.6 Bilan et traitement des donnes atypiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3 Colinarit et slection de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.1 Dtection de la colinarit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.1.1 Consquences de la colinarit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
Page: 5 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13
-
6 Table des matires
3.1.2 Illustration de l'eet nocif de la colinarit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.1.3 Quelques techniques de dtection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.2 Traitement de la colinarit - Slection de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.2.1 Slection par optimisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.2.2 Techniques bases sur le F partiel de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.3 Rgression stagewise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3.4 Coecient de corrlation partielle et slection de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.4.1 Coecient de corrlation brute . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.4.2 Coecient de corrlation partielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
3.4.3 Calcul de la corrlation partielle d'ordre suprieur 1 . . . . . . . . . . . . . . . . . . . . . . . . . 70
3.4.4 Procdure de slection fonde sur la corrlation partielle . . . . . . . . . . . . . . . . . . . . . . . 72
3.4.5 quivalence avec la slection fonde sur le t de Student de la rgression . . . . . . . . . 73
3.5 Les rgressions partielles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
3.5.1 Principe des rgression partielles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
3.5.2 Traitement des donnes CONSO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
3.6 Rgressions croises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
3.6.1 Principe des rgressions croises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
3.6.2 Rgressions croises sur les donnes CONSO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
3.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
4 Rgression sur des exognes qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
4.1 Analyse de variance 1 facteur et transposition la rgression . . . . . . . . . . . . . . . . . . . . . . . 83
4.1.1 Un exemple introductif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
4.1.2 ANOVA 1 facteur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
4.2 Inadquation du codage disjonctif complet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
4.2.1 Codage disjonctif complet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
4.2.2 Rgression sans constante et lecture des coecients . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
4.2.3 Vers des solutions plus gnrales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
4.3 Codage "Cornered eect" de l'exogne qualitative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
4.3.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
4.3.2 Lecture des rsultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
4.3.3 Application aux donnes LOYER . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
4.4 Comparaisons entres groupes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
4.4.1 Comparaisons avec le groupe de rfrence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
4.4.2 Comparaisons entre deux groupes quelconques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
4.5 Rgression avec plusieurs explicatives qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
4.5.1 Rgression sur les indicatrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
4.5.2 Prise en compte des interactions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
4.5.3 Ajout de nouvelles indicatrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
Page: 6 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13
-
Table des matires 7
4.5.4 Tester la signicativit de l'interaction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
4.5.5 Interprtation des coecients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
4.6 Rgression avec un mix d'explicatives qualitatives et quantitatives . . . . . . . . . . . . . . . . . . . . 108
4.6.1 Interprtation des coecients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
4.6.2 Prise en compte des interactions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
4.6.3 Lien avec la comparaison de rgressions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
4.7 Slection de variables en prsence d'exognes qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
4.7.1 Traitement group des indicatrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
4.7.2 Traitement individuel des indicatrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
4.8 Autres stratgies de codage d'une exogne qualitative nominale . . . . . . . . . . . . . . . . . . . . . . . 120
4.8.1 Le codage "centered eect" d'une exogne qualitative nominale . . . . . . . . . . . . . . . . 120
4.8.2 Le codage "contrast eect" d'une exogne qualitative . . . . . . . . . . . . . . . . . . . . . . . . . 123
4.9 Codage d'une exogne qualitative ordinale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
4.9.1 Un exemple introductif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
4.9.2 (In)adquation du codage pour variable qualitative nominale . . . . . . . . . . . . . . . . . . . 128
4.9.3 Utilisation du codage cumulatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
4.9.4 Codage "backward dierence". . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
4.9.5 Codage "forward dierence" . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
4.9.6 Codage "Helmert" . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
4.10 Codage polynomial orthogonal d'une exogne qualitative ordinale . . . . . . . . . . . . . . . . . . . . . 136
4.10.1 Construction du codage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
4.10.2 Rgression sur les variables recodes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
4.11 Les erreurs ne pas commettre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
4.11.1 Codage numrique d'une variable discrte nominale . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
4.11.2 Codage numrique d'une variable discrte ordinale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
4.12 Conclusion pour le traitement des exognes qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
5 Rupture de structure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
5.1 Rgression contrainte et rgression non-contrainte - Test de Chow . . . . . . . . . . . . . . . . . . . . 143
5.1.1 Formulation et test statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
5.1.2 Un exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
5.2 Dtecter la nature de la rupture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
5.2.1 Tester la stabilit de la constante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
5.2.2 Tester la stabilit du coecient d'une des exognes . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
5.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
6 Dtection et traitement de la non linarit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
6.1 Non linarit dans la rgression simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
6.1.1 Linarisation par transformation de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
6.1.2 Dtecter numriquement la non-linarit dans la rgression simple . . . . . . . . . . . . . . 155
Page: 7 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13
-
8 Table des matires
6.1.3 Tester l'adquation d'une spcication . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
6.2 Non linarit dans la rgression multiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162
6.2.1 Lecture des rsidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162
6.2.2 Rsidus partiels et rsidus partiels augments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
6.2.3 Un exemple "raliste" : traitement des donnes "mtcars" sous R . . . . . . . . . . . . . . . . 166
A Table de Durbin Watson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
B Gestion des versions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
C Fichiers associs ce support . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
D Tutoriels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
Littrature . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181
Page: 8 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13
-
Partie I
La rgression dans la pratique
Page: 1 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13
-
Page: 2 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13
-
3La rgression dans la pratique
Le vritable travail du statisticien commence aprs la premire mise en oeuvre de la rgression linaire
multiple sur un chier de donnes. Aprs ces calculs, qu'on lance toujours "pour voir", il faut se poser la
question de la pertinence des rsultats, vrier le rle de chaque variable, interprter les coecients, etc.
En schmatisant, la modlisation statistique passe par plusieurs tapes
2
: proposer une solution (une
conguration de l'quation de rgression), estimer les paramtres, diagnostiquer, comprendre les rsultats,
rchir une formulation concurrente, etc.
Dans ce support, nous mettrons l'accent, sans se limiter ces points, sur deux aspects de ce processus :
le diagnostic de la rgression l'aide de l'analyse des rsidus, il peut tre ralis avec des tests statistiques,
mais aussi avec des outils graphiques simples ; l'amlioration du modle l'aide de la slection de variables,
elle permet entre autres de se dgager du pige de la colinarit entre les variables exognes.
Notations
Le point de dpart est l'estimation des paramtres d'une rgression mettant en jeu une variable
endogne Y et p variables exognes Xj . Nous disposons de n observations.
L'quation de rgression s'crit :
yi = a0 + a1xi;1 + + apxi;p + "i (0.1)
o yi est la i-me observation de la variable Y ; xi;j est la i-me observation de la j-me variable ; "i
est l'erreur du modle, il rsume les informations manquantes qui permettrait d'expliquer linairement
les valeurs de Y l'aide des p variables Xj .
Nous devons estimer (p+ 1) paramtres. En adoptant une criture matricielle :
Y = Xa+ " (0.2)
les dimensions de matrices sont respectivement :
Y ! (n; 1) X ! (n; p+ 1) a! (p+ 1; 1) "! (n; 1)La matrice X de taille (n; p + 1) contient l'ensemble des observations sur les exognes, avec une
premire colonne forme par la valeur 1 indiquant que l'on intgre la constante a0 dans l'quation.
2. http://www.itl.nist.gov/div898/handbook/pmd/section4/pmd41.htm
Page: 3 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13
-
4 0BBBBB@1 x1;1 x1;p1 x2;1 x2;p.
.
.
1 xn;1 xn;p
1CCCCCARemarque 1 (Rgression sans constante). Dans certains problmes, la rgression sans constante peut se
justier. Il y a p paramtres estimer dans la rgression. On peut aussi voir la rgression sans constante
comme une rgression avec la contrainte a0 = 0. Il faut simplement faire attention aux degrs de libert
pour les tests. Il faut noter galement que le coecient de dtermination R2 n'est plus interprtable en
termes de dcomposition de la variance, il peut prendre des valeurs ngatives d'ailleurs.
Donnes
Autant que possible, nous utiliserons le mme chier de donnes pour illustrer les dirents chapitres
de ce support. On veut expliquer la consommation en L/100km de vhicules partir de p = 4 variables :
le prix, la cylindre, la puissance et le poids (Figure 0.1). Nous disposons de n = 31 observations.
Nous connaissons la marque et le modle de chaque vhicule, cela nous permettra d'aner certains
commentaires.
Fig. 0.1. Tableau de donnes CONSO - Consommation des vhicules
Nous eectuons sous TANAGRA une premire rgression sur l'ensemble des exognes. Nous en extra-
yons quelques informations importantes (Figure 0.2) :
Page: 4 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13
-
5 la rgression semble de trs bonne qualit puisque que nous expliquons R2 = 95:45% de la variance
de l'endogne ;
impression conrme par le test de Fisher, F = 136:54 avec une p-value < 0:000001 : le modle est
globalement trs signicatif ;
mis part la variable cylindre, toutes les variables sont signicatives au risque de 10%.
Fig. 0.2. Rsultat de la rgression sur les donnes CONSO (cf. Donnes, gure 0.1)
La mme rgression sous EXCEL donne exactement les mmes rsultats (Figure 0.3)
3
. Seul le mode de
prsentation des rsultats est un peu dirent. Nous avons calcul dans la foule la prdiction ponctuelle
y^i et les rsidus "^i = yi y^i de la rgression.
Remarque 2 (Interprtation des coecients). D'ores et dj, sans trop renter dans les dtails, on note des
bizarreries dans le rle des variables. Que le prix et la consommation soient d'une certaine manire lis,
on peut le comprendre. En revanche, imaginer que le prix inue directement sur la consommation parat
trange. Cela voudrait dire qu'en diminuant articiellement le prix d'un vhicule, on pourrait diminuer
la consommation. Concernant la cylindre, la taille du moteur, on s'tonne quand mme qu'elle ne joue
aucun rle sur la consommation. Cela voudrait dire qu'on peut augmenter indniment la taille du moteur
sans que cela ne soit prjudiciable la consommation de carburant... Nous reviendrons plus en dtail sur
la slection des variables et l'interprtation des rsultats plus loin.
3. Fonction DROITEREG(...)
Page: 5 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13
-
6Fig. 0.3. Rsultat de la rgression sous EXCEL
Logiciels
Nous utiliserons principalement le tableur EXCEL. Mais plusieurs reprises nous ferons appel des
logiciels gratuits tels que TANAGRA
4
, REGRESS
5
, LAZSTATS/OPENSTAT
6
et R
7
; et des logiciels
commerciaux tels que SPSS
8
et STATISTICA
9
. Qu'importe le logiciel en ralit, le plus important est
de savoir lire correctement les sorties des outils statistiques.
4. TANAGRA : Un logiciel gratuit de Data Mining pour l'enseignement et la recherche - http://eric.
univ-lyon2.fr/~ricco/tanagra/fr/tanagra.html
5. http://tutoriels-data-mining.blogspot.com/2011/05/regress-dans-la-distribution-sipina.html
6. http://tutoriels-data-mining.blogspot.com/2011/05/regression-avec-le-logiciel-lazstats.html
7. The R Project for Statistical Computing - http://www.r-project.org/
8. Pour une lecture dtaille des rsultats fournis par SPSS, voir http://www2.chass.ncsu.edu/garson/PA765/
regress.htm
9. Pour une lecture des rsultats de STATISTICA, voir http://www.statsoft.com/textbook/stmulreg.html
Page: 6 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13
-
1tude des rsidus
L'infrence statistique relative la rgression (estimation par intervalle des coecients, tests d'hypo-
thses, etc.) repose principalement sur les hypothses lies au terme d'erreur " qui rsume les informations
absentes du modle. Il importe donc que l'on vrie ces hypothses an de pouvoir interprter les rsul-
tats
1
.
Rappelons brivement les hypothses lies au terme d'erreur :
sa distribution doit tre symtrique, plus prcisment elle suit une loi normale ;
sa variance est constante ;
les erreurs "i (i = 1; : : : ; n) sont indpendantes.
Pour inspecter ces hypothses, nous disposons des erreurs observes, les rsidus, "^i produites par la
dirence entre les valeurs observes de l'endogne yi et les prdictions ponctuelles de la rgression y^i
"^i = yi y^i (1.1)
avec y^i = a^0 + a^1xi;1 + + a^pxi;p
Remarque 3 (Moyenne des rsidus). Dans un modle avec constante, la moyenne des rsidus
^" = 1nP
i "^i
est mcaniquement gale zro. Ce rsultat ne prjuge donc en rien de la pertinence de la rgression. En
revanche, si elle est dirente de 0, cela indique coup sr des calculs errons. Ce commentaire n'a pas
lieu d'tre pour une rgression sans constante.
1.1 Diagnostic graphique
1.1.1 Graphiques des rsidus
Aussi simpliste qu'il puisse paratre, le diagnostic graphique est pourtant un outil puissant pour
valider une rgression. Il fournit un nombre important d'informations que les indicateurs statistiques
1. Voir Dodge, pages 113 120.
Page: 7 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13
-
8 1 tude des rsidus
apprhendent mal. Toute analyse de rgression devrait tre immdiatement suivie des graphiques des
rsidus observs... car il y en a plusieurs.
Avant d'numrer les dirents types de graphiques, donnons quelques principes gnraux (Figure
1.1) :
les rsidus sont ports en ordonne ;
les points doivent tre uniformment rpartis au hasard dans un intervalle, que nous prciserons
plus loin
2
, sur l'ordonne ;
aucun point ne doit se dmarquer ostensiblement des autres ;
on ne doit pas voir apparatre une forme de rgularit dans le nuage de points.
Le type du graphique dpend de l'information que nous portons en abcisse.
Rsidus en fonction de l'endogne Y
Ce type de graphique permet de se rendre compte de la qualit de la rgression. Les rsidus "^i doivent
tre rpartis alatoirement autour de la valeur 0, ils ne doivent pas avoir tendance prendre des valeurs
direntes selon les valeurs de Y . On cherche surtout voir si la prdiction est d'gale qualit sur tout
le domaine de valeurs de Y (Figure 1.1). Si pour une valeur ou une plage de valeur de Y , les rsidus
s'cartent visiblement, il faut s'inquiter car cela indique que la valeur yi a t mal reconstitue par le
modle.
Fig. 1.1. Graphique "normal" des rsidus. Endogne vs. Rsidus.
Rsidus en fonction de chaque exogne Xj
Il doit tre produit pour chaque variable exogne. L'ide est de dtecter s'il y a une relation quel-
conque entre le terme d'erreur et les exognes. Rappelons que les variables exognes et les erreurs sont
indpendantes par hypothse (covariance nulle), cela doit tre conrm visuellement.
2. Voir chapitre 2 sur les points atypiques
Page: 8 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13
-
1.1 Diagnostic graphique 9
Graphique de rsidus pour les donnes longitudinales
Dans le cas particulier des sries temporelles, nous pouvons produire un graphique supplmentaire en
portant en abcisse la variable temps. Elle permet d'ordonner les valeurs d'une autre manire. Il est alors
possible de dtecter une rupture de structure associe une date particulire (ex. guerre, crise politique,
choc conomique, etc.).
Cas pathologiques
Il est dicile de prtendre l'exhaustivit, nous nous contenterons de caractriser quelques situations
singulires qui doivent attirer notre attention.
Points atypiques et points inuents
Par dnition, un point atypique, on parle aussi de point aberrant, est une observation qui s'carte
rsolument des autres. Cela peut tre d une erreur de recueil des donnes, cela peut aussi correspondre
un individu qui n'appartient pas la population tudie. Dans le graphique de rsidus, il s'agit de
points loigns des autres, que la variable en abcisse soit l'endogne ou une des exognes (Figure 1.2).
Fig. 1.2. Un point prsente une valeur atypique pour une des exognes. De plus, elle est mal reconstitue par la
rgression (le rsidu est lev).
Les points inuents sont des observations qui psent exagrment sur les rsultats de la rgression.
On peut les distinguer de plusieurs manires : ils sont "isols" des autres points, on constate alors que
la distribution des rsidus est asymtrique (Figure 1.3) ; ils correspondent des valeurs extrmes des
variables, en cela ils se rapprochent des points atypiques.
Bien souvent la distinction entre les points atypiques et les points inuents est dicile. Elle est assez
mal comprise : un point peut tre inuent sans tre atypique, il peut tre atypique sans tre inuent.
La meilleure manire de le circonscrire est de recalculer les coecients de la rgression en cartant le
point : si les rsultats dirent signicativement, en termes de prdiction ou terme de dirence entre les
Page: 9 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13
-
10 1 tude des rsidus
coecients estims, le point est inuent. Cela est dicilement discernable dans un graphique des rsidus,
il est plus appropri de passer par des calculs que nous dtaillerons dans le chapitre consacr la dtection
des points atypiques et inuents (Chapitre 2).
Asymtrie des rsidus
Signe que la distribution des rsidus ne suit pas la loi normale, cette situation (Figure 1.3) survient
lorsque certains points se dmarquent des autres, ils sont mal reconstitus par la rgression. La
moyenne des rsidus est mcaniquement gale 0, mais la dispersion est trs ingale de part et
d'autre de cette valeur.
lorsque les donnes sont en ralit forms par plusieurs populations (ex. en mdecine, eectuer une
rgression en mlangeant les hommes et les femmes, sachant qu'ils ragissent de manire dirente
la maladie tudie).
lorsqu'on est face un problme de spcication, une variable exogne importante manque.
etc.
Fig. 1.3. La distribution des rsidus est asymtrique.
Non-linarit
Dans ce cas, la relation tudie est en ralit non-linaire, elle ne peut pas tre modlise l'aide de la
rgression linaire multiple. Les rsidus apparaissent alors en "blocs" au-dessus (prdiction sous-estime)
ou en-dessous (prdiction sur-estim) de la valeur 0 (Figure 1.4). On peut y remdier en ajoutant une
variable transforme dans le modle (par ex. en passant une des variables au carr, ou en utilisant une
transformation logarithmique, etc.). On peut aussi passer une rgression non-linaire (ex. rseaux de
neurones, etc.).
Rupture de structure
Dans certains cas, il arrive que la relation entre les exognes et l'endogne ne soit pas la mme sur
tout le domaine de dnition : on parle de rupture de structure. Il y a en ralit deux ou plusieurs
Page: 10 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13
-
1.1 Diagnostic graphique 11
Fig. 1.4. La relation modliser est non-linaire
rgressions mener. Ils peuvent tre totalement indpendants. On peut aussi imposer que les coecients
de quelques variables soient identiques d'une rgression l'autre. L'erreur dans ce cas est d'imposer une
seule rgression pour tous les groupes d'individus. Nous obtenons alors des rsidus en "blocs", qui peuvent
tre assez proches de ce que l'on obtient lorsque les relations sont non-linaires (Figure 1.4), ils indiquent
en tous les cas qu'il y a bien des groupes distincts que l'on ne peut pas modliser de manire identique
dans la population (Figure 1.5).
Fig. 1.5. Rsidus caractristiques d'une rupture de structure
Htroscdasticit
Souvent associe une des exognes en abcisse, ce type de graphique (Figure 1.6) indique que la
variance des rsidus n'est pas constante, et qu'elle dpend d'une des exognes. Il existe des tests spciques
pour dtecter l'htroscdasticit (Bourbonnais, pages 130 143).
Page: 11 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13
-
12 1 tude des rsidus
Fig. 1.6. La variance des rsidus augmente avec les valeurs d'une des exognes
Autocorrlation des rsidus
Ce problme est spcique aux donnes longitudinales. Dans le graphique des rsidus, nous plaons
des dates en abcisse, nous essayons de dtecter si les erreurs suivent un processus particulier au cours du
temps. L'autocorrlation peut tre positive (des "blocs" de rsidus sont positifs ou ngatifs, gure 1.8)
ou ngative (les rsidus sont alternativement positifs et ngatifs, gure 1.7).
Fig. 1.7. Autocorrlation ngative des rsidus
1.1.2 Graphiques des rsidus pour les donnes CONSO
Nous avons lanc la rgression sur les donnes CONSO (Figures 0.2 et 0.3). Nous construisons les
dirents graphiques des rsidus en les croisant avec l'endogne et les exognes (Figure 1.9). Nous avons
utilis le logiciel R.
Une information, essentiellement, saute aux yeux : 2 points semblent se dmarquer systmatiquement
sur l'endogne Y , le prix, la cylindre et la puissance. Pourtant ils ne semblent pas particulirement mal
restitus par la rgression puisque le rsidu (erreur de prdiction) ne prend pas des valeurs anormalement
Page: 12 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13
-
1.2 Tester le caractre alatoire des erreurs 13
Fig. 1.8. Autocorrlation positive des rsidus
leves (en valeur absolue) sur ces observations. Nous dtaillerons l'analyse de ces vhicules dans le
chapitre consacr l'analyse des points atypiques et inuents.
1.2 Tester le caractre alatoire des erreurs
Lorsque nous travaillons avec des donnes longitudinales, la date dnit naturellement l'ordonnance-
ment des observations. Il est important de vrier que les rsidus sont produits de manire totalement
alatoire. Si l'on conclut au rejet de cette hypothse, les rsidus sont produits par un processus quel-
conque, l'hypothse d'indpendance des erreurs est rejete, la mthode des moindres carrs ordinaires
n'est plus BLUE
3
: elle est certes non-biaise, mais elle n'est plus variance minimale, et la matrice
de variance covariance n'est plus estime de manire convergente, les tests de signicativit ne sont plus
oprants.
La dtection de l'autocorrlation des rsidus peut s'eectuer visuellement l'aide du graphique des
rsidus (Figures 1.8 et 1.7). Elle peut galement s'appuyer sur des techniques statistiques. La plus connue
est certainement le test de Durbin-Watson qui dtecte une forme particulire de l'autocorrlation. Nous
pouvons aussi utiliser des tests plus gnraux comme le test des squences de Wald.
Les causes de l'autocorrlation des rsidus peuvent tre multiples. Elles se rapprochent des problmes
de spcications l'origine des violations des hypothses (Bourbonnais, page 114) : une variable exogne
importante est absente de l'quation de rgression ; la liaison modlise n'est pas linaire ; les donnes ont
t manipules (ex. moyenne mobile, reconstitue par interpolation, etc.), c'est souvent le cas lorsqu'elles
sont produites par des observatoires statistiques.
Remarque 4 (Test l'autocorrlation pour les donnes transversales). Tester l'autocorrlation des rsidus
n'a aucun sens sur les donnes transversales. En eet, il n'y a pas d'ordonnancement naturel des obser-
vations. Il sera toujours possible de les mlanger diremment de manire ce que les rsidus ne suivent
3. Best Linear Unbiased Estimator
Page: 13 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13
-
14 1 tude des rsidus
Fig. 1.9. Graphiques des rsidus - Donnes CONSO
aucun processus particulier. Il est nanmoins possible de retrouver un agencement particulier des rsidus
en les triant selon l'endogne par exemple. Mais il faut rester trs prudent par rapport aux tests, le plus
sage est de s'appuyer sur les techniques graphiques simples pour dtecter d'ventuelles anomalies (ex.
Page: 14 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13
-
1.2 Tester le caractre alatoire des erreurs 15
les valeurs ngatives des rsidus sont regroups sur les petites valeurs de Y , les valeurs positives sur les
grandes valeurs de Y : manifestement il y a un problme dans le modle...).
1.2.1 Test de Durbin-Watson
Principe
Le test de Durbin-Watson permet de dtecter une autocorrlation de la forme :
"i = : "i1 + i; avec i N (0; ) (1.2)
Le test d'hypothses s'crit :
H0 : = 0
H1 : 6= 0
On utilise la statistique de Durbin-Watson
d =
Pni=2 (ei ei1)2Pn
i=1 e2i
(1.3)
Par construction, 0 d 4, d = 2 lorsque ^ = 0. Elle a t tabule par Durbin et Watson (AnnexesA) pour direntes tailles d'chantillon n et de nombre de vraies variables explicatives k (sans compter
la constante). La rgle de dcision n'est pas usuelle, nous pouvons la rsumer de la manire suivante pour
un test bilatral (Bourbonnais, pages 115 et 116) :
Acceptation de H0 si dU < d < 4 dU Rejet de H0 si d < dL ( > 0) ou d > 4 dL ( < 0) Incertitude si dL < d < dU ou 4 dU < d < 4 dL
Le test de Durbin-Watson est assez limit. Il ne teste que les autocorrlation des rsidus d'ordre 1.
De plus, son utilisation est encadre par des conditions draconiennes (Johnston, page 189) :
la rgression doit comporter un terme constant ;
les variables X sont certaines (non-stochastiques), en particulier elles ne doivent pas comporter
l'endogne retarde
4
.
Remarque 5 (Autres formes d'autocorrlation des rsidus). D'autres tests ont t mis au point pour valuer
d'autres formes de relation entre les rsidus (ex. processus auto-rgressif d'ordre 4 pour les donnes
trimestrielles, etc. Johnston, pages 180 200).
4. On doit utiliser une version modie du test de Durbin (Johnston, page 190)
Page: 15 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13
-
16 1 tude des rsidus
Exemple : Prdiction de la consommation de textile
Pour illustrer la mise en oeuvre du test de Durbin-Watson, nous reprenons un exemple extrait de
l'ouvrage de Theil (1971)
5
. L'objectif est de prdire la consommation de textile partir du revenu par
tte des personnes et du prix. Nous disposons d'observations sur 17 annes partir de 1923 (Figure 1.10).
Fig. 1.10. Donnes de Theil sur le textile
Fig. 1.11. Test de Durbin-Watson sur les donnes de Theil
L'quation de rgression mettre en place est
yi = a0 + a1xi;1 + a2xi;2 + "i , i = 1; : : : ; 17
o y est la consommation en textile, x1 le prix du textile et x2 le revenu par habitant.
5. Theil, H., Principles of Econometrics, Wiley, 1971. Page 102. L'exemple et la description des rsultats du
test sont accessibles sur le site http://shazam.econ.ubc.ca/intro/dwdist.htm
Page: 16 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13
-
1.2 Tester le caractre alatoire des erreurs 17
Les calculs sont organiss comme suit (Figure 1.11) :
1. A l'aide de la fonction DROITEREG() d'EXCEL, nous obtenons les coecients a0 = 130:71, a1 =
1:38 et a2 = 1:06.2. Nous formons la prdiction y^i avec ces coecients.
3. Nous calculons l'erreur de prdiction, le rsidu de la rgression "^i = ei = yi y^i.4. Nous pouvons alors calculer la statistique de Durbin-Watson. En formant le numrateur 874:66 et le
dnominateur 433:31, nous obtenons d = 2:02.
5. Pour un test bilatral 10%, nous rcuprons les valeurs critiques dans la table de Durbin-Watson
(Annexes A). Pour n = 17 et k = 2, dL = 1:02 et dU = 1:54.
6. Nous constatons que nous sommes dans la rgion dU < d < 4 dU , l'hypothse d'absence d'autocor-rlation d'ordre 1 des rsidus n'est pas contredite par les donnes ( = 0).
1.2.2 Test des squences
Le test des squences
6
, appel galement test de Wald-Wolfowitz, est plus gnrique que le prcdent.
Il cherche dtecter toute forme de rgularit lorsque les rsidus sont ordonns selon le temps. Il dtecte
autant les autocorrlations ngatives (les rsidus sont alternativement ngatives et positives) que les
autocorrlations positives (des blocs de rsidus conscutifs sont positifs ou ngatifs). tant plus gnrique,
il est bien entendu moins puissant pour des formes particulires d'autocorrlation. On lui prfrera le test
de Durbin-Watson par exemple si on veut vrier expressment la prsence d'un processus auto-rgressif
d'ordre 1 des rsidus.
Principe
Bien entendu, les donnes doivent tre ordonnes pour que le test puisse oprer. Notre rfrence est
la date pour les donnes longitudinales.
Le test repose sur la dtection des squences de valeurs positives '+' ou ngatives '-' des rsidus. La
statistique du test r est le nombre total de squences dans la srie d'observations.
Exemple 1. Si tous les rsidus ngatifs sont regroups sur les petites valeurs de Y , et inversement, les
rsidus positifs, sur les grandes valeurs de Y , nous aurons simple r = 2 squences. C'est minemment
suspect si l'on se rfre l'hypothse H0 selon laquelle les rsidus sont gnrs alatoirement.
Posons n+ (resp. n) le nombre de rsidus positifs (resp. ngatifs) dans la srie des rsidus. Sous l'hy-
pothse H0 le processus de gnration des donnes est alatoire, la statistique r suit asymptotiquement7
une loi normale de paramtres :
6. Voir Siegel, S., Castellan, J., Nonparametric statistics for the behavioral sciences, McGraw-Hill, 1988, pages
58 64, section "The one-Sample runs test of randomness"
7. Pour les petites valeurs de n+ et n, les valeurs critique de r ont t tabules. Voir par exemple Siegel-
Castellan, Table G, page 331. Curieusement, je n'ai pas pu en trouver en ligne...
Page: 17 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13
-
18 1 tude des rsidus
r =2n+n
n+ 1 (1.4)
r =
r(r 1)(r 2)
n 1 (1.5)
Nous pouvons former la statistique centre et rduite z = rrr . La rgion critique du test rejet de
l'hypothse de gnration alatoire des rsidus s'crit :
R:C: : jzj > u12
o u12 est le fractile d'ordre 1 2 de la loi normale centre et rduite N (0; 1).
Remarque 6 (Le test de squences est un test bilatral). Attention, le test des squences est bien un test
bilatral. Des '+' et '-' alterns (r lev) sont tout aussi suspects que des blocs de '+' et '-' (r faible). Ce
test permet autant de dtecter les autocorrlations ngatives que positives.
Prdiction de la consommation de textile
Fig. 1.12. Test de Wald-Wolfowitz sur les donnes de Theil
Reprenons l'exemple de la consommation de textile (Theil, 1971), nous reproduisons les calculs l'aide
d'un tableur (Figure 1.12) :
1. A l'aide de la fonction DROITEREG() d'EXCEL, nous obtenons les coecients a0 = 130:71, a1 =
1:38 et a2 = 1:06.
Page: 18 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13
-
1.3 Test de normalit 19
2. Nous formons la prdiction y^i avec ces coecients.
3. Nous calculons l'erreur de prdiction, le rsidu de la rgression "^i = ei = yi y^i.4. Nous annotons avec le caractre '+' (resp. '-') les rsidus positifs (resp. ngatifs).
5. Nous comptons le nombre de valeurs positives et ngatives, n+ = 9 et n = 8, nous vrions que
n = n+ + n = 17.
6. Nous pouvons calculer la moyenne et l'cart-type de la statistique de test sous l'hypothse nulle :
r = 9:47 et r = 1:99.
7. Nous aectons un numro chaque squence de '+' et '-', nous obtenons ainsi le nombre de squences
r = 7.
8. Nous calculons enn la statistique centre et rduite z = 79:471:99 = 1:24 ;9. Que nous comparons au fractile d'ordre 0:95 (pour un test bilatral 10%) de la loi normal centre
et rduite u0:95 = 1:64.
Nous sommes dans la rgion d'acceptation de H0. Nous pouvons conclure que les rsidus sont ind-
pendants, ils sont gnrs par un processus purement alatoire.
1.3 Test de normalit
Une grande partie de l'infrence statistique (ex. test de pertinence globale de la rgression, prdiction
par intervalle, etc.) repose sur l'hypothse de distribution normaleN (0; ") du terme d'erreur de l'quationde rgression (quation 0.1). Vrier cette hypothse semble incontournable pour obtenir des rsultats
exacts
8
.
Nous disposons des erreurs observs "^i, les rsidus de la rgression, pour valuer les caractristiques
des erreurs thoriques "i. Cela n'est pas sans poser des problmes. En eet, si la variance de l'erreur
est constante V ("i) = 2" , la variance du rsidu, l'erreur observe, ne l'est pas V ("^i) =
2"(1 hii), o
hii est lue sur la diagonale principale de la hat matrix H = X(X0X)1X 0. Et surtout, la covariance
cov("^i; "^j) = 2"hij entre deux rsidus observs n'est pas nulle en gnral.De fait, la loi des statistiques sous H0 (normalit des erreurs) que l'on pourrait utiliser dans cette
section sont modis, induisant galement une modication des valeurs critiques pour un mme risque .
Comment ? Il n'y a pas vraiment de rponses tablies. Il semble nanmoins que les tests usuels restent
valables, pour peu que l'on ait susamment d'observations (n 50) 9. Il faut surtout voir les tests comme8. Pour un tour d'horizon des consquences des violations des hypothses dans la rgression, nous conseillons
l'excellent document de J.Ravet disponible en ligne http://homepages.ulb.ac.be/~jravet/stateco/docs/
econometrie.pdf
9. Cette valeur est vraiment donn comme un ordre d'ides. En ralit, le problme de l'utilisation des rsidus
pour valuer la normalit des erreurs est souvent pass sous silence dans la littrature. Le seul ouvrage o cela
est pos clairement est celui de Capra P., Van Cutsem B., Mthodes et modles en statistique non paramtrique
- Expos fondamental, Dunod, Presse de l'Universit de Laval, 1988 ; pages 306 et 307
Page: 19 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13
-
20 1 tude des rsidus
des indicateurs supplmentaires pour valuer la rgression, il faut rellement s'inquiter si la distribution
empirique des rsidus s'carte trs fortement de l'hypothse de normalit c.--d. avec des p-value trs
faibles lorsque les tests sont mis en oeuvre. C'est en ce sens que nous les prsentons
10
.
1.3.1 Graphique Q-Q plot
Principe
Il ne s'agit pas d'un test au sens statistique du terme. Le graphique Q-Q plot (quantile-quantile plot)
est un graphique "nuage de points" qui vise confronter les quantiles de la distribution empirique et
les quantiles d'une distribution thorique normale, de moyenne et d'cart type estims sur les valeurs
observes. Si la distribution est compatible avec la loi normale, les points forment une droite. Dans la
littrature francophone, ce dispositif est appel Droite de Henry.
Remarque 7. Pour plus de dtails, nous conseillons la lecture du document en ligne http://eric.
univ-lyon2.fr/~ricco/cours/cours/Test_Normalite.pdf, section 1.5.
Application sur les donnes CONSO
A partir du descriptif de notre document de rfrence, nous avons construit la Droite de Henry dans
le tableur EXCEL (Figure 1.13). Le dtail des calculs est le suivant :
1. Trier les rsidus "^i de manire croissante, ce sont les quantiles observs.
2. Produire la fonction de rpartition empirique, lisse en accord avec la loi normale Fi =i0:375n+0:25
3. Calculer les quantiles thoriques normalises zi en utilisant la fonction inverse de la loi normale centre
rduite.
4. En dduire les quantiles thoriques d-normalises "i = ~" zi. Si la distribution empirique cadreparfaitement avec la loi normale, les points devraient tre aligns sur la diagonale principale. Ici, pour
simplier
11
, nous prenons ~" =q
1n
Pni=1 "^
2i .
Nous constatons que les points sont relativement bien aligns. Il n'y a pas d'incompatibilit manifeste
avec une distribution normale.
10. Pour une prsentation dtaille des tests d'adquation la loi normale d'une distribution empirique, nous
conseillons un de nos supports accessibles en ligne http://eric.univ-lyon2.fr/~ricco/cours/cours/Test_
Normalite.pdf. Des liens vers d'autres documents et des chiers exemples sont disponibles sur notre site de
supports de cours http://eric.univ-lyon2.fr/~ricco/cours/supports_data_mining.html, section Statistique
11. En toute rigueur, nous devrions utiliser l'estimateur sans biais de l'cart-type de l'erreur (^"). Mais cette
petite entorse ne tire pas consquence dans notre procdure. Il s'agit simplement d'un changement d'chelle. Si
les rsidus sont compatibles avec la distribution normale, les points formeront une droite que l'on utilise l'un ou
l'autre des estimateurs.
Page: 20 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13
-
1.3 Test de normalit 21
Fig. 1.13. Droite de Henry sur les rsidus des MCO Donnes CONSO
Bien souvent, on peut se contenter de ce diagnostic. Nous ragissons uniquement si l'cart avec la
normalit est trs marque. Nanmoins, pour les puristes, nous pouvons consolider les conclusions en
s'appuyant sur la batterie des tests de normalit. Nous nous contenterons de tests asymptotiques simples.
1.3.2 Test de symtrie de la distribution des rsidus
Principe du test
Ce test est bas sur le coecient d'asymtrie
1 =33(1.6)
o 3 est le moment centr d'ordre 3, et l'cart-type.
On sait que 1 est gal 0 si la distribution est normale. Le test d'hypothses s'crit de la manire
suivante :
H0 : " suit une loi normale, par consquent 1 = 0
H1 : " ne suit pas une loi normale, par consquent 1 6= 0
Remarque 8. Attention, les hypothses ne sont pas symtriques. Si on tablit que 1 6= 0, nous savonsque la distribution n'est pas gaussienne. En revanche, conclure 1 = 0 indique que la distribution est
seulement compatible avec une loi normale.
Page: 21 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13
-
22 1 tude des rsidus
Statistique du test et rgion critique
Pour raliser le test, nous devons dnir la statistique du test et sa loi de distribution sous H0. Nous
utilisons le coecient d'asymtrie empirique :
g1 =1n
Pi "^
3i
1n
Pi "^
2i
32
(1.7)
Sous H0, elle suit asymptotiquement une loi normale d'esprance et d'cart-type12
1 0
1 r
6
n
Nous formons le rapport c1 =g11. Pour un test bilatral au risque , la rgion critique est dnie par
R:C: : jc1j u12
o u12 est le fractile d'ordre 1 2 de la loi normale centre rduite.
Application sur les donnes CONSO
Nous construisons le test ci-dessus sur les rsidus des MCO sur nos donnes CONSO. Voici les prin-
cipales tapes (Figure 1.14) :
1. Nous rcuprons la colonne des rsidus "^i.
2. Nous calculons les colonnes de "^2i et "^3i .
3. Nous calculons les sommes et formons g1 =0:12200:56023=2
= 0:2909.4. Nous calculons l'cart-type 1 =
q631 = 0:4399, et le rapport jc1j = 0:6612.5. Nous observons que jc1j < 1:6449 = u0:95, pour un test bilatral 10%. Nous ne sommes pas dans largion critique.
Si l'on se rfre au rsultats du test, l'hypothse de compatibilit avec la normale ne peut pas tre
rejete.
1.3.3 Test de Jarque-Bera
Principe
Ce test complte le prcdent en intgrant le coecient d'aplatissement 2 =44 3 dans la procdure.Les hypothses deviennent :
12. Une formulation plus prcise de l'cart-type est disponible dans http://eric.univ-lyon2.fr/~ricco/
cours/cours/Test_Normalite.pdf
Page: 22 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13
-
1.3 Test de normalit 23
Fig. 1.14. Test de normalit des rsidus fond sur le coecient de symtrie sur les donnes CONSO
H0 : " suit une loi normale, par consquent 1 = 0 et 2 = 0
H1 : " ne suit pas une loi normale, par consquent 1 6= 0 ou 2 6= 0
o 4 est le moment centr d'ordre 4, est l'cart-type.
Remarque 9 (Rejet de l'hypothse de normalit). Ici galement, le test n'est pas symtrique. Si la distribu-
tion est compatible avec la loi normale, 1 et 2 sont simultanment zro. En revanche, il sut que l'un
des deux soient dirents de zro pour que l'hypothse de normalit soit rejete. Autre point important,
on conjecture que les statistiques associes chaque coecient sont indpendants (asymptotiquement).
Statistique du test et rgion critique
Estimateur de 2
Nous devons dterminer la statistique et la distribution sous H0 du coecient d'aplatissement. Le
plus simple est d'utiliser l'estimation triviale dduite de la dnition du coecient 2 :
g2 =1n
Pi "^
4i
1n
Pi "^
2i
2 3 (1.8)Sous H0, l'esprance et l'cart-type de g2 sont :
Page: 23 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13
-
24 1 tude des rsidus
2 0
2 r
24
n
La statistique standardise suit une loi normale : c2 =g22 N (0; 1).
Statistique de Jarque-Bera
Maintenant, il faut trouver une manire de combiner les deux statistiques g1 et g2. Puisqu'ils sont
indpendants (asymptotiquement), le plus simple est de proposer la statistique de Jarque-Bera
13
:
T =(n p 1)
6
g21 +
g224
(1.9)
Remarque 10 (Degr de libert). La valeur (n p 1) reprsente le degr de libert : nous disposons d'unchantillon de taille n, il y a (p+1) coecients estimer dans la rgression avec constante. Cette prise en
compte des degrs de liberts entrane une correction des rsultats fournis par les logiciels (ex. la fonction
jarqueberaTest(.) du package fBasics de R) d'autant plus importante que le nombre de variables vraies p
est grand et que la taille de l'chantillon n est faible.
Sous H0, la statistique T suit une loi du 2 2 degrs de libert. La rgion critique du test, au risque
, s'crit :
R:C: : T > 21(2)
Il s'agit d'un test unilatral, 21(2) correspond au fractile d'ordre 1 de la loi du 2 2 degrsde libert.
Application sur les donnes CONSO
Nous compltons le test fond sur le coecient d'asymtrie en utilisant les rsidus de la rgression sur
les donnes CONSO. Voici les principales tapes (Figure 1.15) :
1. Nous rcuprons la colonne des rsidus "^i.
2. Nous calculons les colonnes de "^2i , "^3i et "^
4i .
3. Nous calculons les sommes et formons g1 =0:12200:56023=2
= 0:2909.4. Nous formons g2 =
0:70200:56022 3 = 0:7626.5. Reste la calculer la statistique de Jarque-Bera : T = 31416
h(0:2909)2 + (0:7626)24
i= 0:9967.
6. Que l'on compare avec le seuil critique 20:90(2) = 4:6052.
Au risque de = 10%, nous ne pouvons pas rejeter l'hypothse d'un distribution gaussienne des
rsidus.
13. http://fr.wikipedia.org/wiki/Test_de_Jarque_Bera
Page: 24 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13
-
1.4 Conclusion 25
Fig. 1.15. Test de Jarque-Bera pour vrier la normalit des rsidus sur les donnes CONSO
1.4 Conclusion
Examiner les rsidus est un des moyens les plus srs d'valuer la qualit d'une rgression. Nous avons
prsent dans ce chapitre quelques outils, plus ou moins sophistiqus, pour apprcier correctement les
informations qu'ils peuvent nous apporter. Dans la majorit des cas, les cueils qui peuvent invalider une
rgression sont :
la liaison tudie est non-linaire ;
un problme de spcication, par ex. une variable exogne importante manque ;
l'existence de points atypiques ou exagrment inuents ;
les erreurs ne sont pas indpendants et/ou dpendent d'une des exognes ;
il y a une rupture de structure dans la relation ou les donnes sont organises en blocs non homo-
gnes,...
Malgr la puissance des procdures numriques avances, les techniques graphiques trs simples sont
privilgier, au moins dans un premier temps : leurs conditions d'applications sont universelles, elles
proposent un diagnostic nuanc de situations qui peuvent s'avrer complexes. Rien ne nous empche par
la suite de complter le diagnostic visuel l'aide des tests statistiques.
Page: 25 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13
-
Page: 26 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13
-
2Dtection des points aberrants et des points inuents
L'objectif de la dtection des points aberrants et inuents est de reprer des points qui jouent un rle
anormal dans la rgression, jusqu' en fausser les rsultats. Il faut s'entendre sur le terme anormal, nous
pourrons en rsumer les direntes tournures de la manire suivante :
L'observation prend une valeur inhabituelle sur une des variables. Nous parlons alors de dtection
univarie car nous tudions les variables individuellement. Par exemple, un des vhicules a une
puissance 700 cv, nous avons intgr une Formule 1 dans notre chier de vhicules.
Une combinaison de valeurs chez les exognes est inhabituelle. Par exemple, une voiture trs lgre
et trs puissante : le poids pris individuellement ne se dmarque pas, la puissance non plus, mais
leur concomitance est surprenante (Figure 2.1).
L'observation est trs mal reconstitue par la rgression, n'obissant pas de manire ostensible la
relation modlise entre les exognes et l'endogne. Dans ce cas, le rsidu observ est trop lev.
L'observation pse de manire exagre dans la rgression, au point que les rsultats obtenus (pr-
diction, coecient, ...) sont trs dirents selon que nous l'intgrons ou non dans la rgression.
Fig. 2.1. Le point entour est suspect car la combinaison de valeurs est inhabituelle
Outre les ouvrages enumrs en bibliographie, deux rfrences en ligne compltent merveille ce
chapitre : le document de J. Confais et M. Le Guen [12], section 4:3, pages 307 311 ; et la prsentation de
Page: 27 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13
-
28 2 Points aberrants et points inuents
A.Gueguen, La rgression linaires - Outils diagnostics, http://ifr69.vjf.inserm.fr/~webifr/ppt/
outilsdiag.ppt.
2.1 Points aberrants : dtection univarie
Bote moustache et dtection des points atypiques
L'outil le plus simple pour se faire une ide de la distribution d'une variable continue est la bote
moustaches (Figure 2.2), dite box-plot
1
. Elle ore une vue synthtique sur plusieurs indicateurs impor-
tants : le premier quartile (Q1), la mdiane (Me) et le troisime quartile (Q3). On peut aussi jauger
visuellement l'intervalle inter-quartile qui mesure la dispersion (IQ = Q3Q1).
Fig. 2.2. Boxplot de la variable endogne "consommation (y)", 2 observations se dmarquent
On pense tort que les extrmits de la bote correspond aux valeurs minimales et maximales. En
ralit il s'agit des valeurs minimales et maximales non atypiques. Les seuils dsignant les valeurs atypiques
sont dnies par les rgles suivantes
2
:
LIF = Q1 1:5 IQUIF = Q3 + 1:5 IQ
o LIF signie "lower inner fence" et UIF "upper inner fence".
Les points situs au del de ces limites sont souvent juges atypiques. Il convient de se pencher
attentivement sur les observations correspondantes.
1. http://en.wikipedia.org/wiki/Box_plot
2. http://www.itl.nist.gov/div898/handbook/prc/section1/prc16.htm
Page: 28 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13
-
2.1 Points aberrants : dtection univarie 29
Remarque 11 (Rgle des 3-sigma). Une autre rgle empirique est largement rpandue dans la communaut
statistique, il s'agit de la rgle des 3-sigma. Elle xe les bornes basses et hautes 3 fois l'cart-type autour
de la moyenne. Si l'on considre que la distribution est normale, 99:7% des observations sont situes dans
cet intervalle. La principale faiblesse de cette approche est l'hypothse de normalit sous-jacente qui en
rduit la porte.
Les "outer fence"
Il est possible de durcir les conditions ci-dessus en largissant les bornes des valeurs. On parle alors
de outer fence. Elles sont dnies de la manire suivante :
LOF = Q1 3 IQUOF = Q3 + 3 IQ
Pour distinguer les points dtects selon la rgle inner ou outer, on parle de "points moyennement
atypiques" (mild outlier) et "points extrmement atypiques" (extreme outlier).
Application sur les donnes CONSO
Il est possible de produire une bote moustache pour chaque variable du chier de donnes. Nous
disposons ainsi trs rapidement d'informations sur l'talement de la distribution, de la prsence de points
qui s'cartent fortement des autres. Pour la variable endogne (Figure 2.2), nous dtectons immdiatement
2 observations suspectes qui consomment largement plus que les autres vhicules : la Ferrari 456 GT et
la Mercedes S 600.
Une autre manire de procder est d'utiliser simplement le tableur EXCEL (Figure 2.3) :
1. de produire le 1er et le 3me quartile ;
2. d'en dduire l'intervalle inter-quartile ;
3. de calculer les bornes LIF et UIF ;
4. et de s'appuyer sur la mise en forme conditionnelle pour distinguer les points "suspects" pour chaque
variable.
Il semble que 3 vhicules soient assez dirents du reste de l'chantillon, sur la quasi-totalit des
variables. Nous produisons dans un tableau rcapitulatif les associations "observation-variable" suspects
(Tableau 2.1).
Page: 29 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13
-
30 2 Points aberrants et points inuents
Fig. 2.3. Dtection univarie des points atypiques pour chaque variable
Observations Prix Cylindre Puissance Poids Consommation
Ferrari 456 GT * * * *
Mercedes S 600 * * * * *
Maserati Ghibli GT * *
Tableau 2.1. Points suspects chier CONSO : dtection univarie
2.2 Dtection multivarie sur les exognes : le levier
Le levier
La dtection univarie donne dj des informations intressantes. Mais elle prsente le dfaut de ne
pas tenir compte des interactions entre les variables. Dans cette section, nous tudions un outil capital
pour l'tude des points atypiques et inuents : le levier.
Son interprtation est relativement simple. Il indique, pour l'observation i, la distance avec le centre
de gravit du nuage de points dans l'espace dni par les exognes. La mesure a de particulier qu'elle
tient compte de la forme du nuage de points, il s'agit de la distance de Mahalanobis (Tenenhaus, page
94). La prise en compte de la conguration des points dans l'espace de reprsentation permet de mieux
juger de l'loignement d'une observation par rapport aux autres (Figure 2.4).
Page: 30 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13
-
2.2 Dtection multivarie sur les exognes : le levier 31
Fig. 2.4. Le point 4 et le centre de gravit } sont situs aux mmes coordonnes dans les graphiques (a) et (b).Pourtant 4 apparat nettement atypique dans (b).
Le levier hii de l'observation i est lue sur la diagonale principale de la matrice H, dite Hat Matrix,
dnie de la manire suivante
H = X(X 0X)1X 0 (2.1)
La matriceH joue un rle trs important dans la rgression, elle permet de passer des valeurs observes
de Y vers les valeurs prdites Y^ , elle permet aussi le passage de l'erreur thorique vers les rsidus observs 3.
Les lments hij de la matrice H prsentent un certain nombre de proprits. Concernant les lments
de la diagonale principale hii, on parle de levier car il dtermine l'inuence de l'observation i sur les
estimateurs obtenus par les moindres carrs (Dodge, page 130). Mme s'il n'utilise que les informations
en provenance des exognes Xj , le champ d'action du levier dpasse la dtection multivarie des points
aberrants. Nous le retrouverons dans la grande majorit des formules de dtection des points atypiques
et inuents que nous prsenterons dans la suite de ce chapitre.
Calcul des lments diagonaux de la matrice H
La taille (nn) de la matrice H peut tre considrable ds lors que la taille de l'chantillon augmente.Il est possible d'en calculer uniquement les lments diagonaux en utilisant la formule
hii = hi = xi(X0X)1x0i
o xi reprsente la i-me ligne de la matrice X.
Rgion critique
Nous disposons d'un indicateur. Il nous faut maintenant dterminer partir de quelle valeur de hi
nous devons nous pencher attentivement sur une observation. Autrement dit, quelle est la valeur critique
qui permet d'indiquer qu'un point est "suspect" ?
3. "^ = [I X(X 0X)1X 0]"
Page: 31 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13
-
32 2 Points aberrants et points inuents
Pour cela, penchons-nous sur quelques proprits du levier. Par dnition 0 hi 1, et surtoutPni=1 hi = p+ 1, o p+ 1 est le nombre de coecients estimer dans une rgression avec constante. On
considre que le levier d'une observation est anormalement lev ds lors que :
R:C: : hi > 2 p+ 1n(2.2)
Remarque 12 (Seuil de coupure et tude des points). La rgle dnie ci-dessus, aussi rpandue soit-elle,
est avant tout empirique. Dans la pratique, il est tout aussi pertinent de trier les observations selon la
valeur de hi de manire mettre en vidence les cas extrmes. Une tude approfondie de ces observations
permet de statuer sur leur positionnement par rapport aux autres.
Application sur les donnes CONSO
Fig. 2.5. Quelques indicateurs de points atypiques et inuents dans TANAGRA. Donnes CONSO.
Page: 32 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13
-
2.2 Dtection multivarie sur les exognes : le levier 33
Nous appliquons les calculs ci-dessus sur les donnes CONSO. Nous avons utilis le logiciel TANAGRA
(Figure 2.5)
4
. La valeur de coupure est 2 4+131 = 0:3226, 3 points se dmarquent immdiatement, lesmmes que pour la dtection univarie : la Ferrari (h8 = 0:8686), la Mercedes (h9 = 0:4843) et la Maserati
(h10 = 0:6418). Les raisons semblent videntes : il s'agit de grosses cylindres luxueuses, des limousines
(Mercedes) ou des vhicules sportifs (Ferrari, Maserati).
Essayons d'approfondir notre analyse en triant cette fois-ci les observations de manire dcroissante
selon hi. Les 3 observations ci-dessus arrivent bien videmment en premire place, mais nous constatons
que d'autres observations prsentaient un levier proche de la valeur seuil. Il s'agit de la Toyota Previa
Salon, et dans une moindre mesure de la Hyundai Sonata 3000 (Figure 2.6). La premire est un monospace
(nous remarquons proximit 2 autres monospaces, la Seat Alhambra et la Peugeot 806) qui se distingue
par la conjonction d'un prix et d'un poids levs ; la seconde est une voiture de luxe corenne, les raisons
de son loignement par rapport aux autres vhicules tiennent, semble-t-il, en la conjonction peu courante
d'un prix relativement moyen et d'une cylindre leve.
Fig. 2.6. Trier les donnes CONSO selon la valeur du levier
4. Nous avons utilis un logiciel spcialis par commodit. L'enchanement des calculs peut tre facilement
reproduit sur un tableur, il sut d'utiliser bon escient les fonctions matricielles.
Page: 33 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13
-
34 2 Points aberrants et points inuents
2.3 Rsidu standardis
Rsidu standardis
Le rsidu standardis, appel galement rsidu studentis interne dans certains ouvrages, s'intresse
l'importance du rsidus observ "^i = yi y^i. S'il est anormalement lev, en valeur absolue, le point at mal reconstitu par le modle : il s'carte ostensiblement de la relation modlise entre les exognes
et l'endogne.
Si par hypothse, la variance de l'erreur 2"i = 2" est constante, il en va autrement du rsidu
2"^i
=
2"(1 hi). Nous devons donc normaliser le rsidu par son cart-type pour rendre les carts comparablesd'une observation l'autre.
Lorsque nous travaillons sur un chantillon, nous ne disposons pas de la vraie valeur de 2" , nous
estimons la variance des rsidus avec
^2"^i = ^2"(1 hi) (2.3)
o hi est lue dans la Hat Matrix H, ^2" =
Pi "^i
np1 est l'estimateur de la variance de l'erreur.
Le rsidu standardis est dni par le rapport
ti ="^i^"^i
="^i
^"p
(1 hi)(2.4)
Rgion critique
Pour dcider du statut d'un point, il nous faut dnir une valeur seuil au del de laquelle le rsidu
standardis est anormalement lev (en valeur absolue).
Nous pouvons nous appuyer sur un appareillage statistique ici. En eet, par hypothse "i N (0; "),nous en dduisons que "^i N (0; "^i). On peut montrer facilement que ^2"^i suit une loi du 2 (np1)degrs de libert.
De fait, le rsidu standardis, dni par le rapport (Equation 2.4) entre une loi normale et la racine
carre d'une loi du 2 normalise), suit une loi de Student (n p 1) degrs de libert
ti T (n p 1) (2.5)
Nous dcidons qu'une observation est particulirement mal reconstitue par le modle (d'une certaine
manire atypique) lorsque
R:C: : jtij > t12 (n p 1)
o t12 (n p 1) est le fractile d'ordre 1 2 de la loi de Student (n p 1) degrs de libert.Il s'agit bien d'un test bilatral. Le rsidu est suspect s'il est particulirement lev en valeur absolue.
Au nal, un point apparat comme aberrant avec un rsidu standardis lev si :
Page: 34 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13
-
2.3 Rsidu standardis 35
il est mal prdit c.--d. "^i est lev ;
la rgression est prcise c.--d. ^" est faible ; en eet, si la rgression est globalement prcise, un
point mal prdit apparat comme d'autant plus suspect ;
le point est loign des autres dans l'espace des exognes ; en eet, plus hi est lev (hi 1), plus(1 hi) 0, et le rapport est lev.
Application sur les donnes CONSO
TANAGRA fournit automatiquement les rsidus standardiss lors de l'analyse des points atypiques
(Figure 2.5). Il faut comparer la valeur absolue de la colonne avec la valeur seuil t0:95(26) = 1:7056 pour
un risque 10%.
Lorsque le nombre d'observations est lev, il devient mal ais d'inspecter le tableau des valeurs
du rsidus standardis. Il est plus commode de revenir au graphique des rsidus en mettant en abcisse
l'endogne et en ordonne le rsidu standardis. Nous traons alors une ligne matrialisant les valeurs
seuils t12 et +t12 (Figure 2.7) 5.
Fig. 2.7. Graphique des rsidus standardiss vs. endogne - Donnes CONSO
Remarque 13 (Taille d'chantillon et risque ). Autre approche pragmatique, nous pouvons trier les don-
nes selon jtij. Les vhicules suspects sont trs facilement mis en vidence (Figure 2.8). Cette technique estd'autant plus intressante que le nombre de vhicules situs dans la rgion critique s'accrot mcanique-
ment mesure que la taille n de l'chantillon augmente, laissant croire un nombre lev d'observations
5. Graphique ralis avec le logiciel R, il est trs facile de placer des tiquettes aux coordonnes choisies.
Page: 35 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13
-
36 2 Points aberrants et points inuents
aberrantes. Il faudrait ajuster le risque en accord avec la taille d'chantillon n. Mais il s'agit l d'une
opration dlicate. En utilisant un tri simple, nous pouvons considrer, par ordre d'importance, les points
les moins bien reconnus par le modle sans se poser la question d'un seuil critique convenable.
Fig. 2.8. Observations tries selon la valeur absolue du rsidu standardis
Les calculs aboutissent des rsultats contrasts, correspondant des situations trs direntes (Fi-
gure 2.8) :
La Mercedes cumule un rsidu fort (1:374) et un levier lev (0:4843). Ce type de vhicule appar-tient une catgorie spcique qui n'a rien en commun avec les voitures recenss dans ce chier.
La "Ferrari" est mal reconstitue parce qu'elle est avant tout trs dirente des autres h = 0:8686.
Le rsidu brut "^ = 0:610 n'est pas trs lev, on prdit correctement sa consommation au regard
de ses caractristiques. Mais le rsidu rapport l'cart-type montre qu'il s'agit quand mme d'un
vhicule bien particulier.
La Hyundai et la Mitsubishi Galant correspondent une tout autre situation. Ces observations se
fondent dans l'ensemble de la population, le levier est en de du seuil critique. En revanche ils
n'obissent pas la relation mise en vidence entre les exognes et l'endogne (Equation 0.1). La
Hyundai consomme fortement par rapport ses caractristiques "^ = y y^ = 11:710:264 = 1:436 ;la Mitsubishi est en revanche particulirement sobre (au regard de sa cylindre) "^ = 7:6 9:168 =1:568.
Page: 36 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13
-
2.4 Rsidu studentis 37
2.4 Rsidu studentis
Le rsidu studentis
Principe
Le rsidu standardis est un indicateur certes intressant mais il prsente un inconvnient fort : nous
valuons l'importance du rsidu "^i d'une observation qui a particip la construction de la droite de
rgression. De fait, le point est juge et partie dans l'valuation : on l'utilise pour construire le modle,
puis on regarde s'il a bien t modlis. Si l'observation est fortement inuente, au sens qu'elle "tire"
exagrment les rsultats de manire prsenter un rsidu brut trs faible "^ 0, nous conclurons tortqu'elle est bien reconstitue et donc ne fausse en rien les rsultats de la modlisation (Figure 2.9).
Fig. 2.9. Exemple de rgression simple o l'observation 4 est certes bien modlise ("^ 0) mais elle faussetotalement les calculs : on parle de point exagrment inuent.
Il faudrait mettre en place une procdure qui permet de confronter les rsultats selon qu'une
observation participe ou non aux calculs. Parmi les pistes possible, nous nous penchons sur l'erreur
de prdiction. Une mesure objective devrait ne pas faire participer le point i dans la construction du
modle utilis pour prdire la valeur y^i. Le rsidu studentis, on parle de rsidu studentis externe ou
RSTUDENT dans certains ouvrages, s'appuie sur ce principe, il utilise la procdure suivante (Dodge,
page 135) :
Pour chaque observation i,
Nous la retirons de l'ensemble des donnes, et nous calculons les paramtres de la rgression.
Nous eectuons la prdiction sur l'observation i en donne supplmentaire y^i(i) Nous obtenons aussi l'estimation de l'cart-type des erreurs ^"(i), le levier hi(i) obtenu avec laformule hi(i) = xi(X 0iXi)1x0i o Xi correspond la matrice des X sans la ligne numro i. A l'instar du rsidu standardis, nous formons le rsidu studentis partir du rapport
Page: 37 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13
-
38 2 Points aberrants et points inuents
ti =yi y^i(i)
^"(i)p
(1 hi(i))(2.6)
Le principe de la donne supplmentaire permet de mieux apprhender le rle/le poids de l'observation
i dans la rgression. Si, exclue de la rgression, elle reste bien prdite, elle est fondue dans la masse des
points ; en revanche, si son exclusion des calculs entrane une trs mauvaise prdiction, on peut penser
qu'elle pse fortement, peut-tre tort, sur les calculs (Figure 2.10).
Fig. 2.10. Principe de la donne supplmentaire : l'observation 4, exclue du calcul de la droite de rgression,devient trs mal prdite
Une autre interprtation
Il existe une autre manire de calculer le rsidu studentis. Elle ne facilite pas spcialement les calculs.
En revanche, elle a le mrite de mettre en lumire la loi de distribution que nous pourrons utiliser par la
suite pour dnir la rgion critique du test.
Le principe est le suivant, nous eectuons n rgressions avec toutes les observations. Pour la rgression
numro i, nous introduisons une variable muette z dnie de la manire suivante
z = 1 pour l'observation numro i
= 0 sinon
La rgression numro i s'crit donc de la manire suivante :
y = a0 + a1x1 + : : :+ apxp + b z + " (2.7)
Le rsidu studentis correspond au t de Student du test de signicativit du coecient b. Nous savons
que cette statistique suit une loi de Student T (n p 2) (n p 2) degrs de libert. En eet, il y abien (p+ 2) coecients estimer dans l'quation 2.7.
Page: 38 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13
-
2.4 Rsidu studentis 39
Calcul pratique
Si le concept sous-jacent semble relativement simple, il reste produire les rsultats. Quelle que soit
l'approche adopte, il faudrait eectuer n rgressions. Si n est lev, le calcul est trs lourd, il peut se
rvler rdhibitoire.
A ce stade intervient une proprit remarquable du rsidu studentis : il est possible de le calculer
pour chaque observation i sans avoir procder explicitement aux n rgressions. Nous utilisons
pour cela d'une formule de transformation du rsidu standardis (Tenenhaus, page 95)
6
:
ti = ti
sn p 2
n p 1 t2i(2.8)
Le calcul supplmentaire demand est ngligeable.
Rgion critique
A partir de la formulation sous forme d'quation de rgression (quation 2.7), il est possible d'crire
rigoureusement le test d'hypothses permettant de dterminer si une observation est atypique/inuente
ou non. On oppose :
H0 : b = 0
H1 : b 6= 0
Sous H0, la statistique ti T (n p 2), on en dduit la rgion critique du test :
R:C: : jti j > t12 (n p 2)
o t12 (n p 2) est le fractile d'ordre 1 2 de la loi de Student (n p 2) degrs de libert.Il s'agit bien d'un test bilatral. Le rsidu est suspect s'il est particulirement lev en valeur absolue.
Comparaisons multiples et contrle du risque I
En multipliant les tests, nous valuons n observations, nous augmentons le risque de signaler tort
des points atypiques. Certains auteurs prconisent de rendre la dtection plus exigeante en introduisant
la correction de Bonferroni pour les comparaisons multiples : on divise le risque par l'eectif n. Pour
chaque observation tester, nous comparons le rsidu studentis avec le fractile d'ordre 1 2n . Dansl'exemple CONSO, le vrai risque utiliser serait 1 0:1231 = 0:9984 et le seuil critique t0:9984(25) = 3:539.On constate que sur les donnes CONSO (Figure 2.11), aucune observation n'est atypique avec cette
procdure.
6. La formule propose dans Dodge semble errone (page 135)
Page: 39 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13
-
40 2 Points aberrants et points inuents
Comparaisons multiples et contrle du risque II
Si l'on comprend le principe de la correction du risque, multiplier les tests augmente les chances de
dsigner tort un point aberrant, il faut donc tre plus exigeant, la rectication ci-dessus est purement
empirique. Pour dpasser ces problmes, d'autres auteurs proposent tout simplement de comparer di-
rectement le rsidu studentis avec une valeur ad hoc, inspire nanmoins des seuils fournis par la loi
de Student, la valeur la plus utilise est 2 en rfrence un test 5%. Pour ma part, je pense que le
plus simple encore est de trier les observations selon jti j, cela nous donne plus de latitude pour juger del'ampleur des carts.
Application sur les donnes CONSO
Nous compltons le tableau EXCEL en ajoutant la colonne des rsidus studentiss. La valeur seuil
10% est 1:7081. Nous trions les donnes selon la valeur absolue de cette colonne. Nous constatons que ce
sont les mmes points que prcdemment (cf. le rsidu standardis) qui se dmarquent ((Mercedes S600,
Hyundai Sonata, Ferrari 456 GT et Mitsubishi Galant, gure 2.11).
Fig. 2.11. Observations tries selon la valeur absolue du rsidu studentis
Dans notre exemple, les deux indicateurs ti et ti concordent. Ce n'est pas toujours le cas en pratique.
Il faut alors privilgier le rsidu studentis pour les raisons voques ci-dessus : le fait de considrer
l'observation numro i comme un point supplmentaire permet de mieux apprhender son inuence sur
la rgression.
Page: 40 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13
-
2.5 Autres indicateurs usuels 41
2.5 Autres indicateurs usuels
Dans cette section, nous numrons d'autres indicateurs de points atypiques/inuents couramment
rencontrs dans les logiciels. Nous simplions la prsentation en mettant l'accent sur 3 aspects : le principe,
la formule et la rgle de dtection. Les rsultats relatifs au chier de donnes CONSO ont t produites
l'aide du logiciel TANAGRA (Figure 2.5).
2.5.1 DFFITS
Le DFFITS s'appuie sur le mme principe que le RSTUDENT, mais il compare cette fois-ci la pr-
diction en resubstitution y^i et la prdiction en donne supplmentaire y^i(i). Dans le premier cas, l'ob-servation a particip la construction du modle de prdiction, dans le second, non. Nous pouvons ainsi
mesurer l'inuence du point sur la rgression. Dans notre exemple ctif (Figures 2.9 et 2.10), la dirence
serait trs marque, conrmant le rle mysticateur de l'individu 4.Le DFFITS est normalise de la manire suivante
DFFITSi =y^i y^i(i)^"(i)
phi(2.9)
Nous considrons qu'une observation est inuente lorsque
R:C: : jDFFITSij > 2rp+ 1
n
mais le plus simple toujours est de trier les observations selon jDFFITSij pour mettre en videnceles points suspects.
Sur le chier CONSO, le seuil critique est 2q
4+131 = 0:8032. Nous constatons que la Ferrari (tout
particulirement), la Mercedes et la Hyundai se dmarquent toujours. La Mitsubishi en revanche ne
dpasse pas le seuil (0:7800) mais en est susamment proche pour qu'on ne remette pas en cause l'analyse
propose dans la section sur le rsidu studentis. On voit l tout l'intrt de ne pas prendre pour argent
comptant les valeurs seuils (Figure 2.12).
Calcul pratique du DFFITS
Il n'est heureusement pas ncessaire d'eectuer les n rgressions pour calculer les DFFITSi, on peut
l'obtenir partir du rsidu studentis
DFFITSi = ti
rhi
1 hi (2.10)
2.5.2 Distance de COOK
La distance de COOK gnralise le DFFITS dans le sens o, au lieu de mesurer l'eet de la suppression
de l'observation i sur la prdiction de yi, il mesure son eet sur la prdiction des n valeurs de l'endogne.
Page: 41 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13
-
42 2 Points aberrants et points inuents
Fig. 2.12. Observations tries selon la valeur absolue du DFFITS
La premire formulation de la distance de Cook Di est la suivante :
Di =
Pnj=1 [y^i y^i(i)]2^2"(p+ 1)(2.11)
Ainsi, pour valuer l'inuence du point i sur la rgression, nous la supprimons du calcul des coecients,
et nous comparons les prdictions avec le modle complet (construit avec tous les points) et le modle
valuer (construit sans le point i). Si la dirence est leve, le point joue un rle important dans
l'estimation des coecients.
Il nous faut dnir la valeur seuil partir de laquelle nous pouvons dire que l'inuence est exagre.
La rgle la plus simple est :
R:C: : Di > 1 (2.12)
Mais elle est juge un peu trop permissive, laissant chapper tort des points douteux, on lui prfre
parfois la disposition plus exigeante suivante (Confais, page 309) :
R:C: : Di >4
n p 1 (2.13)
La distance de Cook a t calcule pour chaque observation du chier CONSO. Les individus ont t
tris selon Di dcroissants. La Ferrari, encore une fois trs fortement, et la Mercedes se dmarquent selon
la premire rgle de dtection (quation 2.12). Si nous passons la seconde rgle Di >4
np1 = 0:1538
(quation 2.13), la Hyundai se rvle galement suspecte (Figure 2.13).
Calcul pratique de la distance de Cook
De nouveau, il n'est pas question d'eectuer les n rgressions en supprimant tour tour chaque
observation. Nous pouvons grandement simplier les calculs en drivant la distance de Cook partir des
rsidus standardiss
Page: 42 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13
-
2.5 Autres indicateurs usuels 43
Fig. 2.13. Observations tries selon la distance de Cook Di
Di =t2i
(p+ 1)
hi(1 hi) (2.14)
Distance de Cook entre les coecients estims
Nous avons dnis la distance de Cook comme un cart entre les prdictions. Il est galement possible
de la dnir comme une distance entre les coecients estims, avec ou sans l'observation i analyser.
Dans ce cas, la distance de Cook s'crit
Di =(a^ a^(i))0(X 0X)1(a^ a^(i))
^2"(p+ 1)(2.15)
o a^ est le vecteur des (p + 1) coecients estims (a^0; a^1; : : : ; a^p)0avec les n observations ; a^(i) lemme vecteur estim sans l'observation i.
La distance de Cook s'interprte, dans ce cas, comme l'amplitude de l'cart entre les coecients
estims de la rgression, avec et sans le point i. Il va sans dire que la valeur calcule Di est exactement
la mme que celle obtenue avec la premire dnition (quation 2.11).
De ce point de vue, la distance de Cook peut se lire comme la statistique du test de comparaison de
deux vecteurs de coecients. Sauf que qu'il ne peut s'agir d'un vritable test puisque les chantillons ne
sont pas (pas du tout) indpendants. Nanmoins, si l'on poursuit l'ide, la distance de Cook suivrait une
loi de Fisher (p + 1; n p 1) degrs de libert. On s'appuie sur la p-value du test pour dtecter lespoints atypiques : on considre qu'un point est suspect ds lors que la p-value calcule est infrieure
50% 7. On peut aussi imaginer une procdu