la regression dans la pratique

Ricco Rakotomalala

Pratique de la Rgression Linaire Multiple

Diagnostic et slection de variables

Version 2.1

Universit Lumire Lyon 2

Page: 1 job: La_regression_dans_la_pratique macro: svmono.cls date/time: 22-May-2015/18:13

Avant-propos

Ce support dcrit quelques techniques statistiques destines valider et amliorer les rsultats fournis

par la rgression linaire multiple. Il correspond la dernire partie des enseignements d'conomtrie (je

prfre l'appellation Rgression Linaire Multiple) en L3-IDS de la Facult de Sciences Economiques de

l'Universit Lyon 2 (http://dis.univ-lyon2.fr/).

Ce support se veut avant tout oprationnel. Il se concentre sur les principales formules et leur mise

en oeuvre pratique avec un tableur. Autant que possible nous ferons le parallle avec les rsultats fournis

par les logiciels de statistique. Le bien-fond des tests, la pertinence des hypothses opposer sont peu

ou prou discutes. Nous invitons le lecteur dsireux d'approfondir les bases de la rgression consulter

le document "conomtrie - Rgression Linaire Simple et Multiple" ([18]), accessible sur ma page de

fascicules (http://eric.univ-lyon2.fr/~ricco/cours/cours_econometrie.html).

Un document ne vient jamais du nant. Pour laborer ce support, je me suis appuy sur direntes

rfrences, des ouvrages disais-je plus tt, mais aussi des ressources en ligne qui sont de plus en plus

prsents aujourd'hui dans la diusion de la connaissance.

Les seuls bmols par rapport ces documents sont (1) le doute que l'on pourrait mettre sur l'exac-

titude des informations prodigues, mais la plupart de leurs auteurs sont des enseignants-chercheurs qui

font srieusement leur travail ; (2) une disponibilit plus ou moins alatoire, au gr des migrations des

serveurs et de la volont de leurs auteurs, auquel il est trs dicile de remdier

1

; (3) les informations sont

disparates, avec une absence d'organisation, la dirence des ouvrages qui suivent une ligne pdagogique

trs structurante.

Nanmoins, ces ressources en ligne renouvellent profondment le panorama des documents disponibles

pour les enseignements. La gratuit n'est pas le moindre de leurs atouts.

Ce support n'engage que son auteur. Toutes suggestions ou commentaires qui peuvent en amliorer

le contenu sont le bienvenu.

1. Je fais systmatiquement des copies... mais je me vois trs mal les diuser moi mme via ma page web.


Table des matires

Partie I La rgression dans la pratique

1 tude des rsidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.1 Diagnostic graphique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.1.1 Graphiques des rsidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.1.2 Graphiques des rsidus pour les donnes CONSO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

1.2 Tester le caractre alatoire des erreurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

1.2.1 Test de Durbin-Watson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

1.2.2 Test des squences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

1.3 Test de normalit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

1.3.1 Graphique Q-Q plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

1.3.2 Test de symtrie de la distribution des rsidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

1.3.3 Test de Jarque-Bera . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

1.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

2 Points aberrants et points inuents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

2.1 Points aberrants : dtection univarie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

2.2 Dtection multivarie sur les exognes : le levier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

2.3 Rsidu standardis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

2.4 Rsidu studentis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

2.5 Autres indicateurs usuels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

2.5.1 DFFITS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

2.5.2 Distance de COOK . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

2.5.3 DFBETAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

2.5.4 COVRATIO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

2.6 Bilan et traitement des donnes atypiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

3 Colinarit et slection de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

3.1 Dtection de la colinarit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

3.1.1 Consquences de la colinarit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51


6 Table des matires

3.1.2 Illustration de l'eet nocif de la colinarit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

3.1.3 Quelques techniques de dtection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

3.2 Traitement de la colinarit - Slection de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

3.2.1 Slection par optimisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

3.2.2 Techniques bases sur le F partiel de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

3.3 Rgression stagewise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

3.4 Coecient de corrlation partielle et slection de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

3.4.1 Coecient de corrlation brute . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

3.4.2 Coecient de corrlation partielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

3.4.3 Calcul de la corrlation partielle d'ordre suprieur 1 . . . . . . . . . . . . . . . . . . . . . . . . . 70

3.4.4 Procdure de slection fonde sur la corrlation partielle . . . . . . . . . . . . . . . . . . . . . . . 72

3.4.5 quivalence avec la slection fonde sur le t de Student de la rgression . . . . . . . . . 73

3.5 Les rgressions partielles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

3.5.1 Principe des rgression partielles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

3.5.2 Traitement des donnes CONSO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

3.6 Rgressions croises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

3.6.1 Principe des rgressions croises . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

3.6.2 Rgressions croises sur les donnes CONSO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

3.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

4 Rgression sur des exognes qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

4.1 Analyse de variance 1 facteur et transposition la rgression . . . . . . . . . . . . . . . . . . . . . . . 83

4.1.1 Un exemple introductif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

4.1.2 ANOVA 1 facteur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

4.2 Inadquation du codage disjonctif complet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

4.2.1 Codage disjonctif complet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

4.2.2 Rgression sans constante et lecture des coecients . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

4.2.3 Vers des solutions plus gnrales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

4.3 Codage "Cornered eect" de l'exogne qualitative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

4.3.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

4.3.2 Lecture des rsultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

4.3.3 Application aux donnes LOYER . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

4.4 Comparaisons entres groupes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

4.4.1 Comparaisons avec le groupe de rfrence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

4.4.2 Comparaisons entre deux groupes quelconques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

4.5 Rgression avec plusieurs explicatives qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

4.5.1 Rgression sur les indicatrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

4.5.2 Prise en compte des interactions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

4.5.3 Ajout de nouvelles indicatrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105


Table des matires 7

4.5.4 Tester la signicativit de l'interaction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

4.5.5 Interprtation des coecients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

4.6 Rgression avec un mix d'explicatives qualitatives et quantitatives . . . . . . . . . . . . . . . . . . . . 108

4.6.1 Interprtation des coecients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

4.6.2 Prise en compte des interactions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

4.6.3 Lien avec la comparaison de rgressions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112

4.7 Slection de variables en prsence d'exognes qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

4.7.1 Traitement group des indicatrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

4.7.2 Traitement individuel des indicatrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118

4.8 Autres stratgies de codage d'une exogne qualitative nominale . . . . . . . . . . . . . . . . . . . . . . . 120

4.8.1 Le codage "centered eect" d'une exogne qualitative nominale . . . . . . . . . . . . . . . . 120

4.8.2 Le codage "contrast eect" d'une exogne qualitative . . . . . . . . . . . . . . . . . . . . . . . . . 123

4.9 Codage d'une exogne qualitative ordinale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126

4.9.1 Un exemple introductif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126

4.9.2 (In)adquation du codage pour variable qualitative nominale . . . . . . . . . . . . . . . . . . . 128

4.9.3 Utilisation du codage cumulatif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130

4.9.4 Codage "backward dierence". . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132

4.9.5 Codage "forward dierence" . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

4.9.6 Codage "Helmert" . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134

4.10 Codage polynomial orthogonal d'une exogne qualitative ordinale . . . . . . . . . . . . . . . . . . . . . 136

4.10.1 Construction du codage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136

4.10.2 Rgression sur les variables recodes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137

4.11 Les erreurs ne pas commettre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139

4.11.1 Codage numrique d'une variable discrte nominale . . . . . . . . . . . . . . . . . . . . . . . . . . . 139

4.11.2 Codage numrique d'une variable discrte ordinale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139

4.12 Conclusion pour le traitement des exognes qualitatives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140

5 Rupture de structure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141

5.1 Rgression contrainte et rgression non-contrainte - Test de Chow . . . . . . . . . . . . . . . . . . . . 143

5.1.1 Formulation et test statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143

5.1.2 Un exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145

5.2 Dtecter la nature de la rupture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146

5.2.1 Tester la stabilit de la constante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146

5.2.2 Tester la stabilit du coecient d'une des exognes . . . . . . . . . . . . . . . . . . . . . . . . . . . 148

5.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150

6 Dtection et traitement de la non linarit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153

6.1 Non linarit dans la rgression simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153

6.1.1 Linarisation par transformation de variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153

6.1.2 Dtecter numriquement la non-linarit dans la rgression simple . . . . . . . . . . . . . . 155


8 Table des matires

6.1.3 Tester l'adquation d'une spcication . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160

6.2 Non linarit dans la rgression multiple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162

6.2.1 Lecture des rsidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162

6.2.2 Rsidus partiels et rsidus partiels augments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163

6.2.3 Un exemple "raliste" : traitement des donnes "mtcars" sous R . . . . . . . . . . . . . . . . 166

A Table de Durbin Watson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173

B Gestion des versions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175

C Fichiers associs ce support . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177

D Tutoriels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179

Littrature . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181


Partie I

La rgression dans la pratique


3La rgression dans la pratique

Le vritable travail du statisticien commence aprs la premire mise en oeuvre de la rgression linaire

multiple sur un chier de donnes. Aprs ces calculs, qu'on lance toujours "pour voir", il faut se poser la

question de la pertinence des rsultats, vrier le rle de chaque variable, interprter les coecients, etc.

En schmatisant, la modlisation statistique passe par plusieurs tapes

2

: proposer une solution (une

conguration de l'quation de rgression), estimer les paramtres, diagnostiquer, comprendre les rsultats,

rchir une formulation concurrente, etc.

Dans ce support, nous mettrons l'accent, sans se limiter ces points, sur deux aspects de ce processus :

le diagnostic de la rgression l'aide de l'analyse des rsidus, il peut tre ralis avec des tests statistiques,

mais aussi avec des outils graphiques simples ; l'amlioration du modle l'aide de la slection de variables,

elle permet entre autres de se dgager du pige de la colinarit entre les variables exognes.

Notations

Le point de dpart est l'estimation des paramtres d'une rgression mettant en jeu une variable

endogne Y et p variables exognes Xj . Nous disposons de n observations.

L'quation de rgression s'crit :

yi = a0 + a1xi;1 + + apxi;p + "i (0.1)

o yi est la i-me observation de la variable Y ; xi;j est la i-me observation de la j-me variable ; "i

est l'erreur du modle, il rsume les informations manquantes qui permettrait d'expliquer linairement

les valeurs de Y l'aide des p variables Xj .

Nous devons estimer (p+ 1) paramtres. En adoptant une criture matricielle :

Y = Xa+ " (0.2)

les dimensions de matrices sont respectivement :

Y ! (n; 1) X ! (n; p+ 1) a! (p+ 1; 1) "! (n; 1)La matrice X de taille (n; p + 1) contient l'ensemble des observations sur les exognes, avec une

premire colonne forme par la valeur 1 indiquant que l'on intgre la constante a0 dans l'quation.

2. http://www.itl.nist.gov/div898/handbook/pmd/section4/pmd41.htm


4 0BBBBB@1 x1;1 x1;p1 x2;1 x2;p.

.

.

1 xn;1 xn;p

1CCCCCARemarque 1 (Rgression sans constante). Dans certains problmes, la rgression sans constante peut se

justier. Il y a p paramtres estimer dans la rgression. On peut aussi voir la rgression sans constante

comme une rgression avec la contrainte a0 = 0. Il faut simplement faire attention aux degrs de libert

pour les tests. Il faut noter galement que le coecient de dtermination R2 n'est plus interprtable en

termes de dcomposition de la variance, il peut prendre des valeurs ngatives d'ailleurs.

Donnes

Autant que possible, nous utiliserons le mme chier de donnes pour illustrer les dirents chapitres

de ce support. On veut expliquer la consommation en L/100km de vhicules partir de p = 4 variables :

le prix, la cylindre, la puissance et le poids (Figure 0.1). Nous disposons de n = 31 observations.

Nous connaissons la marque et le modle de chaque vhicule, cela nous permettra d'aner certains

commentaires.

Fig. 0.1. Tableau de donnes CONSO - Consommation des vhicules

Nous eectuons sous TANAGRA une premire rgression sur l'ensemble des exognes. Nous en extra-

yons quelques informations importantes (Figure 0.2) :


5 la rgression semble de trs bonne qualit puisque que nous expliquons R2 = 95:45% de la variance

de l'endogne ;

impression conrme par le test de Fisher, F = 136:54 avec une p-value < 0:000001 : le modle est

globalement trs signicatif ;

mis part la variable cylindre, toutes les variables sont signicatives au risque de 10%.

Fig. 0.2. Rsultat de la rgression sur les donnes CONSO (cf. Donnes, gure 0.1)

La mme rgression sous EXCEL donne exactement les mmes rsultats (Figure 0.3)

3

. Seul le mode de

prsentation des rsultats est un peu dirent. Nous avons calcul dans la foule la prdiction ponctuelle

yî et les rsidus "î = yi yî de la rgression.

Remarque 2 (Interprtation des coecients). D'ores et dj, sans trop renter dans les dtails, on note des

bizarreries dans le rle des variables. Que le prix et la consommation soient d'une certaine manire lis,

on peut le comprendre. En revanche, imaginer que le prix inue directement sur la consommation parat

trange. Cela voudrait dire qu'en diminuant articiellement le prix d'un vhicule, on pourrait diminuer

la consommation. Concernant la cylindre, la taille du moteur, on s'tonne quand mme qu'elle ne joue

aucun rle sur la consommation. Cela voudrait dire qu'on peut augmenter indniment la taille du moteur

sans que cela ne soit prjudiciable la consommation de carburant... Nous reviendrons plus en dtail sur

la slection des variables et l'interprtation des rsultats plus loin.

3. Fonction DROITEREG(...)


6Fig. 0.3. Rsultat de la rgression sous EXCEL

Logiciels

Nous utiliserons principalement le tableur EXCEL. Mais plusieurs reprises nous ferons appel des

logiciels gratuits tels que TANAGRA

4

, REGRESS

5

, LAZSTATS/OPENSTAT

6

et R

7

; et des logiciels

commerciaux tels que SPSS

8

et STATISTICA

9

. Qu'importe le logiciel en ralit, le plus important est

de savoir lire correctement les sorties des outils statistiques.

4. TANAGRA : Un logiciel gratuit de Data Mining pour l'enseignement et la recherche - http://eric.

univ-lyon2.fr/~ricco/tanagra/fr/tanagra.html

5. http://tutoriels-data-mining.blogspot.com/2011/05/regress-dans-la-distribution-sipina.html

6. http://tutoriels-data-mining.blogspot.com/2011/05/regression-avec-le-logiciel-lazstats.html

7. The R Project for Statistical Computing - http://www.r-project.org/

8. Pour une lecture dtaille des rsultats fournis par SPSS, voir http://www2.chass.ncsu.edu/garson/PA765/

regress.htm

9. Pour une lecture des rsultats de STATISTICA, voir http://www.statsoft.com/textbook/stmulreg.html


1tude des rsidus

L'infrence statistique relative la rgression (estimation par intervalle des coecients, tests d'hypo-

thses, etc.) repose principalement sur les hypothses lies au terme d'erreur " qui rsume les informations

absentes du modle. Il importe donc que l'on vrie ces hypothses an de pouvoir interprter les rsul-

tats

1

.

Rappelons brivement les hypothses lies au terme d'erreur :

sa distribution doit tre symtrique, plus prcisment elle suit une loi normale ;

sa variance est constante ;

les erreurs "i (i = 1; : : : ; n) sont indpendantes.

Pour inspecter ces hypothses, nous disposons des erreurs observes, les rsidus, "î produites par la

dirence entre les valeurs observes de l'endogne yi et les prdictions ponctuelles de la rgression yî

"î = yi yî (1.1)

avec yî = a^0 + a^1xi;1 + + a^pxi;p

Remarque 3 (Moyenne des rsidus). Dans un modle avec constante, la moyenne des rsidus

^" = 1nP

i "î

est mcaniquement gale zro. Ce rsultat ne prjuge donc en rien de la pertinence de la rgression. En

revanche, si elle est dirente de 0, cela indique coup sr des calculs errons. Ce commentaire n'a pas

lieu d'tre pour une rgression sans constante.

1.1 Diagnostic graphique

1.1.1 Graphiques des rsidus

Aussi simpliste qu'il puisse paratre, le diagnostic graphique est pourtant un outil puissant pour

valider une rgression. Il fournit un nombre important d'informations que les indicateurs statistiques

1. Voir Dodge, pages 113 120.


8 1 tude des rsidus

apprhendent mal. Toute analyse de rgression devrait tre immdiatement suivie des graphiques des

rsidus observs... car il y en a plusieurs.

Avant d'numrer les dirents types de graphiques, donnons quelques principes gnraux (Figure

1.1) :

les rsidus sont ports en ordonne ;

les points doivent tre uniformment rpartis au hasard dans un intervalle, que nous prciserons

plus loin

2

, sur l'ordonne ;

aucun point ne doit se dmarquer ostensiblement des autres ;

on ne doit pas voir apparatre une forme de rgularit dans le nuage de points.

Le type du graphique dpend de l'information que nous portons en abcisse.

Rsidus en fonction de l'endogne Y

Ce type de graphique permet de se rendre compte de la qualit de la rgression. Les rsidus "^i doivent

tre rpartis alatoirement autour de la valeur 0, ils ne doivent pas avoir tendance prendre des valeurs

direntes selon les valeurs de Y . On cherche surtout voir si la prdiction est d'gale qualit sur tout

le domaine de valeurs de Y (Figure 1.1). Si pour une valeur ou une plage de valeur de Y , les rsidus

s'cartent visiblement, il faut s'inquiter car cela indique que la valeur yi a t mal reconstitue par le

modle.

Fig. 1.1. Graphique "normal" des rsidus. Endogne vs. Rsidus.

Rsidus en fonction de chaque exogne Xj

Il doit tre produit pour chaque variable exogne. L'ide est de dtecter s'il y a une relation quel-

conque entre le terme d'erreur et les exognes. Rappelons que les variables exognes et les erreurs sont

indpendantes par hypothse (covariance nulle), cela doit tre conrm visuellement.

2. Voir chapitre 2 sur les points atypiques


1.1 Diagnostic graphique 9

Graphique de rsidus pour les donnes longitudinales

Dans le cas particulier des sries temporelles, nous pouvons produire un graphique supplmentaire en

portant en abcisse la variable temps. Elle permet d'ordonner les valeurs d'une autre manire. Il est alors

possible de dtecter une rupture de structure associe une date particulire (ex. guerre, crise politique,

choc conomique, etc.).

Cas pathologiques

Il est dicile de prtendre l'exhaustivit, nous nous contenterons de caractriser quelques situations

singulires qui doivent attirer notre attention.

Points atypiques et points inuents

Par dnition, un point atypique, on parle aussi de point aberrant, est une observation qui s'carte

rsolument des autres. Cela peut tre d une erreur de recueil des donnes, cela peut aussi correspondre

un individu qui n'appartient pas la population tudie. Dans le graphique de rsidus, il s'agit de

points loigns des autres, que la variable en abcisse soit l'endogne ou une des exognes (Figure 1.2).

Fig. 1.2. Un point prsente une valeur atypique pour une des exognes. De plus, elle est mal reconstitue par la

rgression (le rsidu est lev).

Les points inuents sont des observations qui psent exagrment sur les rsultats de la rgression.

On peut les distinguer de plusieurs manires : ils sont "isols" des autres points, on constate alors que

la distribution des rsidus est asymtrique (Figure 1.3) ; ils correspondent des valeurs extrmes des

variables, en cela ils se rapprochent des points atypiques.

Bien souvent la distinction entre les points atypiques et les points inuents est dicile. Elle est assez

mal comprise : un point peut tre inuent sans tre atypique, il peut tre atypique sans tre inuent.

La meilleure manire de le circonscrire est de recalculer les coecients de la rgression en cartant le

point : si les rsultats dirent signicativement, en termes de prdiction ou terme de dirence entre les


10 1 tude des rsidus

coecients estims, le point est inuent. Cela est dicilement discernable dans un graphique des rsidus,

il est plus appropri de passer par des calculs que nous dtaillerons dans le chapitre consacr la dtection

des points atypiques et inuents (Chapitre 2).

Asymtrie des rsidus

Signe que la distribution des rsidus ne suit pas la loi normale, cette situation (Figure 1.3) survient

lorsque certains points se dmarquent des autres, ils sont mal reconstitus par la rgression. La

moyenne des rsidus est mcaniquement gale 0, mais la dispersion est trs ingale de part et

d'autre de cette valeur.

lorsque les donnes sont en ralit forms par plusieurs populations (ex. en mdecine, eectuer une

rgression en mlangeant les hommes et les femmes, sachant qu'ils ragissent de manire dirente

la maladie tudie).

lorsqu'on est face un problme de spcication, une variable exogne importante manque.

etc.

Fig. 1.3. La distribution des rsidus est asymtrique.

Non-linarit

Dans ce cas, la relation tudie est en ralit non-linaire, elle ne peut pas tre modlise l'aide de la

rgression linaire multiple. Les rsidus apparaissent alors en "blocs" au-dessus (prdiction sous-estime)

ou en-dessous (prdiction sur-estim) de la valeur 0 (Figure 1.4). On peut y remdier en ajoutant une

variable transforme dans le modle (par ex. en passant une des variables au carr, ou en utilisant une

transformation logarithmique, etc.). On peut aussi passer une rgression non-linaire (ex. rseaux de

neurones, etc.).

Rupture de structure

Dans certains cas, il arrive que la relation entre les exognes et l'endogne ne soit pas la mme sur

tout le domaine de dnition : on parle de rupture de structure. Il y a en ralit deux ou plusieurs


1.1 Diagnostic graphique 11

Fig. 1.4. La relation modliser est non-linaire

rgressions mener. Ils peuvent tre totalement indpendants. On peut aussi imposer que les coecients

de quelques variables soient identiques d'une rgression l'autre. L'erreur dans ce cas est d'imposer une

seule rgression pour tous les groupes d'individus. Nous obtenons alors des rsidus en "blocs", qui peuvent

tre assez proches de ce que l'on obtient lorsque les relations sont non-linaires (Figure 1.4), ils indiquent

en tous les cas qu'il y a bien des groupes distincts que l'on ne peut pas modliser de manire identique

dans la population (Figure 1.5).

Fig. 1.5. Rsidus caractristiques d'une rupture de structure

Htroscdasticit

Souvent associe une des exognes en abcisse, ce type de graphique (Figure 1.6) indique que la

variance des rsidus n'est pas constante, et qu'elle dpend d'une des exognes. Il existe des tests spciques

pour dtecter l'htroscdasticit (Bourbonnais, pages 130 143).



Fig. 1.6. La variance des rsidus augmente avec les valeurs d'une des exognes

Autocorrlation des rsidus

Ce problme est spcique aux donnes longitudinales. Dans le graphique des rsidus, nous plaons

des dates en abcisse, nous essayons de dtecter si les erreurs suivent un processus particulier au cours du

temps. L'autocorrlation peut tre positive (des "blocs" de rsidus sont positifs ou ngatifs, gure 1.8)

ou ngative (les rsidus sont alternativement positifs et ngatifs, gure 1.7).

Fig. 1.7. Autocorrlation ngative des rsidus

1.1.2 Graphiques des rsidus pour les donnes CONSO

Nous avons lanc la rgression sur les donnes CONSO (Figures 0.2 et 0.3). Nous construisons les

dirents graphiques des rsidus en les croisant avec l'endogne et les exognes (Figure 1.9). Nous avons

utilis le logiciel R.

Une information, essentiellement, saute aux yeux : 2 points semblent se dmarquer systmatiquement

sur l'endogne Y , le prix, la cylindre et la puissance. Pourtant ils ne semblent pas particulirement mal

restitus par la rgression puisque le rsidu (erreur de prdiction) ne prend pas des valeurs anormalement


1.2 Tester le caractre alatoire des erreurs 13

Fig. 1.8. Autocorrlation positive des rsidus

leves (en valeur absolue) sur ces observations. Nous dtaillerons l'analyse de ces vhicules dans le

chapitre consacr l'analyse des points atypiques et inuents.

1.2 Tester le caractre alatoire des erreurs

Lorsque nous travaillons avec des donnes longitudinales, la date dnit naturellement l'ordonnance-

ment des observations. Il est important de vrier que les rsidus sont produits de manire totalement

alatoire. Si l'on conclut au rejet de cette hypothse, les rsidus sont produits par un processus quel-

conque, l'hypothse d'indpendance des erreurs est rejete, la mthode des moindres carrs ordinaires

n'est plus BLUE

3

: elle est certes non-biaise, mais elle n'est plus variance minimale, et la matrice

de variance covariance n'est plus estime de manire convergente, les tests de signicativit ne sont plus

oprants.

La dtection de l'autocorrlation des rsidus peut s'eectuer visuellement l'aide du graphique des

rsidus (Figures 1.8 et 1.7). Elle peut galement s'appuyer sur des techniques statistiques. La plus connue

est certainement le test de Durbin-Watson qui dtecte une forme particulire de l'autocorrlation. Nous

pouvons aussi utiliser des tests plus gnraux comme le test des squences de Wald.

Les causes de l'autocorrlation des rsidus peuvent tre multiples. Elles se rapprochent des problmes

de spcications l'origine des violations des hypothses (Bourbonnais, page 114) : une variable exogne

importante est absente de l'quation de rgression ; la liaison modlise n'est pas linaire ; les donnes ont

t manipules (ex. moyenne mobile, reconstitue par interpolation, etc.), c'est souvent le cas lorsqu'elles

sont produites par des observatoires statistiques.

Remarque 4 (Test l'autocorrlation pour les donnes transversales). Tester l'autocorrlation des rsidus

n'a aucun sens sur les donnes transversales. En eet, il n'y a pas d'ordonnancement naturel des obser-

vations. Il sera toujours possible de les mlanger diremment de manire ce que les rsidus ne suivent

3. Best Linear Unbiased Estimator



Fig. 1.9. Graphiques des rsidus - Donnes CONSO

aucun processus particulier. Il est nanmoins possible de retrouver un agencement particulier des rsidus

en les triant selon l'endogne par exemple. Mais il faut rester trs prudent par rapport aux tests, le plus

sage est de s'appuyer sur les techniques graphiques simples pour dtecter d'ventuelles anomalies (ex.



les valeurs ngatives des rsidus sont regroups sur les petites valeurs de Y , les valeurs positives sur les

grandes valeurs de Y : manifestement il y a un problme dans le modle...).

1.2.1 Test de Durbin-Watson

Principe

Le test de Durbin-Watson permet de dtecter une autocorrlation de la forme :

"i = : "i1 + i; avec i N (0; ) (1.2)

Le test d'hypothses s'crit :

H0 : = 0

H1 : 6= 0

On utilise la statistique de Durbin-Watson

d =

Pni=2 (ei ei1)2Pn

i=1 e2i

(1.3)

Par construction, 0 d 4, d = 2 lorsque ^ = 0. Elle a t tabule par Durbin et Watson (AnnexesA) pour direntes tailles d'chantillon n et de nombre de vraies variables explicatives k (sans compter

la constante). La rgle de dcision n'est pas usuelle, nous pouvons la rsumer de la manire suivante pour

un test bilatral (Bourbonnais, pages 115 et 116) :

Acceptation de H0 si dU < d < 4 dU Rejet de H0 si d < dL ( > 0) ou d > 4 dL ( < 0) Incertitude si dL < d < dU ou 4 dU < d < 4 dL

Le test de Durbin-Watson est assez limit. Il ne teste que les autocorrlation des rsidus d'ordre 1.

De plus, son utilisation est encadre par des conditions draconiennes (Johnston, page 189) :

la rgression doit comporter un terme constant ;

les variables X sont certaines (non-stochastiques), en particulier elles ne doivent pas comporter

l'endogne retarde

4

.

Remarque 5 (Autres formes d'autocorrlation des rsidus). D'autres tests ont t mis au point pour valuer

d'autres formes de relation entre les rsidus (ex. processus auto-rgressif d'ordre 4 pour les donnes

trimestrielles, etc. Johnston, pages 180 200).

4. On doit utiliser une version modie du test de Durbin (Johnston, page 190)



Exemple : Prdiction de la consommation de textile

Pour illustrer la mise en oeuvre du test de Durbin-Watson, nous reprenons un exemple extrait de

l'ouvrage de Theil (1971)

5

. L'objectif est de prdire la consommation de textile partir du revenu par

tte des personnes et du prix. Nous disposons d'observations sur 17 annes partir de 1923 (Figure 1.10).

Fig. 1.10. Donnes de Theil sur le textile

Fig. 1.11. Test de Durbin-Watson sur les donnes de Theil

L'quation de rgression mettre en place est

yi = a0 + a1xi;1 + a2xi;2 + "i , i = 1; : : : ; 17

o y est la consommation en textile, x1 le prix du textile et x2 le revenu par habitant.

5. Theil, H., Principles of Econometrics, Wiley, 1971. Page 102. L'exemple et la description des rsultats du

test sont accessibles sur le site http://shazam.econ.ubc.ca/intro/dwdist.htm



Les calculs sont organiss comme suit (Figure 1.11) :

1. A l'aide de la fonction DROITEREG() d'EXCEL, nous obtenons les coecients a0 = 130:71, a1 =

1:38 et a2 = 1:06.2. Nous formons la prdiction yî avec ces coecients.

3. Nous calculons l'erreur de prdiction, le rsidu de la rgression "î = ei = yi yî.4. Nous pouvons alors calculer la statistique de Durbin-Watson. En formant le numrateur 874:66 et le

dnominateur 433:31, nous obtenons d = 2:02.

5. Pour un test bilatral 10%, nous rcuprons les valeurs critiques dans la table de Durbin-Watson

(Annexes A). Pour n = 17 et k = 2, dL = 1:02 et dU = 1:54.

6. Nous constatons que nous sommes dans la rgion dU < d < 4 dU , l'hypothse d'absence d'autocor-rlation d'ordre 1 des rsidus n'est pas contredite par les donnes ( = 0).

1.2.2 Test des squences

Le test des squences

6

, appel galement test de Wald-Wolfowitz, est plus gnrique que le prcdent.

Il cherche dtecter toute forme de rgularit lorsque les rsidus sont ordonns selon le temps. Il dtecte

autant les autocorrlations ngatives (les rsidus sont alternativement ngatives et positives) que les

autocorrlations positives (des blocs de rsidus conscutifs sont positifs ou ngatifs). tant plus gnrique,

il est bien entendu moins puissant pour des formes particulires d'autocorrlation. On lui prfrera le test

de Durbin-Watson par exemple si on veut vrier expressment la prsence d'un processus auto-rgressif

d'ordre 1 des rsidus.

Principe

Bien entendu, les donnes doivent tre ordonnes pour que le test puisse oprer. Notre rfrence est

la date pour les donnes longitudinales.

Le test repose sur la dtection des squences de valeurs positives '+' ou ngatives '-' des rsidus. La

statistique du test r est le nombre total de squences dans la srie d'observations.

Exemple 1. Si tous les rsidus ngatifs sont regroups sur les petites valeurs de Y , et inversement, les

rsidus positifs, sur les grandes valeurs de Y , nous aurons simple r = 2 squences. C'est minemment

suspect si l'on se rfre l'hypothse H0 selon laquelle les rsidus sont gnrs alatoirement.

Posons n+ (resp. n) le nombre de rsidus positifs (resp. ngatifs) dans la srie des rsidus. Sous l'hy-

pothse H0 le processus de gnration des donnes est alatoire, la statistique r suit asymptotiquement7

une loi normale de paramtres :

6. Voir Siegel, S., Castellan, J., Nonparametric statistics for the behavioral sciences, McGraw-Hill, 1988, pages

58 64, section "The one-Sample runs test of randomness"

7. Pour les petites valeurs de n+ et n, les valeurs critique de r ont t tabules. Voir par exemple Siegel-

Castellan, Table G, page 331. Curieusement, je n'ai pas pu en trouver en ligne...



r =2n+n

n+ 1 (1.4)

r =

r(r 1)(r 2)

n 1 (1.5)

Nous pouvons former la statistique centre et rduite z = rrr . La rgion critique du test rejet de

l'hypothse de gnration alatoire des rsidus s'crit :

R:C: : jzj > u12

o u12 est le fractile d'ordre 1 2 de la loi normale centre et rduite N (0; 1).

Remarque 6 (Le test de squences est un test bilatral). Attention, le test des squences est bien un test

bilatral. Des '+' et '-' alterns (r lev) sont tout aussi suspects que des blocs de '+' et '-' (r faible). Ce

test permet autant de dtecter les autocorrlations ngatives que positives.

Prdiction de la consommation de textile

Fig. 1.12. Test de Wald-Wolfowitz sur les donnes de Theil

Reprenons l'exemple de la consommation de textile (Theil, 1971), nous reproduisons les calculs l'aide

d'un tableur (Figure 1.12) :

1. A l'aide de la fonction DROITEREG() d'EXCEL, nous obtenons les coecients a0 = 130:71, a1 =

1:38 et a2 = 1:06.


1.3 Test de normalit 19

2. Nous formons la prdiction yî avec ces coecients.

3. Nous calculons l'erreur de prdiction, le rsidu de la rgression "î = ei = yi yî.4. Nous annotons avec le caractre '+' (resp. '-') les rsidus positifs (resp. ngatifs).

5. Nous comptons le nombre de valeurs positives et ngatives, n+ = 9 et n = 8, nous vrions que

n = n+ + n = 17.

6. Nous pouvons calculer la moyenne et l'cart-type de la statistique de test sous l'hypothse nulle :

r = 9:47 et r = 1:99.

7. Nous aectons un numro chaque squence de '+' et '-', nous obtenons ainsi le nombre de squences

r = 7.

8. Nous calculons enn la statistique centre et rduite z = 79:471:99 = 1:24 ;9. Que nous comparons au fractile d'ordre 0:95 (pour un test bilatral 10%) de la loi normal centre

et rduite u0:95 = 1:64.

Nous sommes dans la rgion d'acceptation de H0. Nous pouvons conclure que les rsidus sont ind-

pendants, ils sont gnrs par un processus purement alatoire.

1.3 Test de normalit

Une grande partie de l'infrence statistique (ex. test de pertinence globale de la rgression, prdiction

par intervalle, etc.) repose sur l'hypothse de distribution normaleN (0; ") du terme d'erreur de l'quationde rgression (quation 0.1). Vrier cette hypothse semble incontournable pour obtenir des rsultats

exacts

8

.

Nous disposons des erreurs observs "î, les rsidus de la rgression, pour valuer les caractristiques

des erreurs thoriques "i. Cela n'est pas sans poser des problmes. En eet, si la variance de l'erreur

est constante V ("i) = 2" , la variance du rsidu, l'erreur observe, ne l'est pas V ("î) =

2"(1 hii), o

hii est lue sur la diagonale principale de la hat matrix H = X(X0X)1X 0. Et surtout, la covariance

cov("î; "^j) = 2"hij entre deux rsidus observs n'est pas nulle en gnral.De fait, la loi des statistiques sous H0 (normalit des erreurs) que l'on pourrait utiliser dans cette

section sont modis, induisant galement une modication des valeurs critiques pour un mme risque .

Comment ? Il n'y a pas vraiment de rponses tablies. Il semble nanmoins que les tests usuels restent

valables, pour peu que l'on ait susamment d'observations (n 50) 9. Il faut surtout voir les tests comme8. Pour un tour d'horizon des consquences des violations des hypothses dans la rgression, nous conseillons

l'excellent document de J.Ravet disponible en ligne http://homepages.ulb.ac.be/~jravet/stateco/docs/

econometrie.pdf

9. Cette valeur est vraiment donn comme un ordre d'ides. En ralit, le problme de l'utilisation des rsidus

pour valuer la normalit des erreurs est souvent pass sous silence dans la littrature. Le seul ouvrage o cela

est pos clairement est celui de Capra P., Van Cutsem B., Mthodes et modles en statistique non paramtrique

- Expos fondamental, Dunod, Presse de l'Universit de Laval, 1988 ; pages 306 et 307



des indicateurs supplmentaires pour valuer la rgression, il faut rellement s'inquiter si la distribution

empirique des rsidus s'carte trs fortement de l'hypothse de normalit c.--d. avec des p-value trs

faibles lorsque les tests sont mis en oeuvre. C'est en ce sens que nous les prsentons

10

.

1.3.1 Graphique Q-Q plot

Principe

Il ne s'agit pas d'un test au sens statistique du terme. Le graphique Q-Q plot (quantile-quantile plot)

est un graphique "nuage de points" qui vise confronter les quantiles de la distribution empirique et

les quantiles d'une distribution thorique normale, de moyenne et d'cart type estims sur les valeurs

observes. Si la distribution est compatible avec la loi normale, les points forment une droite. Dans la

littrature francophone, ce dispositif est appel Droite de Henry.

Remarque 7. Pour plus de dtails, nous conseillons la lecture du document en ligne http://eric.

univ-lyon2.fr/~ricco/cours/cours/Test_Normalite.pdf, section 1.5.

Application sur les donnes CONSO

A partir du descriptif de notre document de rfrence, nous avons construit la Droite de Henry dans

le tableur EXCEL (Figure 1.13). Le dtail des calculs est le suivant :

1. Trier les rsidus "^i de manire croissante, ce sont les quantiles observs.

2. Produire la fonction de rpartition empirique, lisse en accord avec la loi normale Fi =i0:375n+0:25

3. Calculer les quantiles thoriques normalises zi en utilisant la fonction inverse de la loi normale centre

rduite.

4. En dduire les quantiles thoriques d-normalises "i = ~" zi. Si la distribution empirique cadreparfaitement avec la loi normale, les points devraient tre aligns sur la diagonale principale. Ici, pour

simplier

11

, nous prenons ~" =q

1n

Pni=1 "^

2i .

Nous constatons que les points sont relativement bien aligns. Il n'y a pas d'incompatibilit manifeste

avec une distribution normale.

10. Pour une prsentation dtaille des tests d'adquation la loi normale d'une distribution empirique, nous

conseillons un de nos supports accessibles en ligne http://eric.univ-lyon2.fr/~ricco/cours/cours/Test_

Normalite.pdf. Des liens vers d'autres documents et des chiers exemples sont disponibles sur notre site de

supports de cours http://eric.univ-lyon2.fr/~ricco/cours/supports_data_mining.html, section Statistique

11. En toute rigueur, nous devrions utiliser l'estimateur sans biais de l'cart-type de l'erreur (^"). Mais cette

petite entorse ne tire pas consquence dans notre procdure. Il s'agit simplement d'un changement d'chelle. Si

les rsidus sont compatibles avec la distribution normale, les points formeront une droite que l'on utilise l'un ou

l'autre des estimateurs.



Fig. 1.13. Droite de Henry sur les rsidus des MCO Donnes CONSO

Bien souvent, on peut se contenter de ce diagnostic. Nous ragissons uniquement si l'cart avec la

normalit est trs marque. Nanmoins, pour les puristes, nous pouvons consolider les conclusions en

s'appuyant sur la batterie des tests de normalit. Nous nous contenterons de tests asymptotiques simples.

1.3.2 Test de symtrie de la distribution des rsidus

Principe du test

Ce test est bas sur le coecient d'asymtrie

1 =33(1.6)

o 3 est le moment centr d'ordre 3, et l'cart-type.

On sait que 1 est gal 0 si la distribution est normale. Le test d'hypothses s'crit de la manire

suivante :

H0 : " suit une loi normale, par consquent 1 = 0

H1 : " ne suit pas une loi normale, par consquent 1 6= 0

Remarque 8. Attention, les hypothses ne sont pas symtriques. Si on tablit que 1 6= 0, nous savonsque la distribution n'est pas gaussienne. En revanche, conclure 1 = 0 indique que la distribution est

seulement compatible avec une loi normale.



Statistique du test et rgion critique

Pour raliser le test, nous devons dnir la statistique du test et sa loi de distribution sous H0. Nous

utilisons le coecient d'asymtrie empirique :

g1 =1n

Pi "^

3i

1n

Pi "^

2i

32

(1.7)

Sous H0, elle suit asymptotiquement une loi normale d'esprance et d'cart-type12

1 0

1 r

6

n

Nous formons le rapport c1 =g11. Pour un test bilatral au risque , la rgion critique est dnie par

R:C: : jc1j u12

o u12 est le fractile d'ordre 1 2 de la loi normale centre rduite.


Nous construisons le test ci-dessus sur les rsidus des MCO sur nos donnes CONSO. Voici les prin-

cipales tapes (Figure 1.14) :

1. Nous rcuprons la colonne des rsidus "^i.

2. Nous calculons les colonnes de "^2i et "^3i .

3. Nous calculons les sommes et formons g1 =0:12200:56023=2

= 0:2909.4. Nous calculons l'cart-type 1 =

q631 = 0:4399, et le rapport jc1j = 0:6612.5. Nous observons que jc1j < 1:6449 = u0:95, pour un test bilatral 10%. Nous ne sommes pas dans largion critique.

Si l'on se rfre au rsultats du test, l'hypothse de compatibilit avec la normale ne peut pas tre

rejete.

1.3.3 Test de Jarque-Bera

Principe

Ce test complte le prcdent en intgrant le coecient d'aplatissement 2 =44 3 dans la procdure.Les hypothses deviennent :

12. Une formulation plus prcise de l'cart-type est disponible dans http://eric.univ-lyon2.fr/~ricco/

cours/cours/Test_Normalite.pdf



Fig. 1.14. Test de normalit des rsidus fond sur le coecient de symtrie sur les donnes CONSO

H0 : " suit une loi normale, par consquent 1 = 0 et 2 = 0

H1 : " ne suit pas une loi normale, par consquent 1 6= 0 ou 2 6= 0

o 4 est le moment centr d'ordre 4, est l'cart-type.

Remarque 9 (Rejet de l'hypothse de normalit). Ici galement, le test n'est pas symtrique. Si la distribu-

tion est compatible avec la loi normale, 1 et 2 sont simultanment zro. En revanche, il sut que l'un

des deux soient dirents de zro pour que l'hypothse de normalit soit rejete. Autre point important,

on conjecture que les statistiques associes chaque coecient sont indpendants (asymptotiquement).

Statistique du test et rgion critique

Estimateur de 2

Nous devons dterminer la statistique et la distribution sous H0 du coecient d'aplatissement. Le

plus simple est d'utiliser l'estimation triviale dduite de la dnition du coecient 2 :

g2 =1n

Pi "^

4i

1n

Pi "^

2i

2 3 (1.8)Sous H0, l'esprance et l'cart-type de g2 sont :



2 0

2 r

24

n

La statistique standardise suit une loi normale : c2 =g22 N (0; 1).

Statistique de Jarque-Bera

Maintenant, il faut trouver une manire de combiner les deux statistiques g1 et g2. Puisqu'ils sont

indpendants (asymptotiquement), le plus simple est de proposer la statistique de Jarque-Bera

13

:

T =(n p 1)

6

g21 +

g224

(1.9)

Remarque 10 (Degr de libert). La valeur (n p 1) reprsente le degr de libert : nous disposons d'unchantillon de taille n, il y a (p+1) coecients estimer dans la rgression avec constante. Cette prise en

compte des degrs de liberts entrane une correction des rsultats fournis par les logiciels (ex. la fonction

jarqueberaTest(.) du package fBasics de R) d'autant plus importante que le nombre de variables vraies p

est grand et que la taille de l'chantillon n est faible.

Sous H0, la statistique T suit une loi du 2 2 degrs de libert. La rgion critique du test, au risque

, s'crit :

R:C: : T > 21(2)

Il s'agit d'un test unilatral, 21(2) correspond au fractile d'ordre 1 de la loi du 2 2 degrsde libert.


Nous compltons le test fond sur le coecient d'asymtrie en utilisant les rsidus de la rgression sur

les donnes CONSO. Voici les principales tapes (Figure 1.15) :

1. Nous rcuprons la colonne des rsidus "^i.

2. Nous calculons les colonnes de "^2i , "^3i et "^

4i .

3. Nous calculons les sommes et formons g1 =0:12200:56023=2

= 0:2909.4. Nous formons g2 =

0:70200:56022 3 = 0:7626.5. Reste la calculer la statistique de Jarque-Bera : T = 31416

h(0:2909)2 + (0:7626)24

i= 0:9967.

6. Que l'on compare avec le seuil critique 20:90(2) = 4:6052.

Au risque de = 10%, nous ne pouvons pas rejeter l'hypothse d'un distribution gaussienne des

rsidus.

13. http://fr.wikipedia.org/wiki/Test_de_Jarque_Bera


1.4 Conclusion 25

Fig. 1.15. Test de Jarque-Bera pour vrier la normalit des rsidus sur les donnes CONSO

1.4 Conclusion

Examiner les rsidus est un des moyens les plus srs d'valuer la qualit d'une rgression. Nous avons

prsent dans ce chapitre quelques outils, plus ou moins sophistiqus, pour apprcier correctement les

informations qu'ils peuvent nous apporter. Dans la majorit des cas, les cueils qui peuvent invalider une

rgression sont :

la liaison tudie est non-linaire ;

un problme de spcication, par ex. une variable exogne importante manque ;

l'existence de points atypiques ou exagrment inuents ;

les erreurs ne sont pas indpendants et/ou dpendent d'une des exognes ;

il y a une rupture de structure dans la relation ou les donnes sont organises en blocs non homo-

gnes,...

Malgr la puissance des procdures numriques avances, les techniques graphiques trs simples sont

privilgier, au moins dans un premier temps : leurs conditions d'applications sont universelles, elles

proposent un diagnostic nuanc de situations qui peuvent s'avrer complexes. Rien ne nous empche par

la suite de complter le diagnostic visuel l'aide des tests statistiques.


2Dtection des points aberrants et des points inuents

L'objectif de la dtection des points aberrants et inuents est de reprer des points qui jouent un rle

anormal dans la rgression, jusqu' en fausser les rsultats. Il faut s'entendre sur le terme anormal, nous

pourrons en rsumer les direntes tournures de la manire suivante :

L'observation prend une valeur inhabituelle sur une des variables. Nous parlons alors de dtection

univarie car nous tudions les variables individuellement. Par exemple, un des vhicules a une

puissance 700 cv, nous avons intgr une Formule 1 dans notre chier de vhicules.

Une combinaison de valeurs chez les exognes est inhabituelle. Par exemple, une voiture trs lgre

et trs puissante : le poids pris individuellement ne se dmarque pas, la puissance non plus, mais

leur concomitance est surprenante (Figure 2.1).

L'observation est trs mal reconstitue par la rgression, n'obissant pas de manire ostensible la

relation modlise entre les exognes et l'endogne. Dans ce cas, le rsidu observ est trop lev.

L'observation pse de manire exagre dans la rgression, au point que les rsultats obtenus (pr-

diction, coecient, ...) sont trs dirents selon que nous l'intgrons ou non dans la rgression.

Fig. 2.1. Le point entour est suspect car la combinaison de valeurs est inhabituelle

Outre les ouvrages enumrs en bibliographie, deux rfrences en ligne compltent merveille ce

chapitre : le document de J. Confais et M. Le Guen [12], section 4:3, pages 307 311 ; et la prsentation de


28 2 Points aberrants et points inuents

A.Gueguen, La rgression linaires - Outils diagnostics, http://ifr69.vjf.inserm.fr/~webifr/ppt/

outilsdiag.ppt.

2.1 Points aberrants : dtection univarie

Bote moustache et dtection des points atypiques

L'outil le plus simple pour se faire une ide de la distribution d'une variable continue est la bote

moustaches (Figure 2.2), dite box-plot

1

. Elle ore une vue synthtique sur plusieurs indicateurs impor-

tants : le premier quartile (Q1), la mdiane (Me) et le troisime quartile (Q3). On peut aussi jauger

visuellement l'intervalle inter-quartile qui mesure la dispersion (IQ = Q3Q1).

Fig. 2.2. Boxplot de la variable endogne "consommation (y)", 2 observations se dmarquent

On pense tort que les extrmits de la bote correspond aux valeurs minimales et maximales. En

ralit il s'agit des valeurs minimales et maximales non atypiques. Les seuils dsignant les valeurs atypiques

sont dnies par les rgles suivantes

2

:

LIF = Q1 1:5 IQUIF = Q3 + 1:5 IQ

o LIF signie "lower inner fence" et UIF "upper inner fence".

Les points situs au del de ces limites sont souvent juges atypiques. Il convient de se pencher

attentivement sur les observations correspondantes.

1. http://en.wikipedia.org/wiki/Box_plot

2. http://www.itl.nist.gov/div898/handbook/prc/section1/prc16.htm


2.1 Points aberrants : dtection univarie 29

Remarque 11 (Rgle des 3-sigma). Une autre rgle empirique est largement rpandue dans la communaut

statistique, il s'agit de la rgle des 3-sigma. Elle xe les bornes basses et hautes 3 fois l'cart-type autour

de la moyenne. Si l'on considre que la distribution est normale, 99:7% des observations sont situes dans

cet intervalle. La principale faiblesse de cette approche est l'hypothse de normalit sous-jacente qui en

rduit la porte.

Les "outer fence"

Il est possible de durcir les conditions ci-dessus en largissant les bornes des valeurs. On parle alors

de outer fence. Elles sont dnies de la manire suivante :

LOF = Q1 3 IQUOF = Q3 + 3 IQ

Pour distinguer les points dtects selon la rgle inner ou outer, on parle de "points moyennement

atypiques" (mild outlier) et "points extrmement atypiques" (extreme outlier).


Il est possible de produire une bote moustache pour chaque variable du chier de donnes. Nous

disposons ainsi trs rapidement d'informations sur l'talement de la distribution, de la prsence de points

qui s'cartent fortement des autres. Pour la variable endogne (Figure 2.2), nous dtectons immdiatement

2 observations suspectes qui consomment largement plus que les autres vhicules : la Ferrari 456 GT et

la Mercedes S 600.

Une autre manire de procder est d'utiliser simplement le tableur EXCEL (Figure 2.3) :

1. de produire le 1er et le 3me quartile ;

2. d'en dduire l'intervalle inter-quartile ;

3. de calculer les bornes LIF et UIF ;

4. et de s'appuyer sur la mise en forme conditionnelle pour distinguer les points "suspects" pour chaque

variable.

Il semble que 3 vhicules soient assez dirents du reste de l'chantillon, sur la quasi-totalit des

variables. Nous produisons dans un tableau rcapitulatif les associations "observation-variable" suspects

(Tableau 2.1).



Fig. 2.3. Dtection univarie des points atypiques pour chaque variable

Observations Prix Cylindre Puissance Poids Consommation

Ferrari 456 GT * * * *

Mercedes S 600 * * * * *

Maserati Ghibli GT * *

Tableau 2.1. Points suspects chier CONSO : dtection univarie

2.2 Dtection multivarie sur les exognes : le levier

Le levier

La dtection univarie donne dj des informations intressantes. Mais elle prsente le dfaut de ne

pas tenir compte des interactions entre les variables. Dans cette section, nous tudions un outil capital

pour l'tude des points atypiques et inuents : le levier.

Son interprtation est relativement simple. Il indique, pour l'observation i, la distance avec le centre

de gravit du nuage de points dans l'espace dni par les exognes. La mesure a de particulier qu'elle

tient compte de la forme du nuage de points, il s'agit de la distance de Mahalanobis (Tenenhaus, page

94). La prise en compte de la conguration des points dans l'espace de reprsentation permet de mieux

juger de l'loignement d'une observation par rapport aux autres (Figure 2.4).


2.2 Dtection multivarie sur les exognes : le levier 31

Fig. 2.4. Le point 4 et le centre de gravit } sont situs aux mmes coordonnes dans les graphiques (a) et (b).Pourtant 4 apparat nettement atypique dans (b).

Le levier hii de l'observation i est lue sur la diagonale principale de la matrice H, dite Hat Matrix,

dnie de la manire suivante

H = X(X 0X)1X 0 (2.1)

La matriceH joue un rle trs important dans la rgression, elle permet de passer des valeurs observes

de Y vers les valeurs prdites Y^ , elle permet aussi le passage de l'erreur thorique vers les rsidus observs 3.

Les lments hij de la matrice H prsentent un certain nombre de proprits. Concernant les lments

de la diagonale principale hii, on parle de levier car il dtermine l'inuence de l'observation i sur les

estimateurs obtenus par les moindres carrs (Dodge, page 130). Mme s'il n'utilise que les informations

en provenance des exognes Xj , le champ d'action du levier dpasse la dtection multivarie des points

aberrants. Nous le retrouverons dans la grande majorit des formules de dtection des points atypiques

et inuents que nous prsenterons dans la suite de ce chapitre.

Calcul des lments diagonaux de la matrice H

La taille (nn) de la matrice H peut tre considrable ds lors que la taille de l'chantillon augmente.Il est possible d'en calculer uniquement les lments diagonaux en utilisant la formule

hii = hi = xi(X0X)1x0i

o xi reprsente la i-me ligne de la matrice X.

Rgion critique

Nous disposons d'un indicateur. Il nous faut maintenant dterminer partir de quelle valeur de hi

nous devons nous pencher attentivement sur une observation. Autrement dit, quelle est la valeur critique

qui permet d'indiquer qu'un point est "suspect" ?

3. "^ = [I X(X 0X)1X 0]"



Pour cela, penchons-nous sur quelques proprits du levier. Par dnition 0 hi 1, et surtoutPni=1 hi = p+ 1, o p+ 1 est le nombre de coecients estimer dans une rgression avec constante. On

considre que le levier d'une observation est anormalement lev ds lors que :

R:C: : hi > 2 p+ 1n(2.2)

Remarque 12 (Seuil de coupure et tude des points). La rgle dnie ci-dessus, aussi rpandue soit-elle,

est avant tout empirique. Dans la pratique, il est tout aussi pertinent de trier les observations selon la

valeur de hi de manire mettre en vidence les cas extrmes. Une tude approfondie de ces observations

permet de statuer sur leur positionnement par rapport aux autres.


Fig. 2.5. Quelques indicateurs de points atypiques et inuents dans TANAGRA. Donnes CONSO.


2.2 Dtection multivarie sur les exognes : le levier 33

Nous appliquons les calculs ci-dessus sur les donnes CONSO. Nous avons utilis le logiciel TANAGRA

(Figure 2.5)

4

. La valeur de coupure est 2 4+131 = 0:3226, 3 points se dmarquent immdiatement, lesmmes que pour la dtection univarie : la Ferrari (h8 = 0:8686), la Mercedes (h9 = 0:4843) et la Maserati

(h10 = 0:6418). Les raisons semblent videntes : il s'agit de grosses cylindres luxueuses, des limousines

(Mercedes) ou des vhicules sportifs (Ferrari, Maserati).

Essayons d'approfondir notre analyse en triant cette fois-ci les observations de manire dcroissante

selon hi. Les 3 observations ci-dessus arrivent bien videmment en premire place, mais nous constatons

que d'autres observations prsentaient un levier proche de la valeur seuil. Il s'agit de la Toyota Previa

Salon, et dans une moindre mesure de la Hyundai Sonata 3000 (Figure 2.6). La premire est un monospace

(nous remarquons proximit 2 autres monospaces, la Seat Alhambra et la Peugeot 806) qui se distingue

par la conjonction d'un prix et d'un poids levs ; la seconde est une voiture de luxe corenne, les raisons

de son loignement par rapport aux autres vhicules tiennent, semble-t-il, en la conjonction peu courante

d'un prix relativement moyen et d'une cylindre leve.

Fig. 2.6. Trier les donnes CONSO selon la valeur du levier

4. Nous avons utilis un logiciel spcialis par commodit. L'enchanement des calculs peut tre facilement

reproduit sur un tableur, il sut d'utiliser bon escient les fonctions matricielles.



2.3 Rsidu standardis

Rsidu standardis

Le rsidu standardis, appel galement rsidu studentis interne dans certains ouvrages, s'intresse

l'importance du rsidus observ "î = yi yî. S'il est anormalement lev, en valeur absolue, le point at mal reconstitu par le modle : il s'carte ostensiblement de la relation modlise entre les exognes

et l'endogne.

Si par hypothse, la variance de l'erreur 2"i = 2" est constante, il en va autrement du rsidu

2"î

=

2"(1 hi). Nous devons donc normaliser le rsidu par son cart-type pour rendre les carts comparablesd'une observation l'autre.

Lorsque nous travaillons sur un chantillon, nous ne disposons pas de la vraie valeur de 2" , nous

estimons la variance des rsidus avec

^2"î = ^2"(1 hi) (2.3)

o hi est lue dans la Hat Matrix H, ^2" =

Pi "î

np1 est l'estimateur de la variance de l'erreur.

Le rsidu standardis est dni par le rapport

ti ="î^"î

="î

^"p

(1 hi)(2.4)

Rgion critique

Pour dcider du statut d'un point, il nous faut dnir une valeur seuil au del de laquelle le rsidu

standardis est anormalement lev (en valeur absolue).

Nous pouvons nous appuyer sur un appareillage statistique ici. En eet, par hypothse "i N (0; "),nous en dduisons que "î N (0; "î). On peut montrer facilement que ^2"î suit une loi du 2 (np1)degrs de libert.

De fait, le rsidu standardis, dni par le rapport (Equation 2.4) entre une loi normale et la racine

carre d'une loi du 2 normalise), suit une loi de Student (n p 1) degrs de libert

ti T (n p 1) (2.5)

Nous dcidons qu'une observation est particulirement mal reconstitue par le modle (d'une certaine

manire atypique) lorsque

R:C: : jtij > t12 (n p 1)

o t12 (n p 1) est le fractile d'ordre 1 2 de la loi de Student (n p 1) degrs de libert.Il s'agit bien d'un test bilatral. Le rsidu est suspect s'il est particulirement lev en valeur absolue.

Au nal, un point apparat comme aberrant avec un rsidu standardis lev si :


2.3 Rsidu standardis 35

il est mal prdit c.--d. "^i est lev ;

la rgression est prcise c.--d. ^" est faible ; en eet, si la rgression est globalement prcise, un

point mal prdit apparat comme d'autant plus suspect ;

le point est loign des autres dans l'espace des exognes ; en eet, plus hi est lev (hi 1), plus(1 hi) 0, et le rapport est lev.


TANAGRA fournit automatiquement les rsidus standardiss lors de l'analyse des points atypiques

(Figure 2.5). Il faut comparer la valeur absolue de la colonne avec la valeur seuil t0:95(26) = 1:7056 pour

un risque 10%.

Lorsque le nombre d'observations est lev, il devient mal ais d'inspecter le tableau des valeurs

du rsidus standardis. Il est plus commode de revenir au graphique des rsidus en mettant en abcisse

l'endogne et en ordonne le rsidu standardis. Nous traons alors une ligne matrialisant les valeurs

seuils t12 et +t12 (Figure 2.7) 5.

Fig. 2.7. Graphique des rsidus standardiss vs. endogne - Donnes CONSO

Remarque 13 (Taille d'chantillon et risque ). Autre approche pragmatique, nous pouvons trier les don-

nes selon jtij. Les vhicules suspects sont trs facilement mis en vidence (Figure 2.8). Cette technique estd'autant plus intressante que le nombre de vhicules situs dans la rgion critique s'accrot mcanique-

ment mesure que la taille n de l'chantillon augmente, laissant croire un nombre lev d'observations

5. Graphique ralis avec le logiciel R, il est trs facile de placer des tiquettes aux coordonnes choisies.



aberrantes. Il faudrait ajuster le risque en accord avec la taille d'chantillon n. Mais il s'agit l d'une

opration dlicate. En utilisant un tri simple, nous pouvons considrer, par ordre d'importance, les points

les moins bien reconnus par le modle sans se poser la question d'un seuil critique convenable.

Fig. 2.8. Observations tries selon la valeur absolue du rsidu standardis

Les calculs aboutissent des rsultats contrasts, correspondant des situations trs direntes (Fi-

gure 2.8) :

La Mercedes cumule un rsidu fort (1:374) et un levier lev (0:4843). Ce type de vhicule appar-tient une catgorie spcique qui n'a rien en commun avec les voitures recenss dans ce chier.

La "Ferrari" est mal reconstitue parce qu'elle est avant tout trs dirente des autres h = 0:8686.

Le rsidu brut "^ = 0:610 n'est pas trs lev, on prdit correctement sa consommation au regard

de ses caractristiques. Mais le rsidu rapport l'cart-type montre qu'il s'agit quand mme d'un

vhicule bien particulier.

La Hyundai et la Mitsubishi Galant correspondent une tout autre situation. Ces observations se

fondent dans l'ensemble de la population, le levier est en de du seuil critique. En revanche ils

n'obissent pas la relation mise en vidence entre les exognes et l'endogne (Equation 0.1). La

Hyundai consomme fortement par rapport ses caractristiques "^ = y y^ = 11:710:264 = 1:436 ;la Mitsubishi est en revanche particulirement sobre (au regard de sa cylindre) "^ = 7:6 9:168 =1:568.


2.4 Rsidu studentis 37

2.4 Rsidu studentis

Le rsidu studentis

Principe

Le rsidu standardis est un indicateur certes intressant mais il prsente un inconvnient fort : nous

valuons l'importance du rsidu "î d'une observation qui a particip la construction de la droite de

rgression. De fait, le point est juge et partie dans l'valuation : on l'utilise pour construire le modle,

puis on regarde s'il a bien t modlis. Si l'observation est fortement inuente, au sens qu'elle "tire"

exagrment les rsultats de manire prsenter un rsidu brut trs faible "^ 0, nous conclurons tortqu'elle est bien reconstitue et donc ne fausse en rien les rsultats de la modlisation (Figure 2.9).

Fig. 2.9. Exemple de rgression simple o l'observation 4 est certes bien modlise ("^ 0) mais elle faussetotalement les calculs : on parle de point exagrment inuent.

Il faudrait mettre en place une procdure qui permet de confronter les rsultats selon qu'une

observation participe ou non aux calculs. Parmi les pistes possible, nous nous penchons sur l'erreur

de prdiction. Une mesure objective devrait ne pas faire participer le point i dans la construction du

modle utilis pour prdire la valeur yî. Le rsidu studentis, on parle de rsidu studentis externe ou

RSTUDENT dans certains ouvrages, s'appuie sur ce principe, il utilise la procdure suivante (Dodge,

page 135) :

Pour chaque observation i,

Nous la retirons de l'ensemble des donnes, et nous calculons les paramtres de la rgression.

Nous eectuons la prdiction sur l'observation i en donne supplmentaire yî(i) Nous obtenons aussi l'estimation de l'cart-type des erreurs ^"(i), le levier hi(i) obtenu avec laformule hi(i) = xi(X 0iXi)1x0i o Xi correspond la matrice des X sans la ligne numro i. A l'instar du rsidu standardis, nous formons le rsidu studentis partir du rapport



ti =yi y^i(i)

^"(i)p

(1 hi(i))(2.6)

Le principe de la donne supplmentaire permet de mieux apprhender le rle/le poids de l'observation

i dans la rgression. Si, exclue de la rgression, elle reste bien prdite, elle est fondue dans la masse des

points ; en revanche, si son exclusion des calculs entrane une trs mauvaise prdiction, on peut penser

qu'elle pse fortement, peut-tre tort, sur les calculs (Figure 2.10).

Fig. 2.10. Principe de la donne supplmentaire : l'observation 4, exclue du calcul de la droite de rgression,devient trs mal prdite

Une autre interprtation

Il existe une autre manire de calculer le rsidu studentis. Elle ne facilite pas spcialement les calculs.

En revanche, elle a le mrite de mettre en lumire la loi de distribution que nous pourrons utiliser par la

suite pour dnir la rgion critique du test.

Le principe est le suivant, nous eectuons n rgressions avec toutes les observations. Pour la rgression

numro i, nous introduisons une variable muette z dnie de la manire suivante

z = 1 pour l'observation numro i

= 0 sinon

La rgression numro i s'crit donc de la manire suivante :

y = a0 + a1x1 + : : :+ apxp + b z + " (2.7)

Le rsidu studentis correspond au t de Student du test de signicativit du coecient b. Nous savons

que cette statistique suit une loi de Student T (n p 2) (n p 2) degrs de libert. En eet, il y abien (p+ 2) coecients estimer dans l'quation 2.7.


2.4 Rsidu studentis 39

Calcul pratique

Si le concept sous-jacent semble relativement simple, il reste produire les rsultats. Quelle que soit

l'approche adopte, il faudrait eectuer n rgressions. Si n est lev, le calcul est trs lourd, il peut se

rvler rdhibitoire.

A ce stade intervient une proprit remarquable du rsidu studentis : il est possible de le calculer

pour chaque observation i sans avoir procder explicitement aux n rgressions. Nous utilisons

pour cela d'une formule de transformation du rsidu standardis (Tenenhaus, page 95)

6

:

ti = ti

sn p 2

n p 1 t2i(2.8)

Le calcul supplmentaire demand est ngligeable.

Rgion critique

A partir de la formulation sous forme d'quation de rgression (quation 2.7), il est possible d'crire

rigoureusement le test d'hypothses permettant de dterminer si une observation est atypique/inuente

ou non. On oppose :

H0 : b = 0

H1 : b 6= 0

Sous H0, la statistique ti T (n p 2), on en dduit la rgion critique du test :

R:C: : jti j > t12 (n p 2)

o t12 (n p 2) est le fractile d'ordre 1 2 de la loi de Student (n p 2) degrs de libert.Il s'agit bien d'un test bilatral. Le rsidu est suspect s'il est particulirement lev en valeur absolue.

Comparaisons multiples et contrle du risque I

En multipliant les tests, nous valuons n observations, nous augmentons le risque de signaler tort

des points atypiques. Certains auteurs prconisent de rendre la dtection plus exigeante en introduisant

la correction de Bonferroni pour les comparaisons multiples : on divise le risque par l'eectif n. Pour

chaque observation tester, nous comparons le rsidu studentis avec le fractile d'ordre 1 2n . Dansl'exemple CONSO, le vrai risque utiliser serait 1 0:1231 = 0:9984 et le seuil critique t0:9984(25) = 3:539.On constate que sur les donnes CONSO (Figure 2.11), aucune observation n'est atypique avec cette

procdure.

6. La formule propose dans Dodge semble errone (page 135)



Comparaisons multiples et contrle du risque II

Si l'on comprend le principe de la correction du risque, multiplier les tests augmente les chances de

dsigner tort un point aberrant, il faut donc tre plus exigeant, la rectication ci-dessus est purement

empirique. Pour dpasser ces problmes, d'autres auteurs proposent tout simplement de comparer di-

rectement le rsidu studentis avec une valeur ad hoc, inspire nanmoins des seuils fournis par la loi

de Student, la valeur la plus utilise est 2 en rfrence un test 5%. Pour ma part, je pense que le

plus simple encore est de trier les observations selon jti j, cela nous donne plus de latitude pour juger del'ampleur des carts.


Nous compltons le tableau EXCEL en ajoutant la colonne des rsidus studentiss. La valeur seuil

10% est 1:7081. Nous trions les donnes selon la valeur absolue de cette colonne. Nous constatons que ce

sont les mmes points que prcdemment (cf. le rsidu standardis) qui se dmarquent ((Mercedes S600,

Hyundai Sonata, Ferrari 456 GT et Mitsubishi Galant, gure 2.11).

Fig. 2.11. Observations tries selon la valeur absolue du rsidu studentis

Dans notre exemple, les deux indicateurs ti et ti concordent. Ce n'est pas toujours le cas en pratique.

Il faut alors privilgier le rsidu studentis pour les raisons voques ci-dessus : le fait de considrer

l'observation numro i comme un point supplmentaire permet de mieux apprhender son inuence sur

la rgression.


2.5 Autres indicateurs usuels 41

2.5 Autres indicateurs usuels

Dans cette section, nous numrons d'autres indicateurs de points atypiques/inuents couramment

rencontrs dans les logiciels. Nous simplions la prsentation en mettant l'accent sur 3 aspects : le principe,

la formule et la rgle de dtection. Les rsultats relatifs au chier de donnes CONSO ont t produites

l'aide du logiciel TANAGRA (Figure 2.5).

2.5.1 DFFITS

Le DFFITS s'appuie sur le mme principe que le RSTUDENT, mais il compare cette fois-ci la pr-

diction en resubstitution yî et la prdiction en donne supplmentaire yî(i). Dans le premier cas, l'ob-servation a particip la construction du modle de prdiction, dans le second, non. Nous pouvons ainsi

mesurer l'inuence du point sur la rgression. Dans notre exemple ctif (Figures 2.9 et 2.10), la dirence

serait trs marque, conrmant le rle mysticateur de l'individu 4.Le DFFITS est normalise de la manire suivante

DFFITSi =yî yî(i)^"(i)

phi(2.9)

Nous considrons qu'une observation est inuente lorsque

R:C: : jDFFITSij > 2rp+ 1

n

mais le plus simple toujours est de trier les observations selon jDFFITSij pour mettre en videnceles points suspects.

Sur le chier CONSO, le seuil critique est 2q

4+131 = 0:8032. Nous constatons que la Ferrari (tout

particulirement), la Mercedes et la Hyundai se dmarquent toujours. La Mitsubishi en revanche ne

dpasse pas le seuil (0:7800) mais en est susamment proche pour qu'on ne remette pas en cause l'analyse

propose dans la section sur le rsidu studentis. On voit l tout l'intrt de ne pas prendre pour argent

comptant les valeurs seuils (Figure 2.12).

Calcul pratique du DFFITS

Il n'est heureusement pas ncessaire d'eectuer les n rgressions pour calculer les DFFITSi, on peut

l'obtenir partir du rsidu studentis

DFFITSi = ti

rhi

1 hi (2.10)

2.5.2 Distance de COOK

La distance de COOK gnralise le DFFITS dans le sens o, au lieu de mesurer l'eet de la suppression

de l'observation i sur la prdiction de yi, il mesure son eet sur la prdiction des n valeurs de l'endogne.



Fig. 2.12. Observations tries selon la valeur absolue du DFFITS

La premire formulation de la distance de Cook Di est la suivante :

Di =

Pnj=1 [y^i y^i(i)]2^2"(p+ 1)(2.11)

Ainsi, pour valuer l'inuence du point i sur la rgression, nous la supprimons du calcul des coecients,

et nous comparons les prdictions avec le modle complet (construit avec tous les points) et le modle

valuer (construit sans le point i). Si la dirence est leve, le point joue un rle important dans

l'estimation des coecients.

Il nous faut dnir la valeur seuil partir de laquelle nous pouvons dire que l'inuence est exagre.

La rgle la plus simple est :

R:C: : Di > 1 (2.12)

Mais elle est juge un peu trop permissive, laissant chapper tort des points douteux, on lui prfre

parfois la disposition plus exigeante suivante (Confais, page 309) :

R:C: : Di >4

n p 1 (2.13)

La distance de Cook a t calcule pour chaque observation du chier CONSO. Les individus ont t

tris selon Di dcroissants. La Ferrari, encore une fois trs fortement, et la Mercedes se dmarquent selon

la premire rgle de dtection (quation 2.12). Si nous passons la seconde rgle Di >4

np1 = 0:1538

(quation 2.13), la Hyundai se rvle galement suspecte (Figure 2.13).

Calcul pratique de la distance de Cook

De nouveau, il n'est pas question d'eectuer les n rgressions en supprimant tour tour chaque

observation. Nous pouvons grandement simplier les calculs en drivant la distance de Cook partir des

rsidus standardiss


2.5 Autres indicateurs usuels 43

Fig. 2.13. Observations tries selon la distance de Cook Di

Di =t2i

(p+ 1)

hi(1 hi) (2.14)

Distance de Cook entre les coecients estims

Nous avons dnis la distance de Cook comme un cart entre les prdictions. Il est galement possible

de la dnir comme une distance entre les coecients estims, avec ou sans l'observation i analyser.

Dans ce cas, la distance de Cook s'crit

Di =(a^ a^(i))0(X 0X)1(a^ a^(i))

^2"(p+ 1)(2.15)

o a^ est le vecteur des (p + 1) coecients estims (a^0; a^1; : : : ; a^p)0avec les n observations ; a^(i) lemme vecteur estim sans l'observation i.

La distance de Cook s'interprte, dans ce cas, comme l'amplitude de l'cart entre les coecients

estims de la rgression, avec et sans le point i. Il va sans dire que la valeur calcule Di est exactement

la mme que celle obtenue avec la premire dnition (quation 2.11).

De ce point de vue, la distance de Cook peut se lire comme la statistique du test de comparaison de

deux vecteurs de coecients. Sauf que qu'il ne peut s'agir d'un vritable test puisque les chantillons ne

sont pas (pas du tout) indpendants. Nanmoins, si l'on poursuit l'ide, la distance de Cook suivrait une

loi de Fisher (p + 1; n p 1) degrs de libert. On s'appuie sur la p-value du test pour dtecter lespoints atypiques : on considre qu'un point est suspect ds lors que la p-value calcule est infrieure

50% 7. On peut aussi imaginer une procdu

la regression dans la pratique

Documents

pratique macro

rgression linaire simple

page web

page defascicules http

points aberrants

support nengage

miseen oeuvre pratique

rsultats fournispar