notes de cours pour le module data mining · 2016. 9. 2. · chapitre 1 introduction aux mod eles...

65
1 Universit´ e Paris 7- Denis Diderot Notes de cours pour le Module DATA MINING Dominique Picard 1 1. Copyright @ 2009 Universite Paris-Diderot Dominique Picard

Upload: others

Post on 11-Oct-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Notes de cours pour le Module DATA MINING · 2016. 9. 2. · Chapitre 1 Introduction aux mod eles de r egression 1 Une premi ere citation de H.G. Wells (1866-1946) : ’Statistical

1

Universite Paris 7- Denis Diderot

Notes de cours pour

le Module

DATA MINING

Dominique Picard 1

1. Copyright @ 2009 Universite Paris-Diderot Dominique Picard

Page 2: Notes de cours pour le Module DATA MINING · 2016. 9. 2. · Chapitre 1 Introduction aux mod eles de r egression 1 Une premi ere citation de H.G. Wells (1866-1946) : ’Statistical

2

Page 3: Notes de cours pour le Module DATA MINING · 2016. 9. 2. · Chapitre 1 Introduction aux mod eles de r egression 1 Une premi ere citation de H.G. Wells (1866-1946) : ’Statistical

Table des matieres

1 Introduction aux modeles de regression 5

2 Modele de regression lineaire 72.1 Description du modele . . . . . . . . . . . . . . . . . . . . . . . 7

2.1.1 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . 82.2 Methode des Moindres Carres Ordinaires . . . . . . . . . . . . . 92.3 Estimation de β . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.3.1 Interpretation geometrique . . . . . . . . . . . . . . . . . 102.3.2 Calcul recursif, Methode de Gram Schmidt . . . . . . . 12

2.4 Lois des estimateurs. Estimation de σ2. . . . . . . . . . . . . . . 132.5 Theoreme de Gauss Markov et Moindres Carres ponderes. . . . 142.6 Etude du modele ajuste : estimation et tests . . . . . . . . . . . 17

2.6.1 Intervalles de confiance pour a∗β et σ2 . . . . . . . . . . 172.6.2 σ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182.6.3 Test d’une sous hypothese lineaire. . . . . . . . . . . . . 182.6.4 Resolution . . . . . . . . . . . . . . . . . . . . . . . . . . 192.6.5 Calcul pratique de F . . . . . . . . . . . . . . . . . . . . 202.6.6 Version ’RSS’ de ce test . . . . . . . . . . . . . . . . . . 20

2.7 Exemples :Etude du modele ajuste en pratique . . . . . . . . . . 212.7.1 Significativite globale : le test dit du R2 . . . . . . . . . 212.7.2 Etude de la validite du modele : Tests non parametrique

sur les residus . . . . . . . . . . . . . . . . . . . . . . . 222.7.3 Significativite de chacune des variables explicatives . . . 23

2.8 Multi-colinearite . . . . . . . . . . . . . . . . . . . . . . . . . . 242.8.1 Diagnostics . . . . . . . . . . . . . . . . . . . . . . . . . 242.8.2 Modeles curvilineaires . . . . . . . . . . . . . . . . . . . 25

2.9 Selection de variables et Choix de modeles . . . . . . . . . . . . 252.9.1 Statistique de Fisher : . . . . . . . . . . . . . . . . . . . 252.9.2 Criteres de choix : AIC, BIC, Cp . . . . . . . . . . . . . 262.9.3 Algorithmes de selection . . . . . . . . . . . . . . . . . . 26

2.10 Theoremes de Student et de Cochran . . . . . . . . . . . . . . . 27

3 Regression non parametrique 313.1 Modele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313.2 Reduction a un modele lineaire . . . . . . . . . . . . . . . . . . 31

3.2.1 Base polynomiale . . . . . . . . . . . . . . . . . . . . . . 323.2.2 Base trigonometrique . . . . . . . . . . . . . . . . . . . . 32

3

Page 4: Notes de cours pour le Module DATA MINING · 2016. 9. 2. · Chapitre 1 Introduction aux mod eles de r egression 1 Une premi ere citation de H.G. Wells (1866-1946) : ’Statistical

4 TABLE DES MATIERES

3.2.3 Base de Haar . . . . . . . . . . . . . . . . . . . . . . . . 333.2.4 Base d’ondelettes . . . . . . . . . . . . . . . . . . . . . . 33

3.3 Estimation de f par projection . . . . . . . . . . . . . . . . . . 333.3.1 Dans la base trigonometrique . . . . . . . . . . . . . . . 343.3.2 Dans la base de Haar . . . . . . . . . . . . . . . . . . . . 34

3.4 Calcul de l’erreur . . . . . . . . . . . . . . . . . . . . . . . . . . 353.4.1 Base de Fourier . . . . . . . . . . . . . . . . . . . . . . . 353.4.2 Base d’ondelettes . . . . . . . . . . . . . . . . . . . . . . 37

3.5 Optimalite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383.6 Methode des noyaux . . . . . . . . . . . . . . . . . . . . . . . . 39

3.6.1 Choix de la fenetre . . . . . . . . . . . . . . . . . . . . . 40

4 p grand, Sparsites 414.1 Evaluation de la prediction . . . . . . . . . . . . . . . . . . . . . 414.2 Le cas orthonormal : X∗X = Ip . . . . . . . . . . . . . . . . . . 424.3 Contraintes de sparsite de type ellipsoidales . . . . . . . . . . . 424.4 Cadre ’minimax’ . . . . . . . . . . . . . . . . . . . . . . . . . . 434.5 Resolution minimax sous contrainte de sparsite ellipsoidale, cas

orthonormal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 434.5.1 Le cas diagonal decroissant . . . . . . . . . . . . . . . . . 444.5.2 Cadre asymptotique . . . . . . . . . . . . . . . . . . . . 45

4.6 Contrainte de type sparsite lq, et lq,∞, Classes de Lorentz . . . . 454.6.1 Lien avec la contrainte de sparsite ellipsoidale . . . . . . 474.6.2 Minimax : bornes inferieures sur les espaces de types lp,

et lq,∞ . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

5 Methodes d’estimations parcimonieuses 515.1 Seuillage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

5.1.1 Quasi minimax optimalite : cas orthonormal homoscedastique 515.2 Hors orthonormalite : Ridge regression . . . . . . . . . . . . . . 53

5.2.1 Ridge regression, interpretation Bayesienne . . . . . . . . 545.2.2 ACP et Ridge . . . . . . . . . . . . . . . . . . . . . . . . 55

5.3 LASSO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 565.3.1 LASSO, cas orthonormal, X tX = I . . . . . . . . . . . . 565.3.2 LASSO, interpretation Bayesienne . . . . . . . . . . . . . 57

5.4 AIC, BIC, methodes penalisees . . . . . . . . . . . . . . . . . . 575.5 Appendice : Methodes bayesiennes en statistique classique . . . 585.6 Calcul de loi a posteriori, Exemples . . . . . . . . . . . . . . . . 595.7 Calcul de l’estimateur bayesien. . . . . . . . . . . . . . . . . . . 60

5.7.1 Perte quadratique ou de type L1. . . . . . . . . . . . . . 605.7.2 Probleme de classification. . . . . . . . . . . . . . . . . . 64

Page 5: Notes de cours pour le Module DATA MINING · 2016. 9. 2. · Chapitre 1 Introduction aux mod eles de r egression 1 Une premi ere citation de H.G. Wells (1866-1946) : ’Statistical

Chapitre 1

Introduction aux modeles deregression

1

Une premiere citation de H.G. Wells (1866-1946) : ’Statisticalthinking will one day be as necessary for efficient citizenship as theability to read and write.’

Une deuxieme citation de Hal Varian, The McKinsey Quarterly,January 2009 : “I keep saying the sexy job in the next ten years willbe statisticians. ”

Je remercie Karine Tribouley pour m’avoir communique son cours a ParisX Nanterre. Je lui ai emprunte certaines parties.

Le modele de regression est probablement le modele le plus vaste et le plusutilise et etudie (encore maintenant des milliers d’articles paraissent dans desrevues mathematiques chaque annee sur le sujet) en statistique.

Il consiste a proposer une modelisation dans le cas de figure suivant. Pouremployer un vocabulaire d’economiste, on dispose d’une variable endogene ouexpliquee que l’on note generalement Y et d’un certain nombre p de variablesexogenes ou explicatives que l’on note generalementX1, . . . , Xp. Les variablesXj pour j = 1, . . . , p apparaissant comme les causes d’un phenomeme et lavariable Y comme une consequence, on a envie d’ecrire qu’il existe une relationfonctionnelle entre la variable Y et les variables Xj pour j = 1, . . . , p soit

Y = f(X1, . . . , Xp)

pour une certaine fonction f sur laquelle on veut avoir des informations.Le but de ce cours est d’etudier les principales methodes d’estimation de

cette fonction f lorsqu’on dispose de n donnees sur les variables Y,X1, . . . , Xp.Nous serons amenes a distinguer le cas ou p < n du cas ou p >> n, plusdifficile mais aussi tres important dans le cadre actuel marque plutot par lasurabondance des donnees.

1. Copyright @ 2009 Universite Paris-Diderot Dominique Picard

5

Page 6: Notes de cours pour le Module DATA MINING · 2016. 9. 2. · Chapitre 1 Introduction aux mod eles de r egression 1 Une premi ere citation de H.G. Wells (1866-1946) : ’Statistical

6 CHAPITRE 1. INTRODUCTION AUX MODELES DE REGRESSION

Suivant les hypotheses que l’on est pret a faire a priori, plusieurs methodesseront envisagees. En particulier nous envisagerons plusieurs types de modeles.

– le modele lineaire : f est supposee etre une fonction lineaire. On s’interessea des variables Xj quantitatives.

– L’ANOVA ou le modele logistique : f est supposee etre lineaire. Ons’interesse a des variables Xj qualitatives ou categorielles.

– le modele de classification ou les variables Xj sont quantitatives et ou lavariable Y est qualitative.

– le modele parametrique : f est supposee dependre d’un parametre θinconnu. Mais la forme f := fθ est connue.

– le modele non parametrique : f est supposee etre completement inconnue.Cependant, on suppose qu’elle admet une certaine regularite.

Ces modeles sont tres utilises dans la pratique et dans de nombreux do-maines. Donnons quelques exemples.

– Dans le domaine de l’economie : En vue d’une politique de relance parla consommation, on veut connaitre l’influence du revenu sur la consom-mation. Soit R le revenu d’un menage et C sa consommation. L’INSEEmodelise generalement la relation entre R et C par un modele lineaire

R = a+ bC.

Le parametre a represente la consommation incompressible d’un menage(meme sans revenu) et le parametre b est appele la propension mar-ginale a consommer. Une estimation de b proposee par l’INSEE estenviron 0.8.

– Dans le domaine de la biomedecine : On veut evaluer le risque d’ap-parition d’un cancer selon que la personne a ete (ou non) exposee autabac. La variable explicative est ici X qui prend 2 valeurs (”Fumeur”ou ”NonFumeur”) et la variable a expliquer est Y qui est une probabilitede risque (valeur comprise entre 0 et 1). On propose comme modele

Logit(Y ) = a+ bX.

– Dans le domaine de l’environnement : il s’agit de prevoir la concentrationd’ozone a partir des variables suivantes : force du vent, temperature etconcentration d’oxyde d’azote. La forme particuliere de la fonction fθest donnee par des physiciens qui utilisent des equations provenant de lamecanique des fluides.

– En signal : On enregistre un concert. On discretise le signal en echantillonnanttoutes les secondes. On note Yi le signal recu au temps i. Ce signal estfonction du temps et on modelise par

Yi = f(i) + εi

ou εi contient tous les ”bruits” enregistres mais indesirables (les toux desgens, le bruit de la ventilation, ect..).

Page 7: Notes de cours pour le Module DATA MINING · 2016. 9. 2. · Chapitre 1 Introduction aux mod eles de r egression 1 Une premi ere citation de H.G. Wells (1866-1946) : ’Statistical

Chapitre 2

Modele de regression lineaire

1

Ce modele de regression est le plus utilise et le mieux connu de toutes lespersonnes traitant des donnees dans des domaines divers.

2.1 Description du modele

Soit Y la variable que l’on veut expliquer grace aux p variables explicativesX1, . . . Xp. On noteX la matrice n×p qui contient les echantillons des variablesXj pour j = 1, . . . p :

X =(Xji

)1≤i≤n,1≤j≤p .

La modelisation dite de regression lineaire multiple est la suivante

Yi = β1 X1i + . . .+ βp X

pi + εi, 1 ≤ i ≤ n

ce qui est equivalent, en ecriture matricielle a

Y = X β + ε(n, 1) (n, p) (p, 1) (n, 1)

(2.1)

avec :

1. β est un parametre de Rp inconnu et non aleatoire.

2. on impose au vecteur aleatoire ε de RN :– centrage : E(ε) = 0n.– independance et homoscedasticite : notons Σ la matrice de variance-

covariance de ε. Alors Σ = σ2Idn pour σ2 > 0 inconnu, deterministe.On ne connait pas forcement la loi de ε. On appelle ε l’erreur ou laperturbation.

Remarquons qu’en general, la constante 1n de Rn fait partie des regresseurs(par defaut dans les logiciels). Le modele est dit lineaire car il est lineaire enles parametres βj pour j = 1, . . . , p.

La plupart du temps dans ce cours, nous ferons l’hypothese que les εi sonti.i.d. de loi normale N(0, σ2).

Une fois la modelisation choisie, il s’agit d’estimer les parametres inconnusβ, σ2 du modele (il y en a donc p+ 1 au total).

1. Copyright @ 2009 Universite Paris-Diderot Dominique Picard

7

Page 8: Notes de cours pour le Module DATA MINING · 2016. 9. 2. · Chapitre 1 Introduction aux mod eles de r egression 1 Une premi ere citation de H.G. Wells (1866-1946) : ’Statistical

8 CHAPITRE 2. MODELE DE REGRESSION LINEAIRE

2.1.1 Exemples

1. Comparaison de 2 populations de meme variance : On dispose de 2echantillons Z1, . . . , Zm i.i.d. N(µ1, σ

2) et Z ′1, . . . , Z′m i.i.d. N(µ2, σ

2). Onles concatene pour former le vecteur

Y = (Z1, . . . , Zn, Z′1, . . . , X

′m)∗ = (Y1, . . . , Ym+n)∗

Si on considere la matrice X de taille n× 2, telle que

X11 = . . . = X1

n = 1, X1n+1 = . . . = X1

n+m = 0

X21 = . . . = X2

n = 0, X2n+1 = . . . = X2

n+m = 1

et le vecteur β = (µ1, µ2)∗, il est facile de mettre notre modele sous laforme (2.1).

2. Droite de regression. Supposons que l’on sache par des arguments theoriques( agronomiques, biologiques, economiques, physiques,...) que 2 quantitesx (par exemple le temps) et y (par exemple la taille d’un animal) sontliees par une equation affine de la forme y = ax+ b, dont on veut identi-fier les coefficients a et b. Une facon de proceder est de mesurer yi pourdifferentes valeurs de xi (appelee variable controlee ) et de modeliserles erreurs par des N(0, σ2) independantes. On a alors la representation(2.1), avec

X11 = x1, . . . , X

1n = xn,

X21 = . . . = X2

n = 1,

β = (a, b)∗

Cet exemple peut se generaliser en remplacant la relation affine par unerelation de la forme :

y =

p∑j=0

βjfj(x)

Une regression polynomiale s’obtient par exemple en prenant

f0 = 1, f1(x) = x, . . . , fp(x) = xp

3. On appelle Analyse de la variance (Anova) le cas ou la matrice X estuniquement constituee de 1 et de 0.

Donnons un exemple : Dans des conditions de culture de reference (0),une variete de ble a un rendement moyen de µ. On la soumet, dans desparcelles experimentales a un traitement a 2 facteurs :1er facteur (par exemple, un engrais) auquel, outre le niveau 0 de reference,

on donne 2 niveaux, notes 1 et 2 (par exemple, 2 doses differentes d’en-grais).

2eme facteur (par exemple, un niveau d’ensoleillement) auquel on donnesoit le niveau de reference 0 soit le niveau 1.

Page 9: Notes de cours pour le Module DATA MINING · 2016. 9. 2. · Chapitre 1 Introduction aux mod eles de r egression 1 Une premi ere citation de H.G. Wells (1866-1946) : ’Statistical

2.2. METHODE DES MOINDRES CARRES ORDINAIRES 9

Le modele de base choisi est le suivant :

y = µ+ αi + βj

Il est dit additif : Le effets des facteurs s’ajoutent simplement sans in-terferences. αi represente l’effet du 1er facteur au niveau i = 0, 1, 2, βjrepresente l’effet du 2eme facteur au niveau j = 0, 1. α0 = β0 = 0. Leterme additif signifie que les effets des 2 facteurs s’ajoutent. Il est clairqu’on aurait pu aussi rajouter “une interaction” de la forme γij, maispar souci de simplicite, nous ne l’avons pas fait ici.

Le but est d’obtenir des informations (estimation ou test) sur les αi etles βj. Pour cela, on realise une experimentation : On divise un champsen parcelles numerotees (6, dans l’exemple qui suit). Sur chaque parcelle,on applique les facteurs a un niveau prescrit. La description des niveuxaffectes aux parcelles s’appelle le plan de l’experience. Ici, il est donnepar le tableau suivant.

Parcelle 1 2 3 4 5 6Facteur 1 0 1 2 0 1 0Facteur 2 0 0 0 0 0 1

Si l’on suppose que l’on modelise le rendement sur chaque parcelle par uneffet de type (3) auquel s’ajoute une erreur N(0, σ2), et si l’on supposeles erreurs independantes, on obtient une equation du type Y = Xβ+ ε,ou Y est le vecteur des rendements, ε est le vecteur des erreurs, β =(µ, α1, α2, β1)∗ et X est la matrice suivante

X =

1 0 0 01 1 0 01 0 1 01 0 0 01 1 0 01 0 0 1

2.2 Methode des Moindres Carres Ordinaires

2.3 Estimation de β

Nous allons utiliser ici la methode dite des moindres carres : Pour cela, onintroduit la fonction,

γ(β, Y ) =n∑i=1

(Yi − (Xβ)i)2

Cette fonction mesure la distance dans Rn entre le vecteur Y et sa predictionpar Xβ. Il est relativement naturel de choisir comme estimateur de β, un pointβ rendant cette quantite minimum.

β = Argmin{γ(β, Y ); β ∈ Rp}

Page 10: Notes de cours pour le Module DATA MINING · 2016. 9. 2. · Chapitre 1 Introduction aux mod eles de r egression 1 Une premi ere citation de H.G. Wells (1866-1946) : ’Statistical

10 CHAPITRE 2. MODELE DE REGRESSION LINEAIRE

2.3.1 Interpretation geometrique

Si β parcourt Rp, Xβ parcourt l’espace vectoriel V engendre, dans Rn, parles colonnes de la matrice X :

V = X(Rp) ⊂ Rn

Comme γ(β, Y ) = ‖Y −Xβ‖2, necessairement Xβ, existe, est unique puisquec’est la projection sur V de Y , Xβ = ProjV (Y ). On en deduit que β existeaussi toujours, mais n’est unique que si X est injectif.

Proposition 1 Si p ≤ n, la matrice X, de dimension n× p est injective si etseulement si X∗X est inversible.

Demonstration de la Proposition.

Il sufit de demontrer que ker(X) = ker(X∗X). Il est clair que ker(X) ⊂ker(X∗X). Maintenant, soit u ∈ ker(X∗X), on a X∗Xu = 0, d’ou u∗X∗Xu =0, i.e. ‖Xu‖2 = 0 =⇒ Xu = 0 =⇒ u ∈ kerX.

Resolution algebrique

Xβ = ProjV (Y ) ⇐⇒ 〈Y −Xβ,Xb〉 = 0, ∀b ∈ Rp

⇐⇒ b∗X∗Y = b∗X∗Xβ, ∀b ∈ Rp

⇐⇒ X∗Y = X∗Xβ

D’ou, en utilisant la proposition si X est injective,

β = (X∗X)−1X∗Y

Remarque : Si X∗X n’est pas inversible, on n’a pas unicite de β, mais existence.Donnons une solution, utilisant la pseudoinverse : X∗X etant une matricesymetrique, positive, elle s’ecrit M∗DM avec M matrice orthogonale et Dest une matrice diagonale, dont les coefficients diagonaux sont notes r2

i . Onsuppose r2

i > 0,∀i = 1, . . . , k, r2i = 0,∀i ≥ k + 1. Appelons pseudoinverse de

X∗X la matrice

(X∗X)(−1∗) = M∗

1r21

. . . . . . 0 0 0

. . .0 . . . 1

r2k. . . 0 0

...0 . . . 0 . . . 0 0

M

Notons que si X∗X est inversible, alors pseudoinverse et inverse coincident.On verifie facilement que

β = (X∗X)(−1∗)X∗Y

est une solution de notre probleme, et que l’operateur de projection sur V estdonne par :

Xβ = X(X∗X)(−1∗)X∗Y = ProjV (Y )

Page 11: Notes de cours pour le Module DATA MINING · 2016. 9. 2. · Chapitre 1 Introduction aux mod eles de r egression 1 Une premi ere citation de H.G. Wells (1866-1946) : ’Statistical

2.3. ESTIMATION DE β 11

4Rappelons que si V ⊥ est le supplementaire orthogonal de V ,

ProjV ⊥(Y ) = Y − ProjV (Y ) = [In − ProjV ](Y ) = [In −X(X∗X)−1X∗]Y

Definition 1 On appelle vecteur des residus, le vecteur

ε = [In −X(X∗X)−1X∗]Y.

Il represente l’erreur de prediction. Le carre de sa norme s’appelle l’erreurquadratique.

Exemples :

1. Dans le cas elementaire suivant :

Yi = µ+ εi

l’estimateur des moindres carres se calcule facilement et vaut Yn =∑ni=1 Yin

.

2. Dans le cas d’une regression lineaire, nous avons vu que β = (a, b)∗ et

X =

x1 1...

...xn 1

De sorte que

X∗X =

( ∑ni=1 x

2i

∑ni=1 xi∑n

i=1 xi n

)Dans ce cas, un changement de parametres peut rendre les choses plus

aisees : En effet, si on introduit xn =∑n

i=1 xin

, le modele s’ecrit :

Yi = azi + b′ + εi, zi = xi − xn, b′ = b+ xn

et clairement minimiser∑n

i=1(Yi−azi+b′)2 equivaut a minimiser∑n

i=1(Yi−axi + b)2, avec la relation suivante b′ = b+ axn. L’equation (2) introduitun nouveau modele lineaire dont la matrice X ′ s’ecrit :

X ′∗X ′ =

( ∑ni=1 z

2i 0

0 n

)Cette matrice est inversible si et seulement si

∑ni=1 z

2i 6= 0, c’est a dire si

les xi ne sont pas tous egaux. Dans ce cas, on obtient facilement :

a =

∑ni=1(xi − xn)Yi∑ni=1(xi − xn)2

, b = Yn + axn

Page 12: Notes de cours pour le Module DATA MINING · 2016. 9. 2. · Chapitre 1 Introduction aux mod eles de r egression 1 Une premi ere citation de H.G. Wells (1866-1946) : ’Statistical

12 CHAPITRE 2. MODELE DE REGRESSION LINEAIRE

3. Considerons maintenant la regression periodique suivante :

Yi = a0 + a1 cos(2πi

n) + a2 sin(2π

i

n) + εi, i = 1, . . . , n

On verifie que en utilisant les relations sur les racines de l’unite que X∗Xse met sous la forme suivante : n

∑ni=1 cos(2π i

n)

∑ni=1 sin(2π i

n)∑n

i=1 cos(2π in)

∑ni=1 cos(2π i

n)2

∑ni=1 cos(2π i

n) sin(2π i

n)∑n

i=1 sin(2π in)∑n

i=1 cos(2π in) sin(2π i

n)

∑ni=1 sin(2π i

n)2

=

n 0 00 n

20

0 0 n2

On en deduit que

a0 = Yn, a1 =n∑i=1

cos(2πi

n)Yi, a2 =

n∑i=1

sin(2πi

n)Yi

4

2.3.2 Calcul recursif, Methode de Gram Schmidt

Nous proposons ici une methode pour calculer β de facon recursive. Appe-lons Xj la colonne numero j de la matrice X pour 1 ≤ j ≤ p.

Considerons le cas suivant dans lequel les MCO sont particulierement facilesa calculer : Supposons que les colonnes de X soient orthogonales (i.e. X tXest une matrice diagonale dont les coeficients diagonaux sont les carres desnormes des colonnes :

∑ni=1[Xj

i ]2 = 〈Xj, Xj〉. Dans ce cas, les coefficients βj

valent simplement :

βj =〈Xj, Y 〉〈Xj, Xj〉

Rappelons nous maintenant le procede d’orthonormalisation de Gram Schmidtqui pour des vecteurs quelconques u1, . . . , uk (tels que l’espace engendre par cesvecteurs (sp {u1, . . . , uk}) soit de dimension k) introduit les vecteurs v1, . . . , vkqui sont orthogonaux et verifient sp {u1, . . . , ul} = sp {v1, . . . , vl}, pour tout1 ≤ l ≤ k. Ce procede consiste simplement a construire les vl sous la formesuivante : v1 = u1,

v` = u` − Pv`−1u` − . . .− Pv1u`, ` ≥ 2.

(Pvj designe la projection sur le vecteur vj).Remarquons que pour 1 ≤ j ≤ `− 1,

Pvju` =〈vj, u`〉〈vj, vj〉

.

De plus comme les vj sont orthogonaux, Pv`−1u`+. . .+Pv1u` est la projection de

u` sur l’espace sp{v1, . . . , v`−1}. Donc vl est en fait le ’residu’ de la projectionde la projection de u` sur l’espace sp{v1, . . . , v`−1}.

Considerons maintenant, dans le cas p ≤ n et ou la matrice X est de rangp, l’algorithme suivant :

Page 13: Notes de cours pour le Module DATA MINING · 2016. 9. 2. · Chapitre 1 Introduction aux mod eles de r egression 1 Une premi ere citation de H.G. Wells (1866-1946) : ’Statistical

2.4. LOIS DES ESTIMATEURS. ESTIMATION DE σ2. 13

– Initialisation : Z1 = X1

– Pour l = 2 jusqu’a p calculer : Z l le residu de la projection de X l surZ l−1, . . . , Z1, i.e.

Z l = X l − 〈Zl−1, X l〉

〈Z l−1, Z l−1〉Z l−1 − . . .− 〈Z

1, X l〉〈Z1, Z1〉

Z1.

Montrer qu’alors

βp =〈Zp, Y 〉〈Zp, Zp〉

.

En changeant l’ordre des colonnes de la matrice X, on peut s’arranger pourfaire apparaitre Xj en dernier pour chaque j. Cela donne une facon de calculerles βj sans inverser la matrice. (Attention on a donc p calculs differents.)

Cet algorithme permet aussi de mesurer les problemes qui peuvent arriverau cours d’une telle estimation. Supposons en effet que le vecteur Xp soit trescorrele avec (par exemple) Xp−1 (ou soit proche d’une combinaison lineairede X1, . . . , Xp−1) ; dans ce cas le residu Zp va etre tres petit et par voie de

consequence l’estimation de βp tres instable.

2.4 Lois des estimateurs. Estimation de σ2.

Nous allons maintenant montrer la proposition suivante sous l’hypotheseque les εi sont i.i.d. N(0, σ2) :

Proposition 2 Sous la condition, p ≤ n, X∗X inversible, le vecteur de di-mension p+ n : (

βε

)est un vecteur gaussien de moyenne et variance :(

β0

), σ2

((X∗X)−1 0

0 In −X(X∗X)−1X∗

)

Preuve de la Proposition

Esperances et variances de β Dans ce paragraphe, l’hypothese de gaus-siannite sur les εi est inutile. Les resultats sont encore vrais si l’on suppose queEε = 0, Varε = σ2In.

Comme β = (X∗X)−1X∗Y , on a Eβ = E(X∗X)−1X∗(Xβ + ε) = β.

D’autre part,

Var(β) = (X∗X)−1X∗[Var(Y )]X(X∗X)−1

= (X∗X)−1X∗[Var(εX)](X∗X)−1

= σ2(X∗X)−1X∗X(X∗X)−1 = σ2(X∗X)−1.

Page 14: Notes de cours pour le Module DATA MINING · 2016. 9. 2. · Chapitre 1 Introduction aux mod eles de r egression 1 Une premi ere citation de H.G. Wells (1866-1946) : ’Statistical

14 CHAPITRE 2. MODELE DE REGRESSION LINEAIRE

Loi du vecteur Le vecteur (βε

)est fonction lineaire du vecteur Y , c’est donc un vecteur gaussien. Nous avonscalcule la moyenne de β au paragraphe precedent. Il est immediat que Eε = 0.Nous avons vu que : Xβ = ProjV (Y ) = Xβ + e avec e = ProjV (ε).

De plus, ε = [In − ProjV ](Y ) = ProjV ⊥(Y ) = ProjV ⊥(ε) = ε− e.Soit maintenant P1 = ProjV = X(X∗X)−1X∗ et P2 = ProjV ⊥ = In −

X(X∗X)−1X∗. On a donc Xβ = Xβ + P1ε, ε = P2ε.Par ailleurs, P1 + P2 = In, rg(P1) = dimV = rgX = p, rg(P2) = n − p.

On peut donc appliquer le th’eoreme de Cochran et en deduire que e et ε sontindependants. Par consequent, Xβ et ε sont independants. Il en est de memepour X∗Xβ et ε, et donc pour β et ε. Il nous reste a calculer la matrice decovariance du vecteur ε. Mais, comme ε = P2ε, elle est egale a σ2P2. Ceciacheve la preuve de la proposition.

Estimation de σ2. En appliquant le resultat de la Proposition 3, nous

avons : ‖ε‖2 suit une loi σ2χ2(n−p). En consequence, σ2 = ‖ε‖2n−p est d’esperance

σ2. C’est donc un estimateur assez naturel de σ2.

Construction de nouvelles ’erreurs’ A partir des residus on peut construiredes nouvelles variables η1, . . . , ηn−p qui, elles sont i.i.d.N(0, σ2)(et independantes

de β) :La matrice P2 est une matrice de projection orthogonale, donc P2 = P ∗2 =

P 22 , de plus c’est une matrice positive. Donc il existe une matrice orthogonaleU (UU∗ = U∗U = In), telle que

P2 = U∗DU

ou D est une matrice diagonale telle que ses coefficients diagonaux valent 1jusqu’a rang(P2) = n − p et 0 ensuite. Il est facile de voir que le vecteurZ = Uε = DUY = DUε suit une loi N(0, σ2D), ce qui signifie que Zn−p+1 =. . . = Zn = 0 et si l’on pose η1 = Z1, . . . , ηn−p = Zn−p les ηi sont les nouvelles

erreurs cherchees : i.i.d. N(0, σ2) (et independantes de β).En resume :

β ∼ N(β, σ2(X∗X)−1), σ2 ∼ σ2

n−pχ2(n− p)

De plus ces 2 estimateurs sont independants.

2.5 Theoreme de Gauss Markov et Moindres

Carres ponderes.

Considerons le modele suivant :

Y = Xβ + E

Page 15: Notes de cours pour le Module DATA MINING · 2016. 9. 2. · Chapitre 1 Introduction aux mod eles de r egression 1 Une premi ere citation de H.G. Wells (1866-1946) : ’Statistical

2.5. THEOREME DE GAUSS MARKOV ET MOINDRES CARRES PONDERES.15

ou E est un vecteur gaussien centre, de matrice de covariance σ2G. G est unematrice symetrique definie positive, connue. Un exemple est la matrice

G =

v1 0 . . . 00 v2 . . . 0

...0 0 . . . vn

,

qui correspond au fait que les observations sont encore independantes maischaque observation est entachee d’une variance propre (cas heteroscedastique).

La question que l’on se pose est doit-on, dans ce cas conserver l’estimateurde β, β = (X∗X)−1X∗Y ?

La question se pose avec d’autant plus d’acuite qu’un autre estimateur peutsembler tout aussi naturel : En effet, on peut assez simplement transformer lemodele (2.5) en modele lineaire ordinaire Z = X ′β + ε : En posant G =BB∗, Z = B−1Y,X ′ = B−1X, ε = B−1E . Dans ce nouveau modele, on peutcalculer l’estimateur usuel des moindres carres (on remarque en particulier quedu fait que G est definie symetrique positive, B est inversible) :

β = (X ′∗X ′)−1X ′∗Z = (X∗G−1X)−1X∗B−1∗B−1Y = (X∗G−1X)−1X∗G−1Y.

Remarques :

1. Remarquons que par definition, cet estimateur rend minimale la quan-tite :

‖B−1Y −B−1Xβ‖2 = (Y −Xβ)∗G−1(Y −Xβ)

qui represente la norme du vecteur Y −Xβ, dans la norme G−1, d’ou lenom donne a cet estimateur de moindres carres ponderes.

Si on considere le cas particulier ou G est diagonale, on doit minimiserl’expression

n∑i=1

1

v2i

(Yi − (Xβ)i)2

qui tient compte de la credibilite de chaque observation en raison inversede sa variance.

2. Var(a∗βa) = a∗(X∗G−1X)−1a..

3. Une autre facon d’enoncer la remarque 1 est d’observer que

PGV = X(X∗G−1X)−1X∗G−1

est la matrice associee a l’operateur de projection dans V , defini avec lametrique G−1. (Rappelons que si A est une matrice symetrique definiepositive de Rn, x∗Ay definit un produit scalaire sur Rn et on peut doncconsiderer la metrique associee.)

Page 16: Notes de cours pour le Module DATA MINING · 2016. 9. 2. · Chapitre 1 Introduction aux mod eles de r egression 1 Une premi ere citation de H.G. Wells (1866-1946) : ’Statistical

16 CHAPITRE 2. MODELE DE REGRESSION LINEAIRE

Remarquons que dans ce cas les relations matricielles PV = P ∗V , P2V =

PV , In = PV + PV ⊥ valides en metrique euclidienne doivent etre rem-placees par

PGV = G(PG

V )∗G−1, (PGV )2 = PG

V , In = PGV + PG

V ⊥,G . (2.2)

ou V ⊥,G designe le supplementaire orthogonal de V , pour le produitscalaire G−1. Ces relations se demontrent a partir des relations classiquesen observant que

‖x‖2G−1 = x∗B−1∗B−1x = ‖B−1x‖2

In .

On en deduit facilement que

PGV = BPB−1VB

−1, V ⊥,G = B(B−1V )⊥

PGV ⊥,G = BP(B−1V )⊥B

−1

4Nous allons montrer que cet estimateur possede en fait des proprietes d’op-

timalite tres interessantes :

Definition 2 L’estimateur β est dit lineaire s’il existe une matrice A telle queβ = AY .

Theoreme 1 Considerons le modele Y = Xβ+E ou E est un vecteur aleatoirecentre, de matrice de covariance σ2G. G est une matrice symetrique definiepositive, connue. Si β est un estimateur lineaire, tel que Eββ − β = 0, ∀β ∈Rp, Alors, il existe R matrice symetrique positive de Rp, telle que Var(β) =Var(β) +R.

Remarque : La signification de ce theoreme, est que ∀a ∈ Rp, Var(a∗βa) ≥Var(a∗βa). Or cette inegalite est tres importante, en particulier si le vecteur Eest gaussien et que l’on veut construire un intervalle de confiance. En suivantla demarche du paragraphe suivant, on montre tres facilement que dans le casσ connu, cet intervalle est

[a∗β − zα/2√

Var(a∗βa)σ, a∗β + zα/2

√Var(a∗βa)σ]

si on utilise β et

[a∗β − zα/2√

Var(a∗βa)σ, a∗β + zα/2

√Var(a∗βa)σ]

si on utilise β. Il est clair qu’on a interet a prendre la seconde solution puisquela longueur de l’intervalle est plus petite. 4

Preuve :Remarquons d’abord que la condition Eββ − β = 0, ∀β ∈ Rp, se traduit

encore par (AX − In)β = 0, ∀β ∈ Rp, c’est a dire AX = In.

Page 17: Notes de cours pour le Module DATA MINING · 2016. 9. 2. · Chapitre 1 Introduction aux mod eles de r egression 1 Une premi ere citation de H.G. Wells (1866-1946) : ’Statistical

2.6. ETUDE DU MODELE AJUSTE : ESTIMATION ET TESTS 17

Par ailleurs, Var(β) = AGA∗. Mais on a In = PGV + PG

V ⊥,G , en utilisant(2.2). On en deduit :

Var(β) = A(PGV + PG

V ⊥,G)GA∗

= AX(X∗G−1X)−1X∗G−1GA∗ + APGV ⊥,GGA

= AX(X∗G−1X)−1X∗A∗ +R

= Var(β) +R

On finit la demonstration en remarquant que

R = APGV ⊥,GGA

∗ = ABPB−1V ⊥B−1BB∗A∗ = ABPB−1V ⊥B

∗A∗

Cette quantite est bien symetrique et positive par les proprietes de la projectionen metrique euclidienne.4

2.6 Etude du modele ajuste : estimation et

tests

2.6.1 Intervalles de confiance pour a∗β et σ2

Soit a∗ un vecteur de L(Rp,R), on se propose d’estimer a∗β.Exemples :

1. Si a∗ = (1, 0, . . . , 0), on s’interesse a estimer β1.

2. Dans l’exemple d’une comparaison de 2 populations, p = 2, prendrea∗ = (1,−1) consiste a estimer la difference des moyennes. 4

On va prendre naturellement a∗β comme estimateur de a∗β. Nous nousproposons de construire un intervalle de confiance associe a cette estimation.Rappel : Supposons que l’on cherche a estimer une quantite q(θ) reelle.

Definition 3 Soit α fixe dans (0, 1). Soit, dans une experience arbitraire E = (Y, Pθ, θ ∈Θ), S = hoY, T = h′oY , 2 estimateurs de q(θ), on dira que [S, T ] est un intervalle deconfiance au niveau α, si

∀θ ∈ Θ, Pθ{q(θ) ∈ [S, T ]} ≥ 1− α.

Remarque : Bien entendu, S = −∞, T = ∞ convient toujours mais n’est guere

interessant. En effet, l’interet pratique sera toujours de rendre T − S le plus petit possible.

4

Estimation de a∗β, σ2 etant connu

On verifie que a∗(β − β) ∼ N(0, σ2a∗(X∗X)−1a), de sorte que si Φ(zα/2) =α/2, ou

Φ(u) = Prob(ξ ≥ u), ξ ∼ N(0, 1).

[a∗β − zα/2√a∗(X∗X)−1aσ, a∗β + zα/2

√a∗(X∗X)−1aσ]

est un intervalle de confiance pour la quantite a∗β, au niveau d’erreur α.

Page 18: Notes de cours pour le Module DATA MINING · 2016. 9. 2. · Chapitre 1 Introduction aux mod eles de r egression 1 Une premi ere citation de H.G. Wells (1866-1946) : ’Statistical

18 CHAPITRE 2. MODELE DE REGRESSION LINEAIRE

Estimation de a∗β, σ2 etant inconnu

On a, outre le fait que a∗(β−β) ∼ N(0, σ2a∗(X∗X)−1a), σ2 ∼ σ2

n−pχ2(n−p)

De plus ces 2 variables aleatoires sont independantes. Donc a∗(β−β)

σ√a∗(X∗X)−1a

∼T (n− p) de sorte que si Φn−p(zα/2,n−p) = α/2, ou

Φn−p(u) = Prob(ξ ≥ u), ξ ∼ T (n− p).

[a∗β − zα/2(n− p)√a∗(X∗X)−1aσ, a∗β + zα/2(n− p)

√a∗(X∗X)−1aσ]

est un intervalle de confiance pour la quantite a∗β, au niveau d’erreur α.

2.6.2 σ2

En utilisant le fait que σ2 ∼ σ2

n−pχ2(n − p), et la definition de P (χ2(k) >

cα,k) = α, on verifie facilement que

[σ2(n− p)cα,n−p

,σ2(n− p)c1−α/2,n−p

]

est un intervalle de confiance pour la variance au niveau d’erreur α.

2.6.3 Test d’une sous hypothese lineaire.

Rappel : On se donne un modele E = (Y, Pθ, θ ∈ Θ). On se donne une partition de Θ endeux ensembles (non vides) Θ0 et Θ1. Le but du jeu est alors de decider si θ appartient aΘ0 ou Θ1.

Definition 4 Dans le contexte ci-dessus une variable aleatoire φ(X) a valeurs dans {0, 1}est appelee test. La procedure de decision associee consiste a decider Θ0 si φ(x) = 0 et Θ1

sinon.

Notation :On note generalement :

H0, l’hypothese ’nulle’ : {θ ∈ Θ0}H1, ’l’alternative’ : {θ ∈ Θ1}

Quand on fait un test, il y a deux facon de se tromper, declarer H1 alors que H0 est vrai oul’inverse. Ceci conduit aux deux definitions suivantes :

Definition 5 Etant donnee l’eperience E et le probleme de test associe a la partition Θ0, Θ1,α ∈ [0, 1], on dit que le test φ(X) est de niveau α ssi

supθ∈Θ0

Eθφ(X) ≤ α

Definition 6 Etant donnee l’experience E et le probleme de test associe a la partitionΘ0, Θ1, α ∈ [0, 1], on appelle erreur de deuxieme espece (resp. puissance) la fonction

θ ∈ Θ1 7→ Eθ(1− φ(X)) (resp. Eθφ(X))

Page 19: Notes de cours pour le Module DATA MINING · 2016. 9. 2. · Chapitre 1 Introduction aux mod eles de r egression 1 Une premi ere citation de H.G. Wells (1866-1946) : ’Statistical

2.6. ETUDE DU MODELE AJUSTE : ESTIMATION ET TESTS 19

Nous nous placons, comme dans les paragraphes precedents dans le cadred’un modele lineaire gaussien, dont la matrice exogene est de rang p ≤ n. Onse donne C, une matrice fixee de dimension l × p, avec l < p, on suppose quele rang de C est l et on se propose de tester l’hypothese Cβ = 0.

Exemples :

1. Si l = 1, on se ramene a tester la nullit’e d’une forme lineaire. On retrouvedonc l’etude du paragraphe precedent.

2. Si par exemple Yi est la mesure d’un taux de pollution, que l’on cherchea expliquer par differentes variables : X1 quantite de precipitations, X2

vitesse du vent, X3 temperature, X4 nombre d’usines, a travers le modelesuivant :

Yi = β1X1i + β2X

2i + β3X

3i + β4X

4i + εi

or, plus modele contient de parametres, en general, moins il est in-terpretable. Donc on peut se poser la question de diminuer le nombrede parametres, par exemple, en testant β1 = β3 = 0. 4

2.6.4 Resolution

Soit V1 le sous espace vectoriel de V ,

V1 = {Xβ, Cβ = 0}

Comme rg(C) = l, dim(V1) = dim(ker(C)) = p− l. Soit W1 le supplementaireorthogonal de V1 dans V . On a

In = PV1 + PW1 + PV⊥ ,

PV1 , PW1 , PV⊥ sont des projecteurs respectivement de rang p−l, l, n−p et doncen appliquant le theoreme de Cochran, on a que (σ)−1PV1ε, (σ)−1PW1ε, (σ)−1PV⊥εsont des vecteurs gaussiens, independants de lois respectivesN(0, PV1), N(0, PW1), N(0, PV⊥).D’ou, (σ)−1PV1Y, (σ)−1PW1Y, (σ)−1PV⊥Y sont des vecteurs gaussiens independantsde lois respectives N(PV1Xβ, PV1), N(PW1Xβ, PW1), N(0, PV⊥). On en deduitque :

1. ‖(σ)−1PV⊥Y ‖2 ∼ χ2(n− p).2. ‖(σ)−1PV⊥Y ‖2 et ‖(σ)−1PW1Y ‖2 sont independants.

3. – Si Cβ = 0, PW1(Xβ) = 0 et donc ‖(σ)−1PW1Y ‖2 ∼ χ2(l).– Si Cβ 6= 0, ‖(σ)−1PW1Y ‖2 ∼ χ′2(l, ‖PW1(Xβ))‖2).

On en deduit que sous l’hypothese Cβ = 0, la statistique

F =‖PW1Y ‖2/l

‖PV⊥Y ‖2/(n− p)∼ F (l, n− p).

D’ou, si fα(n1, n2), est determine par P (F (n1, n2) > fα(n1, n2)) = α, on a

1− α = P (F ∈ [0, fα(l, n− p)]) .

Donc,

Page 20: Notes de cours pour le Module DATA MINING · 2016. 9. 2. · Chapitre 1 Introduction aux mod eles de r egression 1 Une premi ere citation de H.G. Wells (1866-1946) : ’Statistical

20 CHAPITRE 2. MODELE DE REGRESSION LINEAIRE

– Si la statistique F , evaluee sur nos donnees, tombe en dehors de l’inter-valle [0, fα(l, n− p)], on rejettera l’hypothese Cβ = 0.

– En revanche, si elle tombe dans cet intervalle, on acceptera l’hypothese.Ce que l’on vient de decrire s’enonce par la phrase suivante : Le test φ qui

vaut 1 si F ≥ fα(l, n− p), 0 sinon est un test de niveau α.

2.6.5 Calcul pratique de F

On a

F =‖Xβ − PV1Y ‖2/l

‖Y −Xβ‖2/(n− p)–

Si C =

1 0 . . . 0 0 . . . 00 1 . . . 0 0 . . . 0

...0 0 . . . 1 0 . . . 0

,

dans ce cas, on cherche a tester β1 = . . . = βl = 0. Soit X = (Xl+1, . . . , Xp),la matrice des l − p vecteurs colonnes de X. Il est facile de montrer quePV1Y = X(X∗X)−1X∗Y , et T se calcule aisement en fonction de X etX.

– Dans le cas general, ou C est une matrice quelconque, on commence parcompleter C en une matrice C ′ p× p et inversible, puis on pose η = C ′β.Le modele lineaire Y = Xβ+ε est equivalent au modele lineaire suivant,dans lequel on a fait le changement de parametre µ = C ′β, X ′ = XC ′−1 :

Y = X ′µ+ ε.

Dans ce nouveau modele l’hypothese a tester est µ1 = . . . = µl = 0 et onest ramene au cas precedent.

2.6.6 Version ’RSS’ de ce test

Une autre facon, plus habituelle dans les logiciels d’ecrire la statistiqueF , consiste a introduire les ’sommes des carres des residus’ dans chaquehypothese (H0 et H1) residuals sum of squares : RSS.Commencons par H1, une fois la donnee Y ’expliquee par X, ce qui ’restea expliquer’, les residus, contribuent pour :

RSS1 =: ‖Y −Xβ‖2 (= ‖ε‖2)

De meme, sous H0, la donnee Y est expliquee par PV1Y , donc ce qui’reste a expliquer’ (de facon residuelle sous H0) contribue pour :

RSS0 =: ‖Y − PV1Y ‖2 = ‖Y −X ˆβ‖2 (= ‖ˆε‖2).

Il est clair que RSS1 ≤ RSS0 et plus precisement, le theoreme de Py-thagore nous donne :

RSS0−RSS1 = ‖PW1Y ‖2

Page 21: Notes de cours pour le Module DATA MINING · 2016. 9. 2. · Chapitre 1 Introduction aux mod eles de r egression 1 Une premi ere citation de H.G. Wells (1866-1946) : ’Statistical

2.7. EXEMPLES :ETUDE DU MODELE AJUSTE EN PRATIQUE 21

De sorte que l’on peut ecrire F sous la forme suivante en introduisantp0 = dimension sous H0(= p−l dans ce qui precede), p1 = dimension sous H1(=p dans ce qui precede) :

F =[RSS0−RSS1]/(p1 − p0)

RSS1/(n− p1).

2.7 Exemples :Etude du modele ajuste en pra-

tique

Nous allons donner ici des exemples d’utilisation en pratique (et donnesdans les logiciels) des resultats trouves precedemment.

2.7.1 Significativite globale : le test dit du R2

Le R2 en particulier est une quantite a peu pres systematiquement donneedans les logiciels.

Considerons le cas ou la constante 1n = X1 fait partie des regresseurs. Pourtester la significativite globale du modele de regression propose, on peuttester l’hypothese

H0 : β2 = β3 = . . . = βp = 0 contre H1 : ∃j = 2, . . . p, βj 6= 0.

Ce qui est bien un test du modele puisqu’on se demande si on ne ferait pasaussi bien si on ajustait les donnees simplement par une constante.

Il est clair que l = p − 1, V1 = sp{1n}, PV1Y = Y 1n, si Y = 1n

∑ni=1 Yi.

DoncRSS0 = ‖Y − Y 1n‖2.

Par ailleurs, si on note Y =∑p

j=1 βjXj, et on a par le theoreme de Pythagore,

RSS1 = ‖Y − Y ‖2, RSS0−RSS1 = ‖Y − Y 1n‖2. (2.3)

On a donc que la statistique de test s’ecrit :

F =n− pp− 1

‖Y − Y 1n‖2

‖Y − Y ‖2.

Pour effectuer un test au niveau α, on cherche donc le quantile qα = fα(p −1, n−p) de la loi de Fisher avec les degres de liberte p−1, n−p et on appliquela regle de decision

– si F > qα, H0 est rejtee et les coefficients ne sont pas globalement nuls.La regression est donc globalement significative.

– si F ≤ qα, H0 est acceptee et les coefficients sont tous nuls. La regressionn’est donc pas globalement significative.

Remarque importante : Pour resoudre ( ! ?) le probleme du choix du niveaudu test a prendre (α = 0.01, 0.05, 0.1, 0.001 ... ?) generalement, les logicielsdonnent les p−values au lieu des quantiles. La p−value est par definiftion le

Page 22: Notes de cours pour le Module DATA MINING · 2016. 9. 2. · Chapitre 1 Introduction aux mod eles de r egression 1 Une premi ere citation de H.G. Wells (1866-1946) : ’Statistical

22 CHAPITRE 2. MODELE DE REGRESSION LINEAIRE

plus petit niveau auquel les donnees rejetteraient l’hypothese H0. En effet sion considere la famille de tests que l’on obtient en faisant varier le niveau α (etdonc ici la fonction quantile gα, mais ceci est utilise plus generalement) si lesdonnees nous amenent a rejeter pour une valeur de α elles amenent a rejeterpour toute valeur plus grande. Il est donc interessant de connaitre la quantite(aleatoire, fonction des donnees ) qui nous indique le plus petit niveau pourlequel les donnees rejettent. La p−value est donc un indice de signifiance del’hypothese nulle H0. Plus la p− value est grande, plus H0 doit etre acceptee.Reciproquement, evidemment plus elle est petite plus on a tendance a la rejeter.

Il est clair que le modele lineaire est d’autant mieux adapte aux donneesque la variance expliquee est plus grande ou bien la variance residuelle estplus faible c’est-a-dire que l’angle ω entre le vecteur centre Y − Y 1n et sonajustement centre Y − Y 1n est plus proche de 0 ou π. De facon equivalente,on s’interesse traditionnellement au cosinus de cet angle.

cos2ω = R2 =‖Y − Y 1n‖2

‖Y − Y 1n‖2.

Il est facile de voir qu’on a la relation suivante entre R2 et notre statistique detest F (d’ou son nom)

F =n− pp− 1

R2

1−R2.

Le R2’est une quantite qui se donne systematiquement lorsqu’on fait uneregression. Cependant lorsque la constante 1n n’appartient pas au plan deregression, le R2 defini comme precedemment ne veut alors plus rien dire. Onpeut changer de definition et introduire R2′ le cosinus de l’angle entre Y et sonajuste Y .

cos2θ =tY Ytyy

= 1−tεεtY Y

.

Cette quantite aussi permet de qualifier l’adequation du modele lineaire a nosdonnees.

2.7.2 Etude de la validite du modele : Tests non pa-rametrique sur les residus

Plus haut nous avons construit des nouvelles variables η1, . . . , ηn−p a partirdes residus on peut construire des nouvelles variables qui, elles sont i.i.d.N(0, σ2)(etindependantes de β) :

Ces nouvelles variables (fonction des observations) peuvent nous servir atester le modele. On peut en effet tester l’hypothese H0 : les ηi sont i.i.d.N(0, σ2), contre H1 : il existe m 6= 0 tel que les ηi sont i.i.d. N(m,σ2), quicorrespondrait a l’oubli d’un centrage par exemple.

En general on a tendance a ne pas avoir d’idee sur la forme de ce qu’onpourrait avoir oublie dans le modele on a alors recours a des tests de type nonparametriques.

On peut par exemple si σ2 est connu, utiliser un test de Kolmogorov Smir-nov. Si σ est inconnu, on peut ’standardiser’ c’est a dire diviser les ηi par un

Page 23: Notes de cours pour le Module DATA MINING · 2016. 9. 2. · Chapitre 1 Introduction aux mod eles de r egression 1 Une premi ere citation de H.G. Wells (1866-1946) : ’Statistical

2.7. EXEMPLES :ETUDE DU MODELE AJUSTE EN PRATIQUE 23

estimateur bien choisi de σ. Le probleme alors est que les ηi une fois standar-disees ne sont plus i.i.d.... On peut aussi utiliser un test de signes ou de rangsou de signes et rangs sur le ηi.

Souvent les logiciels prennent d’assez grandes libertes avec la theorie puis-qu’ils proposent frequemment un test de Kolmogorov Smirnov calcule directe-ment sur les residus ε standardises ou fournissent des indices graphiques (Q×Qplot,...).

2.7.3 Significativite de chacune des variables explica-tives

On s’interesse a eliminer de l’etude toutes les variables non significativespour le modele propose. Pour chaque variable explicative Xj, on veut effectuerle test

H0 : βj = 0 contre H1 : βj 6= 0

qui revient a tester

H0 : Xj est non significative contre H1 : Xj est significative .

Dans ce cas, le test etudie plus haut nous permet de construire la statistique

F =‖PW1Y ‖2/l

‖ε‖2/(n− p)ou ici l = 1. Prenons le cas (les autres s’en deduisent par permutation descolonnes) j = p. Il est facile de voir que, si on reprend l’orthonormalisation deGram Schmidt detaillee au paragraphe 2.3.2 ainsi que le resultat de ce para-graphe, W1 = sp{Zp}, PW1Y = 〈Y,Zp〉

〈Zp,Zp〉Zp = βpZ

p. De sorte que la statistiquede test s’ecrit :

F =β2p‖Zp‖2

‖ε‖2/(n− p).

On peut soit calculer directement ‖Zp‖2 soit remarquer que cette quantitedoit necessairement etre l’inverse de la variance de βp ( divisee par σ2 ), cequ’on a aussi calcule au paragraphe 2.6.1 et vaut xpp le p-eme element de ladiagonale de la matrice (tXX)−1 (mais cela demande alors de l’avoir inverseeexactement).

En remarquant qu’un loi F (1, n − p) est le carre d’une loi de StudentT (n − p), on a tendance (ce qui est strictement equivalent) a utiliser commestatistique de test

T =βj√ σ2xjj

ou xjj est le j-ieme element de la diagonale de la matrice (tXX)−1. Sousl’hypothese nulle H0, T suit donc une loi de student a n− p degres de liberte.Pour tester la significativite du regresseur Xj au niveau α, on trouve donc leα−quantile qα de la loi tn−p et on applique la regle de decision

– si |T | > qα, on refuse H0 et Xj est significative,– si |T | < qα, on accepte H0 et Xj n’est pas significative.

Bien sur, on peut aussi utiliser la p−value pour prendre la decision.

Page 24: Notes de cours pour le Module DATA MINING · 2016. 9. 2. · Chapitre 1 Introduction aux mod eles de r egression 1 Une premi ere citation de H.G. Wells (1866-1946) : ’Statistical

24 CHAPITRE 2. MODELE DE REGRESSION LINEAIRE

2.8 Multi-colinearite

Pour estimer les parametres et leur variance, on a besoin de calculer l’in-verse de la matrice (tXX). Lorsque le determinant de cette matrice est nulou tres proche de 0, on dit que le probleme est mal conditionne. On estconfronte a des estimateurs qui ont des grandes variances (donc peu precis) etil apparait souvent des problemes de precision numerique. Il faut donc pouvoirdiagnostiquer ces situations et proposer des solutions.

2.8.1 Diagnostics

La matrice de variance-covariance de l’estimateur des MCO s’ecrit

V = σ2(tXX)−1

et on a montre dans le paragraphe precedent que chaque element de la diago-nale de cette matrice (qui est la variance des parametres estimes) peut s’expri-mer sous la forme suivante : prenons d’abord le dernier pour faire les calculs

Vpp =1

‖Zp‖2

=1

‖Xp − Psp{X1,...,Xp−1}Xp‖2

=1

‖Xp‖2[1− ‖Psp{X1,...,Xp−1}Xp‖2

‖Xp‖2 ].

Soit encore

Vjj =1

‖Xj‖2(1−R2j )

ou R2j est le coefficient de determination de la variable Xj sur celles qui restent

(c’est le cosinus carre de l’angle entre Xj et la projection de Xj sur l’espaceengendre par les autres variables X1, . . . Xj−1, Xj+1, . . . Xp). Il est evident queplus Xj est lineairement proche de cet espace, plus R2

j est proche de 1 etplus Vjj est grand. Cette variance est minimum (c’est-a-dire l’estimateur estle plus precis) lorsque Xj est orthogonale aux autres variables. On appelle Vjjle facteur d’inflation de la variance.

En examinant la matrice des correlations entre les variables, on peut detecterles variables tres correlees 2 a 2 mais pas les correlations multiples. Il faut donccalculer effectivement les Vjj ou plutot les tolerances 1−R2

j .Pour regarder les problemes de colinearite 2 a 2, on peut calculer l’indice

de conditionnementκ = max(λj)/min(λj),

ou λj, j = 1, . . . p sont les valeurs propres de la matrice des correlations. Enpratique si κ < 100, on considere qu’il n’y a pas de probleme. Par contre, il fauts’inquieter si κ > 1000. Cet indice donne une idee globale des problemes decolinearite mais pour savoir quelles variables posent probleme, il faut calculerles facteurs d’inflation et les tolerances.

Page 25: Notes de cours pour le Module DATA MINING · 2016. 9. 2. · Chapitre 1 Introduction aux mod eles de r egression 1 Une premi ere citation de H.G. Wells (1866-1946) : ’Statistical

2.9. SELECTION DE VARIABLES ET CHOIX DE MODELES 25

2.8.2 Modeles curvilineaires

En cas de non validite de l’hypothese de linearite, il est interessant deconsiderer des modeles polynomiaux

Y = β1 + . . . βpXp + . . . cklX

kX l + . . . dj(Xj)2 + . . .

qui sont appeles aussi surfaces de reponse. Ces modeles sont tres simplesa etudier : il suffit de rajouter les nouvelles variables produit des anciennes.Attention, ce type de modeles accroit les risques de colinarite : dans la pratique,il est rare de considerer des modeles autres que quadratiques.

2.9 Selection de variables et Choix de modeles

La modelisation statistique couvre 3 objectifs

1. description : on veut explorer les liaisons entre Y et X1, . . . Xp pour pgrand. Le but est de selectionner un sous ensemble de variables explica-tives dont le cardinal n’est pas trop grand. Attention, si n est petit et pgrand, il est toujours possible de trouver un ”bon” modele : c’est l’effetdata mining.

2. explication : on a des connaissances a priori et on veut valider ou inva-lider ces resultats theoriques. Le modele exploratoire precedant permetde faire de l’inference : tests et intervalles de confiance.

3. prediction : On veut avoir de ”bons” estimateurs (par rapport au criterede risque quadratique par exemple) afin de faire des predictions correctes.On veut en general trouver des modeles parcimonieux (c’est-a-dire avecpeu de variables explicatives). On prefere avoir des modeles avec des esti-mateurs legerement biaises pour avoir un bon compromis biais/variance.Ici, un ”bon” modele n’est plus celui qui explique le mieux (bon R2 oupetite SCR) mais celui qui predit le mieux.

Il existe beaucoup de criteres permettant de choisir le modele : AIC, BIC,erreur quadratique de prediction .... Ils sont tous equivalents lorsqu’on fixele nombre de variables p a selectionner. Mais, par contre le choix du criterejoue un role important lorsqu’on veut comparer 2 modeles utilisant un nombredifferent de variables explicatives.

2.9.1 Statistique de Fisher :

On utilise ce critere pour comparer des suites de modeles emboites. Rappe-lons qu’on a aussi utilise la statistique de Fisher dans le cadre explicatif pourtester la validite globale d’un modele (test du R2).

On a un modele (gros) avec p variables note M1, un modele (petit) avecq variables (choisies parmi les p utilisees dans le ”gros” modele) note M0. Oncalcule la statistique de Fisher ou pour bien marquer la dependance dans lesvariables nous ecrirons RSS0(q) et RSS1(p) a la place de RSS0 et RSS1

F =(RSS0(q)−RSS1(p))/(p− q)

RSS1(p)/(n− p)=n− pp− q

[RSS0(q)

RSS1(p)− 1].

Page 26: Notes de cours pour le Module DATA MINING · 2016. 9. 2. · Chapitre 1 Introduction aux mod eles de r egression 1 Une premi ere citation de H.G. Wells (1866-1946) : ’Statistical

26 CHAPITRE 2. MODELE DE REGRESSION LINEAIRE

Si cette statistique est assez grande (superieure a fα(p− q, n−p)) alors l’ajoutdes p− q variables supplementaires est justifie. Sinon, on peut se contenter dupetit modele a q variables. Plus exactement, cette statistique permet d’effectuerle test

H0 : M0 valide contre H1 : M1 valide

soit

H0 : βq+1 = βq+2 = . . . = βp = 0 contre H1 : ∃j ∈ {q + 1, . . . , p}, βj 6= 0.

2.9.2 Criteres de choix : AIC, BIC, Cp

Il y a un probleme avec ce type de test, c’est qu’on ne controle vraimentson erreur que si on le pratique une fois pour un choix bien precis de variable.Il est clair que si on fait plusieurs tests les uns apres les autres pour choisirles variables, le calcul du niveau devient tres vite fastidieux. On ne procedepas de cette facon mais on conserve l’idee de regarder les fluctuations de lastatistique. Supposons que nos variables soient ordonnees et que l’on se posela question d’en rajouter de plus en plus. Dans ce cas, on ne procede pas avecun test mais on conserve l’idee de regarder les fluctuations de la statistique.

q 7→ (n− p)RSS0(q)

RSS1(p)

qui represente bien l’erreur que l’on fait en predisant le modele si on s’arreteaux q premieres variables normalisee par l’erreur faite avec toutes les variablespossibles. Evidemment, a mesure que ’lon augmente le nombre q de variablesexplicatives, cette statistique se rapproche de 1. Donc cela ne nous donnepas un critere de choix : on predit d’autant mieux qu’on a plus de variablesexplicatives.

Pour remedier a ce problemes plusieurs criteres sont proposes dans lalitterature, qui consistent a penaliser le nombre de variables explicatives.

Citons parmi eux

BIC(q) =(n− p)RSS0(q)

RSS1(p)+ [log n]q (Schwarz ′76) (2.4)

AIC(q) =(n− p)RSS0(q)

RSS1(p)+ q. (Akaike ′70,′ 73) (2.5)

Cp(q) =(n− p)RSS0(q)

RSS1(p)+ 2q. (Mallows ′73) (2.6)

2.9.3 Algorithmes de selection

Avec p variables explicatives, on 2p choix de modeles possibles. Si p estgrand, il n’est pas raisonnable d’explorer tous les modeles pour trouver lemeilleur. Il existe 3 types d’algorithmes :

1. Pas a pas :

Page 27: Notes de cours pour le Module DATA MINING · 2016. 9. 2. · Chapitre 1 Introduction aux mod eles de r egression 1 Une premi ere citation de H.G. Wells (1866-1946) : ’Statistical

2.10. THEOREMES DE STUDENT ET DE COCHRAN 27

– forward : On commence avec une variable et a chaque pas, on enajoute une : celle qui apporte le plus pour le critere de la statistiquede Fisher. On s’arrete soit lorsqu’il n’y a plus de variable, soit quandaucune variable n’apporte quelque chose ou en applicant un critere detype AIC ou BIC.

– backward : On fait la meme chose mais en demarrant du modelecomplet. On elimine la variable qui apporte le moins par rapport aucritere de Fisher. On s’arrete lorsque les variables restantes donnenttoutes un critere satisfaisant (pour un α fixe a l’avance).

– stepwise : Apres chaque selection de modele donnee par la methode”forward”, on enleve les variables qui deviennent inutiles du fait del’ajout de nouvelles variables.

2. Par echange :– maximisation du R2 : On travaille avec un nombre q fixe de variables

explicatives du modele. On cherche alors une nouvelle variable quimaximise l’accroissement du R2. Puis, on cherche avec quelle variablepresente dans le modele l’echanger de facon a rester avec q variables.On recommence tant que le R2 croıt.

– minimisation du R2 : Idem que precedemment mais on selectionnela variable qui minimise l’accroissement du R2. On explore alors plusde modeles et on a plus de chance de tomber sur un meilleur optimum.

3. Global : L’algorithme de Furnival et Wilson est utilise pour comparertous les modeles possibles en optimisant le R2, ou un critere de type CpAIC ou BIC. L’algorithme parcourt un arbre, evite les sous branches donton sait a priori qu’elles ne sont pas competitives. En general, les logicielsdonnent le meilleur modele pour chaque q. Mais ceci n’est possible quepour un nombre raisonnable de variables explicatives.

2.10 Theoremes de Student et de Cochran

Theoreme 2 (Student) Soit X1, . . . , Xn, des variables independantes iden-tiquement distribuees (notation i.i.d.) de loi commune N(m,σ2). Alors,

1. Xn =n∑i=1

Xi suit une loi N(m,σ2/n).

2. Rn =n∑i=1

(Xi − Xn)2 suit une loi σ2χ(n− 1).

3. Xn et Rn sont independants.

4. Si Sn designe la variable

√Rn

n− 1, alors Tn =

√n(Xn −m)

Snsuit une loi

de Student T(n-1).

Demonstration du Thereme de Student– 1 est evident.– Les quantites que nous etudions sont homogenes. Par le changement de

variables X ′i = (Xi −m)/σ, on se ramene au cas ou m = 0, σ2 = 1.

Page 28: Notes de cours pour le Module DATA MINING · 2016. 9. 2. · Chapitre 1 Introduction aux mod eles de r egression 1 Une premi ere citation de H.G. Wells (1866-1946) : ’Statistical

28 CHAPITRE 2. MODELE DE REGRESSION LINEAIRE

– Notons qu’on a la relation suivante :

n∑i=1

(Xi − Xn)2 + nXn2

=n∑i=1

X2i . (2.7)

On considere une matrice orthogonale M telle que sa premiere ligne est( 1√

n, . . . , 1√

n). Soit Z = MX ou X = (X1, . . . , Xn)∗. Puisque M est

orthogonale, Z est un vecteur gaussien standard de Rn, et Z1 =√nXn

est independant de (Z2, . . . , Zn). Par ailleurs, toujours parce que M estorthogonale,

‖MX‖2 = ‖X‖2 =n∑i=1

X2i = (

√nXn)2 +

n∑i=2

Z2i .

On en deduit que∑n

i=2 Z2i =

∑ni=1X

2i − (

√nXn)2 =

∑ni=1(Xi − Xn)2

(en utilisant (2.7)) est independant de Xn et suit un χ2(n− 1).

Theoreme 3 (COCHRAN) Soit X ∼ N(ξ, In)

1. Soit P1, P2, . . . , Pk, k matrices n× n autoadjointes, verifiant

In =d∑i=1

Pi, etd∑i=1

rangPi ≤ n.

Alors les matrices Pi sont des projecteurs (P 2i = Pi) et les variables PiX

sont des Gaussiennes mutuellement independantes de loi N(Piξ, Pi).

2. Soit Q1, Q2, . . . Qk, k formes quadratiques

sur Rn verifiant :

∀x ∈ Rn, ‖x‖2 =d∑i=1

Qi(x) etd∑i=1

rangPi ≤ n.

Alors les variables QiX sont mutuellement independantes de loi χ′2(Qiξ, rangQi).

Demonstration du Theoreme : La demonstration repose sur un lemme depure algebre lineaire :

Lemme 1 Soit P1, P2, . . . , Pk, k matrices n× n , vErifiant

In =d∑i=1

Pi, et Pi = P ∗i

On a alors l’equivalence entre :

1.∑d

i=1 rang Pi ≤ n.

2. ∀i 6= j PiPj = 0

3. ∀i P 2i = Pi

Page 29: Notes de cours pour le Module DATA MINING · 2016. 9. 2. · Chapitre 1 Introduction aux mod eles de r egression 1 Une premi ere citation de H.G. Wells (1866-1946) : ’Statistical

2.10. THEOREMES DE STUDENT ET DE COCHRAN 29

Preuve du Lemme : Remarquons que 1 signifie : ∀x ∈ Rn, x s’ecrit demaniere unique sous la forme

∑ki=1 ui; ui ∈ Pi(Rn).

1. 2⇒ 3 Pi = Pi(∑

j Pj) =∑

j PiPj = P 2i

2. 3⇒ 2 On a

∀x ∈ Rn, ‖x‖2 = 〈x, x〉 = 〈x,∑j

Pjx〉 = 〈x,∑j

P 2j x〉 =

∑j

‖Pjx‖2.

Appliquons cette relation a Pix :

∀x ∈ Rn, ‖Pix‖2 =∑j

‖PjPix‖2 = ‖Pix‖2 +∑j 6=i

‖PjPix‖2.

Donc j 6= i⇒ PjPi = 0

3. 3&2⇒ 1 Soit x =∑

i Piyi. On a donc :

Pjx =∑i

PjPiyi = P 2j yj = Pjyj.

D’o˘ l’Ecriture unique x =∑

i Pix.

4. 1⇒ 3&2 Pj = (∑

i Pi)Pj =∑

i PiPj. On en deduit ;

∀x ∈ Rn, Pj(x− Pjx) =∑i 6=j

PiPjx.

L’unicite de la representation implique le resultat.

Demonstration du Theoreme, (fin)

1. C’est une consequence du fait que pour des vecteurs gaussiens orthogo-nalite signifie independance.

2. Soit Pj = P ∗j la matrice definissant la forme quadratique Qj : ∀x ∈Rn Qj(x) = x∗Pjx. Par polarisation de la relation ∀x ∈ Rn, ‖x‖2 =∑d

i=1 Qi(x), on obtient :

∀x, y ∈ Rn, 〈x, y〉 =∑j

〈x, Pjy〉

ce qui implique In =∑

j Pj. Le point 2 du theoreme est donc uneconsequence du point 1 et de la proposition 3 suivante.

Proposition 3 .

1. Si P est une matrice de projection (i.e. P = P ∗ = P 2), et si W ∼N(ξ, P ), avec P (ξ) = ξ, alors ‖W‖2 ∼ χ

′2(rang (P ), ‖ξ‖2)

2. Si P est une matrice de projection (i.e. P = P ∗ = P 2), et si X ∼ N(ξ, In)alors, ‖PX‖2 ∼ χ

′2(rang (P ), ‖P (ξ)‖2).

Page 30: Notes de cours pour le Module DATA MINING · 2016. 9. 2. · Chapitre 1 Introduction aux mod eles de r egression 1 Une premi ere citation de H.G. Wells (1866-1946) : ’Statistical

30 CHAPITRE 2. MODELE DE REGRESSION LINEAIRE

Demonstration de la Proposition :

1. En effet , on peut ecrire, au moyen de la matrice R orthogonale, P =RDR∗ ou D est une matrice diagonale dont les d = (rang(P )) premierscoefficients sont egaux a 1, les autres a 0. Soit Z = R∗W . On a W = RZ,et Z ∼ N(η,D), R∗ξ = η. Comme ξ = RDR∗ξ, on a η = Dη.

Donc les n−d dernieres composantes de Z sont nulles, et les d premieres,suiventdes lois normales N(ηi, 1) independantes. De plus

∑ni=1 ξ

2i =

∑di=1 η

2i .

Comme ‖W‖2 = ‖Z‖2, ‖W‖2 ∼ χ′2(d, ‖ξ‖2).

2. On remarque PX ∼ N(Pξ, P ).

Page 31: Notes de cours pour le Module DATA MINING · 2016. 9. 2. · Chapitre 1 Introduction aux mod eles de r egression 1 Une premi ere citation de H.G. Wells (1866-1946) : ’Statistical

Chapitre 3

Regression non parametrique

On s’interesse dans ce chapitre a des modeles de regression non parametriquesgaussiens lorsque le design est fixe.

3.1 Modele

Considerons le modele suivant

Yi = f(xi) + εi, i = 1, . . . , n

avec ou– Yi sont les observations, xi est le design fixe de l’experience– εi sont les erreurs que l’on suppose independantes, centrees et de meme

variance inconnue σ2.L’objet d’interet est la fonction f qui est inconnue.

Un modele particulierement interessant est celui du signal lorsque le designxi = i/n est equidistribue. Alors f est une fonction dont le support est [0, 1].

3.2 Reduction a un modele lineaire

L’idee (simple... et de ce fait tres jolie...) consiste a supposer que f peutetre approximee par un dictionnaire de fonctions. Par exemple, on peut prendrele dictionnaire de tous les polynomes, ou le dictionnaire des fonctions trigo-nometriques, ou un dictionnaire constitue des deux types de fonctions, ou toutautre... Bien entendu on ne pourra pas prendre la totalite du dictionnaire doncon choisit p fonctions dedans (ou encore, on se reduit a un dictionnaire de taillep).

D = {g1, . . . , gp}.

La fonction f cherchee s’ecrit

f(x) =

p∑j=1

βjgj(x) + u(x). (3.1)

31

Page 32: Notes de cours pour le Module DATA MINING · 2016. 9. 2. · Chapitre 1 Introduction aux mod eles de r egression 1 Une premi ere citation de H.G. Wells (1866-1946) : ’Statistical

32 CHAPITRE 3. REGRESSION NON PARAMETRIQUE

A priori, cette ecriture n’est pas unique, mais supposons (on y reviendra) qu’ondispose d’une ecriture ’privilegiee’, dans laquelle on espere de plus que la fonc-tion u est ’petite’. En d’autres termes, on suppose que f est bien approximeepar une combinaison lineaire du dictionnaire.

On va donc prendre vraiment au serieux cette hypothese de ’bonne approxi-mation’, au point qu’on va construire le modele de remplacement, dans lequelon remplace u par 0. Dans ce modele de remplacement, chaque observations’ecrit :

Yi =

p∑j=1

βjgj(xi) + εi, i = 1, . . . , n.

On a donc un modele lineaire de la forme

Y = Xβ + ε, Xji = gj(xi). (3.2)

Dans la suite nous supposerons en general que xi = in, pour donner plus

de structure a notre propos. Nous allons en particulier detailler une approcheou nous allons rendre plus precise l’utilisation de ce modele de remplacement,ainsi que certaines methodes qui sont specifiques a ce modele de regressionfonctionnelle.

On va d’abord supposer que f appartient a l’espace L2 ce qui signifie que fest de carre integrable :

∫ 1

0f 2 < +∞. Cette hypothese n’est pas tres restrictive :

par exemple, des que f est continue sur [0, 1], elle est verifiee. Ce cadre anodind’apparence, permet de mettre de la rigueur dans notre approche precedente.En effet, si {e`, ` = 1, . . .∞} est une base de L2, alors, on peut donner unesignification claire a l’equation (3.1), en posant gl = e`, les coefficients βlpeuvent alors etre uniquement determines par

β` = < e`, f > =

∫ 1

0

e` f.

de meme,

u =∑l>p

β`el

qui tend vers 0 dans L2. Donnons quelques exemples de bases.

3.2.1 Base polynomiale

L’espace L2 admet quantite de bases {e`, ` = 1, . . .∞}. On peut penseraux bases polynomiales. Si l’on orthonormalise a l’aide du procede de GramSchmidt la suite {1, x, x2, . . . , xk, . . .} on obtient ainsi une base associee auxpolynomes de Legendre.

3.2.2 Base trigonometrique

La base {e`, ` = 1, . . .∞}, la plus connue est certainement la base de Fourierou base trigonometrique donnee par

– e1(x) = 1

Page 33: Notes de cours pour le Module DATA MINING · 2016. 9. 2. · Chapitre 1 Introduction aux mod eles de r egression 1 Une premi ere citation de H.G. Wells (1866-1946) : ’Statistical

3.3. ESTIMATION DE F PAR PROJECTION 33

– si ` est pair, e`(x) =√

2 cos(2π`x)– si ` est impair, e`(x) =

√2 sin(2π`x)

Alors les fonctions de la famille {e`, ` = 1, . . .∞} sont normees et orthogonales

< e` e`′ >=

∫ 1

0

e` e`′ = δ`(`′).

et engendrent dans L2 l’ensemble des fonctions periodiques f(0) = f(1). Cettebase est particulierement simple ce qui explique qu’elle est beaucoup utilisee.

3.2.3 Base de Haar

Une autre base interessante est la base de Haar qui est definie a partir destranslations/dilatations

φj,k(x) = 2j/2φ(2jx− k) et ψj,k(x) = 2j/2ψ(2jx− k)

d’une ondelette de Haar

φ(x) = 1[0,1] et ψ(x) = 1[0,1/2] − 1]1/2,1].

Fixons un niveau j0 ≥ 0 et considerons la famille

{φj0,k pour k = 0, . . . , 2j0 , ψj,` pour j = j0, . . . ,∞, ` = 0, . . . , 2j}

Il est tres simple de montrer que cette famille est orthonormee, et que c’estune base

f =2j0∑k=0

αj0,kφj0,k(x) +∞∑j=j0

2j∑`=0

βj,` ψj,`(x).

Cette egalite comporte deux termes : un terme qui donne la tendance de lafonction f et un terme qui donne les details de la fonction f . De meme que dansle cas de la base trigonometrique, le fait que la base de Haar soit orthogonaleamene le fait remarquable que les coefficients de f sur la base sont les produitsscalaires

αj0,k = < φj0,k, f > =

∫ 1

0

φj0,k f et βj,` = < ψj,` , f > =

∫ 1

0

φj,` f.

3.2.4 Base d’ondelettes

De la meme facon que pour la base de Haar, on definit d’autres basesd’ondelettes en choisissant des pere et meres φ et ψ differents : Daubechies,Meyer, Coiflets, Symlets ....

3.3 Estimation de f par projection

Le terme ’estimation par projection’ refere de facon generique a l’utili-sation du modele d’emprunt (3.2) en utilisant comme dictionnaire une baseorthonormee de L2 tronquee.

Page 34: Notes de cours pour le Module DATA MINING · 2016. 9. 2. · Chapitre 1 Introduction aux mod eles de r egression 1 Une premi ere citation de H.G. Wells (1866-1946) : ’Statistical

34 CHAPITRE 3. REGRESSION NON PARAMETRIQUE

Dans le cas ou xi = in, le fait que la base soit orthonormee, a une consequence

importante. En effet, dans ce cas, la matrice X tX est telle que

1

nX tXlm =

1

n

n∑i=1

gl(i

n)gm(

i

n).

Comme 1n

∑ni=1 gl(

in)gm( i

n) est l’approximation de Riemmann de l’integrale∫

[0,1]gl(x)gm(x)dx = δml. Cette matrice est donc ’presque’ l’identite. On en

deduit que par consequent l’estimateur des MCO, βl est ’presque’

βl =1

n

n∑i=1

gl(i

n)Yi. (3.3)

L’estimation par projection refere en fait -donc- a la fois l’utilisation du modeled’emprunt (3.2) en utilisant comme dictionnaire une base orthonormee, maisaussi le fait d’utiliser (3.3) comme estimateur.

3.3.1 Dans la base trigonometrique

Travaillons dans la base trigonometrique {e`, ` = 1, . . .∞}. Alors f sedecompose

f(x) =∞∑`=1

θ` e`(x) avec θ` =

∫ 1

0

e` f.

Donc on estime chaque coefficient par

θ` =1

n

n∑i=1

e`

(i

n

)Yi.

Finalement, on reconstruit un estimateur de la fonction f

f =

p∑`=1

θ`e`.

Le probleme fondamental qui se pose alors est : comment choisir p ?

3.3.2 Dans la base de Haar

On se fixe un niveau j0. Dans la base de Haar, f se decompose en unetendance au niveau j0 et des details a des niveaux plus eleves

f(x) =∑k

αj0,k φj0,k(x) +∑j≥j0

∑`

βj,` ψj,` (x)

avec

αj0,k =

∫ 1

0

φj0,k f et βj,` =

∫ 1

0

ψj,` f.

Page 35: Notes de cours pour le Module DATA MINING · 2016. 9. 2. · Chapitre 1 Introduction aux mod eles de r egression 1 Une premi ere citation de H.G. Wells (1866-1946) : ’Statistical

3.4. CALCUL DE L’ERREUR 35

On se concentre sur la tendance en oubliant les ’details’ pour estimer f . Ils’agit donc d’estimer les coefficients αj0,k. On estime donc chaque coefficientpar

αj0,k =1

n

n∑i=1

φj0,k

(i

n

)Yi.

Finalement, on reconstruit un estimateur de la fonction f en estimant seule-ment la tendance de f au niveau j0

f =∑k

αj0,k φj0,k.

Le probleme fondamental qui se pose est : comment choisir le niveau j0 ?

3.4 Calcul de l’erreur

On s’interesse a l’erreur L2 (encore appelee MISE) definie par

MISE = E

∫ 2

0

(f − f

)2

.

En utilisant l’orthonormalite des bases, on obtient

MISE =

E∑N

`=1(θ` − θ`)2 +∑∞

`=N+1 θ2` base trigo

E∑2j0

k=1(αj0,k − αj0,k)2 +∑∞

j=j0

∑k β

2j,k ondelettes

3.4.1 Base de Fourier

Commencons par l’estimateur avec la base trigonometrique. On a un termede biais et un terme de variance

1. Variance : On montre facilement que

Eθ` =1

n

n∑i=1

e`

(i

n

)f

(i

n

)et que

V ar(θ`) =σ2

n2

n∑i=1

e2`

(i

n

)≤ σ2

n.

Comme

EN∑`=1

(θ` − θ`)2 = E

(N∑`=1

(θ` − Eθ`)2 +N∑`=1

(Eθ` − θ`)2

),

on a

E

N∑`=1

(θ` − θ`)2 ≤N∑`=1

σ2

n+

(1

n

n∑i=1

e`

(i

n

)f

(i

n

)−∫ 1

0

e` f

)2 .

Page 36: Notes de cours pour le Module DATA MINING · 2016. 9. 2. · Chapitre 1 Introduction aux mod eles de r egression 1 Une premi ere citation de H.G. Wells (1866-1946) : ’Statistical

36 CHAPITRE 3. REGRESSION NON PARAMETRIQUE

Il faut evaluer l’erreur Rn de l’approximation de Riemann. Remarquonsque ∫ 1

0

e`(t) f(t)dt =n∑i=1

∫ (i+1)/n

i/n

e`(t) f(t)dt et1

n=

∫ (i+1)/n

i/n

dt

alors on peut ecrire

Rn =n∑i=1

∫ (i+1)/n

i/n

(e`

(i

n

)f

(i

n

)− e`(t) f(t)

)dt

Par le theoreme des accroissements finis, il existe une suite θi(l, t) denombres de [0, 1] telle que

e`(t)f(t)− e`(i/n)f(i/n) = (e` f)′(θi(l, t))(t− i/n).

On deduit

|Rn| ≤ | 1

2n2

n∑i=1

‖(e` f)′‖∞ ≤M(1 + 2

√πl)

n

sous la condition que f est derivable et de derivee bornee par M . Parsuite,

N∑l=1

|Rn|2 ≤ 2M2[N

n2+πN3

n2]

Le terme de variance est donc majore par une quantite de l’ordre de Nn

des que l’on impose N2 ≤ n. Plus exactement

V ≤ N(σ2 + 10M2)

n.

2. Biais. On majore le terme de biais en faisant des hypotheses de regularitesur l’objet inconnu a estimer, comme on l’a fait dans le chapitre 5 Dansle cadre de la base trigonometrique, les classes de regularite usuelles sontles classes de Sobolev notees W (s, L) ou s est le degre de regularite desfonctions et L le rayon des boules considerees qui correspondent auxcontraintes ellipsoidales introduites au chapitre 5

W (s, L) =

{g ∈ L2, g =

∞∑`=1

θ` e` avec∑`

(`)2sθ2` ≤ L pour tout `

}.

Exercice : Demontrer que si s est dans N∗ alors f est une fonctionperiodique, s fois derivable, dont les derivees sont dans L2 alors f appar-tient a W (s, L), si et seulement si il existe L′ tel que

∫ 1

0[f (m)]2(x)dx ≤

L′, ∀m ≤ s. Le terme de biais est alors majore par L2N−2s sous l’hy-pothese que f appartient a une classe de Sobolev W (s, L) pour s > 0 etL > 0.

Nous avons demontre le resultat suivant

Page 37: Notes de cours pour le Module DATA MINING · 2016. 9. 2. · Chapitre 1 Introduction aux mod eles de r egression 1 Une premi ere citation de H.G. Wells (1866-1946) : ’Statistical

3.4. CALCUL DE L’ERREUR 37

Theoreme 1 Soit s, L,M > 0 fixes. Sous les hypotheses

1. f est derivable de derivee bornee par M

2. f est dans la boule Sobolev W (s, L)

3. N ≤√n

on a la decomposition Biais/Variance de l’erreur MISE

MISE ≤(

(σ2 + 10M2)N

n+ L2N−2s

)Le meilleur choix de N est donc

N∗ =((σ2 + 10M2 + L2)n

) 11+2s

qui mene a une erreur de l’ordre de n−2s

1+2s . Cet optimum n’est possible que siN∗ ≤

√n, ce qui est le cas si s > 1

2- ce qui est en fait lie a l’hypothese(1)-.

Le probleme pratique auquel nous sommes confrontes est que, en general, nousne connaissons pas a priori les parametres de regularite s, L. Il est donc im-possible de choisir la fenetre optimale.

3.4.2 Base d’ondelettes

Les calculs sont identiques

1. Variance : On montre facilement que

Eαj0,k =1

n

n∑i=1

φj0,k

(i

n

)f

(i

n

)et que

V ar(αj0,k) =σ2

n2

n∑i=1

φ2j0,k

(i

n

)≤ 2j0

σ2

n2

n∑i=1

I{[ k2j0,k + 1

2j0]}( in

) ≤ σ2

n.

Comme

2j0∑k=0

(αj0,k − Eαj0,k)2 ≤ 2

2j0∑k=0

(Eαj0,k − αj0,k)2 +2j0∑k=0

(αj0,k − αj0,k)2

,

et que par ailleurs on peut montrer (exercice) sous l’hypothese que fest lipschizienne(1) de constante M que le terme d’approximation deRiemann se majore par :

cM(22j0/2

n+

2−j0/2

n) ≤ 3M

2j0/2

n.

On en deduit que

2j0∑k=0

(αj0,k − Eαj0,k)2 ≤ 2j0+1(σ2

n+ c2M2 2j0

n2)

≤ 2j0+1σ2 + c2M2

n

si on suppose de plus de choisir j0 tel que 2j0 ≤ n.

Page 38: Notes de cours pour le Module DATA MINING · 2016. 9. 2. · Chapitre 1 Introduction aux mod eles de r egression 1 Une premi ere citation de H.G. Wells (1866-1946) : ’Statistical

38 CHAPITRE 3. REGRESSION NON PARAMETRIQUE

2. Biais. On majore le terme de biais en faisant des hypotheses de regularitesur l’objet inconnu a estimer. Dans le cadre des bases d’ondelettes, lesclasses de regularite usuelles sont les espaces de Besov notes Bp

s (L) ou sest le degre de regularite des fonctions, p est le degre d’integration et Lle rayon des boules considerees

Bps (L) =

{g ∈ L2, ∀ j0 ≥ 0, ‖g −

j0∑k=0

αj0kΦj0k‖p ≤ L2−j0s, αj,k = 〈g,Φjk〉

}

Ici, on prend p = 2. En faisant l’hypothese que f appartient a l’espacede Besov B2

s (L), on majore le biais par L2 2−2j0s.

Nous avons demontre le resultat suivant

Theoreme 2 Soit s, L,M > 0 fixes. Sous les hypotheses

– f est Lipschizienne de constante M– f est dans la boule Besov B2

s (L)

on a la decomposition Biais/Variance de l’erreur MISE

MISE ≤(

2(σ2 + c2M2)2j0

n+ L22−2j0s

)Le meilleur choix de j0 est donc

2j∗ ∼ n1

1+2s

qui mene a une erreur de l’ordre de n−2s

1+2s .

3.5 Optimalite

Pour avoir une idee de la qualite d’un estimateur, il faut se donner uncritere. Nous choisissons le critere L2 qui s’appuie donc sur MISE. Nous allonsdefinir le risque minimax sur un espace fonctionnel donne F par

Rn(F) = inff

supf∈F

E‖f − f‖22

ou l’infimum est pris sur tous les estimateurs de f (c’est-a-dire sur toutes lesfonctions mesurables des donnees).

Ce concept est utilise dans d’autres domaines que les statistiques. Parexemple, John Rawls (1921-2002) philosophe ayant travaille sur une theoriede la justice a utilise cette notion en donnant comme exemple un politiquepour les prisons. (Harvard puis MIT).

C’est une notion qui est ”pessimiste” puisqu’on calcule ce risque minimaxen prenant en compte les pires fonctions de F (meme si celles ci sont tres peunombreuses et peu representatives de leur classe). On peut montrer le resultatde borne inferieure suivant

Page 39: Notes de cours pour le Module DATA MINING · 2016. 9. 2. · Chapitre 1 Introduction aux mod eles de r egression 1 Une premi ere citation de H.G. Wells (1866-1946) : ’Statistical

3.6. METHODE DES NOYAUX 39

Theoreme 3 Soit s, L > 0 et p ≥ 2. Alors, il existe une constante C telle que

Rn(F) ≥ C n−2s

1+2s

pour

F = W (s, L) ou Bps (L).

On deduit immediatement le corollaire suivant

Corollaire 1 Les estimateurs par projection dont les parametres de lissagesont

2j∗

= n1/(1+2s) dans le cas de la base d’ondelettes

N∗ = n1/(1+2s) dans le cas de la base de Fourier

sont optimaux parmi tous les estimateurs de f .

3.6 Methode des noyaux

On s’interesse dans cette section au modele de regression a design fixe maisnon necessairement equidistribue. Dans le modele de regression, la methode desnoyaux est aussi appelee methode de Nadaraya-Watson. Tres generalement, ons’interesse a des estimateurs de la fonction de regression qui sont des moyennesponderees des donnees observees Yi

f(x) =n∑i=1

YiWi(x)

ou Wi(x) est la fonction de poids qui depend du design Xi (et pas des obser-vations Yi) et qui verifie

Wi(x) ≥ 0 etn∑i=1

Wi(x) = 1.

L’idee president au choix de la fonction de poids pour estimer f(x) est qu’ilfaut donner beaucoup d’inportance aux donnees Xi qui sont proches de x ettres peu aux donnees qui sont loin de x. La fenetre h quantifie la distance entrex et Xi :

– si −h ≤ x−Xi ≤ h, Xi est proche de x,– si |x−Xi| > h, Xi est loin de x.

Le noyau rectangulaire est donne par

∀u, K(u) = 1[−1,1](u)

menant aux poids

Wi(x) = K

(x−Xi

h

)

Page 40: Notes de cours pour le Module DATA MINING · 2016. 9. 2. · Chapitre 1 Introduction aux mod eles de r egression 1 Une premi ere citation de H.G. Wells (1866-1946) : ’Statistical

40 CHAPITRE 3. REGRESSION NON PARAMETRIQUE

ou plutot

Wi(x) =K(x−Xi

h

)∑ni=1K

(x−Xi

h

)car on veut que la somme des poids fasse 1. On generalise cette constructiona toutes sortes de noyaux K. Nous definissons la notion de noyau par

K est un noyau ssi

∫K = 1 et K(u) = K(−u).

Citons par exemple le noyau triangulaire

K(u) = (1− |u|) 1(|u|≤1),

le noyau Epachnikov

K(u) =3

4(1− u2) 1(|u|≤1),

ou le noyau gaussien

K(u) =1√2πe−

12u2 .

3.6.1 Choix de la fenetre

Remarquons que la methode des noyaux depend aussi d’un parametre delissage : la fenetre h. Heuristiquement parlant

– si h est tres petit, la fonction de poids vaut 1 en Xi et zero partoutailleurs ; ce qui signifie que l’estimateur fh reproduit les donnees en attri-buant la valeur Yi en Xi et en mettant zero partout ailleurs. L’estimateurde f est donc tres oscillant : l’erreur stochastique est tres grande.

– si h est tres grand, la fonction de poids vaut 1 en toutes donnees dudesign Xi et donc l’estimateur de f vaut la moyenne des Yi est constant.L’erreur stochastique est alors nulle (pas de variance) mais evidemmentl’erreur de biais est tres grande.

De meme que pour l’estimateur par projection, on peut montrer le theoremesuivant

Theoreme 4 Supposons que la fonction de regression appartienne a Cs. Alorsil existe une constante positive C telle que

MISE ≤ C

(1

nh+ h2s

).

On deduit la proposition suivante

Theoreme 5 Soit h∗ = O(n1/(1+2s)

). Si f ∈ Cs alors

E‖fh∗ − f‖22 ≤ C n−2s/(2s+1).

En utilisant le resultat de borne inferieure predemment enonce, nous avonsprouve l’optimalite de la procedure par noyau lorsque la fenetre est h∗. Il esta noter que le noyau K n’a pas d’influence sur la vitesse de convergence del’estimateur fh∗ . Par contre, il intervient dans les constantes C et donc peutetre important lorsque le nombre de donnees n est petit.

Page 41: Notes de cours pour le Module DATA MINING · 2016. 9. 2. · Chapitre 1 Introduction aux mod eles de r egression 1 Une premi ere citation de H.G. Wells (1866-1946) : ’Statistical

Chapitre 4

p grand, Sparsites

1

4.1 Evaluation de la prediction

Supposons que notre but soit de predire, Y∗(= x∗β + ε∗) -non observe- auvu de la seule observation des regresseurs

x∗ = x1∗, . . . , x

p∗

en supposant que Y∗ (ou ε∗) est independante de notre echantillon prealable(appele echantillon d’apprentissage). On suppose aussi que x∗ est soit deterministe,soit aleatoire mais independante de ε∗ et de l’echantillon d’apprentissage. Sup-posons que nous proposions a partir de cet echantillon d’apprentissage un’estimateur’ (celui des MCO ou un autre) β(n). Le predicteur naturellementassocie est

Y := x∗β(n).

Le risque quadratique que l’on commet est alors (on utilise l’independanceentre x∗ et ε∗ ainsi qu’entre l’echantillon d’apprentissage et la nouvelle obser-vation ) :

E(Y − Y∗)2 = E(x∗(β(n)− β) + ε∗)2

= E(x∗(β(n)− β))2 + E(ε∗)2

≤ E‖x∗‖2E‖β(n)− β‖2 + E(ε∗)2

On voit dans cette majoration qu’il y a une partie ’incompressible’ ( :E(ε∗)

2), une partie qui depend de la nouvelle observation ( : E‖x∗‖2) et doncdifficile a maitriser. Nous allons donc nous interesser a minimiser :

E‖β(n)− β‖2

1. Copyright @ 2009 Universite Paris-Diderot Dominique Picard

41

Page 42: Notes de cours pour le Module DATA MINING · 2016. 9. 2. · Chapitre 1 Introduction aux mod eles de r egression 1 Une premi ere citation de H.G. Wells (1866-1946) : ’Statistical

42 CHAPITRE 4. P GRAND, SPARSITES

4.2 Le cas orthonormal : X∗X = Ip

On observe donc

Y = Xβ + ε

avec le fait que les vecteurs colonne de la matrice X sont orthonormaux(X∗X = Ip) -ou ont ete orthonormalises-.

L’estimateur de β des moindres carres s’ecrit alors

β = XY = β + ξ

avec ξ = X∗ε. Comme les εi ont meme loi N(0, σ2), sont independantes, levecteur ξ est normal centre de variance σ2Ip (ξ ∼ N(0, σ2Ip)).

Nous dirons que le modele est ’diagonal’ si X ′X = D2 (D est une matricediagonale inversible) : dans ce cas,

β = D−2X ′Y = β + ξ′

ξ′ = D−2Xε

Le vecteur ξ′ a donc pour loi N(0, D−2Ip). On supposera toujours que lesvaleurs sur la diagonale sont rangees par ordre decroissant.

4.3 Contraintes de sparsite de type ellipsoi-

dales

L’idee principale dans ce chapitre est que si p est tres grand (meme bienplus grand que n dans certaines applications) on ne peut pas pretendre auxmiracles, donc il nous faut trouver des methodes qui marcheront si certainescontraintes sont vraies sur le modele. Nous allons donc etudier plusieurs formesde contraintes, voir a quelles solutions elles nous menent et discuter leurs va-lidite dans la pratique. Le premier type de contrainte que nous allons etudierest la contrainte ellipsoidale.

On va supposer que θ appartient a l’ensemble

Θs(M) = {β ∈ Rp, supl

p∑j≥l

β2j ≤Ml−2s}

Remarquons que ces espaces sont emboites de plus en plus petits quand saugmente. On remarque de plus que cette contrainte qui depend fortement duparametre s > 0 appele parametre de regularite, est satisfaite si β appartienta l’ensemble

Θ′(a)(M) = {β ∈ Rp,∑

0≤j≤p

a2jβ

2j ≤M}

si la suite (a) est croissante et verifie al ≥ ls ce qui justifie la denominationcontrainte ellipsoidale.

Page 43: Notes de cours pour le Module DATA MINING · 2016. 9. 2. · Chapitre 1 Introduction aux mod eles de r egression 1 Une premi ere citation de H.G. Wells (1866-1946) : ’Statistical

4.4. CADRE ’MINIMAX’ 43

Preuve : En effet,p∑j≥l

β2j ≤

∑l≤j≤p

a2j

a2l

β2j

≤M1

a2l

≤Ml−2s

4

4.4 Cadre ’minimax’

Nous allons nous placer dans une perspective relativement pessimiste quiconsiste a regarder le pire risque d’un estimateur. Plus precisement, etantdonne un estimateur β de β, nous allons nous interesser si l’on a de plus lacontrainte Θ, a la quantite

Env(β(n),Θ) := supβ∈Θ

E‖β(n)− β‖2.

Maintenant, si on s’interesse a une classe particuliere d’estimateurs B, on diraque β est ’minimax dans la classe B relativement a la contrainte Θ si il appar-tient a B et

Env(β,Θ) = infβ(n)∈B

Env(β(n),Θ).

4.5 Resolution minimax sous contrainte de spar-

site ellipsoidale, cas orthonormal

Nous avons dans l’idee que comme les β ont une contrainte de forme (β ∈Θs(M)), necessairement, ils sont tres petits a partir d’un certain rang. Il estdonc raisonnable de considerer des procedures qui remplacent par 0 les dernierscoefficients au lieu de les estimer.

Supposons donc qu’on s’interesse aux estimateurs de la forme

βKi = βi, si i ≤ K, 0 si i > K (4.1)

et etudions s’il y a une facon de choisir K.On a la proposition suivante :

Proposition 4 Pour s > 0, M > 0, on a pour 1 ≤ K ≤ n

Env(βK ,Θs(M)) = Kσ2 +MK−2s.

Preuve : Considerons le risque quadratique d’un tel estimateur.

E‖βK − β‖2 = Ep∑j=1

(βKj − βj)2

=K∑j=1

E(βKj − βj)2 +

p∑j=K+1

(βj)2

≤ Kσ2 +MK−2s.

Page 44: Notes de cours pour le Module DATA MINING · 2016. 9. 2. · Chapitre 1 Introduction aux mod eles de r egression 1 Une premi ere citation de H.G. Wells (1866-1946) : ’Statistical

44 CHAPITRE 4. P GRAND, SPARSITES

Il est ensuite facile de montrer que la borne est atteinte ce qui donne l’egalitedans la proposition. 4

On voit que le premier terme est croissant en K et donc nous incite a choisirK le plus petit possible, alors que le second est decroissant et nous incite achoisir K tres grand. Mais il est clair que s’il existe K tel que (n − K)σ2 >MK−2s, on a plus interet a utiliser βK plutot que β = βp. En d’autres termes,il est alors plus avantageux de remplacer les derniers termes par 0 que de lesestimer.

Ce principe est tres important. Nous allons l’exploiter sous differents as-pects.

Placons nous dans le cas ou :

2sM

p2s+1≤ σ2 ≤ 2sM

Dans ce cas, on peut optimiser la borne que l’on vient de trouver conduit achoisir (on annule la derivee) :

K = K∗(s) :=

[(σ2

2sM)−1

1+2s

].

Ceci conduit au theoreme suivant

Theoreme 4 Si on a 2sMp2s+1 ≤ σ2 ≤ 2sM , alors en definissant K∗(s) comme in-

dique plus haut, on a que βK∗(s) est ’minimax dans la classe des estimateurs{βK , K ∈

{1, . . . , p}} relativement a la contrainte Θs(M).

4.5.1 Le cas diagonal decroissant

Dans le cas diagonal, on a les proposition et theoreme paralleles a ceux ducas orthonormal : On a la proposition suivante :

Proposition 5 Pour s > 0, M > 0, on a pour 1 ≤ K ≤ p ≤ n

Env(βK ,Θs(M)) =K∑i=1

d−2i +MK−2s.

Dans ce cas, on peut aussi optimiser la borne que l’on vient de trouver conduita choisir :

K = K∗∗(s) := sup{K,K∑i=1

d−2i ≤MK−2s}.

Ceci conduit au theoreme suivant

Theoreme 5 Si on a s, p et M sont tels que 1 ≤ K∗∗(s) ≤ p, alors endefinissant K∗∗(s) comme indique plus haut, on a que βK

∗∗(s) est ’minimaxdans la classe des estimateurs {βK , K ∈ {1, . . . , p}} relativement a la contrainteΘs(M).

Page 45: Notes de cours pour le Module DATA MINING · 2016. 9. 2. · Chapitre 1 Introduction aux mod eles de r egression 1 Une premi ere citation de H.G. Wells (1866-1946) : ’Statistical

4.6. CONTRAINTE DE TYPE SPARSITE LQ, ET LQ,∞, CLASSES DE LORENTZ45

4.5.2 Cadre asymptotique

Si on se place a nouveau dans le cadre orthonormal et que l’on fait tendre σ2

vers 0 et (eventuellement aussi a la fois p vers l’infini, mais pas necessairement).Noter aussi que si au lieu de supposer une normalisation de type X tX = Ip

on suppose XtXn

= Ip, on peut facilement mettre βj sous la forme βj = βj + ηjou les ηj sont maintenant des variables gaussiennes independantes centrees etde variance 1

nV ar(εi), ce qui alors justifie pleinement de faire tendre σ2 vers

0 et montre le role de nLe theoreme 4 a pour consequence :

sup1≤K≤p

E‖βK − β‖2 ≤ [σ2

2sM

−11+2s

]σ2 +M [σ2

2sM

−11+2s

]−2s ≤ Cσ4s

1+2s

ou C est une constante qui ne depend que de s et M . On voit donc alors quecette quantite tend vers 0 si s > 0. On note que ceci n’est pas vrai dans le casou s = 0.

On peut montrer que si au lieu de se limiter aux estimateurs de la forme βK

qui donc, impose aux coordonnees apres K a valoir 0, on considere le minimaxsur TOUS les estimateurs (B est l’ensemble de tous les estimateurs possiblede β ), alors on a l’inegalite suivante : il existe une autre constante C ′, telleque

infβ(n)∈B

Env(β(n),Θs(M)) ≥ C ′σ4s

1+2s . (4.2)

Ceci prouve qu’a une constante pres, la ’vitesse minimax’ d’estimation pourla classe precedente est aussi bonne que si l’on considere tous les estimateurs.

4.6 Contrainte de type sparsite lq, et lq,∞, Classes

de Lorentz

Pour q > 0, I un sous ensemble de N, on note

lq(I) =

{θ = (θi)i∈I , /(

∑k∈I

|θk|q)1/q := ‖θ‖lq <∞

}.

Le lemme suivant va nous permettre de considerer des espaces ou l’on prenden consideration la relative importance de la taille des coefficients, d’une faconplus subtile encore.

Lemme 1 Soit (ai)i∈I une famille de nombres reels et q > 0. Les assertionssuivantes sont equivalentes

1. Il existe C, telle que, pour tout λ > 0, #{i ∈ I/|a|i ≥ λ} ≤ (C/λ)q.

2. Il existe r > q, Cr, tel que

∀λ > 0,∑i∈I

|ai|r1|ai|≤λ ≤ Crλr−q.

Page 46: Notes de cours pour le Module DATA MINING · 2016. 9. 2. · Chapitre 1 Introduction aux mod eles de r egression 1 Une premi ere citation de H.G. Wells (1866-1946) : ’Statistical

46 CHAPITRE 4. P GRAND, SPARSITES

3. Pour tous r > q, il existe Cr, tel que

∀λ > 0,∑i∈I

|ai|r1|ai|≤λ ≤ Crλr−q.

4. Il existe r > q, Cr, such that :

∀λ > 0,∑i∈I

(|ai| ∧ λ)r ≤ Crλr−q.

5. Pour tous r > q, il existe Cr, such that :

∀λ > 0,∑i∈I

(|ai| ∧ λ)r ≤ Crλr−q.

6. |a|(n) ≤ Cn−1/q, ∀n ∈ N∗.Finalement, on definit

lq,∞(I) :=

{θ = (θi)i∈I , / sup

λ>0λq#{i ∈ I/|θ|i ≥ λ} := ‖θ‖qlq,∞(I) <∞

}. (4.3)

Preuve : Nous demontrerons que 2 =⇒ 1 =⇒ 6 =⇒ 5 =⇒ 4 =⇒ 3 =⇒ 2.2 =⇒ 1 : Supposons qu’il existe r > q, tel que,

∑i |ai|r1|ai|≤λ#{i} ≤ Crλ

r−q,

#{i ∈ I, |ai| ≥ λ} =∑

j≥0 #{2j+1λ > |ai| ≥ 2jλ}≤

∑j≥0(2jλ)−r

∑i |ai|r12j+1λ≥|ai|

≤∑

j≥0(2jλ)−rCr(2j+1λ)r−q

≤ C ′r(1λ)q.

1 =⇒ 6 : Car |a|(n) = inf[λ; card{i ∈ I/|a|i > λ} < n] ≤ inf[λ; (C/λ)q

< n] = Cn−1/q.6 =⇒ 5 : ∑

i

(|ai| ∧ λ)r =∑i

(|a(i)| ∧ λ)r

≤∑

i≥Cqλ−q

(Ci−1/q)r +∑

i≤Cqλ−q

λr

≤ Cr[Cqλ−q]−rq

+1 + [C

λ]qλr

≤ 2Cqλr−q

4 =⇒ 3 : Si p′ ≥ r, on a∑i

|ai|p′1|ai|≤λ ≤

∑i

|ai|r1|ai|≤λλp′−r

≤∑i

(|ai| ∧ λ)rλp′−r

≤ Cpλp′−q

Page 47: Notes de cours pour le Module DATA MINING · 2016. 9. 2. · Chapitre 1 Introduction aux mod eles de r egression 1 Une premi ere citation de H.G. Wells (1866-1946) : ’Statistical

4.6. CONTRAINTE DE TYPE SPARSITE LQ, ET LQ,∞, CLASSES DE LORENTZ47

Si p′ < r, on doit raffiner un peu :

∑i

|ai|p′1|ai|≤λ =

∑l≥0

∑i

|ai|p′12−l−1λ≤|ai|≤2−lλ

≤∑l≥0

∑i

|ai|p′[|ai|

2−l−1λ]r−p

′1|ai|≤2−lλ

≤ c∑l≥0

∑i

|ai|r1|ai|≤2−lλ2l(r−p′)λp

′−r

≤ cCr∑l≥0

[2−lλ]r−q2l(r−p′)λp

′−r

≤ cCr∑l≥0

2−l(p′−q)λp

′−q

4Les proprietes suivantes sont elementaires mais caracterisent les liens entre

les contraintes lq et les contraintes lq,∞ :

1. ∀ q > 0, ∀ µ, lq(I) ⊂ lq,∞(I) (puisque en utilisant la propriete deMarkov, on obtient : #{i ∈ I/|a|i ≥ λ} ≤ (

∑|ai|q)λ−q).

2. ∀ r > q; lq,∞(I) ⊂ lr(I). (Evidemment,∑

i∈I |ai|r =∑

n≥1 |a|r(n) ≤‖a‖rl(q,∞)

∑n≥1 n

−r/q).

4.6.1 Lien avec la contrainte de sparsite ellipsoidale

On voit donc que les contraintes precedentes concernent directement lenombre de coefficients grands en module sans faire reference a leur ordre. Mon-trons maintenant que c’est en fait (comme on peut s’y attendre) une contrainteplus faible que la contrainte ellipsoidale.

Proposition 6 Pour s > 0 et

qs :=1

s+ 12

on a

ΘsM ⊂ lqs,∞.

Preuve : On remarque que de par l’appartenance a ΘsM , tous les |βi| sontnecessairement bornes par M , donc on ne va etre interesse que par le compor-tement des ’petits’ λ (a ecrire mieux)( inferieurs a M). Calculons en utilisant

Page 48: Notes de cours pour le Module DATA MINING · 2016. 9. 2. · Chapitre 1 Introduction aux mod eles de r egression 1 Une premi ere citation de H.G. Wells (1866-1946) : ’Statistical

48 CHAPITRE 4. P GRAND, SPARSITES

les proprietes precedentes,

Card{i, |βi| > λ} =∞∑j=0

Card{i, |βi| > λ, 2j ≤ i < 2j+1}

≤J∑j=0

2j +∞∑

j=J+1

1

λ2

∑2j≤i<2j+1

|βi|2

≤ 2J+1 +∞∑

j=J+1

1

λ2

∑2j≤i

|βi|2

≤ 2J+1 +∞∑

j=J+1

1

λ2M2−2js

≤ 2J+1 +M2−2(J+1)s 1

λ2(1− 2−2s).

Maintenant, si on choisit J tel que 2J+1 = λ−2

1+2s = λ−qs on observe que

2−2(J+1)s 1λ2

= λ4s

1+2s−2 = λ

−21+2s . On en deduit qu’il existe une constante c(s,M)

telle que

Card{i, |βi| > λ} ≤ c(s,M)λ−qs .

4

4.6.2 Minimax : bornes inferieures sur les espaces detypes lp, et lq,∞

Placons nous maintenant dans le cadre asymptotique (σ −→ 0) et consideronsla classe d’estimateurs dont les coordonnees sont soit βi soit 0

C = {β(n)/ β(n)i ∈ {βi, 0}}.

La difference avec la classe precedente reside dans le fait que les 0 peuvent etreplaces n’importe ou et non plus seulement a la fin. On a donc une classe plusgrande. On a alors la proposition suivante,

Proposition 7 Pour 0 < q ≤ 2, si on designe par

Θq,∞(M) := {β, supλ>0

Card{i, |βi| > λ}λq ≤M}

il existe une constante C(M) telle que :

infβ(n)∈C

Env(β(n),Θq,∞(M)) ≥ C(M)σ2−q.

Page 49: Notes de cours pour le Module DATA MINING · 2016. 9. 2. · Chapitre 1 Introduction aux mod eles de r egression 1 Une premi ere citation de H.G. Wells (1866-1946) : ’Statistical

4.6. CONTRAINTE DE TYPE SPARSITE LQ, ET LQ,∞, CLASSES DE LORENTZ49

Preuve : On a, si β(n) ∈ C :

Ep∑i=1

(β(n)i − βi)2 ≥p∑i=1

E(βi − βi)2 ∧ β2i

=

p∑i=1

σ2 ∧ β2i

= σ2Card{|βi| > σ2}+

p∑i=1

β2i I{|βi| ≤ σ2}

On en deduit qu’il existe des constantes, telles que

supβ∈Θq,∞(M)

Ep∑i=1

(β(n)i − βi)2 ≥ supβ∈Θq,∞(M)

σ2Card{i, |βi| > σ}+

p∑i=1

β2i I{|βi| ≤ σ}

≥ C(M)[σ2Card{i, |i−1/q| > σ}+

p∑i=1

(i−1/q)2I{i−1/q ≤ σ}]

= 2C(M)σ2−q.

4 On remarque qu’on a un parallele interessant avec le theoreme 4 puisque2− q = 4s

1+2s. Dans la prochaine section nous allons montrer qu’en fait

Theoreme 6 Pour 0 < q ≤ 2, si on designe par

Θq,∞(M) := {β, supλ>0

Card{i, |βi| > λ}λq ≤M}

il existe des constantes C(M) et C ′ telles que :

C(M)σ2−q ≤ infβ(n)∈C

Env(β(n),Θq,∞(M)) ≤ C ′{[log1

σ]1/2σ}2−q.

Page 50: Notes de cours pour le Module DATA MINING · 2016. 9. 2. · Chapitre 1 Introduction aux mod eles de r egression 1 Une premi ere citation de H.G. Wells (1866-1946) : ’Statistical

50 CHAPITRE 4. P GRAND, SPARSITES

Page 51: Notes de cours pour le Module DATA MINING · 2016. 9. 2. · Chapitre 1 Introduction aux mod eles de r egression 1 Une premi ere citation de H.G. Wells (1866-1946) : ’Statistical

Chapitre 5

Methodes d’estimationsparcimonieuses

1

5.1 Seuillage

Nous allons considerer l’estimateur suivant (appele estimateur par seuillage)

βTi := t(βi)

avec

t(u) := uI{|u| ≥ κσ[log1

σ]1/2}

Nous allons montrer le theoreme suivant

5.1.1 Quasi minimax optimalite : cas orthonormal ho-moscedastique

Theoreme 7 Pour 0 < q ≤ 2, si on designe par

Θq,∞(M) := {β, supλ>0

Card{i, |βi| > λ}λq ≤M}

Si κ2 ≥ 4 ∨ 16 log plog 1/σ

, il existe une constante C ′ telle que :

Env(βT ,Θq,∞(M)) ≤ C ′{[log1

σ]1/2σ}2−q.

Ce theoreme montre que cet estimateur est quasi minimax. Il faut noter qu’ilest non lineaire (en Y ) (noter la difference avec l’estimateur du chapitre precedentqui -lui- etait lineaire. Il est par ailleurs simple a calculer et surtout adap-tatif (en ce sens que sa construction ne depend pas de la connaissance deq)...

Preuve : Nous allons d’abord demontrer la proposition suivante

1. Copyright @ 2009 Universite Paris-Diderot Dominique Picard

51

Page 52: Notes de cours pour le Module DATA MINING · 2016. 9. 2. · Chapitre 1 Introduction aux mod eles de r egression 1 Une premi ere citation de H.G. Wells (1866-1946) : ’Statistical

52 CHAPITRE 5. METHODES D’ESTIMATIONS PARCIMONIEUSES

Proposition 8

E|βi − βi|4 ≤ Cσ4, ∀ 0 ≤ i ≤ p (5.1)

P(|βi − βi| ≥ τκσ[log

1

σ]1/2) ≤ στ

2κ2/2, ∀ 0 ≤ i ≤ p. (5.2)

Remarquons que βi − βi suit une loi normale centree de variance σ2. (5.1) estdonc une consequence naturelle de la propriete de ’scaling’ de la loi normale.

(5.2) est une consequence du lemme suivant :

Lemme 2 Si Z ∼ N(0, 1),

x2

1 + x2

exp −x2

2

x√

2π≤ P (Z ≥ x) ≤ {

exp −x2

2

x√

2π} ∧ {

exp −x2

2

2} ∀x > 0

Preuve :Posons Φ(x) = P (Z ≥ x), on a

Φ(x) =

∫ ∞x

ϕ(u)du =

∫ ∞0

exp−x2

2exp−xv exp

−v2

2

dv√2π

en utilisant le changement de variable u = v+x. Maintenant, en majorant toura tour exp−xv puis, exp −v

2

2par 1, puis en integrant on obtient les majorations

parexp −x2

2

2puis

exp −x2

2

x√

2π. Par ailleurs,

Φ(x) ≥∫∞x

x2

u2exp −u

2

2du√2π

= x2√2π

∫∞xd(− 1

u) exp −u

2

2du = x2√

2π( 1x

exp −x2

2−∫∞x

exp −u2

2du)

On a utilise une integration par partie. On en deduit : Φ(x) ≥ x√2π

exp −x2

2−

x2Φ(x). 4 Ce qui finit aussi la demonstration de la proposition.Passons maintenant a la demonstration du theoreme.Posons si = κσ[log 1

σ]1/2 Le risque de l’estimateur E

∑i≤p(βi1|βi|>sii−βi)

2 peutetre separe en 2 parties :

A+B =

[∑i≤p

E(1|βin|>si|βi − βi|

2)

]+

[∑i≤p,

E|βi|21|βi|≤si

]

En ce qui concerne le premier terme, a nouveau on le separe en deux parties.

A = A1 + A2 =∑

i≤p 1|βi|≤si/2E1|βi|>si|βi − βi|2

+∑

i≤p 1|βi|>si/2E1|βi|>si|βi − βi|2

Pour A1 on utilise l’inegalite de Cauchy Schwarz,

E1|βi−βi|>si/2|βi − βi|2≤(P (|βi − βi|>si/2))1/2(E|βi − βi|4)1/2.

Donc,A1 ≤

∑i≤p,|βi|≤si/2 E1|βi−βi|>si/2|βi − βi|

2

≤ C∑

i≤p σκ2/16σ2 ≤ pσκ

2/16σ2

Page 53: Notes de cours pour le Module DATA MINING · 2016. 9. 2. · Chapitre 1 Introduction aux mod eles de r egression 1 Une premi ere citation de H.G. Wells (1866-1946) : ’Statistical

5.2. HORS ORTHONORMALITE : RIDGE REGRESSION 53

A1 sera donc du bon ordre des que κ2 ≥ 16 log plog(1/σ)

.

A2 ≤∑

i≤p,|βi|>si/2 E|βi − βi|2

≤ C∑

i≤p,|βi|>si/2 σ2 ≤ Cσ2−qM q,

en utilisant la definition de Θq,∞(M).En ce qui concerne le deuxieme terme, on a

B = B1 +B2 =∑

i≤p, |βi|>2si |βi|2P (|βin| ≤ si)

+∑

i≤p, |βi|≤2si |βi|2P (|βin| ≤ si)

B1 ≤∑

i≤p, |βi|>2si |βi|2P (|βi − βin| ≥ si)

≤ 2σκ2/2∑

i≤p, |βi|>2si |βi|2 ≤ 2σκ2/2M2.

Ce terme est du bon ordre des que κ2 ≥ 4. Maintenant le dernier terme semajore en utilisant la definition de Θq,∞(M) :

B2 ≤∑|βi|≤2si |βi|2 ≤M q[2si]2−q, qui est exactement du bon ordre.

4

5.2 Hors orthonormalite : Ridge regression

La ’Ridge’ (traduction : crete, arete...) regression consiste a ’contracter’ lescoefficients, en imposant une contrainte de penalisation sur leur taille. Plusprecisement, on a la definition suivante :

βridge := Argminβ{ n∑i=1

(Yi − [Xβ]i)2 + λ

p∑i=1

β2i }.

Ici λ ≥ 0 est un parametre de reglage qui controle la quantite de ’contraction’qu’on va imposer a l’estimateur : λ = 0 correspond aux MCO, a l’inverse λtres grand pousserait a prendre tous les coefficients egaux a 0. En utilisant lesmultiplicateurs de Lagrange, on peut montrer que pour tout λ, il existe u telque βridge est aussi solution de

βridge := Argminβ{ n∑i=1

(Yi − [Xβ]i)2

sous contrainte

p∑i=1

β2i ≤ u.

Ce qui montre de facon explicite, la contrainte sur les parametres. L’idee debase de cette regression tient a la possibilite de correlation entre les colonnesXj (precisement, le cas non orthonormal). Dans ce cas, il est clair que s’il y ade fortes correlations entre plusieurs colonnes, la matrice X ′X devient quasi-ment (ou effectivement... ) non inversible, ce qui entraine une instabilite dansla determination des βi (ou simplement une grande variance pour ces coeffi-cients). Par exemple, on voit bien que si deux colonnes (X1 et X2 par exemple)

Page 54: Notes de cours pour le Module DATA MINING · 2016. 9. 2. · Chapitre 1 Introduction aux mod eles de r egression 1 Une premi ere citation de H.G. Wells (1866-1946) : ’Statistical

54 CHAPITRE 5. METHODES D’ESTIMATIONS PARCIMONIEUSES

sont presque egales, on peut artifiellement augmenter le coefficient β1 positi-vement, a condition de compenser negativement sur β2. Evidemment, imposerune contrainte sur la taille des coefficients reduira ce genre d’aberration.

Il est simple de montrer que comme la matrice [X tX + λI] est inversible,on a

βridge = [X tX + λI]−1X tY. (5.3)

On voit en particulier que meme si X tX n’est pas inversible (par exemple parceque p est tres grand) la formule (5.3) aura un sens. C’est la raison historiquepour l’introduction de cet estimateur. On voit aussi (exercice) que dans le casorthonorme X tX = I, cet estimateur vaut

βiridge

=1

1 + λβiMCO

(ce qui explique l’idee de contraction) et a un risque qui vaut

E∑i≤p

(βiridge− βi)2 = (1 + λ)−2pσ2 +

λ2

(1 + λ)2

∑i≤p

β2i .

Il est interessant de noter que dans ce cas, la methode Ridge est moins interessantequ’une methode qui annule certain coefficients soit de maniere lineaire soit parseuillage si l’on sait que l’on cherche un parametre sous contrainte de sparsite.

Il est aussi interessant de considerer le cas ou la matrice X = D est une ma-trice diagonale a coefficients vi > 0 decroissants. i.e. Yi = viβi+εi, l’estimateurdes MCO est

βi =Yivi.

on a alors, en ce qui concerne l’estimateur ridge

βridgei =v2i

v2i + λ

βi. (5.4)

On est donc amene a penaliser fortement les βi qui correspondent aux vi les pluspetits. On retrouvera cette interpretation plus bas. Le risque de l’estimateurridge vaut dans ce cas :

E∑i≤p

(βiridge− βi)2 =

∑i≤p

v2i

(v2i + λ)2

σ2 +λ2β2

i

(v2i + λ)2

.

On voit que dans ce cas on peut ameliorer la performance par rapport a l’es-timateur MCO par exemple.

5.2.1 Ridge regression, interpretation Bayesienne

(voir l’appendice pour les estimateurs bayesiens) On peut se placer dansun cadre bayesien pour interpreter cet estimateur. Supposons en effet que l’onsuppose σ connu et que l’on mette sur βl une loi de type Normale centree et

Page 55: Notes de cours pour le Module DATA MINING · 2016. 9. 2. · Chapitre 1 Introduction aux mod eles de r egression 1 Une premi ere citation de H.G. Wells (1866-1946) : ’Statistical

5.2. HORS ORTHONORMALITE : RIDGE REGRESSION 55

de matrice de covariance τ 2I. Les βl etant supposes independants. Il est alorsclair que la loi a posteriori admet une densite proportionnelle a :

exp− 1

2σ2{∑i≤n

(Yi − [Xβ]i)2 + σ2λ

p∑i=1

β2i }.

Il est donc evident que si on fixe λ = σ2

τ2, βridge est le mode de cette loi a

posteriori. Comme par ailleurs, cette loi a posteriori est Normale, sa moyenneest aussi son mode. Donc βridge est l’estimateur Bayesien associe a une pertequadratique ou a une perte de type l1.

5.2.2 ACP et Ridge

ACP

X tX est une matrice p × p symetrique. Donc il existe une matrice ortho-gonale V (V t = V −1) et une matrice D2 diagonale (positive ou nulle) telleque

X tX = V D2V t. (5.5)

Les vecteurs colonnes vi de V sont les vecteurs propres de X tX et sont ap-peles les composantes principales de X (ou encore decomposition de Karhunen-Loeve). Les elements de la matrices diagonale D2 sont les valeurs propres as-sociees a ces vecteurs propres. Supposons-les ordonnes par ordre decroissant.

Interpretation de l’ACP

Cette decomposition a beaucoup de proprietes remarquables. On en donnesouvent l’interpretation suivante. Si l’on suppose que les lignes de X sont enfait des realisations de vecteurs aleatoires centres, de matrice de covariance Γ,independants et de meme loi. Alors 1

nX tX est une estimation de la matrice de

covariance Γ, et si l’on assimile Γ et 1nX tX (estimation parfaite) ; Alors, v1, la

premiere composante principale a la propriete que z1 = Xv1 est la realisationde n copies independantes d’une variable aleatoire centree de variance vt1Γv1 =vt1

1nX tXv1 = 1

nd2

1. C’est donc parmi les combinaisons lineaires (normees) de X,celle qui est la plus variante. On peut poursuivre le raisonnement en cherchantla combinaison lineaire (normees), orthogonale a la precedente, la plus variante.On trouve alors v2, et ainsi de suite.

ACP et Ridge

Supposons pour simplifier que X tX est inversible. (Sinon, on peut mettrea jour la plupart de ce qui suit avec quelques precautions) Si on introduit lamatrice

U = XVD−1.

Cette matrice n × p est donc constituee de p vecteurs de Rn qui sont ortho-normes par construction. (U tU = I). Par ailleurs l’estimateur des MCO, βverifie :

Xβ = X(X tX)−1X tY = XVD−2V tX tY = UU tY.

Page 56: Notes de cours pour le Module DATA MINING · 2016. 9. 2. · Chapitre 1 Introduction aux mod eles de r egression 1 Une premi ere citation de H.G. Wells (1866-1946) : ’Statistical

56 CHAPITRE 5. METHODES D’ESTIMATIONS PARCIMONIEUSES

Par ailleurs, l’estimateur ridge βridge verifie :

Xβridge = X[X tX + λI]−1X tY

= X[V D2V t + λV V t]−1X tY

= XV [D2 + λI]−1V tX tY

= UD[D2 + λI]−1DU tY

=

p∑j=1

ujd2j

d2j + λ

utjY

ou les uj sont les vecteurs colonnes de la matrice U . Si on compare donc les2 formules precedentes, exprimees sur la base des ui MCO et ridge calculentleurs coordonnees par simple projection de Y sur cette base, la difference, c’est

que ridge ’contracte’ chaque coefficient d’un facteurd2j

d2j+λ. Donc on contracte de

plus en plus a mesure que dj diminue. Maintenant, si on revient au paragrapheprecedent, on a ui = d−1

i zi. On contracte donc le plus les directions de l’espacequi ont le moins de variance.

5.3 LASSO

La methode LASSO est une methode de ’shrinkage’ (ou contraction) commela methode ridge, avec des differences apparemment subtiles mais en fait es-sentielles. L’estimateur βlasso est defini comme solution de

βridge := Argminβ{ n∑i=1

(Yi − [Xβ]i)2

sous contrainte

p∑i=1

|βi| ≤ u.

Apparemment, cette definition est tres proche de celle de l’estimateur ridge.Toutefois, le calcul de l’optimum est a l’evidence non lineaire alors qu’il etaitlineaire pour l’estimateur ridge. Par ailleurs, on voit que pour u suffisammentpetit, l’estimateur lasso conduit a annuler un ou plusieurs des coefficients.Prenons l’exemple du cas orthonormal :

5.3.1 LASSO, cas orthonormal, X tX = I

En utilisant les multiplicateurs de Lagrange on montre qu’il existe λ telque βlasso est solution de

βlasso := Argminβ{ n∑i=1

(Yi − [Xβ]i)2 + λ

p∑i=1

|βi|}

Pour minimiser la premiere quantite, on remarque que∑n

i=1(Yi − [Xβ]i)2 +

λ∑n

i=1 |βi| =∑n

i=1(Yi)2−2

∑ni=1 Yi[Xβ]i+

∑ni=1[Xβ]2i . Si on derive cette quan-

tite par rapport a βl, (qui est derivable en dehors de 0), on a −2∑n

i=1 YiXli +

Page 57: Notes de cours pour le Module DATA MINING · 2016. 9. 2. · Chapitre 1 Introduction aux mod eles de r egression 1 Une premi ere citation de H.G. Wells (1866-1946) : ’Statistical

5.4. AIC, BIC, METHODES PENALISEES 57

2∑n

i=1Xli

∑pj=1X

ji βj+λsign(βl). Dans le cas orthonormal, cela vaut−2

∑ni=1 YiX

li+

2βl + λsign(βl). On voit donc qu’il y a 3 possibilites : soit βl = 0, soit βl > 0et βl =

∑ni=1 YiX

li − λ

2, soit βl > 0 et βl =

∑ni=1 YiX

li + λ

2. Soit encore, puisque

ces differents cas sont exclusifs,

βlassol = [n∑i=1

YiXli −

λ

2]I{[

n∑i=1

YiXli −

λ

2] > 0}+ [

n∑i=1

YiXli +

λ

2]I{[

n∑i=1

YiXli +

λ

2] < 0}

(5.6)

= [n∑i=1

YiXli − sign(

n∑i=1

YiXli)λ

2]I{|

n∑i=1

YiXli | >

λ

2} (5.7)

Cet estimateur particulier porte le nom de seuillage doux. On voit que certainscoefficients seront efectivement estimes par O. Il reste a determiner λ, que l’onchoisit en respectant la contrainte de facon la plus serree possible : i.e. λmaximum sous la contrainte :

p∑l=1

|[n∑i=1

YiXli − sign(

n∑i=1

YiXli)λ

2]I{|

n∑i=1

YiXli | >

λ

2}| ≤ u.

5.3.2 LASSO, interpretation Bayesienne

(voir l’appendice pour les estimateurs bayesiens) On peut se placer dansun cadre bayesien pour interpreter cet estimateur. Supposons en effet que l’onsuppose σ connu et que l’on mette sur chaque βl une loi de type Laplace, c’esta dire une loi de densite proportionnelle a

h(x) = exp−λ|x|.

Les βl etant supposes independants. Il est alors clair que la loi a posterioriadmet une densite proportionnelle a :

exp− 1

2σ2{∑i≤n

(Yi − [Xβ]i)2 +

σ2

τ 2

p∑i=1

|βi|}.

Donc βlasso est le mode de cette loi a posteriori. Maintenant cette loi a poste-riori est n’est plus Normale ; on ne peut plus donc dire qu’on a la un estimateurde type bayesien. En revanche il s’interprete comme le maximum a posteriori.

5.4 AIC, BIC, methodes penalisees

Akaike (1973, 1974) proposent de selectionner les modeles en minimisantla divergence de Kullback-Leibler (KL) estimee par rapport au vrai modele.Akaike (1973) propose de choisir l’estimateur minimisant (critere AIC)

−Ln(β) + λ

p∑j=1

I{βj 6= 0}.

Page 58: Notes de cours pour le Module DATA MINING · 2016. 9. 2. · Chapitre 1 Introduction aux mod eles de r egression 1 Une premi ere citation de H.G. Wells (1866-1946) : ’Statistical

58 CHAPITRE 5. METHODES D’ESTIMATIONS PARCIMONIEUSES

Ln est le logarithme de la vraisemblance et β le maximum de vraisemblanceSchwartz propose avec des arguments bayesien le critere BIC, ou on choisitλ = logn

2.

Supposons les erreurs gaussiennes et σ2 connu, dans ce cas

−Ln(β) =1

2σ2‖Y −Xβ‖2.

et si β est l’estimateur des MCO, on est amene a minimiser

1

2σ2[‖Y −Xβ‖2 + ‖Xβ −Xβ‖2] + λ

p∑j=1

I{βj 6= 0}.

La premiere partie ne depend pas de β , on doit donc minimiser :

1

2σ2‖Xβ −Xβ‖2 + λ

p∑j=1

I{βj 6= 0}. (5.8)

Si RSS(d) correspond aux sommes des carres des residus quand on prend dvariables, le Cp de Mallows

Cp =RSS(d)

RSS(p)+ 2d− n

correspond a prendre λ = 1 et a estimer σ2. Le R2 ajuste

R2adj = 1− n− 1

n− dRSS(d)

RSS(p)

revient aussi (a peu pres) a une methode de type MCO penalises.Si on est dans le cas orthonormal (X tX = I), on doit donc minimiser

1

2σ2‖β − β‖2 + λ

p∑j=1

I{βj 6= 0}.

Dans ce cas, il est facile de voir que la solution consiste a prendre βi = βiquand βi 6= 0, et a choisir pour cela les i tels que β2

i ≥ 2σ2λ. Ceci donc conduita l’estimateur seuille :

β(λ)i = βiI{|βi| ≥ σ[2λ]12}.

Une generalisation naturelle des methodes penalisees l0 est d’introduire unepenalisation lq pour q ≤ 2. On retrouve ainsi les methodes Ridge (q=2), Bridge0 < q < 2, et Lasso (l1).

5.5 Appendice : Methodes bayesiennes en sta-

tistique classique

La difference fondamentale du contexte bayesien avec le contexte classiquereside dans l’introduction d’une loi de probabilite a priori ν sur l’ensemble des

Page 59: Notes de cours pour le Module DATA MINING · 2016. 9. 2. · Chapitre 1 Introduction aux mod eles de r egression 1 Une premi ere citation de H.G. Wells (1866-1946) : ’Statistical

5.6. CALCUL DE LOI A POSTERIORI, EXEMPLES 59

parametres. Cela necessite au prealable de munir Θ d’une tribu T . La loi νreflete alors, ce qu’on est sense savoir du parametre, avant l’esperience.

Ceci n’est pas sans consequence sur notre modele, puisque, de ce fait, θ estune variable aleatoire, et donc Pθ, represente maintenant la loi de l’observationX, conditionnellement a θ.

On appelle alors loi conjointe la loi du vecteur (X, θ) et loi a posteriori laloi de θ conditionnelle a l’observation X ( θ|X) qui reflete alors, ce que l’onsait sur le parametre apres l’experience.

Etant donne une fonction de perte definie comme au paragraphe precedent,et un estimateur T de la quantite q(θ), on definit alors le risque bayesien deT ,

R(T, ν) =

∫Θ

R(T, θ)dν(θ).

On a alors la defintion suivante :

Definition 7 Dans le cadre precedent, un estimateur T ∗ est dit bayesien as-socie a la fonction de perte l et a la mesure a priori ν, s’il verifie :

R(T ∗, ν) ≤ R(T, ν)

pour tout estimateur T .

5.6 Calcul de loi a posteriori, Exemples

Notons maintenant p(x|θ) une densite de Pθ par rapport a la mesure domi-nante µ. (Nous supposons toujours le modele domine.) Notons que le change-ment de notation correspond a la nouvelle interpretation dans le cadre bayesiende la loi Pθ.

Pour faciliter les calculs, nous considererons une mesure m sur (Θ, T ) quidomine ν, et nous noterons n(θ), une densite de ν par rapport a m.

Il est alors facile de verifier que la loi conjointe de (X, θ) sur (X×Θ), (A⊗T )est dominee par la mesure produit µ⊗m par rapport a laquelle elle admet ladensite :

π(x, θ) = p(x|θ)n(θ).

Par le theoreme de Bayes, la loi a posteriori sur Θ, T est aussi dominee parm, et admet la densite :

p(θ|x) =p(x|θ)n(θ)∫

Θp(x|θ)n(θ)dm(θ)

Exemple 1 Prenons a nouveau, le cas du modele binomial ou le parametreinconnu est θ = p ∈ Θ = [0, 1]. Le modele est domine par la mesure µ =∑n

k=0 δk et

p(x|θ) = Cknθ

x(1− θ)n−x

Page 60: Notes de cours pour le Module DATA MINING · 2016. 9. 2. · Chapitre 1 Introduction aux mod eles de r egression 1 Une premi ere citation de H.G. Wells (1866-1946) : ’Statistical

60 CHAPITRE 5. METHODES D’ESTIMATIONS PARCIMONIEUSES

Supposons que l’on choisisse la loi a priori de la facon suivante :(Ce choixsera discute ulterieurement.) On prend pour ν une loi Beta(r, s).

On rappelle que pour des parametres r et s strictement positifs, on appelle loi Beta(r, s), laloi dont la densite par rapport a la mesure (m, ici) de Lebesgue sur [0, 1] est donnee par

n(θ) = c(r, s)θr−1(1− θ)s−1.

On rappelle que c(r, s) =[∫

[0,1]θr−1(1− θ)s−1dθ

]−1

, que la moyenne de cette loi est rr+s ,

et sa variance estrs

(r + s)(r + s+ 1).

La loi conjointe admet alors une densite par rapport a µ⊗m donnee par :

π(x, θ) = c(r, s)Ckn θ

x+r−1(1− θ)n−x+s−1.

La loi a posteriori admet par rapport a m la densite :

p(θ|x) =θx+r−1(1− θ)n−x+s−1∫

[0,1]θx+r−1(1− θ)n−x+s−1dθ

= c(r+x, n−x+s)θx+r−1(1−θ)n−x+s−1

C’est donc une loi Beta(r + x, s+ n− x). (Ne pas perdre de vue que x estnotre observation, c’est donc une quantite aleatoire.)

Ceci nous permet d’interpreter les parametres r, s de la loi a priori. Eneffet, en observant comment s’opere la modification de notre connaissance surle parametre avant et apres observation, on remarque que r et x jouent desroles analogues, de meme pour r + s et n. On peut donc interpreter la loia priori comme une observation prealable a l’experience, portant sur r + sobservations (au sens ou une binomiale B(n, θ) peut toujours etre considereecomme la somme de n variables de Bernoulli independantes), et au cours delaquelle l’observation aurait ete x′ = r.

Le fait que les lois a priori et a posteriori se retrouvent dans la memefamille de lois n’est pas un hasard. On dit alors que cette famille de lois estconjuguee au modele. Nous verrons d’autres exemples de ce phenomene.

5.7 Calcul de l’estimateur bayesien.

5.7.1 Perte quadratique ou de type L1.

Nous nous placons maintenant dans le cas suivant : Θ ⊂ R, q(θ) = θ. Nousallons demontrer les theoremes suivants :

Theoreme 6 avec les notations precedentes, si la fonction de perte est :

l(t, θ) = (t− θ)2

Page 61: Notes de cours pour le Module DATA MINING · 2016. 9. 2. · Chapitre 1 Introduction aux mod eles de r egression 1 Une premi ere citation de H.G. Wells (1866-1946) : ’Statistical

5.7. CALCUL DE L’ESTIMATEUR BAYESIEN. 61

si le modele et la loi a priori sont choisis de sorte que :∫Θ

θ2p(θ|x)dm(θ) < +∞, ∀x ∈ X , µ − p.s.

alors l’estimateur bayesien du probleme est donne par

T ∗(x) =

∫Θ

θp(θ|x)dm(θ)

Theoreme 7 avec les notations precedentes, si la fonction de perte est :

l(t, θ) = |t− θ|

si le modele et la loi a priori sont choisis de sorte que : ∀ x dans X , µ − p.s.,il existe τ(x) verifiant∫

θ≤τ(x)

p(θ|x)dm(θ) =

∫θ≥τ(x)

p(θ|x)dm(θ) = 1/2.

(τ(x) est unique mediane de la loi a posteriori.) alors l’estimateur bayesien duprobleme est donne par

T ∗(x) = τ(x)

Les deux theoremes sont une consequence des lemmes suivants.

Lemme 2 Avec les notations precedentes, pour que T ∗ soit un estimateurbayesien associe a la fonction de perte l, il suffit que, pour tout x dans X , µ −p.s., T ∗(x) minimise la fonction :

r ∈ R 7→∫

Θ

l(r, θ)p(θ|x)dm(θ)

Demonstration du lemme 2 :

Definissons la marginale en X, de densite par rapport a la mesure µ(x),

p(x) =

∫Θ

π(x, θ)dm(θ).

Il suffit de remarquer qu’on cherche a minimiser (en T (x)) la quantite suivante,que l’on transforme en utilisant le theoreme de Fubini :

∫Θ

[R(T, θ)]dν(θ) =

∫Θ

[

∫Xl(T (x), θ)p(x|θ)dµ(x)]n(θ)dm(θ)

=

∫Θ

∫Xl(T (x), θ)π(x, θ)dµ(x)dm(θ)

=

∫Θ

∫Xl(T (x), θ)p(θ|x)p(x)dµ(x)dm(θ)

=

∫X{∫

Θ

l(T (x), θ)p(θ|x)dm(θ)}p(x)dµ(x)

Page 62: Notes de cours pour le Module DATA MINING · 2016. 9. 2. · Chapitre 1 Introduction aux mod eles de r egression 1 Une premi ere citation de H.G. Wells (1866-1946) : ’Statistical

62 CHAPITRE 5. METHODES D’ESTIMATIONS PARCIMONIEUSES

On voit alors que si on minimise la quantite entre parentheses pour tout xdans X , µ − p.s., on minimisera a coup sur l’integrale.

Lemme 3 Si Z est une variable aleatoire reelle, telle que EZ2 <∞, alors lafonction :r ∈ R 7→ E(Z − r)2 admet un unique minimum en r = EZ.

Demonstration du lemme 3 : On remarque simplement que :

E(Z − r)2 = E(Z − EZ)2 + (r − EZ)2

Lemme 4 Si Z est une variable aleatoire reelle, telle qu’il existe τ , P (Z ≤τ) = P (Z ≥ τ) = 1/2 alors la fonction :r ∈ R 7→ φ(r) = E|Z − r| admet un unique minimum pour r = τ .

Demonstration du lemme 4

1. Remarquons d’abord que φ est une fonction convexe : Pour tout λ ∈[0, 1],

φ(λr1 + (1− λ)r2) = E|λ(Z − r1) + (1− λ)(Z − r2)|≤ λφ(r1) + (1− λ)φ(r2)

2. Par ailleurs φ(r) ≥ |r − E|Z|| donc φ tend vers l’infini quand |r| tendvers l’infini.

3. Nous pouvons donc en conclure que φ admet en tout point une derivee agauche et une derivee a droite et un minimum en un point r0 verifiant :φ′((r0)−) ≤ 0, φ′((r0)+) ≥ 0

4. On a :

φ(r) = −∫x≤r

(x− r)dP (x) +

∫x≥r

(x− r)dP (x)

= EZ − r − 2

∫x≤r

(x− r)dP (x)

5. On a en utilisant Fubini :∫x≤r F (x)dx =

∫∞−∞ I{x ≤ r}[

∫∞−∞ I{z ≤ x}dP (z)]dx =

∫R2 I{z ≤ x ≤

r}dxdP (z) =∫R I{z ≤ r}(z − r)dP (z)

6. On deduit de 4. et 5. que :

φ(r) = EZ − r + 2

∫x≤r

F (x)dx

Page 63: Notes de cours pour le Module DATA MINING · 2016. 9. 2. · Chapitre 1 Introduction aux mod eles de r egression 1 Une premi ere citation de H.G. Wells (1866-1946) : ’Statistical

5.7. CALCUL DE L’ESTIMATEUR BAYESIEN. 63

7. Pour h > 0, on peut donc ecrire :

φ(r + h)− φ(r)

h= −1 + 2

1

h

∫ r+h

r

F (x)dxh→0−→ −1 + 2F (r+)

8. le lemme s’obtient en faisant un calcul identique pour h < 0 et en utilisant3.

Exemples

1. Reprenons l’exemple du modele binomial, dote d’une loi a priori de typeBeta(r, s). On a vu que la loi a posteriori, etant donne une observationx ∈ {0, . . . , n} etait une loi Beta(r+x, s+n−x). On peut donc appliquer,par exemple le theoreme 6. On obtient alors que l’estimateur bayesienest

T ∗(x) =r + x

n+ r + s.

Nous retrouvons la famille d’estimateurs consideree dans le premier pa-ragraphe de ce chapitre. On retrouve aussi les roles respectifs joues parles parametres de la loi a priori.

2. Supposons que l’on observe un n-echantillon de variables aleatoires gaus-siennes N(θ, 1). On se propose d’estimer q(θ) = θ.

t et v2 etant des parametres arbitrairement fixes, choisissons comme loia priori sur θ une loi normale N(t, v2). On peut alors prendre pour µ lamesure de Lebesgue sur Rn, et pour m, la mesure de Lebesgue sur R. Ona alors, pour x = (x1, . . . , xn)

p(x1, . . . , xn|θ) =1

(2π)n2

exp−1

2

n∑i=1

(xi − θ)2

π(x1, . . . , xn, θ) =1

v(2π)n+12

exp−1

2[n∑i=1

(xi − θ)2 +(θ − t)2

v2]

p(θ|x1, . . . , xn) = C(x1, . . . , xn) exp−1

2[n∑i=1

(xi − θ)2 +(θ − t)2

v2]

= C ′(x1, . . . , xn) exp−1

2[(n+

1

v2)(θ −

∑ni=1 xi + t

v2

n+ 1v2

)2]

On deduit de cette derniere ecriture que la loi a posteriori est une normale

N(

∑ni=1 xi + t

v2

n+ 1v2

,1

n+ 1v2

)

On peut alors facilement appliquer les theoremes 6 et 7. On obtient pourles deux fonctions de perte le meme estimateur :

T ∗(x1, . . . , xn) =

∑ni=1 xi + t

v2

n+ 1v2

.

Page 64: Notes de cours pour le Module DATA MINING · 2016. 9. 2. · Chapitre 1 Introduction aux mod eles de r egression 1 Une premi ere citation de H.G. Wells (1866-1946) : ’Statistical

64 CHAPITRE 5. METHODES D’ESTIMATIONS PARCIMONIEUSES

On voit bien tant sur la loi a posteriori que sur l’estimateur la facondont on peut interpreter les differents parametres de la loi a priori : Elles’interprete a nouveau comme une observation prealable ayant porteesur un n′ ≈ 1

v2-echantillon (n joue le meme role que 1

v2), et donnant des

observations sont la moyenne est t (t joue le meme role que∑n

i=1 xin

.

3. (Exercice) Reprendre le modele du n-echantillon gaussien. Supposonsmaintenant qu’il s’agit de gaussienne N(θ, σ2) ou σ2 aussi est inconnu.Quelle famille de loi a priori doit-on choisir, pour que la loi a posteriorireste dans cette famille ?

5.7.2 Probleme de classification.

Etudions maintenant le probleme suivant tres important en pratique : Onobserve le vecteur aleatoire de Rk, Y . On sait que la loi du vecteur Y setrouve necessairement parmi les lois N(β1,Γ), . . . , N(βl,Γ). β1, . . . , βl sont desvecteurs connus (et differents) de Rk, Γ est une matrice de covariance de di-mension k × k, connue et definie positive.

Notre probleme est donc simplement de choisir entre les βi.

Nous nous placer en contexte bayesien et mettre une loi a priori sur notreensemble de parametres :

νi = ν{β = βi}.

Nous allons considerer avec un interet particulier le cas ou νi = 1l. Il cor-

respond au fait de ne vouloir privilegier aucune des hypotheses.

Nous prenons pour perte la fonction :

l(β, βi) = 1β 6=βi .

Pour trouver l’estimateur β∗(Y ) ∈ {β1, . . . , βl}, nous allons donc minimiserle risque bayesien du probleme :

l∑i=1

Eβil(β∗(Y ), βi)νi =l∑

i=1

Eβi1β∗(Y )6=βiνi

=l∑

i=1

∫Rk

1β∗(Y )6=βip(y, βi)dyνi

=

∫Rk

[l∑

i=1

1β∗(Y ) 6=βip(y, βi)νi]dy

Il est clair, sur cette derniere expression que si on emploie la strategie suivante :

β∗ = βi∗

Page 65: Notes de cours pour le Module DATA MINING · 2016. 9. 2. · Chapitre 1 Introduction aux mod eles de r egression 1 Une premi ere citation de H.G. Wells (1866-1946) : ’Statistical

5.7. CALCUL DE L’ESTIMATEUR BAYESIEN. 65

avec i∗ = Argsupip(y, βi)νi, on minimisera certainement le risque bayesien.

Il est en particulier interessant de considerer le cas νi =1

l. Un calcul simple

montre que dans ce cas, on a

i∗ = Arginfi (y − βi)∗Γ−1(y − βi)

Ce qui correspond a choisir le vecteur des moyennes qui est le plus pres del’observation y au sens de la forme quadratique associee a l’inverse de la cova-riance.

Exercice : Etudier le cas ou l = 2 et comparer le resultat trouve au theoremede Neymann- Pearson.