psy5520 - cours 8 - méthodes alternatives

Post on 13-Jun-2015

533 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Régression multiple: Méthodes alternatives

PSY-5520

Méthodes alternatives de régression Multicollinéarité:

Reformulation du modèle Régression sur les composantes principales Régression ‘ridge’

Mauvais ajustement du modèle: Régression non-linéaire Régression polynômiale Régression segmentée

Non normalité de la distribution des résidus et présence de scores extrêmes:

Régression robuste Régression pondérée

Régression Non Linéaire

Modèles intrinsèquement linéaires

Modèles intrinsèquement linéaires (Suite)

Régression polynômiale Modèles linéaires comportant un ou plusieurs termes

d’ordre supérieur Modèle quadratique:

Modèle cubique:

Modèle polynômial général:

20 1 2i i i iY x x x X X

2 30 1 2 3i i i i iY x x x x X X

20 1 2 ... p

i i p i i iY x x x x X X

Transformation de la variable indépendante En général, la corrélation entre X et Xp est très

élevée, ce qui se traduit par une forte collinéarité Pour réduire le problème, on centre X par rapport à

la moyenne:

Exemple numérique Relation entre le nombre de superviseurs et la

performance dans une ligne de montage

Exemple numérique

Exemple numérique

2705.474 54.893 4.249i i iY x x

Modèles intrinsèquement non-linéaires (Exemples)

• Modèle de Gompertz:

• Modèle logistique:

• Modèle de Weibull:

f x ae e b cX

( )( )

f xa

e b cX( )

( )

1

f(x)= a[1- e ]-(bX )c

Paramètres: a, b et c

Critère des moindres carrés et régression non-linéaire Étant donné la fonction Y' = f(X,), on

recherche le vecteur des coefficients qui minimise fE = [Y - f(X,)]2

Dans le cas d’un modèle linéaire, une solution unique existe et on l’obtient par la solution des équations normales

Dans le cas d’un modèle non-linéaire, il n’existe pas de solution unique à ce système d’équations: on doit procéder par optimisation

Surfaces & Contours

Illustration

y

x1x2

Y-

Y’)

2

Y-

Y’)

2

Fonction d’erreur: représentation graphique

• Cas non-linéaire: il peut exister plusieurs minima ou maxima

• Cas linéaire: un seul minimum existe

Exemple 1

X

1086420

Y

15.3

15.2

15.1

15.0

' bXY ae

SPSS

SPSS

SPSS

SPSS

SPSS

Exemple: Réponse à un médicament

( )

'b cXeY ae

y = Réponse

x = dosage

Détermination des paramètres initiaux Travaux antérieurs

Nature du modèle: détermination analytique

Essais et erreurs (grille)

linéarisation

SPSS: Régression non linéaire

SPSS: Régression non linéaire

SPSS: Régression non linéaire

SPSS: Régression non linéaire

Régression segmentée

Régression Linéaire Simple

Définition Supposons qu’une variable a un effet linéaire à

l’intérieur d’une certaine étendue de ses valeurs, mais un effet linéaire différent pour une autre étendue…

Régression segmentée: permet un changement dans la pente Le modèle implique deux ou plusieurs segments Le vrai modèle est continu, mais avec une brisure structurale

Exemple: segments continus

Y

X

1 1

2 2

y a b x pour x c

y a b x pour x c

1 1 2 2

2 1 1 2( )

a b c a b c

a a c b b

1 1

1 1 2 2( )

y a b x pour x c

y a c b b b x pour x c

Définition Supposons qu’une variable a un effet linéaire à

l’intérieur d’une certaine étendue de ses valeurs, mais un effet linéaire différent pour une autre étendue…

Régression segmentée discontinue: permet un changement dans la pente ET dans l’intercept Le modèle implique deux ou plusieurs segments Le vrai modèle n’est pas continu au niveau de la brisure

structurale

Problème Où se trouve(nt) le(s) point(s) de

rupture? L’utilisation de critère statistiques est

dangereuse Il est préférable de définir ce(s)

point(s) sur la base de la théorie

Modèle Régression segmentée, continue:

Régression segmentée, discontinue:

0 1 2'

1:

0:

RUPTURE

RUPTURE

RUPTURE

Y b b X b C X P

C X P

C X P

0 1 2 3'

1:

0:

RUPTURE

RUPTURE

RUPTURE

Y b b X b C b C X P

C X P

C X P

Exemple numérique Fichier: Regseg_Ex1.sav

Rupture à x=303

Exemple numérique Création d’une variable indiquant que X est

plus petit (C=0) ou plus grand (C=1) que le point de rupture (303):

Exemple numérique Création d’une variable telle que:

PR = (X – 303) x C

Exemple numérique Régression: Y en fonction de X et de PR:

Régression: Y en fonction de X et de PR:

Sous X=303, le coefficient de régression n’est pas significatif

À partir de X=303, la pente passe à 0.567+0.007 = 0.574, un accroissement qui est significatif…

Exemple numérique Régression: Y en fonction de X et de PR:

Régression: Y en fonction de X et de PR:

Sous X=303, le coefficient de régression n’est pas significatif

À partir de X=303, la pente passe à 0.567+0.007 = 0.574, un accroissement qui est significatif…

Syntaxe SPSSRECODE X (0 THRU 303 = 0)(303 THRU HI = 1) INTO C. COMPUTE PR = C * (X – 303). REGRESSION

/VARIABLES = Y X PR/DEPENDENT = Y

/ ENTER X / ENTER PR.

Régression Segmentée Discontinue

Relation discontinue à une valeur donnée de la variable indépendante

0 1 2 3'

1:

0:

RUPTURE

RUPTURE

RUPTURE

Y b b X b C b C X P

C X P

C X P

Rupture à x=45

Régression Segmentée Discontinue

Données:

Régression Segmentée Discontinue

Résultats:

Régression Segmentée Discontinue

Résultats:

Résultats: Sous X=45, Y augmente de 0.63 unités

pour chaque augmentation d’une unité dans X. Ce résultat n’est pas significativement différent de zéro

À X=45, le saut est de 30.931 unités, résultat significatif

Au-dessus de X=45, Y augmente de 2.72+0.633 = 3.35 unités pour chaque augmentation d’une unité dans X. Ce résultat est significatif

CORRECTION DE L’HÉTÉROSCÉDASTICITÉ

Moindres Carrés GénéralisésRégression Robuste

Moindres Carrés Généralisés Compléter une régression OLS et sauvegarder les valeurs

résiduelles Calculer le logarithme naturel du carré des valeurs résiduelles

Compléter une régression OLS en utilisant Y’LN comme variable dépendante et en incluant toutes les variables indépendantes

Sauvegarder les valeurs prédites (Y’) Créer une nouvelle variable définie par :

Compléter une régression OLS en utilisant W comme pondération Les résultats de cette régression sont de manière approximative,

corrigés pour l’hétéroscédasticité

' 2ln( )LNY e

'

1Y

We

Moindres Carrés Généralisés: Exemple numérique Fichier: CPS83.SAV Variables:

Dépendante: Wklywage Indépendante: yrseduc

Diagramme de dispersion: Hétérocédasticité évidente… Régression GLS indiquée…

Moindres Carrés Généralisés: Exemple numérique Régression OLS & Sauvegarde des valeurs résiduelles

Moindres Carrés Généralisés: Exemple numérique Régression OLS & Sauvegarde des valeurs résiduelles

Moindres Carrés Généralisés: Exemple numérique Calcul du logarithme naturel du carré des valeurs résiduelles:

Moindres Carrés Généralisés: Exemple numérique Régression OLS en utilisant Y’LN comme variable dépendante

et en incluant toutes les variables indépendantes et sauvegarde des valeurs prédites (Y’)

Moindres Carrés Généralisés: Exemple numérique

Régression OLS en utilisant Y’LN comme variable dépendante et en incluant toutes les variables indépendantes et sauvegarde des valeurs prédites (Y’):

Moindres Carrés Généralisés: Exemple numérique

Calcul des pondérations:

'

1Y

We

Moindres Carrés Généralisés: Exemple numérique

Compléter une régression pondérée:

Moindres Carrés Généralisés: Comparaison OLS vs GLS

Régression Robuste

Régression ‘OLS’ Lorsque tous les prérequis sont

respectés, la régression multiple régulière est optimale: Produit des estimations des coefficients

de régression qui ont de bonnes propriétés statistiques

Dans le cas contraire, la méthode peut produire des résultats inappropriés

Régression robuste: Introduction Alternative à la régression linéaire

lorsque les conditions ne sont pas idéales Distributions non normales Présence de cas extrêmes Hétéroscédasticité

Méthode dont les prérequis sont moins restrictifs que dans le cas de la régression ‘OLS’

Effets des cas extrêmes Ils peuvent avoir une influence importante sur

la régression Aucun cas extrême: l’influence de chaque cas est 1/n Cas extrêmes présents: le poids attribué à ces cas

peut atteindre des proportions suffisantes pour se traduire par des distortions importantes dans les résultats

Leur présence rend leur détection plus difficile: Ils attirent vers eux le plan de régression Les valeurs résiduelles sont plus faibles qu’elles ne

devraient l’être

Régression robuste: objectif Identifier les cas extrêmes Diminuer l’influence de ces cas et

l’impact qu’ils ont sur les estimations des coefficients de régression

Maintenir élevée la valeur des résidus qui leur sont associés

Estimateurs L Obtenus en minimisant la somme

d’une fonction des résidus:

OLS L2:

OLS L1:

OLS Lp:

2'Y Y minimum

'Y Y minimum

' 1 2p

Y Y minimum p

L1 = Min(abs(résidus))

20100

100

80

60

40

20

0

-20

L1 - PRED

X

OLS Pred

X

Y

X

SPSS: Fonction à minimiser

Fonction à minimiser: L1

Régression pondérée: Étapes

Estimer l’équation de régression (OLS) et analyser (et sauvegarder) les résidus

Si aucun problème est apparent, conserver cette solution

S’il y a problème: RÉGRESSION PONDÉRÉE

Régression pondérée: Étapes Utilisant la procédure NONLIN, effectuer une

régression utilisant le critère L1, et sauvegarder les valeurs résiduelles non-standardisées

Calculer une nouvelle variable:NEWY = ABS(résidus)

Calculer une régression linéaire NEWY vs X, et sauvegarder les valeurs prédites (pred)

Est-ce que les valeurs résiduelles varient en fonction de X?

Calculer les poids: W = 1/pred**2 Plus la valeur résiduelle est grande, plus son poids est

petit… Exécuter une régression pondérée (OLS)

ExempleRelation entre le taux de mortalité dans les grands centres urbains et le taux de pollution atmosphérique

Sauvegarde des résidus non standardisés

Résultats avant pondération

Calcul de abs(résidus)

Newy versus X et sauvegarde des valeurs prédites

Poids

Régression pondérée

Régression pondérée

SPSS: Estimation des pondérations

Variable liée auxvariations dans la

dispersion des erreursÉtendue de la

puissanceà examiner

SPSS: Estimation des pondérations

On recherche la plus petite valeur de la fonction de vraisemblance maximale…

1.8

1

i

wX

SPSS: Estimation des pondérations

La variable wgt_1 contient les pondérations recherchées…

SPSS: Régression pondérée

SPSS: Régression pondérée

SPSS: Régression pondérée

SPSS: Régression pondérée

SPSS: Relation entre X et W

Les points observés pour les valeurs élevées de X ont moins de poids que ceux observés pour les valeurs faibles de X: correction pour l’hétérocédasticité…

Estimateurs M Obtenus en minimisant une fonction

telle que:

La constante 0.6745 fait de s une estimation non biaisée de lorsque n est grand et que la distribution de l’erreur est normale

( )

0.6745

i i

i i

e yminimum

s s

median e median es

'ix β

Estimation M: procédure1. Obtenir un ensemble de valeurs initiales pour

les coefficients de régression (eg ceux que l’on obtient par OLS)

2. Calculer les résidus à partir des données de l’étape précédente

3. Obtenir un ensemble de pondérations (Wi) initiales:

1. 0 ≤ Wi ≤ 1

2. Wi est faible pour les grands résidus

3. Wi est grand pour les petits résidus

4. La relation entre Wi et les résidus est déterminée par la fonction d’influence

Estimation M: procédure (Suite)

4. Utilisant les pondérations obtenues en (3), compléter une régression pondérée pour obtenir un nouvel ensemble de coefficients de régression

5. De (4), obtenir un nouvel ensemble de résidus et retourner à l’étape 3

6. Ré-itérer les étapes 3-5 jusqu’à ce qu’il n’y ait plus de changement important entre deux itérations successives

Fonction d’influence Contrôle le poids attribué à chaque observation La plupart des fonctions d’influence impliquent des

résidus ré-échelonnés définis par:

s est une alternative résistante basée sur la médiane des résidus (MAD: ‘Median Absolute Deviation’)

Lorsque la distribution des erreurs est normale, MAD sera très près de l’erreur standard d’estimation

Lorsque la distribution des erreurs n’est pas normale, MAD sera plus résistant que l’erreur standard d’estimation

( ),

0.6745i ii

i

median e median eeu s

s

Fonctions d’influence

OLS: Wi = 1 pour tout i tous les cas ont un poids de 1

.

LAV (Least-Absolute-Values):

Wi = 1 / |ui| (pour ui ≠ 0) Problème: pour les valeurs

rapprochées de 0, les poids sont trop élevés!

Fonctions d’influence Fonction de Huber:

Wi = 1 if |ui| c Wi = c/|ui| if |ui| > c Diminue graduellement le poids des cas associés

à des résidus supérieurs à une constante d’ajustement c

Plus c est grand, plus cette fonction s’approche de OLS

La fonction d’influence n’atteint jamais 0: aucun cas n’est totalement éliminé

Avec c=1.345, l’estimation est 95% aussi efficace qu’OLS lorsque les erreurs sont normalement distribués

Fonction de Huber

0.0

0.4

0.8

1.2

-1.0 1.3 3.7 6.0

Residus vs Poids

Residus

Poid

s

Fonctions d’influence (Suite) Fonction de Tukey:

Plus le résidu s’approche de c, plus le poids diminue. Si le résidu dépasse c, le poids devient nul (le cas est

effectivement éliminé de l’analyse) Avec c=4.685 et des erreurs normalement distribuées,

l’efficacité atteint 95% de celle d’OLS Fonction utile lorsque les distributions ont des

extrémités très importantes Problème: il peut exister plusieurs solutions et la

méthode est sensible aux valeurs initiales; on peut obtenir des estimations inadéquates des coefficients de régression

22

1 if

0 if

ii i

i i

uw u c

c

w u c

Fonction de Tukey

Fonctions d’influence (Suite) Fonction de Andrew:

Les résultats sont similaires à ceux obtenus avec la fonction de Tukey

La constance c est généralement égale à 1.339

sinif

0 if

i

i ii

i i

uc

w u cuc

w u c

Fonctions d’influence (Suite)

Fonction de Andrew:

sinif

0 if

i

i ii

i i

u

cw u c

u

cw u c

Exemple: Pollution et Mortalité

Influence de la pollution sur le taux de mortalité dans les grandes villes américaines (n=60)

On transforme la variable indépendante pour corriger un problème de normalité (asymétrie très prononcée)

Exemple

Exemple: Régression OLS La pollution permet

d’expliquer 2.3% de la variance dans la mortalité

À partir de cette analyse, on est amené à conclure que la pollution a peu d’impact sur le taux de mortalité

Exemple: Régression OLS Quatre données se

démarquent du groupe: Los Angeles, San Francisco, San Diego et San Jose

Pollution élevée Taux de mortalité faible

Quatre villes de Californie:

Erreurs non aléatoires Une ou plusieurs

variables importantes ont été omises

Exemple: Régression OLS Solutions:

Inclure les variables qui ont été omises, si c’est possible…

Reconduire l’analyse suite à l’élimination des 4 points déviants

Utiliser une procédure de régression robuste

Une régression robuste offre une meilleure alternative

Résultats plus raisonnables qu’une régression OLS affectée par des cas extrêmes non corrigés

Exemple: Régression Robuste

Éléments d’une régression robuste Estimation robuste des coefficients de

régression et des erreurs standards Une différence par rapport aux estimations

OLS indiquent les effets de cas influents: les résultats OLS ne sont pas fiables

Valeurs prédites et valeurs résiduelles robustes Les prédictions se conforment à la majorité des

points Les résidus permettent d’identifier les cas vraiment

inhabituels Poids robustes: indices permettant de déceler

les cas extrêmes

Limites de la régression robuste Les mêmes problèmes pouvant survenir

en régression multiples peuvent survenir en régression robuste Multicollinéarité Données manquantes Erreurs de spécification (choix du modèle)

Elle n’élimine pas l’étape de diagnostic et d’exploration préliminaire des données

Avantages de la régression robuste On obtient des coefficients et des erreurs

standards robustes Des différences importantes entre une solution

OLS et une solution robuste indiquent que les effets de scores extrêmes sont importants: confirmation des résultats d’OLS

Une prédiction fondée sur une solution robuste pourrait mieux correspondre à la majorité des données, puisque les scores extrêmes attirent moins le plan de régression vers eux

Un outil de diagnostic permettant une meilleure détection des scores extrêmes

Exercices Analysez les données contenues dans le

fichiers NONLIN.SAV. La fonction liant X à Y est de la forme:

Analysez les données contenues dans le fichier DAVIS.SAV:

Est-ce que le poids rapporté par les sujets permet de prédire leur poids réel?

Est-ce que la taille rapportée par les sujets permet de prédire leur taille réelle?

( )

'b cxeY ae

a : 100 -130b : 0 - 4c : 0 - 2

top related