g._furst_2013_._la_regression_lineaire..pdf
TRANSCRIPT
-
8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf
1/42
Régression Linéaire – Bases
Guillaume Fü[email protected]
-
8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf
2/42
Vue d’ensemble
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 2, dia. 2
Variable
Latente 1
i1 i2 i3 i4 i5
Variable
Latente 2
i6 i7 i8 i9 i10
Passation desquestionnaires
Analyse factorielle
Régression Linéaire(Simple ou Multiple)
Analyse de la fidélité
Analyse de la validité
Analyse des propriétéspsychométriques des
questionnaires
Rappels – Principe de la RLS – Postulats – Paramètres – Causalité – RLM
-
8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf
3/42
• Variance: représente la moyenne des écarts àla moyenne . Mesure de la diversité. Unevariable sans variance est une constante.
• Covariance: représente la variance partagéeentre deux variables. Indices non normé,
peut varier entre -∞ et +∞.
• Scores z (standardisés): Mesure de positionstandardisée. Situe chaque observation parrapport à la moyenne, en unité d’écart-type.
•Corrélation: Covariance standardisée. Bornéeentre -1 et +1. La covariance entre deuxvariables standardisées (scores z) est unecorrélation.
Rappel: variance, covariance, corrélation
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 2, dia. 3
Rappels – Principe de la RLS – Postulats – Paramètres – Causalité – RLM
-
8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf
4/42
• La significativité statistique indique si uneffet est différent de 0.
• La taille d’effet donne plus d’information
sur la magnitude de cet effet.
• Ces deux informations sont différentes etindépendante l’une de l’autre
• (L’estimation de la taille d’effet dépend de
la fidélité de la mesure.)
Rappel: taille d’effet et significativité
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 2, dia. 4
Pas d’effet Relation assez forte Relation très forte
Rappels – Principe de la RLS – Postulats – Paramètres – Causalité – RLM
-
8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf
5/42
• La régression simple permet de tester le lien entre deux variables: – La variable dépendante (VD) toujours est continue
– La variable indépendante (VI) est continue ou dichotomique/muette (avec desvaleurs de 0 ou 1)
• Par défaut, le lien testé en deux variables continues est linéaire (mais certaines
méthode permettent de tester des relations non-linéaires)• La régression simple avec une variable dichotomique est équivalente au test t .
• La régression simple avec deux variables continues est similaire à la corrélation.
• Le principe général est d’estimer une droite qui passe au mieux au travers detoutes les données
•Paramètres estimés: – Intercepte: scores sur la VD pour les personnes qui ont 0 sur la VI;
– Pente: progression moyenne sur la VD pour une valeur de 1 sur la VI;
– Résidus: partie de la variance non expliquée par la le lien entre VI et VD.
La régression simple (RLS): principe
http://hadm.sph.sc.edu/courses/J716/demos/leastsquares/leastsquaresdemo.html
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 2, dia. 5
Rappels – Principe de la RLS – Postulats – Paramètres – Causalité – RLM
http://hadm.sph.sc.edu/courses/J716/demos/leastsquares/leastsquaresdemo.htmlhttp://hadm.sph.sc.edu/courses/J716/demos/leastsquares/leastsquaresdemo.htmlhttp://hadm.sph.sc.edu/courses/J716/demos/leastsquares/leastsquaresdemo.html
-
8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf
6/42
La régression simple (RLS): principe
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 2, dia. 6
Relation linéaireentre variablescontinues
Relation entre
une variabledichotomique etune continue
Relation non-linéaire entre
variablescontinues
Rappels – Principe de la RLS – Postulats – Paramètres – Causalité – RLM
-
8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf
7/42
• Equation dans la population:Y
i = β0 + β1* x i + ε i
• Equation dans l’échantillon
Yi = b
0 + b
1* x
i + r
i
• Hypothèses nulles
– Pour l’intercepte:
• H0 : β0 = 0
• H1 : β0 ≠ 0
– Pour la pente:
• H0 : β1 = 0
• H1 : β1 ≠ 0
RLS – Modèle et hypothèses nulles
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 2, dia. 7
Rappels – Principe de la RLS – Postulats – Paramètres – Causalité – RLM
-
8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf
8/42
• Valeurs extrêmes : surveiller les valeursextrêmes, avec un grand résidu, quipeut influencer l’estimation)
RLS – Postulats et résidus
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 2, dia. 8
Rappels – Principe de la RLS – Postulats – Paramètres – Causalité – RLM
• Graphs à faire :
– Histogramme desrésidus. On attends lanormalité.
– Scatterplot « valeurs
prédites vs. résidus ».
Homogénéité de lavariance
• Postulats: – Indépendance des observations
– Normalité des résidus
– Homogénéité de la variance
– Pas de valeurs extrêmes
-
8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf
9/42
• Intercepte – Taille d’effet: b0
– Significativité: testée avec un test t .
• Pente
– Taille d’effet: b x ou « Beta x »
(standardisé) – Significativité: testée avec un test t .
• R2: Proportion de variance expliquée – Paramètre standardisé par nature.
– Varie entre 0 et 1. S’exprimer aussi en %
– Significativité testée avec un test F .
RLS – Paramètres estimés
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 2, dia. 9
Rappels – Principe de la RLS – Postulats – Paramètres – Causalité – RLM
-
8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf
10/42
• Le sens VI et VD est motivé théoriquement.• Ce sens n’a que très peu d’incidence sur l’analyse statistique.
• La régression ne démontre JAMAIS la causalité.
• La causalité se démontre/contrôle méthodologiquement; trois points clés:
1. Lien entre deux variable
2. Antériorité temporelle de la cause
3. Exclusion de tous les autres facteurs potentiels
Horrible mais pourtant vrai :
Aucune analyse statistiquene peut démontrer la causalité
Régression et causalité
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 2, dia. 10
Rappels – Principe de la RLS – Postulats – Paramètres – Causalité – RLM
-
8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf
11/42
• Point communs avec la RLS – Même principe, même estimation.
– Mêmes postulats, même diagnostique.
Régression Linéaire Multiple (RLM)
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 2, dia. 11
• Points spécifiques:
– Plus de paramètres estimées – Equation avec plusieurs pentes
Yi = β0 + β1* x i + β2* x i + … + ε i
– Espace en « n » dimension au lieu de 2
– Les estimations des pentes ne sont plusdirectement analogues à la corrélation
– Attention à la multi-colinéarité.Vérifier la tolérance (= 1 – R2).Doit être supérieure à .10.
http://la-dimension4.com/Hyperplans.html
Rappels – Principe de la RLS – Postulats – Paramètres – Causalité – RLM
-
8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf
12/42
Lectures
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 2, dia. 12
• Field, A. (2007). Discovering Statistics Using SPSS. SAGEPublications Ltd.
– Chapitre 5 “Exploring assumptions”, pp. 131-136
– Chapitre 6 “Correlation”, pp. 166-172
– Chapitre 7 “Regression”, pp. 197-209
• Videos Qualtrics:http://www.youtube.com/watch?v=Q9YW9RAM9jQ&list=PLFF2F7C1E49A04697
http://www.youtube.com/watch?v=Q9YW9RAM9jQ&list=PLFF2F7C1E49A04697http://www.youtube.com/watch?v=Q9YW9RAM9jQ&list=PLFF2F7C1E49A04697http://www.youtube.com/watch?v=Q9YW9RAM9jQ&list=PLFF2F7C1E49A04697http://www.youtube.com/watch?v=Q9YW9RAM9jQ&list=PLFF2F7C1E49A04697http://www.youtube.com/watch?v=Q9YW9RAM9jQ&list=PLFF2F7C1E49A04697http://www.youtube.com/watch?v=Q9YW9RAM9jQ&list=PLFF2F7C1E49A04697
-
8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf
13/42
Régression – Thèmes avancés
Guillaume Fü[email protected]
-
8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf
14/42
Inférence – vue d’ensemble des tests
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 3, dia. 14
Nom du test /
Analyse statistique
Distribution pour le
test de significativté Degré de liberté
Indice de la
taille d'effet
Chi carré Χ 2 Nb de catégorie -1 Cohen’s w
Test t t (ng1+ng2) - 2 Cohen’s d
ANOVA F ddl1: Ng-1, ddl2: n-Ng η2
Corrélation t N – 2 r ou r 2
Exemple des formules pour le test t :
http://wiki.opossem.org/index.php?title=Statistical_distributions
Intro – Fidélité – Inférence – Valeurs extrêmes – Normalité – Transformations
http://wiki.opossem.org/index.php?title=Statistical_distributionshttp://wiki.opossem.org/index.php?title=Statistical_distributionshttp://wiki.opossem.org/index.php?title=Statistical_distributions
-
8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf
15/42
Taille d’effet et significativité en régression
• Rappel pour la corrélation
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 3, dia. 15
• Pour l’intercepte en RLS:
• Pour la pente en RLS:
T
T
T
Intro – Fidélité – Inférence – Valeurs extrêmes – Normalité – Transformations
-
8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf
16/42
R2 et R2 ajusté
• Le R2 représente la taille d’effet totale, la variance expliquée de Y R2 = 1 -
é
• Le test F permet de tester si le R2 est différent de 0:
F = é
é
dl1: p-1, ddl2: n-p
• R2 ajusté:
Permet de prendre en compte:
– La taille d’échantillon (n)
– Le nombre de paramètre dans le modèle ( p)
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 3, dia. 16
http://en.wikipedia.org/wiki/F-distribution
Intro – Fidélité – Inférence – Valeurs extrêmes – Normalité – Transformations
http://en.wikipedia.org/wiki/F-distributionhttp://en.wikipedia.org/wiki/F-distributionhttp://en.wikipedia.org/wiki/F-distributionhttp://en.wikipedia.org/wiki/F-distributionhttp://en.wikipedia.org/wiki/F-distribution
-
8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf
17/42
Intervalle de confiance: principe
• Caractéristiques générales de l’IC : – L’IC permet d’estimer un intervalle dans lequel se trouve probablement la
vraie valeur de la population
– L’IC dépend de l’erreur standard d’un paramètre, l’erreur d’estimation.
– Plus l’échantillon (n) est grand, plus petite sera l’erreur d’estimation
– Plus la taille de l’échantillon (n) est grande, plus l’IC sera étroit. – Plus l’IC est étroit, plus nous avons confiance que l’estimation ponctuelle est
proche de la vraie valeur de la population.
IC(95%) = [limité inférieure; limite supérieure]
Limite inférieure=point estimé du paramètre – Quantile de la loi t (n-p) * Erreur standard du paramètre
Limite supérieure=point estimé du paramètre + Quantile de la loi t (n-p) * Erreur standard du paramètre
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 3, dia. 17
Intro – Fidélité – Inférence – Valeurs extrêmes – Normalité – Transformations
-
8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf
18/42
Exemple – paramètres estimés
• Intercepte – b0≈ 0
– t (108) ≈ 0 ; p ≈ 1
– IC(95%)=[-0.27; 0.27]
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 3, dia. 18
• R2
– R2 = 0.17
– R2 ajusté = 0.16
– F(2,108)=11.63; p < .001
• Pente de Generation – b1 (brute) = 0.76
– b1 (standardisée) = 0.43
– t (108)= 4.8; p < .001
– IC(95%)=[-0.45; 1.08]
Intro – Fidélité – Inférence – Valeurs extrêmes – Normalité – Transformations
-
8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf
19/42
Détecter les valeurs extrêmes
• Graphiques exploratoires avant l’analyse (insuffisant pour la RLM)• Taille des résidus (mais ce n’est pas la meilleure méthode)
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 3, dia. 19
• Distance de Cook Représente l’influence
d’une observation sur
l’estimation. Doit êtreinférieure à 1 pour toutesles observations.
• Distance de Mahalanobis
Distance qui représente
l’éloignement à lamoyenne. Voir lesrecommandations ci-contre pour les valeurslimites.
Intro – Fidélité – Inférence – Valeurs extrêmes – Normalité – Transformations
-
8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf
20/42
Exemple – Valeurs extrêmes
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 3, dia. 20
Intro – Fidélité – Inférence – Valeurs extrêmes – Normalité – Transformations
-
8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf
21/42
Normalité
• Utiliser avant tout les graphiques
• Skewness et Kurtosis
– Estimations inférieures à |1|
– Estimation/erreur standard < 2
• Tests de normalité (Kolmogorov-Smirnov)
– Permet de savoir si notre distribution estsignificativement différente d’une normale
– On veut une p-valeur non-significative.
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 3, dia. 21
Intro – Fidélité – Inférence – Valeurs extrêmes – Normalité – Transformations
-
8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf
22/42
Transformations
• On distingue: – Transformation linéaire: ne modifie pas la
distribution (p. ex. score z)
– Transformation non-linéaire: modifie ladistribution
•Souvent utilisé pour corriger l’asymétrie – Transformation log – Transformation racine carré
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 3, dia. 22
• Après transformation, l’équation n’est plus la
même. Par exemple:
Log(Y) = b0 + b
1*x
i
Y = Exp(b0) + Exp(b1*xi )
• La relation entre les variables n’est plus linéaire
• Voir aussi
– Field (2007), chap. 5, pp. 153-156
– http://stattrek.com/regression/linear-transformation.aspx
Intro – Fidélité – Inférence – Valeurs extrêmes – Normalité – Transformations
http://stattrek.com/regression/linear-transformation.aspxhttp://stattrek.com/regression/linear-transformation.aspxhttp://stattrek.com/regression/linear-transformation.aspxhttp://stattrek.com/regression/linear-transformation.aspxhttp://stattrek.com/regression/linear-transformation.aspxhttp://stattrek.com/regression/linear-transformation.aspx
-
8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf
23/42
Transformations – normalité univariée
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 3, dia. 23
Intro – Fidélité – Inférence – Valeurs extrêmes – Normalité – Transformations
-
8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf
24/42
Transformations – relation non-linéaire
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 3, dia. 24
http://researchnetwork.pearson.com/digital-data-analytics-and-adaptive-learning/look-at-your-data
Intro – Fidélité – Inférence – Valeurs extrêmes – Normalité – Transformations
http://researchnetwork.pearson.com/digital-data-analytics-and-adaptive-learning/look-at-your-datahttp://researchnetwork.pearson.com/digital-data-analytics-and-adaptive-learning/look-at-your-datahttp://researchnetwork.pearson.com/digital-data-analytics-and-adaptive-learning/look-at-your-datahttp://researchnetwork.pearson.com/digital-data-analytics-and-adaptive-learning/look-at-your-datahttp://researchnetwork.pearson.com/digital-data-analytics-and-adaptive-learning/look-at-your-datahttp://researchnetwork.pearson.com/digital-data-analytics-and-adaptive-learning/look-at-your-datahttp://researchnetwork.pearson.com/digital-data-analytics-and-adaptive-learning/look-at-your-datahttp://researchnetwork.pearson.com/digital-data-analytics-and-adaptive-learning/look-at-your-datahttp://researchnetwork.pearson.com/digital-data-analytics-and-adaptive-learning/look-at-your-datahttp://researchnetwork.pearson.com/digital-data-analytics-and-adaptive-learning/look-at-your-datahttp://researchnetwork.pearson.com/digital-data-analytics-and-adaptive-learning/look-at-your-datahttp://researchnetwork.pearson.com/digital-data-analytics-and-adaptive-learning/look-at-your-datahttp://researchnetwork.pearson.com/digital-data-analytics-and-adaptive-learning/look-at-your-datahttp://researchnetwork.pearson.com/digital-data-analytics-and-adaptive-learning/look-at-your-datahttp://researchnetwork.pearson.com/digital-data-analytics-and-adaptive-learning/look-at-your-datahttp://researchnetwork.pearson.com/digital-data-analytics-and-adaptive-learning/look-at-your-datahttp://researchnetwork.pearson.com/digital-data-analytics-and-adaptive-learning/look-at-your-datahttp://researchnetwork.pearson.com/digital-data-analytics-and-adaptive-learning/look-at-your-datahttp://researchnetwork.pearson.com/digital-data-analytics-and-adaptive-learning/look-at-your-data
-
8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf
25/42
Transformations – relation non-linéaire
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 3, dia. 25
h t t p : /
/ w w w 3 . n
d . e
d u / ~ r w i l l i a m / s t a
t s 2 / l 6 1 . p
d f
Intro – Fidélité – Inférence – Valeurs extrêmes – Normalité – Transformations
http://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdfhttp://www3.nd.edu/~rwilliam/stats2/l61.pdf
-
8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf
26/42
Variable muette – cas simple classique
• Contexte: – Une variable continue (VD)
– Une variable nominale à 2 modalités (VI)
=> Il s’agit du cas typique pour un test t ou une ANOVA
• Mais on peut aussi faire :
– Une corrélation bisérielle de point
– Et, bien sûr, une régression!
• Principe de base: On recode la variable nominale: – On attribue la valeur de 0 à un groupe
– Et la valeur de 1 à l’autre groupe
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 4, dia. 26
variable
originale
variable
recodée
oui 1
oui 1
oui 1
non 0
oui 1
… …
Voir aussi A. Field, pp. 253-256
-
8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf
27/42
Variable muette – exemple
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 4, dia. 27
• Corrélation et régression
-
8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf
28/42
Variable muette – exemple
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 4, dia. 28
• Test t et ANOVA
-
8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf
29/42
Régression hiérarchique – principe
• Appelée aussi régression stewipse ou par étape.• A ne pas confondre avec modèle hiérarchique (multi-niveaux).
• Principe: on ne met pas tous les prédicteurs d’un seul coup;
on entre les prédicteurs par étapes dans le modèle de régression :
– soit par importance théorique (cf. exemple ci-dessous);
– soit par importance statistique (e.g., prédicteurs les plus forts en premiers).• Intérêt: permet de donner une priorité théorique à certains prédicteurs.
• Utile seulement si les prédicteurs corrèlent.
• Exemple de stratégie guidée par la théorie:
– Entrer d’abord les variables contrôles – Entrer ensuite les prédicteurs principaux, éventuellement avec interaction
– Entrer éventuellement d’autre prédicteurs pour voir si on peut augmenter le R2
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 4, dia. 29
-
8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf
30/42
Tester une différence de R2
• Pour tester la pertinence de l’ajout de prédicteurs supplémentaires, on compare lesmodèles (variance expliquée).
• Utile si plusieurs prédicteurs sont ajoutés (pour l’ajout d’un seul prédicteur, le test dedifférence de R2 est redondant avec le test de la pente).
• La comparaison peut se faire:
– Avec le R2 ajusté : si le R2 ajusté ne change pas ou très peu, on peut conclureque dans l’ensemble les prédicteurs ne sont pas utiles
– Avec un test de différence de R2 : si le résultat du test est significatif, on peutconclure que l’ajout de prédicteur permet vraiment d’améliorer la quantité de
variance.
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 4, dia. 30
-
8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf
31/42
Tester une différence de R2
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 4, dia. 31
-
8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf
32/42
Interaction – principe et test
• Il y a interaction lorsque que l’effet d’un prédicteur sur une VD est modifié par unautre prédicteur.
• Les 2 deux effets principaux des prédicteurs sont bien dissociables de l’interaction
• Exemples d’interaction
– Vitesse et alcool au volant
– Pilule et cigarette
– Motivation et récompense
• Marche à suivre pourtester une interaction
– Centrer ou standardiser
les 2 prédicteurs – Créer une nouvelle variable,
produit de ces 2 prédicteurs
– Tester les 3 effets en RLM
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 4, dia. 32
-
8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf
33/42
Modération et médiation
Guillaume Fü[email protected]
-
8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf
34/42
RLM: vue d’ensemble
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 5, dia. 34
• Analyses exploratoires et descriptives
(séance 1-3)
– Histogramme (et boxplot)
– Scatterplot
– Statistiques descriptives (moyenne, écart-type, min. et max., asymétrie, aplatissement)
– (test de normalité)
• Estimation du modèle (séance 2 et 3)
– Introduire les bonnes variables
– Évent. créer une variable d'interaction
– voir les options dans cours séance 3
•Diagnostic (séance 2 et 3) – Normalité des résidus (graphs, skewness,
kurtosis, test de normalité)
– Homogénéité de la variance (graph)
– Valeurs extrêmes (Cook, Mahalanobis)
• Interprétation (séance 2-4)
– Quels prédicteurs sont significatifs?
– Taille d'effet des prédicteurs significatifs
– Quel est le prédicteur le plus important?
– Variance totale expliquée (R2)
• A faire éventuelle en plus
– Ré-estimation du modèle aprèstransformation (séance 4)
• Pour résoudre un problème de résidus
• Et/ou pour tester un effet non-linéaire
– Ré-estimation du modèle sans valeursextrêmes (séance 3-5)
– Comparaison de modèle (si régression
hiérarchique) (séance 4)• Différence de R2
• Test de différence de R2
– Graph d’interaction (séance 5)
– Estimation de plusieurs modèles pour testerun effet de médiation (séance 5)
-
8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf
35/42
Médiation et interaction
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 4, dia. 35
-
8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf
36/42
Interaction – principe et test
• Il y a interaction lorsque que l’effet d’un prédicteur sur une VD est modifié par unautre prédicteur.
• Les 2 deux effets principaux des prédicteurs sont bien dissociables de l’interaction
• Exemples d’interaction
– Vitesse et alcool au volant
– Pilule et cigarette
– Motivation et récompense
• Marche à suivre pourtester une interaction
– Centrer ou standardiser
les 2 prédicteurs – Créer une nouvelle variable,
produit de ces 2 prédicteurs
– Tester les 3 effets en RLM
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 5, dia. 36
-
8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf
37/42
Interaction – Gaph. 1
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 5, dia. 37
• Intercepte:b0 = 1.54
• Pentesstandardisées: – bExtraversion = -0.41 – bNeuroticisme = 0.31
– bInteraction = -0.16
-
8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf
38/42
-
8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf
39/42
Médiation – principe
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 5, dia. 39
• Il y a médiation lorsque la relation entre deux variables X et Y est expliquée par unetroisième variable M.
•Exemples de médiation – Motivation -> Temps passé -> Performance
– Stress -> Rumination -> Dépression
• Pour tester une médiation,
il faut estimer plusieurs modèles:
1. Relation entre variable X et Y2. Relation entre M et Y
3. Relation entre X et M
4. Prédiction de Y par M et X
• Plusieurs issues possibles
– Les conditions minimales ne sont pas
remplies (cf. 3 premiers points ci-contre) – Médiation partielle (les deux effets de X et
M sur Y sont significatif au point 4)
– Médiation totale (seul l’effet de M est
significatif au point 4)
-
8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf
40/42
-
8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf
41/42
Médiation – exemple
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 5, dia. 41
Intelligence
Vocabulaire
Fluidité
-
8/16/2019 G._Furst_2013_._La_regression_lineaire..pdf
42/42
Médiation – test de Sobel
http://www.danielsoper.com/statcalc3/calc.aspx?id=31
•Permet de tester la significativité de l’effet indirect
http://www.danielsoper.com/statcalc3/calc.aspx?id=31http://www.danielsoper.com/statcalc3/calc.aspx?id=31http://www.danielsoper.com/statcalc3/calc.aspx?id=31