statistiques licence — quatrième séance. analyse de variance simple un facteur de classification

63
Statistiques Licence — quatrième séance

Upload: faustine-serra

Post on 04-Apr-2015

111 views

Category:

Documents


4 download

TRANSCRIPT

Page 1: Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification

Statistiques

Licence — quatrième séance

Page 2: Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification

Analyse de variance simple

Un facteur de classification

Page 3: Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification

Plan1. Une étude de Eysenck

1. La question2. Les données

2. Situation statistique1. Description2. Le principe de raisonnement

3. Conditions d’application4. Calculs5. Interprétation des résultats6. Exemple supplémentaire (11.22 p 390)

Page 4: Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification

1. Une étude de Eysenck

Mémoire et profondeur de traitement

Page 5: Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification

1.1 Présentation

[Howell, pp 340-]

Page 6: Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification

HistoriqueEn 1974, Eysenck a mené une étude dans

le but de démontrer que la profondeur de traitement a un effet sur la mémorisation involontaire.

Des groupes de volontaires sont formés, qui ont a traiter une liste de mots. Le traitement varie selon les groupes, mais la liste est la même.

On demande ensuite aux sujets de rappeler le maximum d’items possibles de la liste. Le nombre X de mots correctement rappelés est une mesure de la qualité de la rétention.

Page 7: Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification

HistoriqueL’étude comporte 5 groupes :

Le groupe « addition » doit compter le nombre de lettres de chaque mot de la listeLe groupe « rime » doit chercher un mot rimant avec chaque mot de la listeOn demande au groupe « adjectif » d’accoler un adjectif possible à chaque mot de la liste (il s’agit de substantifs)Au groupe « image » de se représenter mentalement l’objet désignéAu groupe « intentionnel » d’apprendre la liste.

Page 8: Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification

Historique

Dans l’esprit d’Eysenck, les groupes correspondent à des traitements de plus en plus profonds (signes / sons / sens / image).

Page 9: Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification

QuestionLa question qu’on se pose peut

s’exprimer la façon suivante :Le traitement a-t-il une influence

sur la mémorisation ?

Ce qui revient à :Les moyennes de X dans les

différents groupes sont-elles différentes ou au contraire toutes égales ?

Page 10: Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification

1.2 Les données

Formalisation et données brutes

Page 11: Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification

Formalisation

La situation est la suivante :1. Nous disposons d’un échantillon

de volontaires participants (individus)

2. D’un facteur T « traitement » catégoriel (qualitatif ou nominal)

3. D’une variable dépendante X quantitative

4. Et nous cherchons un lien éventuel entre T et X.

Page 12: Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification

Les données brutes

addition rimes adjectif images intention.

9 7 11 12 10

8 9 13 11 19

6 6 8 16 14

8 6 6 11 5

10 6 14 9 10

4 11 11 23 11

6 6 13 12 14

5 3 13 10 15

7 8 10 19 11

7 7 11 11 11

Page 13: Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification

Les données traitées

add rime adj image inten

n 10 10 10 10 10

Moyenne 7 6.9 11 13.4 12

Écart type 1.83 2.13 2.49 4.50 3.74

Page 14: Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification

2. La situation statistique

Retour et généralisation

Page 15: Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification

2.1 Description

Quand faire une ANOVA ?

Page 16: Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification

Les cas appelant l’anova

Dans les situations semblables à celles que nous venons de décrire, on est amené à utiliser une méthode statistique particulière : l’analyse de variance ou ANOVA (ANalysis Of VAriance).

Page 17: Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification

Situation propice à l’anova

Nous avons deux variables :Une variable indépendante ou facteur catégoriel (échelle finie).Une variable dépendante quantitative.

Il est indispensable d’avoir suffisamment de valeur de la VD pour chaque modalité de la VI.Mais les « groupes » ne sont pas nécessairement de la même taille.

Page 18: Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification

RemarquesLe tableau que nous avons présenté plus haut n’est ni descriptif ni statistique.L’anova est un test fondé sur un modèle, comme la régression linéaire (corrélation fondée sur le modèle linéaire).La conclusion donnée par le test est seulement que les moyennes vraies sont différentes (ie non toutes égales), et ne permet pas de conclure à un quelconque « sens » de variation, même si cela fait sens, comme ici. Il s’agira d’interprétation.

Page 19: Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification

2.2 Principes fondamentaux

Variations

Page 20: Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification

Variations

Le principe de base est une étude des variations.On dit « variation » parce qu’il s’agit d’une version légèrement modifiée de la variance… mais l’idée est la même.

Page 21: Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification

VariationsLa variable X n’est pas constante : elle présente des variations.L’anova est fondée sur l’idée qu’une partie de ces variations est attribuable au facteur.Le reste étant dû à d’autres facteurs.Si la variation due au facteur semble élevée, on pourra conclure à un « effet » du facteur sur la VDDans le cas contraire, on ne pourra pas conclure (et non pas conclure qu’il n’y a pas d’effet !).

Page 22: Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification

3. Conditions d’application

De l’ANOVA

Page 23: Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification

À vérifier systématiquementPour pouvoir appliquer l’analyse de variance,

il est indispensable de vérifier :1. L’indépendance des observations (dans

l’expérience d’Eysenck, les sujets ne passent qu’une des expériences possibles)

2. La normalité de la VD dans les groupes (elle se vérifie par ordinateur, nous la supposerons toujours)

3. L’homogénéité des variances. Vérifiez qu’aucune variance n’est 4 fois supérieure à une autre. (Eysenck a fait l’étude malgré la violation de cette condition).

Page 24: Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification

Violation des conditionsCependant, l’anova est relativement robuste, et fonctionne encore si les conditions d’application sont « presque » vérifiées.Des variances très différentes impliqueront une plus grande prudence dans la lecture des résultatsDes distributions non normales ne sont pas gênantes si elles sont d’asymétrie de même signe et unimodales.

Page 25: Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification

Exemples

0

1

2

3

4

5

6

7

8

9

10

0 1 2 3 4 5 6 7 8 9 10

G1

G2

G3

Page 26: Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification

Exemples

0

2

4

6

8

10

12

0 1 2 3 4 5 6 7 8 9 10

G1

G2

G3

Page 27: Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification

Exemples

0

2

4

6

8

10

12

0 1 2 3 4 5 6 7 8 9 10

G1G2

G3

Page 28: Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification

Exemples

0

2

4

6

8

10

12

0 1 2 3 4 5 6 7 8 9 10

G1G2

G3

Page 29: Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification

4. Les calculs

Sans commentaire

Page 30: Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification

La mesure de variation

Tous les calculs se fondent sur un principe identique.Quand il nous faut mesurer la variation de X entre des groupes G1, G2… de taille n1, n2… nous procédons toujours de la manière suivante (encore valable en anova factorielle ou pour mesures répétées).

Page 31: Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification

Facteur de correctionDans l’expérience d’Eysenck, on peut calculer le carré de la somme des 50 valeurs (9+8+…+11)²=503²

Que l’on divise ensuite par 50 (il y a 50 valeurs), ce qui donne le facteur de correction FC=5060.18

On calcule (attention à l’erreur dans Howell, p 350)

On en déduit le facteur de correction

2X

2X

FCN

Page 32: Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification

Somme des carrésOn calcule la somme des carrés des totaux (par groupes) divisés par les effectifs.Par exemple, pour comparer les groupes d’Eysenck :

On calcule alors simplement les « sommes des carrés » (en réalité somme des carrés des écarts à la moyenne) par :

2k

k

TSC FC

n

2 2

2 2

70 120...

10 1070 ... 120

10351.52

traitSC FC

FC

Page 33: Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification

Somme des carrés

On a ainsi une mesure de la variation entre les groupes (traitement), donc « due au traitement »La variation due au traitement est 351.52

SC est une mesure de la variation entre les groupes considérés.

Page 34: Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification

Les différents SC

Les SC se calculent pour les groupes de traitement, mais pas seulement. On peut aussi calculer les SC correspondant à d’autres « regroupements ».Les différents SC ainsi obtenus permettent de terminer l’anova.

Page 35: Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification

Les différents SC

Par exemple, on peut « regrouper » les valeurs une par une.Le raisonnement précédent s’applique, avec des groupes de taille 1 et des totaux égaux en fait à l’unique valeur considérée.On obtient alors la variation entre toutes les valeurs : la variation totale

2

9² ... 11²

786.82

totSC X FC

FC

Page 36: Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification

Répartition des variations

La variation totale (entre toutes les valeurs) est due d’une part à l’effet du facteur (variation entre les groupes) et d’autre part à ce qu’on appelle « l ’erreur » car dans le modèle simplifié où seul le facteur intervient, c’est une erreur.Cette variation supplémentaire est la variation « à l’intérieur des groupes », et elle est due à tous les facteurs autre que celui qui nous préoccupe.

Page 37: Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification

Répartition des variations

Une propriété formidable des SC est qu’elle sont « additives ». Ainsi, quand on additionne

la variation due au facteur Tet celle due aux autres facteurs,

on obtient la variation totale.

Page 38: Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification

Répartition des variations

Variation totale

totSC

Variation entregroupes

Erreur(variation sujet)

grSC errSC

Page 39: Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification

Répartition des variations

Dans la pratique, on calcule la variation due au facteur, puis la variation totaleOn en déduit la variation « erreur » par soustraction :

err tot grSC SC SC

Page 40: Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification

Degrés de libertéÀ chaque SC est associé un degré de liberté.Le degré de liberté est le nombre de groupes moins 1.Les degrés de liberté s’additionnent comme les SC.Dans le cas de l’expérience,

50 1 49

5 1 4

49 4 45

tot

gr

err

dl

dl

dl

Page 41: Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification

Degrés de liberté

Dans le cas général, si n est le nombre total d’individus dans l’échantillon et k le nombre de groupes, on a

1

1

1 1

tot

fac

err

dl n

dl k

dl n k

n k

Page 42: Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification

Carrés moyens

Enfin, on définit les carrés moyens (qui sont une sorte de variance corrigée) CM.Ils mesurent la variation d’une manière standard et plus adéquate que les SC, mais ne sont pas additifs.

SCCM

dl

Page 43: Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification

Présentation des résultats

On a l’habitude de présenter les résultats dans un tableau standard de la forme :

source dl SC CM F

Groupe

Erreur

Total

Page 44: Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification

Présentation des résultatsDans l’expérience de Eysenck, cela donne le tableau suivant (en rouge: obtenu par soustraction. En vert, par division).

source dl SC CM F

Traitement

4 351.52 87.88 9.08

Erreur 45 435.30 9.67

Total 49 789.82

Page 45: Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification

5. Interprétation

Page 46: Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification

F

La seule valeur mystérieuse est F. Elle sert à tester l’hypothèse de différence entre les moyennes, et elle vaut

gr

err

CMF

CM

Page 47: Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification

F

Si le facteur n’intervient pas, on devrait avoir autant de variation entre les groupes qu’à l’intérieur des groupes, et donc on devrait avoir F=1Si au contraire il intervient, on s’attend à avoir un F supérieur à 1En particulier, un F inférieur à 1 n’est pas significatif.

gr

err

CMF

CM

Page 48: Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification

F

F suit une loi de Fisher-Snedecor.Les tables statistiques donnent les valeurs à partir desquelles la conclusion d’effet est possibleSi l’on a observé un F de valeur supérieure, alors on peut affirmer (avec un certain risque, en général 1%) que les traitements différents donnent des moyennes différentes de la VDOn dira alors que le facteur a un effet sur la VD

Page 49: Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification

F

Dans l’expérience d’Eysenck, la table donne

.01(4,45) 3.78F

Degré de liberté du numérateur

Risque de 1% Degré de liberté du dénominateur

gr

err

CMF

CM

Page 50: Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification

F

On avait trouvé F=9.08C’est supérieur à 3.78On peut donc affirmer au risque de 1% que la profondeur de traitement a un effet sur la mémorisation.Cela ne dit pas que l’effet est positif, mais la forme du lien nous renseigne efficacement.Il faut pour cela représenter les données : on représente la distribution de l’espérance conditionnelle de X connaissant T.

gr

err

CMF

CM

Page 51: Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification

Espérance conditionnelle

0

2

4

6

8

10

12

14

16

18

20

add rim adj ima int

Page 52: Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification

Achtung !

Le fait que F soit significatif implique que l’on peut donner la conclusion voulueMais la valeur de F ne dit rien sur la grandeur de l’effet du facteur.Pour étudier la grandeur de l’effet, on utilise d’autres calculs, assez simples heureusement, qui consistent à chercher la part de SC due à tel ou tel facteur.

Page 53: Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification

Exemple

Par exemple, on avait chez Eysenck

D’où on tire que la profondeur de traitement explique 44,6% des variations, ce qui n’est pas négligeable.

351.52

786.82gr

tot

SC

SC

351.520.446 44.6%

786.82

Page 54: Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification

6. Exemple

Darley et Latané (1968)

Page 55: Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification

L’expérienceDarley et Latané ont relevé la vitesse à laquelle les gens appellent à l’aide pour un inconnu quand ils pensent être seuls (groupe 1, n=13), ou qu’une autre personne (groupe 2, n=25) ou quatre personnes (groupe 3, n=13) les écoutent.La VD est la vitesse d’appel, d’autant plus grande que l’appel arrive peu de temps après l’événement nécessitant une aide extérieure.

Page 56: Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification

SituationNous avons donc un échantillon de 25+13+13, soit 51 individus (personnes)Sur lequel on étudie le facteur catégoriel « groupe » GEt son lien avec la VD quantitative « vitesse d’appel », XUne anova pourrait montrer que les moyennes de X varient d’un groupe à l’autre, et donc que G a un effet sur X

Page 57: Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification

Données

groupe 1 2 3

n 13 25 13

Moyenne X

0.87 0.72 0.51

TOTAL 11.31 18 6.63

0.053errCM

Page 58: Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification

DonnéesOn peut déduire de ces données le facteur de correction FC=25.33 (somme totale au carré divisée par 51)Puis, du coup, le SC(groupe), variation due au nombre d’auditeurs supposés. En effet :

11.31² 18² 6.62²25.33

13 25 130.851

grSC

Page 59: Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification

DonnéesOn sait d’autre part que les dl et les SC se répartissent de la manière suivante :

Total : dl=50SC=2.544+.851

=3.395

Groupe : dl=2SC=.851

Erreur : dl=48SC=48x.053=2.544

Page 60: Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification

TableauOn en déduit facilement le tableau

source dl SC CM F

Groupe 2 .851 .4255 8.03

Erreur 48 2.544 .053

Total 50 3.395

Page 61: Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification

ConclusionLa table de F donne :

1% 2,48 5.06F

En réalité, 50… la table ne donne pas toutes les

valeurs possibles

Page 62: Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification

ConclusionLa valeur trouvée est supérieure à celle de la tableOn peut affirmer au risque de 1% que le nombre supposé d’auditeurs influence la vitesse d’appel au secours.On peut également préciser que le nombre d’auditeurs supposé explique 25% des variations de vitesse observées. En effet, SC(gr)/SC(tot)=.25

Page 63: Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification

Représentation

01

4

0

10

20

30

40

50

60

70

80

90