bootstrap et procédures de rééchantillonnage - deenov.com · travels, campaigns and adventures...
TRANSCRIPT
Alain Morineau 1
Bootstrap et procédures de rééchantillonnage
Alain MORINEAU
www.deenov.com
L'analyse des données au XXIème siècle
Alain Morineau 2
Notions utiles (en bref)
• Population, échantillon, variabilité
• Estimation, distribution d’échantillonnage
• Intervalle de confiance, test d’hypothèse
• Seuil alpha, p-value
• Intervalle de confiance pour la moyenne
• Intervalle de confiance pour une régression: Monte Carlo pour la pente
Alain Morineau 3
Echantillon
• Une population (ou population-mère)
• Un échantillon (au hasard)
– Une certaine variabilité apparaît de façon naturelle quand on effectue plusieurs observations (échantillon)
– L'échantillon sert à mieux connaître la population (par inférence)
– Pas de statistique (pas d'inférence) sans un échantillon
• Pas d'inférence sans risques d’erreurs…
– Car on passe d’observations particulières à une conjecture plus générale sur ce qu’on n’a pas observé
– Ex: il y a une majorité de brun dans l’échantillon, donc une majorité de brun dans la population
Alain Morineau 4
Principe de l’inférence statistique
1 Population totale des
observations possibles
2 Echantillon aléatoire de taille n
3 Calcul de la statistique dans
l’échantillon
4 Cette valeur est une estimation pour la population
Alain Morineau 5
• Estimation Estimer un paramètre permettant de préciser la loi de la variable étudiée La réponse est numérique Combien vaut la moyenne de la population (loi)? Quelle est la précision de l'estimation du paramètre?
• Test Valider ou non une hypothèse portant sur un paramètre, sur une loi de probabilité ou sur une liaison entre variables La réponse est en oui/non Oui, l‟hypothèse peut être rejetée Non, elle ne peut pas
Inférence statistique : deux approches
Alain Morineau 6
Théorème de la limite centrale
• La moyenne de n variables aléatoires ayant la même distribution (moyenne m et variance s2) tend, quand n augmente, vers une loi normale de moyenne m et de variance s2 /n
• Un des plus importants théorèmes de la statistique
– De Moivre-Laplace (XVIIIème) pour la distribution binomiale
– Lindeberg-Lévy (1922) sous cette forme
– Généralisations nombreuses depuis (très mathématique)
• Utilisation constante pour approcher les lois inconnues de paramètres utilisés par les statisticiens
Les méthodes de rééchantillonnage tentent d'approcher la distribution des statistiques sans recours au théorème de la limite centrale, mais en s'appuyant seulement sur les données
Alain Morineau 7
Estimation
• Estimation ponctuelle
• Estimation par intervalle de confiance
• Exemples
– Moyennes : test de Student
• Estimer la moyenne dans une population à partir de la moyenne dans un échantillon
– Proportions : test du Khi-2
• Estimer la proportion dans une population à partir de la proportion dans un échantillon
Alain Morineau 8
Moyenne et écart-type
• Exemple de valeur centrale : la moyenne
• Exemple de dispersion : l'écart-type empirique (en n)
2
1
n
i
i
x x
sn
Alain Morineau 9
Interprétation d'un intervalle de confiance
Je suis sûr à 95%
que m est compris
entre 40 et 60
Population
La moyenne m
est inconnue
Echantillon La moyenne
vaut 50
Si je faisais 1000
échantillons ou plus, dans 95% des cas
l‟intervalle
contiendrait m
(qui reste inconnu)
échantillon = 50 x
Alain Morineau 10
Notion d’intervalle de confiance
Graphique des 100 premiers intervalles à 95%
Après 10 000 tirages : couverture 93,6%
Alain Morineau 11
Tests: deux types d’hypothèses
• Les hypothèses à tester
– Hypothèse nulle, hypothèse alternative… H0 identité de 2 distributions H0 nullité d'un coefficient de corrélation, etc.
• Les hypothèses de commodité
– Pour rendre les calculs simples, possibles …
– Hypothèses techniques admises comme vraies
• loi normale
• variances égales
• observations indépendantes, etc.
Alain Morineau 12
p-value et seuil a test unilatéral)
a 0,0
Rejet de H0
Non rejet de H0
Distribution de la statistique sous H0
Alain Morineau 13
Que signifie “une différence” entre moyennes ?
variabilité moyenne
variabilité forte
variabilité faible Quel cas montre
la différence la plus grande ?
La différence numérique est la même dans
les 3 cas
Alain Morineau 14
Comment évaluer “une différence” ?
• Une différence statistique est fonction
– de la différence entre les moyennes
– évaluée en fonction de la variabilité
• Une petite différence entre moyennes avec une grande variabilité peut être dûe au hasard
• Si on accepte les hypothèses de commodité, la différence entre moyennes suit approximativement une loi de Student
• On s'appuie sur cette loi approchée pour
– construire un intervalle de confiance
– ou tester l'égalité des moyennes (nullité de la différence)
1 2
1 2( )
x xt
s x x
Alain Morineau 15
Seuil a
• On parle en terme de fréquence : la fréquence tend vers la probabilité…
• Pour un intervalle de confiance autour d'une estimation
– Seuil 95% :
– si on répétait un grand nombre de fois la collecte d'un échantillon, 95% des intervalles contiendraient la vraie valeur (inconnue) du paramètre à estimer
• Pour un test d'hypothèse
– Seuil 95% (ou seuil 0,05) :
– si on répétait la procédure de test un grand nombre de fois, on rejetterait à tort l'hypothèse nulle dans 5% des cas
• Mais … en général on a un seul échantillon
• Equivalence intervalle et test au même seuil alpha
– Rejeter l'hypothèse nulle du paramètre égal à 0 si et seulement si l'intervalle ne contient pas le 0
Alain Morineau 16
La convention de seuil a
• La valeur du seuil a (intervalle ou test) est pure convention
a = 0,05 ou a = 0,01 ou a = 0,001 …
• Mais le seuil doit être décidé avant la procédure statistique
• Si tous les statisticiens du monde adoptaient en permanence le
même seuil a ...
– … les décisions de rejet des hypothèses nulles seraient
erronées avec la probabilité a
Alain Morineau 17
Bootstrap
Alain Morineau 18
Quelques dates clés du rééchantillonnage
• 1949, 1956 M. H. Quenouille propose une technique pour estimer le biais (précurseur du « Jackknife »)
• 1958 John Tukey appelle “Jackknife” cette technique et l'utilise pour calculer un écart-type
• 1979 Bradley Efron rédige de nombreuses publications sur le "Boostrap"
Alain Morineau 19
Présentation du Bootstrap
• Méthode introduite par Bradley Efron (1979)
– pour estimer la variance des distributions d'échantillonnage
– pour construire des intervalles de confiance
– pour réaliser des tests d'hypothèses
• Particularités du Bootstrap
– application du calcul intensif aux méthodes traditionnelles de l'inférence statistique
– s'applique quelle que soit la complexité de l'estimateur
– sans nécessiter de considérations théoriques (probabilistes)
Laureate of the 2005 National Medal of Science
Alain Morineau 20
Bootstrap ? – drôle de nom
• « The use of the term bootstrap derives from the phrase to pull oneself up by one‟s bootstrap… » (Efron & Tibshirani, 1993, p. 5).
• « to pull oneself up by one‟s bootstrap »
– L'origine de cette expression semble être le livre „Singular Travels, Campaigns and Adventures of Baron Munchausen‟ de Rudolph Erich Raspe (1786).
– Le baron, tombé au fond d'un lac profond, réussit à s'extraire en tirant sur les "straps" (attaches?) de ses bottes
Alain Morineau 21
Le contexte de l'époque
• Développement des méthodes statistiques entre 1850 et 1950, époque où le calcul est lent et coûteux
• Elles s'appuyent sur des mesures statistiques dont les distributions sont facilement calculables par des solutions mathématiques (probabilistes)
• Rééchantillonnage: méthodes nouvelles, sans analyse mathématique, mettant à profit le calcul sur ordinateur
• Le Bootstrap, introduit par B. Efron en 1979
– "The most important new idea in statistics in the last 20 years, and probably the last 50. Eventually, it will take over the field, I think." Jérome H. Friedman, statisticien à Stanford
Alain Morineau 22
À méditer…
“In a world in which the price of calculation continues to decrease rapidly, but the price of theorem proving continues to hold steady or increase, elementary economics indicates that we ought to spend a larger and larger fraction of our time on calculation.”
J. W. Tukey
John W. Tukey 1915-2000
Alain Morineau 23
Le contexte Bootstrap
Etudier la variabilité empirique à partir
des données Faire des hypothèses incontrôlables sur
la variabilité Recourir à des formules et à des distributions
théoriques Utiliser les données et rien que les données
• Le Bootstrap est utilisé principalement
– pour analyser la variabilité de paramètres statistiques
– pour produire des intervalles de confiance de ces paramètres
• L’intervalle de confiance construit par Bootstrap est généralement de même amplitude que celui de la distribution réelle quand on la connaît
Alain Morineau 24
Position du problème
• On possède un échantillon issu d’une population caractérisée par un certain paramètre. On a choisi un estimateur de ce paramètre (c'est une certaine fonction des observations). Exemples:
– la corrélation empirique pour estimer une corrélation
– le quotient empirique pour estimer un quotient
– les paramètres de la droite des moindres carrés pour estimer une liaison linéaire, etc.
• Le Bootstrap est une méthode qui peut :
Essentiellement:
– fournir une estimation sans biais du paramètre
– évaluer la précision de cette estimation
– construire un intervalle de confiance autour de cette estimation
Mais aussi:
– tester une hypothèse "nulle" (calcul d'une p-value)
Alain Morineau 25
Principe du rééchantillonnage Bootstrap
• On crée des échantillons « artificiels » à partir de l’échantillon réel : appelés "répliques Bootstrap" ou "répliques"
• On calcule la statistique sur chacun des échantillons artificiels
• On construit la loi de distribution empirique de la statistique
– On l'appelle "distribution Bootstrap"
• On réalise toute inférence statistique à partir de cette loi:
– Biais, écart-type, quantiles, intervalles de confiance…
La variabilité réelle de la statistique dans la population est évaluée
par la variabilité observée sur l’ensemble des échantillons artificiels obtenus
par rééchantillonnage
Alain Morineau 26
Procédure Bootstrap
• Obtenir un échantillon des observations et choisir la statistique pertinente pour le problème
• Utiliser cet échantillon comme si c'était la population-mère: en extraire des échantillons de même taille par tirage avec remise (rééchantillonnage): réplique 1 réplique 2 … réplique k
• Pour chaque réplique, calculer la statistique
• Utiliser la "distribution Bootstrap" de la statistique pour estimer les propriétés de l'échantillon (donc de la population-mère)
• Remarque: il s'agit du Bootstrap dit "non paramétrique" (le plus pratiqué) pour le distinguer des variantes : "paramétrique" ou "semi-paramétrique".
Alain Morineau 27
{23, 28, 30, 50, 61}
Répliques Bootstrap et statistique estimée
• Echantillon observé (n = 5) On s'intéresse à sa moyenne
• Répliques Bootstrap
1 2 3 . . k
{28, 50, 30, 23, 23} {30, 50, 50, 61, 28} {61, 23, 30, 23, 28} . . {28, 50, 30, 61, 30}
x = 38,4
x = 30,8 x = 43,8 x = 33,0
x = 39,8
Alain Morineau 28
"Bootstraper"
• Tout échantillon est tiré d’une population ou "population-mère" (essentiellement mal connue) dont on ne voit qu’un extrait
• L’échantillon peut lui-même jouer le rôle de population: on en tire un nouvel échantillon; c’est le rééchantillonnage
• Dans le cas du bootstrap, il s’effectue avec remise, de manière à avoir toujours la même taille des données
• Selon la taille n de l'échantillon, on peut créer :
– 10 répliques différentes pour un jeu de 3 individus,
– 35 répliques différentes pour 4 individus …
– 16 796 répliques pour 10
– 352 716 répliques pour 11; etc.
• "Bootstraper" c'est tirer au hasard parmi toutes les répliques possibles (sans construire tous les possibles !)
Alain Morineau 29
Changement de point-de-vue
• De quoi parle souvent le statisticien?
– des distributions plutôt que des données
– mais ce sont les données que l'on connait
• Le Bootstrap cherche à connaître les distributions
– en n'utilisant que les données
– sans hypothèses de travail
– sans recours au théorème de la limite centrale
• Le Bootstrap
– n'est pas une méthode pour réduire l'incertitude
– c'est une méthode pour l'estimer
– Attention : le Booststrap n'est pas un remède pour pallier aux "mauvais" échantillons
Alain Morineau 30
Rôle de l'échantillon
• Les rôles Population/Echantillon sont échangés :
– population-mère <=> échantillon
– valeur vraie <=> estimation sur l'échantillon
– échantillon <=> réplique Bootstrap
– distribution de la statistique <=> distribution Bootstrap
• Le bootstrap fournit une distribution de valeurs et pas seulement une valeur de la statistique
– l’intérêt n’est pas d’avoir une nouvelle estimation (en effet elle n’est pas plus fiable)
– mais on peut calculer un écart-type et/ou un intervalle de confiance pour cette nouvelle estimation (moyenne des estimations sur les répliques)
– ou toute autre propriété utile de la distribution
Alain Morineau 31
• Une distribution d'échantillonnage est construite sur l'infinité des échantillons tirés de la population
• On dispose d'un seul échantillon
• Faute d'échantillons nombreux, on crée des rééchantillons (ou répliques) en tirant avec remise dans l'échantillon observé (mettre les n valeurs dans un chapeau; tirer n fois avec remise pour créer une réplique de même taille n)
• La distribution Bootstrap d'une statistique est la distribution de la statistique construite sur les répliques
• La distribution Bootstrap fournit des informations sur la distribution d'échantillonnage de la statistique
Rééchantillonnage et distribution Bootstrap
Alain Morineau 32
Les 3 contextes
• Contexte généralement utopique
– On peut tirer n échantillons indépendants dans la population quand elle est connue (simulations Monte Carlo)
– On construit la distribution d'échantillonnage réelle de la statistique
• Statistique mathématique
– On fait certaines hypothèses de commodité sur la population, convenables pour que la statistique choisie ait une distribution connue (dont les paramètres dépendent de l'échantillon)
– Cette distribution théorique connue est une approximation de la distribution d'échantillonnage réelle
• Rééchantillonnage
– On connaît un échantillon
– On rééchantillonne (répliques de l'échantillon)
– La distribution d'échantillonnage dans les répliques est une approximation de la distribution d'échantillonnage inconnue
Alain Morineau 33
Réflexions sur le Bootstrap
• On pourrait croire qu'on crée des données à partir de rien…
– Mais les répliques ne sont pas utilisées comme si c'étaient de nouvelles données
– La distribution Bootstrap de la statistique est utilisée seulement pour étudier comment la statistique varierait en fonction de l'échantillonnage
• Avec le Bootstrap, l'échantillon observé est en fait utilisée pour deux tâches
1. Estimer un paramètre
2. Estimer la variabilité de cette estimation (écart-type)
• Remarque: même double utilisation de l'échantillon dans le cas d'une distribution théorique d'échantillonnage Pour la moyenne, l'échantillon est utilisé
– (1) d’abord pour estimer la moyenne et
– (2) puis pour estimer son écart-type
Alain Morineau 34
A quoi sert la distribution Bootstrap?
• La distribution Bootstrap approche le centre, la forme et le biais de la distribution d'échantillonnage (inconnue) de la statistique
• Forme d'une distribution d'échantillonnage inconnue
– Par exemple, examiner si elle est proche de la normalité
• Valeur centrale et biais
– Le biais est l'écart entre la moyenne de la distribution d'échantillonnage et la vraie valeur du paramètre
– L'estimation Bootstrap du biais est l'écart entre la moyenne de la distribution Bootstrap et la valeur de la statistique sur l'échantillon observé
• Dispersion
– L'écart-type Bootstrap est une estimation de l'écart-type de la vraie distribution d'échantillonnage de la statistique
• Un cas particulier favorable
– Si la distribution Bootstrap est proche d'une loi normale et si le biais Bootstrap est faible, on peut estimer un intervalle de confiance de type "t de Student" pour la statistique
Alain Morineau 35
Le Bootstrap en formules
• Estimateur
• b-ème réplique Bootstrap, pour les k répliques (b = 1,k)
• Les propriétés statistiques de l'estimation seront calculées sur la distribution des répliques (dite distribution Bootstrap). En particulier:
– Estimation Bootstrap du paramètre
– Variance Bootstrap de la distribution du paramètre
1 2ˆ ( , ,..., )
nf x x x
( ) 1* 2* *ˆ ( , ,..., )
b nf x x x
2
( )1
ˆ ˆ( )ˆ( )
1
k
b Bootb
BootVar
k
( )1
ˆ
ˆ
k
bb
Bootk
Alain Morineau 36
Estimation Bootstrap sans biais
• Définition du biais d'un estimateur
• Estimation Bootstrap du biais
(définition par analogie de formule)
• Par définition du biais:
• Estimation Bootstrap sans biais
• Définition (par analogie)
• Calcul
• Résultat
ˆ ˆ ˆ( )Boot BootBiais
ˆ ˆ( ) ( )Biais E
ˆ ˆ( ) ( )E Biais
*ˆ ˆ ˆ ˆ( )Boot Boot
*ˆ ˆ ˆ( )Boot BootBiais
*ˆ ˆ ˆ2Boot Boot
Alain Morineau 37
Le Bootstrap en bref
• On a un échantillon de taille n
• On considère la statistique qui nous intéresse
– c'est l'estimation du paramètre inconnu qui nous intéresse
– quotient, corrélation, pente d'une droite, etc.
• On calcule la statistique sur l'échantillon initial
• On calcule cette statistique sur les k répliques (j = 1 à k)
• La distribution empirique obtenue est la distribution Bootstrap de la statistique
• La distribution Bootstrap est le support de toute inférence concernant la statistique
– L'estimation Bootstrap du paramètre est la moyenne des k valeurs calculées sur les répliques
– On calcule de même son écart-type, etc.
– On corrige le biais éventuel de l'estimation
Alain Morineau 38
Corriger ou non le biais ?
• Connaître le biais n’implique pas qu’on le corrige nécessairement
• Dilemme "biais/variance": la correction de biais accroît la variance de la statistique
• Il est donc important de connaître le biais pour avoir un élément de réflexion dans le dilemme biais/variance
• Le bootstrap peut effectivement conduire à une correction de biais
Alain Morineau 39
Les intervalles Bootstrap
• Intervalle "Percentile"
– Ré-échantillonnage Bootstrap de l’échantillon réel
– Calcul de l’estimation Bootstrap du paramètre étudié
– On utilise la distribution Bootstrap du paramètre
– Les 2,5ème et 97,5ème percentiles de la distribution des estimations fournissent les bornes de l'intervalle à 95%.
– Le nombre de répliques doit être grand
• Intervalle "Bootstrap t" (ou "Standard")
– Ré-échantillonnage Bootstrap de l’échantillon réel
– Calcul de l’estimation Bootstrap du paramètre étudié
– Calcul Bootstrap de l’écart type du paramètre étudié
– Lecture dans la table de la loi Normale (ex: 1,96) ou Student à k-1 ddl
• Exemple pour un intervalle au seuil 95% : Student (suivant ddl) ou Normal {- 1.96 ; + 1,96}
– Utiliser seulement si la distribution Bootstrap semble assez normale, et avec un biais faible
• Autres variétés d'intervalles dans la littérature …
Alain Morineau 40
Intervalle Bootstrap "Percentile"
• La procédure la plus utilisée
• On calcule le paramètre pour toutes les répliques Bootstrap
• On sélectionne le seuil a (ex. 0,05)
• On définit les bornes par les percentiles:
– Inf = a /2 ème percentile.
– Sup = (1 - a /2) ème percentile.
• Remarque. Il existe une fonction Excel appropriée: "= QUARTILE (zone des données; 0,025)"
Alain Morineau 41
Intervalle "Bootstrap t" ou standard
• Calcul direct sur la distribution des valeurs Bootstrap moyenne de la distribution écart-type de la distribution
• Formule « habituelle » pour l’intervalle de confiance, avec les quantiles d'une loi normale ou d’une loi de Student à k-1 ddl
• Avantages : simple et intuitif : construction classique d’un IC
• Ne pas utiliser si la distribution Bootstrap
– ne semble pas normal
– présente un biais important
• Inconvénients : Statistiques asymétriques ? Plages de valeurs licites (cf. r²)? Ne respecte pas les transformations (par exemple la transformée pour le R²)
1,1 1,12 2
ˆ ˆ[ , ] ;B Bn nInf Sup t s t sa am m
Alain Morineau 42
Intervalle "Bootstrap t" ou standard
• Variance de l'estimation
• Ecart-type
• Intervalle de confiance "t" (ou standard)
2
( )1
ˆ ˆ( )ˆ( )
1
k
j Bootj
BootVar
k
ˆ ˆ( ) ( )Boot Boots Var
1,1 1,12 2
ˆ ˆ ˆ ˆ[ , ] ( ); ( )Boot Boot Boot Bootn nInf Sup t s t sa a
Alain Morineau 43
Limitations du Bootstrap
• Mauvais résultats si la distribution empirique construite sur l'échantillon n'est pas une bonne représentation de la vraie distribution
– Exemple: le cas du maximum d'un échantillon; d'une manière générale, cas des distributions à extrémités très dispersées
– Cas d'un échantillon de taille très faible: sa fonction de répartition n'est pas toujours une image correcte de la fonction de répartition de la population dont il est issu
• Le Bootstrap s'accommode bien des violations de certaines hypothèses classiques de travail (comme la normalité)
– mais souffre d'autres limitations (comme la non-indépendance; ex. les séries chronologiques)
• Petit inconvénient du rééchantillonnage: deux statisticiens travaillant sur les mêmes données, avec les mêmes méthodes, vont obtenir des résultats non identiques (selon le tirage…)
Alain Morineau 44
Pour et contre
• "k fois sur le métier tu répliqueras ton ouvrage !"
• Attention :
– Ce n’est pas parce que le Bootstrap sert dans beaucoup de cas qu’il faut toujours faire du Bootstrap. "l‟abus de bootstrap peut être dangereux pour la statistique"
• Deux affirmations imprudentes:
– On ne fait aucune hypothèse sur les données
– On peut travailler sur des petits échantillons
• Cas où on n'a rien à gagner:
– estimation d'une moyenne et de son intervalle de confiance (sauf si non normalité forte et/ou taille faible de l'échantillon
• Cas où on a tout à perdre:
– estimations pour le maximum (ou toute distribution très asymétrique)
Alain Morineau 45
NB. Conditions de convergence du Bootstrap
• Observations "iid"
• Convergence uniforme certaine (avec la probabilité 1) de la fonction de répartition empirique vers la fonction de répartition vraie quand la taille tend vers l'infini (théorème de Glivenko-Cantelli)
• Si le paramètre à estimer est une certaine fonction de la répartition vraie, l'estimateur doit être la même fonction de la répartition empirique Cette condition est satisfaite pour les moyennes, les écarts-types, les variancees, la médianes et autres quantiles
• Condition de continuité de l'estimateur Ce n'est pas le cas pour les statistiques d'ordre extrême comme le Min ou le Max
Alain Morineau 46
Glivenko-Cantelli
• Fonction de répartition empirique (échantillon): croissante de 0 à 1, par n sauts de hauteur 1/n
• Elle approche la fonction de répartition théorique (inconnue) quand la taille de l’échantillon augmente
Alain Morineau 47
Le Bootstrap: quand ?
• En cas de complexité analytique
• En cas de validité douteuse des conditions d’application des méthodes classiques
• En complément de l’approche classique
• Nombreuses applications du Bootstrap dans la bibliographie
• Nombreuses variantes du Bootstrap (tests et intervalles)
Alain Morineau 48
Ce qu’on a déjà dit
• Notre univers n'étant pas toujours "normal" (Laplace-Gauss), certaines méthodes classiques ne peuvent pas être utilisées
• La puissance de calcul des ordinateurs a rendu les techniques de ré-échantillonnage accessibles
• La philosophie de ces méthodes est l’extraction du maximum d’information à partir des données
• Les données sont utilisées pour révéler la variabilité dans la population en s'appuyant sur la variabilité intrinsèque de l’échantillon (obtenue à partir des répliques)
• Ces méthodes ont séduit de nombreux statisticiens et praticiens
– par leur potentiel et leur efficacité
– par la simplicité de leur mise en œuvre
• NB. Le Bootstrap ne fait pas de miracle avec les "mauvais" échantillons (garbage in, garbage out !)
Alain Morineau 49
Exemples et exercices du Bootstrap
Corrélation Droite de régression Quotient, rapport ou taux Différence entre 2 médianes
Alain Morineau 50
Coefficient de Corrélation (linéaire)
r = 0.85 r = 0.4 r = 1.0
2 2
( )( )
( ) ( )
i i
i i
x x y yr
x x y y
Alain Morineau 51
Si la population était connue …
x
y
Population connue
r = 0.801
Population connue Corrélation connue
r = 0,801
Alain Morineau 52
Echantillon observé
X
Y
Echantillonnage
dans PEchantillon
de taille n = 15
Alain Morineau 53
Corrélation empirique
X
Y
Echantillon E
r = 0.840Corrélation
empirique r = 0,840
Alain Morineau 54
Appréciation de l'écart-type Bootstrap
• Ecart-type "vrai" du coefficient de corrélation empirique
– Méthode de Monte Carlo dans la population finie connue:
• Construction de 5000 échantillons de taille n=15 extraits de la population connue
• Estimation de l'écart-type vrai à partir de la distribution des 2500 valeurs : 0,1133
• Estimation "classique" par approximation normale: 0,0837
• Estimation Bootstrap avec k = 500 répliques : 0,1108
Quelle est la meilleure des deux estimations ? L'estimation Bootstrap est plus proche de la valeur vraie (connue ici)
Alain Morineau 55
En bref, Bootstrap pour corrélation
• Problème de la corrélation :
sa distribution d'échantillonnage dépend de r inconnu
– L'écart-type d'une moyenne ne dépend pas de m
– L'écart-type d'une corrélation dépend de r
• Problème supplémentaire : la distribution d'échantillonnage n'est absolument pas normale
– asymétrique, bornée par 1 et -1,…
• Les transformations (de Fisher et les autres) constituent un certain palliatif mais restent des approximations souvent grossières
Alain Morineau 56
Formules Bootstrap pour la corrélation
Les formules sont simples mais l'écriture est fastidieuse
• Estimation Bootstrap
• Ecart-type Bootstrap
• Biais
( )
1
2
( )
1
1ˆ ˆ
ˆ ˆ ˆˆ / 1
k
Boot b
b
k
Boot b Boot
b
k
k
r r
s r r r
ˆ ˆ ˆBoot BootBiais r r r
Alain Morineau 57
0
1
2
3
4
5
6
7
8
9
10
0.4 0.5 0.6 0.7 0.8
Corrélation des températures en A et en B
Corrélation
Fré
quence r
ela
tive (
%) Corrélation
observée 0.717
Distributions Bootstrap (1000 répliques)
Alain Morineau 58
0
1
2
3
4
5
6
7
8
9
10
0.4 0.5 0.6 0.7 0.8
Corrélation 0.717 Biais 0.001 Ecart-type 0.051 Intervalles percentiles: • direct • correction du biais
Corrélations Bootstrap
Fré
quence r
ela
tive
Intervalles percentiles (5000 répliques)
Corrélation des températures en A et en B
Alain Morineau 59
Régression linéaire
• Modèle de la régression linéaire classique:
– Données : (x,y)i=1, n
– Modèle : y = a + bx + ei
Les ei sont indépendants
Les ei suivent des lois normales N(0,s²)
s² : variance inconnue (pour toutes les observations)
Les xi sont fixés et indépendants des ei
– On s'intéresse souvent à la pente : b • Estimation classique
– Critère des Moindres carrés : choisir la droite qui minimise la somme des carrés des écarts verticaux
• Questions – Linéarité ? – Effets des écarts aux hypothèses de commodité ? (variances
égales, indépendances, normalité, points aberrants, …)
Alain Morineau 60
Bootstrap et régression : 2 méthodes
• Le Bootstrap peut être défini de 2 façons, selon que les variables "x" sont considérées aléatoires ou fixes
1. Bootstrap des couples On rééchantillonne les observations par couple ("Bootstraping pairs" de Efron, ou "Bootstrap à x aléatoire") ; C'est la méthode usuelle
2. Bootstrap des résidus On fait un ajustement initial et on calcule les résidus; on recalcule les yi pour chaque xi en ajoutant un résidu qui est bootstrapé dans l'ensemble des résidus ("Bootstrap à x fixés")
• Les deux méthodes sont utilisables (quelle que soit la distribution des résidus) mais ne sont pas équivalentes
e (boot.)
Alain Morineau 61
Deux méthodes de Bootstrap : détails
• Bootstrap à « x aléatoires » : la procédure usuelle
– Les x sont considérés comme aléatoires
– On réplique les couples (x,y) pour avoir une réplique Bootstrap des données
– On recalcule la régression sur chaque réplique Bootstrap des données
• Bootstrap à « x fixes » (procédure moins fréquente)
– Les x sont considérés comme fixes
– Les y ajustés (valeurs sur la droite) sont considérés comme les espérances des valeurs y Bootstrap
– On réaffecte les résidus de l’ajustement initial aux y ajustés du modèle initial; l’ensemble des nouveau couples (x,y) est la réplique Bootstrap des données
– On régresse les x (toujours les mêmes) sur les nouveaux y pour obtenir les répliques Bootstrap des coefficients d’intérêt
Alain Morineau 62
Régression : quel est le "bon" Bootstrap ?
• Bootstrap des couples (procédure usuelle)
• Bootstrap des résidus (les x fixes)
• Le Bootstrap des couples, très différent du Bootstrap des résidus, suggère l'existence d'un problème… D'une façon générale, les distributions Bootstrap sont toujours "informatives"
Données avec un point "bizarre"
Alain Morineau 63
Bootstrap à x fixés (cas exceptionnel)
• Cette procédure implique que l’ajustement du modèle linéaire aux données est correct (on Bootstrap autour de la 1ère droite)
• Il faut supposer que les aléas autour des y sont correctement simulés par le rééchantillonnage dans une distribution commune
• Donc problème si le modèle n’est pas correct (non linéarité, hétéroscédasticité, points aberrant,…) : ces défauts ne sont pas répliqués dans les répliques Bootstrap
• Le rééchantillonnage des résidus est plus sensible aux hypothèses sur le modèle :
– il faut supposer que les erreurs sont indépendantes et identiquement distribuées
– et que la « forme » linéaire du modèle d’ajustement est pertinente
Alain Morineau 64
Bootstrap à x aléatoires (Bootstrap des couples)
• Tirage aléatoire des couples avec remise
Estimation des coefficients sur couples répliqués
• Distribution Bootstrap des coefficients
• Procédure valable même si les hypothèses de travail du modèle linéaire ne sont pas bien vérifiées
– Le processus ayant généré les données n’est pas nécessairement linéaire (on observe cependant une liaison de dépendance linéaire)
Alain Morineau 65
Régression : problèmes possibles…
• Données manquantes
– Il faut supposer que les données manquantes ne sont pas un problème
– Il n'est pas recommandé de faire du Bootstrap après des "imputations multiples"
• Données dépendantes
– Le Bootstrap suppose que les distributions des yi sont mutuellement indépendantes (exclut les séries temporelles)
• Observations éloignées, influentes
– S'il y a des "outliers", ils ont une influence perturbatrice sur les ajustements successifs (on peut les éliminer car les répliques peuvent être très sensibles à leur présence)
Alain Morineau 66
Bootstrap des coefficients a et b de la régression
Alain Morineau 67
Bootstrap du R2 et écart-type résiduel
Alain Morineau 68
Bootstrap pour une analyse de variance
• Hypothèse de travail: l'échantillon reflète la population
• Hypothèse nulle: les traitements n'affectent pas les scores
• Statistique utilisée
– fonction de la différence entre les groupes
– SCE des moyennes à la moyenne générale
– F de Fisher (équivalent SCE)
• Procédure Bootstrap
– Mettre les 45 valeurs dans un chapeau
– Pour une réplique, tirer 45 fois avec remise (sous H0, chaque réplique est tirée de la même pop.mère)
– Affecter les 14 premières valeurs à A, les 10 suivantes à B, …
– Calculer F et comparer à la valeur initiale pour chaque réplique
– Calculer la p-value sur la distribution Bootstrap
Alain Morineau 69
Exemples de Bootstrap
• 5 000 répliques
• p-value = 0,040
• 50 000 répliques
• p-value = 0,041
– La distribution approche la loi de Fisher (pas toujours…)
Alain Morineau 70
Autre procédure Bootstrap
• Sous l'hypothèse nulle d'une même population pour les 4 traitements:
– la moyenne dans chaque groupe est égale à la moyenne générale
– donc dans chaque groupe, les écarts à la moyenne du groupe suivent tous la même loi, quelque soit le groupe
• Traduction Bootstrap
– On calcule les 45 écarts entre la valeur et la moyenne de son groupe
– On fait le Bootstrap sur ces écarts (et non sur les observations)
Alain Morineau 71
Bootstrap sur les écarts
• 5 000 répliques
• p-value = 0,039
• 50 000 répliques
• p-value = 0,040
– Ici: peu de différence avec le Bootstrap sur les valeurs
Alain Morineau 72
Retour sur les hypothèses nulles du Bootstrap
• Ici on a les mêmes résultats pour les 2 procédures • Mais si un des groupes a une moyenne très différente des
autres, la distribution Bootstrap – sur les valeurs: sera certainement bimodale – sur les écarts: sera certainement unimodale
• La non-ressemblance de la distribution Bootstrap avec une distribution F apporte de l'information: – les hypothèses "classiques" (qui assurent une distribution de
Fisher) ne sont certainement pas vérifiées!
• Les 2 hypothèses nulles d'absence d'effet des médicaments ne sont pas équivalentes – Bootstrap sur les valeurs: on s'intéresse d'abord à des
différences de moyennes – Bootstrap sur les écarts: on ignore les différences éventuelles
de moyennes mais on veut tester l'effet des médicaments par une modification des dispersions
• On voit que le Bootstrap peut révéler une différence de moyennes, mais aussi une différence de dispersion ou même de forme…
Alain Morineau 73
Conclusion
• Les problèmes de coûts de calcul ont conduit la statistique dans ses débuts vers les méthodes avec peu de calcul et plus de mathématique
• Cette statistique classique doit s'appuyer sur des hypothèses souvent peu réalistes (liaisons linéaires, observations indépendantes "iid", distributions normales …)
• Les progrès extraordinaires dans le calcul rendent possibles des solutions alternatives
• L'analyse mathématique compliquée avec des hypothèses pourtant simplificatrices est remplaçable par des méthodes simples mais de calculs intensifs
• Dans ce contexte les techniques de rééchantillonnage rencontrent un succès considérable
Alain Morineau 74
Les méthodes statistiques de calcul intensif
• Les méthodes statistiques de calcul intensif nécessitent beaucoup de calculs (presques identiques) sur les données
• Elles sont automatiques et souvent faciles à mettre en oeuvre
• Elles nécessitent très peu d'hypothèses sur la forme des modèles et sur les composantes aléatoires
• La puissance actuelle des ordinateurs les rendent possibles et faciles à utiliser
• Attention: les méthodes de calcul intensif ne sont pas meilleures que les méthodes classiques quand les hypothèses classiques sont satisfaites
• Mais elles sont plus puissantes quand ces hypothèses ne sont pas satisfaites
• En bref, ces méthodes peuvent résoudre de nombreux problèmes qu'on ne savait pas traiter auparavant
Alain Morineau 75
Des dangers à prévenir
• Attention: le volume des calculs ne garantit pas que les données ont été bien utilisées
• La mise à disposition généralisée des outils de calculs et des logiciels augmente considérablement les risques d'utilisation abusive
• Il est important de savoir analyser dans quelles circonstances les méthodes de calcul intensif ont un apport décisif sur les méthodes classiques
• Important : les notions qu'il faut connaitre
– Estimation
– Variance et biais d'un estimateur
– Intervalle de confiance
– Tests usuels (t de Student)
– Choix et validation de modèles
Alain Morineau 76
Bibliographie succincte
• Chernick, M. R. (1999) Bootstrap Methods: A Practitioner‟s Guide. New York: John Wiley & Sons.
• Davison, A. C. and D. V. Hinkley (1997). Bootstrap Methods and their Application. Cambridge Univ. Press.
• Diaconis, P. and B. Efron (1983). Computer intensive methods in statistics. Scientific American, 248:5, 116-30.
• Efron, B. (1979). Computers and the theory of statistics: thinking the unthinkable. Siam Review, 21, 460-80.
• Efron, B. and Gong, G. 1983. A leisurely look at the Bootstrap, the Jackknife, and cross-validation. The American Statistician 37(1) : p.36-48.
• Efron, B. and Tibshirani, R. J. 1986. Bootstrap methods for standard errors, confidence intervals, and other measures of statistical accuracy. Statistical Science 1(1) : p.54-77.
• Efron, B. and Tibshirani, R. J. 1993. An introduction to the Bootstrap. Chapman & Hall, New York.
• Hjorth, 1994. Computer intensive method, statistical methods. Chapman & Hall, New York.
• Shao, J. and Tu, D. 1995. The Jackknife and Bootstrap. Springer • Young, 1994. Bootstrap : More than a stab in the dark? (with
discussion) Statistical Science 9:382-415.
Alain Morineau 77
Une référence incontournable
Alain Morineau 78
Notre autre référence
Pour son chapitre sur toutes les procédures de rééchantillonnage Pour l'utilisation d'Excel Voir aussi l'onglet "Excel'Ense" sur le site de la revue MODULAD:
www.modulad.fr
Alain Morineau 79
Compléments possibles…
• Bootstrap et analyses factorielles
• Bootstrap paramétrique (et semi-paramétrique)
• Autres intervalles de confiance Bootstrap
• Bootstrap et tests d'hypothèses
• Bootstrap et validation de modèles (Bootstrap "0.632")
• etc.
Alain Morineau 80
Le rééchantillonnage : c’est maintenant !
Questions ?
Commentaires ?