![Page 1: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/1.jpg)
Probabilites et statistiques pour l’ingenieur
M1 InformatiqueEtienne Birmele
![Page 2: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/2.jpg)
I. Statistiques descriptives
![Page 3: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/3.jpg)
Types de variables
Une variable peut etre de trois types :
Nominale : variable categorielle sans hierarchie entre les differentes classes(sexe, espece, ...)
Ordinale : variable categorielle pour laquelle l’ordre des classes estsignificatif (indice de satisfaction ...). Elle peut etre convertieen variable quantitative.
Quantitative : variable numerique.
![Page 4: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/4.jpg)
Echantillons
Definition
Un echantillon est un ensemble de mesures d’une meme variable sur desindividus differents.
Remarque : Les individus peuvent etre des personnes, des cellules, des actionsen bourse, etc .
Appariement
Des echantillons mesures sur les memes individus sont appeles echantillonsapparies.
Exemple : Des performances de sportifs avant et apres un entraınementspecifique.
![Page 5: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/5.jpg)
Exemple de donnees
Jeu de donnees de 153 mesures de qualite de l’air de mai a octobre, mesurantsix variables :
I taux d’ozone
I rayonnement solaire
I vitesse du vent
I temperature
I mois
I jour
Disponible sous R par la commande data(airquality).
![Page 6: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/6.jpg)
I.1 Description des variables categorielles
![Page 7: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/7.jpg)
Description des variables categorielles
I La frequence d’une categorie est la proportion de l’echantillon representepar la categorie.
I Le mode d’un echantillon est la categorie de plus grande frequence.
I La representation des frequences se fait a l’aide d’histogrammes ou dediagrammes circulaires.
5 6 7 8 9
010
2030
![Page 8: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/8.jpg)
I.2 Description des variables numeriques
![Page 9: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/9.jpg)
Taux d’ozone
> airquality$Ozone
[1] 41 36 12 18 NA 28 23 19 8 NA 7 16 11 14 18 14 34 6
[19] 30 11 1 11 4 32 NA NA NA 23 45 115 37 NA NA NA NA NA
[37] NA 29 NA 71 39 NA NA 23 NA NA 21 37 20 12 13 NA NA NA
[55] NA NA NA NA NA NA NA 135 49 32 NA 64 40 77 97 97 85 NA
[73] 10 27 NA 7 48 35 61 79 63 16 NA NA 80 108 20 52 82 50
[91] 64 59 39 9 16 78 35 66 122 89 110 NA NA 44 28 65 NA 22
[109] 59 23 31 44 21 9 NA 45 168 73 NA 76 118 84 85 96 78 73
[127] 91 47 32 20 23 21 24 44 21 28 9 13 46 18 13 24 16 13
[145] 23 36 7 14 30 NA 14 18 20
Besoin de resumer l’information par au moins de deux valeurs, appeleesstatistiques : une pour definir le centre de l’echantillon, l’autre pour sadispersion.
![Page 10: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/10.jpg)
Statistique de centre
Moyenne
La moyenne de l’echantillon x = (x1, . . . , xn) est definie
x =
∑ni=1 xi
n
[1] 42.12931
Mediane
Une mediane de l’echantillon est un reel m tel que la moitie des valeurs del’echantillon sont superieures ou egales a m et l’autre moitie sont inferieures.
[1] 31.5
Remarque : La mediane n’est pas unique si l’echantillon est de taille paire. Celaa peu d’impact en pratique s’il est assez grand.
![Page 11: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/11.jpg)
Moyenne vs Mediane
I la formule close de la moyenne est plus simple pour faire des statistiques(estimation, vitesse de convergence ...)
I la mediane est beaucoup moins sensible que la moyenne aux erreurs demesure.
I comparer la mediane et la moyenne d’un echantillon permet d’avoir uneidee sur l’assymetrie de l’echantillon.
![Page 12: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/12.jpg)
Variance et ecart-type
Definition : variance
La variance s2 de l’echantillon est definie par
var(x) = s2 =1
n − 1
n∑i=1
(xi − x)2
Definition : ecart-type
L’indicateur de dispersion associe a la moyenne est l’ecart-type s del’echantillon, correspondant a la racine carree de la variance.
σ(x) = s =√
var(x)
![Page 13: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/13.jpg)
Variance et ecart-type
Interpretation
Plus l’ecart-type et la variance sont grands, plus l’echantillon est disperse.
> var(airquality$Ozone[airquality$Month==5],na.rm=TRUE)
[1] 493.9262
> sd(airquality$Ozone[airquality$Month==5],na.rm=TRUE)
[1] 22.22445
> sd(airquality$Ozone[airquality$Month==8],na.rm=TRUE)
[1] 39.68121
Remarques
I l’ecart-type est homogene avec les donnees en terme d’unite de mesure,contrairement a la variance
I remplacer xi par yi = xi−xs
conserve le les positions relatives des donneesen ramenant la moyenne a 0 et l’ecart-type a 1. y un l’echantillonnormalise.
![Page 14: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/14.jpg)
Quantiles
Definition : quantile
Pour tout 0 ≤ p ≤ 1, un quantile d’ordre p est un nombre q tel que la fractionde l’echantillon inferieure ou egale a q est p.
I Une mediane est par exemple un quantile d’ordre 0.5.
I Le quantile q1 d’ordre 0.25 et le quantile q3 d’ordre 0.75 sont appelespremier et troisieme quartile.
I Les distances m − q1 et q3 −m sont des indicateurs de la dispersion del’echantillon.
![Page 15: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/15.jpg)
Quantiles
> quantile(airquality$Ozone,probs=c(0,.25,.5,.75,1),na.rm=TRUE)
0% 25% 50% 75% 100%
1.00 18.00 31.50 63.25 168.00
I des disparites entre q3 −m et m − q1 permettent de detecter uneassymetrie dans l’echantillon, ce qui ne peut pas etre mis en evidence parl’ecart-type.
I la remarque sur la non-unicite de la mediane reste valable pour lesquantiles.
I les quartiles, tout comme la mediane, sont moins sensibles aux erreurs demesure.
![Page 16: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/16.jpg)
Points extremes
Definition : point extreme
On appelle point extreme toute valeur inferieure a q1 − 1, 5(q3 − q1) ousuperieure a q3 + 1, 5(q3 − q1).
I maniere de caracteriser les mesures qui s’ecartent clairement des autres
I un point extreme peut correspondre a une erreur de mesure
I un point extreme peut etre primordial dans l’interpretation des donnees
![Page 17: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/17.jpg)
La boıte a moustache (boxplot)
La boıte a moustache est un graphique resumant l’echantillon :
I boıte dont la hauteur est definie par q1 et q3.
I trait epais a hauteur de m
I moustache au-dessous de la boıte : de q1 au minimum de l’echantillon s’iln’y a pas de point extreme bas. Sinon, la moustache s’arrete enq1 − 1, 5× EIQ .
I moustache au-dessus : de q3 soit au maximum de l’echantillon, soit aq3 + 1, 5× EIQ
I eventuels points extremes
![Page 18: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/18.jpg)
La boıte a moustache (boxplot)
Outil visuel pour resumer un echantillon et les comparer (grossierement, cftests).
5 6 7 8 9
050
100
150
![Page 19: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/19.jpg)
Correlation
Definition
(x1, . . . , xn) et (y1, . . . , yn) deux echantillons correspondant a deux grandeursmesurees sur les memes individus. Leur covariance est
cov(x,y) =1
n − 1
n∑i=1
(xi − x)(yi − y)
La version normalisee, appelee correlation, est
corr(x,y) =cov(x,y)
sxsy
> cor(airquality$Ozone,airquality$Temp,use='pairwise.complete.obs')
[1] 0.6983603
> cor(airquality$Ozone,airquality$Wind,use='pairwise.complete.obs')
[1] -0.6015465
> cor(airquality$Ozone,airquality$Temp)
[1] NA
![Page 20: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/20.jpg)
Correlation
I La correlation est toujours comprise entre −1 et 1.
I Une correlation proche de 1 indique que X et Y ont tendance a avoir desvariations communes (correlation positive).
I Une correlation proche de −1 indique que X et Y ont tendance a avoirdes variations opposees (correlation negative).
I Si les deux variables mesurees sont independantes, la correlation desechantillons sera proche de 0. L’inverse n’est cependant pas forcement vrai.
![Page 21: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/21.jpg)
II. Probabilites
![Page 22: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/22.jpg)
II.1 Evenements
![Page 23: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/23.jpg)
Evenement
Definition :evenement
Une experience aleatoire E a pour issues possibles les valeurs ω d’un ensembleΩ.Ω est l’univers.On appelle evenement tout sous-ensemble de Ω.
Exemple : Pour l’experience consistant a lire aleatoirment deux nucleotidessuccessifs d’une sequence d’ADN
Ω = AA,AC ,AG,AT ,CA,CC ,CG,CT ,GA,GC ,GG,GT ,TA,TC ,TG,TT
![Page 24: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/24.jpg)
Notations
∅ ensemble vide ne contient aucun elementA ∩ B intersection de A et B A et B sont realisesA ∪ B Union de A et B A ou B est realiseAc complementaires de A dans Ω A n’est pas realiseA ⊂ B A inclus dans B la realisation de A implique la realisation de B
A\B A moins B A est realise et B n’est pas realise
Deux evenements sont disjoints si ils ne peuvent se produire en meme temps :A ∩ B = ∅.
![Page 25: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/25.jpg)
Probabilite
Definition : Probabilite
Une probabilite est une fonction P assignant a tout evenement A un reel P(A)entre 0 et 1 et telle que
1. P(∅) = 0 et P(Ω) = 1 ;
2. Si A et B sont deux evenements disjoints, alors P(A ∪B) = P(A) + P(B).
I Des probabilites differentes peuvent etre definies sur un meme univers.
I On parle en general de loi de probabilite pour designer une fonction P.
![Page 26: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/26.jpg)
IMPORTANT ! ! !
En general, la formule
probabilite =#cas favorables
#cas possibles
est FAUSSE
Elle n’est vraie que dans le cas d’experiences equiprobables, c’est-a-dire avecdes univers finis et dont tous les elements individuels on la meme probabilite.
Pour s’en souvenir
Une personne prise au hasard n’a pas une chance sur deux d’etre asthmatique.
![Page 27: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/27.jpg)
Proprietes
1. P(A ∪ B) = P(A) + P(B)− P(A ∩ B) ;
2. P(Ac) = 1− P(A) ;
3. Si A ⊂ B , alors P(A) ≤ P(B).
![Page 28: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/28.jpg)
Discret vs Continu
Les univers peuvent etre de trois types :
I Un nombre fini d’issues possibles
I Un ensemble infini mais denombrable d’issues possibles (on peut lesenumerer comme dans le cas des entiers)
On parle d’univers discret et de loi de probabilite discrete.
I Un ensemble infini et indenombrable d’issues possibles (un intervalle parexemple)
On parle alors d’univers continu et de loi de probabilite continue.
![Page 29: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/29.jpg)
Loi discrete
I Une loi de probabilite discrete est definie de facon unique par la donneedes P(ω), ω ∈ Ω
I Pour tout evenement A, P(A) =∑ω∈A P(ω)
Exemple :Read AA AC AG AT CA CC CG CTPr. .03 .05 .05 .07 .05 .08 .12 .05
Read GA GC GG GT TA TC TG TTPr. .05 .12 .08 .05 .07 .05 .05 .03
La probabilite d’avoir A en premiere lettre est
P(A.) = P(AA) + P(AC ) + P(AG) + P(AT ) = .2
![Page 30: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/30.jpg)
Loi continueI La loi est definie par une fonction f positive telle que
∫Ωf (x)dx = 1.
I Pour tout evenement A, P(A) =∫Af (x)dx
I Pour tout ω ∈ Ω, P(ω) = 0
Exemple : Ω = [−1, 1], f (x) = 1− |x |.
P([0.5 : 1]) =
∫ 1
0.5
(1− x)dx =1
8
−2 −1 0 1 2
0.0
0.6
![Page 31: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/31.jpg)
Probabilites conditionnelles
Definition : probabilite conditionnelle
Soit A et B deux evenements de B(Ω), avec P(B) 6= 0. On appelle probabiliteconditionnelle de A sachant B le reel
P(A|B) =P(A ∩ B)
P(B).
![Page 32: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/32.jpg)
Probabilites conditionnelles
Definition : probabilite conditionnelle
Soit A et B deux evenements de B(Ω), avec P(B) 6= 0. On appelle probabiliteconditionnelle de A sachant B le reel
P(A|B) =P(A ∩ B)
P(B).
Proposition
Soit B un evenement tel que P(B) > 0. L’application A 7→ P(A|B) est uneprobabilite sur (Ω,B(Ω)), notee P(·|B) ou PB (·), et appelee loi de probabiliteconditionnelle sachant B .
On a donc les propriete classiques d’une probabilite. En particulier
P(A|B) = 1− P(Ac |B).
Par contreP(A|B) 6= 1− P(A|Bc).
![Page 33: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/33.jpg)
Conditionnement - Formule de Bayes
On deduit de la definition des probabilites conditionnelles que
P(A ∩ B) = P(A|B)P(B) (Conditionnement)
puis que
P(A|B) =P(B |A)P(A)
P(B)(Formule de Bayes)
Exemple : Un laboratoire mettant en place un test sanguin pour une maladiepeut evaluer les probabilites P(positif |sain) et P(positif ). Si on connaıtl’incidence P(malade) de la maladie dans la population, on peut en deduire laprobabilite qu’un individu dont le test est positif est en fait sain :
P(sain|positif ) =P(positif |sain)(1− P(malade))
P(positif )
![Page 34: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/34.jpg)
Formule des probabilites totales
Proposition
Soit (Bk )1≤k≤N une partition de Ω telle que P(Bk ) > 0 pour tout k . Alors,pour tout evenement A :
P(A) =∑
1≤k≤N
P(A ∩ Bk ) =∑
1≤k≤N
P(A|Bk )P(Bk ).
En particulier, P(A) = P(A|B)P(B) + P(A|Bc)P(Bc).
Exemple : Dans l’exemple precedent, il est plus simple d’evaluer P(positif |sain)et P(positif |malade). On en deduit
P(sain|positif ) =P(positif |sain)(1− P(malade))
P(positif |sain)(1− P(malade)) + P(positif |malade)P(malade)
![Page 35: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/35.jpg)
Independance d’evenements
Definition : independance
A et B sont deux evenements independants si P(A ∩ B) = P(A)P(B).
Interpretation
Si P(B > 0), alors A et B sont independants ssi P(A|B) = P(A).L’independance de A et B signifie donc qu’avoir des indications sur larealisation ou non de B ne change pas la probabilite qu’on a de voir A serealiser.
![Page 36: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/36.jpg)
Independance d’evenements
Definition : independance
A et B sont deux evenements independants si P(A ∩ B) = P(A)P(B).
Interpretation
Si P(B > 0), alors A et B sont independants ssi P(A|B) = P(A).L’independance de A et B signifie donc qu’avoir des indications sur larealisation ou non de B ne change pas la probabilite qu’on a de voir A serealiser.
Plus generalement, une famille d’evenements (Ai)i∈I est dite familled’evenements (mutuellements) independants si pour toute partie J ⊂ I on a
P(∩i∈JAi) = Πi∈JP(Ai).
Des evenements mutuellement independants sont deux a deux independantsmais l’inverse n’est pas toujours vrai.
![Page 37: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/37.jpg)
II.2 Variables aleatoires
![Page 38: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/38.jpg)
Variable aleatoire
Definition : variable aleatoire
Considerons un processus aleatoire d’univers Ω. On appelle variable aleatoireune fonction de l’ espace Ω dans R.En considerant X (Ω) comme un nouvel univers et X (ω) comme la realisationcorrespondant a ω, on obtient une loi de probabilite sur les sous-ensembles deX (Ω). Elle est appelee loi de probabilite de la variable aleatoire.
Exemple : Considerons une grille de loto remplie et le processus aleatoirecorrespondant au tirage. Ω est l’ensemble des 6-uplets d’entiers entre 0 et 49.Si X est le nombre de bons numeros, X (Ω) = 0, 1, 2, 3, 4, 5, 6 et la loi deprobabilite de X correspond au probabilites d’avoir aucun, un, ... bons numeros.On pourrait raisonner de meme en prenant pour X le gain realise.
![Page 39: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/39.jpg)
Fonction de repartition
Definition : fonction de repartition
On appelle fonction de repartition de la variable aleatoire X la fonction FX
definie pour t dans R, par FX (t) = P(X ≤ t). C’est une fonction croissante,tendant vers 0 en −∞ et vers 1 en +∞.
La fonction de repartition caracterise la loi d’une variable aleatoire. Autrementdit deux variables aleatoires ayant meme fonction de repartition, ont meme loi.
![Page 40: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/40.jpg)
V.a discrete
Loi
La loi de la variable aleatoire X est donnee par les probabilitesP(X = x), pour tout x dans X (Ω), telles que
∑x∈X (Ω) P(X = x) = 1.
Fonction de repartition
La fonction de repartition est une fonction en escalier. Si X prend la valeur xavec une probabilite non nulle, la courbe de FX (t) presente un saut de hauteurP(X = x) en t = x .
02
4
−2 2 6 100
48
![Page 41: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/41.jpg)
V.a continue
Loi
La loi de X est definie par une fonction fX nommee densite, qui est positive ettelle que
∫IfX (t)dt = 1.
Fonction de repartition
FX (t) =∫ x
−∞ f (t)dt donc F ′X (t) = fx (t).
−3 −1 1 3
0.0
0.2
0.4
−3 −1 1 30.
00.
40.
8
![Page 42: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/42.jpg)
Esperance
Esperance
L’esperance caracterise le comportement moyen de la variable aleatoire.Elle est definie pour une variable discrete par
E(X ) =∑
x∈X (Ω)
xP(X = x)
et pour une variable continue par
E(X ) =
∫ +∞
−∞tfX (t)dt .
![Page 43: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/43.jpg)
Variance
Variance
La variance caracterise la dispersion de la variable autour de l’esperance. Elleest definie par
Var(X ) = E[(X − E(X ))2]
ou alternativementVar(X ) = E(X 2)− E(X )2.
Plus generalement, le moment d’ordre p de X est defini, s’il existe, parM p = E(X p).
![Page 44: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/44.jpg)
Proprietes de l’esperance et de la variance
1. E(aX + bY ) = aE(X ) + bE(Y ). L’esperance est lineaire.
2. Var(X ) ≥ 0.
3. Var(aX + b) = Var(aX ) = a2Var(X ).
4. [E(X )]2 ≤ E(X 2). Inegalite de Cauchy-Schwarz.
5. Z = (X − E(X ))/√
Var(X ) verifie E(Z ) = 0 et Var(Z ) = 1. On dit queZ est une variable centree et reduite.
![Page 45: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/45.jpg)
Couples de variables
(X ,Y ) est un couple de variable aleatoire si X et Y sont des variablesaleatoires. L’etude du couple permet d’etudier les liens entre ces variables.
Definition : Loi du couple
La loi d’un couple de variable aleatoire est comme dans le cas donne parl’ensemble des valeurs possibles et des probabilites correspondantes.Dans le cas discret, cela revient a lister l’ensemble des valeursP(X = x ,Y = y) pour tous les couples (x , y).Dans le cas continu, cela revient a definir une fonction de densite a deuxvariables f (x , y) qui permet de calculer P(X ∈ I ,Y ∈ J ) pour tout coupled’intervalles a l’aide d’integrales doubles.
![Page 46: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/46.jpg)
Marginales
I La donnee de la loi de (X ,Y ) permet de determiner la loi de X et celle deY . Ces lois sont appelees les lois marginales du couple.
I Connaıtre la loi du couple permet de determiner les marginales. L’inversen’est pas vrai.
![Page 47: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/47.jpg)
Variables independantes
Definition : variables independantes
Les variables X et Y sont independantes si et seulement si la loi du couple estle produit des lois marginales.Dans le cas discret, cela veut dire que pour tous x ∈ X (Ω) et y ∈ Y (Ω), on a
P(X = x ∩Y = y) = P(X = x)P(Y = y).
Dans le cas continu, cela se traduit pas f(X ,Y )(x , y) = fX (x)fY (y).
I L’interpretation est la meme que dans le chapitre des statistiquesdescriptives : X et Y sont independantes si ils n’ont aucune influence l’unsur l’autre.
I Dans le cas de l’exemple des dinucleotides,P(XY = AT ) 6= P(X = A)P(Y = T ). Deux nucleotides successifs nesont pas independants.
![Page 48: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/48.jpg)
Covariance et correlation
Definition : covariance et coorelation
On appelle covariance entre X et Y , la quantite
Cov(X ,Y ) = E [(X − E(X ))(Y − E(Y ))]
La covariance n’etant pas stable par changement d’echelle, on definit lacorrelation entre X et Y
Corr(X ,Y ) =Cov(X ,Y )√
Var(X )√
Var(Y ).
![Page 49: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/49.jpg)
Proprietes de la correlation et de la covariance
I Si X et Y sont independantes, alors Cov(X ,Y ) = Corr(X ,Y ) = 0.L’inverse est faux
I Cov(X ,X ) = var(X ) et Corr(X ,X ) = 1.
I Var(X + Y ) = Var(X ) + Var(Y ) + 2Cov(X ,Y ).En particulier, si X et Y sont independantes alorsVar(X + Y ) = Var(X ) + Var(Y ).
I Soient X1, · · · ,Xn , n variables aleatoires independantes. AlorsVar(
∑ni=1 Xi) =
∑ni=1 Var(Xi).
![Page 50: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/50.jpg)
II.3 Loi normale
![Page 51: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/51.jpg)
Loi normale (ou gaussienne) centree reduite
Definition : loi normale centree reduite
Une variable aleatoire X suit une loi normale (ou gaussienne) centree reduite eton note X ∼ N (0, 1) si la variable X est a valeurs dans R et si sa densite fXest donnee par
fX (x) =1√2π
exp(−x2
2).
−3 −2 −1 0 1 2 3
0.0
0.2
0.4
![Page 52: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/52.jpg)
Loi normale (ou gaussienne) centree reduite
Definition : loi normale centree reduite
Une variable aleatoire X suit une loi normale (ou gaussienne) centree reduite eton note X ∼ N (0, 1) si la variable X est a valeurs dans R et si sa densite fXest donnee par
fX (x) =1√2π
exp(−x2
2).
X verifie alors E(X ) = 0 et VarX = 1.
![Page 53: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/53.jpg)
Loi normale (ou gaussienne)
Definition : loi normale
Une variable aleatoire X suit une loi normale (ou gaussienne) et on noteX ∼ N (µ, σ∈) si la variable X est a valeurs dans R et si sa densite fX estdonnee par
fX (x) =1
σ√
2πexp
[− (x − µ)2
2σ2
].
−4 −2 0 2 4 6 8
0.02
0.08
![Page 54: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/54.jpg)
Loi normale (ou gaussienne)
Definition : loi normale
Une variable aleatoire X suit une loi normale (ou gaussienne) et on noteX ∼ N (µ, σ∈) si la variable X est a valeurs dans R et si sa densite fX estdonnee par
fX (x) =1
σ√
2πexp
[− (x − µ)2
2σ2
].
X verifie alors E(X ) = µ et VarX = σ2.
![Page 55: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/55.jpg)
Influence des parametres µ et σ
−4 0 2 4
0.0
0.2
0.4
−4 0 2 4
0.0
0.2
0.4
A droite, les lois sont toutes d’ecart-type 1 et d’esperance −2 (vert), 0 (rouge)et 2 (bleu). A droite, les densites sont toutes d’esperance 0 et d’ecarts-types0.25 (vert), 1 (rouge) et 4 (bleu).
![Page 56: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/56.jpg)
Proprietes de la loi normale
I La variable X de loi N (µ, σ2) est symetrique autour de µ, sa mediane estegale a son esperance.
I Si X ∼ N (µ, σ2) alorsX − µσ
∼ N (0, 1).
I Si X ∼ N (µ, σ2) et Y ∼ N (µ′, σ′2) sont deux variables aleatoiresgaussiennes independantes, alors X + Y ∼ N (µ+ µ′, σ2 + σ′2).
![Page 57: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/57.jpg)
Importance de la loi normale
I Loi modelisant de nombreuses situations reelles
I Theoreme central limite (TCL)
![Page 58: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/58.jpg)
Loi des grands nombres
Theoreme
Loi des grands nombres Soient X1,X2, · · · ,Xn , n variables aleatoires de memeloi qu’une variable aleatoire X . Alors, presque surement (c’est-a-dire avecprobabilite 1),
limn→+∞
X1 + . . .+ Xn
n= µ
Plus la taille de l’echantillon augmente, plus la moyenne empirique (observeesur l’echantillon) est proche de l’esperance (moyenne theorique).
![Page 59: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/59.jpg)
Theoreme Central Limite
Theoreme
Soient X1, · · · ,Xn des variables aleatoires independantes et identiquementdistribuees d’esperance µ et de variance σ2. On note X n = n−1∑n
i=1 Xi . Alors
la loi de Xn−µσ/√n
tend vers la loi normale centree reduite.
Ceci s’ecrit aussi : pour tous a et b reels,
P[a ≤√n
(Y n − µ
σ
)≤ b
]→ P(a ≤ Z ≤ b), (1)
ou Z est une variable gaussienne centree reduite, Z ∼ N (0, 1).
Ce resultat reste vrai quand σ est remplace par σ, un estimateur consistant deσ, en particulier pour l’estimateur de la variance defini au chapitre desstatistiques descriptives.
![Page 60: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/60.jpg)
II.4 Autres lois usuelles discretes
![Page 61: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/61.jpg)
Loi de Bernoulli
I Experience ayant deux issues possibles (succes/echec)
I X v.a. valant 1 en cas de succes,0 sinon
I p la probabilite de succes
X est une variable de Bernoulli. et on le note X ∼ B(p).
I P(X = 1) = p et P(X = 0) = 1− p.
I E(X ) = p et Var(X ) = p(1− p).
![Page 62: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/62.jpg)
Loi Binomiale B(n, p)On repete n fois, dans des conditions identiques, une experience aleatoire deBernoulli de parametre p. On note X le nombre de succes parmi les nexperiences independantes.
I X nombre de succes parmi n experiences de Bernoulli independantesidentiques.
I ensemble des valeurs possibles 0, · · · ,nI P(X = k) = C k
n pk (1− p)n−k , pour tout k ∈ 0, · · · ,n.
I E(X ) = np et Var(X ) = np(1− p).
0 10 20 30 40
0.00
0.06
0.12
![Page 63: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/63.jpg)
Loi de Poisson P(λ)I ensemble des valeurs possibles est NI
P(X = k) = exp (−λ)λk
k !, pour tout k ∈ N.
I E(X ) = λ et Var(X ) = λ.
0 10 20 30 40
0.00
0.06
0.12
![Page 64: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/64.jpg)
Loi de Poisson
Applications
Deux applications principales et courantes :
I Une loi binomiale de parametres n et p avec n grand et p faible peut etreapprochee par une loi de Poisson de parametre np.Exemples : Nombre de mutations lors d’une copie d’ADN, nombre defoyers d’une epidemie ...
I Si un processus suit un temps d’attente exponentiel entre deuxevenements, le nombre d’evenements pendant un temps donnee suit uneloi de PoissonExemples : Nombre de mutations au cours du temps, de desintegrationsatomiques, d’arrivees dans une file d’attente .... pendant un temps donne
![Page 65: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/65.jpg)
Loi geometriqueI X designe le nombre de repetitions d’une experience de Bernoulli
necessaires pour obtenir un succesI ensemble des valeurs possibles est N∗I P(X = k) = p(1− p)k−1, pour tout k ∈ N∗I E(X ) = 1
pet Var(X ) = 1−p
p2 .
5 10 15
0.00
0.15
0.30
![Page 66: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/66.jpg)
Loi uniforme discrete
I Valeurs possibles sont 1, ...,N .I P(X = k) = 1
N, pour tout k ∈ 1, · · · ,N .
I E(X ) = N+12
et Var(X ) = N2−112
.
2 4 6 8 10
0.06
0.10
0.14
![Page 67: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/67.jpg)
Loi uniforme discrete
I Valeurs possibles sont 1, ...,N .I P(X = k) = 1
N, pour tout k ∈ 1, · · · ,N .
I E(X ) = N+12
et Var(X ) = N2−112
.
Application
Loi correspondant aux situations d’equiprobabilite.
![Page 68: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/68.jpg)
Loi Hypergeometrique H(N ,n, p)
I Population de N individus dont une proportion p est rouge
I On preleve au hasard, sans remise un echantillon de n individus
I X nombre d’individus rouges dans l’echantillon
I P(X = k) =C k
Np×Cn−kN(1−p)
CnN
, pour tout k tel que max(0,n −N (1− p)) ≤k ≤ min(n,Np).
I E(X ) = np et Var(X ) = N−nN−1
np(1− p).
Application
Tests d’enrichissements
![Page 69: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/69.jpg)
II.4 Autres lois usuelles continues
![Page 70: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/70.jpg)
Loi uniforme U[a,b]
I X est a valeurs dans [a, b]
I sa densite fX est donnee par fX (x) = 1/(b − a) Ix∈[a,b]
I E(X ) = (b + a)/2 et Var(X ) = (b − a)2/12
0 1 2 3 4 5 6
0.00
0.15
![Page 71: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/71.jpg)
Loi exponentielle E(λ)
I X est a valeurs dans R+
I sa densite fX est donnee par fX (x) = λe−λx Ix≥0
I E(X ) = 1/λ et Var(X ) = 1/λ2.
0 2 4 6 8 10
0.0
1.0
![Page 72: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/72.jpg)
Loi exponentielle E(λ)
I X est a valeurs dans R+
I sa densite fX est donnee par fX (x) = λe−λx Ix≥0
I E(X ) = 1/λ et Var(X ) = 1/λ2.
Application
Modelisation des temps d’attente sans memoire (la date du prochainevenement d’interet ne depend pas de la date du dernier a avoir eu lieu).
![Page 73: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/73.jpg)
Lois du Chi-Deux, de Student et de Fisher
Les lois du Chi-Deux, de Student et de Fisher ne servent pas a des fins demodelisation mais sont tabulees dans tout logiciel de statistique en raison deleur grande utilite dans le cadre des tests.
![Page 74: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/74.jpg)
III. TESTS STATISTIQUES
![Page 75: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/75.jpg)
Test
Definition
Un test statistique est une procedure de decision entre deux hypothesesconcernant un ou plusieurs echantillons.
Exemple : On considere deux series de personnes soumises les unes a unmedicament, les autres a un placebo. On mesure les tensions arterielles dans lesdeux groupes.Au vu des resultats, le medicament a-t-il un effet sur la tension ?
![Page 76: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/76.jpg)
Hypotheses
Definition
L’hypothese nulle notee H0 est celle que l’on considere vraie a priori. Le but dutest est de decider si cet a priori est credible.L’hypothese alternative notee H1 est l’hypothese complementaire de H0.
Exemple : Sous H0, le medicament n’a pas d’influence, sous H1 il en a une.
![Page 77: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/77.jpg)
Hypotheses
Definition
L’hypothese nulle notee H0 est celle que l’on considere vraie a priori. Le but dutest est de decider si cet a priori est credible.L’hypothese alternative notee H1 est l’hypothese complementaire de H0.
Exemple : Sous H0, le medicament n’a pas d’influence, sous H1 il en a une.
Attention
I Les deux hypotheses ne sont pas symetriques. H1 est choisie uniquementpar defaut si H0 n’est pas consideree comme credible.
I Le choix de H0 et de H1 est en general impose par le test qu’on utilise etne releve donc pas de l’utilisateur.
![Page 78: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/78.jpg)
Ecriture des hypotheses
Soit µ1 et µ2 les moyennes de tension des deux populations correspondant a laprise de medicament ou de placebo. Une maniere de demontrer que lemedicament modifie la tension est de montrer que µ2 est different de µ1.
Les hypotheses deviennent alors H0 : les moyennes des deux populations sontegales et H0 : les moyennes des deux populations sont differentes . Onl’ecrit succintement sous la forme :
H0 : µ1 = µ2
H1 : µ1 6= µ2
![Page 79: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/79.jpg)
Ecriture des hypotheses
Question 1
La moyenne de la tension dans le premier groupe est de 13,4. La moyenne de latension dans le second groupe est de 12,8.
Le medicament est-il efficace ?
Question 2 (pour ceux qui ont repondu oui)
Je lance six fois un de, puis fais 50 pompes, puis relance six fois un de. Mapremiere serie de lancers vaut en moyenne 3,1. La seconde serie vaut enmoyenne 3,7.
Les pompes m’ont-elles rendues meilleur au lancer de de ?
Reponse
On n’en sait rien a ce stade !
![Page 80: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/80.jpg)
Ecriture des hypotheses
Question 1
La moyenne de la tension dans le premier groupe est de 13,4. La moyenne de latension dans le second groupe est de 12,8.
Le medicament est-il efficace ?
Question 2 (pour ceux qui ont repondu oui)
Je lance six fois un de, puis fais 50 pompes, puis relance six fois un de. Mapremiere serie de lancers vaut en moyenne 3,1. La seconde serie vaut enmoyenne 3,7.
Les pompes m’ont-elles rendues meilleur au lancer de de ?
Reponse
On n’en sait rien a ce stade !
![Page 81: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/81.jpg)
Ecriture des hypotheses
Question 1
La moyenne de la tension dans le premier groupe est de 13,4. La moyenne de latension dans le second groupe est de 12,8.
Le medicament est-il efficace ?
Question 2 (pour ceux qui ont repondu oui)
Je lance six fois un de, puis fais 50 pompes, puis relance six fois un de. Mapremiere serie de lancers vaut en moyenne 3,1. La seconde serie vaut enmoyenne 3,7.
Les pompes m’ont-elles rendues meilleur au lancer de de ?
Reponse
On n’en sait rien a ce stade !
![Page 82: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/82.jpg)
Ecriture des hypotheses
Attention
Les moyennes x1 et x2 des echantillons resultents d’echantillonnages, et ne sontdonc que des estimations de µ1 et µ2. Ce n’est pas parce qu’elles sontdifferentes que µ1 et µ2 le sont (et vice-versa, mais c’est rare !).
Comparer les moyennes des echantillons ne peut en aucun cas suffire !
![Page 83: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/83.jpg)
Ecriture des hypotheses
Attention
Les moyennes x1 et x2 des echantillons resultents d’echantillonnages, et ne sontdonc que des estimations de µ1 et µ2. Ce n’est pas parce qu’elles sontdifferentes que µ1 et µ2 le sont (et vice-versa, mais c’est rare !).
Comparer les moyennes des echantillons ne peut en aucun cas suffire !
Les signes =, 6=, > et ≤ dans l’ecriture succinte des hypotheses necorrespondent pas a l’egalite ou aux inegalites au sens mathematique du terme.Il s’agit d’une facon d’ecrire :
H0 : Il est credible de penser que µ1 = µ2
H1 : µ1 est significativement different de µ2
![Page 84: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/84.jpg)
Statistique
L
a statistique de test S est une fonction qui resume l’information sur l’echantillonqu’on veut tester. On la choisit de facon a pouvoir calculer sa loi sous H0.
I S est une variable aleatoire, definie independemment des donneesobservees. La valeur que prend cette variable aleatoire pour les donneesobservees sera appelee statistique observee et notee Sobs dans la suite.
I Suivant le type de statistique choisi, le test sera parametrique ounon-parametrique.
![Page 85: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/85.jpg)
Statistique
Definition : test parametrique
Un test parametrique est un test pour lequel on fait une hypothese sur la formedes donnees sous H0 (normale, Poisson, ...). Les hypotheses du test concernantalors les parametres gouvernant cette loi.
Exemple : On suppose que la tension sous medicament suit une loi N (µ1, σ1)et celle sous placebo suit une loi N (µ2, σ2).
H0 : µ1 = µ2
H1 : µ1 6= µ2
S =x1 − x2
σ√
1n
+ 1m
ou σ =
√(n − 1)σ1
2 + (m − 1)σ22
n + m − 2
La loi de S sous H0 est connue (loi de Student)
![Page 86: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/86.jpg)
Statistique
Definition : test non-parametrique
Un test non parametrique est un test ne necessitant pas d’hypothese sur laforme des donnees. Les donnees sont alors remplacees par des statistiques nedependant pas des moyennes/variances des donnees initiales (tables decontingence, statistique d’ordre ...).
Exemple : on classe les tensions de tous les individus par ordre croissant et onregarde comment sont classes les personnes sont medicaments. On obtient parexemple
M M P M M P M P P M P P
S est alors la somme des rangs des individus sous medicaments. On peutdeterminer sa loi sous H0.
![Page 87: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/87.jpg)
Region de rejet - Lateralite
Definition
La region de rejet est le sous-ensemble I de R tel qu’on rejette H0 si Sobs
appartient a I.
Definir une procedure de test peut donc se faire en definissant
1. une statistique
2. une region de rejet pour cette statistique
Exemple : Les test medicaux figurant sur une prise de sang, comme le taux defer.
H0 : La ferritine est entre 20 et 300µg/L
H1 : La ferritine est trop haute ou trop basse
![Page 88: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/88.jpg)
Region de rejet - Lateralite
Definition
La region de rejet est le sous-ensemble I de R tel qu’on rejette H0 si Sobs
appartient a I.
La forme de la region de rejet definit la lateralite du test :
I test multilateral : On veut rejetter H0 si Sobs est trop grand ou trop petit,sans a priori. La region de rejet est alors de la forme ]−∞, a] ∪ [b,+∞[.
I test unilateral a droite : On veut rejetter H0 seulement si Sobs est tropgrand. La region de rejet est alors de la forme [a,+∞[.
I test unilateral a gauche : On veut rejetter H0 seulement si Sobs est troppetit. La region de rejet est alors de la forme ]−∞, b].
![Page 89: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/89.jpg)
Exemples
On considere toujours des medicaments reduisant la tension arterielle. Quellessont les hypotheses pour repondre aux questions suivantes ?
I Comparaison entre deux medicaments en vente
H0 : µ1 = µ2
H1 : µ1 6= µ2
I Interet d’un nouveau medicament plus cher que l’existant.
H0 : µnew ≥ µold
H1 : µnew < µold
I Interet d’un nouveau medicament moins cher que l’existant.
H0 : µnew ≤ µold
H1 : µnew > µold
![Page 90: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/90.jpg)
Exemples
On considere toujours des medicaments reduisant la tension arterielle.
I Comparaison entre deux medicaments en vente
H0 : µ1 = µ2
H1 : µ1 6= µ2
I Interet d’un nouveau medicament plus cher que l’existant.
H0 : µnew ≥ µold
H1 : µnew < µold
I Interet d’un nouveau medicament moins cher que l’existant.
H0 : µnew ≤ µold
H1 : µnew > µold
![Page 91: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/91.jpg)
Probabilite critique
Definition
La probabilite critique (ou p-valeur) est la probabilite, sous H0, que lastatistique soit au moins aussi eloignee de son esperance que la valeur observee.En d’autres termes, c’est la probabilite d’observer quelque chose d’au moinsaussi surprenant que ce que l’on observe.
I Si le test est unilateral a droite, la probabilite critique est P(S > Sobs).
Sobs
![Page 92: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/92.jpg)
Probabilite critique
Definition
La probabilite critique (ou p-valeur) est la probabilite, sous H0, que lastatistique soit au moins aussi eloignee de son esperance que la valeur observee.En d’autres termes, c’est la probabilite d’observer quelque chose d’au moinsaussi surprenant que ce que l’on observe.
I Si le test est unilateral a gauche, la probabilite critique est P(S < Sobs).
Sobs
![Page 93: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/93.jpg)
Probabilite critique
Definition
La probabilite critique (ou p-valeur) est la probabilite, sous H0, que lastatistique soit au moins aussi eloignee de son esperance que la valeur observee.En d’autres termes, c’est la probabilite d’observer quelque chose d’au moinsaussi surprenant que ce que l’on observe.
I Si le test est bilateral et que la loi de la statistique est symetrique parrapport a 0, la probabilite critique est P(|S | > |Sobs |).
Sobs
![Page 94: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/94.jpg)
Risque de premiere espece ou confiance
Definition
Le risque de premiere espece α est la probabilite sous H0 de la region de rejet.En d’autres termes, il s’agit de la proabilite avec laquelle on accepte de deciderH1 si la verite est H0.
α = PH0(H1)
La quantite 1− α est la confiance du test.
En d’autres termes, une proportion α des situations dans lesquelles la verite estH0 verront une decision en faveur de H1.
α est la probabilite avec laquelle on accepte de se tromper quand la veriteest H0
![Page 95: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/95.jpg)
Autre maniere de mener le test
On peut comparer la p-valeur a α plutot que Sobs et la region de rejet.I si la p-valeur est superieure a α, il n’est pas exceptionnel sous H0
d’observer la valeur effectivement observee. Par consequent, H0 estacceptee.
I si la p-valeur est inferieure a α, la valeur observee est jugee exceptionnellesous H0. On decide alors de rejeter H0 et de valider H1.
Acceptation
Seuil
5%
Sobs
![Page 96: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/96.jpg)
Autre maniere de mener le test
On peut comparer la p-valeur a α plutot que Sobs et la region de rejet.I si la p-valeur est superieure a α, il n’est pas exceptionnel sous H0
d’observer la valeur effectivement observee. Par consequent, H0 estacceptee.
I si la p-valeur est inferieure a α, la valeur observee est jugee exceptionnellesous H0. On decide alors de rejeter H0 et de valider H1.
Rejet
Seuil
5%
Sobs
![Page 97: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/97.jpg)
Autre maniere de mener le test
On peut comparer la p-valeur a α plutot que Sobs et la region de rejet.
I si la p-valeur est superieure a α, il n’est pas exceptionnel sous H0
d’observer la valeur effectivement observee. Par consequent, H0 estacceptee.
I si la p-valeur est inferieure a α, la valeur observee est jugee exceptionnellesous H0. On decide alors de rejeter H0 et de valider H1.
Avantage
Cette methode permet de se rendre compte a quel point on est sur de sadecision : la position de la p-valeur par rapport a α ne depend pas de l’echelledes donnees, contrairement a Sobs et au(x) seuil(s) de la region de rejet.
Exemple : Si on a fixe α = 0.05, une p-valeur de 3.10−4 est clairement un rejet,alors qu’une p-valeur de 0.03 est un rejet ’de peu’ qu’il faudra nuancer aumoment de l’interpretation.
![Page 98: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/98.jpg)
Risque de premiere espece ou confiance
I Hormis dans des cas de tests multiples non abordes dans ce cours, α variegeneralement entre 0, 01 et 0, 05.
I Dans le cas de variables continues, on peut choisir une valeur arbitraire deα et obtenir une region de rejet presentant exactement le risque α.
I Dans le cas de variables discretes, le nombre de regions de rejet, et doncde risques, possibles est fini ou denombrable. Dans ce cas, on fixe unrisque, dit risque nominal, par exemple de 5%. On cherche alors la plusgrande region ne depassant pas ce risque, qui devient la region de rejet. Leveritable risque, dit risque reel, peut alors etre recalcule.
![Page 99: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/99.jpg)
Risque de deuxieme espece ou puissance
Definition
Le risque de deuxieme espece β est la probabilite d’accepter H0 alors que laverite est H1.
β = PH1(H0)
La quantite 1− β est la puissance du test.
VeriteH0 H1
DecisionH0 1-α βH1 α 1-β
![Page 100: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/100.jpg)
Choix de α et β
H0 H1
S
αβ
Si l’echantillon reste inchange, une diminution de α entraıne une augmentationde β et inversement. Autrement dit, si on decide de reduire le nombre de fauxpositifs, on augmente forcement le nombre de faux negatifs.La seule maniere d’ameliorer les deux criteres est d’augmenter la taille del’echantillon.
![Page 101: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/101.jpg)
Courbe de puissance
I Pour determiner la puissance, il faut connaıtre la lois de S sous H1, ce quin’est generalement pas le cas.
I On recourt alors a des courbes de puissance qui sont des courbes pourlaquelle la puissance est calculee pour des valeurs donnees des parametresdu probleme ou de la taille de l’echantillon.On ne sait pas ou se situe la situation reelle sur cette courbe mais on y litla probabilite de detecter H1 en fonction de son ’eloignement’ de H0.
Exemple : Courbe de puissance d’un test de Student bilateral sur 100 individusen fonction de mu[2]−mu[1] (en supposant que σ1 = σ2 = 1).
0.0 0.5 1.0 1.5
0.0
0.4
0.8
![Page 102: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/102.jpg)
Principe du test
Les etapes d’un test sont toujours realisees dans l’ordre suivant :
1) Choix du risque α
2) Choix du type de test et de sa lateralite si besoin
3) Calcul de la statistique de test
4) Calcul de la p-valeur
5) Conclusion
En pratique, l’utilisation d’un logiciel type R permet de ne pas se soucier despartie 3) et 4). Par contre, les choix liees aux etapes 1) et 2) ainsi quel’interpretation finale ne peuvent etre faits par le logiciel.
![Page 103: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/103.jpg)
Remarques sur les tests
I Le resultat d’un test comprend toujours une dose d’incertitude : ONNE SAIT JAMAIS SI ON A BIEN PRIS LA BONNE DECISION !
I La probabilite critique permet d’avoir une vision plus fine que sa simplecomparaison avec α. En effet, plus elle est petite, plus l’evenement observeest surprenant sous H0. Ainsi, pour α = 0.5, des probabilites critiques de10−6 et de 0.35 impliquent le rejet de H0 mais avec des degres decertitude different concernant la decision.
![Page 104: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/104.jpg)
IV. QUEL TEST POUR REPONDRE A QUELLE QUESTION ?
![Page 105: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/105.jpg)
IV.1. Test d’adequation
![Page 106: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/106.jpg)
Adequation de l’esperance
Hypotheses
On considere un echantillon de donnees de taille n, de moyenne µ etd’ecart-type σ, et une moyenne a priori µ0. On veut savoir s’il est credible depenser que l’echantillon a ete tire dans une population de moyenne µ0 ou si lamoyenne de l’echantillon est significativement differente de µ0.
H0 : µ = µ0
H1 : µ 6= µ0
Statistique
Sous H0, on connaıt la loi de la statistique de Student definie par
t =µ− µ0
σ/√n
Il s’agit de la loi de Student a n − 1 degres de liberte.
![Page 107: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/107.jpg)
Adequation de l’esperance
Lateralite - Region de rejet
Les trois options sont possibles : test unilateral a droite, a gauche ou bilateral.
Sous R
t.test en utilisant les parametres x pour l’echantillon et mu pour la valeurde µ0.
Version non parametrique
Test de Wilcoxon ( wilcox.test ). Dans ce cas, l’adequation est teste pourla mediane, et non pour l’esperance.
H0 : m = m0
H1 : m 6= m0
![Page 108: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/108.jpg)
Exemple
On realise 20 sondages de taille 100 dans une population dont 55% des gensvotent pour le candidat d’interet. La moyenne de ces sondages est-ellesignificativement differente de 0.
> x <- rbinom(20,100,.55)
> x
[1] 60 61 47 56 55 48 60 54 55 59 50 58 55 61 54 64 37 62 54 49
> t.test(x,mu=50,alternative="two.sided")
One Sample t-test
data: x
t = 3.4573, df = 19, p-value = 0.002639
alternative hypothesis: true mean is not equal to 50
95 percent confidence interval:
51.95334 57.94666
sample estimates:
mean of x
54.95
![Page 109: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/109.jpg)
Adequation d’un echantillon a une loi
Hypotheses
Soit (x1, . . . , xn) un echantillon tire suivant une loi L inconnue et L∗ une loifixee par l’utilisateur.
H0 : L = L∗
H1 : L 6= L∗
Statistique
On separe les valeurs possibles en k classes Ci . On note Oi le nombred’observations dans Ci . L’effectif moyen Ei de Ci sous H0 est donne parEi = np∗i ou p∗i est la probabilite qu-une v.a. X suivant la loi L∗ prenne savaleur dans Ci .L’ecart entre la realite et la theorie sous H0 est mesuree par la statistique
S =
k∑i=1
(np∗i −Oi)2
np∗i=
k∑i=1
O2i
np∗i− n
Sous H0, la loi de S tend vers une loi du chi-deux.
Remarque : En pratique, il faut que les effectifs 0i soit superieurs a 5 pourque l’approximation par une loi du chi-deux soit valide. Si ce n’est pas le cas, ilfaut fusionner des classes Ci (ce qui fera perdre de la puissance).
![Page 110: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/110.jpg)
Adequation a une loi
Lateralite - Region de rejet
La region de rejet est de la forme RC > a.
Sous R
chisq.test
Autre possibilite
Test de Kolmogorov-Smirnov ( ks.test), qui est plus puissant que le test duχ2 mais dont l’utilisation est limitee aux distributions continues. Il consiste atester l’ecart maximal entre les fonctions de repartition theorique et empiriques.
A noter qu’il existe de nombreuses adaptations de ces tests pour testerl’appartenance a des familles de lois, notamment le test de Shapiro-Wilk pourles lois normales.
![Page 111: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/111.jpg)
Exemple
On recueille le nombre de requetes par heure sur un serveur. On recueille lenombre de requetes sur 100 heures.Ce nombre suit-il une loi normale ?
> x[1:10]
[1] 290 303 287 291 324 306 291 319 308 327
> c(mean(x),var(x))
[1] 300.1400 305.7378
> ks.test(x,"pnorm",mean(x),sd(x))
One-sample Kolmogorov-Smirnov test
data: x
D = 0.099225, p-value = 0.2784
alternative hypothesis: two-sided
![Page 112: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/112.jpg)
Exemple
On recueille le nombre de requetes par heure sur un serveur. On recueille lenombre de requetes sur 100 heures.Ce nombre suit-il une loi de Poisson de parametre 300 ?
> br<- c(min(x),280,290,300,310,320,max(x))
> nx <- hist(x,breaks=br)$counts
> nx
[1] 14 19 21 18 14 14
> att
[1] 12.95252 16.44741 22.13494 21.44826 15.11642 11.90045
> chisq.test(nx,p=patt)
Chi-squared test for given probabilities
data: nx
X-squared = 1.5463, df = 5, p-value = 0.9077
![Page 113: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/113.jpg)
IV.2. Tests de comparaison d’esperance et de variance
![Page 114: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/114.jpg)
Appariement
Definition
Des echantillons sont apparies s’ils correspondent a des mesures prises sur lesmemes individus
I mesurer la tension des memes personnes a des moments differents donnedes echantillons apparies.
I comparer la taille des hommes et des femmes ne peut pas se faire avec desechantillons apparies.
I comparer les temperatures de 1950 et 2015 aux memes stations meteodonne des echantillons apparies.
Remarque : Si possible, il vaut toujours mieux recueillir des donnees appariees,les tests en sont plus puissants.
![Page 115: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/115.jpg)
Test d’egalite des variances : test de Fisher
Hypotheses
On dispose de deux echantillons d’ecart-types respectifs σ1 et σ2. On sedemande s’il est raisonnable de penser que les deux echantillons ont ete tiressuivant des lois de meme ecart-type ou si ils sont significativement differents.
H0 : σ1 = σ2
H1 : σ1 6= σ2
Statistique
F = σ12
σ22 suit une loi de Fisher Fn1,n2 sous H0.
Lateralite - Region de rejet
Les trois options enoncees au chapitre precedent sont possibles : rejet unilaterala droite, a gauche ou bilateral.
Sous R
var.test
![Page 116: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/116.jpg)
Comparaison de la moyenne de deux echantillons : t-test ou test de Student
Hypotheses
On dispose de deux echantillons de moyennes respectives µ1 et µ2 etd’ecart-type respectifs σ1 et σ2. On se demande s’il est raisonnable de penserque les deux echantillons ont ete tires suivant des lois de meme esperance ou sileurs moyennes sont significativement differentes.
H0 : µ1 = µ2
H1 : µ1 6= µ2
![Page 117: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/117.jpg)
Comparaison de la moyenne de deux echantillons : t-test ou test de Student
Statistique
La valeur de la statistique peut prendre quatre expressions differentes suivantsles criteres suivants :
appariement les echantillons sont apparies si ils sont correspondent adifferentes mesures prises sur les memes individus.
egalite des variances les variances sont significativement differentes ou pas (cftest de Fisher).
Toutes ces statistiques reposent en fait sur le meme principe qui est dedependre essentiellement de la difference µ1 − µ2, normalisee par une quantitepermettant d’obtenir une variable de loi de Student sous H0.Par exemple, dans le cas d’echantillons non apparies, de variance nonsignificativement differentes, et de taille respectives n et m,
t =µ1 − µ2
σ√
1n
+ 1m
ou
σ =
√(n − 1)σ1
2 + (m − 1)σ22
n + m − 2
![Page 118: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/118.jpg)
Comparaison de la moyenne de deux echantillons : t-test ou test de Student
Lateralite - Region de rejet
Les trois options enoncees au chapitre precedent sont possibles : rejet unilaterala droite, a gauche ou bilateral.
Sous R
t.test en utilisant les parametres x et y pour les deux echantillons,alternative pour le lateralite, paired pour l’appariement ou non desechantillons et var.equal pour l’egalite des variances.
Version non parametrique
Test de Wilcoxon ou de Mann-Whitney (wilcox.test sous R).
![Page 119: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/119.jpg)
Exemple
Pour n grand et p petit, la loi binomiale B(n, p) peut etre approximee par la loide Poisson P(np).
> x <- rbinom(100,100,.05)
> y <- rpois(100,5)
> var.test(x,y)
F test to compare two variances
data: x and y
F = 0.58046, num df = 99, denom df = 99, p-value = 0.007299
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.3905577 0.8626993
sample estimates:
ratio of variances
0.5804601
>
![Page 120: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/120.jpg)
Exemple
Pour n grand et p petit, la loi binomiale B(n, p) peut etre approximee par la loide Poisson P(np).
> x <- rbinom(100,100,.05)
> y <- rpois(100,5)
> t.test(x,y,alternative="two.sided",paired=FALSE,var.equal=TRUE)
Two Sample t-test
data: x and y
t = 0.25794, df = 198, p-value = 0.7967
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.5316177 0.6916177
sample estimates:
mean of x mean of y
5.17 5.09
![Page 121: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/121.jpg)
Exemple
Les proportions d’abeilles africaines (moins productives et plus agressives) ontete mesurees dans dix localites du Texas a dix ans d’intervalle. Y a-t-il uneaugmentation de la population ?
Piege 1 2 3 4 5 6 7 8 9 101980 0.330 0.146 0.518 0.339 0.693 0.249 0.438 0.695 0.135 0.3881990 0.360 0.177 0.524 0.447 0.140 0.392 0.534 0.263 0.157 0.566
> x <- c(0.330,0.146,0.518,0.339,0.693,0.249,0.438,0.695,0.135,0.388)
> y <- c(0.360,0.177,0.524,0.447,0.640,0.392,0.534,0.563,0.157,0.566)
> wilcox.test(x,y,paired=TRUE,alternative="less")
Wilcoxon signed rank test
data: x and y
V = 13, p-value = 0.08008
alternative hypothesis: true location shift is less than 0
![Page 122: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/122.jpg)
Comparaison de la moyenne de plus de deux echantillons : ANOVA
Hypotheses
I Plusieurs echantillons dont on se demande si ils ont ete tires selon des loisde meme esperance.
I Decomposition
variance totale = variance intra-echantillons+variance entre les echantillons
I Pour mesurer la variance entre les echantillons, on cree un nouveau jeu dedonnees dans lequel on donne a chaque individu la valeur moyenne dansson echantillon. La variance du nouveau jeu de donnees est la varianceentre echantillons.
I
RC =variance de l’echantillon des moyennes
variance de l’echantillon initial
RC donne le pourcentage de la variabilite due a l’effet etudie par rapporta la variabilite totale.
Les hypotheses deviennent alors
H0 : RC = 0
H1 : RC > 0
![Page 123: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/123.jpg)
Comparaison de la moyenne de plus de deux echantillons : ANOVA
Statistique
Soit n la taille de l’echantillon et g le nombre d’echantillons. La statistique
Z =n − g
g − 1RC
Sous H0, Z suit une loi de Fisher de parametres (g − 1,n − g).
Lateralite - Region de rejet
La region de rejet est de la forme RC > a.
Sous R
oneway.test avec pour argument une table a deux colonnes contenant dans lapremiere colonne la concatenation de tous les echantillons et dans la secondel’appartenance aux echantillons.
Version non parametrique
Test de Kruskal-Wallis (echantillons non apparies) ou test de Friedman(echantillons apparies).
![Page 124: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/124.jpg)
Exemple> data(airquality)
> boxplot(airquality$Ozone~airquality$Month)
5 6 7 8 9
050
100
150
![Page 125: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/125.jpg)
Exemple
> oneway.test(airquality$Ozone~airquality$Month)
One-way analysis of means (not assuming equal variances)
data: airquality$Ozone and airquality$Month
F = 8.0267, num df = 4.000, denom df = 42.668, p-value = 6.439e-05
![Page 126: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/126.jpg)
IV.3. Tests d’independance
![Page 127: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/127.jpg)
Independance de deux variables qualitatives : test du χ2
Table de contingence
I X et Y sont qualitatives : pas de coefficient de correlation possible
I Leur valeurs sont regroupees en respectivement r et s ensembles.
I Le tableau a r lignes et s colonnes contenant les effectifs est appele tablede contingence.
I Les sommes par lignes et colonnes donnent les effectifs marginaux. Lasomme globale donne l’effectif total.
Exemple :Guerison Non-guerison
Traitement 7 3Placebo 3 6
![Page 128: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/128.jpg)
Test du χ2 d’independance
Formulation
H0 : X et Y sont independantes
H1 : X et Y ne sont pas independantes
Postulats
L’echantillon est grand.
![Page 129: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/129.jpg)
Test du χ2 d’independance
Procedure
On note nij l’entree de la table dans la cellule i × j , ni• la somme des effectifsde la ligne i et n•j la somme des efectifs de lacolonne j .Sous hypothese d’independance,
P(X ∈ Ii ,Y ∈ Jj ) = P(X ∈ Ii)P(Y ∈ Jj )
ce qui se traduit, si on remplace les probabilites par leurs estimateurs, par uneegalite attendue entre nij et eij =
ni•n•jN
, ou N est l’effectif total.
La statistique
T =∑i,j
(nij − eij )2
eij=∑i,j
n2ij
eij−N
suit une loi du χ2 a (r − 1)(s − 1) degres de liberte sous H0.
Autre possibilite
Test exact de Fisher. Ne necessite pas de grands echantillons mais lourd d’unpoint de vue computationnel et supposant des sommes marginales fixees.
![Page 130: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/130.jpg)
Exemple
Des cultures cellulaires de souches differentes sont soumises a desrayonnements radioactifs et la proportion de cellules mortes est relevee.
A B C Dray. α 23 34 17 78ray. β 58 64 56 86ray. γ 45 37 43 79
temoin 04 06 02 03
I valeur de la statistique de 23.6
I nombre de degres de liberte de 9
I p-valeur de 4.9 10−3. Les souches reagissent differemment auxrayonnements.
![Page 131: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/131.jpg)
Independance d’une variable quantitative et d’une variable qualitative
On se ramene alors aux tests de comparaison de la section precedente.
Exemple : Pour tester si le taux d’une hormone est independant du sexe, oncompare les moyennes pour des echantillons des deux sexes.
![Page 132: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/132.jpg)
Independance de deux variables qualitatives : test des coefficients decorrelation
Correlation de Pearson
corr(x,y) =cov(x,y)
sxsy
> x
[1] 0.59637725 0.61786741 0.74594744 0.93457381 0.29872870 0.55438860
[7] 0.93705296 0.19402199 0.09448572 0.60146355
> y
[1] 0.00285277 0.41158044 0.68761801 0.66404480 0.66798358 0.64610506
[7] 0.44145733 0.46760624 0.70261156 0.22489771
> z
[1] 0.01069205 0.67328534 0.81793833 0.72027774 0.86890047 0.68293838
[7] 0.55287843 0.55715159 0.91870563 0.45035580
> cor(x,y)
[1] -0.1458849
> cor(y,z)
[1] 0.9431016
![Page 133: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/133.jpg)
Independance de deux variables qualitatives : test des coefficients decorrelation
Correlation des rangs de Spearman
ρ = corr(r(x), r(y))
ou r(x) designe l’echantillon des rangs tire de x.
> rank(x)
[1] 5 7 8 9 3 4 10 2 1 6
> rank(y)
[1] 1 3 9 7 8 6 4 5 10 2
> rank(z)
[1] 1 5 8 7 9 6 3 4 10 2
> cor(x,y,method="spearman")
[1] -0.2606061
> cor(y,z,method="spearman")
[1] 0.9515152
![Page 134: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/134.jpg)
Independance de deux variables qualitatives : test des coefficients decorrelation
Correlation des rangs de Kendall
I Soit nc le nombre de concordances, c’est-a-dire de paires (xi , yi) et (xj , yj )telles que xi < xj et yi < yj ;
I Soit nd le nombre de discordances, c’est-a-dire de paires (xi , yi) et (xj , yj )telles que xi < xj et yi > yj ;
Le coefficient de Kendall est alors
τ =nc − nd
n(n − 1)/2
> rank(x)
[1] 5 7 8 9 3 4 10 2 1 6
> rank(y)
[1] 1 3 9 7 8 6 4 5 10 2
> rank(z)
[1] 1 5 8 7 9 6 3 4 10 2
> cor(x,y,method="kendall")
[1] -0.1555556
> cor(y,z,method="kendall")
[1] 0.8666667
![Page 135: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/135.jpg)
Independance de deux variables qualitatives : test des coefficients decorrelation
Interpretation
Ces trois coefficients sont comris entre −1 et 1 et valent 0 pour des variablesindependantes.Une valeur significativement positive indique une correlation positive (Yaugmente quand X augmente).Une valeur significativement negative indique une correlation negative (Yaugmente quand X augmente).
![Page 136: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/136.jpg)
Independance de deux variables qualitatives : test des coefficients decorrelation
Formulation
H0 : corr(x,y) = 0 ou ρ = 0 ou τ = 0
H1 : corr(x,y) 6= 0 ou ρ 6= 0 ou τ 6= 0
Lateralite
Le test peut etre mene de facon unilaterale pour ne detecter qu’une correlationpositive ou qu’une correlation negative.
Sous R
cor.test
![Page 137: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/137.jpg)
Exemple
> cor.test(x,y,method="pearson")
Pearson's product-moment correlation
data: x and y
t = -0.41709, df = 8, p-value = 0.6876
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.7102707 0.5326686
sample estimates:
cor
-0.1458849
> cor.test(y,z,method="pearson")
Pearson's product-moment correlation
data: y and z
t = 8.0224, df = 8, p-value = 4.28e-05
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.7717296 0.9867777
sample estimates:
cor
0.9431016
![Page 138: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/138.jpg)
V. ESTIMATION
![Page 139: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/139.jpg)
V.1. Estimateurs
![Page 140: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/140.jpg)
Probleme
I On s’interesse a la distribution d’un caractere X dans une population P.On suppose que la loi de X dans P (generalement de forme connue)depend d’un parametre θ inconnu (esperance, variance,...), eventuellementmulti-dimensionnel.On cherche a estimer la valeur de θ.
Exemple : On suppose que X suit une loi normale. Determiner µ et σ.
I Les tests permettent de prendre une decision binaire concernant cesparametres, ce qui est relie mais different de l’estimation.
I On suppose qu’on dispose d’un echantillon x = (x1, . . . , xn) de mesuresindependantes de X dans la population P.
![Page 141: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/141.jpg)
Estimateur/Estimation
Estimateur
On appelle estimateur de θ une variable aleatoire Tn obtenue comme fonctiondu n-echantillon aleatoire (X1,X2, · · · ,Xn) ; autrement ditTn = f (X1,X2, · · · ,Xn).
Exemple : Si (X1, . . . ,Xn) est une suite de v.a. i.i.d. de meme loi que X , un
estimateur de la moyenne de X est X n =∑
i Xi
n
Estimateur
Soit Tn un estimateur de θ. On appelle estimation de θ, la realisation tn de lav.a. Tn , obtenue a partir de l’observation x = (x1, x2, · · · , xn)
tn = f (x1, x2, · · · , xn)
Exemple : µ =∑
i xin
I L’estimateur et l’estimation de θ sont souvent confondus et notes θ.
![Page 142: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/142.jpg)
Qualite d’un estimateur : le biais
I Le biais de Tn est donne par Bn(θ) = E(Tn)− θ.
I Tn est un estimateur sans biais si E(Tn) = θ. Sinon, il est dit biaise.
I Si Bn(θ) tend vers 0 quand n tend vers l’infini, alors Tn est ditasymptotiquement sans biais.
Exemples :
I x =∑
i xin
est un estimateur sans biais de l’esperance
I σ2 = 1n−1
∑i(xi − x)2 a un denominateur de n − 1 et non de n pour en
faire un estimateur sans biais de la variance.
![Page 143: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/143.jpg)
Qualite d’un estimateur : la consistance
Consistance
L’estimateur Tn de θ est consistant si il converge en moyenne quadratique versθ, quand n tend vers l’infini, c’est-a-dire si EQM (Tn) = E
[(Tn − θ)2
]tend
vers 0 quand la taille de l’echantillon augmente.
I La consistance traduit une propriete qu’on attend intuitivement d’unestimateur, a savoir qu’il converge vers la valeur du parametre θ a estimer,quand la taille n de l’echantillon tend vers l’infini.
I Une autre notion de convergence qu’on peut utiliser mais qui est plus forteet donc plus difficile a etablir est celle de convergence presque sure : dansce cas, on a P(limn→∞ tn = θ) = 1, c’est-a-dire que pour tout echantillonqui croıt indefiniment, l’estimation finira par tendre vers la vraie valeur deθ.
Exemple : La moyenne est un estimateur consistant de l’esperance d’un pointde vue de la convergence presque sure.
![Page 144: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/144.jpg)
Intervalle de confiance d’une estimation
Les criteres de qualite precedents ne permettent pas d’evaluer l’imprecisionconcernant une estimation particuliere. Pour ce faire, on va chercher a encadrerla difference entre les estimations et la valeur de θ.
Intervalle de confiance
Soit α ∈]0, 1[. On appelle intervalle de confiance du parametre θ de niveau deconfiance 1− α (ou de risque α) un intervalle (aleatoire) Iα tel queP(θ ∈ Iθ,α) = 1− α.
![Page 145: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/145.jpg)
Exemples
1. Le resultat d’un sondage devrait etre une estimation ponctuelle et unintervalle de confiance en dependant.
2. Quand on compare deux moyennes via un test de Student, un intervalle deconfiance de la difference est automatiquement genere. Le fait que 0 soitdans cet intervalle est equivalent a decider H1 avec un niveau de 5%.
> x <- runif(50,0,1)
> y <- runif(50,.5,1)
> t.test(x,y)
Welch Two Sample t-test
data: x and y
t = -3.9965, df = 70.747, p-value = 0.0001557
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.28567838 -0.09549295
sample estimates:
mean of x mean of y
0.5231755 0.7137611
![Page 146: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/146.jpg)
Moyens d’obtenir des intervalles de confiance
1 : Approche frequentiste theorique
Determiner la loi de θ et choisir un intervalle dans laquelle cette loi se situeavec une probabilite 1− α.
Exemple : On realise un sondage de type OUI/NON sur un echantillon de taillen, la fraction de OUI dans la population etant p.Le TCL entraıne que le resultat p du sondage a 95% de chances d’etre dansl’intervalle
p − 1.96p(1− p)
n; p + 1.96
p(1− p)
n
ce qui donne un intervalle de confiance a 95% pour p de
p − 1.96p(1− p)
n; p + 1.96
p(1− p)
n
En pratique, p n’etant pas connu, il faut en fait remplacer la variance p(1− p)par une estimation de la variance et utiliser une loi de Student plutot qu’une loinormale.
![Page 147: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/147.jpg)
Moyens d’obtenir des intervalles de confiance
2 : Approche bayesienne
Considerer θ comme une variable aleatoire, dont on se donne une loi a prioriP(θ), qu’on veut mettre a jour au vu des donnees.
P(θ|X ) =P(X |θ)P(θ)
P(X )
La loi P(θ|X ), appelee loi a posteriori, permet de determiner un intervalle danslequel θ se trouve avec probabilite 1− α.
I influence du choix de la loi a priori, possibilite d’y onclure d’autre typesd’information
I possibilite d’utiliser un algorithme MCMC (Monte-Carlo Markov-Chain)pour apprendre la loi a posteriori quand le calcul theorique n’est paspossible
![Page 148: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/148.jpg)
Moyens d’obtenir des intervalles de confiance
3 : Bootstrapping
On genere un grand nombre de jeux de donnees de meme taille a partir du jeude donnees en effectuant des tirages avec remise.Pour chacun des jeux ainsi crees, on evalue l’estimateur, obtenant ainsi unedistribution de l’estimation, ce qui conduit a un intervalle de confiance.
![Page 149: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/149.jpg)
> library(boot)
> x <- c(52, 10, 40, 104, 50, 27, 146, 31, 46)
> mean(x)
[1] 56.22222
> bb <- boot(data = x, statistic = function(x, index) mean(x[index]),
+ R = 1000)
> bb
ORDINARY NONPARAMETRIC BOOTSTRAP
Call:
boot(data = x, statistic = function(x, index) mean(x[index]),
R = 1000)
Bootstrap Statistics :
original bias std. error
t1* 56.22222 -0.7888889 13.31232
![Page 150: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/150.jpg)
V.2 Estimation par maximum de vraisemblance
![Page 151: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/151.jpg)
Vraisemblance
Vraisemblance
On considere une variable aleatoire X suivant une loi de parametresθ = (θ1, . . . , θp).On considere des donnees x = (x1, . . . , xn) correspondant a un echantillon tiresuivant X .La vraisemblance des donnees suivant le modele est
L(θ) = P(X1 = x1, . . . ,Xn = xn |θ)
En d’autres termes, la vraisemblance est une fonction de θ qui donne laprobabilite d’observer les donnees si la valeur du parametre est θ.
Exemple : X ∼ N (µ, σ) et x un echantillon d’observations independantes.
L(µ, σ) =n∏
i=1
( 1
σ√
2πe−
(xi−µ)2
2σ)
![Page 152: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/152.jpg)
Maximum de vraisemblance
Estimation du maimum de vraisamblance
Une maniere d’estimer θ est de choisir
θ = argmaxθL(θ)
En d’autres termes, la value retenue pour θ est celle pour laquelle la probabilitede voir ce que l’on observe est maximale.
Le probleme devient alors un probleme d’optimisation de fonction.
Log-vraisemblance
La fonction logarithme etant strictement croissante, L et log(L) atteigne leurmaximum au meme endroit. On peut donc maximiser la log-vraisemblancelogL quand cela se revele plus simple, l’estimateur sera le meme.Ceci est notamment pertinent lorsque l’echantillon correspond a desobservations independantes.
![Page 153: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/153.jpg)
Exemple 1 : Estimateur pour une loi de Poisson
I X ∼ P(λ)
I x echantillon de n tirages independants.
I
L(λ) =n∏
i=1
λxi
xi !e−λ
I
logL(λ) =n∑
i=1
(xi log(λ)− log(xi !)− λ
I Annuler la derivee de la fonction precedente donne
λ =
∑xi
n
![Page 154: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/154.jpg)
Exemple 2 : Estimateur pour une loi normale
I X ∼ N (µ, σ)
I x echantillon de n tirages independants.
I
L(µ, σ) =n∏
i=1
( 1
σ√
2πe−
(xi−µ)2
2σ)
I
logL(µ, σ) = −n log(√
2π)− n log σ −n∑
i=1
(xi − µ)2
2σ
I Annuler simultanement les derivees partielles de la fonction precedentedonne
µ =
∑xi
nσ =
1
n
n∑i=1
(xi − µ)2
![Page 155: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/155.jpg)
Exemple 3
I On considere une sequence d’ADN.
I On prend un modele simple ou les nucleotides sont independants et onnote pZ la probabilite que chaque lettre soit un Z , Z ∈ A,C ,G,T.
I Soit nZ le nombre de Z observes, Z ∈ A,C ,G,T et n la longueurtotale de la sequence.
I
L(pA, pC , pG , pT ) =
n∏i=1
(pXi
)I
logL(pA, pC , pG , pT ) = nA log(pA)+nC log(pC )+nG log(pG)+nT log(pT )
I Il faut utiliser des multiplicateurs de Lagrange pour resoudre le problemed’optimisation sous la contrainte pA + pC + pG + pT = 1. On en deduit
pZ =nZ
n, ∀Z ∈ A,C ,G,T
![Page 156: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/156.jpg)
Exemple 4
I On considere un modele de melange gaussien.
I Tout individu tire un groupe Zi au hasard parmi (1, . . . ,K ) avecP(Zi = k) = αk . On dit que Zi suit une loi multinomiale de parametreα = (α1, . . . , αn).
I Xi ∼ N (µk , σ2k ) avec k = Zi .
I
L(µ, σ) =∑
Z1,...,Zn
n∏i=1
( 1
σZi
√2π
e−
(xi−µZi)2
2σZi
)I Le probleme d’optimisation devient plus dur a resoudre. De nombreuses
heuristiques ont ete developpees pour optimiser des vraisemblancescompliquees
I descente de gradientI algorithme Monte-Carlo Markov-ChainI algorithme Expectation-Maximisation
![Page 157: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/157.jpg)
V.3. Modele lineaire
![Page 158: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/158.jpg)
Modele lineaire gaussien
Modele
Soit X une variable explicative et Y une variable a expliquer. Le modelelineaire gaussien revient a considerer que
Y = α+ βX + ε
ou ε est un terme de bruit qui suit une loi normale centree N (0, σ2)
Exemple : Poids en fonction de la taille, rythme cardiaque au repos en fonctionde l’age.
Probleme
Estimer les parametres α, β, σ du modele.
![Page 159: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/159.jpg)
Estimateur du maximum de vraisemblance
I On dispose d’observations (xi , yi), 1 ≤ i ≤ n.
I
logL(α, β, σ) = −n
2log(2π)− n log(σ)−
n∑i=1
(yi − α− βxi)2
2σ2
I En ce qui concerne α et β, maximiser la vraisemblance revient a minimiserle dernier terme, c’est-a-dire utiliser les estimateurs des moindres carres.
a =
∑i(xi − x)(yi − y)∑
i(xi − x)2
b = y − ax
![Page 160: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/160.jpg)
Generalisations du modele lineaire gaussien
I On peut considerer plusieurs variable explicatives X1, . . . ,Xn .
Y = α+∑i
βiXi + ε
ou ε est un terme de bruit qui suit une loi normale centree N (0, σ2)
I On peut egalement introduire des effets croises. Pour deux variablesexplicatives, cela donne le modele
Y = α+ β1X1 + β2X2 + β12X12 + ε
ou ε est un terme de bruit qui suit une loi normale centree N (0, σ2)
I On peut appliquer le modele a une fonction f (Y ) plutot qu’a Y . Si onpense que Y croıt exponentiellement avec X , on pourra par exemplel’appliquer a log(Y ).
Sous R
lm
![Page 161: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/161.jpg)
Modele logistique
Considerons maintenant une variable a expliquer binaire.
I On ne peut pas directement ecrire un modele lineaire concernant Y .
I On peut cependant chercher a expliquer P(Y = 1) en fonction desvariables explicatives.
I La fonction logistique definie par logit(t) = log t1−t
est une bijection entre[−1, 1] et R.
I Le modele logistique revient a ecrire logit(P(Y = 1)) en fonction desvariables explicatives.
logit(P(Y = 1)) = α+∑i
βiXi
Sous R
glm
![Page 162: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/162.jpg)
Exemple
I Le jeu de donnees esoph sous R contient le nombre de patients atteintsd’un cancer de l’oesophage et de patients sains dans un echantillonstratifie suivant l’age (6 classes), la consommation d’alcool (4 classes) etla consommation de tabac (4 classes) des sondes.
I Soit Yi la variable aleatoire correspondant a l’indicatrice du fait quel’individu i developpe un cancer de l’oesophage. On considere le modele deregression logistique suivant :
log(P(Yi = 1)
1− P(Yi = 1)) = α+ βAgei + γTabi + δAlci
ou Agei ∈ 1, . . . , 6, Tabi ∈ 1, . . . , 4 et Alci ∈ 1, . . . , 4 designent lesclasses de l’individu i suivant les trois variables qualitatives transformeesen variables ordinales.
I L’estimateur du maximum de vraisemblance θ peut etre determine.
![Page 163: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/163.jpg)
Exemple
> model <- glm(cbind(ncases,ncontrols) ~ unclass(agegp)+unclass(alcgp)+unclass(tobgp), data=esoph, family='binomial')
> EMV <- model$coefficients
> EMV
(Intercept) unclass(agegp) unclass(alcgp) unclass(tobgp)
-5.5959444 0.5286674 0.6938248 0.2744565
![Page 164: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/164.jpg)
V.4. Comment determiner le maximum de vraisemblance ?
![Page 165: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/165.jpg)
Methode analytique
I La vraisemblance est une fonction a une ou plusieurs variables. Soit n cenombre.
I Au(x) point(s) ou une fonction admet son maximum, toutes ses deriveespartielles s’annulent.
∂L∂θ1
(θ1, . . . , θn) = 0
. . .
∂L∂θn
(θ1, . . . , θn) = 0
I On resout le systeme a n equations et n inconnues.
I On evalue la vraisemblance en toutes les solutions au systeme precedent,et on en deduit le maximum.
Avantage : Simple et rapide a mettre programmer puisque l’estimateur estsimplement une fonction.
Inconvenient : Ne permet pas de traiter de nombreuses fonctions tropcomplexes.
![Page 166: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/166.jpg)
Descente du gradient
I On considere le probleme consistant a minimiser l’oppose de lavraisemblance.
I Pour minimiser une fonction f , on peut partir d’un point x (0) puisconstruire une suite
x (k+1) = x (k) − αk∇f (x (k))
ou αk∇f (x (k) designe le gradient, c’est-a-dire le vecteur de toutes lesderivees partielles evalees en x (k).
Avantage : General et rapide pour toute fonction convexe
Inconvenient : Si la fonction n’est pas convexe, l’algorithme reste enfermedans une seule ’cuvette’, qui ne correspond pas forcement a lameilleure solution.
![Page 167: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/167.jpg)
Exemple d’algorithme MCMC : Metropolis-Hastings par marche aleatoire
I Le principe des algorithmes MCMC est de simuler suivant la distributionproportionnelle a une fonction donnee en construisant une chaıne deMarkov dont la mesure limite est egale a la distribution en question.
I On choisit x0 quelconque et on applique (aussi longtemps que possible) lepas suivant
1. Generer yn ∼ g(y − xn), g symetrique
2. Choisir
xn+1 =
yn avec probabilite ρ(xn , yn)xn avec probabilite 1− ρ(xn , yn)
ou
ρ(x , y) = min f (y)
f (x), 1
![Page 168: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/168.jpg)
Algorithmes MCMC
I Algorithme de Metropolis-Hastings : une proposition de deplacement dansl’espace est faite et est acceptee avec une certaine probabilite
I Echantillonnage de Gibbs : les coordonnees sont changees une a une, maison accepte systematiquement la proposition
I Algorithme du recuit simule : adaptation de MH pour l’optimisation. Lataille des pas des propositions tend vers 0, ce qui amene l’algorithme aconverger vers une solution qu’on espere etre le maximum.
Avantage tout algorithme MCMC converge vers la bonne distribution
Inconvenient on ne sait jamais si on a deja converge ou pas : il peut resterune partie de l’espace ou la distribution n’est pas nulle mais quin’a pas encore ete explore. On parle de masse manquante
Conclusion il faut toujours faire tourner de tels algorithmes le pluslongtemps possible !
![Page 169: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/169.jpg)
Exemple
I jeu de donnees esoph sous R : nombre de cancer de l’oesophage et depatients sains dans un echantillon stratifie suivant l’age, la consommationd’alcool et la consommation de tabac.
I Yi la variable aleatoire correspondant a l’indicatrice du fait que l’individu ideveloppe un cancer de l’oesophage.
I modele de regression logistique :
log(P(Yi = 1)
1− P(Yi = 1)) = α+ βAgei + γTabi + δAlci
Question
Trouver un intervalle de confiance de niveau 95% pour la probabilite dedevelopper un cancer pour un individu dont les variables Agei , Tabi et Alcisont connues.
![Page 170: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/170.jpg)
Exemple
> #Calcul de la vraisemblance a une constante pres pour une valeur de Theta
> logit <- function(x)
+ return(exp(x)/(1+exp(x)))
+
> LogLikelihood <- function(Theta, data)
+ logL <- 0
+ coeffmatrix <- cbind(1,data$agegp,data$alcgp,data$tobgp) #matrice des coefficients correspondant a chaque possibilite
+ for (i in 1:dim(data)[1])
+ proba <- logit(t(Theta)%*%coeffmatrix[i,])
+ logL <- logL+log(proba)*data$ncases[i]+log(1-proba)*data$ncontrols[i]
+
+ logL <- logL + sum(log(dnorm(Theta))) # ajouter la loi a priori ou chacune prise comme loi normale central reduite
+ return(logL)
+
>
![Page 171: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/171.jpg)
Exemple> trajectoryRW <- function(Nsim,data,width,X0)
+
+ X <- matrix(X0,1,4)
+ proba <- c()
+ for (n in 2:Nsim)
+ Y <- runif(4,-width,width)
+ rho <- exp(LogLikelihood(X[n-1,]+Y,data) - LogLikelihood(X[n-1,],data))
+ X <- rbind(X, X[n-1,] + Y * (runif(1)<rho))
+ if (floor(n/100)==(n/100)) print(n)
+ s <- t(X[n,])%*%c(1,1,3,1)
+ proba <- c(proba,exp(s)/(1+exp(s)))
+
+ return(list(X=X,proba=proba))
+
> data <- esoph
> data$tobgp <- unclass(data$tobgp)
> data$alcgp <- unclass(data$alcgp)
> data$agegp <- unclass(data$agegp)
> trajectory <- trajectoryRW(10000,data,.1,c(0,0,0,0))
[1] 100
[1] 200
[1] 300
[1] 400
[1] 500
[1] 600
[1] 700
[1] 800
[1] 900
[1] 1000
[1] 1100
[1] 1200
[1] 1300
[1] 1400
[1] 1500
[1] 1600
[1] 1700
[1] 1800
[1] 1900
[1] 2000
[1] 2100
[1] 2200
[1] 2300
[1] 2400
[1] 2500
[1] 2600
[1] 2700
[1] 2800
[1] 2900
[1] 3000
[1] 3100
[1] 3200
[1] 3300
[1] 3400
[1] 3500
[1] 3600
[1] 3700
[1] 3800
[1] 3900
[1] 4000
[1] 4100
[1] 4200
[1] 4300
[1] 4400
[1] 4500
[1] 4600
[1] 4700
[1] 4800
[1] 4900
[1] 5000
[1] 5100
[1] 5200
[1] 5300
[1] 5400
[1] 5500
[1] 5600
[1] 5700
[1] 5800
[1] 5900
[1] 6000
[1] 6100
[1] 6200
[1] 6300
[1] 6400
[1] 6500
[1] 6600
[1] 6700
[1] 6800
[1] 6900
[1] 7000
[1] 7100
[1] 7200
[1] 7300
[1] 7400
[1] 7500
[1] 7600
[1] 7700
[1] 7800
[1] 7900
[1] 8000
[1] 8100
[1] 8200
[1] 8300
[1] 8400
[1] 8500
[1] 8600
[1] 8700
[1] 8800
[1] 8900
[1] 9000
[1] 9100
[1] 9200
[1] 9300
[1] 9400
[1] 9500
[1] 9600
[1] 9700
[1] 9800
[1] 9900
[1] 10000
> xRW <- as.mcmc(trajectory$X)
> prRW <- as.mcmc(trajectory$proba)
>
![Page 172: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/172.jpg)
Exemple
> plot(prRW,main='Proba')
0 4000 10000
0.1
0.3
0.5
Proba
Iterations
0.1 0.3 0.50
515
Proba
N = 9999 Bandwidth = 0.003334
![Page 173: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/173.jpg)
IV FILES D’ATTENTES
![Page 174: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/174.jpg)
Probleme
On considere un systeme accueillant des clients et gerant leur requetes.
Les questions qui se posent sont de determiner, en fonction des processusd’arrivee et de gestion des requete,
I la taille de la file d’attente
I la duree moyenne d’attente pour un client
![Page 175: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/175.jpg)
IV.1 Loi de Little
![Page 176: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/176.jpg)
Loi de Little
Loi de Little
Soit λ le nombre moyen d’arrivees par unite de temps, T le temps moyen passepar un client dans le systeme et N le nombre moyen de clients presents dans lesysteme.Alors
N = λT
Demonstration (avec les mains) : Considerons un intervalle de longueur t assezgrande. Supposons qu’on paye un euro par par client dans le systeme et parunite de temps.La somme payee vaut a peu pres Nt par definition de N .Durant cet intervalle, λt client entrent dans le systeme et chacun y reste enmoyenne T unites de temps.
Consequence
Etre capable d’etudier le comportement asymptotique de N nous donnera parla meme occasion le temps moyen d’attente dans le systeme.
![Page 177: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/177.jpg)
IV.2 Processus de Poisson
![Page 178: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/178.jpg)
Lois exponentielles et de Poisson
Loi exponentielle
Une variable aleatoire suit une loi exponentielle de parametre λ, et on noteX ∼ E(λ), si elle est a valeurs dans R+ de densite
fX (x) = λe−λx
On a alors E(X ) = 1λ
et Var(X ) = 1λ2
Loi de Poisson
Une variable aleatoire suit une loi de Poisson de parametre λ, et on noteX ∼ P(λ), si elle est a valeurs dans N et que
P(X = k) =λk
k !e−λ
On a alors E(X ) = λ et Var(X ) = λ
![Page 179: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/179.jpg)
Arrivees sans memoire
I On veut modeliser un processus d’arrivee sans memoire, c’est-a-dire que laprobabilite qu’un client arrive dans le prochain intervalle de longueur ∆test independant du moment d’arrivee du dernier client.
I Soit X la variable aleatoire modelisant le temps d’attente entre deuxvariables
P(X ≥ t + ∆t |X ≥ t) = P(X ≥ ∆t)
Propriete
Si X est une variable sans memoire, X suit une loi exponentielle.
![Page 180: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/180.jpg)
Processus de Poisson
On considere une suite de variables aleatoires (τi)i ∈ N i.i.d, de loiexponentielle E(λ) modelisant les temps successifs entre deux arrivees. On noteTn =
∑ni=1 τi .
Le processus de Poisson Nt d’intensite λ est la variable aleatoire comptant lenombre d’arrivee precedant l’instant t :
Nt =∑n≥1
I(Tn ≤ t)
Le nom de processus de Poisson est du a la propriete suivante.
Propriete
P(Nt = n) =(λt)n
n!e−λt
En d’autres termes, Nt ∼ P(λt).
![Page 181: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/181.jpg)
Proprietes plus fortes
Propriete
Soit t1 < t2 < . . . < tn une suite de points de temps. Alors les variables Nt1 ,Nt2 −Nt1 , Nt3 −Nt2 , . . . ,Ntn −Ntn−1 sont independantes et de loiP(λ(tk − tk−1))1≤k≤n .
Propriete
Conditionnellement a l’evenement Nt = n, les temps S1, . . . ,Sn sont repartiscomme n variables uniformes sur [0, t ], independantes et reordonnees par ordrecroissant.En d’autres termes, soit U1, . . . ,Un des v.a. i.i.d uniformes sur [0, t ]. Soit U(1)
la plus petite, U(2) la suivante, ... , U(n) la plus grande. Alors,
L(S1, . . . ,Sn |Nt = n) = L(U(1), . . . ,U(n))
![Page 182: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/182.jpg)
IV.3 Exponentielle de matrice et chaınes de Markov continues
![Page 183: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/183.jpg)
Exponentielle de matrice
I Soit Q une matrice carree. On definit l’exponentielle de Q par
eQ =
+∞∑k=0
1
k !Qk
I Elle est facile a calculer pour une matrice diagonale ou diagonalisable
I Si A et B commutent, eA+B = eAeB .
Theoreme
Soit P(t) une fonction matricielle. L’unique solution de
P ′(t) = P(t)Q
est P(t) = P(0)etQ .
![Page 184: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/184.jpg)
Chaınes de Markov continues - Definitions
I On considere un processus (Xt)t≥0 prenant ses valeurs dans un ensemblediscret, eventuellement infini. Il s’agit d’une chaıne de Markov si Xt+h |Xt
est independante de tout Xs , s < t .
I On definit P(t) par Pij (t) = P(Xt = i |X0 = j ).
I On definit la matrice Q telle que qij = limh→0P(Xt+h=j |Xt=i)
hsi i 6= j et
qii = −∑
j 6=i qij .
I Soit π(t) la distribution au temps t .
![Page 185: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/185.jpg)
Chaınes de Markov continues - Convergence
I P ′(t) = P(t)Q
I Si la chaıne est irreductible, π(t) converge vers l’unique mesure π verifiantπ = πP(1).
I Ceci est equivalent a πQ = 0.
![Page 186: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/186.jpg)
IV.3 File M/M/1/∞
![Page 187: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/187.jpg)
File M/M/1/∞
On considere une file dite M/M/1/∞ , c’est-a-dire regie par les lois suivantes :
I Les inclusions se font suivant un proscessus de Poisson de parametre λ
I Un seul client peut etre servi a la fois
I Le temps d’un service d’un client suit une loi exponentielle de parametreµ, et les temps de service des clients sont independants
I La file peut atteindre une longueur infinie.
Notons A(t) le nombre d’arrivees ayant eu lieu a l’instant t et D(t) le nombrede depart. Le nombre de clients presents est alors
N (t) = A(t)−D(t)
La question est de determiner le comportement de N (t).
![Page 188: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/188.jpg)
File M/M/1/∞ : λ > µ
E(A(t)) = λt et E(D(t)) = µt
donc
limn→+∞
E(N (t)) = +∞
On peut en fait montrer un resultat plus fort, a savoir que la file devient infinieavec probabilite 1.
![Page 189: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/189.jpg)
File M/M/1/∞ : λ = µ
Ce cas est d’un point de vue mathematique un cas a part que nous netraiterons pas et qui abooutit un resultat suivant :
I la file se vide infiniment souvent avec probabilite 1 (tout client finira doncpar etre servi)
I l’esperance du temps entre deux moments ou la file se vide est infinie.
D’un point de vue applicatif, seul le cas λ < mu est realiste.
![Page 190: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/190.jpg)
File M/M/1/∞ : λ < µ
I La file se vide en moyenne plus qu’elle e se remplit.
I Elle a tres peu de chances de devenir infinie et va donc essentiellement secomporter comme une chaıne de Markov.
I Elle tend vers une distribution limite a etablir.
![Page 191: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/191.jpg)
File M/M/1/∞ : λ < µ
I La file se vide en moyenne plus qu’elle e se remplit.
I Elle a tres peu de chances de devenir infinie et va donc essentiellement secomporter comme une chaıne de Markov.
I Elle tend vers une distribution limite a etablir.
Considerons un h petit
P(N (t + h)−N (t) = 1) = λh + o(h)
P(N (t + h)−N (t) = −1) = µh + o(h)
P(N (t + h)−N (t) > 1) = o(h)
P(N (t + h)−N (t) < −1) = o(h)
P(N (t + h)−N (t) = 0) = 1− λh − µh + o(h)
![Page 192: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/192.jpg)
File M/M/1/∞ : λ < µ
En faisant tendre h vers 0, on peut modeliser la taille de la file par une chaınede Markov continue de matrice de transitions
Q =
−λ λµ −λ− µ λ
µ −λ− µ λ...
Loi limite
Soit ρ = λµ
. La resolution de πQ = 0 donne
π(k) = ρkπ(0) avec π(0) = 1− ρ
La loi limite est donc une loi geometrique et
N =ρ
1− ρ
T =1
µ(1− ρ)
![Page 193: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/193.jpg)
Generalisation : principe
La demarche precedente reste valable pour de nombreux autres processusd’arrivees ou de traitement. Si les taux de transition entre les tailles de file nedependent que de la taille actuelle, l’approche par chaıne de Markov continuereste valable, seule les formules de recurrence changent.
En general, il est raisonnable de penser qu’on ne gagne ou ne perd qu’un clienta la fois, ce qui donne une matrice
Q =
−λ0 λ0
µ1 −λ1 − µ1 λ1
µ2 −λ2 − µ2 λ2
...
![Page 194: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/194.jpg)
Arrivees decouragees
Les arrivees sont d’autant plus rares que la file est deja grande :
λk =λ
k + 1et µk = µ
Alors π(k) = ρk
k !π(0) d’ou
N = ρ
T =ρ
µ(1− e−ρ)
![Page 195: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/195.jpg)
Autres generalisations
Cette approche permet de gerer toutes les files de type M/M :
M/M/1/K λk = λ si k ≤ K − 1, λk = 0 sinon.
M/M/m/∞ muk = kµ si k ≤ m, µk = mµ sinon.
M/M/m/K On considere les deux precedentes simultanement.
![Page 196: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/196.jpg)
![Page 197: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/197.jpg)
![Page 198: M1 Informatique Etienne Birmel e - Paris Descarteshelios.mi.parisdescartes.fr/~ebirmele/depots/... · M ediane Unem edianede l’ echantillon est un r eel m tel que la moiti e des](https://reader033.vdocument.in/reader033/viewer/2022050221/5f66dc903f429a6a083c4521/html5/thumbnails/198.jpg)