m1 informatique etienne birmel e - paris...

Post on 23-Jul-2020

0 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Probabilites et statistiques pour l’ingenieur

M1 InformatiqueEtienne Birmele

I. Statistiques descriptives

Types de variables

Une variable peut etre de trois types :

Nominale : variable categorielle sans hierarchie entre les differentes classes(sexe, espece, ...)

Ordinale : variable categorielle pour laquelle l’ordre des classes estsignificatif (indice de satisfaction ...). Elle peut etre convertieen variable quantitative.

Quantitative : variable numerique.

Echantillons

Definition

Un echantillon est un ensemble de mesures d’une meme variable sur desindividus differents.

Remarque : Les individus peuvent etre des personnes, des cellules, des actionsen bourse, etc .

Appariement

Des echantillons mesures sur les memes individus sont appeles echantillonsapparies.

Exemple : Des performances de sportifs avant et apres un entraınementspecifique.

Exemple de donnees

Jeu de donnees de 153 mesures de qualite de l’air de mai a octobre, mesurantsix variables :

I taux d’ozone

I rayonnement solaire

I vitesse du vent

I temperature

I mois

I jour

Disponible sous R par la commande data(airquality).

I.1 Description des variables categorielles

Description des variables categorielles

I La frequence d’une categorie est la proportion de l’echantillon representepar la categorie.

I Le mode d’un echantillon est la categorie de plus grande frequence.

I La representation des frequences se fait a l’aide d’histogrammes ou dediagrammes circulaires.

5 6 7 8 9

010

2030

I.2 Description des variables numeriques

Taux d’ozone

> airquality$Ozone

[1] 41 36 12 18 NA 28 23 19 8 NA 7 16 11 14 18 14 34 6

[19] 30 11 1 11 4 32 NA NA NA 23 45 115 37 NA NA NA NA NA

[37] NA 29 NA 71 39 NA NA 23 NA NA 21 37 20 12 13 NA NA NA

[55] NA NA NA NA NA NA NA 135 49 32 NA 64 40 77 97 97 85 NA

[73] 10 27 NA 7 48 35 61 79 63 16 NA NA 80 108 20 52 82 50

[91] 64 59 39 9 16 78 35 66 122 89 110 NA NA 44 28 65 NA 22

[109] 59 23 31 44 21 9 NA 45 168 73 NA 76 118 84 85 96 78 73

[127] 91 47 32 20 23 21 24 44 21 28 9 13 46 18 13 24 16 13

[145] 23 36 7 14 30 NA 14 18 20

Besoin de resumer l’information par au moins de deux valeurs, appeleesstatistiques : une pour definir le centre de l’echantillon, l’autre pour sadispersion.

Statistique de centre

Moyenne

La moyenne de l’echantillon x = (x1, . . . , xn) est definie

x =

∑ni=1 xi

n

[1] 42.12931

Mediane

Une mediane de l’echantillon est un reel m tel que la moitie des valeurs del’echantillon sont superieures ou egales a m et l’autre moitie sont inferieures.

[1] 31.5

Remarque : La mediane n’est pas unique si l’echantillon est de taille paire. Celaa peu d’impact en pratique s’il est assez grand.

Moyenne vs Mediane

I la formule close de la moyenne est plus simple pour faire des statistiques(estimation, vitesse de convergence ...)

I la mediane est beaucoup moins sensible que la moyenne aux erreurs demesure.

I comparer la mediane et la moyenne d’un echantillon permet d’avoir uneidee sur l’assymetrie de l’echantillon.

Variance et ecart-type

Definition : variance

La variance s2 de l’echantillon est definie par

var(x) = s2 =1

n − 1

n∑i=1

(xi − x)2

Definition : ecart-type

L’indicateur de dispersion associe a la moyenne est l’ecart-type s del’echantillon, correspondant a la racine carree de la variance.

σ(x) = s =√

var(x)

Variance et ecart-type

Interpretation

Plus l’ecart-type et la variance sont grands, plus l’echantillon est disperse.

> var(airquality$Ozone[airquality$Month==5],na.rm=TRUE)

[1] 493.9262

> sd(airquality$Ozone[airquality$Month==5],na.rm=TRUE)

[1] 22.22445

> sd(airquality$Ozone[airquality$Month==8],na.rm=TRUE)

[1] 39.68121

Remarques

I l’ecart-type est homogene avec les donnees en terme d’unite de mesure,contrairement a la variance

I remplacer xi par yi = xi−xs

conserve le les positions relatives des donneesen ramenant la moyenne a 0 et l’ecart-type a 1. y un l’echantillonnormalise.

Quantiles

Definition : quantile

Pour tout 0 ≤ p ≤ 1, un quantile d’ordre p est un nombre q tel que la fractionde l’echantillon inferieure ou egale a q est p.

I Une mediane est par exemple un quantile d’ordre 0.5.

I Le quantile q1 d’ordre 0.25 et le quantile q3 d’ordre 0.75 sont appelespremier et troisieme quartile.

I Les distances m − q1 et q3 −m sont des indicateurs de la dispersion del’echantillon.

Quantiles

> quantile(airquality$Ozone,probs=c(0,.25,.5,.75,1),na.rm=TRUE)

0% 25% 50% 75% 100%

1.00 18.00 31.50 63.25 168.00

I des disparites entre q3 −m et m − q1 permettent de detecter uneassymetrie dans l’echantillon, ce qui ne peut pas etre mis en evidence parl’ecart-type.

I la remarque sur la non-unicite de la mediane reste valable pour lesquantiles.

I les quartiles, tout comme la mediane, sont moins sensibles aux erreurs demesure.

Points extremes

Definition : point extreme

On appelle point extreme toute valeur inferieure a q1 − 1, 5(q3 − q1) ousuperieure a q3 + 1, 5(q3 − q1).

I maniere de caracteriser les mesures qui s’ecartent clairement des autres

I un point extreme peut correspondre a une erreur de mesure

I un point extreme peut etre primordial dans l’interpretation des donnees

La boıte a moustache (boxplot)

La boıte a moustache est un graphique resumant l’echantillon :

I boıte dont la hauteur est definie par q1 et q3.

I trait epais a hauteur de m

I moustache au-dessous de la boıte : de q1 au minimum de l’echantillon s’iln’y a pas de point extreme bas. Sinon, la moustache s’arrete enq1 − 1, 5× EIQ .

I moustache au-dessus : de q3 soit au maximum de l’echantillon, soit aq3 + 1, 5× EIQ

I eventuels points extremes

La boıte a moustache (boxplot)

Outil visuel pour resumer un echantillon et les comparer (grossierement, cftests).

5 6 7 8 9

050

100

150

Correlation

Definition

(x1, . . . , xn) et (y1, . . . , yn) deux echantillons correspondant a deux grandeursmesurees sur les memes individus. Leur covariance est

cov(x,y) =1

n − 1

n∑i=1

(xi − x)(yi − y)

La version normalisee, appelee correlation, est

corr(x,y) =cov(x,y)

sxsy

> cor(airquality$Ozone,airquality$Temp,use='pairwise.complete.obs')

[1] 0.6983603

> cor(airquality$Ozone,airquality$Wind,use='pairwise.complete.obs')

[1] -0.6015465

> cor(airquality$Ozone,airquality$Temp)

[1] NA

Correlation

I La correlation est toujours comprise entre −1 et 1.

I Une correlation proche de 1 indique que X et Y ont tendance a avoir desvariations communes (correlation positive).

I Une correlation proche de −1 indique que X et Y ont tendance a avoirdes variations opposees (correlation negative).

I Si les deux variables mesurees sont independantes, la correlation desechantillons sera proche de 0. L’inverse n’est cependant pas forcement vrai.

II. Probabilites

II.1 Evenements

Evenement

Definition :evenement

Une experience aleatoire E a pour issues possibles les valeurs ω d’un ensembleΩ.Ω est l’univers.On appelle evenement tout sous-ensemble de Ω.

Exemple : Pour l’experience consistant a lire aleatoirment deux nucleotidessuccessifs d’une sequence d’ADN

Ω = AA,AC ,AG,AT ,CA,CC ,CG,CT ,GA,GC ,GG,GT ,TA,TC ,TG,TT

Notations

∅ ensemble vide ne contient aucun elementA ∩ B intersection de A et B A et B sont realisesA ∪ B Union de A et B A ou B est realiseAc complementaires de A dans Ω A n’est pas realiseA ⊂ B A inclus dans B la realisation de A implique la realisation de B

A\B A moins B A est realise et B n’est pas realise

Deux evenements sont disjoints si ils ne peuvent se produire en meme temps :A ∩ B = ∅.

Probabilite

Definition : Probabilite

Une probabilite est une fonction P assignant a tout evenement A un reel P(A)entre 0 et 1 et telle que

1. P(∅) = 0 et P(Ω) = 1 ;

2. Si A et B sont deux evenements disjoints, alors P(A ∪B) = P(A) + P(B).

I Des probabilites differentes peuvent etre definies sur un meme univers.

I On parle en general de loi de probabilite pour designer une fonction P.

IMPORTANT ! ! !

En general, la formule

probabilite =#cas favorables

#cas possibles

est FAUSSE

Elle n’est vraie que dans le cas d’experiences equiprobables, c’est-a-dire avecdes univers finis et dont tous les elements individuels on la meme probabilite.

Pour s’en souvenir

Une personne prise au hasard n’a pas une chance sur deux d’etre asthmatique.

Proprietes

1. P(A ∪ B) = P(A) + P(B)− P(A ∩ B) ;

2. P(Ac) = 1− P(A) ;

3. Si A ⊂ B , alors P(A) ≤ P(B).

Discret vs Continu

Les univers peuvent etre de trois types :

I Un nombre fini d’issues possibles

I Un ensemble infini mais denombrable d’issues possibles (on peut lesenumerer comme dans le cas des entiers)

On parle d’univers discret et de loi de probabilite discrete.

I Un ensemble infini et indenombrable d’issues possibles (un intervalle parexemple)

On parle alors d’univers continu et de loi de probabilite continue.

Loi discrete

I Une loi de probabilite discrete est definie de facon unique par la donneedes P(ω), ω ∈ Ω

I Pour tout evenement A, P(A) =∑ω∈A P(ω)

Exemple :Read AA AC AG AT CA CC CG CTPr. .03 .05 .05 .07 .05 .08 .12 .05

Read GA GC GG GT TA TC TG TTPr. .05 .12 .08 .05 .07 .05 .05 .03

La probabilite d’avoir A en premiere lettre est

P(A.) = P(AA) + P(AC ) + P(AG) + P(AT ) = .2

Loi continueI La loi est definie par une fonction f positive telle que

∫Ωf (x)dx = 1.

I Pour tout evenement A, P(A) =∫Af (x)dx

I Pour tout ω ∈ Ω, P(ω) = 0

Exemple : Ω = [−1, 1], f (x) = 1− |x |.

P([0.5 : 1]) =

∫ 1

0.5

(1− x)dx =1

8

−2 −1 0 1 2

0.0

0.6

Probabilites conditionnelles

Definition : probabilite conditionnelle

Soit A et B deux evenements de B(Ω), avec P(B) 6= 0. On appelle probabiliteconditionnelle de A sachant B le reel

P(A|B) =P(A ∩ B)

P(B).

Probabilites conditionnelles

Definition : probabilite conditionnelle

Soit A et B deux evenements de B(Ω), avec P(B) 6= 0. On appelle probabiliteconditionnelle de A sachant B le reel

P(A|B) =P(A ∩ B)

P(B).

Proposition

Soit B un evenement tel que P(B) > 0. L’application A 7→ P(A|B) est uneprobabilite sur (Ω,B(Ω)), notee P(·|B) ou PB (·), et appelee loi de probabiliteconditionnelle sachant B .

On a donc les propriete classiques d’une probabilite. En particulier

P(A|B) = 1− P(Ac |B).

Par contreP(A|B) 6= 1− P(A|Bc).

Conditionnement - Formule de Bayes

On deduit de la definition des probabilites conditionnelles que

P(A ∩ B) = P(A|B)P(B) (Conditionnement)

puis que

P(A|B) =P(B |A)P(A)

P(B)(Formule de Bayes)

Exemple : Un laboratoire mettant en place un test sanguin pour une maladiepeut evaluer les probabilites P(positif |sain) et P(positif ). Si on connaıtl’incidence P(malade) de la maladie dans la population, on peut en deduire laprobabilite qu’un individu dont le test est positif est en fait sain :

P(sain|positif ) =P(positif |sain)(1− P(malade))

P(positif )

Formule des probabilites totales

Proposition

Soit (Bk )1≤k≤N une partition de Ω telle que P(Bk ) > 0 pour tout k . Alors,pour tout evenement A :

P(A) =∑

1≤k≤N

P(A ∩ Bk ) =∑

1≤k≤N

P(A|Bk )P(Bk ).

En particulier, P(A) = P(A|B)P(B) + P(A|Bc)P(Bc).

Exemple : Dans l’exemple precedent, il est plus simple d’evaluer P(positif |sain)et P(positif |malade). On en deduit

P(sain|positif ) =P(positif |sain)(1− P(malade))

P(positif |sain)(1− P(malade)) + P(positif |malade)P(malade)

Independance d’evenements

Definition : independance

A et B sont deux evenements independants si P(A ∩ B) = P(A)P(B).

Interpretation

Si P(B > 0), alors A et B sont independants ssi P(A|B) = P(A).L’independance de A et B signifie donc qu’avoir des indications sur larealisation ou non de B ne change pas la probabilite qu’on a de voir A serealiser.

Independance d’evenements

Definition : independance

A et B sont deux evenements independants si P(A ∩ B) = P(A)P(B).

Interpretation

Si P(B > 0), alors A et B sont independants ssi P(A|B) = P(A).L’independance de A et B signifie donc qu’avoir des indications sur larealisation ou non de B ne change pas la probabilite qu’on a de voir A serealiser.

Plus generalement, une famille d’evenements (Ai)i∈I est dite familled’evenements (mutuellements) independants si pour toute partie J ⊂ I on a

P(∩i∈JAi) = Πi∈JP(Ai).

Des evenements mutuellement independants sont deux a deux independantsmais l’inverse n’est pas toujours vrai.

II.2 Variables aleatoires

Variable aleatoire

Definition : variable aleatoire

Considerons un processus aleatoire d’univers Ω. On appelle variable aleatoireune fonction de l’ espace Ω dans R.En considerant X (Ω) comme un nouvel univers et X (ω) comme la realisationcorrespondant a ω, on obtient une loi de probabilite sur les sous-ensembles deX (Ω). Elle est appelee loi de probabilite de la variable aleatoire.

Exemple : Considerons une grille de loto remplie et le processus aleatoirecorrespondant au tirage. Ω est l’ensemble des 6-uplets d’entiers entre 0 et 49.Si X est le nombre de bons numeros, X (Ω) = 0, 1, 2, 3, 4, 5, 6 et la loi deprobabilite de X correspond au probabilites d’avoir aucun, un, ... bons numeros.On pourrait raisonner de meme en prenant pour X le gain realise.

Fonction de repartition

Definition : fonction de repartition

On appelle fonction de repartition de la variable aleatoire X la fonction FX

definie pour t dans R, par FX (t) = P(X ≤ t). C’est une fonction croissante,tendant vers 0 en −∞ et vers 1 en +∞.

La fonction de repartition caracterise la loi d’une variable aleatoire. Autrementdit deux variables aleatoires ayant meme fonction de repartition, ont meme loi.

V.a discrete

Loi

La loi de la variable aleatoire X est donnee par les probabilitesP(X = x), pour tout x dans X (Ω), telles que

∑x∈X (Ω) P(X = x) = 1.

Fonction de repartition

La fonction de repartition est une fonction en escalier. Si X prend la valeur xavec une probabilite non nulle, la courbe de FX (t) presente un saut de hauteurP(X = x) en t = x .

02

4

−2 2 6 100

48

V.a continue

Loi

La loi de X est definie par une fonction fX nommee densite, qui est positive ettelle que

∫IfX (t)dt = 1.

Fonction de repartition

FX (t) =∫ x

−∞ f (t)dt donc F ′X (t) = fx (t).

−3 −1 1 3

0.0

0.2

0.4

−3 −1 1 30.

00.

40.

8

Esperance

Esperance

L’esperance caracterise le comportement moyen de la variable aleatoire.Elle est definie pour une variable discrete par

E(X ) =∑

x∈X (Ω)

xP(X = x)

et pour une variable continue par

E(X ) =

∫ +∞

−∞tfX (t)dt .

Variance

Variance

La variance caracterise la dispersion de la variable autour de l’esperance. Elleest definie par

Var(X ) = E[(X − E(X ))2]

ou alternativementVar(X ) = E(X 2)− E(X )2.

Plus generalement, le moment d’ordre p de X est defini, s’il existe, parM p = E(X p).

Proprietes de l’esperance et de la variance

1. E(aX + bY ) = aE(X ) + bE(Y ). L’esperance est lineaire.

2. Var(X ) ≥ 0.

3. Var(aX + b) = Var(aX ) = a2Var(X ).

4. [E(X )]2 ≤ E(X 2). Inegalite de Cauchy-Schwarz.

5. Z = (X − E(X ))/√

Var(X ) verifie E(Z ) = 0 et Var(Z ) = 1. On dit queZ est une variable centree et reduite.

Couples de variables

(X ,Y ) est un couple de variable aleatoire si X et Y sont des variablesaleatoires. L’etude du couple permet d’etudier les liens entre ces variables.

Definition : Loi du couple

La loi d’un couple de variable aleatoire est comme dans le cas donne parl’ensemble des valeurs possibles et des probabilites correspondantes.Dans le cas discret, cela revient a lister l’ensemble des valeursP(X = x ,Y = y) pour tous les couples (x , y).Dans le cas continu, cela revient a definir une fonction de densite a deuxvariables f (x , y) qui permet de calculer P(X ∈ I ,Y ∈ J ) pour tout coupled’intervalles a l’aide d’integrales doubles.

Marginales

I La donnee de la loi de (X ,Y ) permet de determiner la loi de X et celle deY . Ces lois sont appelees les lois marginales du couple.

I Connaıtre la loi du couple permet de determiner les marginales. L’inversen’est pas vrai.

Variables independantes

Definition : variables independantes

Les variables X et Y sont independantes si et seulement si la loi du couple estle produit des lois marginales.Dans le cas discret, cela veut dire que pour tous x ∈ X (Ω) et y ∈ Y (Ω), on a

P(X = x ∩Y = y) = P(X = x)P(Y = y).

Dans le cas continu, cela se traduit pas f(X ,Y )(x , y) = fX (x)fY (y).

I L’interpretation est la meme que dans le chapitre des statistiquesdescriptives : X et Y sont independantes si ils n’ont aucune influence l’unsur l’autre.

I Dans le cas de l’exemple des dinucleotides,P(XY = AT ) 6= P(X = A)P(Y = T ). Deux nucleotides successifs nesont pas independants.

Covariance et correlation

Definition : covariance et coorelation

On appelle covariance entre X et Y , la quantite

Cov(X ,Y ) = E [(X − E(X ))(Y − E(Y ))]

La covariance n’etant pas stable par changement d’echelle, on definit lacorrelation entre X et Y

Corr(X ,Y ) =Cov(X ,Y )√

Var(X )√

Var(Y ).

Proprietes de la correlation et de la covariance

I Si X et Y sont independantes, alors Cov(X ,Y ) = Corr(X ,Y ) = 0.L’inverse est faux

I Cov(X ,X ) = var(X ) et Corr(X ,X ) = 1.

I Var(X + Y ) = Var(X ) + Var(Y ) + 2Cov(X ,Y ).En particulier, si X et Y sont independantes alorsVar(X + Y ) = Var(X ) + Var(Y ).

I Soient X1, · · · ,Xn , n variables aleatoires independantes. AlorsVar(

∑ni=1 Xi) =

∑ni=1 Var(Xi).

II.3 Loi normale

Loi normale (ou gaussienne) centree reduite

Definition : loi normale centree reduite

Une variable aleatoire X suit une loi normale (ou gaussienne) centree reduite eton note X ∼ N (0, 1) si la variable X est a valeurs dans R et si sa densite fXest donnee par

fX (x) =1√2π

exp(−x2

2).

−3 −2 −1 0 1 2 3

0.0

0.2

0.4

Loi normale (ou gaussienne) centree reduite

Definition : loi normale centree reduite

Une variable aleatoire X suit une loi normale (ou gaussienne) centree reduite eton note X ∼ N (0, 1) si la variable X est a valeurs dans R et si sa densite fXest donnee par

fX (x) =1√2π

exp(−x2

2).

X verifie alors E(X ) = 0 et VarX = 1.

Loi normale (ou gaussienne)

Definition : loi normale

Une variable aleatoire X suit une loi normale (ou gaussienne) et on noteX ∼ N (µ, σ∈) si la variable X est a valeurs dans R et si sa densite fX estdonnee par

fX (x) =1

σ√

2πexp

[− (x − µ)2

2σ2

].

−4 −2 0 2 4 6 8

0.02

0.08

Loi normale (ou gaussienne)

Definition : loi normale

Une variable aleatoire X suit une loi normale (ou gaussienne) et on noteX ∼ N (µ, σ∈) si la variable X est a valeurs dans R et si sa densite fX estdonnee par

fX (x) =1

σ√

2πexp

[− (x − µ)2

2σ2

].

X verifie alors E(X ) = µ et VarX = σ2.

Influence des parametres µ et σ

−4 0 2 4

0.0

0.2

0.4

−4 0 2 4

0.0

0.2

0.4

A droite, les lois sont toutes d’ecart-type 1 et d’esperance −2 (vert), 0 (rouge)et 2 (bleu). A droite, les densites sont toutes d’esperance 0 et d’ecarts-types0.25 (vert), 1 (rouge) et 4 (bleu).

Proprietes de la loi normale

I La variable X de loi N (µ, σ2) est symetrique autour de µ, sa mediane estegale a son esperance.

I Si X ∼ N (µ, σ2) alorsX − µσ

∼ N (0, 1).

I Si X ∼ N (µ, σ2) et Y ∼ N (µ′, σ′2) sont deux variables aleatoiresgaussiennes independantes, alors X + Y ∼ N (µ+ µ′, σ2 + σ′2).

Importance de la loi normale

I Loi modelisant de nombreuses situations reelles

I Theoreme central limite (TCL)

Loi des grands nombres

Theoreme

Loi des grands nombres Soient X1,X2, · · · ,Xn , n variables aleatoires de memeloi qu’une variable aleatoire X . Alors, presque surement (c’est-a-dire avecprobabilite 1),

limn→+∞

X1 + . . .+ Xn

n= µ

Plus la taille de l’echantillon augmente, plus la moyenne empirique (observeesur l’echantillon) est proche de l’esperance (moyenne theorique).

Theoreme Central Limite

Theoreme

Soient X1, · · · ,Xn des variables aleatoires independantes et identiquementdistribuees d’esperance µ et de variance σ2. On note X n = n−1∑n

i=1 Xi . Alors

la loi de Xn−µσ/√n

tend vers la loi normale centree reduite.

Ceci s’ecrit aussi : pour tous a et b reels,

P[a ≤√n

(Y n − µ

σ

)≤ b

]→ P(a ≤ Z ≤ b), (1)

ou Z est une variable gaussienne centree reduite, Z ∼ N (0, 1).

Ce resultat reste vrai quand σ est remplace par σ, un estimateur consistant deσ, en particulier pour l’estimateur de la variance defini au chapitre desstatistiques descriptives.

II.4 Autres lois usuelles discretes

Loi de Bernoulli

I Experience ayant deux issues possibles (succes/echec)

I X v.a. valant 1 en cas de succes,0 sinon

I p la probabilite de succes

X est une variable de Bernoulli. et on le note X ∼ B(p).

I P(X = 1) = p et P(X = 0) = 1− p.

I E(X ) = p et Var(X ) = p(1− p).

Loi Binomiale B(n, p)On repete n fois, dans des conditions identiques, une experience aleatoire deBernoulli de parametre p. On note X le nombre de succes parmi les nexperiences independantes.

I X nombre de succes parmi n experiences de Bernoulli independantesidentiques.

I ensemble des valeurs possibles 0, · · · ,nI P(X = k) = C k

n pk (1− p)n−k , pour tout k ∈ 0, · · · ,n.

I E(X ) = np et Var(X ) = np(1− p).

0 10 20 30 40

0.00

0.06

0.12

Loi de Poisson P(λ)I ensemble des valeurs possibles est NI

P(X = k) = exp (−λ)λk

k !, pour tout k ∈ N.

I E(X ) = λ et Var(X ) = λ.

0 10 20 30 40

0.00

0.06

0.12

Loi de Poisson

Applications

Deux applications principales et courantes :

I Une loi binomiale de parametres n et p avec n grand et p faible peut etreapprochee par une loi de Poisson de parametre np.Exemples : Nombre de mutations lors d’une copie d’ADN, nombre defoyers d’une epidemie ...

I Si un processus suit un temps d’attente exponentiel entre deuxevenements, le nombre d’evenements pendant un temps donnee suit uneloi de PoissonExemples : Nombre de mutations au cours du temps, de desintegrationsatomiques, d’arrivees dans une file d’attente .... pendant un temps donne

Loi geometriqueI X designe le nombre de repetitions d’une experience de Bernoulli

necessaires pour obtenir un succesI ensemble des valeurs possibles est N∗I P(X = k) = p(1− p)k−1, pour tout k ∈ N∗I E(X ) = 1

pet Var(X ) = 1−p

p2 .

5 10 15

0.00

0.15

0.30

Loi uniforme discrete

I Valeurs possibles sont 1, ...,N .I P(X = k) = 1

N, pour tout k ∈ 1, · · · ,N .

I E(X ) = N+12

et Var(X ) = N2−112

.

2 4 6 8 10

0.06

0.10

0.14

Loi uniforme discrete

I Valeurs possibles sont 1, ...,N .I P(X = k) = 1

N, pour tout k ∈ 1, · · · ,N .

I E(X ) = N+12

et Var(X ) = N2−112

.

Application

Loi correspondant aux situations d’equiprobabilite.

Loi Hypergeometrique H(N ,n, p)

I Population de N individus dont une proportion p est rouge

I On preleve au hasard, sans remise un echantillon de n individus

I X nombre d’individus rouges dans l’echantillon

I P(X = k) =C k

Np×Cn−kN(1−p)

CnN

, pour tout k tel que max(0,n −N (1− p)) ≤k ≤ min(n,Np).

I E(X ) = np et Var(X ) = N−nN−1

np(1− p).

Application

Tests d’enrichissements

II.4 Autres lois usuelles continues

Loi uniforme U[a,b]

I X est a valeurs dans [a, b]

I sa densite fX est donnee par fX (x) = 1/(b − a) Ix∈[a,b]

I E(X ) = (b + a)/2 et Var(X ) = (b − a)2/12

0 1 2 3 4 5 6

0.00

0.15

Loi exponentielle E(λ)

I X est a valeurs dans R+

I sa densite fX est donnee par fX (x) = λe−λx Ix≥0

I E(X ) = 1/λ et Var(X ) = 1/λ2.

0 2 4 6 8 10

0.0

1.0

Loi exponentielle E(λ)

I X est a valeurs dans R+

I sa densite fX est donnee par fX (x) = λe−λx Ix≥0

I E(X ) = 1/λ et Var(X ) = 1/λ2.

Application

Modelisation des temps d’attente sans memoire (la date du prochainevenement d’interet ne depend pas de la date du dernier a avoir eu lieu).

Lois du Chi-Deux, de Student et de Fisher

Les lois du Chi-Deux, de Student et de Fisher ne servent pas a des fins demodelisation mais sont tabulees dans tout logiciel de statistique en raison deleur grande utilite dans le cadre des tests.

III. TESTS STATISTIQUES

Test

Definition

Un test statistique est une procedure de decision entre deux hypothesesconcernant un ou plusieurs echantillons.

Exemple : On considere deux series de personnes soumises les unes a unmedicament, les autres a un placebo. On mesure les tensions arterielles dans lesdeux groupes.Au vu des resultats, le medicament a-t-il un effet sur la tension ?

Hypotheses

Definition

L’hypothese nulle notee H0 est celle que l’on considere vraie a priori. Le but dutest est de decider si cet a priori est credible.L’hypothese alternative notee H1 est l’hypothese complementaire de H0.

Exemple : Sous H0, le medicament n’a pas d’influence, sous H1 il en a une.

Hypotheses

Definition

L’hypothese nulle notee H0 est celle que l’on considere vraie a priori. Le but dutest est de decider si cet a priori est credible.L’hypothese alternative notee H1 est l’hypothese complementaire de H0.

Exemple : Sous H0, le medicament n’a pas d’influence, sous H1 il en a une.

Attention

I Les deux hypotheses ne sont pas symetriques. H1 est choisie uniquementpar defaut si H0 n’est pas consideree comme credible.

I Le choix de H0 et de H1 est en general impose par le test qu’on utilise etne releve donc pas de l’utilisateur.

Ecriture des hypotheses

Soit µ1 et µ2 les moyennes de tension des deux populations correspondant a laprise de medicament ou de placebo. Une maniere de demontrer que lemedicament modifie la tension est de montrer que µ2 est different de µ1.

Les hypotheses deviennent alors H0 : les moyennes des deux populations sontegales et H0 : les moyennes des deux populations sont differentes . Onl’ecrit succintement sous la forme :

H0 : µ1 = µ2

H1 : µ1 6= µ2

Ecriture des hypotheses

Question 1

La moyenne de la tension dans le premier groupe est de 13,4. La moyenne de latension dans le second groupe est de 12,8.

Le medicament est-il efficace ?

Question 2 (pour ceux qui ont repondu oui)

Je lance six fois un de, puis fais 50 pompes, puis relance six fois un de. Mapremiere serie de lancers vaut en moyenne 3,1. La seconde serie vaut enmoyenne 3,7.

Les pompes m’ont-elles rendues meilleur au lancer de de ?

Reponse

On n’en sait rien a ce stade !

Ecriture des hypotheses

Question 1

La moyenne de la tension dans le premier groupe est de 13,4. La moyenne de latension dans le second groupe est de 12,8.

Le medicament est-il efficace ?

Question 2 (pour ceux qui ont repondu oui)

Je lance six fois un de, puis fais 50 pompes, puis relance six fois un de. Mapremiere serie de lancers vaut en moyenne 3,1. La seconde serie vaut enmoyenne 3,7.

Les pompes m’ont-elles rendues meilleur au lancer de de ?

Reponse

On n’en sait rien a ce stade !

Ecriture des hypotheses

Question 1

La moyenne de la tension dans le premier groupe est de 13,4. La moyenne de latension dans le second groupe est de 12,8.

Le medicament est-il efficace ?

Question 2 (pour ceux qui ont repondu oui)

Je lance six fois un de, puis fais 50 pompes, puis relance six fois un de. Mapremiere serie de lancers vaut en moyenne 3,1. La seconde serie vaut enmoyenne 3,7.

Les pompes m’ont-elles rendues meilleur au lancer de de ?

Reponse

On n’en sait rien a ce stade !

Ecriture des hypotheses

Attention

Les moyennes x1 et x2 des echantillons resultents d’echantillonnages, et ne sontdonc que des estimations de µ1 et µ2. Ce n’est pas parce qu’elles sontdifferentes que µ1 et µ2 le sont (et vice-versa, mais c’est rare !).

Comparer les moyennes des echantillons ne peut en aucun cas suffire !

Ecriture des hypotheses

Attention

Les moyennes x1 et x2 des echantillons resultents d’echantillonnages, et ne sontdonc que des estimations de µ1 et µ2. Ce n’est pas parce qu’elles sontdifferentes que µ1 et µ2 le sont (et vice-versa, mais c’est rare !).

Comparer les moyennes des echantillons ne peut en aucun cas suffire !

Les signes =, 6=, > et ≤ dans l’ecriture succinte des hypotheses necorrespondent pas a l’egalite ou aux inegalites au sens mathematique du terme.Il s’agit d’une facon d’ecrire :

H0 : Il est credible de penser que µ1 = µ2

H1 : µ1 est significativement different de µ2

Statistique

L

a statistique de test S est une fonction qui resume l’information sur l’echantillonqu’on veut tester. On la choisit de facon a pouvoir calculer sa loi sous H0.

I S est une variable aleatoire, definie independemment des donneesobservees. La valeur que prend cette variable aleatoire pour les donneesobservees sera appelee statistique observee et notee Sobs dans la suite.

I Suivant le type de statistique choisi, le test sera parametrique ounon-parametrique.

Statistique

Definition : test parametrique

Un test parametrique est un test pour lequel on fait une hypothese sur la formedes donnees sous H0 (normale, Poisson, ...). Les hypotheses du test concernantalors les parametres gouvernant cette loi.

Exemple : On suppose que la tension sous medicament suit une loi N (µ1, σ1)et celle sous placebo suit une loi N (µ2, σ2).

H0 : µ1 = µ2

H1 : µ1 6= µ2

S =x1 − x2

σ√

1n

+ 1m

ou σ =

√(n − 1)σ1

2 + (m − 1)σ22

n + m − 2

La loi de S sous H0 est connue (loi de Student)

Statistique

Definition : test non-parametrique

Un test non parametrique est un test ne necessitant pas d’hypothese sur laforme des donnees. Les donnees sont alors remplacees par des statistiques nedependant pas des moyennes/variances des donnees initiales (tables decontingence, statistique d’ordre ...).

Exemple : on classe les tensions de tous les individus par ordre croissant et onregarde comment sont classes les personnes sont medicaments. On obtient parexemple

M M P M M P M P P M P P

S est alors la somme des rangs des individus sous medicaments. On peutdeterminer sa loi sous H0.

Region de rejet - Lateralite

Definition

La region de rejet est le sous-ensemble I de R tel qu’on rejette H0 si Sobs

appartient a I.

Definir une procedure de test peut donc se faire en definissant

1. une statistique

2. une region de rejet pour cette statistique

Exemple : Les test medicaux figurant sur une prise de sang, comme le taux defer.

H0 : La ferritine est entre 20 et 300µg/L

H1 : La ferritine est trop haute ou trop basse

Region de rejet - Lateralite

Definition

La region de rejet est le sous-ensemble I de R tel qu’on rejette H0 si Sobs

appartient a I.

La forme de la region de rejet definit la lateralite du test :

I test multilateral : On veut rejetter H0 si Sobs est trop grand ou trop petit,sans a priori. La region de rejet est alors de la forme ]−∞, a] ∪ [b,+∞[.

I test unilateral a droite : On veut rejetter H0 seulement si Sobs est tropgrand. La region de rejet est alors de la forme [a,+∞[.

I test unilateral a gauche : On veut rejetter H0 seulement si Sobs est troppetit. La region de rejet est alors de la forme ]−∞, b].

Exemples

On considere toujours des medicaments reduisant la tension arterielle. Quellessont les hypotheses pour repondre aux questions suivantes ?

I Comparaison entre deux medicaments en vente

H0 : µ1 = µ2

H1 : µ1 6= µ2

I Interet d’un nouveau medicament plus cher que l’existant.

H0 : µnew ≥ µold

H1 : µnew < µold

I Interet d’un nouveau medicament moins cher que l’existant.

H0 : µnew ≤ µold

H1 : µnew > µold

Exemples

On considere toujours des medicaments reduisant la tension arterielle.

I Comparaison entre deux medicaments en vente

H0 : µ1 = µ2

H1 : µ1 6= µ2

I Interet d’un nouveau medicament plus cher que l’existant.

H0 : µnew ≥ µold

H1 : µnew < µold

I Interet d’un nouveau medicament moins cher que l’existant.

H0 : µnew ≤ µold

H1 : µnew > µold

Probabilite critique

Definition

La probabilite critique (ou p-valeur) est la probabilite, sous H0, que lastatistique soit au moins aussi eloignee de son esperance que la valeur observee.En d’autres termes, c’est la probabilite d’observer quelque chose d’au moinsaussi surprenant que ce que l’on observe.

I Si le test est unilateral a droite, la probabilite critique est P(S > Sobs).

Sobs

Probabilite critique

Definition

La probabilite critique (ou p-valeur) est la probabilite, sous H0, que lastatistique soit au moins aussi eloignee de son esperance que la valeur observee.En d’autres termes, c’est la probabilite d’observer quelque chose d’au moinsaussi surprenant que ce que l’on observe.

I Si le test est unilateral a gauche, la probabilite critique est P(S < Sobs).

Sobs

Probabilite critique

Definition

La probabilite critique (ou p-valeur) est la probabilite, sous H0, que lastatistique soit au moins aussi eloignee de son esperance que la valeur observee.En d’autres termes, c’est la probabilite d’observer quelque chose d’au moinsaussi surprenant que ce que l’on observe.

I Si le test est bilateral et que la loi de la statistique est symetrique parrapport a 0, la probabilite critique est P(|S | > |Sobs |).

Sobs

Risque de premiere espece ou confiance

Definition

Le risque de premiere espece α est la probabilite sous H0 de la region de rejet.En d’autres termes, il s’agit de la proabilite avec laquelle on accepte de deciderH1 si la verite est H0.

α = PH0(H1)

La quantite 1− α est la confiance du test.

En d’autres termes, une proportion α des situations dans lesquelles la verite estH0 verront une decision en faveur de H1.

α est la probabilite avec laquelle on accepte de se tromper quand la veriteest H0

Autre maniere de mener le test

On peut comparer la p-valeur a α plutot que Sobs et la region de rejet.I si la p-valeur est superieure a α, il n’est pas exceptionnel sous H0

d’observer la valeur effectivement observee. Par consequent, H0 estacceptee.

I si la p-valeur est inferieure a α, la valeur observee est jugee exceptionnellesous H0. On decide alors de rejeter H0 et de valider H1.

Acceptation

Seuil

5%

Sobs

Autre maniere de mener le test

On peut comparer la p-valeur a α plutot que Sobs et la region de rejet.I si la p-valeur est superieure a α, il n’est pas exceptionnel sous H0

d’observer la valeur effectivement observee. Par consequent, H0 estacceptee.

I si la p-valeur est inferieure a α, la valeur observee est jugee exceptionnellesous H0. On decide alors de rejeter H0 et de valider H1.

Rejet

Seuil

5%

Sobs

Autre maniere de mener le test

On peut comparer la p-valeur a α plutot que Sobs et la region de rejet.

I si la p-valeur est superieure a α, il n’est pas exceptionnel sous H0

d’observer la valeur effectivement observee. Par consequent, H0 estacceptee.

I si la p-valeur est inferieure a α, la valeur observee est jugee exceptionnellesous H0. On decide alors de rejeter H0 et de valider H1.

Avantage

Cette methode permet de se rendre compte a quel point on est sur de sadecision : la position de la p-valeur par rapport a α ne depend pas de l’echelledes donnees, contrairement a Sobs et au(x) seuil(s) de la region de rejet.

Exemple : Si on a fixe α = 0.05, une p-valeur de 3.10−4 est clairement un rejet,alors qu’une p-valeur de 0.03 est un rejet ’de peu’ qu’il faudra nuancer aumoment de l’interpretation.

Risque de premiere espece ou confiance

I Hormis dans des cas de tests multiples non abordes dans ce cours, α variegeneralement entre 0, 01 et 0, 05.

I Dans le cas de variables continues, on peut choisir une valeur arbitraire deα et obtenir une region de rejet presentant exactement le risque α.

I Dans le cas de variables discretes, le nombre de regions de rejet, et doncde risques, possibles est fini ou denombrable. Dans ce cas, on fixe unrisque, dit risque nominal, par exemple de 5%. On cherche alors la plusgrande region ne depassant pas ce risque, qui devient la region de rejet. Leveritable risque, dit risque reel, peut alors etre recalcule.

Risque de deuxieme espece ou puissance

Definition

Le risque de deuxieme espece β est la probabilite d’accepter H0 alors que laverite est H1.

β = PH1(H0)

La quantite 1− β est la puissance du test.

VeriteH0 H1

DecisionH0 1-α βH1 α 1-β

Choix de α et β

H0 H1

S

αβ

Si l’echantillon reste inchange, une diminution de α entraıne une augmentationde β et inversement. Autrement dit, si on decide de reduire le nombre de fauxpositifs, on augmente forcement le nombre de faux negatifs.La seule maniere d’ameliorer les deux criteres est d’augmenter la taille del’echantillon.

Courbe de puissance

I Pour determiner la puissance, il faut connaıtre la lois de S sous H1, ce quin’est generalement pas le cas.

I On recourt alors a des courbes de puissance qui sont des courbes pourlaquelle la puissance est calculee pour des valeurs donnees des parametresdu probleme ou de la taille de l’echantillon.On ne sait pas ou se situe la situation reelle sur cette courbe mais on y litla probabilite de detecter H1 en fonction de son ’eloignement’ de H0.

Exemple : Courbe de puissance d’un test de Student bilateral sur 100 individusen fonction de mu[2]−mu[1] (en supposant que σ1 = σ2 = 1).

0.0 0.5 1.0 1.5

0.0

0.4

0.8

Principe du test

Les etapes d’un test sont toujours realisees dans l’ordre suivant :

1) Choix du risque α

2) Choix du type de test et de sa lateralite si besoin

3) Calcul de la statistique de test

4) Calcul de la p-valeur

5) Conclusion

En pratique, l’utilisation d’un logiciel type R permet de ne pas se soucier despartie 3) et 4). Par contre, les choix liees aux etapes 1) et 2) ainsi quel’interpretation finale ne peuvent etre faits par le logiciel.

Remarques sur les tests

I Le resultat d’un test comprend toujours une dose d’incertitude : ONNE SAIT JAMAIS SI ON A BIEN PRIS LA BONNE DECISION !

I La probabilite critique permet d’avoir une vision plus fine que sa simplecomparaison avec α. En effet, plus elle est petite, plus l’evenement observeest surprenant sous H0. Ainsi, pour α = 0.5, des probabilites critiques de10−6 et de 0.35 impliquent le rejet de H0 mais avec des degres decertitude different concernant la decision.

IV. QUEL TEST POUR REPONDRE A QUELLE QUESTION ?

IV.1. Test d’adequation

Adequation de l’esperance

Hypotheses

On considere un echantillon de donnees de taille n, de moyenne µ etd’ecart-type σ, et une moyenne a priori µ0. On veut savoir s’il est credible depenser que l’echantillon a ete tire dans une population de moyenne µ0 ou si lamoyenne de l’echantillon est significativement differente de µ0.

H0 : µ = µ0

H1 : µ 6= µ0

Statistique

Sous H0, on connaıt la loi de la statistique de Student definie par

t =µ− µ0

σ/√n

Il s’agit de la loi de Student a n − 1 degres de liberte.

Adequation de l’esperance

Lateralite - Region de rejet

Les trois options sont possibles : test unilateral a droite, a gauche ou bilateral.

Sous R

t.test en utilisant les parametres x pour l’echantillon et mu pour la valeurde µ0.

Version non parametrique

Test de Wilcoxon ( wilcox.test ). Dans ce cas, l’adequation est teste pourla mediane, et non pour l’esperance.

H0 : m = m0

H1 : m 6= m0

Exemple

On realise 20 sondages de taille 100 dans une population dont 55% des gensvotent pour le candidat d’interet. La moyenne de ces sondages est-ellesignificativement differente de 0.

> x <- rbinom(20,100,.55)

> x

[1] 60 61 47 56 55 48 60 54 55 59 50 58 55 61 54 64 37 62 54 49

> t.test(x,mu=50,alternative="two.sided")

One Sample t-test

data: x

t = 3.4573, df = 19, p-value = 0.002639

alternative hypothesis: true mean is not equal to 50

95 percent confidence interval:

51.95334 57.94666

sample estimates:

mean of x

54.95

Adequation d’un echantillon a une loi

Hypotheses

Soit (x1, . . . , xn) un echantillon tire suivant une loi L inconnue et L∗ une loifixee par l’utilisateur.

H0 : L = L∗

H1 : L 6= L∗

Statistique

On separe les valeurs possibles en k classes Ci . On note Oi le nombred’observations dans Ci . L’effectif moyen Ei de Ci sous H0 est donne parEi = np∗i ou p∗i est la probabilite qu-une v.a. X suivant la loi L∗ prenne savaleur dans Ci .L’ecart entre la realite et la theorie sous H0 est mesuree par la statistique

S =

k∑i=1

(np∗i −Oi)2

np∗i=

k∑i=1

O2i

np∗i− n

Sous H0, la loi de S tend vers une loi du chi-deux.

Remarque : En pratique, il faut que les effectifs 0i soit superieurs a 5 pourque l’approximation par une loi du chi-deux soit valide. Si ce n’est pas le cas, ilfaut fusionner des classes Ci (ce qui fera perdre de la puissance).

Adequation a une loi

Lateralite - Region de rejet

La region de rejet est de la forme RC > a.

Sous R

chisq.test

Autre possibilite

Test de Kolmogorov-Smirnov ( ks.test), qui est plus puissant que le test duχ2 mais dont l’utilisation est limitee aux distributions continues. Il consiste atester l’ecart maximal entre les fonctions de repartition theorique et empiriques.

A noter qu’il existe de nombreuses adaptations de ces tests pour testerl’appartenance a des familles de lois, notamment le test de Shapiro-Wilk pourles lois normales.

Exemple

On recueille le nombre de requetes par heure sur un serveur. On recueille lenombre de requetes sur 100 heures.Ce nombre suit-il une loi normale ?

> x[1:10]

[1] 290 303 287 291 324 306 291 319 308 327

> c(mean(x),var(x))

[1] 300.1400 305.7378

> ks.test(x,"pnorm",mean(x),sd(x))

One-sample Kolmogorov-Smirnov test

data: x

D = 0.099225, p-value = 0.2784

alternative hypothesis: two-sided

Exemple

On recueille le nombre de requetes par heure sur un serveur. On recueille lenombre de requetes sur 100 heures.Ce nombre suit-il une loi de Poisson de parametre 300 ?

> br<- c(min(x),280,290,300,310,320,max(x))

> nx <- hist(x,breaks=br)$counts

> nx

[1] 14 19 21 18 14 14

> att

[1] 12.95252 16.44741 22.13494 21.44826 15.11642 11.90045

> chisq.test(nx,p=patt)

Chi-squared test for given probabilities

data: nx

X-squared = 1.5463, df = 5, p-value = 0.9077

IV.2. Tests de comparaison d’esperance et de variance

Appariement

Definition

Des echantillons sont apparies s’ils correspondent a des mesures prises sur lesmemes individus

I mesurer la tension des memes personnes a des moments differents donnedes echantillons apparies.

I comparer la taille des hommes et des femmes ne peut pas se faire avec desechantillons apparies.

I comparer les temperatures de 1950 et 2015 aux memes stations meteodonne des echantillons apparies.

Remarque : Si possible, il vaut toujours mieux recueillir des donnees appariees,les tests en sont plus puissants.

Test d’egalite des variances : test de Fisher

Hypotheses

On dispose de deux echantillons d’ecart-types respectifs σ1 et σ2. On sedemande s’il est raisonnable de penser que les deux echantillons ont ete tiressuivant des lois de meme ecart-type ou si ils sont significativement differents.

H0 : σ1 = σ2

H1 : σ1 6= σ2

Statistique

F = σ12

σ22 suit une loi de Fisher Fn1,n2 sous H0.

Lateralite - Region de rejet

Les trois options enoncees au chapitre precedent sont possibles : rejet unilaterala droite, a gauche ou bilateral.

Sous R

var.test

Comparaison de la moyenne de deux echantillons : t-test ou test de Student

Hypotheses

On dispose de deux echantillons de moyennes respectives µ1 et µ2 etd’ecart-type respectifs σ1 et σ2. On se demande s’il est raisonnable de penserque les deux echantillons ont ete tires suivant des lois de meme esperance ou sileurs moyennes sont significativement differentes.

H0 : µ1 = µ2

H1 : µ1 6= µ2

Comparaison de la moyenne de deux echantillons : t-test ou test de Student

Statistique

La valeur de la statistique peut prendre quatre expressions differentes suivantsles criteres suivants :

appariement les echantillons sont apparies si ils sont correspondent adifferentes mesures prises sur les memes individus.

egalite des variances les variances sont significativement differentes ou pas (cftest de Fisher).

Toutes ces statistiques reposent en fait sur le meme principe qui est dedependre essentiellement de la difference µ1 − µ2, normalisee par une quantitepermettant d’obtenir une variable de loi de Student sous H0.Par exemple, dans le cas d’echantillons non apparies, de variance nonsignificativement differentes, et de taille respectives n et m,

t =µ1 − µ2

σ√

1n

+ 1m

ou

σ =

√(n − 1)σ1

2 + (m − 1)σ22

n + m − 2

Comparaison de la moyenne de deux echantillons : t-test ou test de Student

Lateralite - Region de rejet

Les trois options enoncees au chapitre precedent sont possibles : rejet unilaterala droite, a gauche ou bilateral.

Sous R

t.test en utilisant les parametres x et y pour les deux echantillons,alternative pour le lateralite, paired pour l’appariement ou non desechantillons et var.equal pour l’egalite des variances.

Version non parametrique

Test de Wilcoxon ou de Mann-Whitney (wilcox.test sous R).

Exemple

Pour n grand et p petit, la loi binomiale B(n, p) peut etre approximee par la loide Poisson P(np).

> x <- rbinom(100,100,.05)

> y <- rpois(100,5)

> var.test(x,y)

F test to compare two variances

data: x and y

F = 0.58046, num df = 99, denom df = 99, p-value = 0.007299

alternative hypothesis: true ratio of variances is not equal to 1

95 percent confidence interval:

0.3905577 0.8626993

sample estimates:

ratio of variances

0.5804601

>

Exemple

Pour n grand et p petit, la loi binomiale B(n, p) peut etre approximee par la loide Poisson P(np).

> x <- rbinom(100,100,.05)

> y <- rpois(100,5)

> t.test(x,y,alternative="two.sided",paired=FALSE,var.equal=TRUE)

Two Sample t-test

data: x and y

t = 0.25794, df = 198, p-value = 0.7967

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

-0.5316177 0.6916177

sample estimates:

mean of x mean of y

5.17 5.09

Exemple

Les proportions d’abeilles africaines (moins productives et plus agressives) ontete mesurees dans dix localites du Texas a dix ans d’intervalle. Y a-t-il uneaugmentation de la population ?

Piege 1 2 3 4 5 6 7 8 9 101980 0.330 0.146 0.518 0.339 0.693 0.249 0.438 0.695 0.135 0.3881990 0.360 0.177 0.524 0.447 0.140 0.392 0.534 0.263 0.157 0.566

> x <- c(0.330,0.146,0.518,0.339,0.693,0.249,0.438,0.695,0.135,0.388)

> y <- c(0.360,0.177,0.524,0.447,0.640,0.392,0.534,0.563,0.157,0.566)

> wilcox.test(x,y,paired=TRUE,alternative="less")

Wilcoxon signed rank test

data: x and y

V = 13, p-value = 0.08008

alternative hypothesis: true location shift is less than 0

Comparaison de la moyenne de plus de deux echantillons : ANOVA

Hypotheses

I Plusieurs echantillons dont on se demande si ils ont ete tires selon des loisde meme esperance.

I Decomposition

variance totale = variance intra-echantillons+variance entre les echantillons

I Pour mesurer la variance entre les echantillons, on cree un nouveau jeu dedonnees dans lequel on donne a chaque individu la valeur moyenne dansson echantillon. La variance du nouveau jeu de donnees est la varianceentre echantillons.

I

RC =variance de l’echantillon des moyennes

variance de l’echantillon initial

RC donne le pourcentage de la variabilite due a l’effet etudie par rapporta la variabilite totale.

Les hypotheses deviennent alors

H0 : RC = 0

H1 : RC > 0

Comparaison de la moyenne de plus de deux echantillons : ANOVA

Statistique

Soit n la taille de l’echantillon et g le nombre d’echantillons. La statistique

Z =n − g

g − 1RC

Sous H0, Z suit une loi de Fisher de parametres (g − 1,n − g).

Lateralite - Region de rejet

La region de rejet est de la forme RC > a.

Sous R

oneway.test avec pour argument une table a deux colonnes contenant dans lapremiere colonne la concatenation de tous les echantillons et dans la secondel’appartenance aux echantillons.

Version non parametrique

Test de Kruskal-Wallis (echantillons non apparies) ou test de Friedman(echantillons apparies).

Exemple> data(airquality)

> boxplot(airquality$Ozone~airquality$Month)

5 6 7 8 9

050

100

150

Exemple

> oneway.test(airquality$Ozone~airquality$Month)

One-way analysis of means (not assuming equal variances)

data: airquality$Ozone and airquality$Month

F = 8.0267, num df = 4.000, denom df = 42.668, p-value = 6.439e-05

IV.3. Tests d’independance

Independance de deux variables qualitatives : test du χ2

Table de contingence

I X et Y sont qualitatives : pas de coefficient de correlation possible

I Leur valeurs sont regroupees en respectivement r et s ensembles.

I Le tableau a r lignes et s colonnes contenant les effectifs est appele tablede contingence.

I Les sommes par lignes et colonnes donnent les effectifs marginaux. Lasomme globale donne l’effectif total.

Exemple :Guerison Non-guerison

Traitement 7 3Placebo 3 6

Test du χ2 d’independance

Formulation

H0 : X et Y sont independantes

H1 : X et Y ne sont pas independantes

Postulats

L’echantillon est grand.

Test du χ2 d’independance

Procedure

On note nij l’entree de la table dans la cellule i × j , ni• la somme des effectifsde la ligne i et n•j la somme des efectifs de lacolonne j .Sous hypothese d’independance,

P(X ∈ Ii ,Y ∈ Jj ) = P(X ∈ Ii)P(Y ∈ Jj )

ce qui se traduit, si on remplace les probabilites par leurs estimateurs, par uneegalite attendue entre nij et eij =

ni•n•jN

, ou N est l’effectif total.

La statistique

T =∑i,j

(nij − eij )2

eij=∑i,j

n2ij

eij−N

suit une loi du χ2 a (r − 1)(s − 1) degres de liberte sous H0.

Autre possibilite

Test exact de Fisher. Ne necessite pas de grands echantillons mais lourd d’unpoint de vue computationnel et supposant des sommes marginales fixees.

Exemple

Des cultures cellulaires de souches differentes sont soumises a desrayonnements radioactifs et la proportion de cellules mortes est relevee.

A B C Dray. α 23 34 17 78ray. β 58 64 56 86ray. γ 45 37 43 79

temoin 04 06 02 03

I valeur de la statistique de 23.6

I nombre de degres de liberte de 9

I p-valeur de 4.9 10−3. Les souches reagissent differemment auxrayonnements.

Independance d’une variable quantitative et d’une variable qualitative

On se ramene alors aux tests de comparaison de la section precedente.

Exemple : Pour tester si le taux d’une hormone est independant du sexe, oncompare les moyennes pour des echantillons des deux sexes.

Independance de deux variables qualitatives : test des coefficients decorrelation

Correlation de Pearson

corr(x,y) =cov(x,y)

sxsy

> x

[1] 0.59637725 0.61786741 0.74594744 0.93457381 0.29872870 0.55438860

[7] 0.93705296 0.19402199 0.09448572 0.60146355

> y

[1] 0.00285277 0.41158044 0.68761801 0.66404480 0.66798358 0.64610506

[7] 0.44145733 0.46760624 0.70261156 0.22489771

> z

[1] 0.01069205 0.67328534 0.81793833 0.72027774 0.86890047 0.68293838

[7] 0.55287843 0.55715159 0.91870563 0.45035580

> cor(x,y)

[1] -0.1458849

> cor(y,z)

[1] 0.9431016

Independance de deux variables qualitatives : test des coefficients decorrelation

Correlation des rangs de Spearman

ρ = corr(r(x), r(y))

ou r(x) designe l’echantillon des rangs tire de x.

> rank(x)

[1] 5 7 8 9 3 4 10 2 1 6

> rank(y)

[1] 1 3 9 7 8 6 4 5 10 2

> rank(z)

[1] 1 5 8 7 9 6 3 4 10 2

> cor(x,y,method="spearman")

[1] -0.2606061

> cor(y,z,method="spearman")

[1] 0.9515152

Independance de deux variables qualitatives : test des coefficients decorrelation

Correlation des rangs de Kendall

I Soit nc le nombre de concordances, c’est-a-dire de paires (xi , yi) et (xj , yj )telles que xi < xj et yi < yj ;

I Soit nd le nombre de discordances, c’est-a-dire de paires (xi , yi) et (xj , yj )telles que xi < xj et yi > yj ;

Le coefficient de Kendall est alors

τ =nc − nd

n(n − 1)/2

> rank(x)

[1] 5 7 8 9 3 4 10 2 1 6

> rank(y)

[1] 1 3 9 7 8 6 4 5 10 2

> rank(z)

[1] 1 5 8 7 9 6 3 4 10 2

> cor(x,y,method="kendall")

[1] -0.1555556

> cor(y,z,method="kendall")

[1] 0.8666667

Independance de deux variables qualitatives : test des coefficients decorrelation

Interpretation

Ces trois coefficients sont comris entre −1 et 1 et valent 0 pour des variablesindependantes.Une valeur significativement positive indique une correlation positive (Yaugmente quand X augmente).Une valeur significativement negative indique une correlation negative (Yaugmente quand X augmente).

Independance de deux variables qualitatives : test des coefficients decorrelation

Formulation

H0 : corr(x,y) = 0 ou ρ = 0 ou τ = 0

H1 : corr(x,y) 6= 0 ou ρ 6= 0 ou τ 6= 0

Lateralite

Le test peut etre mene de facon unilaterale pour ne detecter qu’une correlationpositive ou qu’une correlation negative.

Sous R

cor.test

Exemple

> cor.test(x,y,method="pearson")

Pearson's product-moment correlation

data: x and y

t = -0.41709, df = 8, p-value = 0.6876

alternative hypothesis: true correlation is not equal to 0

95 percent confidence interval:

-0.7102707 0.5326686

sample estimates:

cor

-0.1458849

> cor.test(y,z,method="pearson")

Pearson's product-moment correlation

data: y and z

t = 8.0224, df = 8, p-value = 4.28e-05

alternative hypothesis: true correlation is not equal to 0

95 percent confidence interval:

0.7717296 0.9867777

sample estimates:

cor

0.9431016

V. ESTIMATION

V.1. Estimateurs

Probleme

I On s’interesse a la distribution d’un caractere X dans une population P.On suppose que la loi de X dans P (generalement de forme connue)depend d’un parametre θ inconnu (esperance, variance,...), eventuellementmulti-dimensionnel.On cherche a estimer la valeur de θ.

Exemple : On suppose que X suit une loi normale. Determiner µ et σ.

I Les tests permettent de prendre une decision binaire concernant cesparametres, ce qui est relie mais different de l’estimation.

I On suppose qu’on dispose d’un echantillon x = (x1, . . . , xn) de mesuresindependantes de X dans la population P.

Estimateur/Estimation

Estimateur

On appelle estimateur de θ une variable aleatoire Tn obtenue comme fonctiondu n-echantillon aleatoire (X1,X2, · · · ,Xn) ; autrement ditTn = f (X1,X2, · · · ,Xn).

Exemple : Si (X1, . . . ,Xn) est une suite de v.a. i.i.d. de meme loi que X , un

estimateur de la moyenne de X est X n =∑

i Xi

n

Estimateur

Soit Tn un estimateur de θ. On appelle estimation de θ, la realisation tn de lav.a. Tn , obtenue a partir de l’observation x = (x1, x2, · · · , xn)

tn = f (x1, x2, · · · , xn)

Exemple : µ =∑

i xin

I L’estimateur et l’estimation de θ sont souvent confondus et notes θ.

Qualite d’un estimateur : le biais

I Le biais de Tn est donne par Bn(θ) = E(Tn)− θ.

I Tn est un estimateur sans biais si E(Tn) = θ. Sinon, il est dit biaise.

I Si Bn(θ) tend vers 0 quand n tend vers l’infini, alors Tn est ditasymptotiquement sans biais.

Exemples :

I x =∑

i xin

est un estimateur sans biais de l’esperance

I σ2 = 1n−1

∑i(xi − x)2 a un denominateur de n − 1 et non de n pour en

faire un estimateur sans biais de la variance.

Qualite d’un estimateur : la consistance

Consistance

L’estimateur Tn de θ est consistant si il converge en moyenne quadratique versθ, quand n tend vers l’infini, c’est-a-dire si EQM (Tn) = E

[(Tn − θ)2

]tend

vers 0 quand la taille de l’echantillon augmente.

I La consistance traduit une propriete qu’on attend intuitivement d’unestimateur, a savoir qu’il converge vers la valeur du parametre θ a estimer,quand la taille n de l’echantillon tend vers l’infini.

I Une autre notion de convergence qu’on peut utiliser mais qui est plus forteet donc plus difficile a etablir est celle de convergence presque sure : dansce cas, on a P(limn→∞ tn = θ) = 1, c’est-a-dire que pour tout echantillonqui croıt indefiniment, l’estimation finira par tendre vers la vraie valeur deθ.

Exemple : La moyenne est un estimateur consistant de l’esperance d’un pointde vue de la convergence presque sure.

Intervalle de confiance d’une estimation

Les criteres de qualite precedents ne permettent pas d’evaluer l’imprecisionconcernant une estimation particuliere. Pour ce faire, on va chercher a encadrerla difference entre les estimations et la valeur de θ.

Intervalle de confiance

Soit α ∈]0, 1[. On appelle intervalle de confiance du parametre θ de niveau deconfiance 1− α (ou de risque α) un intervalle (aleatoire) Iα tel queP(θ ∈ Iθ,α) = 1− α.

Exemples

1. Le resultat d’un sondage devrait etre une estimation ponctuelle et unintervalle de confiance en dependant.

2. Quand on compare deux moyennes via un test de Student, un intervalle deconfiance de la difference est automatiquement genere. Le fait que 0 soitdans cet intervalle est equivalent a decider H1 avec un niveau de 5%.

> x <- runif(50,0,1)

> y <- runif(50,.5,1)

> t.test(x,y)

Welch Two Sample t-test

data: x and y

t = -3.9965, df = 70.747, p-value = 0.0001557

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

-0.28567838 -0.09549295

sample estimates:

mean of x mean of y

0.5231755 0.7137611

Moyens d’obtenir des intervalles de confiance

1 : Approche frequentiste theorique

Determiner la loi de θ et choisir un intervalle dans laquelle cette loi se situeavec une probabilite 1− α.

Exemple : On realise un sondage de type OUI/NON sur un echantillon de taillen, la fraction de OUI dans la population etant p.Le TCL entraıne que le resultat p du sondage a 95% de chances d’etre dansl’intervalle

p − 1.96p(1− p)

n; p + 1.96

p(1− p)

n

ce qui donne un intervalle de confiance a 95% pour p de

p − 1.96p(1− p)

n; p + 1.96

p(1− p)

n

En pratique, p n’etant pas connu, il faut en fait remplacer la variance p(1− p)par une estimation de la variance et utiliser une loi de Student plutot qu’une loinormale.

Moyens d’obtenir des intervalles de confiance

2 : Approche bayesienne

Considerer θ comme une variable aleatoire, dont on se donne une loi a prioriP(θ), qu’on veut mettre a jour au vu des donnees.

P(θ|X ) =P(X |θ)P(θ)

P(X )

La loi P(θ|X ), appelee loi a posteriori, permet de determiner un intervalle danslequel θ se trouve avec probabilite 1− α.

I influence du choix de la loi a priori, possibilite d’y onclure d’autre typesd’information

I possibilite d’utiliser un algorithme MCMC (Monte-Carlo Markov-Chain)pour apprendre la loi a posteriori quand le calcul theorique n’est paspossible

Moyens d’obtenir des intervalles de confiance

3 : Bootstrapping

On genere un grand nombre de jeux de donnees de meme taille a partir du jeude donnees en effectuant des tirages avec remise.Pour chacun des jeux ainsi crees, on evalue l’estimateur, obtenant ainsi unedistribution de l’estimation, ce qui conduit a un intervalle de confiance.

> library(boot)

> x <- c(52, 10, 40, 104, 50, 27, 146, 31, 46)

> mean(x)

[1] 56.22222

> bb <- boot(data = x, statistic = function(x, index) mean(x[index]),

+ R = 1000)

> bb

ORDINARY NONPARAMETRIC BOOTSTRAP

Call:

boot(data = x, statistic = function(x, index) mean(x[index]),

R = 1000)

Bootstrap Statistics :

original bias std. error

t1* 56.22222 -0.7888889 13.31232

V.2 Estimation par maximum de vraisemblance

Vraisemblance

Vraisemblance

On considere une variable aleatoire X suivant une loi de parametresθ = (θ1, . . . , θp).On considere des donnees x = (x1, . . . , xn) correspondant a un echantillon tiresuivant X .La vraisemblance des donnees suivant le modele est

L(θ) = P(X1 = x1, . . . ,Xn = xn |θ)

En d’autres termes, la vraisemblance est une fonction de θ qui donne laprobabilite d’observer les donnees si la valeur du parametre est θ.

Exemple : X ∼ N (µ, σ) et x un echantillon d’observations independantes.

L(µ, σ) =n∏

i=1

( 1

σ√

2πe−

(xi−µ)2

2σ)

Maximum de vraisemblance

Estimation du maimum de vraisamblance

Une maniere d’estimer θ est de choisir

θ = argmaxθL(θ)

En d’autres termes, la value retenue pour θ est celle pour laquelle la probabilitede voir ce que l’on observe est maximale.

Le probleme devient alors un probleme d’optimisation de fonction.

Log-vraisemblance

La fonction logarithme etant strictement croissante, L et log(L) atteigne leurmaximum au meme endroit. On peut donc maximiser la log-vraisemblancelogL quand cela se revele plus simple, l’estimateur sera le meme.Ceci est notamment pertinent lorsque l’echantillon correspond a desobservations independantes.

Exemple 1 : Estimateur pour une loi de Poisson

I X ∼ P(λ)

I x echantillon de n tirages independants.

I

L(λ) =n∏

i=1

λxi

xi !e−λ

I

logL(λ) =n∑

i=1

(xi log(λ)− log(xi !)− λ

I Annuler la derivee de la fonction precedente donne

λ =

∑xi

n

Exemple 2 : Estimateur pour une loi normale

I X ∼ N (µ, σ)

I x echantillon de n tirages independants.

I

L(µ, σ) =n∏

i=1

( 1

σ√

2πe−

(xi−µ)2

2σ)

I

logL(µ, σ) = −n log(√

2π)− n log σ −n∑

i=1

(xi − µ)2

I Annuler simultanement les derivees partielles de la fonction precedentedonne

µ =

∑xi

nσ =

1

n

n∑i=1

(xi − µ)2

Exemple 3

I On considere une sequence d’ADN.

I On prend un modele simple ou les nucleotides sont independants et onnote pZ la probabilite que chaque lettre soit un Z , Z ∈ A,C ,G,T.

I Soit nZ le nombre de Z observes, Z ∈ A,C ,G,T et n la longueurtotale de la sequence.

I

L(pA, pC , pG , pT ) =

n∏i=1

(pXi

)I

logL(pA, pC , pG , pT ) = nA log(pA)+nC log(pC )+nG log(pG)+nT log(pT )

I Il faut utiliser des multiplicateurs de Lagrange pour resoudre le problemed’optimisation sous la contrainte pA + pC + pG + pT = 1. On en deduit

pZ =nZ

n, ∀Z ∈ A,C ,G,T

Exemple 4

I On considere un modele de melange gaussien.

I Tout individu tire un groupe Zi au hasard parmi (1, . . . ,K ) avecP(Zi = k) = αk . On dit que Zi suit une loi multinomiale de parametreα = (α1, . . . , αn).

I Xi ∼ N (µk , σ2k ) avec k = Zi .

I

L(µ, σ) =∑

Z1,...,Zn

n∏i=1

( 1

σZi

√2π

e−

(xi−µZi)2

2σZi

)I Le probleme d’optimisation devient plus dur a resoudre. De nombreuses

heuristiques ont ete developpees pour optimiser des vraisemblancescompliquees

I descente de gradientI algorithme Monte-Carlo Markov-ChainI algorithme Expectation-Maximisation

V.3. Modele lineaire

Modele lineaire gaussien

Modele

Soit X une variable explicative et Y une variable a expliquer. Le modelelineaire gaussien revient a considerer que

Y = α+ βX + ε

ou ε est un terme de bruit qui suit une loi normale centree N (0, σ2)

Exemple : Poids en fonction de la taille, rythme cardiaque au repos en fonctionde l’age.

Probleme

Estimer les parametres α, β, σ du modele.

Estimateur du maximum de vraisemblance

I On dispose d’observations (xi , yi), 1 ≤ i ≤ n.

I

logL(α, β, σ) = −n

2log(2π)− n log(σ)−

n∑i=1

(yi − α− βxi)2

2σ2

I En ce qui concerne α et β, maximiser la vraisemblance revient a minimiserle dernier terme, c’est-a-dire utiliser les estimateurs des moindres carres.

a =

∑i(xi − x)(yi − y)∑

i(xi − x)2

b = y − ax

Generalisations du modele lineaire gaussien

I On peut considerer plusieurs variable explicatives X1, . . . ,Xn .

Y = α+∑i

βiXi + ε

ou ε est un terme de bruit qui suit une loi normale centree N (0, σ2)

I On peut egalement introduire des effets croises. Pour deux variablesexplicatives, cela donne le modele

Y = α+ β1X1 + β2X2 + β12X12 + ε

ou ε est un terme de bruit qui suit une loi normale centree N (0, σ2)

I On peut appliquer le modele a une fonction f (Y ) plutot qu’a Y . Si onpense que Y croıt exponentiellement avec X , on pourra par exemplel’appliquer a log(Y ).

Sous R

lm

Modele logistique

Considerons maintenant une variable a expliquer binaire.

I On ne peut pas directement ecrire un modele lineaire concernant Y .

I On peut cependant chercher a expliquer P(Y = 1) en fonction desvariables explicatives.

I La fonction logistique definie par logit(t) = log t1−t

est une bijection entre[−1, 1] et R.

I Le modele logistique revient a ecrire logit(P(Y = 1)) en fonction desvariables explicatives.

logit(P(Y = 1)) = α+∑i

βiXi

Sous R

glm

Exemple

I Le jeu de donnees esoph sous R contient le nombre de patients atteintsd’un cancer de l’oesophage et de patients sains dans un echantillonstratifie suivant l’age (6 classes), la consommation d’alcool (4 classes) etla consommation de tabac (4 classes) des sondes.

I Soit Yi la variable aleatoire correspondant a l’indicatrice du fait quel’individu i developpe un cancer de l’oesophage. On considere le modele deregression logistique suivant :

log(P(Yi = 1)

1− P(Yi = 1)) = α+ βAgei + γTabi + δAlci

ou Agei ∈ 1, . . . , 6, Tabi ∈ 1, . . . , 4 et Alci ∈ 1, . . . , 4 designent lesclasses de l’individu i suivant les trois variables qualitatives transformeesen variables ordinales.

I L’estimateur du maximum de vraisemblance θ peut etre determine.

Exemple

> model <- glm(cbind(ncases,ncontrols) ~ unclass(agegp)+unclass(alcgp)+unclass(tobgp), data=esoph, family='binomial')

> EMV <- model$coefficients

> EMV

(Intercept) unclass(agegp) unclass(alcgp) unclass(tobgp)

-5.5959444 0.5286674 0.6938248 0.2744565

V.4. Comment determiner le maximum de vraisemblance ?

Methode analytique

I La vraisemblance est une fonction a une ou plusieurs variables. Soit n cenombre.

I Au(x) point(s) ou une fonction admet son maximum, toutes ses deriveespartielles s’annulent.

∂L∂θ1

(θ1, . . . , θn) = 0

. . .

∂L∂θn

(θ1, . . . , θn) = 0

I On resout le systeme a n equations et n inconnues.

I On evalue la vraisemblance en toutes les solutions au systeme precedent,et on en deduit le maximum.

Avantage : Simple et rapide a mettre programmer puisque l’estimateur estsimplement une fonction.

Inconvenient : Ne permet pas de traiter de nombreuses fonctions tropcomplexes.

Descente du gradient

I On considere le probleme consistant a minimiser l’oppose de lavraisemblance.

I Pour minimiser une fonction f , on peut partir d’un point x (0) puisconstruire une suite

x (k+1) = x (k) − αk∇f (x (k))

ou αk∇f (x (k) designe le gradient, c’est-a-dire le vecteur de toutes lesderivees partielles evalees en x (k).

Avantage : General et rapide pour toute fonction convexe

Inconvenient : Si la fonction n’est pas convexe, l’algorithme reste enfermedans une seule ’cuvette’, qui ne correspond pas forcement a lameilleure solution.

Exemple d’algorithme MCMC : Metropolis-Hastings par marche aleatoire

I Le principe des algorithmes MCMC est de simuler suivant la distributionproportionnelle a une fonction donnee en construisant une chaıne deMarkov dont la mesure limite est egale a la distribution en question.

I On choisit x0 quelconque et on applique (aussi longtemps que possible) lepas suivant

1. Generer yn ∼ g(y − xn), g symetrique

2. Choisir

xn+1 =

yn avec probabilite ρ(xn , yn)xn avec probabilite 1− ρ(xn , yn)

ou

ρ(x , y) = min f (y)

f (x), 1

Algorithmes MCMC

I Algorithme de Metropolis-Hastings : une proposition de deplacement dansl’espace est faite et est acceptee avec une certaine probabilite

I Echantillonnage de Gibbs : les coordonnees sont changees une a une, maison accepte systematiquement la proposition

I Algorithme du recuit simule : adaptation de MH pour l’optimisation. Lataille des pas des propositions tend vers 0, ce qui amene l’algorithme aconverger vers une solution qu’on espere etre le maximum.

Avantage tout algorithme MCMC converge vers la bonne distribution

Inconvenient on ne sait jamais si on a deja converge ou pas : il peut resterune partie de l’espace ou la distribution n’est pas nulle mais quin’a pas encore ete explore. On parle de masse manquante

Conclusion il faut toujours faire tourner de tels algorithmes le pluslongtemps possible !

Exemple

I jeu de donnees esoph sous R : nombre de cancer de l’oesophage et depatients sains dans un echantillon stratifie suivant l’age, la consommationd’alcool et la consommation de tabac.

I Yi la variable aleatoire correspondant a l’indicatrice du fait que l’individu ideveloppe un cancer de l’oesophage.

I modele de regression logistique :

log(P(Yi = 1)

1− P(Yi = 1)) = α+ βAgei + γTabi + δAlci

Question

Trouver un intervalle de confiance de niveau 95% pour la probabilite dedevelopper un cancer pour un individu dont les variables Agei , Tabi et Alcisont connues.

Exemple

> #Calcul de la vraisemblance a une constante pres pour une valeur de Theta

> logit <- function(x)

+ return(exp(x)/(1+exp(x)))

+

> LogLikelihood <- function(Theta, data)

+ logL <- 0

+ coeffmatrix <- cbind(1,data$agegp,data$alcgp,data$tobgp) #matrice des coefficients correspondant a chaque possibilite

+ for (i in 1:dim(data)[1])

+ proba <- logit(t(Theta)%*%coeffmatrix[i,])

+ logL <- logL+log(proba)*data$ncases[i]+log(1-proba)*data$ncontrols[i]

+

+ logL <- logL + sum(log(dnorm(Theta))) # ajouter la loi a priori ou chacune prise comme loi normale central reduite

+ return(logL)

+

>

Exemple> trajectoryRW <- function(Nsim,data,width,X0)

+

+ X <- matrix(X0,1,4)

+ proba <- c()

+ for (n in 2:Nsim)

+ Y <- runif(4,-width,width)

+ rho <- exp(LogLikelihood(X[n-1,]+Y,data) - LogLikelihood(X[n-1,],data))

+ X <- rbind(X, X[n-1,] + Y * (runif(1)<rho))

+ if (floor(n/100)==(n/100)) print(n)

+ s <- t(X[n,])%*%c(1,1,3,1)

+ proba <- c(proba,exp(s)/(1+exp(s)))

+

+ return(list(X=X,proba=proba))

+

> data <- esoph

> data$tobgp <- unclass(data$tobgp)

> data$alcgp <- unclass(data$alcgp)

> data$agegp <- unclass(data$agegp)

> trajectory <- trajectoryRW(10000,data,.1,c(0,0,0,0))

[1] 100

[1] 200

[1] 300

[1] 400

[1] 500

[1] 600

[1] 700

[1] 800

[1] 900

[1] 1000

[1] 1100

[1] 1200

[1] 1300

[1] 1400

[1] 1500

[1] 1600

[1] 1700

[1] 1800

[1] 1900

[1] 2000

[1] 2100

[1] 2200

[1] 2300

[1] 2400

[1] 2500

[1] 2600

[1] 2700

[1] 2800

[1] 2900

[1] 3000

[1] 3100

[1] 3200

[1] 3300

[1] 3400

[1] 3500

[1] 3600

[1] 3700

[1] 3800

[1] 3900

[1] 4000

[1] 4100

[1] 4200

[1] 4300

[1] 4400

[1] 4500

[1] 4600

[1] 4700

[1] 4800

[1] 4900

[1] 5000

[1] 5100

[1] 5200

[1] 5300

[1] 5400

[1] 5500

[1] 5600

[1] 5700

[1] 5800

[1] 5900

[1] 6000

[1] 6100

[1] 6200

[1] 6300

[1] 6400

[1] 6500

[1] 6600

[1] 6700

[1] 6800

[1] 6900

[1] 7000

[1] 7100

[1] 7200

[1] 7300

[1] 7400

[1] 7500

[1] 7600

[1] 7700

[1] 7800

[1] 7900

[1] 8000

[1] 8100

[1] 8200

[1] 8300

[1] 8400

[1] 8500

[1] 8600

[1] 8700

[1] 8800

[1] 8900

[1] 9000

[1] 9100

[1] 9200

[1] 9300

[1] 9400

[1] 9500

[1] 9600

[1] 9700

[1] 9800

[1] 9900

[1] 10000

> xRW <- as.mcmc(trajectory$X)

> prRW <- as.mcmc(trajectory$proba)

>

Exemple

> plot(prRW,main='Proba')

0 4000 10000

0.1

0.3

0.5

Proba

Iterations

0.1 0.3 0.50

515

Proba

N = 9999 Bandwidth = 0.003334

IV FILES D’ATTENTES

Probleme

On considere un systeme accueillant des clients et gerant leur requetes.

Les questions qui se posent sont de determiner, en fonction des processusd’arrivee et de gestion des requete,

I la taille de la file d’attente

I la duree moyenne d’attente pour un client

IV.1 Loi de Little

Loi de Little

Loi de Little

Soit λ le nombre moyen d’arrivees par unite de temps, T le temps moyen passepar un client dans le systeme et N le nombre moyen de clients presents dans lesysteme.Alors

N = λT

Demonstration (avec les mains) : Considerons un intervalle de longueur t assezgrande. Supposons qu’on paye un euro par par client dans le systeme et parunite de temps.La somme payee vaut a peu pres Nt par definition de N .Durant cet intervalle, λt client entrent dans le systeme et chacun y reste enmoyenne T unites de temps.

Consequence

Etre capable d’etudier le comportement asymptotique de N nous donnera parla meme occasion le temps moyen d’attente dans le systeme.

IV.2 Processus de Poisson

Lois exponentielles et de Poisson

Loi exponentielle

Une variable aleatoire suit une loi exponentielle de parametre λ, et on noteX ∼ E(λ), si elle est a valeurs dans R+ de densite

fX (x) = λe−λx

On a alors E(X ) = 1λ

et Var(X ) = 1λ2

Loi de Poisson

Une variable aleatoire suit une loi de Poisson de parametre λ, et on noteX ∼ P(λ), si elle est a valeurs dans N et que

P(X = k) =λk

k !e−λ

On a alors E(X ) = λ et Var(X ) = λ

Arrivees sans memoire

I On veut modeliser un processus d’arrivee sans memoire, c’est-a-dire que laprobabilite qu’un client arrive dans le prochain intervalle de longueur ∆test independant du moment d’arrivee du dernier client.

I Soit X la variable aleatoire modelisant le temps d’attente entre deuxvariables

P(X ≥ t + ∆t |X ≥ t) = P(X ≥ ∆t)

Propriete

Si X est une variable sans memoire, X suit une loi exponentielle.

Processus de Poisson

On considere une suite de variables aleatoires (τi)i ∈ N i.i.d, de loiexponentielle E(λ) modelisant les temps successifs entre deux arrivees. On noteTn =

∑ni=1 τi .

Le processus de Poisson Nt d’intensite λ est la variable aleatoire comptant lenombre d’arrivee precedant l’instant t :

Nt =∑n≥1

I(Tn ≤ t)

Le nom de processus de Poisson est du a la propriete suivante.

Propriete

P(Nt = n) =(λt)n

n!e−λt

En d’autres termes, Nt ∼ P(λt).

Proprietes plus fortes

Propriete

Soit t1 < t2 < . . . < tn une suite de points de temps. Alors les variables Nt1 ,Nt2 −Nt1 , Nt3 −Nt2 , . . . ,Ntn −Ntn−1 sont independantes et de loiP(λ(tk − tk−1))1≤k≤n .

Propriete

Conditionnellement a l’evenement Nt = n, les temps S1, . . . ,Sn sont repartiscomme n variables uniformes sur [0, t ], independantes et reordonnees par ordrecroissant.En d’autres termes, soit U1, . . . ,Un des v.a. i.i.d uniformes sur [0, t ]. Soit U(1)

la plus petite, U(2) la suivante, ... , U(n) la plus grande. Alors,

L(S1, . . . ,Sn |Nt = n) = L(U(1), . . . ,U(n))

IV.3 Exponentielle de matrice et chaınes de Markov continues

Exponentielle de matrice

I Soit Q une matrice carree. On definit l’exponentielle de Q par

eQ =

+∞∑k=0

1

k !Qk

I Elle est facile a calculer pour une matrice diagonale ou diagonalisable

I Si A et B commutent, eA+B = eAeB .

Theoreme

Soit P(t) une fonction matricielle. L’unique solution de

P ′(t) = P(t)Q

est P(t) = P(0)etQ .

Chaınes de Markov continues - Definitions

I On considere un processus (Xt)t≥0 prenant ses valeurs dans un ensemblediscret, eventuellement infini. Il s’agit d’une chaıne de Markov si Xt+h |Xt

est independante de tout Xs , s < t .

I On definit P(t) par Pij (t) = P(Xt = i |X0 = j ).

I On definit la matrice Q telle que qij = limh→0P(Xt+h=j |Xt=i)

hsi i 6= j et

qii = −∑

j 6=i qij .

I Soit π(t) la distribution au temps t .

Chaınes de Markov continues - Convergence

I P ′(t) = P(t)Q

I Si la chaıne est irreductible, π(t) converge vers l’unique mesure π verifiantπ = πP(1).

I Ceci est equivalent a πQ = 0.

IV.3 File M/M/1/∞

File M/M/1/∞

On considere une file dite M/M/1/∞ , c’est-a-dire regie par les lois suivantes :

I Les inclusions se font suivant un proscessus de Poisson de parametre λ

I Un seul client peut etre servi a la fois

I Le temps d’un service d’un client suit une loi exponentielle de parametreµ, et les temps de service des clients sont independants

I La file peut atteindre une longueur infinie.

Notons A(t) le nombre d’arrivees ayant eu lieu a l’instant t et D(t) le nombrede depart. Le nombre de clients presents est alors

N (t) = A(t)−D(t)

La question est de determiner le comportement de N (t).

File M/M/1/∞ : λ > µ

E(A(t)) = λt et E(D(t)) = µt

donc

limn→+∞

E(N (t)) = +∞

On peut en fait montrer un resultat plus fort, a savoir que la file devient infinieavec probabilite 1.

File M/M/1/∞ : λ = µ

Ce cas est d’un point de vue mathematique un cas a part que nous netraiterons pas et qui abooutit un resultat suivant :

I la file se vide infiniment souvent avec probabilite 1 (tout client finira doncpar etre servi)

I l’esperance du temps entre deux moments ou la file se vide est infinie.

D’un point de vue applicatif, seul le cas λ < mu est realiste.

File M/M/1/∞ : λ < µ

I La file se vide en moyenne plus qu’elle e se remplit.

I Elle a tres peu de chances de devenir infinie et va donc essentiellement secomporter comme une chaıne de Markov.

I Elle tend vers une distribution limite a etablir.

File M/M/1/∞ : λ < µ

I La file se vide en moyenne plus qu’elle e se remplit.

I Elle a tres peu de chances de devenir infinie et va donc essentiellement secomporter comme une chaıne de Markov.

I Elle tend vers une distribution limite a etablir.

Considerons un h petit

P(N (t + h)−N (t) = 1) = λh + o(h)

P(N (t + h)−N (t) = −1) = µh + o(h)

P(N (t + h)−N (t) > 1) = o(h)

P(N (t + h)−N (t) < −1) = o(h)

P(N (t + h)−N (t) = 0) = 1− λh − µh + o(h)

File M/M/1/∞ : λ < µ

En faisant tendre h vers 0, on peut modeliser la taille de la file par une chaınede Markov continue de matrice de transitions

Q =

−λ λµ −λ− µ λ

µ −λ− µ λ...

Loi limite

Soit ρ = λµ

. La resolution de πQ = 0 donne

π(k) = ρkπ(0) avec π(0) = 1− ρ

La loi limite est donc une loi geometrique et

N =ρ

1− ρ

T =1

µ(1− ρ)

Generalisation : principe

La demarche precedente reste valable pour de nombreux autres processusd’arrivees ou de traitement. Si les taux de transition entre les tailles de file nedependent que de la taille actuelle, l’approche par chaıne de Markov continuereste valable, seule les formules de recurrence changent.

En general, il est raisonnable de penser qu’on ne gagne ou ne perd qu’un clienta la fois, ce qui donne une matrice

Q =

−λ0 λ0

µ1 −λ1 − µ1 λ1

µ2 −λ2 − µ2 λ2

...

Arrivees decouragees

Les arrivees sont d’autant plus rares que la file est deja grande :

λk =λ

k + 1et µk = µ

Alors π(k) = ρk

k !π(0) d’ou

N = ρ

T =ρ

µ(1− e−ρ)

Autres generalisations

Cette approche permet de gerer toutes les files de type M/M :

M/M/1/K λk = λ si k ≤ K − 1, λk = 0 sinon.

M/M/m/∞ muk = kµ si k ≤ m, µk = mµ sinon.

M/M/m/K On considere les deux precedentes simultanement.

top related