matematick´a statistikahudecova/education/archive11/... · 2012-03-19 · matematicka statistika...
TRANSCRIPT
Matematicka
statistika
Nahodne
vektory
Nezavislost
Kovariance a
korelace
Matematicka statistika
Sarka Hudecova
Katedra pravdepodobnosti a matematicke statistiky
Matematicko-fyzikalnı fakulta Univerzity Karlovy
letnı semestr 20121
1Zalozeno na materialech doc. Michala Kulicha
Matematicka
statistika
Nahodne
vektory
Nezavislost
Kovariance a
korelace
Nahodny vektor
casto potrebujeme vysetrovat vzajemny vztah nekolikanahodnych velicin
musıme sledovat jejich chovanı”spolecne“
prıklad: vztah hmotnosti, tlaku a koncentrace urcite latkyv krvi u cloveka apod.
Definice
Usporadanou n-tici X nahodnych velicin X1,X2, . . . ,Xn
nazyvame nahodny vektor.
Matematicka
statistika
Nahodne
vektory
Nezavislost
Kovariance a
korelace
Nahodny vektor
Nahodny vektor budeme znacit velkym tlustym pısmenem(napr. X) anebo vyctem jeho slozek, tj.
X =
X1
...Xn
nebo X = (X1, . . . ,Xn)
T
Vetsinou se omezıme na nahodne vektory delky 2, tj. budemeuvazovat X =
(
X1
X2
)
anebo X =(
XY
)
.
Matematicka
statistika
Nahodne
vektory
Nezavislost
Kovariance a
korelace
Nahodny vektor: prıklad
Prıklad (Deti)
Uvazovali jsme rodinu, ktera ma tri deti, a zavedli nahodnouvelicinu X , ktera urcuje pocet dcer, a nahodnou velicinu Y ,ktera rıka, kolik ma nejmladsı sourozenec starsıch bratru.
zajıma nas rozdelenı nahodneho vektoru X =(
XY
)
odtud lze pocıtat tzv. sdruzene pravdepodobnosti typuP(X = 0,Y = 1), P(X ≤ 2,Y = 0) apod.
jaky je vztah mezi X a Y ? souvisı hodnoty X shodnotami Y ?
Matematicka
statistika
Nahodne
vektory
Nezavislost
Kovariance a
korelace
Dalsı prıklady
Prıklady nahodnych vektoru:
vyska a hmotnost nahodne vybraneho cloveka
teplota, mnozstvı srazek a sıla vetru ve vybrany den
HDP, mıra inflace, . . . (jine ekonomicke ukazatele)nahodne vybrane evropske zeme
pohlavı a plat nahodne vybraneho cloveka
vzdelanı a politicky nazor nahodne vybraneho cloveka
porodnı hmotnost dıtete a vek jeho matky
. . .
Matematicka
statistika
Nahodne
vektory
Nezavislost
Kovariance a
korelace
Rozdelenı nahodneho vektoru
Rozdelenı nahodneho vektoru X =(
XY
)
rozlisujeme nahodny vektor se spojitym a diskretnımrozdelenım
spojite rozdelenı popıseme hustotou
je ted’ funkcı R2 → [0,∞)hodnota fX(x , y) udava, jak casto nahodny vektor padakolem bodu (x , y)ma vlastnosti analogicke hustote nahodne veliciny
diskretnı rozdelenı popıseme tzv. sdruzenymipravdepodobnostmi P(X = xi ,Y = yk) pro vsechnamozna xi a yk
Matematicka
statistika
Nahodne
vektory
Nezavislost
Kovariance a
korelace
Hustota nahodneho vektoru
Prıklad hustoty spojiteho dvourozmerneho rozdelenı:
x
−3−2−1
01
23
y
−3
−2
−10123
f0.00
0.05
0.10
0.15
0.20
Matematicka
statistika
Nahodne
vektory
Nezavislost
Kovariance a
korelace
Hustota nahodneho vektoru
Obrazek: Hustota z predchozıho obrazku nakreslena pomocı vrstevnic.
−3 −2 −1 0 1 2 3
−3
−2
−1
0
1
2
3
Matematicka
statistika
Nahodne
vektory
Nezavislost
Kovariance a
korelace
Sdruzene a marginalnı rozdelenı
Rozdelenı nahodneho vektoru X =(
XY
)
obsahuje neconavıc, nez kdybychom znali jen rozdelenı samotne nahodneveliciny X a samotne nahodne veliciny Y .
To, co je tam navıc, je informace o vzajemnem vztahuobou velicin.
Terminologie
Rozdelenı nahodneho vektoru X =(
XY
)
nazyvamesdruzene rozdelenı nahodnych velicin X a Y .
Rozdelenı samotneho X a samotneho Y nazyvamemarginalnı rozdelenı nahodnych velicin X a Y .
Matematicka
statistika
Nahodne
vektory
Nezavislost
Kovariance a
korelace
Sdruzene a marginalnı rozdelenı
Interpretace:
sdruzene rozdelenı nam rıka, jak se chova (X ,Y ) spolecne(jakozto dvojice)
marginalnı rozdelenı popisuje chovanı jedne veliciny bezohledu na hodnoty druhe
Vztah sdruzeneho a marginalnıho rozdelenı:
ze sdruzeneho rozdelenı lze vzdy urcit marginalnı
opacne to obecne nenı mozne, tj. z marginalnıho nelzejednoznacne urcit rozdelenı sdruzene(k dane dvojici marginalnıch rozdelenı dokonce existujenekonecne mnoho odpovıdajıcıch sdruzenych rozdelenı)
Matematicka
statistika
Nahodne
vektory
Nezavislost
Kovariance a
korelace
Diskretnı nahodny vektor: prıklad
Prıklad (Deti – viz drıve)
Uvazovali jsme rodinu, ktera ma tri deti a zavedli nahodnouvelicinu X , ktera urcuje pocet dcer, a nahodnou velicinu Y ,ktera rıka, kolik ma nejmladsı sourozenec starsıch bratru.
Dostali jsme diskretnı nahodny vektor X =(
XY
)
:
ω X (ω) Y (ω)
SSS 0 2SSD 1 2SDS 1 1DSS 1 1DDS 2 0DSD 2 1SDD 2 1DDD 3 0
Matematicka
statistika
Nahodne
vektory
Nezavislost
Kovariance a
korelace
Prıklad deti
Jiz drıve jsme zkoumali rozdelenı X a Y zvlast’, tj. marginalnırozdelenı:
x 0 1 2 3
P(X = x) 18
38
38
18
y 0 1 2
P(Y = y) 14
12
14
Rozdelenı X =(
XY
)
je dano pravdepodobnostmipij = P [X = xi ,Y = yj ], ktere jsou v nasledujıcı tabulce:
X\Y 0 1 2
0 0 0 18
1 0 14
18
2 18
14
0
3 18
0 0
Jak lze ze sdruzeneho rozdelenı spocıtat marginalnı?
Matematicka
statistika
Nahodne
vektory
Nezavislost
Kovariance a
korelace
Prıklad deti
Sdruzene rozdelenı:X\Y 0 1 2
0 0 0 18
1 0 14
18
2 18
14
03 1
80 0
Matematicka
statistika
Nahodne
vektory
Nezavislost
Kovariance a
korelace
Prıklad deti
Sdruzene rozdelenı:X\Y 0 1 2
0 0 0 18
1 0 14
18
2 18
14
03 1
80 0
Odtud
P [X = 0] = P [X = 0,Y = 0] + P [X = 0,Y = 1]+
+ P [X = 0,Y = 2] = 0 + 0 +1
8=
1
8P [X = 1] = P [X = 1,Y = 0] + P [X = 1,Y = 1]+
+ P [X = 1,Y = 2] = 0 +1
4+
1
8=
3
8
a analogicky P(X = 2) = 3/8 a P(X = 3) = 1/8.
Matematicka
statistika
Nahodne
vektory
Nezavislost
Kovariance a
korelace
Sdruzene a marginalnı rozdelenı
Veta
Necht’ X =(
XY
)
je diskretnı nahodny vektor s rozdelenımurcenym pravdepodobnostmi pij = P [X = xi ,Y = yj ].Marginalnı rozdelenı velicin X a Y pak jsou
P [X = xi ] =∞∑
j=1
P
[
X = xi ,Y = yj
]
=∞∑
j=1
pij ,
P [Y = yj ] =∞∑
i=1
P
[
X = xi ,Y = yj
]
=∞∑
i=1
pij .
Matematicka
statistika
Nahodne
vektory
Nezavislost
Kovariance a
korelace
Sdruzene a marginalnı rozdelenı
Pro spojite rozdelenı platı analogie predchozıho tvrzenı:
Veta
Necht’ X =(
XY
)
je nahodny vektor se spojitym rozdelenım sesdruzenou hustotou fX(x , y). Marginalnı hustoty velicin X a Y
pak jsou
fX (x) =
∫
∞
−∞
fX(x , y) dy ,
fY (y) =
∫
∞
−∞
fX(x , y) dx .
Matematicka
statistika
Nahodne
vektory
Nezavislost
Kovariance a
korelace
Nezavislost nahodnych velicin
v praxi nas casto zajıma, zda je mezi velicinami X a Y
nejaky vztah
spec. se muzeme ptat, zda jsou nezavisle! hodnotyjedne veliciny nezavisı na hodnotach druhe
Prıklad
Necht’ X je znamka z Matematicke statistiky a Y je pocetnavstıvenych prednasek nahodne vybraneho studenta. Jsou tytodve veliciny nezavisle?
nezavislost! znamka nezavisı na poctu navstıvenychprednasek! P(X = i |Y = j) nezavisı na hodnotach j , tj.P(X = i |Y = j) = P(X = i)
uz vıme, ze toto odpovıda podmınceP(X = i ,Y = j) = P(X = i ,Y = j) pro vsechna i , j
Matematicka
statistika
Nahodne
vektory
Nezavislost
Kovariance a
korelace
Nezavislost nahodnych velicin
Definice
Nahodne veliciny X a Y nazveme nezavisle, pokud pro kazdedve mnoziny A,B ∈ R platı
P [X ∈ A,Y ∈ B ] = P [X ∈ A] · P [Y ∈ B ].
Nezavisle veliciny:
P [X ∈ A | Y ∈ B ] = P [X ∈ A] tj. hodnoty jedne nahodneveliciny nejsou ovlivneny hodnotami druhe.
ze znalosti hodnoty jedne veliciny nic nevıme o druhevelicine
Matematicka
statistika
Nahodne
vektory
Nezavislost
Kovariance a
korelace
Charakterizace nezavislosti
Veta
1 Diskretnı nahodne veliciny X a Y jsou nezavisle, pravekdyz platı
P [X = xi ,Y = yj ] = P [X = xi ] · P [Y = yj ]
pro kazde xi , yj , kterych X a Y nabyvajı.
2 Spojite nahodne veliciny X a Y jsou nezavisle, prave kdyzplatı
fX(x , y) = fX (x) · fY (y) pro kazde x , y ∈ R.
Matematicka
statistika
Nahodne
vektory
Nezavislost
Kovariance a
korelace
Prıklad deti
Sdruzene rozdelenı:X\Y 0 1 2
0 0 0 18
1 0 14
18
2 18
14
03 1
80 0
Veliciny X a Y nejsou nezavisle .Zduvodnenı: napr. P [X = 3,Y = 2] = 0 a P [X = 3] = 1
8,
P [Y = 2] = 38. Takze
0 = P [X = 3,Y = 2] 6= P [X = 3] · P [Y = 2] =3
64.
Tudız pocet dcer a pocet starsıch bratru nejmladsıhosourozence jsou zavisle veliciny.
Matematicka
statistika
Nahodne
vektory
Nezavislost
Kovariance a
korelace
Nezavislost — poznamka
definici nezavislosti lze snadno rozsırit na vıce nez dvenahodne veliciny
platı obdobne charakterizace nezavislosti (sdruzenahustota je soucinem marginalnıch hustot apod.)
Matematicka
statistika
Nahodne
vektory
Nezavislost
Kovariance a
korelace
Strednı hodnota souctu a soucinu
Veta
Necht’ X =(
XY
)
, kde X , Y jsou libovolne nahodne veliciny.
1 PlatıE (X + Y ) = EX + EY .
2 Pokud jsou X a Y nezavisle, pak platı
EXY = (EX )(EY ).
strednı hodnota souctu dvou (nebo vıce) nahodnychvelicin je rovna souctu jejich strednıch hodnot
pro nezavisle nahodne veliciny je strednı hodnota jejichsoucinu je rovna soucinu jejich strednıch hodnot
pro zavisle veliciny tomu tak muze, ale nemusı byt
Matematicka
statistika
Nahodne
vektory
Nezavislost
Kovariance a
korelace
Kovariance
Jsou-li veliciny X a Y zavisle budeme chtıt popsatjejich zavislost
Definice
Uvazujme nahodny vektor X =(
XY
)
. Kovariancı nahodnychvelicin X a Y rozumıme hodnotu
cov (X ,Y ) = E [(X − EX )(Y − EY )]
kovariance vyjadruje vzajemny vztah X a Y
evidentne platı cov (X ,Y ) = cov (Y ,X ) acov (X ,X ) = varX .
Matematicka
statistika
Nahodne
vektory
Nezavislost
Kovariance a
korelace
Vlastnosti kovariance
Veta
1 Kovariance muze nabyvat jakychkoli realnych hodnot, alepro dve konkretnı veliciny musı platit
cov2(X ,Y ) ≤ varX · varY .
2 Platıcov (X ,Y ) = EXY − EX · EY .
3 Pokud jsou X a Y nezavisle, pak cov (X ,Y ) = 0.
pozor, tvrzenı 3 neplatı opacne (tj. z nulove kovariancenelze obecne nic usuzovat o nezavislosti)
3 plyne z 2, nebot’ pro nezavisle veliciny EXY = EXEY .
Matematicka
statistika
Nahodne
vektory
Nezavislost
Kovariance a
korelace
Interpretace kovariance
cov (X ,Y ) > 0! nahodne veliciny X a Y jsou zavisle v
”pozitivnım smyslu“
vyssı hodnoty X jsou svazany s vyssımi hodnotami Y (anizsı hodnoty X s nizsımi hodnotami Y )prıklad: vyska a vaha cloveka.
cov (X ,Y ) < 0! nahodne veliciny X a Y jsou zavisle v
”negativnım smyslu“
vyssı hodnoty X jsou svazany s nizsımi hodnotami Y (anizsı hodnoty X s vyssımi hodnotami Y )prıklad: hloubka dezenu pneumatiky a brzdna draha
cov (X ,Y ) = 0 neznamena, ze by mezi X a Y nebyl nutnezadny vztah (jeste se o tom zmınıme pozdeji)
Matematicka
statistika
Nahodne
vektory
Nezavislost
Kovariance a
korelace
Kovariance: prıklad
Prıklad (Deti)
Uvazovali jsme rodinu, ktera ma tri deti, a zavedli nahodnouvelicinu X , ktera urcuje pocet dcer, a nahodnou velicinu Y ,ktera rıka, kolik ma nejmladsı sourozenec starsıch bratru.
Dostali jsme nahodny vektor X =(
XY
)
s rozdelenım
X\Y 0 1 2
0 0 0 18
1 0 14
18
2 18
14
03 1
80 0
Spocıtame kovarianci nahodnych velicin X a Y . K vypoctupouzijeme vzorec
cov (X ,Y ) = EXY − EXEY .
Matematicka
statistika
Nahodne
vektory
Nezavislost
Kovariance a
korelace
Prıklad: Deti
Vıme: X nabyva hodnot 0, 1, 2, 3 s pstmi po rade 18, 38, 38, 18,
Y nabyva hodnot 0, 1, 2 s pstmi po rade 14, 12, 14.
Z marginalnıch rozdelenı mame
EX = 0 · 18+ 1 · 3
8+ 2 · 3
8+ 3 · 1
8=
3 + 6 + 3
8= 1.5,
EY = 0 · 14+ 1 · 1
2+ 2 · 1
4=
2 + 2
4= 1.
Ze sdruzeneho rozdelenı
EXY = 0 · P [X = 0 ∪ Y = 0] + 1 · P [X = 1,Y = 1] +
+ 2 · (P [X = 1,Y = 2] + P [X = 2,Y = 1]) =
= 1 · 14+ 2 · 3
8=
1
4+
3
4= 1.
Matematicka
statistika
Nahodne
vektory
Nezavislost
Kovariance a
korelace
Prıklad: Deti
Odtud
cov (X ,Y ) = EXY − (EX )(EY ) = 1− 1.5 · 1 = −0.5
Takze cov (X ,Y ) = −0.5 < 0 tj. pocet dcer a pocet starsıchbratru nejmladsıho sourozence nejsou nezavisle. Cım vıce jedcer, tım mene je starsıch bratru.
Matematicka
statistika
Nahodne
vektory
Nezavislost
Kovariance a
korelace
Korelace
hodnoty kovariance se spatne interpretujı
z hodnoty cov (X ,Y ) 6= 0 pozname, ze X a Y jsou zavislea jakym smerem, ale nepozname, jak silne jsou zavisle
Definice
Uvazujme nahodny vektor X =(
XY
)
. Korelacı nahodnychvelicin X a Y rozumıme hodnotu
cor (X ,Y ) =cov (X ,Y )√varXvarY
.
korelace se nekdy znacı (X ,Y ) nebo ρXY
nekdy mluvıme o korelacnım koeficientu.
Matematicka
statistika
Nahodne
vektory
Nezavislost
Kovariance a
korelace
Vlastnosti korelace
Veta
1 Korelace ρXY vzdy lezı mezi −1 a 1 a
ρXY = 0 ⇔ cov (X ,Y ) = 0.
2 Pokud jsou X a Y nezavisle, pak cor (X ,Y ) = 0.
3 Platı
ρXY = 1 prave kdyz Y = a + bX
pro nejake a ∈ R a b > 0.
ρXY = −1 prave kdyz Y = a + bX
pro nejake a ∈ R a b < 0.
Matematicka
statistika
Nahodne
vektory
Nezavislost
Kovariance a
korelace
Interpretace korelace
korelace merı sılu linearnı zavislosti mezi X a Y
znamenko korelace udava smer zavislosti
jsou-li X a Y silne linearne zavisle (tj. hodnoty tetodvojice padajı nejcasteji nekde kolem prımky v R
2 snenulovou smernicı), pak je korelace blızko 1 nebo −1.
nezavisle veliciny majı vzdy nulovou korelaci
je-li korelace nulova, neznamena to, ze X a Y jsou nutnenezavisle(korelace je mırou pouze linearnı zavislosti)
Matematicka
statistika
Nahodne
vektory
Nezavislost
Kovariance a
korelace
Interpretace korelace
−2 −1 0 1 2
−2
01
2
X
Yρ = 0.2
−2 −1 0 1 2
−2
02
Y
Y
ρ = 0.5
−2 −1 0 1 2
−2
01
2
Y
Y
ρ = 0.9
−2 −1 0 1 2
−2
02
Y
Yρ = −0.7
Matematicka
statistika
Nahodne
vektory
Nezavislost
Kovariance a
korelace
Interpretace korelace
Je-li korelace nulova, neznamena to, ze X a Y jsou nutnenezavisle:
−1.0 −0.5 0.0 0.5 1.0
0.0
0.2
0.4
0.6
0.8
X
Y=
X2
Prıklad
Ma-li X rozdelenı symetricke kolem 0, pak EX = 0 aEX 3 = 0. Vezmeme-li Y = X 2, pak Y a X nejsou nezavisle azaroven cov (X ,Y ) = 0 a tudız i ρXY = 0.
Matematicka
statistika
Nahodne
vektory
Nezavislost
Kovariance a
korelace
Hustota dvourozmerneho rozdelenı s ruznymi
korelacemi
Obrazek: Hustota dvourozmerneho rozdelenı, cor (X ,Y ) = 0.
0.00
0.02
0.04
0.06
0.08
−3 −2 −1 0 1 2 3
−4
−2
0
2
4
Matematicka
statistika
Nahodne
vektory
Nezavislost
Kovariance a
korelace
Hustota dvourozmerneho rozdelenı s ruznymi
korelacemi
Obrazek: Hustota dvourozmerneho rozdelenı, cor (X ,Y ) = 0.3.
0.00
0.02
0.04
0.06
0.08
0.10
−3 −2 −1 0 1 2 3
−4
−2
0
2
4
Matematicka
statistika
Nahodne
vektory
Nezavislost
Kovariance a
korelace
Hustota dvourozmerneho rozdelenı s ruznymi
korelacemi
Obrazek: Hustota dvourozmerneho rozdelenı, cor (X ,Y ) = 0.6.
0.00
0.02
0.04
0.06
0.08
0.10
−3 −2 −1 0 1 2 3
−4
−2
0
2
4
Matematicka
statistika
Nahodne
vektory
Nezavislost
Kovariance a
korelace
Hustota dvourozmerneho rozdelenı s ruznymi
korelacemi
Obrazek: Hustota dvourozmerneho rozdelenı, cor (X ,Y ) = 0.95.
0.00
0.05
0.10
0.15
0.20
0.25
0.30
−3 −2 −1 0 1 2 3
−4
−2
0
2
4
Matematicka
statistika
Nahodne
vektory
Nezavislost
Kovariance a
korelace
Vlastnosti strednı hodnoty a rozptylu
Necht’ X ,Y jsou nahodne veliciny, a, b ∈ R. Pak
1 E (a + bX ) = a + bEX ,
2 E (X + Y ) = EX + EY ,
3 var (a + bX ) = b2varX ,
4 var (X + Y ) = varX + varY + 2cov (X ,Y )
5 pro nezavisle veliciny var (X + Y ) = varX + varY
Matematicka
statistika
Nahodne
vektory
Nezavislost
Kovariance a
korelace
Vlastnosti kovariance
Dukaz bodu 4:
Mame
var (X + Y ) = E (X + Y )2 − [E (X + Y )]2 =
= E (X 2 + 2XY + Y 2)−− [(EX )2 + 2EXEY + (EY )2] =
= EX 2 − (EX )2 + EY 2 − (EY )2+
+ 2[EXY − EXEY ] =
= varX + varY + 2 cov (X ,Y ).