karl b christensen kach/css1publicifsv.sund.ku.dk/~kach/css1/f2.pdf · 2019. 9. 2. · fordelingen...

20
F2 Karl B Christensen http://biostat.ku.dk/ ~ kach/CSS1 Karl B Christensenhttp://biostat.ku.dk/ ~ kach/CSS1 F2

Upload: others

Post on 17-Oct-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Karl B Christensen kach/CSS1publicifsv.sund.ku.dk/~kach/CSS1/F2.pdf · 2019. 9. 2. · Fordelingen af gennemsnit (’sample means’) Vil unders˝ge en population af kvinder og tager

F2

Karl B Christensenhttp://biostat.ku.dk/~kach/CSS1

Karl B Christensenhttp://biostat.ku.dk/~kach/CSS1 F2

Page 2: Karl B Christensen kach/CSS1publicifsv.sund.ku.dk/~kach/CSS1/F2.pdf · 2019. 9. 2. · Fordelingen af gennemsnit (’sample means’) Vil unders˝ge en population af kvinder og tager

Statistik

Kirkwood & Sterne kapitel 4. Means, Standard Deviationsand Standard Errors

Kirkwood & Sterne kapitel 5. The Normal Distribution

Data observeret med tilfældig variation. Vi vil ...

... kvantificere at data kan forklares med

systematisk variationtilfældig variation.

... kvantificere at konklusioner baseret pa meget data er merepræcise end konklusioner baseret pa lidt data.

Karl B Christensenhttp://biostat.ku.dk/~kach/CSS1 F2

Page 3: Karl B Christensen kach/CSS1publicifsv.sund.ku.dk/~kach/CSS1/F2.pdf · 2019. 9. 2. · Fordelingen af gennemsnit (’sample means’) Vil unders˝ge en population af kvinder og tager

Hæmoglobin-niveau for 70 kvinder (g/100ml)

10.2 13.3 10.6 12.1 9.3 12.0 13.4 11.9 11.2 14.6

13.7 12.9 10.5 12.9 13.5 12.9 12.1 11.4 15.1 11.1

10.4 12.1 13.7 11.4 14.6 11.1 10.9 12.5 10.7 13.5

14.9 9.4 11.8 12.7 11.2 8.8 11.3 13.0 12.9 10.9

11.5 13.2 14.1 10.6 11.7 10.2 14.7 11.6 13.4 13.1

12.0 10.8 10.3 11.4 10.9 11.6 10.8 13.1 12.3 11.8

11.0 11.7 13.6 11.9 10.4 12.5 13.3 9.7 11.0 12.2

https://youtu.be/z1Yokwnnlls

Software (ikke en del af pensum, ikke nødvendigt til eksamen)

Download R frahttps://cran.r-project.org/bin/windows/base/

Download SAS/SPSS fra softwarebibliokteket pahttp://kunet.dk

https://cran.r-project.org/doc/contrib/usingR.pdf

http://biostat.ku.dk/~kach/SAS2016

http://biostat.ku.dk/~kach/SPSS

Karl B Christensenhttp://biostat.ku.dk/~kach/CSS1 F2

Page 4: Karl B Christensen kach/CSS1publicifsv.sund.ku.dk/~kach/CSS1/F2.pdf · 2019. 9. 2. · Fordelingen af gennemsnit (’sample means’) Vil unders˝ge en population af kvinder og tager

Hæmoglobin-niveau for 70 kvinder (g/100ml)

gennemsnit: x = (10.2 + 13.3 + · · · )/70 = 11.98

afvigelser: (10.2− x) (13.3− x) · · ·kvadreres1: (10.2− x)2 (13.3− x)2 · · ·Varians: Hvor langt væk fra centrum ligger data

1

69

[(10.2− 11.98)2 + (13.3− 11.98)2 + · · ·

]= 2.01

Skriver

V = s2 =1

n − 1

∑(x − x)2

dividerer ikke med n, men med ’frihedsgrader’ (n − 1)

1sa de bliver positiveKarl B Christensenhttp://biostat.ku.dk/~kach/CSS1 F2

Page 5: Karl B Christensen kach/CSS1publicifsv.sund.ku.dk/~kach/CSS1/F2.pdf · 2019. 9. 2. · Fordelingen af gennemsnit (’sample means’) Vil unders˝ge en population af kvinder og tager

Varians

V = s2 = 1n−1

∑(x − x)2 - dividerer ikke med n, men med

’frihedsgrader’ (n − 1)

x x (x − x) (x − x)2

10.2 11.98 -1.78 3.168413.3 11.98 1.31 1.7424

: : : :: : : :

12.2 11.98 0.22 0.0484∑(x − x)2 = 3.1684 + 1.7424 + . . .+ 0.0484 [K & S, Table 4.1]

Karl B Christensenhttp://biostat.ku.dk/~kach/CSS1 F2

Page 6: Karl B Christensen kach/CSS1publicifsv.sund.ku.dk/~kach/CSS1/F2.pdf · 2019. 9. 2. · Fordelingen af gennemsnit (’sample means’) Vil unders˝ge en population af kvinder og tager

Varians og SD

V = s2

kompliceret (kvadratisk afvigelse), er nem at regne medhar ’sære enheder’ - svær at forsta.

Kvadratroden s

har oprindelige enheder - nemmere at forstakaldes standardafvigelsen (engelsk: standard deviation, SD),eller spredningen.

Tommelfingerregel:

95% ligger mellem x − 2 · s og x + 2 · s(’normalomradet’)

Karl B Christensenhttp://biostat.ku.dk/~kach/CSS1 F2

Page 7: Karl B Christensen kach/CSS1publicifsv.sund.ku.dk/~kach/CSS1/F2.pdf · 2019. 9. 2. · Fordelingen af gennemsnit (’sample means’) Vil unders˝ge en population af kvinder og tager

Normalfordeling

Middelværdi µ og SD σ.

Ssh for interval = areal under tilsv. del af kurven.

Areal under hele kurven = 1.

95% af fordelingen ligger mellem

µ− 1.96 · σ og µ+ 1.96 · σ’normalomradet’ - 95% referenceinterval

Karl B Christensenhttp://biostat.ku.dk/~kach/CSS1 F2

Page 8: Karl B Christensen kach/CSS1publicifsv.sund.ku.dk/~kach/CSS1/F2.pdf · 2019. 9. 2. · Fordelingen af gennemsnit (’sample means’) Vil unders˝ge en population af kvinder og tager

Normalfordelingen

Regneregler

Normalfordeling er symmetrisk P(Z > 1.45) = P(Z < −1.45)

Median=middelværdi

Husk atP(Z > 1.45) = 1− P(Z < 1.45)

Den centrale grænseværdisætning

Hvis X1, . . . ,Xn er n uafhængige identisk fordelte variable medmiddelværdi E(X) og varians V(X).

Sa vil gennemsnittet være approksimativt normalt fordelt medmiddelværdi E(X) og varians V(X)/n.

Approksimationen bliver bedre og bedre, jo flereobservationer, der indsamles.

Karl B Christensenhttp://biostat.ku.dk/~kach/CSS1 F2

Page 9: Karl B Christensen kach/CSS1publicifsv.sund.ku.dk/~kach/CSS1/F2.pdf · 2019. 9. 2. · Fordelingen af gennemsnit (’sample means’) Vil unders˝ge en population af kvinder og tager

Normalfordeling. Notation

Middelværdi µ svarer til gennemsnittet x

Varians σ2 svarer til s2

SD σ svarer til s eller SD

Skriver µ nar vi mener sand middelværdi og x nar vi menergennemsnit beregnet fra stikprøve.

Skriver σ2 nar vi mener sand varians og s2 nar vi menervarians beregner fra stikprøve.

http://biostat.ku.dk/~kach/CSS1/Altman,Bland,

Normaldistribution,BMJ,1995.pdf

Karl B Christensenhttp://biostat.ku.dk/~kach/CSS1 F2

Page 10: Karl B Christensen kach/CSS1publicifsv.sund.ku.dk/~kach/CSS1/F2.pdf · 2019. 9. 2. · Fordelingen af gennemsnit (’sample means’) Vil unders˝ge en population af kvinder og tager

Normalfordeling. Eksempel

Bruger normalfordeling til at beskrive højde.

Middelværdi µ=171.5 cm og SD σ=6.5 cm.

Kan nemt beregne et 95% referenceinterval for højde

[171.5− 1.96 · 6.5, 171.5 + 1.96 · 6.5] = [ , ]

fortolkningen af dette interval: ”de midterste 95% affordelingen”

Karl B Christensenhttp://biostat.ku.dk/~kach/CSS1 F2

Page 11: Karl B Christensen kach/CSS1publicifsv.sund.ku.dk/~kach/CSS1/F2.pdf · 2019. 9. 2. · Fordelingen af gennemsnit (’sample means’) Vil unders˝ge en population af kvinder og tager

Normalfordeling. Eksempel

Middelværdi µ=171.5 cm og SD σ=6.5 cm.

Sandsynlighed for at ligge mellem 158.8 og 184.2: 95%.

Karl B Christensenhttp://biostat.ku.dk/~kach/CSS1 F2

Page 12: Karl B Christensen kach/CSS1publicifsv.sund.ku.dk/~kach/CSS1/F2.pdf · 2019. 9. 2. · Fordelingen af gennemsnit (’sample means’) Vil unders˝ge en population af kvinder og tager

Referenceintervaller (’normalomrader’)

95% referenceinterval

[MEAN-1.96·SD,MEAN+1.96·SD]

indeholder de midterste 95% af populationen.

99% referenceinterval

[MEAN-2.58·SD,MEAN+2.58·SD]

indeholder de midterste 99% af populationen.

1.96 og 2.58 fra K & S Table A2 (bemærk viser bade’one-sided’ og ’two-sided’).

Karl B Christensenhttp://biostat.ku.dk/~kach/CSS1 F2

Page 13: Karl B Christensen kach/CSS1publicifsv.sund.ku.dk/~kach/CSS1/F2.pdf · 2019. 9. 2. · Fordelingen af gennemsnit (’sample means’) Vil unders˝ge en population af kvinder og tager

Standardiseret normalfordeling: z-score

Normalfordeling med middelværdi 0 og varians 1 kaldesstandardiseret normalfordeling.

Hvis X er normalfordelt med middelværdi µ og varians σ2 er

Z =X − µσ

standardiseret normalfordelt.

kaldes z-score (eller SND) [K & S Table A1]

Karl B Christensenhttp://biostat.ku.dk/~kach/CSS1 F2

Page 14: Karl B Christensen kach/CSS1publicifsv.sund.ku.dk/~kach/CSS1/F2.pdf · 2019. 9. 2. · Fordelingen af gennemsnit (’sample means’) Vil unders˝ge en population af kvinder og tager

Udregning

Hvad er sandsynligheden for at en person i vores population erhøjere end 185cm ?

Skal bruge tabel over normalfordeling med middelværdi 171.5og SD 6.5. Sadan en tabel har vi ikke.

Men X > 185 netop hvis Z > 185−171.56.5 = 2.08.

Derfor er P(X > 185) = P(Z > 2.08) = 0.0188 (sla op iTabel A1).

Karl B Christensenhttp://biostat.ku.dk/~kach/CSS1 F2

Page 15: Karl B Christensen kach/CSS1publicifsv.sund.ku.dk/~kach/CSS1/F2.pdf · 2019. 9. 2. · Fordelingen af gennemsnit (’sample means’) Vil unders˝ge en population af kvinder og tager

Referenceinterval. Eksempel

Reference omrade over væksten for danske drenge baseret pa ElseAndersen’s undersøgelse fra 1974.

viser 97.5% og 2.5% percentiler, dvs. ’normalomradet’, midterste95% af populationen.

Karl B Christensenhttp://biostat.ku.dk/~kach/CSS1 F2

Page 16: Karl B Christensen kach/CSS1publicifsv.sund.ku.dk/~kach/CSS1/F2.pdf · 2019. 9. 2. · Fordelingen af gennemsnit (’sample means’) Vil unders˝ge en population af kvinder og tager

Opgave

Reference omrade over vækst. For de 1 arige aflæser vi:gennemsnit 76 og referenceinterval [70, 82].

70 76 82

--------------------------

Hvad er sandsynligheden for at en 1 arig er mere end 80 cm ?

Karl B Christensenhttp://biostat.ku.dk/~kach/CSS1 F2

Page 17: Karl B Christensen kach/CSS1publicifsv.sund.ku.dk/~kach/CSS1/F2.pdf · 2019. 9. 2. · Fordelingen af gennemsnit (’sample means’) Vil unders˝ge en population af kvinder og tager

Opgave1-arige: gennemsnit 76, referenceomrade [70, 82].

70 76 82

--------------------------

Vi kan regne SD ud

82 = 76 + 1.96 · SD82− 76 = 1.96 · SD82− 76

1.96= SD

dvs. SD=3.06. Tabelopslag

P(X > 80) = P(Z > 80−763.06 ) = P(Z > 1.31) = 0.0951 ∼ 9.5%

Karl B Christensenhttp://biostat.ku.dk/~kach/CSS1 F2

Page 18: Karl B Christensen kach/CSS1publicifsv.sund.ku.dk/~kach/CSS1/F2.pdf · 2019. 9. 2. · Fordelingen af gennemsnit (’sample means’) Vil unders˝ge en population af kvinder og tager

Fordelingen af gennemsnit (’sample means’)

Vil undersøge en population af kvinder og tager en stikprøve(sample) pa n=10.

Gennemsnittet x i stikprøven er vores bedste bud pa denukendte middelværdi µ i populationen, men det er ikke densande værdi.

Hvis vi havde taget en anden stikprøve med n=10 ville vi havefaet et andet estimat (sikkert ikke meget anderledes)

Hvis vi havde en større stikprøve ville vi være mere sikre.

Karl B Christensenhttp://biostat.ku.dk/~kach/CSS1 F2

Page 19: Karl B Christensen kach/CSS1publicifsv.sund.ku.dk/~kach/CSS1/F2.pdf · 2019. 9. 2. · Fordelingen af gennemsnit (’sample means’) Vil unders˝ge en population af kvinder og tager

Fordelingen af gennemsnit (’sample means’)

Hæmoglobin-niveau for 70 kvinder (g/100ml)

Hvad hvis vi havde baseret vores analyse pa kun 10 afkvinderne (f.eks. de 10 første eller de de 10 sidste)?

10.2 13.3 10.6 12.1 9.3 12.0 13.4 11.9 11.2 14.6 -> 11.86

13.7 12.9 10.5 12.9 13.5 12.9 12.1 11.4 15.1 11.1 -> 12.61

10.4 12.1 13.7 11.4 14.6 11.1 10.9 12.5 10.7 13.5 -> 12.09

14.9 9.4 11.8 12.7 11.2 8.8 11.3 13.0 12.9 10.9 -> 11.69

11.5 13.2 14.1 10.6 11.7 10.2 14.7 11.6 13.4 13.1 -> 12.41

12.0 10.8 10.3 11.4 10.9 11.6 10.8 13.1 12.3 11.8 -> 11.50

11.0 11.7 13.6 11.9 10.4 12.5 13.3 9.7 11.0 12.2 -> 11.73

Gennemsnit i de sma delpopulationer varierer omkringx = 11.98. Vi kunne godt have faet noget (lidt) anderledes

Karl B Christensenhttp://biostat.ku.dk/~kach/CSS1 F2

Page 20: Karl B Christensen kach/CSS1publicifsv.sund.ku.dk/~kach/CSS1/F2.pdf · 2019. 9. 2. · Fordelingen af gennemsnit (’sample means’) Vil unders˝ge en population af kvinder og tager

Fordelingen af gennemsnit (’sample means’)

Observerer 70 datapunkter - kan sige noget om fordelingen.

Vi har kun observeret en middelværdi, men vil gerne sigenoget om fordelingen af middelværdien.

x1, . . . , xn er normalfordelte med middelværdi µ og varians σ2

x normalfordelt middelværdi µ varians σ2/n

Altsa, samme middelværdi, men standardafvigelsen

s.e.(x) =s√n

bliver mindre. Kaldes standard error of the mean (SEM).

Karl B Christensenhttp://biostat.ku.dk/~kach/CSS1 F2