karl b christensen kach/css1publicifsv.sund.ku.dk/~kach/css1/f10.pdfdikotome data det statistiske...

22
F10 Karl B Christensen http://biostat.ku.dk/ ~ kach/CSS1 Karl B Christensenhttp://biostat.ku.dk/ ~ kach/CSS1 F10

Upload: others

Post on 09-Mar-2020

5 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Karl B Christensen kach/CSS1publicifsv.sund.ku.dk/~kach/CSS1/F10.pdfDikotome data Det statistiske sp˝rgsm al omhandler en ukendt populationsparameter ˇ= P(x = 1) (ssh. for at tilfˆldigt

F10

Karl B Christensenhttp://biostat.ku.dk/~kach/CSS1

Karl B Christensenhttp://biostat.ku.dk/~kach/CSS1 F10

Page 2: Karl B Christensen kach/CSS1publicifsv.sund.ku.dk/~kach/CSS1/F10.pdfDikotome data Det statistiske sp˝rgsm al omhandler en ukendt populationsparameter ˇ= P(x = 1) (ssh. for at tilfˆldigt

Kirkwood & Sterne kapitel 16. Comparing two proportions

Karl B Christensenhttp://biostat.ku.dk/~kach/CSS1 F10

Page 3: Karl B Christensen kach/CSS1publicifsv.sund.ku.dk/~kach/CSS1/F10.pdfDikotome data Det statistiske sp˝rgsm al omhandler en ukendt populationsparameter ˇ= P(x = 1) (ssh. for at tilfˆldigt

Dikotome data

Det statistiske spørgsmal omhandler en ukendtpopulationsparameter

π = P(x = 1)

(ssh. for at tilfældigt valgt person i har sygdommen)

Kender ikke sandheden π kun estimatet p.

Vil udtrykke usikkerheden - hvor meget p varierer.

p = 1n

∑x : middelværdi π og

s.e.(p) =

√π(1− π)

n=

√π(1− π)√

n

Estimatet bliver mere og mere sikkert bestemt nar n vokser[s.e.(p) svarer til SEM].

Karl B Christensenhttp://biostat.ku.dk/~kach/CSS1 F10

Page 4: Karl B Christensen kach/CSS1publicifsv.sund.ku.dk/~kach/CSS1/F10.pdfDikotome data Det statistiske sp˝rgsm al omhandler en ukendt populationsparameter ˇ= P(x = 1) (ssh. for at tilfˆldigt

Forskellige associationsmal i 2× 2 tabeller

Absolut difference π1 − π0. Estimeret ved p1 − p0

Relativ risiko RR = π1/π0. Estimeret ved p1/p0

Odds ratio OR = (π1/(1− π1)/(π0/(1− π0)). Estimeret vedO1/O0

Nulhypotesen

H0 : π1 = π0

H0 : RR = 1

H0 : OR = 1.

Nar π1 og π0 begge er sma vil OR ≈ RR.

Karl B Christensenhttp://biostat.ku.dk/~kach/CSS1 F10

Page 5: Karl B Christensen kach/CSS1publicifsv.sund.ku.dk/~kach/CSS1/F10.pdfDikotome data Det statistiske sp˝rgsm al omhandler en ukendt populationsparameter ˇ= P(x = 1) (ssh. for at tilfˆldigt

Risikodifferens

kvantificerer forskel mellem grupper

DIF = pja − pnej = 0.095− 0.042 = 0.053

beregner usikkerhed pa differensen ved

se(DIF ) =√

(senej)2 + (seja)2 = 0.0188

bronkitis som 5 arig estimat s.e. 95% SI

ja 0.095 0.0177 (0,060, 0.130)nej 0.042 0.0019 (0.030, 0.054)

risiko dif 0.053 0.0188 (0.016, 0.090)

Karl B Christensenhttp://biostat.ku.dk/~kach/CSS1 F10

Page 6: Karl B Christensen kach/CSS1publicifsv.sund.ku.dk/~kach/CSS1/F10.pdfDikotome data Det statistiske sp˝rgsm al omhandler en ukendt populationsparameter ˇ= P(x = 1) (ssh. for at tilfˆldigt

2-stikprøve test

Kvantificerer forskellen i risiko ved differensen

pja − pnej = 0.095− 0.042 = 0.053

og beregner usikkerhed.

Kan lave test for hypotesen H0 : πnej = πja baseret padifferensen

z =pja − pnejseDIF

=0.053

0.0188= 2.82.

P-værdi

p = P(Z > 2.82) + P(Z < −2.82) = 0.005,

dvs. lille sandsynlighed for at fa en lignende eller størretest-størrelse hvis H0 er sand.

Vi forkaster H0.

Karl B Christensenhttp://biostat.ku.dk/~kach/CSS1 F10

Page 7: Karl B Christensen kach/CSS1publicifsv.sund.ku.dk/~kach/CSS1/F10.pdfDikotome data Det statistiske sp˝rgsm al omhandler en ukendt populationsparameter ˇ= P(x = 1) (ssh. for at tilfˆldigt

2-stikprøve test

I normalfordelingen var der to tests: (i) approksimativt test og (ii)eksakt test. Forskellen pa de to:

s.e.(x1 − x0) =

(i)

√s.e.(x1)2 + s.e.(x0)2

(ii) SDf

√1/n1 + 1/n0

hvor SDf er estimat for fælles SD. Det samme gælder ibinomialfordelingen: vi kan lave to forskellige tests.

Karl B Christensenhttp://biostat.ku.dk/~kach/CSS1 F10

Page 8: Karl B Christensen kach/CSS1publicifsv.sund.ku.dk/~kach/CSS1/F10.pdfDikotome data Det statistiske sp˝rgsm al omhandler en ukendt populationsparameter ˇ= P(x = 1) (ssh. for at tilfˆldigt

2-stikprøve test: ”fælles SD”

Hvis nulhypotesen er sand er p = 26+44273+1046 = 0.053 og

seDIF =

√p(1− p)(

1

273+

1

1046) = 0.0152

Test

Z =pja − pnej

s.e.(pja − pnej)=

0.095− 0.042

0.0152= 3.49

approksimativt normalfordelt p-værdi

p = P(Z > 3.49) + P(Z < −3.49) < 0.05.

Det observerede passer ikke godt med H0, som vi derfor forkaster.

Karl B Christensenhttp://biostat.ku.dk/~kach/CSS1 F10

Page 9: Karl B Christensen kach/CSS1publicifsv.sund.ku.dk/~kach/CSS1/F10.pdfDikotome data Det statistiske sp˝rgsm al omhandler en ukendt populationsparameter ˇ= P(x = 1) (ssh. for at tilfˆldigt

Bemærk

Variansen afhænger af middelværdi (modsatnormalfordelingen).

Lige som før bruges to forskellige værdier

seDIF =√

0.01772 + 0.00622 = 0.0188.

og (hvis H0 : πja = πnej = π er sand)

seDIF =

√p(1− p)(

1

273+

1

1046) = 0.0152

Karl B Christensenhttp://biostat.ku.dk/~kach/CSS1 F10

Page 10: Karl B Christensen kach/CSS1publicifsv.sund.ku.dk/~kach/CSS1/F10.pdfDikotome data Det statistiske sp˝rgsm al omhandler en ukendt populationsparameter ˇ= P(x = 1) (ssh. for at tilfˆldigt

Relativ risiko (RR)

Brugte risikodifferens pja − pnej = 0.095− 0.042, men oftebenyttes relativ risiko

RR =pjapnej

= 2.26

Fortolkning

pjapnej

= 2.26 dvs. pja = 2.26 · pnej

altsa: risikoen for dem som havde bronkitis er 2.26 gange risikoenfor dem som ikke havde bronkitis (risikoen er mere end dobbelt sastor).

0Eller: risikoen er 126% større.Karl B Christensenhttp://biostat.ku.dk/~kach/CSS1 F10

Page 11: Karl B Christensen kach/CSS1publicifsv.sund.ku.dk/~kach/CSS1/F10.pdfDikotome data Det statistiske sp˝rgsm al omhandler en ukendt populationsparameter ˇ= P(x = 1) (ssh. for at tilfˆldigt

RR har nyttigt fortolkning, men er IKKE normalfordelt

0.1 1.0 10

-

Logaritmen1 til RR approksimativt normalfordelt

s.e.(log(RR)) kan udregnes.

1 Beregn p1 og p02 Beregn RR = p1/p0 og log(RR)3 Beregn 95% CI for log(RR)4 transformer tilbage til 95% CI for RR.

1Vi bruger altid den naturlige logaritme (’ln’).Karl B Christensenhttp://biostat.ku.dk/~kach/CSS1 F10

Page 12: Karl B Christensen kach/CSS1publicifsv.sund.ku.dk/~kach/CSS1/F10.pdfDikotome data Det statistiske sp˝rgsm al omhandler en ukendt populationsparameter ˇ= P(x = 1) (ssh. for at tilfˆldigt

Relativ risiko - Bronkitis data

RR =26/273

44/1046=

0.095

0.042= 2.26 log(RR) = 0.82

s.e.(log(RR)) =

√1

26− 1

273+

1

44− 1

1046= 0.24

95% CI for log(RR): 0.82± 1.96 · 0.24 = (0.35, 1.29)95% CI for RR: (exp(0.35), exp(1.29)) = (1.42, 3.63)

Karl B Christensenhttp://biostat.ku.dk/~kach/CSS1 F10

Page 13: Karl B Christensen kach/CSS1publicifsv.sund.ku.dk/~kach/CSS1/F10.pdfDikotome data Det statistiske sp˝rgsm al omhandler en ukendt populationsparameter ˇ= P(x = 1) (ssh. for at tilfˆldigt

3.63 1.29

RR = 2.26 log(OR) = 0.82 0.82± 1.96 · 0.24

1.42 0.35

Karl B Christensenhttp://biostat.ku.dk/~kach/CSS1 F10

Page 14: Karl B Christensen kach/CSS1publicifsv.sund.ku.dk/~kach/CSS1/F10.pdfDikotome data Det statistiske sp˝rgsm al omhandler en ukendt populationsparameter ˇ= P(x = 1) (ssh. for at tilfˆldigt

Associationsmal i 2× 2 tabeller: Relativ risiko

gr. syg rask total ssh

1 d1 h1 n1 π10 d0 h0 n0 π0

RR =p1p0

=d1/n1d0/n0

s.e.(log(RR)) =

√1

d1− 1

n1+

1

d0− 1

n0

Karl B Christensenhttp://biostat.ku.dk/~kach/CSS1 F10

Page 15: Karl B Christensen kach/CSS1publicifsv.sund.ku.dk/~kach/CSS1/F10.pdfDikotome data Det statistiske sp˝rgsm al omhandler en ukendt populationsparameter ˇ= P(x = 1) (ssh. for at tilfˆldigt

Odds ratio

Kan sammenligne to grupper ved at beregne odds ratio

OR =O1

O0=

p1/(1− p1)

p0/(1− p0)

logaritmen2 er approksimativt normalfordelt og s.e.(log(OR)) kannemt udregnes. Beregn 95% SI for log(OR) og transformer tilbagetil et 95% SI for OR.

2Vi bruger altid den naturlige logaritme (’ln’).Karl B Christensenhttp://biostat.ku.dk/~kach/CSS1 F10

Page 16: Karl B Christensen kach/CSS1publicifsv.sund.ku.dk/~kach/CSS1/F10.pdfDikotome data Det statistiske sp˝rgsm al omhandler en ukendt populationsparameter ˇ= P(x = 1) (ssh. for at tilfˆldigt

Odds ratio - Bronkitis data

Oja =pja

1− pja=

26/273

247/273Onej =

pnej1− pnej

=44/1046

1002/1046

OR =26 · 1002

44 · 247= 2.39 log(OR) = 0.87

s.e.(log(OR)) =

√1

26+

1

44+

1

247+

1

1002= 0.26

95% SI for log(OR): 0.87± 1.96 · 0.26 = (0.36, 1.38)95% SI for OR: (exp(0.36), exp(1.38)) = (1.43, 3.97)

Karl B Christensenhttp://biostat.ku.dk/~kach/CSS1 F10

Page 17: Karl B Christensen kach/CSS1publicifsv.sund.ku.dk/~kach/CSS1/F10.pdfDikotome data Det statistiske sp˝rgsm al omhandler en ukendt populationsparameter ˇ= P(x = 1) (ssh. for at tilfˆldigt

3.97 1.38

0.87 log(OR) = 0.87 0.87± 1.96 · 0.26

1.43 0.36

Karl B Christensenhttp://biostat.ku.dk/~kach/CSS1 F10

Page 18: Karl B Christensen kach/CSS1publicifsv.sund.ku.dk/~kach/CSS1/F10.pdfDikotome data Det statistiske sp˝rgsm al omhandler en ukendt populationsparameter ˇ= P(x = 1) (ssh. for at tilfˆldigt

Test af nulhypotesenH0 : OR = 1

kan laves som z-test: Vi tester

H0 : β = log(OR) = 0

Test z = β/s.e.(β) = 0.87/0.26 = 3.23. Sla op i Tabel A1.

2Bemærk at s.e.(β) = s.e.(log(OR))Karl B Christensenhttp://biostat.ku.dk/~kach/CSS1 F10

Page 19: Karl B Christensen kach/CSS1publicifsv.sund.ku.dk/~kach/CSS1/F10.pdfDikotome data Det statistiske sp˝rgsm al omhandler en ukendt populationsparameter ˇ= P(x = 1) (ssh. for at tilfˆldigt

Bronkitis data

Data pa hjemmeside

http://biostat.ku.dk/~kach/CSS1/bronkitis.txt

http://biostat.ku.dk/~kach/CSS1/bronkitis.csv

http://biostat.ku.dk/~kach/CSS1/bronkitis.sav

http://biostat.ku.dk/~kach/CSS1/bronkitis.xlsx

Eksempler

http://biostat.ku.dk/~kach/CSS1/R_bronkitis.pdf

http://biostat.ku.dk/~kach/CSS1/SAS_bronkitis.pdf

http://biostat.ku.dk/~kach/CSS1/SPSS_bronkitis.pdf

Karl B Christensenhttp://biostat.ku.dk/~kach/CSS1 F10

Page 20: Karl B Christensen kach/CSS1publicifsv.sund.ku.dk/~kach/CSS1/F10.pdfDikotome data Det statistiske sp˝rgsm al omhandler en ukendt populationsparameter ˇ= P(x = 1) (ssh. for at tilfˆldigt

Case-control data

Først har man cases og derefter indsamler man data pasammenlignelige kontroller (typisk 5 gange sa mange).

Kan ikke beregne ikke beregne risikoestimater.

Kan beregne OR præcis som hvis data havde været indsamletsom et kohorte studium.

Fordel: nemmere at fa mange cases (og dermed større styrke)end i kohortestudie

Ulemper:

ingen ordning hen over tid (først eksponering siden sygdom)kan kun estimere OR.Mulig bias (f.eks. forsk. information for cases og kontroller)

Karl B Christensenhttp://biostat.ku.dk/~kach/CSS1 F10

Page 21: Karl B Christensen kach/CSS1publicifsv.sund.ku.dk/~kach/CSS1/F10.pdfDikotome data Det statistiske sp˝rgsm al omhandler en ukendt populationsparameter ˇ= P(x = 1) (ssh. for at tilfˆldigt

Case-control data

Hele populationen

case control total

exposed A B A+Bunexposed C D C+D

total A+C B+D A+B+C+D

Sampler cases med hyppighed f1, kontroller med hyppighed f0.Typisk er f1 > f0. Den forventede værdi af samplet bliver

case control total

exposed f1A f0B f1A+f0Bunexposed f1C f0D f1C+f0D

total f1(A+C) f0(B+D) f1(A+C)+f0(B+D)

Karl B Christensenhttp://biostat.ku.dk/~kach/CSS1 F10

Page 22: Karl B Christensen kach/CSS1publicifsv.sund.ku.dk/~kach/CSS1/F10.pdfDikotome data Det statistiske sp˝rgsm al omhandler en ukendt populationsparameter ˇ= P(x = 1) (ssh. for at tilfˆldigt

Den forventede værdi af odds-ratio i case-control studiet er

f1f0AD

f1f0BC=

AD

BC

Bemærk

risiko A/(A + B). I case-control studiet f1A/(f1A + f0C )

risiko C/(C + D). I case-control studiet f1C/(f1C + f0D).

Karl B Christensenhttp://biostat.ku.dk/~kach/CSS1 F10