analisis regresi logistik.pdf

33
21/06/2013 1 Analisis Regresi Logistik Analisis Regresi Logistik Analisis Regresi Logistik Analisis Regresi Logistik dr. Yudhi Wibowo, MPH Department of Public Health & Community Medicine, Faculty Medicine, Jenderal Soedirman University [email protected] [email protected] Pi Predictor Predictor Logit Transform Tujuan Pembelajaran Mengapa menggunakan regresi logistik? Estimasi maximum likelihood Menginterpretasikan koefisien Pengujian hipotesis Mengevaluasi kinerja model

Upload: yessy-dwi-oktavia

Post on 22-Nov-2015

578 views

Category:

Documents


24 download

TRANSCRIPT

  • 21/06/2013

    1

    Analisis Regresi LogistikAnalisis Regresi LogistikAnalisis Regresi LogistikAnalisis Regresi Logistik

    dr. Yudhi Wibowo, MPHDepartment of Public Health & Community Medicine,

    Faculty Medicine, Jenderal Soedirman University

    [email protected]

    [email protected]

    P i

    Predictor Predictor

    LogitTransform

    Tujuan Pembelajaran

    Mengapa menggunakan regresi logistik?

    Estimasi maximum likelihood

    Menginterpretasikan koefisien

    Pengujian hipotesis

    Mengevaluasi kinerja model

  • 21/06/2013

    2

    Mengapa Mengunakan Regresi

    Logistik?

    Banyak masalah penelitian menggunakan variabel dependen yang diukur dalam skala dikotomi.

    Proses pengambilan keputusan umumnya menggunakan pilihan dikotomi, yaitu ya atau tidak.

    Contoh: morbiditas (sakit vs. sehat), mortalitas (mati vs. hidup), dll.

    Regresi logistik biner (binary logistic regression) merupakan sejenis analisis regresi, di mana variabel dependen merupakan sebuah variabel dummy (dikotomi, biner), dengan kode 0 (tidak terdapat peristiwa) atau 1 (terdapat peristiwa).

    Terdapat 2 kerangka konsep:A. Kerangka konsep prediktifB. Kerangka konsep etiologik

    Contoh: Apakah terdapat hubungan antara status merokok dan

    SBP? Apakah terdapat hubungan antara status merokok dan

    SBP, setelah mengontrol pengaruh umur dan BMI?

  • 21/06/2013

    3

    Variabel Perancu = confounder variable (CV)

    CV: variabel yang dapat mendistorsi hasil hubungan variabel utama dengan VD secara sistematis.

    Syarat disebut CV:1. Berhubungan dengan variabel utama2. Berhubungan dengan VD3. Bukan variabel antara

    Identifikasi CV:

    Pada analisis: Uji stratifikasi Analisis multivariabel Menggunakan formula:(OR crude - ORadjusted: ORadjusted ) x 100Jika >10% CV (Dean et al., 2010)

  • 21/06/2013

    4

    Langkah-langkah:

    1. Kerangka konsep prediktif:a. Melakukan analisis bivariat (jika VI kategorik

    (X2) & jika VI numerik (independent t-test atau Mann-Whitney), sebelumnya cek asumsi linieritas)

    b. Seleksi variabel yang akan masuk ke dalam analisis regresi logistik (pertimbangan statistik ,p< 0,25 & pertimbangan teoritis)

    c. Melakukann analisis multivariabel (metode enter, backward, atau forward)

    d. Interpretasi model akhir

    Cont....

    2. Kerangka konsep etiologika. Melakukan analisis bivariat (jika VI kategorik (X2) &

    jika VI numerik (independent t-test atau Mann-Whitney) sebelumnya cek asumsi linieritas)

    b. Seleksi variabel yang akan masuk ke dalam analisis regresi logistik (pertimbangan statistik (p< 0,25) & pertimbangan teoritis). VI disusun berdasar Hierarchically well formulated (HWF): var utama, konfounder, & interaksi (modifier).

    c. Seleksi terhadap variabel interaksi dgn prinsip backward atau hirarkis (jika var interaksi bermakna, dipertahankanmodel baku emas).

    d. Melakukann analisis thd CV dgn prinsip valid & presisi.

    e. Interpretasi model akhir

  • 21/06/2013

    5

    Interpretasi:

    1. Membuat persamaan (Model)2. Menilai kemaknaan secara statistik:

    Nilai p: uji Wald H0: 1 = 0 (tidak ada hubungan/perbedaan) Ha: 1 0, 1 > 0, 1 < 0 (ada hubungan/perbedaan) Jika uji Wald > 3,84/df atau p 0,05H0 diterima Model terkalibrasi

    baikb. Diskriminasi: buat kurva receiver operating

    charateristic (ROC) Area under the Curve (AUC)

    Lihat kolum area Lihat IK95% (tidak terdapat angka 50%)

    7. Menghitung probabilitas individu (cohort study)

    8. Menghitung RR (cohort study)

  • 21/06/2013

    6

    Model Regresi Logistik

    Model logistik atau "logit" menganalisis persamaan:

    ln[p/(1-p)] = + X + e

    p probabilitas terjadinya peristiwa Y, p(Y=1)

    p/(1-p) adalah odd

    ln[p/(1-p)] adalah log odd, atau "logit"

    Logit

    Logit adalah logaritme natural dari odds ratio; sering disebut log odds, meskipun sesungguhnya adalah log odds ratio.

    Skala logit adalah linier dengan fungsi mirip skala kontinu skor z.

    p = 0.50, maka logit = 0 ln(1) p = 0.70, maka logit = 0.84ln(2,33) p = 0.30, maka logit = -0.84 ln(0,43)

  • 21/06/2013

    7

    Model Regresi Logistik (lanjutan)

    Distribusi logistik membatasi estimasi probabilitas

    pada nilai antara 0 dan 1.

    Estimasi probabilitas:

    p = 1/[1 + exp(- - X)]

    Jika + X =0, maka p = 0.50 Makin besar + X, p makin mendekati 1 Makin kecil + X, p makin mendekati 0

    Membandingkan Model Probabilitas

    Linier dan Model Logit

  • 21/06/2013

    8

    Asumsi

    P i

    Predictor Predictor

    LogitTransform

    pi (pi )

    Model Regresi Logistik dengan Sebuah

    Variabel Independen

    logit (pi) = log (odds) = 0 + 1X1di manalogit(pi) transformasi logit dari probabilitas

    peristiwa

    0 intersep dari garis regresi1 lereng (slope) dari garis regresi

  • 21/06/2013

    9

    Maximum Likelihood Estimation (MLE)

    MLE merupakan metode statistik untuk mengestimasi

    koefisien sebuah model regresi.

    Fungsi likelihood (L) menunjukkan probabilitas untuk

    memperoleh suatu set tertentu nilai-nilai variabel

    dependen (p1, p2, ..., pn) yang terjadi dalam sampel:

    L = Prob (p1 * p2***pn)

    Makin tinggi L, makin tinggi probabilitas untuk

    memperoleh ps dalam sampel.

    Maximum Likelihood Estimation (MLE)

    MLE bertujuan menemukan koefisien (, ) yang membuat sebesar mungkin log dari fungsi likelihood f (LL < 0)

    MLE juga bertujuan menemukan koefisien yang membuat sekecil mungkin -2 kali dari fungsi log function (-2LL)

    Estimasi maximum likelihood menganalisis dengan kondisi sebagai berikut:

    {Y - p(Y=1)}Xi = 0

    yang dijumlah untuk semua pengamatan/ subjek penelitian, i = 1,,n

  • 21/06/2013

    10

    Menginterpretasikan Koefisien

    Karena:

    ln[p/(1-p)] = + X + e

    Koefisien lereng () dapat ditafsirkan sebagai tingkat perubahan dalam log odds" dengan berubahnya X sulit untuk menafsirkannya.

    Karena:

    p = 1/[1 + exp(- - X)]

    Efek marginal dari perubahan X terhadap probabilitas: p/X = f( X)

    Odds Ratio

    Interpretasi koefisien logit lebih mudah dalam bentuk "odds ratio"

    Karena:

    [p/(1-p)] = exp( + X)

    exp() adalah efek dari variabel independen terhadap log odd, disebut odds ratio

  • 21/06/2013

    11

    Odds Ratio

    Dengan penyelesaian aljabar, persamaan regresi logistik dapat ditulis dalam bentuk odds ratio terjadinya peristiwa:

    Odds ratio memiliki rentang nilai dari 0 hingga positif tak terhingga

    0 1 1

    ( 1| )exp( )

    (1 ( 1| )) (1 )

    ii

    i

    PY Xb bX

    PY X

    == = + =

    Konversi

    Exp(logit) = odds ratio Odds ratio = probabilitas/ (1 probabilitas) Probabilitas = odd ratio / (1 + odd ratio)

  • 21/06/2013

    12

    Odds Ratio

    Odds ratio: P/Q adalah sebuah odds ratio; less than 1 = less than .50 probability, greater than 1 means greater than .50 probability

    Pengujian Hipotesis

    Statistik Wald untuk koefisien :

    Wald = [ /s.e.B]2

    yang merupakan distribusi Chi Kuadrat dengan derajat bebas 1.

    "Partial R" (dalam output SPSS):

    R = {[(Wald-2)/(-2LL()]}1/2

  • 21/06/2013

    13

    Confidence Interval 95% dari Parameter Confidence Interval 95% Wald untuk odds ratio

    diperoleh dengan eksponensiasi. Diperoleh batas bawah dan batas atas keyakinan

    95%:

    z0.05/2, = 1.96, di mana z~N(0,1)

    ))((96.1exp( SE

    Menilai Kesesuaian Model

    Terdapat beberapa metode statistik yang dapat digunakan untuk menilai kesuaian sebuah model regresi: Model Chi Kuadrat (Chi-Square)

    Persen prediksi yang benar

    Pseudo-R2 mcFadden

  • 21/06/2013

    14

    Model Chi Kuadrat (Chi-Square)

    Model likelihood ratio (LR):

    LR[i] = -2[LL() - LL(, ) ] atau:

    LR[i] = [-2LL (Baru)] - [-2LL (Baseline)]}

    Statistik LR merupakan distribusi chi kuadrat dengan

    derajat bebas i, di mana i adalah jumlah variabel

    independen

    Menilai Kesesuaian Model dengan Log-likelihood

    Log-likelihood Analog dengan jumlah kuadrat residu (the residual

    sum of squares) dalam regresi linier Indikator seberapa besar informasi yang tidak dapat

    dijelaskan dalam suatu model regresi. Nilai yang besar menunjukkan model statistik tersebut

    tidak sesuai.

    ( )( ) ( ) ( )( )[ ]=

    +=N

    1 i

    1ln1ln likelihoodlogiiiiYPYYPY

  • 21/06/2013

    15

    Contoh: Analisis Regresi Logistik

    Sederhana

    Studi disain kohort, OR minimal secara klinis bermakna=2 & kualitas diskriminasi dengan AUC secara klinis bermakna=70%.Pertanyaan:

    Apakah terdapat hubungan antara status merokok dan SBP?

    Apakah kebiasaan merokok meningkatkan risiko terjadinya hipertensi?

    Berapa besar peningkatan risiko untuk mengalami hipertensi jika merokok?

    Apakah hubungan tersebut secara statistik signifikan?

    Langkah-langkah dengan SPSS

    Buka filecek variabel pada Variable View Klik analyze, pilih regression, pilih binary... Masukkan variabel SBPdic ke dalam dependent list Masukkan veriabel smoking ke dalam covariates Klik kotak categorical, pindahkan var smoking ke

    dalam Categorical Covariates, pilih first pada reference category, klik kotak change, klik continue.

    Klik kotak Options, pilih Hosmer and Lemeshow for goodness of fit & CI for Exp (B), klik continue.

    Klik kotak Save, pilih Probabilities pada predicted value, klik continue

    Klik OK

  • 21/06/2013

    16

    Tampilan Data Sampel dalam SPSS

    Tampilan sebagian dari data sampel Ukuran sampel (n)= 45

    Tampilan Variabel Penelitian dalam

    SPSS

  • 21/06/2013

    17

    Melakukan Analisis Regresi Logistik

    dengan Menggunakan SPSS

    Analyze> Regression> Binary logistic

    Jumlah subyek 45, tanpa missing kasus Koding VD dan VI sudah sesuai

  • 21/06/2013

    18

    Nilai kemaknaan statistik Nilai uji Wald & p

    H0: 1 = 0 (tidak ada hubungan) Ha: 1 0 Hasil Uji wald >3,84/df & p=0,002H0 ditolakada

    hubungan signifikan Nilai IK95%

    IK95% tidak mencakup angka 1OR bermakna Nilai kemaknaan klinis

    OR=13,125 > OR diharapkan (OR=2)secara klinis bermakna

    Interpretasi OR Subyek merokok kemungkinan 13 kali lebih untuk

    terjadinya SBP dibanding subyek tidak merokok.

    Membuat persamaan (Model): y = -2,015 + 2,575 (stat merokok)

    Mengecek kualitas persamaan (Model) Kalibrasi dengan Hosmer and Lemeshow test Diskriminasi : AUC Nilai -2 LL Nagelkerke R2

    Menghitung probabilitas individu (cohort) Menghitung RR (cohort)

  • 21/06/2013

    19

    Tidak ada perbedaan nilai O dengan EModel terkalibrasi baik

    AUC=75,9% (>70%)bermakna secara klinis (IK95%:57,6% sd 94,3%)(>50%) & p=0,010

    (

  • 21/06/2013

    20

    Menghitung probabilitas individu Rumus P= 1/1+exp[-(y)]

    1. Subyek tidak merokokP = 1/1+ exp [-(-2,015 + 2,575 (0)]P = 1/1+ exp (2.015) = 1/1+7,501=1/8,501= 0,1176

    2. Subyek merokokP = 1/1+ exp [-(-2,015 + 2,575 (1)]P = 1/1+exp (-0,560) = 1/1+0,571 = 1/1,571 = 0,6365

    Menghitung RR (kohort) RR=0,6365/0,1176 = 5,413

    Interpretasi Hasil Analisis Regresi Logistik

    Terdapat hubungan yang secara statistik signifikan antara status merokok dan SBP (p

  • 21/06/2013

    21

    Contoh: Analisis Regresi Logistik GandaKerangka konsep etiologik

    Studi disain kohort, OR minimal secara klinis bermakna=2 & kualitas diskriminasi dengan AUC secara klinis bermakna=70%.Pertanyaan:

    Apakah terdapat hubungan antara status merokok dan SBP, setelah mengontrol pengaruh umur dan BMI?

    Berapa besar peningkatan risiko untuk mengalami hipertensi jika merokok, setelah mengontrol pengaruh umur dan BMI?

    Apakah hubungan tersebut secara statistik signifikan?

    Langkah-langkah dengan SPSS

    1. Buka file & cek variabel2. Analisis bivariabelchi square (skala kategorik),

    p

  • 21/06/2013

    22

    d. Klik kotak categorical..., pindahkan var stat merokok, Agedic, BMIdic ke Categorical Covariates, pilih first pada reference category untuk stat merokok, Agedic, BMIdic, lalu klik change, klik continue.

    e. Klik Options, pilih Hosmer & Lemeshow test & CI for Exp (B), klik continue.

    f. Klik OK4. Analisis CV

    Melakukan Analisis Regresi Logistik dengan

    Menggunakan SPSS untuk menganalisis var

    interaksi

    Analyze> Regression> Binary Logistic

  • 21/06/2013

    23

    Var interaksi agedic by smoking mempunayi nilai p>0,05 yang paling besartidak layak masuk analisis.

    Lakukan analisis multivariabel tanpa var interaksi agedic by smoking

    Var interaksi Bmidic by smoking memiliki nilai p>0,05 paling besartidak layak masuk analisis.

    Lakukan analisis multivariabel tanpa var interkasi Bmidic by smoking

  • 21/06/2013

    24

    Berdasarkan prinsip hirarkis, jika var interaksi tidak bermakna, maka var penyusunnya (agedic & bmidic) memiliki peluang dieliminir dari model regresi.

    Hasil di atas adalah model baku emas yaitu: stat merokok, agedic dan bmidic.

    Nilai OR stat merokok pada model baku emas = 17,626 (IK95%: 2,267 sd 137,019)

    Analisis CV CV adalah agedic dan bmidic Memiliki peluang dieliminir dari model regresi Untuk mengetahui apakah agedic & bmidic adalah

    konfounderbandingkan OR stat merokok model baku emas dengan OR stat merokok model lainnya.

    Terdapat beberapa kemungkinan model:1. Stat merokok, agedic, bmidic (baku emas) (Model 1) Nilai OR stat merokok pada model baku emas = 17,626

    (IK95%: 2,267 sd 137,019)2. Stat merokok, agedic (Model 2)3. Stat merokok, bmidic (Model 3)4. Stat merokok (Model 4)

  • 21/06/2013

    25

    Model 3 & 4 memiliki perubahan masing-masing -23,99% & -25,54%, maka tidak valid.

    Model 2 memiliki OR relatif tidak jauh berbeda dengan Model 1 (baku emas). Model 2 valid. Ada 2 opsi pilihan Model regresi : Model 1 & 2. Presisi Model 2 lebih sempit.

    Sehingga model akhir adalah Model 2, dengan Adjusted OR=16,067 (IK95%: 2,607 sd 99,021).

  • 21/06/2013

    26

    Namun dengan pertimbangan teoritis, BMI mempengaruhi SBPsehingga dipertahankan dalam model.

    -2 LL Model 1 < -2 LL Model 2 yaitu 29,009 < 35, 045 (makin kecil makin cocok model tsb).

    Status merokok, usia> 40 tahun, bmi > 25kg/m2 mampu menjelaskan terjadinya hipertensi sebesar 55,7% (Nagelkerke R Square= 0.557)

    AUC model 1: 91,31 AUC model 2: 84,36 Cara buat kurva ROC;

    Klik graphs atau analyze Pilih ROC curve Masukkan pre_1 ke tests varable Masukkan SBP ke state variable, ketik angka 1 pada Value of state variable Pilih ROC curve, with diagonal reference line, standard error..., coordinate

    point... Klik OK

  • 21/06/2013

    27

    Membandingkan 2 Model dengan Stata (fitstat)

    Perbedaan BIC 2,229positif mendukung Model 1 (baku emas) (Long et al., 2001).

  • 21/06/2013

    28

    Interpretasi Hasil Analisis Regresi

    Logistik Ganda

    Terdapat hubungan yang secara statistik signifikan antara status merokok dan SBP, setelah mengontrol pengaruh umur dan BMI (p=0.006)

    Perokok memiliki risiko untuk mengalami hipertensi 17 kali lebih besar daripada bukan perokok (OR= 17.63)

    Dengan tingkat keyakinan 95% dapat disimpulkan, perokok memiliki risiko untuk mengalami hipertensi dari 2 hingga 137 kali lebih besar daripada bukan perokok (CI95% 2.27 hingga 137,02)

    Model regresi logistik dengan status merokok , umur, dan BMI, sebagai variabel independen cukup baik dalam menjelaskan terjadinya hipertensi (-2 Loglikelihood=29,009)

    Status merokok, umur (>=50tahun), dan BMI (>=50kgBB/m2TB) secara bersama mampu menjelaskan terjadinya hipertensi sebesar 55.7% (Nagelkerke R Square= 0.557)

    Conditional multiple logistics regression

    Contoh lain: Dr. Yudhi ingin meneliti hubungan antara CMDs dan kejadian PE/E.

    Matched case control study design Matching pada usia dan paritas. Variabel potensial konfounder : Pendapatan keluarga

    Jarak antar kelahiran

    Riwayat keturunan PE/E

    Merupakan konsep etiologik.

  • 21/06/2013

    29

    Langkah sama, kecuali: Persiapkan data berpasangan (long datawide data) Analisis bivariabel menggunakan Mc Nemar Lakukan analisis conditional multiple logistics regression

    Tool memakai STATA.

    CMDs PE/E

    UsiaParitas

    Pendapatan kelgJarak antar kehamilanRiw keturunan PE/E

    Persiapkan data: keep stat katsrq1 id reshape wide katsrq1, i( id) j( stat 0 1) mcc katsrq11 katsrq10 Lakukan dengan cara yang sama untuk variabel lainnya

  • 21/06/2013

    30

    Semua variabel memiliki p

  • 21/06/2013

    31

    Model baku emas. Langkah selanjutnya mengecek CV.

  • 21/06/2013

    32

    Model II lebih efektif dan efisien (parsinomi)pertimbangan statistik

    Secara teori jarak antar kehamilan dapat mempengaruhi hasil hubungan antara CMDs dan PE/E sehingga tetap dipertahankan dalam model & lebih presisi (10,99 vs 11,35)Model I lebih parsinomi.

  • 21/06/2013

    33

    Daftar Pustaka Budiarto, E. (2001). Biostatistika untuk kedokteran dan kesehatanmasyarakat. Jakarta:EGC.

    Dahlan, M.S. (2009). Statistik untuk kedokteran dan kesehatan. Jakarta:Salemba Medika.

    Dahlan, M.S. (2012). Analisis Multivariat Regresi Logistik. Jakarta:Epidemiologi Indonesia.

    Dawson, B. & Trapp, R.G. (2001). Basic & Clinical Biostatistics. 3th ed.Singapore: McGraw-Hill Book Co.

    Dean, A.G., Sullivan, K.M.& Soe, M.M. (2010). Epi info and openepi in epidemiology and clinical medicine. Health applications of free software. USA: US.

    Ghozali, I. (2011). Aplikasi analisis multivariat dengan program IBM SPSS 19. Semarang:Badan Penerbit Undip.

    Long, J.S.&Freese, J. (2001) Regression Models for Categorical dependent variables using stata. Texas:Stata Corporation.

    Murti, B. (1997). Prinsip dan Metode Riset Epidemiologi. Yogyakarta: GMU Press.

    Rosner, B.(2000).Fundamentals of Biostatistics.5th ed. USA:Brooks/Cole. Sastroasmoro, S. & Ismael, S. (2010). Dasar-dasar Metodologi PenelitianKlinis. Edisi ke-3. Jakarta: Sagung Seto.

    Thank You