內科部研究能力課程 三 logistical regression analysis 之基本介紹與 …€¦ ·...

43
內科部研究能力課程(三) Logistical regression analysis 之基本介紹與進階類型 何宗翰(CHUNG-HAN HO) PH.D. DEPARTMENT OF MEDICAL RESEARCH CHI MEI MEDICAL CENTER 1

Upload: others

Post on 17-Jul-2020

46 views

Category:

Documents


4 download

TRANSCRIPT

Page 1: 內科部研究能力課程 三 Logistical regression analysis 之基本介紹與 …€¦ · 研究分析 分層 有可能有相似結果的次群組中比較它們的率 研究分析

內科部研究能力課程(三)Logistical regression analysis之基本介紹與進階類型

何宗翰(CHUNG-HAN HO) PH.D.

DEPARTMENT OF MEDICAL RESEARCH

CHI MEI MEDICAL CENTER

1

Page 2: 內科部研究能力課程 三 Logistical regression analysis 之基本介紹與 …€¦ · 研究分析 分層 有可能有相似結果的次群組中比較它們的率 研究分析

常見之研究方法

2

Page 3: 內科部研究能力課程 三 Logistical regression analysis 之基本介紹與 …€¦ · 研究分析 分層 有可能有相似結果的次群組中比較它們的率 研究分析

http://hihg.med.miami.edu/code/http/modules/education/Design/Print.asp?CourseNum=4&LessonNum=4

3

Page 4: 內科部研究能力課程 三 Logistical regression analysis 之基本介紹與 …€¦ · 研究分析 分層 有可能有相似結果的次群組中比較它們的率 研究分析

Cross Sectional (Prevalence) Study

http://hihg.med.miami.edu/code/http/modules/education/Design/Print.asp?CourseNum=4&LessonNum=44

Page 5: 內科部研究能力課程 三 Logistical regression analysis 之基本介紹與 …€¦ · 研究分析 分層 有可能有相似結果的次群組中比較它們的率 研究分析

Case-Control (Retrospective) Study

http://hihg.med.miami.edu/code/http/modules/education/Design/Print.asp?CourseNum=4&LessonNum=4

5

Page 6: 內科部研究能力課程 三 Logistical regression analysis 之基本介紹與 …€¦ · 研究分析 分層 有可能有相似結果的次群組中比較它們的率 研究分析

Cohort (Prospective) Study

http://hihg.med.miami.edu/code/http/modules/education/Design/Print.asp?CourseNum=4&LessonNum=4

6

Page 7: 內科部研究能力課程 三 Logistical regression analysis 之基本介紹與 …€¦ · 研究分析 分層 有可能有相似結果的次群組中比較它們的率 研究分析

迴歸分析基本概念迴歸分析可用來確認兩個變數之間的因果關係

迴歸分析是用自變項(獨立變項)預測依變項,或是研究實驗控制(因)對被觀察的變項(果)的影響–利用一個(含)以上預測變項(X)來預測一個依變項(Y)

例:–由父母身高預測子女身高

–用人口成長(自變項)預測(解釋)電話用戶數的成長

7

Page 8: 內科部研究能力課程 三 Logistical regression analysis 之基本介紹與 …€¦ · 研究分析 分層 有可能有相似結果的次群組中比較它們的率 研究分析

Multivariate vs. Multivariable

Multivariate Regression

X

Y1

Y3Y2

Multivariable Regression

Y X1 X2

8

• multivariate analysis指的是具有兩個或以上依變數(Y)的統計模式

• multivariable analysis指的是具有多個自變數(X)的統計模式

Page 9: 內科部研究能力課程 三 Logistical regression analysis 之基本介紹與 …€¦ · 研究分析 分層 有可能有相似結果的次群組中比較它們的率 研究分析

Logistical regression:基本概念與報表解釋

9

Page 10: 內科部研究能力課程 三 Logistical regression analysis 之基本介紹與 …€¦ · 研究分析 分層 有可能有相似結果的次群組中比較它們的率 研究分析

Logistic regression

其outcome/依變數(Y)是二元變數(binary variable)的迴歸模型。

二元變數的數值只有兩種可能:–罹患癌症的狀態(有罹患/沒有罹患)

–癌症病人做化療的狀況(有做/沒有做)

10

x

x

e

exx

x

xxYE

1 where

1ln|

Page 11: 內科部研究能力課程 三 Logistical regression analysis 之基本介紹與 …€¦ · 研究分析 分層 有可能有相似結果的次群組中比較它們的率 研究分析

Logistic Regression 屬於迴歸分析的一種

當依變數Y為類別型變數,其分類只有二類或少數

分類時,可使用Logistic Regression來分析。

Logistic Regression可用來討論類別變數或是連

續變數對依變數Y(類別)的關係

例如:若要看治療方法是否成功,可將個案組(Case group)

與另一組實行安慰劑治療的對照組(Control group)

進行比較。

11

Page 12: 內科部研究能力課程 三 Logistical regression analysis 之基本介紹與 …€¦ · 研究分析 分層 有可能有相似結果的次群組中比較它們的率 研究分析

勝算比(Odds Ratio, OR)

Charles Huang, C.H. Ho, S.F. Weng, Y.W. Hsu, J.J. Wang, M.P. Wu, Psychiatry Research , 2015

12

Page 13: 內科部研究能力課程 三 Logistical regression analysis 之基本介紹與 …€¦ · 研究分析 分層 有可能有相似結果的次群組中比較它們的率 研究分析

勝算比(The Odds Ratio)

odds ratio是兩件事情的 odds 作比較。–如果使用A藥的人罹癌的勝算(odds)是2.33,沒使用A藥的人罹癌的勝算是0.67

–那與沒使用A藥的人比起來,使用A藥的人罹癌的勝算是他們的 3.48 倍 (2.33/0.67),所以勝算比(odds ratio)就是3.48。

上頁的univariate odds ratio即表示為:LUTS的病人其患有Anxiety的風險為non-LUTS病人的2.05倍。

13

Page 14: 內科部研究能力課程 三 Logistical regression analysis 之基本介紹與 …€¦ · 研究分析 分層 有可能有相似結果的次群組中比較它們的率 研究分析

Example:Lung Cancer Study

14

•N=94

•Case-control:◦ 1:Case; 2: Control

•Gender:◦ 1:Male; 2: Female

•Smoke:◦ 0: Non-smoker;

1: Smoker; 2: Ever smoker

•DM:◦ 0:No; 1:Yes

•CAD:◦ 0:No; 1:Yes

Page 15: 內科部研究能力課程 三 Logistical regression analysis 之基本介紹與 …€¦ · 研究分析 分層 有可能有相似結果的次群組中比較它們的率 研究分析

Logistic regression:分析迴歸二元Logistic

15

Page 16: 內科部研究能力課程 三 Logistical regression analysis 之基本介紹與 …€¦ · 研究分析 分層 有可能有相似結果的次群組中比較它們的率 研究分析

16

Step1:選擇依變數、共變數 Step2:定義共變數是否為類別變數

Page 17: 內科部研究能力課程 三 Logistical regression analysis 之基本介紹與 …€¦ · 研究分析 分層 有可能有相似結果的次群組中比較它們的率 研究分析

17

Step3:統計量的儲存 Step4:選項

Page 18: 內科部研究能力課程 三 Logistical regression analysis 之基本介紹與 …€¦ · 研究分析 分層 有可能有相似結果的次群組中比較它們的率 研究分析

資料的改變

18

預測值的機率 所屬組別

Page 19: 內科部研究能力課程 三 Logistical regression analysis 之基本介紹與 …€¦ · 研究分析 分層 有可能有相似結果的次群組中比較它們的率 研究分析

統計報表解讀 針對變數smoke,兩個虛擬變數分別為參數編碼(1)及參數編碼(2)。

◦ smoke=non_smoker,(1)=0且(2)=0;

◦ smoke=smoker,(1)=1且(2)=0;

◦ smoke=ever_smoker,(1)=0且(2)=1;

描述類別變數與虛擬變數間的關係

Reference

19

Page 20: 內科部研究能力課程 三 Logistical regression analysis 之基本介紹與 …€¦ · 研究分析 分層 有可能有相似結果的次群組中比較它們的率 研究分析

Univariate Logistic Regression

從上表得知,抽煙的人得到肺癌的相關風險為沒抽煙的人的5.18(1.86-14.39)倍,且有統計上的顯著差異(p=0.002);而曾經抽煙的人其得到肺癌的相關風險為沒抽煙的人的4.67(1.42-15.40)倍,並有統計上的顯著差異(p=0.011)。

20

Page 21: 內科部研究能力課程 三 Logistical regression analysis 之基本介紹與 …€¦ · 研究分析 分層 有可能有相似結果的次群組中比較它們的率 研究分析

Multiple Logistic Regression

上表可解釋為考慮年齡、性別與共病的影響後,抽煙的人得到肺癌的相關風險(勝算)為沒抽煙的人的4.73(1.66-13.46)倍,且有統計上的顯著差異(p=0.004);而曾經抽煙的人其得到肺癌的相關風險(勝算)為沒抽煙的人的5.50(1.54-19.68)倍,並有統計上的顯著差異(p=0.009)。

對連續變數的解釋:年齡每增加一歲,得到肺癌的風險(勝算)上升1.01(0.99-1.04)倍,但並無達到統計上的顯著差異(p=0.263)。

Adjusted OR

21

Page 22: 內科部研究能力課程 三 Logistical regression analysis 之基本介紹與 …€¦ · 研究分析 分層 有可能有相似結果的次群組中比較它們的率 研究分析

Conditional logistic regression

22

Page 23: 內科部研究能力課程 三 Logistical regression analysis 之基本介紹與 …€¦ · 研究分析 分層 有可能有相似結果的次群組中比較它們的率 研究分析

23

Page 24: 內科部研究能力課程 三 Logistical regression analysis 之基本介紹與 …€¦ · 研究分析 分層 有可能有相似結果的次群組中比較它們的率 研究分析

Unconditional logistic regression

24

Hagihara A, Hasegawa M, Abe T, Nagata T, Wakata Y, Miyazaki S. Prehospital Epinephrine Use and Survival Among Patients With Out-of-Hospital Cardiac Arrest. JAMA. 2012;307(11):1161–1168. doi:10.1001/jama.2012.294

Page 25: 內科部研究能力課程 三 Logistical regression analysis 之基本介紹與 …€¦ · 研究分析 分層 有可能有相似結果的次群組中比較它們的率 研究分析

Conditional logistic regression

25

Hagihara A, Hasegawa M, Abe T, Nagata T, Wakata Y, Miyazaki S. Prehospital Epinephrine Use and Survival Among Patients With Out-of-Hospital Cardiac Arrest. JAMA. 2012;307(11):1161–1168. doi:10.1001/jama.2012.294

Page 26: 內科部研究能力課程 三 Logistical regression analysis 之基本介紹與 …€¦ · 研究分析 分層 有可能有相似結果的次群組中比較它們的率 研究分析

How to control Confounding?

26

方法 描述 使用時機

隨機 指派病人至各組,使每個病人有同等機會落入不同族群。

研究設計

限制 在研究中限定具有某種特性之病人 研究設計

配對 在每個群組中的每個病人,選擇一個或多個具有相同特性的病人(除了研究要探討的因子)作為對照組

研究設計研究分析

分層 有可能有相似結果的次群組中比較它們的率 研究分析

標準化 對某一個或一些特性以數學方法標準化粗率,使得在相同風險分層中有同等的比重。

研究分析

多變項調整 使用數學模式納入大量與結果有關的因子調整差異

研究分析

最佳病例/最差病例分析

在最特殊(或普遍不可能發生)的選擇偏差假設下,描述可能會發生多不一樣的結果

研究分析

資料來源:簡明臨床流行病學,陳國東、呂宗學編譯

Page 27: 內科部研究能力課程 三 Logistical regression analysis 之基本介紹與 …€¦ · 研究分析 分層 有可能有相似結果的次群組中比較它們的率 研究分析

配對(Matching)

27

配對的變數主要是針對與結果可能有極強相關的變數。

年齡、性別為最常用的配對變數;疾病分期或嚴重度與共病也是常見之配對變數。

Page 28: 內科部研究能力課程 三 Logistical regression analysis 之基本介紹與 …€¦ · 研究分析 分層 有可能有相似結果的次群組中比較它們的率 研究分析

配對(Matching)的優缺點配對的優點:– 控制干擾因子,使兩組的比較在相同的基準上,可讓相關檢定上更精準。

配對的缺點:– 不可能對所有變數做配對。

– 被用來配對的變數,此變數因為在病例組與對照組的分佈相同,故無法看出此變數在暴露與疾病關係中所產生的效應。

– 過度配對(overmatching)可能會造成研究結果的偏差。

28

Page 29: 內科部研究能力課程 三 Logistical regression analysis 之基本介紹與 …€¦ · 研究分析 分層 有可能有相似結果的次群組中比較它們的率 研究分析

Propensity score

Propensity

score

分數

方法機率

29

Page 30: 內科部研究能力課程 三 Logistical regression analysis 之基本介紹與 …€¦ · 研究分析 分層 有可能有相似結果的次群組中比較它們的率 研究分析

Propensity Score Methodology

Replace the collection of confounding covariates with one scalar function of these covariates: the propensity score.

30

Age Gender

Duration…….

1 composite covariate:

Propensity Score

Balancing score

Citation:The Application of Propensity Score Analysis to Non-randomized Medical Device Clinical Studies: A Regulatory Perspective Lilly Yue, Ph.D.* CDRH, FDA

Page 31: 內科部研究能力課程 三 Logistical regression analysis 之基本介紹與 …€¦ · 研究分析 分層 有可能有相似結果的次群組中比較它們的率 研究分析

Conditional logistic regression

使用時機:

–兩組樣本為相關樣本,非獨立樣本

–在配對(matching)或成對(paired)資料中,用來分析兩組之相關風險的統計方法

–利用條件式最大概似估計法(conditional maximum likelihood estimation)來估計模式參數。

31

Page 32: 內科部研究能力課程 三 Logistical regression analysis 之基本介紹與 …€¦ · 研究分析 分層 有可能有相似結果的次群組中比較它們的率 研究分析

範例分析

一個子宮內膜癌的研究中,共有63組配對樣本(n=126),Case組為患有子宮內膜癌(Outcome=1)之病人和對照組(Outcome=0)為無子宮內膜癌病人組成。

Case組與對照組根據相同的高血壓指標配對,研究的目的是確定在控制高血壓的作用下,膽囊疾病與子宮內膜癌的相對風險。

32

Page 33: 內科部研究能力課程 三 Logistical regression analysis 之基本介紹與 …€¦ · 研究分析 分層 有可能有相似結果的次群組中比較它們的率 研究分析

結果比較Unconditional logistic regression

膽囊疾病Odds Ratio(95% C.I.)

P-value

No 1.00(ref.)

Yes 2.29(0.97-5.43) 0.0603

Conditional logistic regression

膽囊疾病Odds Ratio(95% C.I.)

P-value

No 1.00(ref.)

Yes 2.80(1.01-7.77) 0.0481

33

• 有膽囊疾病的患者,其得到子宮內膜癌的風險為沒有膽囊疾病2.29倍(P=0.0603),但並無統計上顯著差異。

• 在依據高血壓指標的配對下,有膽囊疾病相較於無膽囊疾病的患者,其有2.80倍(P=0.0481)風險機率會得到子宮內膜癌,並有統計上的顯著差異。

Page 34: 內科部研究能力課程 三 Logistical regression analysis 之基本介紹與 …€¦ · 研究分析 分層 有可能有相似結果的次群組中比較它們的率 研究分析

Multinomial logistic regression

34

Page 35: 內科部研究能力課程 三 Logistical regression analysis 之基本介紹與 …€¦ · 研究分析 分層 有可能有相似結果的次群組中比較它們的率 研究分析

35

Hawley ST, Jagsi R, Morrow M, Janz NK, Hamilton A, Graff JJ, Katz SJ. Social and Clinical Determinants of Contralateral Prophylactic Mastectomy. JAMA Surg. 2014;149(6):582–589. doi:10.1001/jamasurg.2013.5689

Page 36: 內科部研究能力課程 三 Logistical regression analysis 之基本介紹與 …€¦ · 研究分析 分層 有可能有相似結果的次群組中比較它們的率 研究分析

Table 1. Baseline Information

36

Page 37: 內科部研究能力課程 三 Logistical regression analysis 之基本介紹與 …€¦ · 研究分析 分層 有可能有相似結果的次群組中比較它們的率 研究分析

Multinomial logistic regression

37

Page 38: 內科部研究能力課程 三 Logistical regression analysis 之基本介紹與 …€¦ · 研究分析 分層 有可能有相似結果的次群組中比較它們的率 研究分析

Multinomial logistic regression使用時機:outcome為類別變數,且超過兩種

範例:乳癌家庭病史是否會影響去做乳房造影(Mammography)檢查的相關性研究

Family history of Breast Cancer

Mammography experience

Never(0) Within 1 year(1) Over 1 year (2)

No(0) 220 85 63

Yes(1) 14 19 11

38

Page 39: 內科部研究能力課程 三 Logistical regression analysis 之基本介紹與 …€¦ · 研究分析 分層 有可能有相似結果的次群組中比較它們的率 研究分析

傳統法:合併組別

39

Family history of Breast Cancer

Mammography experience

Never(0) Within 1 year(1) Over 1 year (2)

No(0) 220 85 63

Yes(1) 14 19 11

Family history of Breast Cancer

Mammography experience

Never(0) Yes(1)

No(0) 220 148

Yes(1) 14 30

OR (95% C.I.): 3.19(1.63-6.21), p=0.001有乳癌家族史的病人會去做乳房攝影檢查的勝算是無乳癌家族史病人的3.19倍(p=0.001)。

Page 40: 內科部研究能力課程 三 Logistical regression analysis 之基本介紹與 …€¦ · 研究分析 分層 有可能有相似結果的次群組中比較它們的率 研究分析

統計的解法:Multinomial logistic regression

40

x

x

e

exx

x

xxYE

1 where

1ln|

1ln|

1

1x

x

xxYE

yearOver

yearOver

1

xln|

year 1Within x

xxYE

Never

Logit model 1

Logit model 2

Page 41: 內科部研究能力課程 三 Logistical regression analysis 之基本介紹與 …€¦ · 研究分析 分層 有可能有相似結果的次群組中比較它們的率 研究分析

報表呈現與解釋

41

Mammography experience

Within 1 year(1)vs. Never(0)

Over 1 year(2)vs. Never(0)

Family history of Breast Cancer

OR (95% C.I.) P-value OR (95% C.I.) P-value

No(0) Ref. Ref.

Yes(1) 3.51(1.69-7.32) 0.001 2.74(1.19-6.34) 0.018

有乳癌家族史的病人在一年內會去做乳癌攝影檢查比上不去檢查的勝算是沒有乳癌家族史的3.51 倍(P=0.001);且有乳癌家族史的病人在一年後會去做乳癌攝影檢查比上不去檢查的勝算為沒有乳癌家族史病人的2.74 倍(P=0.018)。

Page 42: 內科部研究能力課程 三 Logistical regression analysis 之基本介紹與 …€¦ · 研究分析 分層 有可能有相似結果的次群組中比較它們的率 研究分析

Conclusion Logistic regression 常用在Case-control study與

Cross-sectional study,且outcome多為二元變數。

若研究設計為配對樣本或是成對資料中,則應採用Conditional logistic regression,以避免統計上的運算錯誤。

若研究的outcome超過兩種,則可採用Multinomial logistic regression去估計OR,其結果會將另一組的影響亦考慮在統計運算中。

42

Page 43: 內科部研究能力課程 三 Logistical regression analysis 之基本介紹與 …€¦ · 研究分析 分層 有可能有相似結果的次群組中比較它們的率 研究分析

43