hồi quy (regression) - vai.org.vnvai.org.vn/docs/daotao/ptichdlieu/thu5/chieuthu5.pdf · 1.giới...

161
Hồi quy (Regression) Nguyễn Thanh Tùng Bài giảng của DSLab Viện nghiên cứu cao cấp về Toán (VIASM)

Upload: others

Post on 31-Aug-2019

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

Hồiquy(Regression)

NguyễnThanhTùngBài giảng của DSLab

Viện nghiên cứu cao cấp về Toán (VIASM)

Page 2: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

2

Nộidung1. Giớithiệumôhìnhhồiquy2. Overfitting,kỹthuậtđánhgiáchéo3. PhântíchdữliệuvớiR4. Hồiquytuyếntính5. Hồiquyphituyến6. Real-lifeproblem

Page 3: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

Các dạng giải thuật học máy

ClusterAnalysis

Dimensionality Reduction

Classification Regression

KNN

Supervised Unsupervised

Yes No

Doyouhavelabeleddata?

Doyouwanttogroupthe data?

Yes NoWhatdoyouwantto predict?

Category Quantity

PCALogistic

Regression

CART LASSOSVM

K-meansICA

LinearRegression

3

Page 4: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

4

MôhìnhHồiquy• Xét:

• Các phương pháp học giám sát:– Học bởi các ví dụ (quan sát)-“Learnby example”– Xây dựng mô hình sử dụng tập các quan sát đãđược gắn nhãn

– Ycókiểudữliệuliêntục

Page 5: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

5

Ví dụ về Quảng cáo• Doanh nghiệp có thể điều chỉnh chiến lược quảng cáo sản

phẩm (advertising)để tăng doanh số bán hàng (sales).• Dữ liệu:Doanh số bán hàng và ngân sách quảng cáo cho 3

phương tiện truyền thông (TV, radio,newspaper).

Figure2.1,ISL2013

Page 6: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

6

MôhìnhHồiquy• Giải thuật học

– Lấy hàm ước lượng “tốt nhất”trong tập các hàm

• Ví dụ:Hồi quy tuyến tính– Chọn 1ước lượng tốt nhất từ dữ liệu học trong tậpcác hàm tuyến tính

Page 7: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

7

Hàmtổnthất

Saisố bình phương (Squarederror)

Saisố tuyệt đối (Absolute error)iθ −θi∑

i

ˆi i(θ −θ )2∑

i

ˆi iL(θ ,θ )

Page 8: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

8

BàitoánHồiquy

argumentminimum:Chogiá trị nhỏ nhất của 1hàm số trongmiền xácđịnh

Page 9: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

9

Đo hiệu năng bài toán hồi quy

• Hàm tổnthất (Lossfunction): loạihàmdùngđểđolườngsaisốcủamôhình

• Vd: Saisốbình phươngtrungbình (Meansquarederror - MSE)– Độ đo thông dụng dùng để tính độ chính xác bài toán hồi quy

– Tập trung đo các sai số lớn hơn là các sai số nhỏ

Page 10: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

10

Nộidung1. Giớithiệumôhìnhhồiquy2. Overfitting,kỹthuậtđánhgiáchéo3. PhântíchdữliệuvớiR4. Hồiquytuyếntính5. Hồiquyphituyến6. Real-lifeproblem

Page 11: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

Hiện tượng quákhớpOverfitting

11

Page 12: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

12

Vấn đề: Overfitting• Quá khớp (Overfitting):Học sự biến thiênngẫu nhiêntrongdữ liệu hơn là xu hướng cơ bản

• Đặc điểmcủa overfitting:– Mô hình có hiệu năng cao trên dữ liệu học nhưng kémtrên tập dữ liệu thử nghiệm.

Page 13: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

Underfitting và Overfitting

VHTiệp-MLCB

• Có50điểmdữliệuđượctạobằngmộtđathứcbậcbacộngthêmnhiễu.

• Đồ thị của đa thức cómàu xanhlục (truemodel).

• Bài toán:Giả sử takhông biết môhình banđầu mà chỉ biết cácđiểm dữ liệu,hãy tìmmột môhình “tốt”để mô tả dữ liệu đãcho?

• Với d=2,mô hình không thựcsự tốt vì dự đoánquákhác sovớimô hình thực:underfitting

• Với d=8và d=16,vớicácđiểmdữliệutrongkhoảngcủatrainingdata,môhìnhdựđoánvàmôhìnhthựclàkhágiốngnhau.Tuynhiên,vềphíaphải,đathứcbậc8 và16 chokếtquảhoàntoànngượcvớixuhướngcủadữliệu:Overfitting.

• d=4,mô hình tốtnhất.13

Page 14: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

14

Đánh giá hiệu năng• Lỗi huấn luyện và lỗi kiểm thử thể hiện khác nhau

– Tính linh hoạt của mô hình tăng lên…

– Lỗi huấn luyện giảm

– Lỗi kiểm thử banđầu giảm,Nhưng sau đó tăng lên vì overfittingà“U-shaped”lỗi kiểmthử dạng chữ U.

Page 15: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

Đánh giá hiệu năng

Figure2.9,ISL2013

15

Page 16: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

16

Đánh giá hiệu năng• Làm sao để ước lượng lỗi kiểm thử để tìmmột môhình tốt?

• Kỹ thuậtđánhgiá chéo (Cross-validation):một tập các kỹ thuật nhằm sử dụng dữ liệu huấn luyệnđể ước lượng lỗi tổng quát (generalization error)

Page 17: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

17

Dữ liệu• Dữ liệu huấn luyện (Training data)

– Tập các quan sát (bản ghi)được sử dụng để xây dựng (học)mô hình.

• Dữ liệu kiểm chứng (Validation data)– Tập các quan sát dùng để ước lượng lỗi nhằm tìm tham số hoặc

lựa chọn mô hình.

• Dữ liệu kiểm thử (Test data)– Tập các quan sát dùng để đánh giá hiệu năng trên dữ liệu chưa biết

(unseen) trong tương lai.– Dữ liệu này không sử dụng cho giải thuật học máy trong quá trình

xây dựng mô hình.

Page 18: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

Kỹ thuậtđánhgiá chéoCross-validation

18

Page 19: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

19

“Dùng lỗi trên tập dữ liệu kiểm thử để ước lượng lỗidự đoán”

err = E[L(Y, fˆ(X))]

Kỹ thuật đánh giá chéo

Page 20: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

20

Tập đánh giá (Validation)• Thường chiatậpdữliệurathànhtrainingdatavàtest

data.• Chú ý: khixâydựngmôhình,takhôngđượcsửdụng

testdata.• Làmcáchnàođểbiếtđượcchấtlượngcủamôhình

vớiunseendata(tứcdữliệuchưanhìnthấybaogiờ)?

Page 21: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

21

Tập đánh giá (Validation)• Phươngpháp: tríchtừtrainingdataramộttậpcon

nhỏvàthựchiệnviệcđánhgiámôhìnhtrêntậpconnày.

• Tậpconnhỏđượctríchratừtrainingsetnàyđượcgọilàvalidationset.Lúcnày,trainingsetlàphầncònlạicủatrainingsetbanđầu.

• Trainerrorđượctínhtrêntrainingsetmớinày.• Validationerror: Lỗi đượctínhtrêntậpvalidation.

Page 22: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

22

Tập đánh giá (Validation)• Tìmmôhìnhsaochocả traineror và validation

error đềunhỏ,quađócóthểdựđoánđượcrằng testerror cũngnhỏ.

• Phươngphápthườngđượcsửdụnglàsửdụngnhiềumôhìnhkhácnhau.Môhìnhnàocho validationerror nhỏnhấtsẽlàmôhìnhtốt.

Page 23: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

23

Tập đánh giá (Validation)• Tuynhiên,khitacórấthạnchếsốlượngdữliệuđể

xâydựngmôhình.Nếulấyquánhiềudữliệutrongtậptrainingralàmdữliệuvalidation,phầndữliệucònlạicủatậptraininglàkhôngđủđểxâydựngmôhình.

• Nếutagiữtậpvalidationphảithậtnhỏđểcóđượclượngdữliệuchotrainingđủlớn.Mộtvấnđềkhácnảysinh,hiệntượngoverfittinglạicóthểxảyravớitậptrainingcònlại.

• Giảipháp:Cross-validation(Kỹthuậtđánhgiáchéo).

Page 24: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

24

Tập huấn luyện - TrainingSetTậpkiểmthử- TestSetTập đánhgiá - Validation Set

Kỹ thuật đánh giá chéo

TrainingData TestingData

• Cross validation là một cải tiến của validation với lượng dữ liệu trong tập validation là nhỏ

nhưng chất lượng mô hình được đánh giá trên nhiều tập validation khác nhau.

• Chia tập training ra k tập con không có phần tử chung, có kích thước gần bằng nhau.

• Tại mỗi lần kiểm thử, một trong số k tập con được lấy ra làm validata set. Mô hình sẽ được

xây dựng dựa vào hợp của k−1 tập con còn lại.

• Mô hình cuối được xác định dựa trên trung bình của các train error và validation error.

Cách làm này còn có tên gọi là k-fold cross validation.

Page 25: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

Kỹ thuật đánh giá chéo K--foldVídụ5--fold

Hastie, Trevor,et al. Theelements ofstatistical learning. Vol. 2.No. 1. NewYork: Springer, 2009.

1025

Page 26: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

26

5-foldvà 10-foldthường được ưa dùng (lỗi biascao,phương sai thấp)

Kỹ thuật đánh giá chéo

Page 27: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

27

• Khi k bằngvớisốlượngphầntửNtrongtập training banđầu,tứcmỗitậpconcóđúng1phầntử,tagọikỹthuậtnàylà leave-one-out.(lỗibiasthấp,phươngsaicao)

Kỹ thuật đánh giá chéo

Page 28: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

28

AutoData:LOOCVvs.K-foldCVHình trái:Saisố LOOCVHình phải:10-foldCVđược chạy nhiều lần,đồ thị biểu diễn sai khác nhỏvề lỗi CVLOOCV là trường hợp đặc biệt của k-fold,khi k=N

Cả hai đều ổn định,tuy nhiên LOOCVmất nhiều thời gian tính toán hơn!

2 4 6 8 10

16

18

20

22

24

26

28

LOOCV

Degree of Polynomial

Me

an

Sq

ua

red

Err

or

2 4 6 8 10

16

18

20

22

24

26

28

10−fold CV

Degree of Polynomial

Me

an

Sq

ua

red

Err

or

Page 29: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

29

Tacần thêm biến (mô hình mới) hoặc thêm dữ liệu?

Kỹ thuật đánh giá chéo

Page 30: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

30

Kỹ thuật đánh giá chéo• Nhược điểm lớn của cross-validation là sốlượng training runs tỉ lệ thuận với k. Trong các bàitoán Machine Learning, lượng tham số cần xác địnhthường lớn và khoảng giá trị của mỗi tham số cũngrộng.

• Vậy việc chỉ xây dựng một mô hình thôi đã rất phứctạp.

Page 31: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

Câu hỏi?

31

Page 32: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

32

Nộidung1. Giớithiệumôhìnhhồiquy2. Overfitting,kỹthuậtđánhgiáchéo3. PhântíchdữliệuvớiR4. Hồiquytuyếntính5. Hồiquyphituyến6. Real-lifeproblem

Page 33: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

PhântíchdữliệubằngR

33

Page 34: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

34

R• RvàR-studio• Góicaret

Page 35: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

35

Nộidung1. Giớithiệumôhìnhhồiquy2. Overfitting,kỹthuậtđánhgiáchéo3. PhântíchdữliệuvớiR4. Hồiquytuyếntính5. Hồiquyphituyến6. Real-lifeproblem

Page 36: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

36

Hồi quy tuyến tính• Hồi quy tuyến tính:là phương pháp học máy có giám sát

đơn giản,được sử dụng để dự đoán giá trị biến đầu radạng số (định lượng)

– Nhiều phương pháp học máy là dạng tổng quát hóacủa hồi quy tuyến tính

– Là ví dụ để minhhọa các khái niệm quan trọng trong bàitoán học máy có giám sát

Page 37: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

37

Hồi quy tuyến tính• Tại sao dùng hồi quy tuyến tính?

– Mối quan hệ tuyến tính: là sự biến đổi tuân theo quy luậthàm bậc nhất

– Tìmmộtmôhình(phươngtrình)đểmôtảmộtmốiliênquangiữaXvàY

– Tacó thể biến đổi các biến đầu vào để tạo ra mối quan hệtuyến tính

– Diễn giải các mối quan hệ giữa biến đầu vào và đầu ra - sửdụng cho bài toán suy diễn

Page 38: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

38

Hồi quy tuyến tính đơn giản• Biến đầu ra Yvà biến đầu vào Xcó mốiquan hệ tuyến tính giữa Xvà Y như sau:

• Các tham số củamô hình:

hệ số chặn (khi các xi=0)

độ dốc

Page 39: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

39

Hồi quy tuyến tính đơn giản

Làmsaođể"pháttriển"mộtphươngtrìnhnối2điểm này?

(x1, y1)

(x2, y2)

x-axis

y-axis

0 Cho hai điểm (x1,y1)và (x2, y2)

TuanV.Nguyen

Page 40: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

40

Hồi quy tuyến tính đơn giản

(x1, y1)

(x2, y2)

x-axis

y-axis

0 • Tìmgradient (slope):độ dốc.• Tìm hệ số chặn (intercept)(hệ số khởi đầu của ykhi x=0)

TuanV.Nguyen

Page 41: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

Hồi quy tuyến tính đơn giản

Figure3.1,ISL2013

( ) 01 ββ +== xxfy

độ dốc

hệ số chặn

41

Page 42: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

42

Hồi quy tuyến tính đơn giản• β0vàβ1 chưa biếtàTaước tính giá trị củachúng từ dữ liệu đầu vào

• Lấy sao chomô hình đạt “xấp xỉ tốt nhất”(“goodfit”)đối với tập huấn luyện

Page 43: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

43

Các giả định• MốiliênquangiữaXvàYlàtuyếntính(linear) về tham số

• X không cósaisốngẫu nhiên

• GiátrịcủaYđộclậpvớinhau(vd,Y1khôngliênquanvớiY2) ;

• Saisốngẫunhiên (ε):phânbốchuẩn,trungbình0,phươngsaibất biến

ε~N(0, σ2)

Page 44: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

Đường thẳng phù hợp nhấtChotập dữ liệu đầu vào,tacần tìm cách tính toán cáctham số của phương trình đường thẳng

02468101214

0 2 4 6 8 10

? ? ?

44

Page 45: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

45

Bình phương nhỏ nhất• Thông thường,để đánh giá độ phù hợp củamôhình từ dữ liệu quan sát tasử dụng phương phápbình phương nhỏ nhất (least squares)

• Lỗi bình phương trung bình (Meansquarederror):

Page 46: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

Đường thẳng phù hợp nhấtRất hiếm để có 1đường thẳng khớp chính xác với dữ liệu,dovậy luôn tồn tại lỗi gắn liền với đường thẳngĐường thẳng phù hợp nhất là đường giảm thiểu độ daođộng của các lỗi này

02468101214

0 2 4 6 8 10

)ˆ( ii yy −

y

46

Page 47: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

47

Phần dư (lỗi)Biểu thức (yi - )được gọi là lỗi hoặc phần dư

εi =(yi- )

Đường thẳng phù hợp nhất tìm thấy khi tổng bình phương lỗi lànhỏ nhất

y

y

∑=

−=n

ii yySSE

1

2)ˆ(

Page 48: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

Ước lượng tham số• Các ước số tính được bằng cách cựctiểu hóaMSE

• Hệ số chặn của đường thẳng

trong đó: vàx

xy

SSSS

=1β

∑=

−−=n

iiixy yyxxSS

1

))(( ∑=

−=n

iix xxSS

1

2)(

48

Page 49: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

49

Ước lượng tham sốHệ số chặn của đường thẳng

trong đó

xy 10ˆˆ ββ −=

n

yy

n

ii∑

== 1

n

xx

n

ii∑

== 1

Page 50: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

Hồi quy tuyến tính đơn giản

Figure3.1,ISL2013

50

Page 51: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

Hồi quy tuyến tính đơn giản

51

Page 52: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

Phương pháp đánh giá

𝑅𝑀𝑆𝐸 =1𝑁+(𝑌.

/

.01

− 𝑌3.)5; 𝑀𝐴𝐸 =1N+ |Y; − Y<;|

=

;01

và𝑅5 = 1 − ∑ (𝑌./.01 − 𝑌3.) ∑ (𝑌./

.01 − 𝑌A.)⁄ .

52

Page 53: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

53

Ví dụX Ykilograms cost $

17 13221 15035 16039 16250 14965 170

83.891=xySS83.1612=xSS

83.37=x83.153=y

533.083.161283.891

1 ===x

xy

SSSS

β

91.13283.37553.083.153ˆˆ10 =×−=−= xy ββ

phương trình tìm được là

Y =132.91+0.553*X

Page 54: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

54

R

X<-c(17, 21, 35, 39, 50, 65)Y<-c(132, 150, 160, 162, 149, 170)model=lm(Y ~ X)plot(X, Y, xlim=c(min(X)-5, max(X)+5), ylim=c(min(Y)-10, max(Y)+10), xlab="kilograms", ylab="cost", pch=15)abline(model, lwd=3)Summary(model)

Page 55: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

Diễn giải tham sốTrong ví dụ trước,tham số ước lượng của độ dốc là 0.553.Điềunày có nghĩa là khi thay đổi 1kgcủa X,giá của Ythay đổi 0.553$

55

Page 56: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

là hệ số chặn của Y.Nghĩa là,điểmmà đườngthẳng cắt trục tung Y.Trong ví dụ này là $132.91

$132.91

Đây là giá trị của Ykhi X=0

Diễngiảithamsố0β

56

Page 57: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

57

Dữliệuphân tích:Boston•Bostondata: liênquanđếngiánhà đất•Cácbiến số

– crim:tỉlệtộiphạmcủathị trấn– zn:tỉlệkhuđấtcódiệntichtrên25,000feet vuông– indus:tỉlệdoanh nghiệp tươngđối lớn– chas:gầnsôngCharles(1=yes,0=no)–nos:nồngđộnitricoxides(parts/10 triệu)– rm:sốphòngtrungbìnhmỗi nhà–age:tỉlệcănhộ(unit)xâytrước 1940–dis:khoảngcáchđếncáctrungtâmkĩnghệ(tìm việc làm)

Page 58: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

58

Dữliệuphân tích:Boston•Bostondata: liênquanđếngiánhà đất•Cácbiến số

– rad:chỉsốgầnxalộradial– tax:tỉsuấtthuếtinhtrên $10,000–ptratio:tỉsốhọctròtrêngiáoviêncủathị trấn–black:chỉsốvềsốngườidađentrongthịtrấn(Bk– 0.63)^2– lstat:tỉlệdânsốthànhphầnkinhtế thấp–medv:trịgiánhà ($1000)

Page 59: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

59

Page 60: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

60

Ước tính bằng R•Chúngtamuốnướctínhmốiliênquangiữasốphòng(rm)vàgiácănnhà

•Môhìnhhồiquituyếntinh:medv=β0+β1*rm+ε

•Rlm(medv ~rm,data=Boston)

Page 61: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

61

Phântíchbằng Rattach(Boston)#Phân tích hồi quituyến tínhm1=lm(medv~rm,data= Boston)summary(m1)

#vẽ biểu đồplot(medv~rm,pch=16)abline(m1,col="red")

Page 62: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

62

Phântíchbằng R

Page 63: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

63

Diễngiảikết quảCoefficients:

Estimate Std. Error t value Pr(>|t|) (Intercept) -34.671 2.650 -13.08 <2e-16 ***rm 9.102 0.419 21.72 <2e-16 ***

• Nhớrằngmôhình là:

medv=β0+β1*rm• Phương trình:

medv=-34.67+9.10*rooms• Ýnghĩa:nhàcóthêm1phòngtăng9100USDchogiátrịcănnhà.Mốitươngquannàycóýnghĩathốngkê(P< 0.0001)

Page 64: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

64 TuanV.Nguyen

Page 65: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

65

Ýnghĩacủađườngbiểu diễnGiátrịtrungbình(kì vọng)medv=-34.67+ 9.10*rooms

Khi room = 5,medv= -34.67 + 9.10*5 = 10.83

Khi room = 6medv= -34.67 + 9.10*6 = 19.93

Khi room = 8medv= -34.67 + 9.10*8 = 38.13

TuanV.Nguyen

Page 66: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

Hồi quy tuyến tính đa biến• Hồi quy tuyến tính đa biến:mô hình có nhiều hơn 1

biến dùng để dự đoán biến đích

66

Page 67: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

Hồi quy tuyến tính đa biến

Figure3.4,ISL2013

67

Page 68: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

68

Hồi quy tuyến tính đa biến• Diễn giải hệ số βj :khi tăng Xj lên một đơn vịè Y sẽ tăng trung bình một lượng là βj

Page 69: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

69

Bình phương nhỏ nhất• Tìm các ước số bằng phươngpháp bình phương nhỏnhất

• Giải phương trình để tìm :

Page 70: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

Hồi quy tuyến tính đa biến

Figure3.4,ISL2013

70

Page 71: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

Ví dụCho

⎥⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢⎢

=

21351296

y⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

=

3

2

1

0

ˆ

ˆ

ˆ

ˆ

ˆ

β

β

β

β

β

⎥⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢⎢

=

7 1 1

0 17 13 3 16 1

42943128134116193

X

71

Page 72: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

72

Ví dụ

⎥⎥⎥⎥

⎢⎢⎢⎢

=

944 484 315 72448 295 53 35315 153 38 26

72 35 26 6

11XX T

⎥⎥⎥⎥

⎢⎢⎢⎢

=

598277203

74

yX T

⎥⎥⎥⎥

⎢⎢⎢⎢

=

7 910 17 3 164 42 3 3 9 2 38 4 3 1 1 1 1 1 1

1 1 6TX

Page 73: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

73

Ví dụ

⎥⎥⎥⎥

⎢⎢⎢⎢

==

0.01406 0.00431- 0.00144- 0.13737-0.00431- 0.01234 0.00014- 0.01962-0.00144- 0.00014- 0.03965 0.15375-

0.13737- 0.01962- 0.15375- 2.59578

ˆ yXXX TT 1-)(β

⎥⎥⎥⎥

⎢⎢⎢⎢

598277203

74

⎥⎥⎥⎥

⎢⎢⎢⎢

=

0.46691 0.11162-0.07573-.209753

20975.3ˆ0 =β 11162.0ˆ

2 −=β 46691.0ˆ3 =β07573.0ˆ

1 −=β

321 46691.011162.007573.020975.3ˆ xxxy +−−=

Page 74: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

74

Hồi quy tuyến tính• Ưu điểm:

– Mô hình đơn giản,dễ hiểu– Dễ diễn giải hệ số hồi quy– Nhận được kết quả tốt khi dữ liệu quan sát nhỏ– Nhiều cải tiến/mở rộng

• Nhược điểm:– Mô hình hơi đơn giản nên khó dự đoán chính xác với dữ liệu có miền giá

trị rộng– Khả năng ngoại suy (extrapolation)kém– Nhạy cảm với dữ liệu ngoại lai (outliers) – dodungphương pháp bình

phương nhỏ nhất

Page 75: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

75

Bài tập tại lớpChobảng dữ liệu về chiều cao và cân nặng của 15người như sau:

Chiều cao(cm)

Cânnặng(kg)

Chiềucao(cm)

Cânnặng(kg)

147 49 168 60150 50 170 72153 51 173 63155 52 175 64158 54 178 66160 56 180 67163 58 183 68165 59

Bàitoánđặtralà:liệucóthểdựđoáncânnặngcủamộtngườidựavàochiềucaocủahọkhông?

Page 76: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

Câu hỏi?

76

Page 77: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

77

Nộidung1. Giớithiệumôhìnhhồiquy2. Overfitting,kỹthuậtđánhgiáchéo3. PhântíchdữliệuvớiR4. Hồiquytuyếntính5. Hồiquyphituyến6. Real-lifeproblem

Page 78: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

Phương pháp kếthợp cácmôhình

(ensemblemmodels)

78

Page 79: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

Cây phân loại và hồi quyClassificationandRegressionTrees

(CART)

79

Page 80: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

80

Xây dựng cây CART thế nào?

Có 2dạng:

1.Hồi quy

2.Phân loại (lớp)

Page 81: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

Mô hình liên tục từng đoạn(piecewise)

• Dự đoán liên tục trong mỗi vùng

Hastie,Trevor,etal.Theelementsofstatisticallearning.Vol.2.No.1.NewYork:Springer, 2009.81

Page 82: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

Mô hình liên tục từng đoạn

Hastie,Trevor,etal.Theelementsofstatisticallearning.Vol.2.No.1.NewYork:Springer, 2009.82

Page 83: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

83

Hồi quy

Minhhọa cây CARTown_rent_family=1,3

persons_in_house>=2.5

income>=2.5

persons_under_18>=0.5

job=1,2,3,4,5,6,8,9

1.241

1.446

job=1,2,3,4,5,6,8,9

1.843 3.8

persons_in_house>=3.5

1.908 2.461

2.651

residence_time>=2.

2.421 3.8

Page 84: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

Minhhọa cây CART

Phân lớp

84

Page 85: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

Cây hồi quy

Giá trị dự đoán lưu tại lá của cây hồi quy.Nó được tính bằnggiá trị trung bình của tất cả các mẫu (bản ghi)tại lá đó.

85

Page 86: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

86

Cây hồi quy• Giả sử tacó 2vùng R1 và R2 với

• Với các giá trị của Xmà tasẽ có giá trịdự đoán là 10,ngược lại tacó kết quả dựđoán là 20.

20ˆ,10ˆ21 == YY

1RX ∈

2RX ∈

Page 87: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

87

Cây hồi quy• Cho2biến đầu vào

và 5vùng• Tùy theo từng vùng

của giá trị mới Xtasẽ có dự đoán 1trong 5giá trị cho Y.

22

12

9

34

23

Page 88: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

88

Tách các biến XTatạo ra các phânvùng bằng cáchtách lặp đi lặp lạimột trong các biếnXthành hai vùng

Page 89: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

89

Tách các biến X

1. Đầu tiên táchtrên X1=t1

Page 90: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

90

Tách các biến X

1. Đầu tiên táchtrên X1=t1

2. Nếu X1<t1,tách trên X2=t2

Page 91: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

91

Tách các biến X

1. Đầu tiên táchtrên X1=t1

2. Nếu X1<t1,tách trên X2=t2

3. Nếu X1>t1,tách trên X1=t3

Page 92: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

92

Tách các biến X

1. Đầu tiên táchtrên X1=t1

2. Nếu X1<t1,tách trên X2=t2

3. Nếu X1>t1,tách trên X1=t3

4. Nếu X1>t3,tách X2=t4

Page 93: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

93

Tách các biến X

• Khi tatạo các vùng theophương pháp này,tacó thểbiểu diễn chúng dùng cấu trúccây.

• Phương pháp này dễ diễn giảimô hình dự đoán,dễ diễn giảikết quả

Page 94: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

94

Giải thuật tham lam: hồi quy

• Tìm thuộc tính tách và điểmtách mà nó cực tiểu lỗi dự đoán

Page 95: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

95

Ưu điểm của CART• Dễ xử lý dữ liệu thiếu (surrogate splits)• Mạnh trong xử lý dữ liệu chứa thông tinrác

(non-informative data)• Chophép tự động lựa chọn thuộc tính (variable

selection)• Dễ giải thích,lý tưởng để giải thích “tại sao”đối với

người ra quyết định• Xử lý được tính tương tác cao giữa các thuộc tính

Page 96: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

96

Nhược điểmcủa CART

• Cây không ổn định (Instabilityof trees)• Thiếu tính trơn (Lackof smoothness)• Khó nắm bắt độ cộng tính (Hardtocaptureadditivity)

Page 97: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

EnsembleModels

97

Page 98: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

98

Randomforest

Fernández-Delgado,Manuel,etal."Doweneedhundredsofclassifierstosolverealworldclassificationproblems?."TheJournalofMachineLearningResearch15.1(2014):3133-3181.

Kết luận của nghiên cứu trên của nhóm Manuel là phương pháp Random Forests hầu hết cho kết quả tốt nhất.

Page 99: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

Bootstraplà gì?• Giảsửtacó5quả bóng gắn nhãn A,B,C,D,Evàbỏtấtcảchúngvàotrong1

cáigiỏ.• Lấyrangẫu nhiên 1quảtừgiỏvàghilạinhãn,sauđóbỏlạiquảbóngvừa

bốcđượcvàogiỏ.• Tiếptụclấyra ngẫu nhiên mộtquảbóng và lặp lại quá trình trên cho đến khi

việclấymẫukếtthúc.Việclấymẫunàygọilàlấymẫucóhoànlại.• Kếtquảcủaviệclấymẫunhưtrêncóthểnhưsau(giảsửkíchthướcmẫulà

10):C,D,E,E,A,B,C,B,A,E

Nguồn:bis.net.vn/forums99

Page 100: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

Bootstrap là gì?• Bootstraplàphương

pháplấymẫucóhoànlại(samplingwithreplacement)-> mộtmẫu cóthểxuấthiệnnhiềulầntrongmộtlầnlấymẫu

100

Page 101: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

Bootstraplà gì?

• Là kỹ thuật rất quan trọng trong thống kê

• Lấy mẫu có hoàn lại từ tập dữ liệu banđầu để tạo ra các tập dữ liệu mới

101

Page 102: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

102

Sức mạnh của các bộ phân lớp yếuCondorcet’sJuryTheorem– Nếu plớnhơn 1/2(mỗi cử tribỏ phiếu đúng mong muốn của họ),càngthêm nhiều cử trisẽ tăng xác suất theo quyết định số đông sẽchính xác.Trong giới hạn,xác suất bầu chọn theo số đông tiếnđến 1khi số cử trităng lên.

Page 103: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

103

Sức mạnh của các bộ phân lớp yếuCondorcet’sJuryTheorem– Nếu plớnhơn 1/2(mỗi cử tribỏ phiếu đúng mong muốn của họ),càngthêm nhiều cử trisẽ tăng xác suất theo quyết định số đông sẽchính xác.Trong giới hạn,xác suất bầu chọn theo số đông tiếnđến 1khi số cử trităng lên.

Page 104: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

Sức mạnh của các bộ phân lớp yếu• Việc lấy trung bình làm giảm phương sai và không làm tăng bias (biasvẫn

được giữ nguyên)Var[Ȳ]= σ2/n

104

Page 105: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

Sức mạnh của các bộ phân lớp yếu• Việc lấy trung bình làm giảm phương sai và không làm tăng bias (biasvẫn

được giữ nguyên)Var[Ȳ]= σ2/n

• Các phiếu bầu của các bộ phân lớp tương quan không trợ giúp đượcnhiều

105

Page 106: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

Sức mạnh của các bộ phân lớp yếu• Việc lấy trung bình làm giảm phương sai và không làm tăng bias (biasvẫn

được giữ nguyên)Var[Ȳ]= σ2/n

• Các phiếu bầu của các bộ phân lớp tương quan không trợ giúp đượcnhiều Var[Ȳ]=σ2/n+ (ρσ2)(n-1)/n

106

Page 107: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

Kết hợp các bộ phân lớp

α×{CART}+(1−α)×{LinearModel}

107

Page 108: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

Các phương pháp kết hợp: Bagging

108

Page 109: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

109

+ +

Bagging là gì?“Bootstrap Aggregation”

Page 110: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

Bagginglà gì?

“Bootstrap Aggregation”

110

Page 111: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

111

+ +

BaggingGiải quyết được tính thiếu ổnđịnh của CART

Page 112: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

112

• Lấymẫu tập dữ liệu huấnluyện theo Bootstrapđể tạo ratập hợp các dự đoán.

Bagging

Page 113: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

113

• Lấymẫu tập dữ liệu huấn luyện theoBootstrapđể tạo ra tập hợp các dự đoán.Hastie, Trevor, etal.The elements of statistical learning. Vol.2. No. 1. NewYork: Springer, 2009.

• Lấy trungbình (hoặc bình chọn theo số đông- majorityvote)các bộ dự đoánđộc lập.

• Bagginggiảm phương sai (variance)và giữ bias.

Bagging

Page 114: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

114

Bagging

Hastie,Trevor,etal.Theelementsofstatisticallearning.Vol.2.No.1. NewYork:Springer, 2009.

Page 115: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

115

Bagging

• Lấy mẫu có hoàn lại• Xây dựng bộ phân lớp trên mỗi mẫu bootstrap• Mỗi mẫu bootstrapchứa xấp xỉ 63.2%số lượng mẫu trong

tập dữ liệu banđầu• Số lượng mẫu còn lại (36.8%)được dùng để kiểm thử

Original Data 1 2 3 4 5 6 7 8 9 10Bagging (Round 1) 7 8 10 8 2 5 10 10 5 9Bagging (Round 2) 1 4 9 1 2 3 2 7 3 2Bagging (Round 3) 1 8 5 10 5 5 9 6 3 7

Page 116: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

Bonus!Out-of-bag cross-validation

116

Page 117: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

117

Các mẫuOut-of-bag(OOB)

• Mỗi cây chỉ sử dụngmột tập concác mẫuhuấnluyện (trung bình số mẫu ~2/3).

• Số mẫu cho OOBkhoảng~1/3của cây quyết định.

• Quá trình Bootstrapping:

Page 118: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

118

• Với mỗi mẫu,tìm các câymà nó là OOB.

• Dự đoán giá trị của chúng từ các cây này.

• Ước lượng lỗi dự đoán của cây (baggedtrees)dùng tất cảcác dự đoán OOB.

• Tương tự như kỹ thuật kiểm tra chéo (cross-validation).

Dự đoánmẫuOOB

Page 119: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

Phương pháp Rừng ngẫu nhiênRandomForests (RF)

119

Page 120: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

120

• Mô hình dựa trên cây phân loại và hồi quy (CART).

• Cácmô hình cây có lỗi biasthấp,tuy nhiên phương sai lạicao (high variance).

• Phương pháp Baggingdùng để giảm phương sai.

Động lực để có Randomforest

Page 121: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

121

• Lấymẫu tập dữ liệu huấn luyện theoBootstrapđể tạo ra tập hợpcác dự đoán.

Hastie, Trevor, etal.The elements of statistical learning. Vol.2. No. 1.New York: Springer, 2009.

• Lấy trungbình (hoặc bình chọn theo số đông-majorityvote)các bộ dự đoánđộc lập.

• Bagginggiảm phương sai (variance)và giữ bias.

Nhắc lại: Bagging

Page 122: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

122

Baggedtreesvs.randomforests• Phương pháp Baggingbiểu thị sự biến thiên (variability)giữacác cây bởi việc chọn mẫu ngẫu nhiên từ dữ liệu huấn luyện.

• Cây được sinh ra từ phương pháp Baggingvẫn có tươngquan lẫn nhau,dođó hạn chế trong việc giảm phương sai.

Randomforestsđưa ra thêm tính ngẫu nhiên (randomness):

• Làm giảmmối tương quan giữa các cây bằng cách lấy ngẫunhiên các biến khi tách nút của cây.

Page 123: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

123

Số lượng biến dùng để tách nút (khả tách)

Lấy thuộc tính ngẫu nhiên

Các biến dùng cho tách nút

Page 124: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

Hastie, Trevor, etal.The elements of statistical learning. Vol.2. No. 1.New York: Springer, 2009.

Các biến dùng cho tách nút

124

Page 125: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

125

Rừng ngẫu nhiênTập dữ liệu huấn luyện

....D1 D2 DK-1 D K

D

Bước 2:Sử dụng các tập condữ liệulấy mẫu ngẫu nhiên để xây

dựng cây TK-1 TK

T *Bước 3:

Kết hợp các cây

Lấy ngẫunhiên

Bước 1:Tạo dữ liệu ngẫu nhiên

(mẫu bootstrap)

T1 T2

D =(Xi,Yi),i=1..pp:#chiều,N:#mẫu

IntroductiontoDataMining– Tan,Steinbach,Kumar

•Phân lớp:Bình chọn theo số đông•Hồi quy:Lấy trungbình giá trị dựđoán từ các cây Ti (i=1..K)

Page 126: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

Rừng ngẫu nhiên

126

Page 127: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

127

Các tham số quan trọng của Rừng ngẫu nhiên:

• Số lượng biến khả tách tại mỗi nút ( )

• Độ sâu của từng cây trong rừng (số lượng mẫu tối thiểutại mỗi nút của cây-minimumnode size)

• Số lượng cây trong rừng

Các tham số chính

Page 128: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

128

Bài toán phân lớp

Bài toán hồiquy

Giá trị mặc định

=

=

Số lượng biến khả tách

gói randomForest trong Rdùngmtry

Page 129: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

Hastie, Trevor, etal.The elements of statistical learning. Vol.2. No. 1.New York: Springer, 2009.

Độsâucủatừngcây(sốlượngmẫutốithiểutạimỗinútcủacây)

129

Page 130: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

130

1

5

Độsâucủacây

Bài toán phân lớp

Bài toán hồiquy

Giá trị mặc định

Page 131: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

131

Hastie, Trevor, etal.The elements of statistical learning. Vol.2. No. 1.New York: Springer, 2009.

• Thêm nhiều cây không gây ra overfitting.

Số lượng cây trong rừng

Page 132: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

132

• Các mẫu Out-of-bag(OOB)

• Độ quan trọngcủa biến (Variableimportancemeasurements)

Các tính năng khác của RF

Page 133: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

133

Độ quan trọng của biếnDạng 1:Độ giảm của lỗi dự đoán hoặc impuritytừ các điểm tách nútliên quan đến các biến đó,cuối cùng lấy trung bình trên cáccây trong rừng.

Page 134: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

134

Độ quan trọng của biếnDạng 2:

Độ tăng lỗi dự đoán tổng thể khi các giá trị của biến đượchoán vị ngẫu nhiên giữa các mẫu.

Page 135: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

135

Hastie, Trevor, etal.The elements of statistical learning. Vol. 2.No. 1. New York: Springer, 2009.

• Cả 2dạng biểu thị gần giống nhau,tuy nhiên có sựkhác biệt về xếp hạng các biến:

Dạng 1 Dạng 2

Ví dụ về độ quan trọng của biến

Page 136: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

136

Tương tự như CART:

• Tương đối mạnh trong việc xử lý biến rác(non-informativevariable)(Việc lựa chọn biến tích hợp sẵn khi xâydựng mô hình,built-invariable selection)

Ưu điểm của RF

Page 137: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

Hastie, Trevor, etal.The elements of statistical learning. Vol.2. No. 1.New York: Springer, 2009.

Ảnh hưởng của biến rác

137

Page 138: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

138

Tươngtựnhư CART:

• Tươngđốimạnhtrongviệcxửlýbiếnrác(non-informativevariable)

• Xử lý (nắmbắt)được độ tương tác bậc cao giữa các biến (Capturehigh-orderinteractionsbetween variables)

• Có lỗi bias thấp

• Dễ xử lý các biến hỗn hợp (biến rời rạc,phân loại)

Ưu điểm của RF

Page 139: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

139

Ưu điểm vượt trộiCART:

• Lỗi phương sai thấp hơn (mạnhhơn vì sử dụngphương phápbootstrapping lấymẫu từ tập huấn luyện)

• Ít bị overfitting hơn

• Không cần tỉa cây (Noneedfor pruning)

• Kiểm tra chéo được tích hợp sẵn trongmô hình (dùngcác mẫuOOB)

Ưu điểm của RF

Page 140: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

140

Tương tự như CART:

• Khó nắm bắt độ cộng tính

Nhược điểm sovới CART:

• Khó diễn giải/giải thích mô hình dự đoán

Nhược điểm của RF

Page 141: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

Câuhỏi?

141

Page 142: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

142

Nộidung1. Giớithiệumôhìnhhồiquy2. Overfitting,kỹthuậtđánhgiáchéo3. PhântíchdữliệuvớiR4. Hồiquytuyếntính5. Hồiquyphituyến6. Real-lifeproblem

Page 143: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

Giới thiệu bài toán dự đoán

• Cho tập dữ liệu đầu vào L = {(X1, Y1),.., (XN, YN)}, trong đó N là sốlượng mẫu.• Đầu vào là tập biến ngẫu nhiên X∈ℜM, M số thuộc tính.

• Đầu ra là biến ngẫu nhiên Y∈ℜ1.

xi∈X và yi ∈Y nhận các giá trị ngẫu nhiên từ phân bố xác suất PX,Y (1<=i<=N).

• Mục tiêu của bài toán dự đoán là tìm mô hình fL : X →Y cực tiểu hóaErr (fL) = EX,Y {L(Y , fL(X))},

Trong đó hàm lỗi làL(Y , fL(X))} = (Y - fL(X))2.

143

Page 144: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

Dựđoánsựhàilòngcủacáchộdùngnướctướitiêutạiđồng

bằngsôngHồng

144

Page 145: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

5. Đáp ứng (RES)- Nhân viên thủy lợi cho ông bà biết khi nào thực hiện dịch vụ tưới tiêu- Nhân viên thủy lợi nhanh chóng thực hiện dịch vụ cho ông bà.- Tổ chức cung cấp nước thực hiện đúng lịch cấp nước- Tổ chức cung cấp nước cung cấp tối đa khả năng cấp nước.- Khối lượng nước cấp đáp ứng tốt nhu cầu theo từng giai đoạn sinhtrưởng, phát triển của cây trồng.- Nhân viên thủy lợi cung cấp luôn luôn sẵn sàng đáp ứng yêu cầu của ôngbà.- Chất lượng nước tưới được đảm bảo- Thời gian khắc phục hư hỏng nhanh chóng- Ông bà không bao giờ phải lặp lại các khiếu nại trước(9 biến quan sát)

3. Đảm bảo (ASS)- Cách cư xử của nhân viên gây niềm tin cho ông bà- Ông bà cảm thấy rất an toàn khi giao dịch với tổ chức cung cấp nước- Nhân viên thủy lợi có đủ hiểu biết để trả lời tất cả các câu hỏi của ôngbà liên quan đến hệ thống tưới, tiêu.- Nhân viên thủy lợi của tổ chức cung cấp nước luôn luôn niềm nở với ôngbà- Thời gian phân phối nước tới các thửa ruộng luôn luôn đủ nước trongmỗi đợt tưới.- Từ năm 2008 đến nay nhân viên thủy lợi trả lời được tất cả các thắc mắccủa ông bà liên quan đến số tiền ông bà trả trong tháng- Nhân viên thủy lợi rất nhanh khắc phục khi hệ thống tưới, tiêu có sự cố(7 biến quan sát)

1. Phương tiện hữu hình (TAN)- Các hệ thống tưới, tiêu có chất lượng tốt, đảm bảo chuyển nước và phânphối nước đến các diện tích cần tưới, tiêu- Các đơn vị cung cấp dành đủ kinh phí cho công tác quản lý, vận hành vàbảo dưỡng hệ thống tưới, tiêu.- Nhân viên thủy lợi mặc đồng phục đơn vị- Tổ chức cung cấp nước có tài liệu hướng dẫn quản lý vận hành côngtrình thủy lợi.- Hợp đồng cung cấp dịch vụ được trình bày rất dễ hiểu- Các thiết bị của tổ chức cung cấp nước có chất lượng tốt- Việc duy tu, bảo dưỡng hệ thống tưới được thực hiện đều đặn và khicần.(7 biến quan sát)

2. Tin cậy (REL)- Đơn vị cung cấp dịch vụ tưới, tiêu giới thiệu đầy đủ nội dung hợpđồng với tổ chức cung cấp nước cũng như các kỹ thuật và cách sửdụng khi ông bà muốn đăng ký sử dụng- Tổ chức cung cấp nước thực hiện đúng dịch vụ tưới tiêu như hợpđồng- Tổ chức cung cấp nước xử lý sự cố ngay khi công trình hư hỏng,xuống cấp.- Từ năm 2008 đến nay tổ chức cung cấp nước không để xảy ra bất kỳsai sót nào khi tính chi phí hàng tháng(4 biến quan sát)

Sự hài lòng (SAT)Ông bà hoàn toàn hài lòng về chất lượng dịch vụ tưới tiêu hiện

đang sử dụng.(Giá trị từ 0..5,kiểu thập phân).

4. Sự đồng cảm (EMP)- Nhân viên kỹ thuật thủy lợi luôn làm việc vào những giờ thuậntiện cho ông bà.- Không có bất cứ ai ở Tổ chức cung cấp nước quan tâm đếnnhững bức xúc của ông bà về dịch vụ tưới, tiêu.- Lịch phân phối nước rất thuận tiện theo giờ sản xuất của giađình ông bà.- Ông bà được quan tâm và chú ý mỗi khi thắc mắc về dịch vụtưới, tiêu.- Tổ chức cung cấp nước điều chỉnh lịch tưới phù hợp với sựthay đổi của thời tiết.- Nhân viên của tổ c hức cung cấp nước luôn hiểu rõ những nhucầu của ông bà.- Đơn vị cung cấp lấy lợi ích của ông bà là mục tiêu phát triểnbền vững của họ(7 biến quan sát)145

Page 146: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

Một số mô hình học máy

• Linear Regression• LASSO• K-NN• Support Vector Regression• Artificial neural network• Decision trees• Random Forests• Boosting• Deep Learning

Page 147: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

Kết quả thực nghiệm• Phương pháp đánh giá:

• Dữ liệu: Tập huấn luyện gồm 336 mẫu (70%) và tập dữ liệu kiểmthử gồm 144 mẫu (30%).

• Khi xây dựng mô hình hồi quy, kỹ thuật kiểm tra chéo 5-folds với 2lần lặp và dựa trên hàm lỗi RMSE được dùng để tìm tham số tối ưucủa từng mô hình, sau đó lựa chọn mô hình có RMSE nhỏ nhất vớitham số tìm được để dự đoán dữ liệu kiểm thử.

𝑅𝑀𝑆𝐸 =1𝑁+(𝑌.

/

.01

− 𝑌3.)5;𝑀𝐴𝐸 =1N+|Y; − Y<;|

=

;01

và𝑅5 = 1−∑ (𝑌./.01 − 𝑌3.) ∑ (𝑌./

.01 − 𝑌A.)⁄ .

147

Page 148: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

Kết quả thực nghiệmTT Mô hình hồi quy Tham số tối ưu R2 RMSE MAE

1 Hồi quy tuyến tính(LM)

Mặc định 0.839 0.267 0.167

2 Hồi quy LASSO λ= 0.01 0.844 0.263 0.1633 K láng giềng (KNN) k = 1 **0.894 **0.216 0.085

4 Cây hồi quy (CART) Complexity parameter (cp)=0 0.835 0.272 0.156

5 Mạng nơ ron nhân tạo(ANN)

Trọng số phân rã=0.1 và sốnơ-ron=9

***0.892 ***0.218 **0.106

6 Máy véc-tơ hỗ trợ(SVR)

RBF, σ = 0.032, ε=0.1 và C =32

0.852 0.255 0.143

7 Rừng ngẫu nhiên (RF) mtry = 9 và K=1000 0.902 0.208 ***0.107

8 Boosting K = 500, interaction.depth =7 và shrinkage = 0.1

0.873 0.237 0.119

148

Page 149: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

Kết quả thực nghiệm

So sánh các mô hình hồi quy dựa trên kếtquả huấnluyện theohệ số xác định bội R2

• Mô hình rừng ngẫu nhiên chokết quả tốt nhất, giải thíchkhoảng 93% các khác biệt về độhài lòng giữa các hộ dùng nướctưới tiêu, theo sát là mô hìnhboosting có R2=92.445% vàSVR đạt R2=92.444%.

• Xếp cuối là phương pháp cây hồiquy có R2 thấp nhất, khả nănggiải thích của mô hình cây hồiquy khoảng 85% kém hơn môhình hồi quy tuyến tính nhiềubiến có R2=87.481%.

149

Page 150: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

Kết quả thực nghiệm

Biểu đồ tương quan giữa các tiêu chí.

So sánh lỗi huấn luyện RMSE củacác mô hình hồi quy theo từng cặp.

150

Page 151: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

Kết quả thực nghiệm

Độ đo sự quan trọng của các tiêuchí

• Độ đo sự quan trọng của 34 tiêu chí được sắpxếp theo chiều giảm dần, các độ đo này đượctính từ rừng ngẫu nhiên.

• HH1, HH7, STC3 có độ quan trọng cao, trong đó HH1="Các hệ thống tưới, tiêu có chất lượng tốt, đảm bảo chuyển nước và phân phối nước đến cácdiện tích cần tưới, tiêu" có độ quan trọng cao nhất. Tiêu chí DDU6="Nhânviên thủy lợi cung cấp luôn luôn sẵn sàng đáp ứng yêu cầu của ông bà" cóđộ quan trọng thấp nhất.

• Như vậy, trong dịch vụ cung cấp nước tưới tiêu, hộ dùng nước quan tâmnhất đến các hệ thống tưới tiêu có chất lượng tốt, độ đáp ứng của đơn vịcung cấp nước, nó bao gồm những yếu tố như duy tu, bảo dưỡng đượcthực hiện đầy đủ và đều đặn, sửa chữa sự cố ngay khi công trình hư hỏnghoặc xuống cấp, thực hiện đúng lịch cấp nước, cung cấp tối đa khả năngcấp nước, đáp ứng tốt nhu cầu theo từng giai đoạn sinh trưởng và pháttriển của cây trồng, chất lượng nước được đảm bảo.

• Nhân viên thủy lợi có hoặc không đáp ứng những yêu cầu cá nhân của cáchộ dùng nước cũng không ảnh hưởng nhiều đến sự hài lòng chung về chấtlượng dịch vụ tưới tiêu

151

Xem thêm bài báo ở đây

Page 152: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

DựbáomựcnướctrênsôngMekong

152

Page 153: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

Applications of Machine Learning

Ref: ICFR

Flood forecasting

153

Page 154: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

Motivation• Two approaches to build the flood forecasting model: • physically based and • data-driven (machine learning) approaches.

• Physically based models are fully distributed models in increasing levels of complexity. The physically based modelling aims to reproduce the hydrological process in a physically realistic.

• Our solution: We use machine learning model, they are quickly developed and easily implemented for building the forecasting model.

154

Page 155: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

Motivation• Case study: Lower Mekong river.• Inputs:

• Rainfall intensity• Cumulative rainfall

• Outputs: the 5-lead-day water levels at Thakhek gauging station

155

Page 156: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

Experiments• Forecasting model: the 5-lead-day water levels at Thakhek station

on the Mekong River, where it shows the major contribution to the flows in the Lower Mekong River.

• The relationship between the input-output features:

where the output feature HThakhek(t + 5) is the water level forecasted for the next 5 days at Thakhek gauging station. HThakhek(t), HThakhek(t-1) and HThakhek(t-2) are water levels measured in the current day and previous two days, respectively. Hup(t), Hup(t-1) and Hup(t-2) are water levels measured in the current day and previous two days at NongKhaigauging station, respectively.

156

Page 157: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

Experiments• Design of the Forecast Evaluations

For each iteration, 1 sample from the testing data is added into the training data to build the forecasting model.

157

Page 158: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

Experimental results• Optimal parameters: k-folds

cross-validation.

158

Page 159: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

Experimental results

159

Page 160: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

http://ffw.mrcmekong.org/accuracy.htm

Experimental results

160

Page 161: Hồi quy (Regression) - vai.org.vnvai.org.vn/docs/Daotao/PtichDlieu/Thu5/ChieuThu5.pdf · 1.Giới thiệu mô hình hồi quy 2.Overfitting, kỹ thuật đánh giá chéo 3.Phân

Câuhỏi?

161