hồi quy (regression) - vai.org.vnvai.org.vn/docs/daotao/ptichdlieu/thu5/chieuthu5.pdf · 1.giới...

Post on 31-Aug-2019

1 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Hồiquy(Regression)

NguyễnThanhTùngBài giảng của DSLab

Viện nghiên cứu cao cấp về Toán (VIASM)

2

Nộidung1. Giớithiệumôhìnhhồiquy2. Overfitting,kỹthuậtđánhgiáchéo3. PhântíchdữliệuvớiR4. Hồiquytuyếntính5. Hồiquyphituyến6. Real-lifeproblem

Các dạng giải thuật học máy

ClusterAnalysis

Dimensionality Reduction

Classification Regression

KNN

Supervised Unsupervised

Yes No

Doyouhavelabeleddata?

Doyouwanttogroupthe data?

Yes NoWhatdoyouwantto predict?

Category Quantity

PCALogistic

Regression

CART LASSOSVM

K-meansICA

LinearRegression

3

4

MôhìnhHồiquy• Xét:

• Các phương pháp học giám sát:– Học bởi các ví dụ (quan sát)-“Learnby example”– Xây dựng mô hình sử dụng tập các quan sát đãđược gắn nhãn

– Ycókiểudữliệuliêntục

5

Ví dụ về Quảng cáo• Doanh nghiệp có thể điều chỉnh chiến lược quảng cáo sản

phẩm (advertising)để tăng doanh số bán hàng (sales).• Dữ liệu:Doanh số bán hàng và ngân sách quảng cáo cho 3

phương tiện truyền thông (TV, radio,newspaper).

Figure2.1,ISL2013

6

MôhìnhHồiquy• Giải thuật học

– Lấy hàm ước lượng “tốt nhất”trong tập các hàm

• Ví dụ:Hồi quy tuyến tính– Chọn 1ước lượng tốt nhất từ dữ liệu học trong tậpcác hàm tuyến tính

7

Hàmtổnthất

Saisố bình phương (Squarederror)

Saisố tuyệt đối (Absolute error)iθ −θi∑

i

ˆi i(θ −θ )2∑

i

ˆi iL(θ ,θ )

8

BàitoánHồiquy

argumentminimum:Chogiá trị nhỏ nhất của 1hàm số trongmiền xácđịnh

9

Đo hiệu năng bài toán hồi quy

• Hàm tổnthất (Lossfunction): loạihàmdùngđểđolườngsaisốcủamôhình

• Vd: Saisốbình phươngtrungbình (Meansquarederror - MSE)– Độ đo thông dụng dùng để tính độ chính xác bài toán hồi quy

– Tập trung đo các sai số lớn hơn là các sai số nhỏ

10

Nộidung1. Giớithiệumôhìnhhồiquy2. Overfitting,kỹthuậtđánhgiáchéo3. PhântíchdữliệuvớiR4. Hồiquytuyếntính5. Hồiquyphituyến6. Real-lifeproblem

Hiện tượng quákhớpOverfitting

11

12

Vấn đề: Overfitting• Quá khớp (Overfitting):Học sự biến thiênngẫu nhiêntrongdữ liệu hơn là xu hướng cơ bản

• Đặc điểmcủa overfitting:– Mô hình có hiệu năng cao trên dữ liệu học nhưng kémtrên tập dữ liệu thử nghiệm.

Underfitting và Overfitting

VHTiệp-MLCB

• Có50điểmdữliệuđượctạobằngmộtđathứcbậcbacộngthêmnhiễu.

• Đồ thị của đa thức cómàu xanhlục (truemodel).

• Bài toán:Giả sử takhông biết môhình banđầu mà chỉ biết cácđiểm dữ liệu,hãy tìmmột môhình “tốt”để mô tả dữ liệu đãcho?

• Với d=2,mô hình không thựcsự tốt vì dự đoánquákhác sovớimô hình thực:underfitting

• Với d=8và d=16,vớicácđiểmdữliệutrongkhoảngcủatrainingdata,môhìnhdựđoánvàmôhìnhthựclàkhágiốngnhau.Tuynhiên,vềphíaphải,đathứcbậc8 và16 chokếtquảhoàntoànngượcvớixuhướngcủadữliệu:Overfitting.

• d=4,mô hình tốtnhất.13

14

Đánh giá hiệu năng• Lỗi huấn luyện và lỗi kiểm thử thể hiện khác nhau

– Tính linh hoạt của mô hình tăng lên…

– Lỗi huấn luyện giảm

– Lỗi kiểm thử banđầu giảm,Nhưng sau đó tăng lên vì overfittingà“U-shaped”lỗi kiểmthử dạng chữ U.

Đánh giá hiệu năng

Figure2.9,ISL2013

15

16

Đánh giá hiệu năng• Làm sao để ước lượng lỗi kiểm thử để tìmmột môhình tốt?

• Kỹ thuậtđánhgiá chéo (Cross-validation):một tập các kỹ thuật nhằm sử dụng dữ liệu huấn luyệnđể ước lượng lỗi tổng quát (generalization error)

17

Dữ liệu• Dữ liệu huấn luyện (Training data)

– Tập các quan sát (bản ghi)được sử dụng để xây dựng (học)mô hình.

• Dữ liệu kiểm chứng (Validation data)– Tập các quan sát dùng để ước lượng lỗi nhằm tìm tham số hoặc

lựa chọn mô hình.

• Dữ liệu kiểm thử (Test data)– Tập các quan sát dùng để đánh giá hiệu năng trên dữ liệu chưa biết

(unseen) trong tương lai.– Dữ liệu này không sử dụng cho giải thuật học máy trong quá trình

xây dựng mô hình.

Kỹ thuậtđánhgiá chéoCross-validation

18

19

“Dùng lỗi trên tập dữ liệu kiểm thử để ước lượng lỗidự đoán”

err = E[L(Y, fˆ(X))]

Kỹ thuật đánh giá chéo

20

Tập đánh giá (Validation)• Thường chiatậpdữliệurathànhtrainingdatavàtest

data.• Chú ý: khixâydựngmôhình,takhôngđượcsửdụng

testdata.• Làmcáchnàođểbiếtđượcchấtlượngcủamôhình

vớiunseendata(tứcdữliệuchưanhìnthấybaogiờ)?

21

Tập đánh giá (Validation)• Phươngpháp: tríchtừtrainingdataramộttậpcon

nhỏvàthựchiệnviệcđánhgiámôhìnhtrêntậpconnày.

• Tậpconnhỏđượctríchratừtrainingsetnàyđượcgọilàvalidationset.Lúcnày,trainingsetlàphầncònlạicủatrainingsetbanđầu.

• Trainerrorđượctínhtrêntrainingsetmớinày.• Validationerror: Lỗi đượctínhtrêntậpvalidation.

22

Tập đánh giá (Validation)• Tìmmôhìnhsaochocả traineror và validation

error đềunhỏ,quađócóthểdựđoánđượcrằng testerror cũngnhỏ.

• Phươngphápthườngđượcsửdụnglàsửdụngnhiềumôhìnhkhácnhau.Môhìnhnàocho validationerror nhỏnhấtsẽlàmôhìnhtốt.

23

Tập đánh giá (Validation)• Tuynhiên,khitacórấthạnchếsốlượngdữliệuđể

xâydựngmôhình.Nếulấyquánhiềudữliệutrongtậptrainingralàmdữliệuvalidation,phầndữliệucònlạicủatậptraininglàkhôngđủđểxâydựngmôhình.

• Nếutagiữtậpvalidationphảithậtnhỏđểcóđượclượngdữliệuchotrainingđủlớn.Mộtvấnđềkhácnảysinh,hiệntượngoverfittinglạicóthểxảyravớitậptrainingcònlại.

• Giảipháp:Cross-validation(Kỹthuậtđánhgiáchéo).

24

Tập huấn luyện - TrainingSetTậpkiểmthử- TestSetTập đánhgiá - Validation Set

Kỹ thuật đánh giá chéo

TrainingData TestingData

• Cross validation là một cải tiến của validation với lượng dữ liệu trong tập validation là nhỏ

nhưng chất lượng mô hình được đánh giá trên nhiều tập validation khác nhau.

• Chia tập training ra k tập con không có phần tử chung, có kích thước gần bằng nhau.

• Tại mỗi lần kiểm thử, một trong số k tập con được lấy ra làm validata set. Mô hình sẽ được

xây dựng dựa vào hợp của k−1 tập con còn lại.

• Mô hình cuối được xác định dựa trên trung bình của các train error và validation error.

Cách làm này còn có tên gọi là k-fold cross validation.

Kỹ thuật đánh giá chéo K--foldVídụ5--fold

Hastie, Trevor,et al. Theelements ofstatistical learning. Vol. 2.No. 1. NewYork: Springer, 2009.

1025

26

5-foldvà 10-foldthường được ưa dùng (lỗi biascao,phương sai thấp)

Kỹ thuật đánh giá chéo

27

• Khi k bằngvớisốlượngphầntửNtrongtập training banđầu,tứcmỗitậpconcóđúng1phầntử,tagọikỹthuậtnàylà leave-one-out.(lỗibiasthấp,phươngsaicao)

Kỹ thuật đánh giá chéo

28

AutoData:LOOCVvs.K-foldCVHình trái:Saisố LOOCVHình phải:10-foldCVđược chạy nhiều lần,đồ thị biểu diễn sai khác nhỏvề lỗi CVLOOCV là trường hợp đặc biệt của k-fold,khi k=N

Cả hai đều ổn định,tuy nhiên LOOCVmất nhiều thời gian tính toán hơn!

2 4 6 8 10

16

18

20

22

24

26

28

LOOCV

Degree of Polynomial

Me

an

Sq

ua

red

Err

or

2 4 6 8 10

16

18

20

22

24

26

28

10−fold CV

Degree of Polynomial

Me

an

Sq

ua

red

Err

or

29

Tacần thêm biến (mô hình mới) hoặc thêm dữ liệu?

Kỹ thuật đánh giá chéo

30

Kỹ thuật đánh giá chéo• Nhược điểm lớn của cross-validation là sốlượng training runs tỉ lệ thuận với k. Trong các bàitoán Machine Learning, lượng tham số cần xác địnhthường lớn và khoảng giá trị của mỗi tham số cũngrộng.

• Vậy việc chỉ xây dựng một mô hình thôi đã rất phứctạp.

Câu hỏi?

31

32

Nộidung1. Giớithiệumôhìnhhồiquy2. Overfitting,kỹthuậtđánhgiáchéo3. PhântíchdữliệuvớiR4. Hồiquytuyếntính5. Hồiquyphituyến6. Real-lifeproblem

PhântíchdữliệubằngR

33

34

R• RvàR-studio• Góicaret

35

Nộidung1. Giớithiệumôhìnhhồiquy2. Overfitting,kỹthuậtđánhgiáchéo3. PhântíchdữliệuvớiR4. Hồiquytuyếntính5. Hồiquyphituyến6. Real-lifeproblem

36

Hồi quy tuyến tính• Hồi quy tuyến tính:là phương pháp học máy có giám sát

đơn giản,được sử dụng để dự đoán giá trị biến đầu radạng số (định lượng)

– Nhiều phương pháp học máy là dạng tổng quát hóacủa hồi quy tuyến tính

– Là ví dụ để minhhọa các khái niệm quan trọng trong bàitoán học máy có giám sát

37

Hồi quy tuyến tính• Tại sao dùng hồi quy tuyến tính?

– Mối quan hệ tuyến tính: là sự biến đổi tuân theo quy luậthàm bậc nhất

– Tìmmộtmôhình(phươngtrình)đểmôtảmộtmốiliênquangiữaXvàY

– Tacó thể biến đổi các biến đầu vào để tạo ra mối quan hệtuyến tính

– Diễn giải các mối quan hệ giữa biến đầu vào và đầu ra - sửdụng cho bài toán suy diễn

38

Hồi quy tuyến tính đơn giản• Biến đầu ra Yvà biến đầu vào Xcó mốiquan hệ tuyến tính giữa Xvà Y như sau:

• Các tham số củamô hình:

hệ số chặn (khi các xi=0)

độ dốc

39

Hồi quy tuyến tính đơn giản

Làmsaođể"pháttriển"mộtphươngtrìnhnối2điểm này?

(x1, y1)

(x2, y2)

x-axis

y-axis

0 Cho hai điểm (x1,y1)và (x2, y2)

TuanV.Nguyen

40

Hồi quy tuyến tính đơn giản

(x1, y1)

(x2, y2)

x-axis

y-axis

0 • Tìmgradient (slope):độ dốc.• Tìm hệ số chặn (intercept)(hệ số khởi đầu của ykhi x=0)

TuanV.Nguyen

Hồi quy tuyến tính đơn giản

Figure3.1,ISL2013

( ) 01 ββ +== xxfy

độ dốc

hệ số chặn

41

42

Hồi quy tuyến tính đơn giản• β0vàβ1 chưa biếtàTaước tính giá trị củachúng từ dữ liệu đầu vào

• Lấy sao chomô hình đạt “xấp xỉ tốt nhất”(“goodfit”)đối với tập huấn luyện

43

Các giả định• MốiliênquangiữaXvàYlàtuyếntính(linear) về tham số

• X không cósaisốngẫu nhiên

• GiátrịcủaYđộclậpvớinhau(vd,Y1khôngliênquanvớiY2) ;

• Saisốngẫunhiên (ε):phânbốchuẩn,trungbình0,phươngsaibất biến

ε~N(0, σ2)

Đường thẳng phù hợp nhấtChotập dữ liệu đầu vào,tacần tìm cách tính toán cáctham số của phương trình đường thẳng

02468101214

0 2 4 6 8 10

? ? ?

44

45

Bình phương nhỏ nhất• Thông thường,để đánh giá độ phù hợp củamôhình từ dữ liệu quan sát tasử dụng phương phápbình phương nhỏ nhất (least squares)

• Lỗi bình phương trung bình (Meansquarederror):

Đường thẳng phù hợp nhấtRất hiếm để có 1đường thẳng khớp chính xác với dữ liệu,dovậy luôn tồn tại lỗi gắn liền với đường thẳngĐường thẳng phù hợp nhất là đường giảm thiểu độ daođộng của các lỗi này

02468101214

0 2 4 6 8 10

)ˆ( ii yy −

y

46

47

Phần dư (lỗi)Biểu thức (yi - )được gọi là lỗi hoặc phần dư

εi =(yi- )

Đường thẳng phù hợp nhất tìm thấy khi tổng bình phương lỗi lànhỏ nhất

y

y

∑=

−=n

ii yySSE

1

2)ˆ(

Ước lượng tham số• Các ước số tính được bằng cách cựctiểu hóaMSE

• Hệ số chặn của đường thẳng

trong đó: vàx

xy

SSSS

=1β

∑=

−−=n

iiixy yyxxSS

1

))(( ∑=

−=n

iix xxSS

1

2)(

48

49

Ước lượng tham sốHệ số chặn của đường thẳng

trong đó

xy 10ˆˆ ββ −=

n

yy

n

ii∑

== 1

n

xx

n

ii∑

== 1

Hồi quy tuyến tính đơn giản

Figure3.1,ISL2013

50

Hồi quy tuyến tính đơn giản

51

Phương pháp đánh giá

𝑅𝑀𝑆𝐸 =1𝑁+(𝑌.

/

.01

− 𝑌3.)5; 𝑀𝐴𝐸 =1N+ |Y; − Y<;|

=

;01

và𝑅5 = 1 − ∑ (𝑌./.01 − 𝑌3.) ∑ (𝑌./

.01 − 𝑌A.)⁄ .

52

53

Ví dụX Ykilograms cost $

17 13221 15035 16039 16250 14965 170

83.891=xySS83.1612=xSS

83.37=x83.153=y

533.083.161283.891

1 ===x

xy

SSSS

β

91.13283.37553.083.153ˆˆ10 =×−=−= xy ββ

phương trình tìm được là

Y =132.91+0.553*X

54

R

X<-c(17, 21, 35, 39, 50, 65)Y<-c(132, 150, 160, 162, 149, 170)model=lm(Y ~ X)plot(X, Y, xlim=c(min(X)-5, max(X)+5), ylim=c(min(Y)-10, max(Y)+10), xlab="kilograms", ylab="cost", pch=15)abline(model, lwd=3)Summary(model)

Diễn giải tham sốTrong ví dụ trước,tham số ước lượng của độ dốc là 0.553.Điềunày có nghĩa là khi thay đổi 1kgcủa X,giá của Ythay đổi 0.553$

55

là hệ số chặn của Y.Nghĩa là,điểmmà đườngthẳng cắt trục tung Y.Trong ví dụ này là $132.91

$132.91

Đây là giá trị của Ykhi X=0

Diễngiảithamsố0β

56

57

Dữliệuphân tích:Boston•Bostondata: liênquanđếngiánhà đất•Cácbiến số

– crim:tỉlệtộiphạmcủathị trấn– zn:tỉlệkhuđấtcódiệntichtrên25,000feet vuông– indus:tỉlệdoanh nghiệp tươngđối lớn– chas:gầnsôngCharles(1=yes,0=no)–nos:nồngđộnitricoxides(parts/10 triệu)– rm:sốphòngtrungbìnhmỗi nhà–age:tỉlệcănhộ(unit)xâytrước 1940–dis:khoảngcáchđếncáctrungtâmkĩnghệ(tìm việc làm)

58

Dữliệuphân tích:Boston•Bostondata: liênquanđếngiánhà đất•Cácbiến số

– rad:chỉsốgầnxalộradial– tax:tỉsuấtthuếtinhtrên $10,000–ptratio:tỉsốhọctròtrêngiáoviêncủathị trấn–black:chỉsốvềsốngườidađentrongthịtrấn(Bk– 0.63)^2– lstat:tỉlệdânsốthànhphầnkinhtế thấp–medv:trịgiánhà ($1000)

59

60

Ước tính bằng R•Chúngtamuốnướctínhmốiliênquangiữasốphòng(rm)vàgiácănnhà

•Môhìnhhồiquituyếntinh:medv=β0+β1*rm+ε

•Rlm(medv ~rm,data=Boston)

61

Phântíchbằng Rattach(Boston)#Phân tích hồi quituyến tínhm1=lm(medv~rm,data= Boston)summary(m1)

#vẽ biểu đồplot(medv~rm,pch=16)abline(m1,col="red")

62

Phântíchbằng R

63

Diễngiảikết quảCoefficients:

Estimate Std. Error t value Pr(>|t|) (Intercept) -34.671 2.650 -13.08 <2e-16 ***rm 9.102 0.419 21.72 <2e-16 ***

• Nhớrằngmôhình là:

medv=β0+β1*rm• Phương trình:

medv=-34.67+9.10*rooms• Ýnghĩa:nhàcóthêm1phòngtăng9100USDchogiátrịcănnhà.Mốitươngquannàycóýnghĩathốngkê(P< 0.0001)

64 TuanV.Nguyen

65

Ýnghĩacủađườngbiểu diễnGiátrịtrungbình(kì vọng)medv=-34.67+ 9.10*rooms

Khi room = 5,medv= -34.67 + 9.10*5 = 10.83

Khi room = 6medv= -34.67 + 9.10*6 = 19.93

Khi room = 8medv= -34.67 + 9.10*8 = 38.13

TuanV.Nguyen

Hồi quy tuyến tính đa biến• Hồi quy tuyến tính đa biến:mô hình có nhiều hơn 1

biến dùng để dự đoán biến đích

66

Hồi quy tuyến tính đa biến

Figure3.4,ISL2013

67

68

Hồi quy tuyến tính đa biến• Diễn giải hệ số βj :khi tăng Xj lên một đơn vịè Y sẽ tăng trung bình một lượng là βj

69

Bình phương nhỏ nhất• Tìm các ước số bằng phươngpháp bình phương nhỏnhất

• Giải phương trình để tìm :

Hồi quy tuyến tính đa biến

Figure3.4,ISL2013

70

Ví dụCho

⎥⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢⎢

=

21351296

y⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

=

3

2

1

0

ˆ

ˆ

ˆ

ˆ

ˆ

β

β

β

β

β

⎥⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢⎢

=

7 1 1

0 17 13 3 16 1

42943128134116193

X

71

72

Ví dụ

⎥⎥⎥⎥

⎢⎢⎢⎢

=

944 484 315 72448 295 53 35315 153 38 26

72 35 26 6

11XX T

⎥⎥⎥⎥

⎢⎢⎢⎢

=

598277203

74

yX T

⎥⎥⎥⎥

⎢⎢⎢⎢

=

7 910 17 3 164 42 3 3 9 2 38 4 3 1 1 1 1 1 1

1 1 6TX

73

Ví dụ

⎥⎥⎥⎥

⎢⎢⎢⎢

==

0.01406 0.00431- 0.00144- 0.13737-0.00431- 0.01234 0.00014- 0.01962-0.00144- 0.00014- 0.03965 0.15375-

0.13737- 0.01962- 0.15375- 2.59578

ˆ yXXX TT 1-)(β

⎥⎥⎥⎥

⎢⎢⎢⎢

598277203

74

⎥⎥⎥⎥

⎢⎢⎢⎢

=

0.46691 0.11162-0.07573-.209753

20975.3ˆ0 =β 11162.0ˆ

2 −=β 46691.0ˆ3 =β07573.0ˆ

1 −=β

321 46691.011162.007573.020975.3ˆ xxxy +−−=

74

Hồi quy tuyến tính• Ưu điểm:

– Mô hình đơn giản,dễ hiểu– Dễ diễn giải hệ số hồi quy– Nhận được kết quả tốt khi dữ liệu quan sát nhỏ– Nhiều cải tiến/mở rộng

• Nhược điểm:– Mô hình hơi đơn giản nên khó dự đoán chính xác với dữ liệu có miền giá

trị rộng– Khả năng ngoại suy (extrapolation)kém– Nhạy cảm với dữ liệu ngoại lai (outliers) – dodungphương pháp bình

phương nhỏ nhất

75

Bài tập tại lớpChobảng dữ liệu về chiều cao và cân nặng của 15người như sau:

Chiều cao(cm)

Cânnặng(kg)

Chiềucao(cm)

Cânnặng(kg)

147 49 168 60150 50 170 72153 51 173 63155 52 175 64158 54 178 66160 56 180 67163 58 183 68165 59

Bàitoánđặtralà:liệucóthểdựđoáncânnặngcủamộtngườidựavàochiềucaocủahọkhông?

Câu hỏi?

76

77

Nộidung1. Giớithiệumôhìnhhồiquy2. Overfitting,kỹthuậtđánhgiáchéo3. PhântíchdữliệuvớiR4. Hồiquytuyếntính5. Hồiquyphituyến6. Real-lifeproblem

Phương pháp kếthợp cácmôhình

(ensemblemmodels)

78

Cây phân loại và hồi quyClassificationandRegressionTrees

(CART)

79

80

Xây dựng cây CART thế nào?

Có 2dạng:

1.Hồi quy

2.Phân loại (lớp)

Mô hình liên tục từng đoạn(piecewise)

• Dự đoán liên tục trong mỗi vùng

Hastie,Trevor,etal.Theelementsofstatisticallearning.Vol.2.No.1.NewYork:Springer, 2009.81

Mô hình liên tục từng đoạn

Hastie,Trevor,etal.Theelementsofstatisticallearning.Vol.2.No.1.NewYork:Springer, 2009.82

83

Hồi quy

Minhhọa cây CARTown_rent_family=1,3

persons_in_house>=2.5

income>=2.5

persons_under_18>=0.5

job=1,2,3,4,5,6,8,9

1.241

1.446

job=1,2,3,4,5,6,8,9

1.843 3.8

persons_in_house>=3.5

1.908 2.461

2.651

residence_time>=2.

2.421 3.8

Minhhọa cây CART

Phân lớp

84

Cây hồi quy

Giá trị dự đoán lưu tại lá của cây hồi quy.Nó được tính bằnggiá trị trung bình của tất cả các mẫu (bản ghi)tại lá đó.

85

86

Cây hồi quy• Giả sử tacó 2vùng R1 và R2 với

• Với các giá trị của Xmà tasẽ có giá trịdự đoán là 10,ngược lại tacó kết quả dựđoán là 20.

20ˆ,10ˆ21 == YY

1RX ∈

2RX ∈

87

Cây hồi quy• Cho2biến đầu vào

và 5vùng• Tùy theo từng vùng

của giá trị mới Xtasẽ có dự đoán 1trong 5giá trị cho Y.

22

12

9

34

23

88

Tách các biến XTatạo ra các phânvùng bằng cáchtách lặp đi lặp lạimột trong các biếnXthành hai vùng

89

Tách các biến X

1. Đầu tiên táchtrên X1=t1

90

Tách các biến X

1. Đầu tiên táchtrên X1=t1

2. Nếu X1<t1,tách trên X2=t2

91

Tách các biến X

1. Đầu tiên táchtrên X1=t1

2. Nếu X1<t1,tách trên X2=t2

3. Nếu X1>t1,tách trên X1=t3

92

Tách các biến X

1. Đầu tiên táchtrên X1=t1

2. Nếu X1<t1,tách trên X2=t2

3. Nếu X1>t1,tách trên X1=t3

4. Nếu X1>t3,tách X2=t4

93

Tách các biến X

• Khi tatạo các vùng theophương pháp này,tacó thểbiểu diễn chúng dùng cấu trúccây.

• Phương pháp này dễ diễn giảimô hình dự đoán,dễ diễn giảikết quả

94

Giải thuật tham lam: hồi quy

• Tìm thuộc tính tách và điểmtách mà nó cực tiểu lỗi dự đoán

95

Ưu điểm của CART• Dễ xử lý dữ liệu thiếu (surrogate splits)• Mạnh trong xử lý dữ liệu chứa thông tinrác

(non-informative data)• Chophép tự động lựa chọn thuộc tính (variable

selection)• Dễ giải thích,lý tưởng để giải thích “tại sao”đối với

người ra quyết định• Xử lý được tính tương tác cao giữa các thuộc tính

96

Nhược điểmcủa CART

• Cây không ổn định (Instabilityof trees)• Thiếu tính trơn (Lackof smoothness)• Khó nắm bắt độ cộng tính (Hardtocaptureadditivity)

EnsembleModels

97

98

Randomforest

Fernández-Delgado,Manuel,etal."Doweneedhundredsofclassifierstosolverealworldclassificationproblems?."TheJournalofMachineLearningResearch15.1(2014):3133-3181.

Kết luận của nghiên cứu trên của nhóm Manuel là phương pháp Random Forests hầu hết cho kết quả tốt nhất.

Bootstraplà gì?• Giảsửtacó5quả bóng gắn nhãn A,B,C,D,Evàbỏtấtcảchúngvàotrong1

cáigiỏ.• Lấyrangẫu nhiên 1quảtừgiỏvàghilạinhãn,sauđóbỏlạiquảbóngvừa

bốcđượcvàogiỏ.• Tiếptụclấyra ngẫu nhiên mộtquảbóng và lặp lại quá trình trên cho đến khi

việclấymẫukếtthúc.Việclấymẫunàygọilàlấymẫucóhoànlại.• Kếtquảcủaviệclấymẫunhưtrêncóthểnhưsau(giảsửkíchthướcmẫulà

10):C,D,E,E,A,B,C,B,A,E

Nguồn:bis.net.vn/forums99

Bootstrap là gì?• Bootstraplàphương

pháplấymẫucóhoànlại(samplingwithreplacement)-> mộtmẫu cóthểxuấthiệnnhiềulầntrongmộtlầnlấymẫu

100

Bootstraplà gì?

• Là kỹ thuật rất quan trọng trong thống kê

• Lấy mẫu có hoàn lại từ tập dữ liệu banđầu để tạo ra các tập dữ liệu mới

101

102

Sức mạnh của các bộ phân lớp yếuCondorcet’sJuryTheorem– Nếu plớnhơn 1/2(mỗi cử tribỏ phiếu đúng mong muốn của họ),càngthêm nhiều cử trisẽ tăng xác suất theo quyết định số đông sẽchính xác.Trong giới hạn,xác suất bầu chọn theo số đông tiếnđến 1khi số cử trităng lên.

103

Sức mạnh của các bộ phân lớp yếuCondorcet’sJuryTheorem– Nếu plớnhơn 1/2(mỗi cử tribỏ phiếu đúng mong muốn của họ),càngthêm nhiều cử trisẽ tăng xác suất theo quyết định số đông sẽchính xác.Trong giới hạn,xác suất bầu chọn theo số đông tiếnđến 1khi số cử trităng lên.

Sức mạnh của các bộ phân lớp yếu• Việc lấy trung bình làm giảm phương sai và không làm tăng bias (biasvẫn

được giữ nguyên)Var[Ȳ]= σ2/n

104

Sức mạnh của các bộ phân lớp yếu• Việc lấy trung bình làm giảm phương sai và không làm tăng bias (biasvẫn

được giữ nguyên)Var[Ȳ]= σ2/n

• Các phiếu bầu của các bộ phân lớp tương quan không trợ giúp đượcnhiều

105

Sức mạnh của các bộ phân lớp yếu• Việc lấy trung bình làm giảm phương sai và không làm tăng bias (biasvẫn

được giữ nguyên)Var[Ȳ]= σ2/n

• Các phiếu bầu của các bộ phân lớp tương quan không trợ giúp đượcnhiều Var[Ȳ]=σ2/n+ (ρσ2)(n-1)/n

106

Kết hợp các bộ phân lớp

α×{CART}+(1−α)×{LinearModel}

107

Các phương pháp kết hợp: Bagging

108

109

+ +

Bagging là gì?“Bootstrap Aggregation”

Bagginglà gì?

“Bootstrap Aggregation”

110

111

+ +

BaggingGiải quyết được tính thiếu ổnđịnh của CART

112

• Lấymẫu tập dữ liệu huấnluyện theo Bootstrapđể tạo ratập hợp các dự đoán.

Bagging

113

• Lấymẫu tập dữ liệu huấn luyện theoBootstrapđể tạo ra tập hợp các dự đoán.Hastie, Trevor, etal.The elements of statistical learning. Vol.2. No. 1. NewYork: Springer, 2009.

• Lấy trungbình (hoặc bình chọn theo số đông- majorityvote)các bộ dự đoánđộc lập.

• Bagginggiảm phương sai (variance)và giữ bias.

Bagging

114

Bagging

Hastie,Trevor,etal.Theelementsofstatisticallearning.Vol.2.No.1. NewYork:Springer, 2009.

115

Bagging

• Lấy mẫu có hoàn lại• Xây dựng bộ phân lớp trên mỗi mẫu bootstrap• Mỗi mẫu bootstrapchứa xấp xỉ 63.2%số lượng mẫu trong

tập dữ liệu banđầu• Số lượng mẫu còn lại (36.8%)được dùng để kiểm thử

Original Data 1 2 3 4 5 6 7 8 9 10Bagging (Round 1) 7 8 10 8 2 5 10 10 5 9Bagging (Round 2) 1 4 9 1 2 3 2 7 3 2Bagging (Round 3) 1 8 5 10 5 5 9 6 3 7

Bonus!Out-of-bag cross-validation

116

117

Các mẫuOut-of-bag(OOB)

• Mỗi cây chỉ sử dụngmột tập concác mẫuhuấnluyện (trung bình số mẫu ~2/3).

• Số mẫu cho OOBkhoảng~1/3của cây quyết định.

• Quá trình Bootstrapping:

118

• Với mỗi mẫu,tìm các câymà nó là OOB.

• Dự đoán giá trị của chúng từ các cây này.

• Ước lượng lỗi dự đoán của cây (baggedtrees)dùng tất cảcác dự đoán OOB.

• Tương tự như kỹ thuật kiểm tra chéo (cross-validation).

Dự đoánmẫuOOB

Phương pháp Rừng ngẫu nhiênRandomForests (RF)

119

120

• Mô hình dựa trên cây phân loại và hồi quy (CART).

• Cácmô hình cây có lỗi biasthấp,tuy nhiên phương sai lạicao (high variance).

• Phương pháp Baggingdùng để giảm phương sai.

Động lực để có Randomforest

121

• Lấymẫu tập dữ liệu huấn luyện theoBootstrapđể tạo ra tập hợpcác dự đoán.

Hastie, Trevor, etal.The elements of statistical learning. Vol.2. No. 1.New York: Springer, 2009.

• Lấy trungbình (hoặc bình chọn theo số đông-majorityvote)các bộ dự đoánđộc lập.

• Bagginggiảm phương sai (variance)và giữ bias.

Nhắc lại: Bagging

122

Baggedtreesvs.randomforests• Phương pháp Baggingbiểu thị sự biến thiên (variability)giữacác cây bởi việc chọn mẫu ngẫu nhiên từ dữ liệu huấn luyện.

• Cây được sinh ra từ phương pháp Baggingvẫn có tươngquan lẫn nhau,dođó hạn chế trong việc giảm phương sai.

Randomforestsđưa ra thêm tính ngẫu nhiên (randomness):

• Làm giảmmối tương quan giữa các cây bằng cách lấy ngẫunhiên các biến khi tách nút của cây.

123

Số lượng biến dùng để tách nút (khả tách)

Lấy thuộc tính ngẫu nhiên

Các biến dùng cho tách nút

Hastie, Trevor, etal.The elements of statistical learning. Vol.2. No. 1.New York: Springer, 2009.

Các biến dùng cho tách nút

124

125

Rừng ngẫu nhiênTập dữ liệu huấn luyện

....D1 D2 DK-1 D K

D

Bước 2:Sử dụng các tập condữ liệulấy mẫu ngẫu nhiên để xây

dựng cây TK-1 TK

T *Bước 3:

Kết hợp các cây

Lấy ngẫunhiên

Bước 1:Tạo dữ liệu ngẫu nhiên

(mẫu bootstrap)

T1 T2

D =(Xi,Yi),i=1..pp:#chiều,N:#mẫu

IntroductiontoDataMining– Tan,Steinbach,Kumar

•Phân lớp:Bình chọn theo số đông•Hồi quy:Lấy trungbình giá trị dựđoán từ các cây Ti (i=1..K)

Rừng ngẫu nhiên

126

127

Các tham số quan trọng của Rừng ngẫu nhiên:

• Số lượng biến khả tách tại mỗi nút ( )

• Độ sâu của từng cây trong rừng (số lượng mẫu tối thiểutại mỗi nút của cây-minimumnode size)

• Số lượng cây trong rừng

Các tham số chính

128

Bài toán phân lớp

Bài toán hồiquy

Giá trị mặc định

=

=

Số lượng biến khả tách

gói randomForest trong Rdùngmtry

Hastie, Trevor, etal.The elements of statistical learning. Vol.2. No. 1.New York: Springer, 2009.

Độsâucủatừngcây(sốlượngmẫutốithiểutạimỗinútcủacây)

129

130

1

5

Độsâucủacây

Bài toán phân lớp

Bài toán hồiquy

Giá trị mặc định

131

Hastie, Trevor, etal.The elements of statistical learning. Vol.2. No. 1.New York: Springer, 2009.

• Thêm nhiều cây không gây ra overfitting.

Số lượng cây trong rừng

132

• Các mẫu Out-of-bag(OOB)

• Độ quan trọngcủa biến (Variableimportancemeasurements)

Các tính năng khác của RF

133

Độ quan trọng của biếnDạng 1:Độ giảm của lỗi dự đoán hoặc impuritytừ các điểm tách nútliên quan đến các biến đó,cuối cùng lấy trung bình trên cáccây trong rừng.

134

Độ quan trọng của biếnDạng 2:

Độ tăng lỗi dự đoán tổng thể khi các giá trị của biến đượchoán vị ngẫu nhiên giữa các mẫu.

135

Hastie, Trevor, etal.The elements of statistical learning. Vol. 2.No. 1. New York: Springer, 2009.

• Cả 2dạng biểu thị gần giống nhau,tuy nhiên có sựkhác biệt về xếp hạng các biến:

Dạng 1 Dạng 2

Ví dụ về độ quan trọng của biến

136

Tương tự như CART:

• Tương đối mạnh trong việc xử lý biến rác(non-informativevariable)(Việc lựa chọn biến tích hợp sẵn khi xâydựng mô hình,built-invariable selection)

Ưu điểm của RF

Hastie, Trevor, etal.The elements of statistical learning. Vol.2. No. 1.New York: Springer, 2009.

Ảnh hưởng của biến rác

137

138

Tươngtựnhư CART:

• Tươngđốimạnhtrongviệcxửlýbiếnrác(non-informativevariable)

• Xử lý (nắmbắt)được độ tương tác bậc cao giữa các biến (Capturehigh-orderinteractionsbetween variables)

• Có lỗi bias thấp

• Dễ xử lý các biến hỗn hợp (biến rời rạc,phân loại)

Ưu điểm của RF

139

Ưu điểm vượt trộiCART:

• Lỗi phương sai thấp hơn (mạnhhơn vì sử dụngphương phápbootstrapping lấymẫu từ tập huấn luyện)

• Ít bị overfitting hơn

• Không cần tỉa cây (Noneedfor pruning)

• Kiểm tra chéo được tích hợp sẵn trongmô hình (dùngcác mẫuOOB)

Ưu điểm của RF

140

Tương tự như CART:

• Khó nắm bắt độ cộng tính

Nhược điểm sovới CART:

• Khó diễn giải/giải thích mô hình dự đoán

Nhược điểm của RF

Câuhỏi?

141

142

Nộidung1. Giớithiệumôhìnhhồiquy2. Overfitting,kỹthuậtđánhgiáchéo3. PhântíchdữliệuvớiR4. Hồiquytuyếntính5. Hồiquyphituyến6. Real-lifeproblem

Giới thiệu bài toán dự đoán

• Cho tập dữ liệu đầu vào L = {(X1, Y1),.., (XN, YN)}, trong đó N là sốlượng mẫu.• Đầu vào là tập biến ngẫu nhiên X∈ℜM, M số thuộc tính.

• Đầu ra là biến ngẫu nhiên Y∈ℜ1.

xi∈X và yi ∈Y nhận các giá trị ngẫu nhiên từ phân bố xác suất PX,Y (1<=i<=N).

• Mục tiêu của bài toán dự đoán là tìm mô hình fL : X →Y cực tiểu hóaErr (fL) = EX,Y {L(Y , fL(X))},

Trong đó hàm lỗi làL(Y , fL(X))} = (Y - fL(X))2.

143

Dựđoánsựhàilòngcủacáchộdùngnướctướitiêutạiđồng

bằngsôngHồng

144

5. Đáp ứng (RES)- Nhân viên thủy lợi cho ông bà biết khi nào thực hiện dịch vụ tưới tiêu- Nhân viên thủy lợi nhanh chóng thực hiện dịch vụ cho ông bà.- Tổ chức cung cấp nước thực hiện đúng lịch cấp nước- Tổ chức cung cấp nước cung cấp tối đa khả năng cấp nước.- Khối lượng nước cấp đáp ứng tốt nhu cầu theo từng giai đoạn sinhtrưởng, phát triển của cây trồng.- Nhân viên thủy lợi cung cấp luôn luôn sẵn sàng đáp ứng yêu cầu của ôngbà.- Chất lượng nước tưới được đảm bảo- Thời gian khắc phục hư hỏng nhanh chóng- Ông bà không bao giờ phải lặp lại các khiếu nại trước(9 biến quan sát)

3. Đảm bảo (ASS)- Cách cư xử của nhân viên gây niềm tin cho ông bà- Ông bà cảm thấy rất an toàn khi giao dịch với tổ chức cung cấp nước- Nhân viên thủy lợi có đủ hiểu biết để trả lời tất cả các câu hỏi của ôngbà liên quan đến hệ thống tưới, tiêu.- Nhân viên thủy lợi của tổ chức cung cấp nước luôn luôn niềm nở với ôngbà- Thời gian phân phối nước tới các thửa ruộng luôn luôn đủ nước trongmỗi đợt tưới.- Từ năm 2008 đến nay nhân viên thủy lợi trả lời được tất cả các thắc mắccủa ông bà liên quan đến số tiền ông bà trả trong tháng- Nhân viên thủy lợi rất nhanh khắc phục khi hệ thống tưới, tiêu có sự cố(7 biến quan sát)

1. Phương tiện hữu hình (TAN)- Các hệ thống tưới, tiêu có chất lượng tốt, đảm bảo chuyển nước và phânphối nước đến các diện tích cần tưới, tiêu- Các đơn vị cung cấp dành đủ kinh phí cho công tác quản lý, vận hành vàbảo dưỡng hệ thống tưới, tiêu.- Nhân viên thủy lợi mặc đồng phục đơn vị- Tổ chức cung cấp nước có tài liệu hướng dẫn quản lý vận hành côngtrình thủy lợi.- Hợp đồng cung cấp dịch vụ được trình bày rất dễ hiểu- Các thiết bị của tổ chức cung cấp nước có chất lượng tốt- Việc duy tu, bảo dưỡng hệ thống tưới được thực hiện đều đặn và khicần.(7 biến quan sát)

2. Tin cậy (REL)- Đơn vị cung cấp dịch vụ tưới, tiêu giới thiệu đầy đủ nội dung hợpđồng với tổ chức cung cấp nước cũng như các kỹ thuật và cách sửdụng khi ông bà muốn đăng ký sử dụng- Tổ chức cung cấp nước thực hiện đúng dịch vụ tưới tiêu như hợpđồng- Tổ chức cung cấp nước xử lý sự cố ngay khi công trình hư hỏng,xuống cấp.- Từ năm 2008 đến nay tổ chức cung cấp nước không để xảy ra bất kỳsai sót nào khi tính chi phí hàng tháng(4 biến quan sát)

Sự hài lòng (SAT)Ông bà hoàn toàn hài lòng về chất lượng dịch vụ tưới tiêu hiện

đang sử dụng.(Giá trị từ 0..5,kiểu thập phân).

4. Sự đồng cảm (EMP)- Nhân viên kỹ thuật thủy lợi luôn làm việc vào những giờ thuậntiện cho ông bà.- Không có bất cứ ai ở Tổ chức cung cấp nước quan tâm đếnnhững bức xúc của ông bà về dịch vụ tưới, tiêu.- Lịch phân phối nước rất thuận tiện theo giờ sản xuất của giađình ông bà.- Ông bà được quan tâm và chú ý mỗi khi thắc mắc về dịch vụtưới, tiêu.- Tổ chức cung cấp nước điều chỉnh lịch tưới phù hợp với sựthay đổi của thời tiết.- Nhân viên của tổ c hức cung cấp nước luôn hiểu rõ những nhucầu của ông bà.- Đơn vị cung cấp lấy lợi ích của ông bà là mục tiêu phát triểnbền vững của họ(7 biến quan sát)145

Một số mô hình học máy

• Linear Regression• LASSO• K-NN• Support Vector Regression• Artificial neural network• Decision trees• Random Forests• Boosting• Deep Learning

Kết quả thực nghiệm• Phương pháp đánh giá:

• Dữ liệu: Tập huấn luyện gồm 336 mẫu (70%) và tập dữ liệu kiểmthử gồm 144 mẫu (30%).

• Khi xây dựng mô hình hồi quy, kỹ thuật kiểm tra chéo 5-folds với 2lần lặp và dựa trên hàm lỗi RMSE được dùng để tìm tham số tối ưucủa từng mô hình, sau đó lựa chọn mô hình có RMSE nhỏ nhất vớitham số tìm được để dự đoán dữ liệu kiểm thử.

𝑅𝑀𝑆𝐸 =1𝑁+(𝑌.

/

.01

− 𝑌3.)5;𝑀𝐴𝐸 =1N+|Y; − Y<;|

=

;01

và𝑅5 = 1−∑ (𝑌./.01 − 𝑌3.) ∑ (𝑌./

.01 − 𝑌A.)⁄ .

147

Kết quả thực nghiệmTT Mô hình hồi quy Tham số tối ưu R2 RMSE MAE

1 Hồi quy tuyến tính(LM)

Mặc định 0.839 0.267 0.167

2 Hồi quy LASSO λ= 0.01 0.844 0.263 0.1633 K láng giềng (KNN) k = 1 **0.894 **0.216 0.085

4 Cây hồi quy (CART) Complexity parameter (cp)=0 0.835 0.272 0.156

5 Mạng nơ ron nhân tạo(ANN)

Trọng số phân rã=0.1 và sốnơ-ron=9

***0.892 ***0.218 **0.106

6 Máy véc-tơ hỗ trợ(SVR)

RBF, σ = 0.032, ε=0.1 và C =32

0.852 0.255 0.143

7 Rừng ngẫu nhiên (RF) mtry = 9 và K=1000 0.902 0.208 ***0.107

8 Boosting K = 500, interaction.depth =7 và shrinkage = 0.1

0.873 0.237 0.119

148

Kết quả thực nghiệm

So sánh các mô hình hồi quy dựa trên kếtquả huấnluyện theohệ số xác định bội R2

• Mô hình rừng ngẫu nhiên chokết quả tốt nhất, giải thíchkhoảng 93% các khác biệt về độhài lòng giữa các hộ dùng nướctưới tiêu, theo sát là mô hìnhboosting có R2=92.445% vàSVR đạt R2=92.444%.

• Xếp cuối là phương pháp cây hồiquy có R2 thấp nhất, khả nănggiải thích của mô hình cây hồiquy khoảng 85% kém hơn môhình hồi quy tuyến tính nhiềubiến có R2=87.481%.

149

Kết quả thực nghiệm

Biểu đồ tương quan giữa các tiêu chí.

So sánh lỗi huấn luyện RMSE củacác mô hình hồi quy theo từng cặp.

150

Kết quả thực nghiệm

Độ đo sự quan trọng của các tiêuchí

• Độ đo sự quan trọng của 34 tiêu chí được sắpxếp theo chiều giảm dần, các độ đo này đượctính từ rừng ngẫu nhiên.

• HH1, HH7, STC3 có độ quan trọng cao, trong đó HH1="Các hệ thống tưới, tiêu có chất lượng tốt, đảm bảo chuyển nước và phân phối nước đến cácdiện tích cần tưới, tiêu" có độ quan trọng cao nhất. Tiêu chí DDU6="Nhânviên thủy lợi cung cấp luôn luôn sẵn sàng đáp ứng yêu cầu của ông bà" cóđộ quan trọng thấp nhất.

• Như vậy, trong dịch vụ cung cấp nước tưới tiêu, hộ dùng nước quan tâmnhất đến các hệ thống tưới tiêu có chất lượng tốt, độ đáp ứng của đơn vịcung cấp nước, nó bao gồm những yếu tố như duy tu, bảo dưỡng đượcthực hiện đầy đủ và đều đặn, sửa chữa sự cố ngay khi công trình hư hỏnghoặc xuống cấp, thực hiện đúng lịch cấp nước, cung cấp tối đa khả năngcấp nước, đáp ứng tốt nhu cầu theo từng giai đoạn sinh trưởng và pháttriển của cây trồng, chất lượng nước được đảm bảo.

• Nhân viên thủy lợi có hoặc không đáp ứng những yêu cầu cá nhân của cáchộ dùng nước cũng không ảnh hưởng nhiều đến sự hài lòng chung về chấtlượng dịch vụ tưới tiêu

151

Xem thêm bài báo ở đây

DựbáomựcnướctrênsôngMekong

152

Applications of Machine Learning

Ref: ICFR

Flood forecasting

153

Motivation• Two approaches to build the flood forecasting model: • physically based and • data-driven (machine learning) approaches.

• Physically based models are fully distributed models in increasing levels of complexity. The physically based modelling aims to reproduce the hydrological process in a physically realistic.

• Our solution: We use machine learning model, they are quickly developed and easily implemented for building the forecasting model.

154

Motivation• Case study: Lower Mekong river.• Inputs:

• Rainfall intensity• Cumulative rainfall

• Outputs: the 5-lead-day water levels at Thakhek gauging station

155

Experiments• Forecasting model: the 5-lead-day water levels at Thakhek station

on the Mekong River, where it shows the major contribution to the flows in the Lower Mekong River.

• The relationship between the input-output features:

where the output feature HThakhek(t + 5) is the water level forecasted for the next 5 days at Thakhek gauging station. HThakhek(t), HThakhek(t-1) and HThakhek(t-2) are water levels measured in the current day and previous two days, respectively. Hup(t), Hup(t-1) and Hup(t-2) are water levels measured in the current day and previous two days at NongKhaigauging station, respectively.

156

Experiments• Design of the Forecast Evaluations

For each iteration, 1 sample from the testing data is added into the training data to build the forecasting model.

157

Experimental results• Optimal parameters: k-folds

cross-validation.

158

Experimental results

159

http://ffw.mrcmekong.org/accuracy.htm

Experimental results

160

Câuhỏi?

161

top related