bayes classification - nuu.edu.twdebussy.im.nuu.edu.tw/sjchen/machinelearning/final/... ·...

46
授課教師:陳士杰 授課教師:陳士杰 國立聯合大學 國立聯合大學 資訊管理學系 資訊管理學系 貝氏分類 Bayes Classification

Upload: others

Post on 08-Aug-2020

8 views

Category:

Documents


0 download

TRANSCRIPT

  • 授課教師:陳士杰授課教師:陳士杰國立聯合大學國立聯合大學 資訊管理學系資訊管理學系

    貝氏分類 Bayes

    Classification

  • 2國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))

    ■綱要

    基礎機率論回顧

    單純貝氏分類法

    m-estimate方法的條件機率

    貝氏信念網路

  • 3國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))

    ■基礎機率論回顧

    先天機率理論

    條件機率

    總合機率定理

    貝氏定理

  • 4國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))

    先天機率理論(Priori Theory of Prob.)

    古典機率、事前機率

    根據事物事先已知的本性作決定

    只能用於有限樣本空間,每一樣本點出現的機率相同。

    r: 某評估對象

    N: 樣本空間中所有可能事物的集合

    nE

    : 樣本空間的部份集合,為具有某種特性的事物之集合

    0 ≤

    Pr

    (E) ≤

    1

    舉例

    根據過去的經驗,生產線A不良率PA

    (不良)為0.6,生產線B為

    PB

    (不良) =

    0.1。

    根據過去的經驗,學生A數學不及格率PA

    (不及格)為0.6,學生B

    為PB

    (不及格)= 0.1。

    NnEP Er =)(

  • 5國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))

    條件機率

    某事件 B 已發生的情況下,再發生另一事件 A 之機率, 稱為條件機率。

    根據額外的事件B,修正事件A發生的機率

    當追到校花後,考上研究所的機率 P(研究所|校花)

    條件相同時,P(A|B) + P(A’|B) = 1

    若 A, B 兩事件獨立,則:

    )()()|(

    BPBAPBAP ∩=

    )()(

    )()|(

    APBP

    BAPBAP

    =

    ∩=

    ><

    A, B不獨立

  • 6國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))

    互斥 (Mutually Exclusive / Disjoint)

    指:兩事件不會同時發生

    集合上的概念,可由Venn圖看出。

    P(A∩B) = 0

    獨立 (Independence)

    指:一事件發生與否,不會影響另一事件發生之機率

    機率上的概念,無法由圖形看出。

    P(A∩B) = P(A)×P(B)

    既獨立又互斥在兩個機率非零的事件下不可能發生。

    A B

    當:

    • P(B) ≠

    0時,P(A|B) = P(A∩B)/P(B) = P(A)

    • P(A) ≠

    0時,P(B|A) = P(A∩B)/P(A) = P(B)

  • 7國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))

    三事件 A, B, C 彼此完全相互獨立需四個條件

    P(A∩B) = P(A)P(B)

    P(A∩C) = P(A)P(C)

    P(B∩C) = P(B)P(C)

    P(A∩B∩C) = P(A)P(B)P(C)

    僅符合 為成對獨立;若符合 為三者相互獨立。

    舉例:

    研究所

    大樂透

    校花

    P(校花∩研究所) = P(研究所)P(校花)

    P(校花∩大樂透) = P(大樂透)P(校花)

    P(大樂透∩研究所) = P(大樂透)P(研究所)

    P(大樂透∩研究所∩校花) ?? P(大樂透)P(研究所)P(校花)

  • 8國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))

    條件獨立 (Conditionally Independent )

    假設有三個隨機變數A、B與C。當變數A與變數B在給定條件C的

    情況下互相獨立,即稱條件獨立,可表示成:

    P(A∩B|C) = P(A|C)×P(B|C)

    舉例:

    通常,一個人心智的幼稚程度(A)會隨著年齡(B)的增長,而隨之降

    低(即:兩者相關、不獨立)。然而,當與心儀的異性(C)熱烈交往 時,不論男女,其幼稚程度(A)與年齡(B)的長幼似乎又變得無關了

    (即:相互獨立)。

    條件獨立的另一種表示式(假設要件如上):P(A|B∩C) = P(A|C)

    証明 (自行參考): P(A|B∩C) = P(A∩B∩C)/P(B∩C)= P(A∩B∩C)/P(C) ×P(C)/P(B∩C)

    = P(A∩B|C) ×

    1/P(B|C)

    = P(A|C)×P(B|C) /P(B|C)

    =

    P(A|C)

  • 9國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))

    聯合機率、邊際機率

    聯合機率分配表

    1P(yn

    )…P(yj

    )…P(y1

    )P(Y)

    P(xm

    )

    P(xi

    )

    P(x1

    )

    P(X)

    ……

    ……

    xm

    xi

    x1

    ynyjy1

    P(xm

    ∩yn

    )P(xm

    ∩yj

    )P(xm

    ∩y1

    )

    P(xi

    ∩yn

    )P(xi

    ∩yj

    )P(xi

    ∩y1

    )

    P(x1

    ∩yn

    )P(x1

    ∩yj

    )P(x1

    ∩y1

    )

    機 變 數 X

    隨機變數 Y

    ……

    ……

    ……

    ……

    ……

    聯合機率(Joint Prob.) 邊際機率 (Marginal Prob.)

  • 10國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))

    舉例:

    設X與Y為兩個隨機變數,且聯合機率分配表如下。試問:X與

    Y是否獨立?

    X與Y不獨立!!

    Y

    y1

    =文學院 y2

    =商學院 y3

    =工學院

    Xx1

    =女 0.12 0.3 0.18

    x2

    =男 0.08 0.1 0.22

    Y

    y1

    =文學院 y2

    =商學院 y3

    =工學院 P(X)

    Xx1

    =女 0.12 0.3 0.18 0.6

    x2

    =男 0.08 0.1 0.22 0.4

    P(Y) 0.2 0.4 0.4 1

    P(x1

    ∩y1

    )=

    P(x1

    )P(y1

    )

    P(x1

    ∩y2

    )

    ≠P(x1

    )P(y2

    )

  • 11國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))

    實務上,有時會拿到以下的調查資料:

    這是因為兩事件同時發生的機率P(Xi

    ∩Yj

    )難以收集

    以此例而言,每一直欄變數Y的機率總合皆為1,故直欄為給定

    之條件,而橫列變數X為欲討論變數。

    Y

    Y1

    =台北市 Y2

    =台中市 Y3

    =高雄市

    XX1

    =抽煙 0.5 0.4 0.6 1.5

    X2

    =不抽煙 0.5 0.6 0.4 1.5

    1 1 1

    P(X1

    |Y1

    )

  • 12國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))

    總合機率定理(Theorem of Total Prob.)

    分割 (Partition)

    設H1

    , H2

    , …, Hr

    為樣本空間S中的部份集合,若滿足:

    H1

    ∪H2 ∪…∪ Hr

    = S

    Hi

    ∩Hj

    =φ, ∀i ≠

    j

    則稱{H1

    , H2

    , …, Hr

    }為S中之一分割

    S

    H1H2

    Hr…

  • 13國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))

    B

    設{H1

    , H2

    , …, Hr

    }為樣本空間S中的分割。若某事件B ⊂ S,則事件B的發生機率P(B)為:

    S

    H1H2

    Hr…

    [ ]

    ∑=

    =

    +++=∩++∩+∩=

    ∩∪∪∩∪∩=

    r

    iii

    rr

    r

    r

    HBPHP

    HBPHPHBPHPHBPHPHBPHBPHBP

    HBHBHBPBP

    1

    2211

    21

    21

    )|()(

    )|()(...)|()()|()()(...)()(

    )(...)()()(

  • 14國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))

    貝氏定理 (Bayes’

    Theorem)

    由結果去追溯某個原因發生的機率,即由後天去推測先天。

    設{H1

    , H2

    , …, Hr

    }為樣本空間S中的分割 (r≥2),B為S中的任意事 件。若P(B)>0,P(Hi

    )>0,i = 1, 2, …, r ,

    j = 1, 2, …, r,則:

    P(Hj

    ):事前機率(先天機率),依據現有資訊所求得的機率。

    P(Hj

    |B):事後機率,根據額外的資訊,經修正求得的機率。

    =

    =

    =

    =

    =

    r

    iii

    jj

    r

    ii

    j

    jj

    HBPHP

    HBPHP

    BHP

    BHPBP

    BHPBHP

    1

    1

    )|()(

    )|()(

    )(

    )()(

    )()|(

    I

    I

    I

    B

    S

    H1H2

    Hr…

  • 15國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))

    舉例:依下表,

    請算出一年下雨的機率 P(雨)。

    假設某一天在下雨,這一天是秋天的機率為何?

    解:

    P(雨) = P(春)P(雨|春)+P(夏)P(雨|夏)+ P(秋)P(雨|秋)+ P(冬)P(雨|冬)

    = 025×0.3 + 025×0.4 + 025×0.2 + 025×0.3

    = 0.3

    P(秋|雨) = P(雨∩秋)/P(雨) = P(秋)P(雨|秋)/P(雨)

    = 025×0.4 /0.3

    = 0.1666

    春 夏 秋 冬

    雨 0.3 0.4 0.2 0.3

    晴 0.7 0.6 0.8 0.7

  • 16國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))

    ■單純貝氏分類 (Naïve Bayes)

    單純貝氏分類法假定所有變數(屬性)對分類均是有用 的,且這些變數間是相互獨立。

    為了說明單純貝氏分類法的概念,在此以天氣評估的資 料集來做範例。 Outlook

    Sunny Overcast RainYes 2 4 3No 3 0 2Yes 2/9 4/9 3/9No 3/5 0/5 2/5

    Temp.Hot Mild Cool

    Yes 2 4 3No 2 2 1Yes 2/9 4/9 3/9No 2/5 2/5 1/5

    HumidityHigh Normal

    Yes 3 6No 4 1Yes 3/9 6/9No 4/5 1/5

    WindWeak Strong

    Yes 6 3No 2 3Yes 6/9 3/9No 2/5 3/5

    P(Sunny|Yes)

    Yes: 9No: 5

  • 17國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))

    此資料集主要是建立出 “在何種天氣模式下,會/不會去打網球” 的分類模型。

    令:

    Outlook = H1

    ; Temp. = H2

    ; Humidity = H3

    ; Wind = H4

    Play Tennis = B

    所有變數皆相互獨立

    問題:有一組待分類的天氣屬性如下:

    {H1

    = Sunny, H2

    = Cool, H3

    = High, H4

    = Strong, B = ?}

    以單純貝氏分類法來處理該分類問題,需對類別欄位(即:Play

    Tennis (B))中的每個值

    (Yes or No),分別計算其在特定天氣屬

    性集合 H = (H1

    ∩H2

    ∩H3

    ∩H4

    )下之事後機率。即:

    P(B=Yes|H)

    P(B=No|H)

  • 18國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))

    以 B = Yes 來說,其事後機率為:

    以 B = No 來說,其事後機率為:

    )(

    )|()(

    )()|()|()|()|()(

    )()()|(

    )()()|(

    )()()|(

    4

    1

    4321

    4321

    HP

    YesBHPYesBP

    HPYesBHPYesBHPYesBHPYesBHPYesBP

    HPYesBPYesBHHHHP

    HPYesBPYesBHP

    HPYesBHPHYesBP

    ii∏

    =

    ===

    ======

    ===

    ===

    ===

    III

    I

    條件獨立

    )(

    )|()(

    )()()|(

    )()()|(

    )()()|(

    4

    1

    4321

    HP

    NoBHPNoBP

    HPNoBPNoBHHHHP

    HPNoBPNoBHP

    HPNoBHPHNoBP

    ii∏

    =

    ===

    ===

    ===

    ===

    III

    I條件獨立

    ………(1)

    ………(2)

  • 19國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))

    上述公式中的P(B=Yes)和P(B=No)都是屬於事前機率。在

    本範例中, P(B=Yes) = 9/14,P(B=No)=5/14。

    以上述公式 (1)、(2)來說,不論是在求解B為Yes或No,分

    母P(H)皆相同,故可視為固定的常數,為計算的簡便性可 省略它!!因此,公式

    (1)、(2) 可修正為概似函數

    (Likelihood Function):

    因此,以本範例的待分類資料{H1

    = Sunny, H2

    = Cool, H3

    = High, H4

    = Strong}來說:

    P(B=Yes|H) = 9/14×

    2/9×3/9×3/9 ×3/9=0.0053

    P(B=No|H) = 5/14×

    3/5×1/5×4/5 ×3/5=0.0206

    ∏=

    ====4

    1

    )|()()|(i

    i YesBHPYesBPHYesBP

    ∏=

    ====4

    1

    )|()()|(i

    i NoBHPNoBPHNoBP

    ………(3)

    ………(4)

    Outlook

    Sunny Overcast Rain

    Yes 2 4 3

    No 3 0 2

    Yes 2/9 4/9 3/9

    No 3/5 0/5 2/5

    Temp.

    Hot Mild Cool

    Yes 2 4 3

    No 2 2 1

    Yes 2/9 4/9 3/9

    No 2/5 2/5 1/5

    Humidity

    High Normal

    Yes 3 6

    No 4 1

    Yes 3/9 6/9

    No 4/5 1/5

    Wind

    Weak Strong

    Yes 6 3

    No 2 3

    Yes 6/9 3/9

    No 2/5 3/5

  • 20國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))

    最後,透過標準化(Normalizing)的步驟,將上述的計算結果加

    以轉換以滿足機率總合為 1的要求。

    根據計算結果,此待分類的天氣屬性,被判別為B = No。

    {H1

    = Sunny, H2

    = Cool, H3

    = High, H4

    = Strong, B = No}

    %5.790206.00053.0

    0206.0

    %5.200206.00053.0

    0053.0

    =+

    =

    =+

    =

    的機率

    的機率

    No

    Yes

  • 21國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))

    以上述天氣評估的範例來擴大解釋單純貝氏分類法。

    假設有r個評估屬性 {H1

    , H2

    , …, Hr

    };類別屬性B中有m個類別

    值 B={b1

    , b2

    , …, bm

    },則待分類屬性集合H = (H1 = h1

    ∩H2 = h2 ∩…∩Hr = hr

    )與每個類別值的計算公式如下:

    藉由標準化的過程,將前述m個計算結果做標準化,以滿足機

    率總合為1的要求,進而找出機率值最大的類別,做為待分類屬 性集合H的類別。

    .,,1,)|()()|(1

    mjbBHPbBPHbBPr

    ijijj K===== ∏

    =

  • 22國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))

    利用單純貝氏分類法於貸款分類問題

    現有一組預測貸款歸還情形的訓練資料如下表,資料類 型可分成兩大類:

    離散型資料欄位

    資料的值域有限或可數

    連續型資料欄位

    資料的值域繁多或不可數

  • 23國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))

    就離散型資料欄位(屬性)而言:

    對於某個離散型資料欄位 X 而言,其條件機率P(X = xi |Y = y)是指 在 y類別中的部份訓練資料,具有特別的屬性值 xi。

    如前圖,有3/7無拖欠貸款的人,是擁有房子的。P(Home Owner = Yes | Defaulted Borrower = No)

    2/3有拖欠貸款的人,是單身的。P(Marital Status = Single | Defaulted Borrower = Yes)

  • 24國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))

    就連續型資料欄位(屬性)而言:可以假設該連續變數符合某個機率分配,然後使用訓練資料來

    估計該分配的參數。

    常態分配(高斯分配)最常被用來表示連續變數的類別條件機率。

    該分配有兩個參數:平均數μ與變異數 σ2

    對於每個類別yj而言,連續型資料欄位 X 的類別條件機率如下:

    參數μ 可以經由連續型資料欄位 X 中、屬於類別yj之樣本平均數 估計而來。而σ2 可以從樣本變異數 Sj2 估計而來。

    2

    2

    2)(

    21)|( σ

    μ

    σπ

    −−

    ===ix

    ji eyYxXP

    jX

  • 25國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))

    以本範例中的年收入(Annual Income)而言,在類別為 no

    時的樣

    本平均數與變異數為:

    假設現有一測試資料,年收入為120K,那麼可以計算類別為no

    時的條件機率 (以常態分配為主):

    0072.0)54.54(2

    1)|120( 29752)110120( 2

    ==== ×−−

    eNoYIncomePπ

    54.54

    29757

    )11075(...)110100()110125(

    1107

    75...100125

    2222

    =

    =−++−+−

    =

    =+++

    =

    No

    No

    No

    S

    S

    X

  • 26國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))

    因此,本範例的所有可能條件機率整理如下圖所示:

  • 27國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))

    現有一筆測試資料H={Home Owner = No, Marital Status = Married, Income = 120K},要得知其是否會拖

    欠貸款 (Defaulted Borrower = ?)。每個類別的事前機率分別為:P(Yes) = 0.3, P(No) = 0.7。

    每個類別的條件計算公式如下:

    所以這筆測試資料被判為類別 No

    .0102.1013.0

    )|120()|()|()(

    )|()()|(

    .00165.0

    0072.074

    747.0

    )|120()|()|()(

    )|()()|(

    9

    3

    1

    3

    1

    =××××=

    =×=×=×=

    ====

    =

    ×××=

    =×=×=×=

    ====

    =

    =

    YesKIncomeAnnualPYesMarriedStatusPYesNoOwnerHomePYesP

    YesBHPYesBPHYesBP

    NoKIncomeAnnualPNoMarriedStatusPNoNoOwnerHomePNoP

    NoBHPNoBPHNoBP

    ii

    ii

  • 28國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))

    當有資料遺漏時,對分類結果不會造成太大的影響。

    當訓練範例有資料遺漏時:

    在進行頻率計數時,僅需忽略對該遺漏值的計算,同時在機率計

    算中使用實際出現的值之個數,而非訓練資料的總數。

    當測試資料有遺漏時:

    假設有一組待分類的天氣屬性如下 (缺

    “Outlook (H1

    )”):

    {H2

    = Cool, H3

    = High, H4

    = Strong, B = ?}

    在計算時,僅需簡單忽略這個屬性:

    P(B=Yes|H) = 9/14×3/9×3/9 ×3/9=0.0238

    P(B=No|H) = 5/14×1/5×4/5 ×3/5=0.0343

    這兩個數值分別比之前的計算值高很多,因為計算時少了一部份

    的數值,但是不影響結果,因為這樣的遺漏值對所有類別的計算 都影響到了。

    標準化後,得到的Yes和No的機率分別為41%和59%。

    單純貝氏分類法討論

  • 29國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))

    如果某個屬性的資料,並不是在每個類別都會出現的

    話,則會發生問題。

    例如:前述“在何種天氣模式下,會/不會去打網球”的問題中, 當B = No時,

    Outlook = Overcast的個數為

    0 ,則其條件機率

    P(Outlook=Overcast|B=No) = 0。

    這會使得整個類別的概似函數公式為0。

    這是當訓練資料過少、而屬性個數過多時所產生的問題。

    OutlookSunny Overcast Rain

    Yes 2 4 3No 3 0 2Yes 2/9 4/9 3/9No 3/5 0/5 2/5

  • 30國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))

    假設有一組待分類的天氣屬性如下:

    {H1

    = Overcast, H2

    = Cool, H3

    = High, H4

    = Strong, B = ?}

    在計算時:

    P(B=Yes|H) = 9/14×4/9×3/9×3/9 ×3/9=0.0106

    P(B=No|H) = 5/14×0/5×1/5×4/5 ×3/5=0

    標準化後,得到的Yes和No的機率分別為 1 和

    0。

    在理論上是正確的,因為只要Outlook為Overcast就可打

    網球。但這個結果違背了單純貝氏分類法的基本假設:所 有變數對分類均是有用的。這個範例僅靠Outlook =

    Overcast來決定。

    解決:Laplace estimator或m-estimate方法

    Outlook

    Sunny Overcast Rain

    Yes 2 4 3

    No 3 0 2

    Yes 2/9 4/9 3/9

    No 3/5 0/5 2/5

    Temp.

    Hot Mild Cool

    Yes 2 4 3

    No 2 2 1

    Yes 2/9 4/9 3/9

    No 2/5 2/5 1/5

    Humidity

    High Normal

    Yes 3 6

    No 4 1

    Yes 3/9 6/9

    No 4/5 1/5

    Wind

    Weak Strong

    Yes 6 3

    No 2 3

    Yes 6/9 3/9

    No 2/5 3/5

  • 31國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))

    單純貝氏分類法假定所有變數間是相互獨立。但是這對

    於大多數資料集而言,是一個不切實際的假設。

    一般而言,變數間都有某種程度的關聯性。

    關聯度高的變數可能會因為沒有滿足條件獨立的假設,而使得誤

    判率提高。

    解決:貝氏信念網路

  • 32國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))

    ■ Laplace Estimator

    由於前述討論 的問題是發生在簡單貝氏分類法中,條

    件機率連乘時發生乘 0 的情況,使得某類別 bj 的概似函

    數計算結果為 0。

    使用Laplace Estimator評估條件機率的作法如下:

    概念:對造成條件機率為0之屬性,將其所屬類別 bj

    之機率計算

    公式的分子、分母皆加上一數值,使該機率不為0

    分子:加上1。

    分母:加上q,其中 q 為該屬性內的不同資料個數。

    .,,1,)|()()|(1

    mjbBHPbBPHbBPr

    ijijj K===== ∏

    =

  • 33國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))

    以是否打網球之分類問題為例

    在是否打網球之分類問題中,條件機率P(Outlook

    =

    Overcast|B

    = No) = 0

    因為在類別為No中,沒有一筆訓練資料其屬性 “Outlook”

    為陰

    天(Overcast)。

    在此使用Laplace Estimator,對類別為No之所有 Outlook情況的條件機率做修正:

    OutlookSunny Overcast Rain

    Yes 2 4 3No 3 0 2Yes 2/9 4/9 3/9No 3/5 0/5 2/5

    4/8 1/8 3/8

  • 34國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))

    假設有一組待分類的天氣屬性如下:

    {H1

    = Overcast, H2

    = Cool, H3

    = High, H4

    = Strong, B = ?}

    在計算時:

    P(B=Yes|H) = 9/14×4/9×3/9×3/9 ×3/9=0.0106

    P(B=No|H) = 5/14×1/8×1/5×4/5 ×3/5=0.00429

    標準化後,得到的Yes和No的機率分別為 0.71189 和

    0.28811。

    根據計算結果,此待分類的天氣屬性,被判別為B =

    Yes。

    Outlook

    Sunny Overcast Rain

    Yes 2 4 3

    No 3 0 2

    Yes 2/9 4/9 3/9

    No 4/8 1/8 3/8

    Temp.

    Hot Mild Cool

    Yes 2 4 3

    No 2 2 1

    Yes 2/9 4/9 3/9

    No 2/5 2/5 1/5

    Humidity

    High Normal

    Yes 3 6

    No 4 1

    Yes 3/9 6/9

    No 4/5 1/5

    Wind

    Weak Strong

    Yes 6 3

    No 2 3

    Yes 6/9 3/9

    No 2/5 3/5

  • 35國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))

    ■ m-estimate方法由於Laplace Estimator

    在為有問題之條件機率的分子與

    分母加數值的做法較無充份理由。故有其它方法來重新 計算相關的條件機率。

    使用m-estimate方法評估條件機率的公式如下:概念:對造成條件機率為0之屬性,將其所屬類別 bj

    之機率計算

    公式的分子、分母皆加上一數值,使該機率不為0分子:加上μ×p。

    分母:加上μ

    p:造成條件機率為0之屬性,其所有屬性值的事前機率。假設有n

    個不同屬性值,則:簡單:每個屬性值的事前機率皆一致為 1/n

    複雜:每個屬性值的事前機率為 (該屬性值出現的個數)/(總樣本數)

    μ:為整數,主要是決定造成條件機率為0之屬性內,不同屬性值

    之事前機率的權重。有幾種設定法:一致:設成該屬性內的不同屬性值個數 n 。

    不一致:較重要的屬性值其μ值較大;較不重要的屬性值其μ值較小。

  • 36國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))

    以是否打網球之分類問題為例

    在是否打網球之分類問題中,條件機率P(Outlook

    =

    Overcast|B

    = No) = 0

    在此使用m-estimate,對類別為No之所有Outlook情況 的條件機率做修正:

    令μ=3,即不同屬性值之事前機率的權重一致

    令每個屬性值的事前機率皆一致為 1/3

    OutlookSunny Overcast Rain

    Yes 2 4 3No 3 0 2Yes 2/9 4/9 3/9No 3/5 0/5 2/5

    [3+3×1/3] / [5+3]= 4/8

    [0+3×1/3] / [5+3]= 1/8 [2+3×1/3] / [5+3]= 3/8

  • 37國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))

    假設有一組待分類的天氣屬性如下:

    {H1

    = Overcast, H2

    = Cool, H3

    = High, H4

    = Strong, B = ?}

    在計算時:

    P(B=Yes|H) = 9/14×4/9×3/9×3/9 ×3/9=0.0106

    P(B=No|H) = 5/14×1/8×1/5×4/5 ×3/5=0.00429

    標準化後,得到的Yes和No的機率分別為 0.71189 和

    0.28811。

    根據計算結果,此待分類的天氣屬性,被判別為B =

    Yes。

    Outlook

    Sunny Overcast Rain

    Yes 2 4 3

    No 3 0 2

    Yes 2/9 4/9 3/9

    No 4/8 1/8 3/8

    Temp.

    Hot Mild Cool

    Yes 2 4 3

    No 2 2 1

    Yes 2/9 4/9 3/9

    No 2/5 2/5 1/5

    Humidity

    High Normal

    Yes 3 6

    No 4 1

    Yes 3/9 6/9

    No 4/5 1/5

    Wind

    Weak Strong

    Yes 6 3

    No 2 3

    Yes 6/9 3/9

    No 2/5 3/5

  • 38國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))

    ■貝氏信念網路 (Bayesian Belief Networks; BBN)

    簡單貝氏分類法要求所有屬性(變數)都滿足條件獨立過於 嚴格。而貝氏信念網路 (簡稱貝氏網路) 則允許指定哪些屬 性需符合條件獨立。

    貝氏網路的兩個重要元素是:

    用有向的非循環圖表示變數間的相依關係

    用機率表記錄每個節點和它的直接父節點間的關聯性

  • 39國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))

    在貝氏網路中,每一個節點表示一個變數,每個箭號表 示兩個變數間的依賴關係。

    圖(a)中,變數A與B相互獨立,且都會直接影響第三個變數C。

    變數A與B是變數C的父節點,C為A與B的子節點。而變數W與這 三個變數獨立

    圖(b)中,從變數D到變數A(或B)有一條非直接的有向路徑存

    在,故節點D是節點A(或B)的祖先,而A(或B)是D的孫節點。

    前面所提的簡單貝氏分類法中的條件獨立,可繪製成圖(C)。其

    中 bj

    是目標類別,而{H1

    , …, Hr

    }是屬性集合。

    bj

    H1 H2 H3 H4 Hrw

  • 40國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))

    所有屬性都符合條件獨立的情況並不一定會成立

    將真的符合條件獨立的屬性區隔出來,而不符合條件的 獨立的屬性則保持相依的關係

    )|...(

    )|()|()|...(

    3

    21321

    jr

    jjjr

    bBHHP

    bBHPbBHPbBHHHHP

    =

    ×=×===

    II

    IIII

    bj

    H1 H2 H3 ∩…∩Hr

  • 41國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))

    貝氏網路的每個節點間之關聯性,會表現於機率表中。

    如果節點X沒有任何父節點,則表中僅包含事前機率P(X)

    如果節點X只有一個父節點Y,則表中將包含條件機率P(X|Y)

    如果節點X有多個父節點{Y1

    , Y2

    , …, Yk

    },則表中將包含條件機

    率P(X|Y1

    , Y2

    , …, Yk

    )

    下圖為一貝氏網路中某部分結構圖之機率表

    P(X4 =0)

    P(X5 =0|X4 =1)

    P(X2 =1|X5 =0∩X4 =1)

  • 42國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))

    上述每個機率表中的任一橫列之機率總和必為1。

    寫出機率表後就很容易將事情給條理化,且輕易地得知此貝氏網

    路結構圖中各節點間之因果關係。

    若是節點 是由很多的「因」所造成的「果」,如此機率表就會

    變得在計算上既複雜又使用不便。

    模式建立的兩個步驟:

    1.

    建立網路結構

    2.

    形成每個節點與節點關聯的機率表

  • 43國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))

    舉例:

    假設有兩個伺服器 (S1

    , S2

    ),會傳送封包到使用者端 (以U表示

    之),但是第二個伺服器的封包傳送成功率會與第一個伺服器傳 送成功與否有關,因此此貝氏網路的結構可以表示如下。

  • 44國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))

    就每個封包傳送而言,只有兩種可能值:T(成功) 或 F(失敗)。

    則此貝氏網路之聯合機率分配可以表示成:

    P(U∩S1

    ∩S2

    ) = P(U| S1

    ∩S2

    P(S2

    |S1

    P(S1

    )

    問題:假設已知使用者端成功接受到封包,求第一伺服器成功

    發送封包的機率 P(S1

    =T|U=T)?

  • 45國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))

    解:

    %96.68)07.06.0()13.06.0()13.04.0()17.04.0(

    )13.04.0()17.04.0()()(

    )()()()(

    )(

    )()(

    )()|(

    2121

    2121

    2121

    },{,21

    },{21

    11

    21

    2

    ≈××+××+××+××

    ××+××=

    ⎥⎦

    ⎤⎢⎣

    ⎡===+===

    +===+======+===

    =

    =

    ===

    ===

    ===

    ∑∑

    =

    =

    P

    TUFSFSPTUTSFSPTUFSTSPTUTSTSPTUFSTSPTUTSTSP

    TUSSP

    TUSTSPTUP

    TUTSPTUTSP

    FTSS

    FTS

    IIII

    IIII

    IIII

    II

    II

    I

    P(U = T∩S1 = T∩S2 = T)= P(U = T | S1 = T∩S2 = T) ×

    P(S2 = T | S1 = T) ×P(S1 = T)

  • 46國立聯合大學國立聯合大學 資訊管理學系資訊管理學系 機器學習課程機器學習課程 ((陳士杰陳士杰))

    貝氏信念網路的特性

    提供一個利用圖形模式從特定領域當中獲取知識的方法,而這個

    網路可以用來表示變數間的因果關係

    要建立一個網路也許需要耗費大量的時間;但網路模式建立後,

    就可很快的增加新變數

    適合用來處理不完整的資料問題。而如果資料本身具有遺漏值的

    話,也可以藉由彙整、或是整合所有屬性的可能值,來處理這個 問題

    貝氏網路的功能強大,然而相對於其他的機器學習方法,極耗電

    腦計算成本

    投影片編號 1■綱要■基礎機率論回顧先天機率理論(Priori Theory of Prob.)條件機率投影片編號 6投影片編號 7投影片編號 8聯合機率、邊際機率投影片編號 10投影片編號 11總合機率定理(Theorem of Total Prob.)投影片編號 13貝氏定理 (Bayes’ Theorem)投影片編號 15■單純貝氏分類 (Naïve Bayes)投影片編號 17投影片編號 18投影片編號 19投影片編號 20投影片編號 21利用單純貝氏分類法於貸款分類問題投影片編號 23投影片編號 24投影片編號 25投影片編號 26投影片編號 27單純貝氏分類法討論投影片編號 29投影片編號 30投影片編號 31■ Laplace Estimator以是否打網球之分類問題為例投影片編號 34■ m-estimate方法以是否打網球之分類問題為例投影片編號 37■貝氏信念網路 �(Bayesian Belief Networks; BBN)投影片編號 39投影片編號 40投影片編號 41投影片編號 42投影片編號 43投影片編號 44投影片編號 45投影片編號 46