dobývání dat a strojové učení - sorry.vse.czberka/docs/4iz450/ml-prednaska-4iz... ·...

Dobývání dat a strojové učení

Dobývání znalostí z databází (Knowledge discovery in databases)

„Non-trivial process of identifying valid, novel, potentially useful and ultimately understandable patterns from data.“ (Fayyad a kol., 1996)

„Analysis of observational data sets to find unsuspected relationships and summarize data in novel ways that are both understandable and useful to the data owner.” (Hand, Manilla, Smyth, 2001)

Dobývání znalostí z databází – metodika CRISP-DM

Porozuměníproblematice

Porozuměnídatům

Příprava dat

Modelování

Vyhodnocenívýsledků

Využití výsledkůDATA

dobývání dat (data mining)

Strojové učení (Machine Learning)

„The field of machine learning is concerned with the question of how to construct computer programs that automatically improve with experience.“

(Mitchell, 1997)

„Things learn when they change their behavior in a way that makes them perform better in a future.“

(Witten, Frank, 1999)

Strojové učení a dobývání dat

učení se dovednostem

empirické učení se konceptům

analytické učení se konceptům

statistické metody analýzy dat

databázové techniky

Metody učení

učení zapamatováním (rote learning neboli biflování)

učení se z instrukcí (learning from instruction, learning by being told)

učení se z analogie (learning by analogy, instance-based learning, lazy learning)

učení na základě vysvětlení (explanation-based learning)

učení se z příkladů (learning from examples)

učení se z pozorování a objevováním (learning from observation and discovery)

Informace o správnosti učení

příklady zařazené do tříd (učení s učitelem - supervised learning)

odměny za správné chování a tresty za chování nesprávné (reinforcement learning)

nepřímé náznaky odvozené s chování učitele (apprenticeship learning)

žádné (učení bez učitele - unsupervised learning)

Další členění …

reprezentace příkladů

atributy: kategoriální (binární, nominální, ordinální) a numerické

barva_vlasu(cerna) & vyska(180) & vousy(ano) & vzdelani(VS)

relace

otec(jan_lucembursky, karel_IV)

režim učení

dávkový

inkrementální

Úloha empirického učení z dat (1/3)

Analyzovaná data

m n2 n1 n

m 22 21 2

m 12 11 1

x......xx

m n2 n1 n

m 22 21 2

m 12 11 1

x......xx

Klasifikační úloha: hledáme znalosti (reprezentované rozhodovací funkcí f) f: x y, která pro hodnoty vstupních atributů x nějakého objektu odvodí hodnotu cílového atributu ŷ = f (x).

V průběhu klasifikace jednoho objektu se můžeme dopustit chyby Qf(oi, ŷi):

Q y = (y - yf i i i( , ) )oi2 Q y =

0 y = yf i

Pro celou trénovací množinu DTR pak můžeme vyčíslit souhrnnou chybu Err(f,DTR), např. jako

Err(f,D = 1

nQ yTR f

i) ( , )o i

Cílem učení je nalézt takové znalosti f*, které by minimalizovaly tuto chybu

)DErr(f, min )D,Err(f TRf

Ilustrační příklad

údaje o osobách - klientech banky, kterým banka půjčuje na základě informací o jejich příjmech a výši konta

Empirické učení se konceptům

objekty, patřící do téže třídy mají podobné charakteristiky (učení na základě podobnosti)

z konečného počtu příkladů odvozujeme obecné znalosti (induktivnost)

Metody strojového učení

tvorba rozhodovacích stromů

tvorba rozhodovacích pravidel

tvorba asociačních pravidel

neuronové sítě

genetické algoritmy

bayesovské sítě

učení založené na analogii

Strojové učení jako …

… prohledávání

hledáme strukturu i parametry modelu

… aproximace

hledáme parametry modelu

Uspořádání modelů

MGM -Nejobecnější model (jeden shluk pro všechno)

M1 obecnější než M2

M2 je speciálnější než M1

MSM - Nejspeciálnější model(y) (co příklad to shluk)

1159755215521)(

1054321

1)0(),(1

Způsoby prohledávání

Směr shora dolů

zdola nahoru

Strategie slepé

heuristické

náhodné

Šíře jednoduché

paralelní

Aproximace

na základě konečného počtu bodů [xi ,yi] se snažíme určit parametry předpokládané rozhodovací funkce y=f(x)

ii xfydq

Metoda nejmenších čtverců:

hledání minima souhrnné chyby

min i (yi - f(xi)) 2

se převádí na řešení rovnice

Aproximace (2/2) Analytické řešení (známe typ funkce) řešení soustavy rovnic pro parametry funkce

regrese

Numerické řešení (neznáme typ funkce) gradientní metody

Err(q) =

Errη- Δq

Err,...,

Modifikace znalostí q = [q0, q1, ..., qQ] pak probíhá jako qj qj + qj

Rozhodovací stromy (prohledávání)

směr shora dolů (TDIDT) jednoduché heuristické

ID3, C4.5 (Quinlan), CART (Breiman a kol.)

paralelní heuristické Option trees (Buntine), Random

forrest (Breiman)

náhodné

paralelní použití genetického programování

směr zdola nahoru jen jako doplněk v rámci prořezávání

Rozhodovací pravidla (pokrývání množin jako prohledávání)

směr shora dolů paralelní heuristické

CN2 (Clark, Niblett), CN4 (Bruha)

směr zdola nahoru jednoduché heuristické

Find-S (Mitchell)

paralelní heuristické AQ (Michalski)

náhodné paralelní

GA-CN4 (Králík, Bruha)

IF Příjem(nízký) THEN

IF Příjem(nízký)

AND Konto(nízké) THEN

Asociační pravidla (generování jako prohledávání shora dolů)

kombinace

1n 2n 3m

1n 2n 3m 4a

1n 2n 3m 4a 5a

1n 2n 3m 4a 5n

1n 2n 3m 4n

1n 2n 3m 4n 5a

1n 2n 3m 4n 5n

1n 2n 3m 5a

1n 2n 3m 5n

do hloubky do šířky Apriori (Agrawal),

LISp-Miner (Rauch)

heuristicky KAD (Ivánek,

Stejskal)

kombinace 5a

1v 1n 4a

4n 5a 1v 5a

kombinace

Vícevrstvý perceptron (aproximace)

Backpropagation algoritmus

1. inicializuj váhy sítě malými náhodnými čísly 2. dokud není splněno kritérium pro zastavení 2.1 pro každý příklad [x, y] z trénovacích dat 2.1.1. spočítej výstup outu pro každý neuron u 2.1.2 pro každý neuron v ve výstupní vrstvě

spočítej chybu errorv = outv (1 - outv) (yv - outv) 2.1.3 pro každý neuron s ve skryté vrstvě

spočítej chybu errors = outs (1 - outs) v výstup (ws,v errorv )

2.1.4 pro každou vazbu vedoucí z neuronu j do neuronu k modifikuj váhu vazby

wj,k = wj,k + wj,k , kde wj,k = errork xj,k

Genetické algoritmy (paralelní náhodné prohledávání) Genetický algoritmus

1. náhodně vytvoř populaci P(0) velikosti N a urči hodnoty funkce fit 2. dokud není splněna podmínka pro zastavení

2.1. vyber z P(t) jedince kteří se přímo přenesou do P(t+1)

2.2.1. vyber z P(t) dvojice jedinců určených k reprodukci 2.2.2. aplikuj na každou dvojici křížení a zařaď potomky do P(t+1)

2.3.1. vyber z P(t) jedince určené k mutaci 2.3.2. aplikuj na každého jedince mutaci a zařaď do P(t+1)

2.4. spočítej pro každého jedince v P(t+1) hodnotu funkce fit 2.5. přiřaď t:= t + 1

3. vrať jedince s nejvyšší hodnotu fit

Bayesovské metody Naivní bayesovský

klasifikátor (aproximace)

),...,|( 1EP

Bayesovská síť

(prohledávání, aproximace)

iin urodičeuPuuP1

1 ))(|(),...,(

Učení založené na instancích

volba instancí pro uložení do databáze žádné prohledávání

IB1 (Aha)

jednoduché heuristické shora dolů IB2, IB3 (Aha)

shlukování (a hledání centroidů) jednoduché heuristické prohledávání

shora dolů (divisivní)

zdola nahoru (aglomerativní)

aproximace K-NN

10 nej …. algoritmy

C4.5 rozhodovací stromy

K-Means shlukování

SVM neuronové sítě

Apriori asociační pravidla

EM pravděpodobnostní

PageRank web

AdaBoost kombinování modelů

kNN instance

Naive Bayes pravděpodobnostní

CART rozhodovací stromy

Závěr

neexistuje „nejlepší“ algoritmus, který bude dosahovat nejvyšší správnosti klasifikace pro libovolnou úlohu (no free lunch)

potřebujeme další informace

porozumění úloze

porozumění datům

Porozuměníproblematice

Porozuměnídatům

Příprava dat

Modelování

Vyhodnocenívýsledků

Využití výsledkůDATA

Učení a adaptace

Adaptivní inteligentní

systémy

schopnost přizpůsobit se změnám prostředí,

schopnost přizpůsobit se novým podmínkám

využívání,

schopnost přizpůsobit se nové aplikaci.

[IST-2000-29270 Projekt EUNITE]

Dávkové učení

Dávkové

učení

Inkrementální učení

Inkrementální

učení

starý model

nový model

příklad

Integrování znalostí na

úrovni usuzování

učení

kombinacedata

Bagging

Boosting

Stacking

(Bauer, Kohavi, 1999),

(Diettrich, 2000)

Integrování znalostí na

úrovni reprezentace (1/2)

Integrace

znalostí

starý

model 1

starý

model z

nový model

. . . . . .

Integrace/Revize znalostí

Integrace/

Revize

znalostí

nová data

nový model

starý

Integrace znalostí

starý model je doplněn

(dávkově inkrementální

postup)

Revize znalostí

starý model je změněn

Učení a zapomínání

POS POT NEG

učení

zapomínání

s učitelem

FLORA (Widmer, Kubát, 1996)

STAGGER (Schlimmer, Granger, 1986)

bez učitele

COBWEB (Fisher, 1987)

Koncepty závislé na

kontextu

Kontext

situace, ve které získáváme data

relevantní atributy, které nejsou v současnosti

dostupné

atributy, které samy o sobě nepřispívají ke

klasifikaci ale které zlepšují výsledky klasifikace v

kombinaci s jinými atributy

(Matwin, Kubát, 1996)

dobývání dat a strojové učení - sorry.vse.czberka/docs/4iz450/ml-prednaska-4iz... ·...

Documents

text mining -...

new concepts in data mining -...

Řízení znalostí v systémech bim knowledge management in...

chapter 1:...

nÁvrh a implementace automatizovanÉho ...na základě...

very concise introduction bph pis2 (mph aoma) · very...

prague college v kostce€¦ · 6 | prague college »...

sas enterprise miner 5 -...

machine learning -...

dobývání znalostí z...