ก...

74
กำหนดวิธีคลัสเตอร์ริ่ง วิธีการคลัสเตอร์ริ งที่อยู ่บนรากฐาน ของวิธีวัดความคล้ายคลึงกัน ระหว่าง Object ที่จะถูกแบ่งกลุ่ม

Upload: others

Post on 06-Aug-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

ก ำหนดวธคลสเตอรรง

วธการคลสเตอรรงทอยบนรากฐาน ของวธวดความคลายคลงกน

ระหวาง Object ทจะถกแบงกลม

Page 2: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

ตวอยาง

D2 =(0.2,0.7)

Page 3: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

threshold

กราฟทไดนนจะสอดคลองกบคาความคลายคลงทก าหนด เราเรยกวา threshold จะท าใหออปเจกต 2 ออปเจกตทมคาความคลายคลงกนมคาเทากนหรอมากกวาถกเชอมโยงเปนโหนด 2 โหนดในกราฟทมการเชอมโยงกน

Page 4: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

Graph Theoretic Method

แสดงสมประสทธของความคลายคลงกนของ 6 ออปเจกตทสามารถใชดงออปเจกตทมความคลายคลงกนได

Page 5: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

Single Link

เปนวธการคลสเตอรรงทท าใหเกด Hierarchic Cluster ซงใชการ

ค านวณคาความสมพนธของ Objects อลกอรทมนอยบนพนฐานของสมประสทธความไมคลายคลงกนของขอมลน าเขา (dissimilarity coefficient)

ผลลพธทไดเปนล าดบขน ของระดบตวเลขทมสวนรวมกน เรยกวา dendrogram ในลกษณะโครงสรางตนไม

(tree structure) ซงแตละโหนดแทนหนงคลสเตอร

Page 6: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

Single Link

Page 7: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

รปแสดงถง single-link clusters ทดงจากสมประสทธความไมคลายคลงกนจากการก าหนด thresholding

Page 8: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

Minimum Spanning Tree หรอ MST

ตนไมทไดจากสมประสทธความไมคลายคลงกนเหมอนกบ Single-link tree

ความแตกตางทเหนไดชดเจนคอ โหนดของ Single-linked

tree นน จะแทนคลสเตอร แต Minimum Spanning

Tree นนจะแทนออปเจกตแตละตวทถกรวมกลม

Page 9: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

Minimum Spanning Tree หรอ MST

คอตนไมทมความยาวในการเชอมโยงแตละออปเจกตทมคานอยทสด ซงความยาวนอาจเปนน าหนกของการเชอมโยงในตนไมนน

เราจะสามารถดง single-link hierarchy จากการประมวลผลของ thresholding กตามแตเราไมสามารถยอนกลบได ซง MST จะมประโยชนมากกวาในการเชอมโยงเพราะเปนอสระในการท างาน

Page 10: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

Minimum Spanning Tree หรอ MST

A B

C D

E

800

1421 400

200

410

612

2915310

A B

C D

E

200

410

612

310

Page 11: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

ตวอยาง

ชดเอกสารประกอบดวยเอกสาร D1, D2, D3 เอกสารแตละฉบบผานการตดค า (word segmentation) และดงค าหยดออกไป ดงนนเหลอค าส าคญดงน

Page 12: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

ตวอยาง

จากนนหาความถของค าทไมซ ากนในเอกสารแตละฉบบ

Page 13: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

ตวอยาง

Page 14: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

ค านวณน าหนกของแตละเอกสาร

)/log(* kikik nNtfw

log

Tcontain that in documents ofnumber the

collection in the documents ofnumber total

in T termoffrequency document inverse

document in T termoffrequency

document in term

nNidf

Cn

CN

Cidf

Dtf

DkT

kk

kk

kk

ikik

ik

Page 15: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

ตวอยาง

เวกเตอรเอกสารทงหมดแทนดวยเมตรกซ โดยแถวของเมตรกซคอเอกสารทงหมด และสดมภคอค าทไมซ ากนทงหมดในชดเอกสาร

เมตรกซเอกสารค า ใชเปน input ในขนตอนการจ ากลมเอกสารและ น าไปหาคาความคลายคลงของเอกสารคหนงๆได

Page 16: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

ค านวณหาความคลายคลงกน

Page 17: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

วธกำรคลสเตอรรง

จากค าอธบาย(Descriptions) ของ Object โดยตรง

Page 18: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

cluster representative

ซงเราเรยกวา cluster profile หรอ classification

vector หรอ centroid ไมมการวดความคลายคลงกน แตเกบโครงสรางทเหมาะสมโดยจ ากด

จ านวนของคลสเตอรและขนาดของแตละคลสเตอร สรปจากหลกเกณฑบางอยางเพอเปนตวแทนของออปเจกตในกลมซง

ตวแทนนจะมความใกลเคยงกบทกๆออปเจกตในคลสเตอรโดยเฉลยตามความรสก

Page 19: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

วธการคลสเตอรรงทกระท าไดจากค าอธบาย(Descriptions) ของ Object

ใช matching function บางครงเรยกวา similarity หรอ correlation function

อลกอรทมนจะใชพารามเตอรจากการสงเกต (empirically) อนไดแก • จ านวนของคลสเตอรทตองการ • ขนาดต าสดและขนาดสงสดของแตละคลสเตอร • คาของ threshold บน matching function ซงออปเจกตทมคาต ากวา

threshold ทก าหนดจะไมถกรวมในคลสเตอรน • การควบคมการซอนทบ(Overlap)ระหวางคลสเตอร . • พารามเตอรทเลอกอยางไมมกฎเกณฑจะถกปรบใหอยในระดบทใหผลทดทสด

การท างานของอลกอรทมนจะกระท าซ าๆ เพอใหไดผลลพธทเหมาะสมทสด

Page 20: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

Rocchio

วธของรอคชโอจะสรางตวแยกเอกสาร โดยคดน าหนกของเทอม

<w1,..wn> กบกลม ci ดวยสตรการค านวณ

Page 21: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

อลกอรทมของ Rocchio’s clustering

ระยะแรก เปนระยะทท าการเลอก ออปเจกตจ านวนหนงเปนศนยกลางของคลสเตอร ส าหรบออปเจกตทเหลอก าหนดใหเปนกลม rag-bag

กฎทก าหนดขนในเทอมของ thresholds บน matching

function คลสเตอรสดทายอาจจะมการซอนทบกน(overlap)

ระยะทสอง เปนการกระท าขนตอนซ าๆเพอทจะหาพารามเตอรน าเขา อาจเปน ขนาดของคลสเตอร

ระยะทสาม เปนเปนการพจารณา ออปเจกทเหลอทไมไดถกก าหนด และม

การขจดออปเจกตทมการซอนทบกนระหวางคลสเตอร ใหนอยลง

Page 22: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

Rocchio’s clustering

Page 23: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

Rocchio

Page 24: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

Single-Pass algorithm

ค าอธบายออปเจกตถกด าเนนการเปนล าดบ ออปเจกตตวแรกจะถกก าหนดใหเปนตวแทนคลสเตอรของคลสเตอรแรก ออปเจกตหลงจากนนจะถกจบคกบตวแทนคลสเตอรทงหมด ถาออปเจกตมการซอนทบกน จะมการก าหนดใหออปเจกตมคาตามเงอนไขบน

matching function เมอออปเจกตใดถกก าหนดเปนตวแทนของคลสเตอร จะมการค านวณใหม ถาออปเจกตใดพลาดจากการทดสอบ(test) จะน ากลบไปเปนตวแทนคลสเตอร

ส าหรบคลสเตอรใหม ซงการกระท าซ าๆน การจดกลมสดทายจะขนกบพารามเตอรขอมลเขาทเกดจาก

การก าหนดจากการสงเกตของความแตกตางของเซตออปเจกต

Page 25: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

Single-Pass algorithm

Page 26: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

K-means

ขนตอนวธการจดกลมโดยวธแบงกน(Partitioning) ระเบยนขอมลถกแบงกนเปนกลมทไมมสมาชกรวมกนเลย โดยใชการกนระหวางกลมดวยระยะทาง

Page 27: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

K-means

ก าหนดใหขอมล n ระเบยน แบงเปน K กลมทไมมสมาชกรวมกน วธการเกาะกลมโดยใชวธแบงกนมขนตอนดงน • แบงกลมขอมลเปน k กลมทไมใชเซตวาง • ค านวณจดกงกลาง(centroid) ของกลม โดยใชคาเฉลยเลขคณต

(mean) • ส าหรบแตละระเบยน น าระเบยนเทยบกบจดกงกลาง เพอก าหนดกลมใหกบ

ระเบยน โดยเลอกระยะจากระเบยนไปจดกงกลางทใกลทสด • วนซ าจนกระทงไมมการเปลยนกลมของระเบยน หรอครบจ านวนรอบสงสดท

ก าหนดไว

Page 28: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

ตวอยาง การท างานของขนตอนวธ k-mean

Page 29: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

ตวอยาง การท างานของขนตอนวธ k-mean

K-means clustering1 K-means clustering2

K-means clustering3

Page 30: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

k-mean

ขอด ประสทธภาพมคาเทากบ O(tkn) เมอ n คอจ านวนขอมล k คอจ านวนกลม t คอจ านวนรอบทตองวนซ า โดยปกตแลวคา k และ t จะนอยกวา n

ผลลพธทไดเปนผลเฉลยเฉพาะท(local optimal) ถาตองการผลเฉลยทใหคาทดทสด(global optimal) จ าเปนตองใชวธอนชวย

ขอเสย 1.ใชไดเฉพาะลกษณะประจ าทเปนจ านวน เพราะตองใชคาเฉลย 2. ตองมการก าหนดคา k กอนเรมขนตอนวธ 3. ถาขอมลผดปกตจะท าใหคาเฉลยมคาทมาก

หรอนอยเกนไป 4. ไมเหมาะกบขอมลทมลกษณะกลมทไมใช

เซตนน(non-convex shapes)

Page 31: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

PAM (Partitioning Around Medoids,1987)

เลอกขอมล k ตวใชเปนตวแทนขอมลอยางสม ส าหรบแตละคของขอมล h ทไมใช medoid กบ iทเปน

medoid ค านวณคาการสลบ TCih • ถา TCih<0 ใหแทน iดวย h กลาวคอมการเปลยนตวแทน

ท าซ าจนกระทงไมมการเปลยนกลมของ medoid อก

Page 32: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั
Page 33: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั
Page 34: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั
Page 35: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

Fuzzy C-means(FCM)

เปนอลกอรทมทยอมใหขอมลในแตละคลสเตอรมการซอนทบกนหรอซ ากนได

วธการนเปนการจดกลมทมใชอยางแพรหลายในงานดานตางๆเชนการแพทย วทยาศาสตร วศวกรรมศาสตร

โดยอาศยการใหคาการเปนสมาชกของขอมลตอกลมขอมลตางๆ การไดมาซงคาการเปนสมาชกสวนหนงมาจากการวดระยะทางระหวางขอมลและจดศนยกลางของกลมเหลานน

Page 36: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

Fuzzy C-means(FCM)

ขนตอนการท างานของฟซซซมน(fuzzy C-Means) ประกอบดวย ก าหนดกลมขอมลทตองการจดกลม เพอก าหนดคาเพอเปนเงอนไขในการให

ขอมลหยดการจดกลม() ก าหนดคาฟซซพารามเตอร (m) ซงตองมากกวาหนง และก าหนดจดศนยกลางเรมตนของขอมล

ค านวณคาการเปนสมาชกของขอมลตอกลมขอมลตางๆ ค านวณจดศนยกลางกลมขอมลใหมและตรวจสอบเงอนไขโดยตรวจสอบคาการ

เปนสมาชกใหมลบคาการเปนสมาชกกอนหนา ถาเงอนไขเปนจรงค านวณคาการเปนสมาชกและ objective function

ถาเงอนไขเปนเทจ ค านวณคาการเปนสมาชกจากจดศนยกลางลาสด(วนรอบ)

Page 37: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั
Page 38: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

Fuzzy C-means(FCM)

Page 39: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

วธการวดระยะทาง

Euclidean distance

EDji =

โดย EDji แทนระยะทางแบบยคลเดยนระหวางขอมล

X ท j และจดศนยกลางขอมล Z กลมท i และ T แทน Transpose matrix

Mahalanobis distance

MDji = โดย MDji แทนระยะทางแบบมหาลาโนบส ระหวางขอมล X ตวท j และจดศนยกลาง

ขอมล Z กลมท i A คอ variance-covariance matrix

ค านวณจากสมการดงน

A =

T

ijij ZXZX ))(( T

ijij ZXAZX )()( 1

1

)()(1

n

ZXZXn

j

ij

T

ij

Page 40: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั
Page 41: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

Hierarchical Clustering

Clustering เปนการเกาะกลมโดยระดบชน ซงระเบยนขอมลถกรวมกลมโดยการใชระดบชน (Hierarchical

decomposition) มการใช distance matrix เปนเงอนไขในการเกาะกลม

Page 42: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

Hierarchical Clustering

Page 43: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

Hierarchical Clustering

AGNES(Agglomerative) น าเสนอโดย Kaufmann และ Rousseeuw(1990) ใชวธการ Single-link และเมตรกซแสดงความตางของขอมล มการรวมจดทมความตางนอยทสดเขาดวยกน มการท าซ าโดยท าการรวมซงไมมการแยกออกจนกระทงสอดคลองเงอนไขการหยด ในกรณทเราท าไปไมหยดจะไดวาทกขอมลจะรวมอยกลมเดยวกน

Page 44: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

Hierarchical Clustering

DIANA(Divisive Analysis) น าเสนอโดย Kaufmann และ Rousseeuw(1990) ใชวธ Single-Link และเมตรกซแสดงความตางของขอมล เรมจากจดขอมลทกตวใหอยในกลมเดยวกน ท าซ า โดยแบงกลมใหญออกเปนกลมยอย หยดถาเงอนไขสอดคลองการหยด ถาไมมการตรวจสอบการหยด ขอมลแตละตวจะถกจดในกลมทตางกนหมด

Page 45: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

ขนตอนพนฐานของ Hierarchical algorithm

ก าหนดภายใน 1 เซตประกอบดวย N คลสเตอร และเมตรกซของความแตกตางมขนาด N*N ขนตอนท 1 เรมตนโดยการก าหนดแตละ item ให cluster ดงนนถาเราม N ไอเทม ตองม cluster จ านวน N คลสเตอรเหมอนกน เพอทจะบรรจ item ไดพอด อนญาตให ความแตกตางระหวางคลสเตอรเหมอนกบความแตกตางระหวางคลสเตอรทบรรจ item ขนตอนท 2 เมอพบ คลสเตอร 2 คลสเตอรทมความใกลเคยงกน ใหท าการรวมทงสองคลสเตอรเขา

ดวยกน ดงนนเราจะไดคลสเตอรเพยงคลสเตอรเดยว ขนตอนท 3 ค านวณความแตกตางระหวางคลสเตอรใหมและคลสเตอรเกาของแตละคลสเตอร ขนตอนท 4 ท าซ าขนตอนท 2 และ 3 จนกวาคลสเตอรทงหมด จะกลายเปนเพยงคลสเตอรเดยว

Page 46: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

integrated circuit using

hierarchical algorithm

Page 47: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

Single-Linkage Clustering

น าเมตรกทมความใกลเคยงกนมาแยกแถวและคอลมภออกจะเหนเปนคลสเตอรเดมกอนทจะน ามารวมกนเปนคลสเตอรใหม

เมตรกซ N*N ทมลกษณะทใกลเคยงกนคอ D =[d(i,j)] ซงภายในคลสเตอรนจะก าหนดล าดบของตวเลขเปน

0,1,2,…,(n-1) และ L(k) เปน level ของ k

clustering m จะแสดงถงตวเลขทตอเนองกนและความใกลเคยงกนระหวาง cluster (r) และ (s)

Page 48: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

Single-Linkage Clustering

ขนตอนท 1 เรมตนดวยการแยกคลสเตอรทม level L(0) =0 และเลขทอยในล าดบท m=0

ขนตอนท 2 หาคล าดบของคลสเตอรทมความแตกตางกนนอยทสด โดยทคล าดบจะขนอยกบ d[(r )(s)] = min d[(i )(j)] โดยทจะตองเปนคาทนอยทสดของคล าดบทงหมดของทกๆคลสเตอรทอยในนน

ขนตอนท 3 เพมเลขล าดบจาก m = m+1 และท าการรวมคลสเตอร (r ) และ (s) ใหเปนคลสเตอรเดยวกน เปนคลสเตอร m ใหม ก าหนด level ของคลสเตอรเปน L(m) = d[(r )(s)]

ขนตอนท 4 แกไข proximity เมตรกซ D โดยตดแถวและคอลมภทตรงกนของคลสเตอร (r ) และ (s) ออกและท าการเพมแถวและคอลมภทตรงกนนไปยงคลสเตอรใหม ความใกลเคยงกนระหวางคลสเตอรใหม denoted(r,s) และคลสเตอร (k) เกาสามารถนยามไดใหมดงน d[(k )(r,s)] = min d[(k )(r), d[(k )(s)]

ขนตอนท 5 ถามเพยงคลสเตอรเดยว ใหจบการค านวณแตถาไม กใหท าซ าตงแตขนตอนท 2-5

Page 49: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั
Page 50: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั
Page 51: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

ตวอยาง Single-Linkage Clustering

การใช Hierarchical clustering ในการหาระยะทางระหวางเมองตางๆ โดยระยะทางมหนวยเปนกโลเมตร ภายในประเทศอตาล

Page 52: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

Input distance matrix โดยทกๆคลสเตอรมคา L=0

BA FI MI NA RM TO

BA 0 662 877 255 412 996

FI 662 0 295 468 268 400

MI 877 295 0 754 564 138

NA 255 468 754 0 219 869

RM 412 268 564 219 0 669

TO 996 400 138 869 669 0

Page 53: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

หาเมอง 2 เมองทมระยะใกลทสด

BA FI MI NA RM TO

BA 0 662 877 255 412 996

FI 662 0 295 468 268 400

MI 877 295 0 754 564 138

NA 255 468 754 0 219 869

RM 412 268 564 219 0 669

TO 996 400 138 869 669 0

เมองสองเมองทมระยะทางใกลกนทสดคอเมอง MI และ TO ซงมระยะทางหางกน 138 กโลเมตร ท าการรวมเมองทงสองเขาดวยกนเปนคลสเตอรเดยวกนคอ MI/TO เพราะฉะนน Level ของคลสเตอรใหมนมคาเทากบ L(MI/TO) = 138 และคา m= 1

Page 54: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

ค านวณหาระยะทางของเมองอนๆโดยรอบกฎอยวา ถาบรเวณโดยรอบออปเจกซนนมคาเทากนหรอนอยกวาแตตองนอยทสดของระยะทางของสมาชกอนๆในคลสเตอรดงนน จงเลอกระยะทางจากเมอง MI/TO ถง RM มระยะทาง 564 กโลเมตร ซงเปนระยะทางจากเมอง MI ถง RM

BA FI MI/TO NA RM

BA 0 662 877 255 412

FI 662 0 295 468 268

MI/TO 877 295 0 754 564

NA 255 468 754 0 219

RM 412 268 564 219 0

Page 55: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

ซง min d(i,j) = d(NA,RM) = 219 จะน า NA และ RM มารวมเขาดวยกนเปนคลสเตอรใหม เรยกวา NA/RM โดยมคา L(NA/RM) = 219 และ m =2

BA FI MI/TO NA/RM

BA 0 662 877 255

FI 662 0 295 268

MI/TO 877 295 0 564

NA/RM 255 268 564 0

Page 56: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

ซง min d(i,j) = d(BA,NA/RM) = 255จะน า BA และ NA/RM มารวมกนจะไดเปนคลสเตอรใหม เรยกวา BA/NA/RM โดยมคาL(BA/NA/RM)=255และm= 3

BA/NA/RM FI MI/TO

BA/NA/RM 0 268 564

FI 268 0 295

MI/TO 564 295 0

Page 57: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

ซง min d(i,j) = d(BA/NA/RM.FI) = 268 จะน า BA/NA/RM และ FI มารวมกนจะไดเปนคลสเตอรใหม เรยกวา BA/NA/RM/FI

โดยมคา L(BA/NA/RM/FI) = 268 และ m = 4

BA/NA/RM/FI MI/TO

BA/NA/RM/FI 0 295

MI/TO 295 0

Page 58: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

สดทายเราจะท าการรวม 2 คลสเตอรสดทายได level = 295

สามารถเขยนเปน hierarchical tree ไดดงน

Page 59: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

Genetic Algorithm

ถกคดคนขนโดย John Holland ในปค.ศ. 1975 เปนการน าขบวนการววฒนาการของสงมชวตมาประยกตใชในงานปญญาประดษฐ เพอใชส าหรบหาค าตอบทดทสด(Optimization) ของปญหาตางๆจากจ านวนค าตอบทเปนไปไดทงหมดของการแกปญหานน

Page 60: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

Genetic Algorithm

รปแบบโครโมโซมทใชในการน าเสนอทางเลอกทสามารถจะเปนไดของแตละปญหา

วธสรางประชากรตนก าเหนดของทางเลอกทสามารถจะเปนไปได ฟงกชนส าหรบประเมนคาความเหมาะสมเพอใหคะแนนแตละทางเลอก จเนตกโอเปอเรเตอรซงใชในการปรบเปลยนองคประกอบของขอมลตลอด

กระบวนการ ไดแก การคดเลอก การครอสโอเวอร และการมวเตชน คาพารามเตอรตางๆทตองใชส าหรบจเนตกอลกอรทม เชน ขนาดของ

ประชากร ,ความนาจะเปนของการใชจเนตกโอเปอเรอเตอร และจ านวนรนเปนตน

Page 61: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

Biological Chromosomes were the

incentive for Genetic Algorithms

Page 62: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

ตวอยาง การคนคนสารสนเทศโดยใชจเนตกอลกอรทม

สมมตมเอกสาร 5 ฉบบประกอบดวยค าส าคญดงน

DOC1 ={Database, Query, Data Retrieval ,

Computer,Network, DBMS}

DOC2={Artificial Intelligence, Internet, Indexing, Natural

Language Processing}

DOC3={Database , Expert System, Information Retrieval

System, Multimedia}

DOC4={Fuzzy Logic, Neural Network, Computer Networks}

DOC5-{Object-Oriented, DBMS , Query ,Indexing}

Page 63: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

น าค าส าคญทงหมดมาจดเรยงล าดบจากนอยไปมากรวม 16 ค าดงน

Artificial Intelligence

Computer Network

Data Retrival

Database

DBMS

Expert System ,

Fuzzy Logic

Indexing

Information Retrieval System

Internet

Multimedia

Natural Language Processing

Neural Network

Object Oriented

Query Relational Database

DOC1 ={Database, Query, Data Retrieval ,

Computer,Network, DBMS}

DOC2={Artificial Intelligence, Internet, Indexing,

Natural Language Processing}

DOC3={Database , Expert System, Information

Retrieval System, Multimedia}

DOC4={Fuzzy Logic, Neural Network, Computer

Networks}

DOC5={Object-Oriented, DBMS , Query ,Indexing}

น าเสนอรปแบบโครโมโซมดงน

DOC1=0110100000000011

DOC2=1000000101010000

DOC3=0001010010100000

DOC4=0100001000001000

DOC5=0000100100000110

Page 64: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

Genetic Algorithm

โครโมโซมชดแรกทไดมานจะเรยกวาประชากรตนก าเนด ซงจะน าไปผานกระบวนการจแนตกตอไป ความยาวของโครโมโซมเหลานจะขนอยกบจ านวนค าส าคญของชดเอกสารทงหมดทตรงตามขอเรยกรอง(query) จากตวอยางนมความยาวเทากบ 16 บต

จเนตกอลกอรทม จะท าเปนวฏจกรหมนเวยนอยจนกระทงถงจดหนงทตรงตามเงอนไขตามทก าหนด หรอสนสดเมอพบค าตอบทดทสดแลว หรอถง threshold ตามทไดก าหนดไวลวงหนา

Page 65: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

Traveling Salesman Problem - Genetic Algorithm Finds a near-optimal solution

Page 66: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั
Page 67: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

การจ าแนกหมวดหมเอกสารภาษาไทยอตโนมตโดยใชอลกอรทม FPTC

ภาควชาวทยาการคอมพวเตอรและสารสนเทศ บณฑตวทยาลย สถาบนเทคโนโลยพระจอมเกลาพระนครเหนอ

Page 68: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

วตถประสงค

เพอพฒนาเครองมอในการจ าแนกหมวดหมเอกสารขอความภาษาไทยดวยอลกอรทม Feature Projection Text Categorization (FPTC)

ซงเปนอลกอรทมทปรบมาจาก k-Nearest Neighbor ลกษณะเดนของ FPTC คอ การแทนคณลกษณะในแบบภาพฉายของแตละคณลกษณะ

การจ าแนกหมวดหมจะใชวธการเปรยบเทยบความคลายของค าทปรากฏในเอกสารทใชทดสอบกบค าทปรากฏในเอกสารทใชในกระบวนการเรยนร เพอหาเอกสารทคลายกบเอกสารทดสอบมากทสด และก าหนดหมวดหมของเอกสารนนใหกบเอกสารทดสอบ

ใชเอกสารขาวภาษาไทยจากหนงสอพมพออนไลนเปนกรณศกษา จากผลการทดสอบพบวา การจ าแนกหมวดหมดวยอลกอรทม FPTC สามารถจ าแนกหมวดหม

เอกสารภาษาไทยไดอยางมประสทธผลด ส าหรบขอมลทมการกระจายตวของหมวดหมเทากน

Page 69: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

อลกอรทม Feature Projection Text

Categorization (FPTC)

กระบวนการเรยนรเอกสารทงหมดพรอมกนเพยงครงเดยว เอกสารทงหมดจะถกเกบในลกษณะของภาพฉาย

(Projections) บนแตละ คณลกษณะของเอกสาร เอกสารทไมมคณลกษณะใดจะไมถกเกบบน

คณลกษณะนน ระยะหาง ระหวางเอกสารสองเอกสารกจะถกพจารณาบนคณลกษณะเดยว

Page 70: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

ระยะหางระหวางเอกสารค านวณดงน

Page 71: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

การแทนเอกสารในรปแบบเวกเตอร

Page 72: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

การแทนคณลกษณะในรปแบบภาพฉายของคณลกษณะ

Page 73: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

ขนตอนของการจ าแนกหมวดหม

Page 74: ก ำหนดว·ธ¸คลัสเตอร์ร่งinstructor.ru.ac.th/urai/cos4351/cos4351_6.pdf · Minimum Spanning Tree หรือ MST ตน้ไมท้ี่ไดจ้ากสัมประสิทธ์ิความไม่คลา้ยคลึงกนัเหมือนกบั

ปญหาอปสรรคในการท าวจย

การตดค าภาษาไทยไมถกตองมผลอยางมากตอความถกตองในการจ าแนกเอกสาร

การเขยนขาวภาษาไทยมการใชศพทแสลงหรอส านวนเปนจ านวนมาก ค าทใชในหมวดหมหนงอาจมความหมายทแตกตางไปส าหรบอกหมวดหมหนง ซงมผลท าใหจ าแนกเอกสารไดไมถกตอง

เชน ขาวในหมวดหมอาชญากรรมพบค าวา บก ยง ทะล จากประโยคตวอยางทวา “ผรายบกยงเหยออยางอกอาจ กระสนทะลทายทอยหนงนด แลวยงตามแทงซ านบสบแผล”

ขาวในหมวดกฬา กพบค าเดยวกนในความหมายของค าแสลงในประโยคทวา “ผแดงบกทะลทะลวงกองหนาสารกาดง ยงกระหน า 3 ตอ 0” เปนตน