minggu 6 clustering.pdf

37
!"# $ % & ’(

Upload: vuongngoc

Post on 17-Jan-2017

223 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Minggu 6 Clustering.pdf

ClusteringAli Ridho Barakbah

Soft Computation Research Group, EEPIS-ITS

Workshop Data Mining18-20 Juli 2006

Jurusan Teknologi InformasiPoliteknik Elektronika Negeri Surabaya

Page 2: Minggu 6 Clustering.pdf

What is cluster?

a collection of objects which are “similar” between them and are

Soft Computation Research Group, EEPIS-ITS

“dissimilar” to the objects belonging to other clusters

http://www.elet.polimi.it/upload/matteucc/Clustering/tutorial_html/index.html

Page 3: Minggu 6 Clustering.pdf

What is clustering?

the process of organizing objects into groups whose members are

Soft Computation Research Group, EEPIS-ITS

into groups whose members are similar in some way

http://www.elet.polimi.it/upload/matteucc/Clustering/tutorial_html/index.html

Page 4: Minggu 6 Clustering.pdf

Ilustrasi clustering

?clustering

Soft Computation Research Group, EEPIS-ITS

?

Page 5: Minggu 6 Clustering.pdf

Ilustrasi clustering

Soft Computation Research Group, EEPIS-ITS

Similaritas berdasarkan warna

Page 6: Minggu 6 Clustering.pdf

Ilustrasi clustering

Soft Computation Research Group, EEPIS-ITS

Similaritas berdasarkan bentuk

Page 7: Minggu 6 Clustering.pdf

Ilustrasi clustering

Soft Computation Research Group, EEPIS-ITS

Similaritas berdasarkan jarak

Page 8: Minggu 6 Clustering.pdf

Clustering vs Classification

Classification Clustering

Data supervised unsupervised

Soft Computation Research Group, EEPIS-ITS

Data supervised unsupervised

Label Ya Tidak

Analisa hasil Error ratio Variance

Page 9: Minggu 6 Clustering.pdf

Classification(kasus sederhana)

Umur Kegemukan Hipertensi

muda gemuk Tidak

Data penyakit hipertensi

label

Soft Computation Research Group, EEPIS-ITS

muda sangat gemuk Tidak

paruh baya gemuk Tidak

paruh baya terlalu gemuk Ya

tua terlalu gemuk Ya

Supervised data

Page 10: Minggu 6 Clustering.pdf

Penyelesaian dengan Decision Tree

Gemuk?gemuk sangat

gemuk

terlalugemuk

Soft Computation Research Group, EEPIS-ITS

Tidak Tidak Ya

Page 11: Minggu 6 Clustering.pdf

Classification(kasus sederhana)

Kegemukan

sangat

terlalugemuk

ya

Soft Computation Research Group, EEPIS-ITS

Umurmuda paruh baya

gemuk

gemuk

tua

tidak

Data penyakit hipertensi

Page 12: Minggu 6 Clustering.pdf

Clustering(kasus sederhana)

Umur Kegemukan

muda gemuk

Data penyakit hipertensi

tidak ada

Soft Computation Research Group, EEPIS-ITS

muda sangat gemuk

paruh baya gemuk

paruh baya terlalu gemuk

tua terlalu gemuk

Unsupervised data

label

Page 13: Minggu 6 Clustering.pdf

Clustering(kasus sederhana)

Kegemukan

sangat

terlalugemuk

Soft Computation Research Group, EEPIS-ITS

Umurmuda paruh baya

gemuk

gemuk

tua

Data penyakit hipertensi

Dikelompokkan dengan cara (algoritma) tertentu berdasarkan similaritas tertentu

Page 14: Minggu 6 Clustering.pdf

Karakteristik clustering

• Partitioning clustering• Hierarchical clustering

Soft Computation Research Group, EEPIS-ITS

• Overlapping clustering• Hybrid

Page 15: Minggu 6 Clustering.pdf

Partitioning clustering

• Disebut juga exclusive clustering• Setiap data harus termasuk ke cluster tertentuMemungkinkan bagi setiap data yang

Soft Computation Research Group, EEPIS-ITS

• Memungkinkan bagi setiap data yang termasuk cluster tertentu pada suatu tahapan proses, pada tahapan berikutnya berpindah ke cluster yang lain

• Contoh: K-means, residual analysis

Page 16: Minggu 6 Clustering.pdf

Overlapping clustering

• Setiap data memungkinkan termasuk ke beberapa cluster

• Data mempunyai nilai keanggotaan

Soft Computation Research Group, EEPIS-ITS

Data mempunyai nilai keanggotaan (membership) pada beberapa cluster

• Contoh: Fuzzy C-means, Gaussian Mixture

Page 17: Minggu 6 Clustering.pdf

Hierarchical clustering

• Setiap data harus termasuk ke cluster tertentu

• Suatu data yang termasuk ke cluster tertentu pada suatu tahapan proses, tidak

Soft Computation Research Group, EEPIS-ITS

tertentu pada suatu tahapan proses, tidak dapat berpindah ke cluster lain

• Contoh: Single Linkage, Centroid Linkage, Complete Linkage, Average Centroid

Page 18: Minggu 6 Clustering.pdf

Hybrid

Mengawinkan karakteristik dari partitioning, overlapping dan

Soft Computation Research Group, EEPIS-ITS

partitioning, overlapping dan hierarchical

Page 19: Minggu 6 Clustering.pdf

Algoritma-algoritma clustering

• K-means• Single Linkage• Centroid Linkage

Soft Computation Research Group, EEPIS-ITS

Centroid Linkage• Complete Linkage• Average Linkage• dll

Page 20: Minggu 6 Clustering.pdf

K-means

• Termasuk partitioning clustering yang memisahkan data ke k daerah bagian yang terpisah

• K-means algorithm sangat terkenal karena kemudahan dan kemampuannya untuk mengklaster data besar dan data outlier dengan

Soft Computation Research Group, EEPIS-ITS

mengklaster data besar dan data outlier dengan sangat cepat

• Setiap data harus termasuk ke cluster tertentu• Memungkinkan bagi setiap data yang termasuk cluster tertentu pada suatu tahapan proses, pada tahapan berikutnya berpindah ke cluster yang lain

Page 21: Minggu 6 Clustering.pdf

Algoritma K-means1. Tentukan k sebagai jumlah cluster yang ingin

dibentuk2. Bangkitkan k centroids (titik pusat cluster) awal

secara random3. Hitung jarak setiap data ke masing-masing

centroids

Soft Computation Research Group, EEPIS-ITS

centroids4. Setiap data memilih centroids yang terdekat5. Tentukan posisi centroids baru dengan cara

menghitung nilai rata-rata dari data-data yang memilih pada centroid yang sama

6. Kembali ke langkah 3 jika posisi centroids baru dengan centroids lama tidak sama.

Page 22: Minggu 6 Clustering.pdf

Algoritma K-means

Soft Computation Research Group, EEPIS-ITS

Page 23: Minggu 6 Clustering.pdf

Karakteristik K-means

• K-means sangat cepat dalam proses clustering• K-means sangat sensitif pada pembangkitan centroids awal secara random

• Memungkinkan suatu cluster tidak mempunyai anggota

Soft Computation Research Group, EEPIS-ITS

anggota• Hasil clustering dengan K-means bersifat tidak unik (selalu berubah-ubah) - terkadang baik, terkadang jelek.

• K-means sangat sulit untuk mencapai global optimum

Page 24: Minggu 6 Clustering.pdf

Ilustasi kelemahan K-means

Soft Computation Research Group, EEPIS-ITS

Page 25: Minggu 6 Clustering.pdf

Hierarchical clustering

• Single Linkage• Centroid Linkage

Soft Computation Research Group, EEPIS-ITS

• Complete Linkage• Average Linkage

Page 26: Minggu 6 Clustering.pdf

Direction of hierarchy

• Divisive– 1 cluster to k clusters– Top to down division

Soft Computation Research Group, EEPIS-ITS

Top to down division• Agglomerative

– N clusters to k clusters– Down to top merge

Page 27: Minggu 6 Clustering.pdf

Algoritma Hierarchical clustering

1. Tentukan k sebagai jumlah cluster yang ingin dibentuk

2. Setiap data dianggap sebagai cluster. Kalau N=jumlah data dan n=jumlah cluster, berarti ada n=N

Soft Computation Research Group, EEPIS-ITS

ada n=N.3. Hitung jarak antar cluster4. Cari 2 cluster yang mempunyai jarak antar

cluster yang paling minimal dan gabungkan (berarti n=n-1)

5. Jika n>k, kembali ke langkah 3

Page 28: Minggu 6 Clustering.pdf

Algoritma Hierarchical clustering

54

3

54

3

54

3

Soft Computation Research Group, EEPIS-ITS

1 2

1 2

1 2 1 2

3 4 5 1 2 3 4 5 1 2 3 4 5

Page 29: Minggu 6 Clustering.pdf

Similarity between clusters?

• Single Linkage� Minimum distance between cluster

• Centroid Linkage � Centroid distance between cluster

Soft Computation Research Group, EEPIS-ITS

� Centroid distance between cluster• Complete Linkage � Maximum distance between cluster

• Average Linkage � Average distance between cluster

Page 30: Minggu 6 Clustering.pdf

Pengukuran jarak10

9

8

7

6

cluster 2Berapa jarak cluster 1 ke cluster 2

6

54

Soft Computation Research Group, EEPIS-ITS

0 1 2 3 4 5 6 7 8 9 10

5

4

3

2

1cluster 1

cluster 2

?1

3

2

Page 31: Minggu 6 Clustering.pdf

Single Linkage10

9

8

7

6

cluster 2Jarak cluster 1 ke cluster 2

6

54

Soft Computation Research Group, EEPIS-ITS

0 1 2 3 4 5 6 7 8 9 10

5

4

3

2

1 cluster 1

=Jarak data 3 ke

data 41

3

2

Page 32: Minggu 6 Clustering.pdf

Centroid Linkage10

9

8

7

6

cluster 2Jarak cluster 1 ke

cluster 2

6

54

centroid cluster 2

centroid

Soft Computation Research Group, EEPIS-ITS

0 1 2 3 4 5 6 7 8 9 10

5

4

3

2

1 cluster 1

=Jarak centroid cluster 1 ke

centroid cluster 21

3

2

centroid cluster 1

Page 33: Minggu 6 Clustering.pdf

Complete Linkage10

9

8

7

6

cluster 2Jarak cluster 1 ke cluster 2

6

54

Soft Computation Research Group, EEPIS-ITS

0 1 2 3 4 5 6 7 8 9 10

5

4

3

2

1 cluster 1

=Jarak data 1 ke

data 61

3

2

Page 34: Minggu 6 Clustering.pdf

Average Linkage10

9

8

7

6

cluster 2 Jarak cluster 1ke cluster 2

=∑Jarak antar data

6

54

Soft Computation Research Group, EEPIS-ITS

0 1 2 3 4 5 6 7 8 9 10

5

4

3

2

1 cluster 1

-------------------------n x m

Dimana:n=jumlah data pada cluster 1m=jumlah data pada cluster 21

3

2

Page 35: Minggu 6 Clustering.pdf

Hierarchical Clustering & Dataset• Single Linkage

Metode ini sangat cocok untuk dipakai pada kasus shape independent clustering, karena kemampuannya untuk membentuk pattern tertentu dari cluster. Untuk kasus condensed clustering, metode ini tidak bagus.

• Centroid LinkageMetode ini baik untuk kasus clustering dengan normal data set distribution. Akan tetapi, metode ini tidak cocok untuk data yang mengandung outlier.

Soft Computation Research Group, EEPIS-ITS

Akan tetapi, metode ini tidak cocok untuk data yang mengandung outlier.

• Complete LinkageMetode ini sangat ampuh untuk memperkecil variance within cluster karena melibatkan centroid pada saat penggabungan antar cluster. Metode ini juga baik untuk data yang mengandung outlier.

• Average LinkageMetode ini relatif yang terbaik dari metode-metode hierarchical. Namun, ini harus dibayar dengan waktu komputasi yang paling tinggi dibandingkan dengan metode-metode hierarchical yang lain.

Page 36: Minggu 6 Clustering.pdf

Penghitungan jarak(Euclidian distance)

50

40

30 a )()( 22

22

222

+=

+=

cba

cba

Soft Computation Research Group, EEPIS-ITS

30

20

10

0 10 20 30 40 50

a

bc

31.6281000

100900

)10()30(

)2030()1040(22

22

==

+=

+=

−+−=

Page 37: Minggu 6 Clustering.pdf

Penghitungan jarakdengan vector

50

40

30 aT2

=

2010

1T

=

3040

2T

=

=−=

1030

2010

3040

12 TTT

Soft Computation Research Group, EEPIS-ITS

30

20

10

0 10 20 30 40 50

a

bcT1

102030

[ ] 10001009001030

1030

'

=+=

=

×= TTD

628.311000 === Da