Download - Similarity/ Dissimilarity
![Page 1: Similarity/ Dissimilarity](https://reader033.vdocument.in/reader033/viewer/2022061511/56815ed3550346895dcd6608/html5/thumbnails/1.jpg)
Similarity/ Dissimilarity
Various types of variable
Data Mining: Concept and Techniques (Jiawei Han, Micheline Kamber)
![Page 2: Similarity/ Dissimilarity](https://reader033.vdocument.in/reader033/viewer/2022061511/56815ed3550346895dcd6608/html5/thumbnails/2.jpg)
Struktur data Data matrix (object-by-variable structure)
Struktur ini dalam bentuk tabel relasional, n objek x p variable:
Dissimilarity matrix (object-by-object structure) Menyimpan kumpulan perkiraan dari seluruh pasangan n objek (n-by-
n tabel)
Struktur ini digunakan untuk menghitung klaster dari objek.
![Page 3: Similarity/ Dissimilarity](https://reader033.vdocument.in/reader033/viewer/2022061511/56815ed3550346895dcd6608/html5/thumbnails/3.jpg)
Macam-macam type data dalam suatu variabel: Interval-scaled variable Binary variable Categorical variable Ratio variable
![Page 4: Similarity/ Dissimilarity](https://reader033.vdocument.in/reader033/viewer/2022061511/56815ed3550346895dcd6608/html5/thumbnails/4.jpg)
Interval scaled variable Interval scaled variable: ukuran2 kontinu dari
skala linear Contoh: tinggi, berat, koordinat latitude atau
longitude (clustering rumah), temperatur cuaca
![Page 5: Similarity/ Dissimilarity](https://reader033.vdocument.in/reader033/viewer/2022061511/56815ed3550346895dcd6608/html5/thumbnails/5.jpg)
Interval-scaled variables1. Hitung mean absolute deviation, sf:
2. Hitung ukuran yg distandarisasikan (or Z-score)
![Page 6: Similarity/ Dissimilarity](https://reader033.vdocument.in/reader033/viewer/2022061511/56815ed3550346895dcd6608/html5/thumbnails/6.jpg)
Euclidean Distance
Manhattan Distance
![Page 7: Similarity/ Dissimilarity](https://reader033.vdocument.in/reader033/viewer/2022061511/56815ed3550346895dcd6608/html5/thumbnails/7.jpg)
Contoh Penghitungan dissimilarity tanpa standarisasi
![Page 8: Similarity/ Dissimilarity](https://reader033.vdocument.in/reader033/viewer/2022061511/56815ed3550346895dcd6608/html5/thumbnails/8.jpg)
Binary variable Variabel yang memiliki dua nilai 0 dan 1,
dimana 0absent, 1present Bagaimana menghitung ketidaksamaan
(dissimilarity)
Dissimilarity (jarak)
![Page 9: Similarity/ Dissimilarity](https://reader033.vdocument.in/reader033/viewer/2022061511/56815ed3550346895dcd6608/html5/thumbnails/9.jpg)
Similarity:
![Page 10: Similarity/ Dissimilarity](https://reader033.vdocument.in/reader033/viewer/2022061511/56815ed3550346895dcd6608/html5/thumbnails/10.jpg)
Contoh variabel biner Suatu tabel rekord pasien berisi atribut:
nama, gender, fever, cough, test-1,test-2, test-3, test-4
Nama object identifierGender simetric
atribute
![Page 11: Similarity/ Dissimilarity](https://reader033.vdocument.in/reader033/viewer/2022061511/56815ed3550346895dcd6608/html5/thumbnails/11.jpg)
Categorical variable
Variabel kategori: secara umum sama dengan variabel biner namun mengambil lebih dari 2 keadaan.
Contoh: map color (5 states): red, yellow, green, pink, and blue
Ukuran dissimilarity:
Dimana, p: jumlah variable, dan m: juml. variabel yg bernilai sama
![Page 12: Similarity/ Dissimilarity](https://reader033.vdocument.in/reader033/viewer/2022061511/56815ed3550346895dcd6608/html5/thumbnails/12.jpg)
Contoh
Dissimilarity
![Page 13: Similarity/ Dissimilarity](https://reader033.vdocument.in/reader033/viewer/2022061511/56815ed3550346895dcd6608/html5/thumbnails/13.jpg)
Maka untuk categorical variable, test 1, p=1 dan d(i,j)=0 jika sama dan 1 jika beda. Sehingga dihasilkan matrik berikut:
![Page 14: Similarity/ Dissimilarity](https://reader033.vdocument.in/reader033/viewer/2022061511/56815ed3550346895dcd6608/html5/thumbnails/14.jpg)
Ordinal Varible Ordinal variable : mirip dengan categorical
variable, namun memiliki arti dalam urutan dan berguna bila tidak dapat diukur secara objektif.
Contoh: profesional rank: assistant, associate, and full for professor.
![Page 15: Similarity/ Dissimilarity](https://reader033.vdocument.in/reader033/viewer/2022061511/56815ed3550346895dcd6608/html5/thumbnails/15.jpg)
Jika ada nilai f dari suatu objek xif dan mempunyai states yg terurut dalam rangking 1,…, Mf, maka bisa dituliskan rif є {1, …Mf}
Merubah nilai rf dengan menormalisasi :[0,1] dengan rumusan:
Kemudian dicari nilai disimilarity- nya digunakan rumusan jarak
![Page 16: Similarity/ Dissimilarity](https://reader033.vdocument.in/reader033/viewer/2022061511/56815ed3550346895dcd6608/html5/thumbnails/16.jpg)
Contoh ordinal variable (test-2) Ada 3 state dalam test 2: fair, good dan excellent,
sehingga Mf=3 Rubah nilai dlm objek tsb dengan 3(1, 2, dan 3). Normalisasi sehingga: rank-1=0, rank-2=0.5,
rank-3=1 Maka dengan rumusan Ecluidian Dist, didapatkan:
![Page 17: Similarity/ Dissimilarity](https://reader033.vdocument.in/reader033/viewer/2022061511/56815ed3550346895dcd6608/html5/thumbnails/17.jpg)
Ratio-scaled variable Biasanya digunakan untuk ukuran positip pada
skala non linear seperti skala exponensial dg rumusan:
Contoh: pertumbuhan populasi bakteri atau kerusakan akibat radioaktif
Menggunakan transformasi logaritmik dengan formula yif=log(xif), nilai yif yang digunakan sbg interval value
![Page 18: Similarity/ Dissimilarity](https://reader033.vdocument.in/reader033/viewer/2022061511/56815ed3550346895dcd6608/html5/thumbnails/18.jpg)
Contoh ratio-scaled variable (test-3) Maka dgn mengaplikasikan logaritmik dari
tiap2 nilai dalam test-3: didapatkan nilai: 2.65, 1.34, 2.21, dan 3.08 untuk objek 1-4
Sehingga dengan rumus jarak didapatkan :
Dinormalisasi ,Dg membagi 1.74
![Page 19: Similarity/ Dissimilarity](https://reader033.vdocument.in/reader033/viewer/2022061511/56815ed3550346895dcd6608/html5/thumbnails/19.jpg)
Variable of Mixed Types Dalam dunia nyata, sering dijumpai
variable yg memiliki campuran, antara lain: interval scaled, symmetric binary, categorical, ordinal atau ratio-scaled.
Maka dapat digunakan rumusan berikut untuk mencari dissimilarity:
Dimana: ∂ij=0 jikaxjf atau xjf kosong &∂ij=1 jika ada nilainya
![Page 20: Similarity/ Dissimilarity](https://reader033.vdocument.in/reader033/viewer/2022061511/56815ed3550346895dcd6608/html5/thumbnails/20.jpg)
Contoh perhitungan mix-variable Jika didapatkan dari perhitungan
sebelumnya didapatkan jarak dari tiap-tiap variabel (test1, test2, dan test 3:
Maka dengan mengaplikasikan rumusan tersebut didapatkan
![Page 21: Similarity/ Dissimilarity](https://reader033.vdocument.in/reader033/viewer/2022061511/56815ed3550346895dcd6608/html5/thumbnails/21.jpg)
Final result of dissimilarity (test1, test2 & test3)