vector space model

15
Vector Space Model Ir.Gunawan, M.Kom Joan Santoso, S.Kom Esther Irawati Setiawan, M.Kom © Sekolah Tinggi Teknik Surabaya 1 Sekolah Tinggi Teknik Surabaya

Upload: nekolavigne

Post on 16-Feb-2016

217 views

Category:

Documents


2 download

DESCRIPTION

web mining

TRANSCRIPT

Page 1: Vector Space Model

Vector Space Model

Ir.Gunawan, M.Kom

Joan Santoso, S.Kom

Esther Irawati Setiawan, M.Kom

© Sekolah Tinggi Teknik Surabaya

1

Sekola

h Ting

gi Tek

nik S

uraba

ya

Page 2: Vector Space Model

» Diperkenalkan oleh Prof. Gerard Salton (1927‐1995), dari The SMART Information Retrieval System. SMART sendiri adalah sistem IR experimental yang dikembangkan pertama kali oleh Gerard Salton, dan kemudian dilanjutkan oleh Chris Buckley di Cornell University.

» Vector Space Model (dan variannya) adalah bentuk yang paling banyak diadopsi di dunia search engine.

» Sebuah dokumen biasanya disajikan melalui sebuah bag of words (kumpulan word/term yang masing‐masing dilengkapi dengan frekuensi). Bag = himpunan yang mengijinkan multiple occurrences dari elemen yang sama.

» Tidak ada operator Boolean yang dapat digunakan dalam query.

2

© Sekolah Tinggi Teknik SurabayaSekola

h Ting

gi Tek

nik S

uraba

ya

Sekola

h Ting

gi Tek

nik S

uraba

ya

Page 3: Vector Space Model

» Web pages (kumpulan dokumen) dan query masing‐masing direpresentasikan sebagai vektor.

» Nilai setiap elemen vektor akan berbeda pada masing‐masing search engine – tergantung pada term weighting scheme yang dipakai ‐‐yang mana disesuaikan dengan masing‐masing strategi.

» Setelah menghitung tingkat kemiripan ‐‐ degree of similarity ‐‐ sim(dj,q) antara web pages dan query, seluruh dokumen web diberi score untuk menentukan rankingnya.

» Nilai sim(dj,q) tertinggi akan terletak pada puncak daftar ranking. 3

© Sekolah Tinggi Teknik SurabayaSekola

h Ting

gi Tek

nik S

uraba

ya

Sekola

h Ting

gi Tek

nik S

uraba

ya

Page 4: Vector Space Model

» Altavista: http://www.altavista.com» Keuntungan:

˃Mudah untuk digunakan, hanya mengetikkan kata‐kata yang mendeskripsikan query kita.

˃ Halaman‐halaman web yang paling relevan akan terletak pada puncak (top) hasil query.

4

© Sekolah Tinggi Teknik SurabayaSekola

h Ting

gi Tek

nik S

uraba

ya

Sekola

h Ting

gi Tek

nik S

uraba

ya

Page 5: Vector Space Model

» Model‐model klasik information retrieval mempertimbangkan bahwa setiap dokumen dideskripsikan dengan menggunakan sekumpulan keywords / term yang disebut index terms.

» Index terms secara sederhana adalah kata‐kata / term (biasanya? dalam dokumen) yang secara semantik membantu untuk mengingat tema / arti utama dokumen tersebut. 5

© Sekolah Tinggi Teknik SurabayaSekola

h Ting

gi Tek

nik S

uraba

ya

Sekola

h Ting

gi Tek

nik S

uraba

ya

Page 6: Vector Space Model

» Index terms digunakan untuk meng‐index and meringkas (summarize) isi dokumen (document contents).

» Full text index adalah semua kata dalam dokument yang dipakai sebagai index term.

» Dengan demikian index terms biasanya diperoleh setelah preprocessing dilakukan: ˃misalnya setelah stop‐words dan common‐words removal. 6

© Sekolah Tinggi Teknik SurabayaSekola

h Ting

gi Tek

nik S

uraba

ya

Sekola

h Ting

gi Tek

nik S

uraba

ya

Page 7: Vector Space Model

7

© Sekolah Tinggi Teknik SurabayaSekola

h Ting

gi Tek

nik S

uraba

ya

Sekola

h Ting

gi Tek

nik S

uraba

ya

Page 8: Vector Space Model

» d1 = toves borogoves» d2 = Jabberwock jaws claws Jubjub» d3 = vorpal sword Tumtum thought» d4 = thought Jabberwock» d5 = vorpal blade dead head» d6 = Jabberwock joy» d7 = toves borogoves

8

© Sekolah Tinggi Teknik SurabayaSekola

h Ting

gi Tek

nik S

uraba

ya

Sekola

h Ting

gi Tek

nik S

uraba

ya

Page 9: Vector Space Model

» Beberapa term lebih penting daripada term‐term lainnya dalam index terms dalam menyajikan semantik dari sebuah dokumen (juga pada query), sehingga perlu diberikan pembobotan yang berbeda antara masing‐masing term.

» Term weight dari sebuah dokumen:˃ Wi,j ≥ 0, yaitu bobot dari term ke‐i dalam dokumen dj

» Dalam pengertian yang sama, term weight sebuah query:˃ Wi,q ≥ 0, yaitu bobot dari term ke‐i dalam query q 9

© Sekolah Tinggi Teknik SurabayaSekola

h Ting

gi Tek

nik S

uraba

ya

Sekola

h Ting

gi Tek

nik S

uraba

ya

Page 10: Vector Space Model

» User menetapkan himpunan dari term‐term yang diinginkan melalui beberapa opsi pembobotan:˃ Weighted query terms: Q = <database 0.5; text 0.8; information 0.2>

˃ Unweighted query terms: Q = <database; text; information>

» Pada model Boolean, bobot Wi,j dari sebuah term adalah:˃ 1, jika term muncul dalam representasi sebuah dokumen

˃ 0, untuk keadaan lainnya (tidak muncul) 10

© Sekolah Tinggi Teknik SurabayaSekola

h Ting

gi Tek

nik S

uraba

ya

Sekola

h Ting

gi Tek

nik S

uraba

ya

Page 11: Vector Space Model

11

© Sekolah Tinggi Teknik SurabayaSekola

h Ting

gi Tek

nik S

uraba

ya

Sekola

h Ting

gi Tek

nik S

uraba

ya

Page 12: Vector Space Model

12

© Sekolah Tinggi Teknik Surabaya

Catatan:Ketiga contoh perhitungan di atas adalah menggunakan Pair-wise Document Similarity yangunnormalize, yaitu melalui rumus: sim(D1,D2)=Σw1i * w2i (untuk i=1,2,3....t), yang diterapkan untuksim(D,Q)=wDi * wQi. Pair-wise Document Similarity lainnya yang terkenal adalah Cosine Normalize.Rumus ini bermanfaat juga untuk pembentukan similarity matrix misalnya untuk keperluan clustering.

Sekola

h Ting

gi Tek

nik S

uraba

ya

Sekola

h Ting

gi Tek

nik S

uraba

ya

Page 13: Vector Space Model

13

© Sekolah Tinggi Teknik SurabayaSekola

h Ting

gi Tek

nik S

uraba

ya

Sekola

h Ting

gi Tek

nik S

uraba

ya

Page 14: Vector Space Model

» Bahan Kuliah Web Mining STTS 2010 yang dibuat oleh Ir. Gunawan, M.Kom.

» http://www.cs.columbia.edu/~radev/SET07.» http://www.cityu.edu.hk/cityu/course/deptcurr/cs

curr/cs5286.htm» http://www.cityu.edu.hk/cityu/course/deptcurr/cs

curr/cs5286.htm.» 02 Inverted Index‐2per.pdf (Inverted Index) CS 529: 

Information Retrieval, Fall Semester 2001, Dr.» David Grossman, 

http://ir.iit.edu/~dagr/cs529/index.html.» IRmodelling.ppt (IR Modelling and Indexing), 

Multimedia Information Retreival, ISYS 1078/1079, James Thom.

14

© Sekolah Tinggi Teknik SurabayaSekola

h Ting

gi Tek

nik S

uraba

ya

Sekola

h Ting

gi Tek

nik S

uraba

ya

Page 15: Vector Space Model

15

© Sekolah Tinggi Teknik SurabayaSekola

h Ting

gi Tek

nik S

uraba

ya

Sekola

h Ting

gi Tek

nik S

uraba

ya