vector space model
DESCRIPTION
web miningTRANSCRIPT
Vector Space Model
Ir.Gunawan, M.Kom
Joan Santoso, S.Kom
Esther Irawati Setiawan, M.Kom
© Sekolah Tinggi Teknik Surabaya
1
Sekola
h Ting
gi Tek
nik S
uraba
ya
» Diperkenalkan oleh Prof. Gerard Salton (1927‐1995), dari The SMART Information Retrieval System. SMART sendiri adalah sistem IR experimental yang dikembangkan pertama kali oleh Gerard Salton, dan kemudian dilanjutkan oleh Chris Buckley di Cornell University.
» Vector Space Model (dan variannya) adalah bentuk yang paling banyak diadopsi di dunia search engine.
» Sebuah dokumen biasanya disajikan melalui sebuah bag of words (kumpulan word/term yang masing‐masing dilengkapi dengan frekuensi). Bag = himpunan yang mengijinkan multiple occurrences dari elemen yang sama.
» Tidak ada operator Boolean yang dapat digunakan dalam query.
2
© Sekolah Tinggi Teknik SurabayaSekola
h Ting
gi Tek
nik S
uraba
ya
Sekola
h Ting
gi Tek
nik S
uraba
ya
» Web pages (kumpulan dokumen) dan query masing‐masing direpresentasikan sebagai vektor.
» Nilai setiap elemen vektor akan berbeda pada masing‐masing search engine – tergantung pada term weighting scheme yang dipakai ‐‐yang mana disesuaikan dengan masing‐masing strategi.
» Setelah menghitung tingkat kemiripan ‐‐ degree of similarity ‐‐ sim(dj,q) antara web pages dan query, seluruh dokumen web diberi score untuk menentukan rankingnya.
» Nilai sim(dj,q) tertinggi akan terletak pada puncak daftar ranking. 3
© Sekolah Tinggi Teknik SurabayaSekola
h Ting
gi Tek
nik S
uraba
ya
Sekola
h Ting
gi Tek
nik S
uraba
ya
» Altavista: http://www.altavista.com» Keuntungan:
˃Mudah untuk digunakan, hanya mengetikkan kata‐kata yang mendeskripsikan query kita.
˃ Halaman‐halaman web yang paling relevan akan terletak pada puncak (top) hasil query.
4
© Sekolah Tinggi Teknik SurabayaSekola
h Ting
gi Tek
nik S
uraba
ya
Sekola
h Ting
gi Tek
nik S
uraba
ya
» Model‐model klasik information retrieval mempertimbangkan bahwa setiap dokumen dideskripsikan dengan menggunakan sekumpulan keywords / term yang disebut index terms.
» Index terms secara sederhana adalah kata‐kata / term (biasanya? dalam dokumen) yang secara semantik membantu untuk mengingat tema / arti utama dokumen tersebut. 5
© Sekolah Tinggi Teknik SurabayaSekola
h Ting
gi Tek
nik S
uraba
ya
Sekola
h Ting
gi Tek
nik S
uraba
ya
» Index terms digunakan untuk meng‐index and meringkas (summarize) isi dokumen (document contents).
» Full text index adalah semua kata dalam dokument yang dipakai sebagai index term.
» Dengan demikian index terms biasanya diperoleh setelah preprocessing dilakukan: ˃misalnya setelah stop‐words dan common‐words removal. 6
© Sekolah Tinggi Teknik SurabayaSekola
h Ting
gi Tek
nik S
uraba
ya
Sekola
h Ting
gi Tek
nik S
uraba
ya
7
© Sekolah Tinggi Teknik SurabayaSekola
h Ting
gi Tek
nik S
uraba
ya
Sekola
h Ting
gi Tek
nik S
uraba
ya
» d1 = toves borogoves» d2 = Jabberwock jaws claws Jubjub» d3 = vorpal sword Tumtum thought» d4 = thought Jabberwock» d5 = vorpal blade dead head» d6 = Jabberwock joy» d7 = toves borogoves
8
© Sekolah Tinggi Teknik SurabayaSekola
h Ting
gi Tek
nik S
uraba
ya
Sekola
h Ting
gi Tek
nik S
uraba
ya
» Beberapa term lebih penting daripada term‐term lainnya dalam index terms dalam menyajikan semantik dari sebuah dokumen (juga pada query), sehingga perlu diberikan pembobotan yang berbeda antara masing‐masing term.
» Term weight dari sebuah dokumen:˃ Wi,j ≥ 0, yaitu bobot dari term ke‐i dalam dokumen dj
» Dalam pengertian yang sama, term weight sebuah query:˃ Wi,q ≥ 0, yaitu bobot dari term ke‐i dalam query q 9
© Sekolah Tinggi Teknik SurabayaSekola
h Ting
gi Tek
nik S
uraba
ya
Sekola
h Ting
gi Tek
nik S
uraba
ya
» User menetapkan himpunan dari term‐term yang diinginkan melalui beberapa opsi pembobotan:˃ Weighted query terms: Q = <database 0.5; text 0.8; information 0.2>
˃ Unweighted query terms: Q = <database; text; information>
» Pada model Boolean, bobot Wi,j dari sebuah term adalah:˃ 1, jika term muncul dalam representasi sebuah dokumen
˃ 0, untuk keadaan lainnya (tidak muncul) 10
© Sekolah Tinggi Teknik SurabayaSekola
h Ting
gi Tek
nik S
uraba
ya
Sekola
h Ting
gi Tek
nik S
uraba
ya
11
© Sekolah Tinggi Teknik SurabayaSekola
h Ting
gi Tek
nik S
uraba
ya
Sekola
h Ting
gi Tek
nik S
uraba
ya
12
© Sekolah Tinggi Teknik Surabaya
Catatan:Ketiga contoh perhitungan di atas adalah menggunakan Pair-wise Document Similarity yangunnormalize, yaitu melalui rumus: sim(D1,D2)=Σw1i * w2i (untuk i=1,2,3....t), yang diterapkan untuksim(D,Q)=wDi * wQi. Pair-wise Document Similarity lainnya yang terkenal adalah Cosine Normalize.Rumus ini bermanfaat juga untuk pembentukan similarity matrix misalnya untuk keperluan clustering.
Sekola
h Ting
gi Tek
nik S
uraba
ya
Sekola
h Ting
gi Tek
nik S
uraba
ya
13
© Sekolah Tinggi Teknik SurabayaSekola
h Ting
gi Tek
nik S
uraba
ya
Sekola
h Ting
gi Tek
nik S
uraba
ya
» Bahan Kuliah Web Mining STTS 2010 yang dibuat oleh Ir. Gunawan, M.Kom.
» http://www.cs.columbia.edu/~radev/SET07.» http://www.cityu.edu.hk/cityu/course/deptcurr/cs
curr/cs5286.htm» http://www.cityu.edu.hk/cityu/course/deptcurr/cs
curr/cs5286.htm.» 02 Inverted Index‐2per.pdf (Inverted Index) CS 529:
Information Retrieval, Fall Semester 2001, Dr.» David Grossman,
http://ir.iit.edu/~dagr/cs529/index.html.» IRmodelling.ppt (IR Modelling and Indexing),
Multimedia Information Retreival, ISYS 1078/1079, James Thom.
14
© Sekolah Tinggi Teknik SurabayaSekola
h Ting
gi Tek
nik S
uraba
ya
Sekola
h Ting
gi Tek
nik S
uraba
ya
15
© Sekolah Tinggi Teknik SurabayaSekola
h Ting
gi Tek
nik S
uraba
ya
Sekola
h Ting
gi Tek
nik S
uraba
ya