vector space model

Vector Space Model

Ir.Gunawan, M.Kom

Joan Santoso, S.Kom

Esther Irawati Setiawan, M.Kom

© Sekolah Tinggi Teknik Surabaya

1

Sekola

h Ting

gi Tek

nik S

uraba

ya

» Diperkenalkan oleh Prof. Gerard Salton (1927‐1995), dari The SMART Information Retrieval System. SMART sendiri adalah sistem IR experimental yang dikembangkan pertama kali oleh Gerard Salton, dan kemudian dilanjutkan oleh Chris Buckley di Cornell University.

» Vector Space Model (dan variannya) adalah bentuk yang paling banyak diadopsi di dunia search engine.

» Sebuah dokumen biasanya disajikan melalui sebuah bag of words (kumpulan word/term yang masing‐masing dilengkapi dengan frekuensi). Bag = himpunan yang mengijinkan multiple occurrences dari elemen yang sama.

» Tidak ada operator Boolean yang dapat digunakan dalam query.

2

© Sekolah Tinggi Teknik SurabayaSekola

h Ting

gi Tek

nik S

uraba

ya

Sekola

h Ting

gi Tek

nik S

uraba

ya

» Web pages (kumpulan dokumen) dan query masing‐masing direpresentasikan sebagai vektor.

» Nilai setiap elemen vektor akan berbeda pada masing‐masing search engine – tergantung pada term weighting scheme yang dipakai ‐‐yang mana disesuaikan dengan masing‐masing strategi.

» Setelah menghitung tingkat kemiripan ‐‐ degree of similarity ‐‐ sim(dj,q) antara web pages dan query, seluruh dokumen web diberi score untuk menentukan rankingnya.

» Nilai sim(dj,q) tertinggi akan terletak pada puncak daftar ranking. 3


h Ting

gi Tek

nik S

uraba

ya

Sekola

h Ting

gi Tek

nik S

uraba

ya

» Altavista: http://www.altavista.com» Keuntungan:

˃Mudah untuk digunakan, hanya mengetikkan kata‐kata yang mendeskripsikan query kita.

˃ Halaman‐halaman web yang paling relevan akan terletak pada puncak (top) hasil query.

4


h Ting

gi Tek

nik S

uraba

ya

Sekola

h Ting

gi Tek

nik S

uraba

ya

» Model‐model klasik information retrieval mempertimbangkan bahwa setiap dokumen dideskripsikan dengan menggunakan sekumpulan keywords / term yang disebut index terms.

» Index terms secara sederhana adalah kata‐kata / term (biasanya? dalam dokumen) yang secara semantik membantu untuk mengingat tema / arti utama dokumen tersebut. 5


h Ting

gi Tek

nik S

uraba

ya

Sekola

h Ting

gi Tek

nik S

uraba

ya

» Index terms digunakan untuk meng‐index and meringkas (summarize) isi dokumen (document contents).

» Full text index adalah semua kata dalam dokument yang dipakai sebagai index term.

» Dengan demikian index terms biasanya diperoleh setelah preprocessing dilakukan: ˃misalnya setelah stop‐words dan common‐words removal. 6


h Ting

gi Tek

nik S

uraba

ya

Sekola

h Ting

gi Tek

nik S

uraba

ya

7


h Ting

gi Tek

nik S

uraba

ya

Sekola

h Ting

gi Tek

nik S

uraba

ya

» d1 = toves borogoves» d2 = Jabberwock jaws claws Jubjub» d3 = vorpal sword Tumtum thought» d4 = thought Jabberwock» d5 = vorpal blade dead head» d6 = Jabberwock joy» d7 = toves borogoves

8


h Ting

gi Tek

nik S

uraba

ya

Sekola

h Ting

gi Tek

nik S

uraba

ya

» Beberapa term lebih penting daripada term‐term lainnya dalam index terms dalam menyajikan semantik dari sebuah dokumen (juga pada query), sehingga perlu diberikan pembobotan yang berbeda antara masing‐masing term.

» Term weight dari sebuah dokumen:˃ Wi,j ≥ 0, yaitu bobot dari term ke‐i dalam dokumen dj

» Dalam pengertian yang sama, term weight sebuah query:˃ Wi,q ≥ 0, yaitu bobot dari term ke‐i dalam query q 9


h Ting

gi Tek

nik S

uraba

ya

Sekola

h Ting

gi Tek

nik S

uraba

ya

» User menetapkan himpunan dari term‐term yang diinginkan melalui beberapa opsi pembobotan:˃ Weighted query terms: Q = <database 0.5; text 0.8; information 0.2>

˃ Unweighted query terms: Q = <database; text; information>

» Pada model Boolean, bobot Wi,j dari sebuah term adalah:˃ 1, jika term muncul dalam representasi sebuah dokumen

˃ 0, untuk keadaan lainnya (tidak muncul) 10


h Ting

gi Tek

nik S

uraba

ya

Sekola

h Ting

gi Tek

nik S

uraba

ya

11


h Ting

gi Tek

nik S

uraba

ya

Sekola

h Ting

gi Tek

nik S

uraba

ya

12

© Sekolah Tinggi Teknik Surabaya

Catatan:Ketiga contoh perhitungan di atas adalah menggunakan Pair-wise Document Similarity yangunnormalize, yaitu melalui rumus: sim(D1,D2)=Σw1i * w2i (untuk i=1,2,3....t), yang diterapkan untuksim(D,Q)=wDi * wQi. Pair-wise Document Similarity lainnya yang terkenal adalah Cosine Normalize.Rumus ini bermanfaat juga untuk pembentukan similarity matrix misalnya untuk keperluan clustering.

Sekola

h Ting

gi Tek

nik S

uraba

ya

Sekola

h Ting

gi Tek

nik S

uraba

ya

13


h Ting

gi Tek

nik S

uraba

ya

Sekola

h Ting

gi Tek

nik S

uraba

ya

» Bahan Kuliah Web Mining STTS 2010 yang dibuat oleh Ir. Gunawan, M.Kom.

» http://www.cs.columbia.edu/~radev/SET07.» http://www.cityu.edu.hk/cityu/course/deptcurr/cs

curr/cs5286.htm» http://www.cityu.edu.hk/cityu/course/deptcurr/cs

curr/cs5286.htm.» 02 Inverted Index‐2per.pdf (Inverted Index) CS 529:

Information Retrieval, Fall Semester 2001, Dr.» David Grossman,

http://ir.iit.edu/~dagr/cs529/index.html.» IRmodelling.ppt (IR Modelling and Indexing),

Multimedia Information Retreival, ISYS 1078/1079, James Thom.

14


h Ting

gi Tek

nik S

uraba

ya

Sekola

h Ting

gi Tek

nik S

uraba

ya

15


h Ting

gi Tek

nik S

uraba

ya

Sekola

h Ting

gi Tek

nik S

uraba

ya

vector space model

Documents

vector space model ir

kom esther irawati setiawan

vorpal swordtumtum thought

kom joan santoso

vorpal bladedeadhead

com keuntungan

tovesborogoves d2

jabberwockjawsclawsjubjub