knowledge discovery in databaserepository.uinjkt.ac.id/dspace/bitstream/123456789... · al-quran...

KNOWLEDGE DISCOVERY IN DATABASE

METODE GENERALIZED VECTOR SPACE MODEL

PADA SISTEM TEMU KEMBALI INFORMASI

TERJEMAHAN KITAB MIZANUL HIKMAH

BERBAHASA INDONESIA

Skripsi

Nur Rina Utami

NIM: 11150910000051

PROGRAM STUDI TEKNIK INFORMATIKA

FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS ISLAM NEGERI SYARIF HIDAYATULLAH

JAKARTA

2019 M/1441 H

KNOWLEDGE DISCOVERY IN DATABASE

METODE GENERALIZED VECTOR SPACE MODEL

PADA SISTEM TEMU KEMBALI INFORMASI

TERJEMAHAN KITAB MIZANUL HIKMAH

BERBAHASA INDONESIA

Skripsi

Diajukan sebagai salah satu syarat untuk memperoleh

gelar Sarjana Komputer (S.Kom)

Nur Rina Utami

NIM: 11150910000051

PROGRAM STUDI TEKNIK INFORMATIKA

FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS ISLAM NEGERI SYARIF HIDAYATULLAH

JAKARTA

2019 M/1441 H

HALAMAN PERSETUJUAN

PERNYATAAN ORISINALITAS

HALAMAN PENGESAHAN

KATA PENGANTAR

Allhamdulillah, segala puji dan syukur penulis panjatkan kehadirat Allah SWT

yang telah memberikan rahmat dan hidayah-Nya sehingga penulis dapat

menyelesaikan skripsi dengan judul Knowledge Discovery in Database Metode

Generalized Vector Space Model Pada Sistem Temu Kembali Informasi

Terjemahan Kitab Mizanul Hikmah Berbahasa Indonesia sebagai syarat dalam

menyelesaikan program S1 pada program Studi Teknik Informatika di Universitas

Islam Negeri Syarif Hidayatullah Jakarta. Tak lupa shalawat serta salam penulis

haturkan kepada Nabi Muhammad SAW, beserta keluarga, para sahabat, dan para

pengikutnya.

Selama proses penyusunan skripsi ini, penulis mendapat banyak bimbingan,

bantuan, dukungan, serta motivasi yang sangat bermanfaat dari berbagai pihak.

Oleh karena itu, melalui kata pengatar ini penulis ingin menyampaikan terima kasih

banyak kepada:

1. Ibu Prof. Dr. Lily Suraya Eka Putri, M.Env.Stud selaku Dekan Fakultas

Sains dan Teknologi.

2. Bapak Dr.Imam Marzuki Shofi, MT selaku Ketua Program Studi Teknik

Informatika dan Bapak Andrew Fiade, M.Kom selaku Sekretaris Program

Studi Teknik Informatika.

3. Bapak Victor Amrizal, M.Kom selaku Dosen Pembimbing I dan Bapak

Hendra Bayu Seseno, M.Kom selaku Dosen Pembimbing II yang telah

memberikan banyak perhatian, dukungan dan rela meluangkan waktunya

untuk membimbing, memotivasi, memberikan arahan serta saran yang

sangat berguna bagi penulis.

4. Seluruh Dosen dan Staf Karyawan Fakultas Sains dan Teknologi,

khususnya Program Studi Teknik Informatika yang telah memberikan ilmu,

dukungan dan bantuan selama masa perkuliahan.

5. Kedua orang tua penulis, Ayah Ariyanto dan Ibu Rohetin yang tidak pernah

behenti untuk selalu mendoakan, mendukung, memberikan kasih sayang

dan memotivasi penulis untuk menjadi orang yang sukses dan bermanfaat.

6. Adik penulis, Adinda Mega Pangestu, Intan Nuraeni, dan Arya Nata

Kusuma yang selalu menghibur dan memberikan semangat selama masa

pengerjaan skripsi ini.

7. Teman-teman Al-Hamidiyah, yang selalu memotivasi dan menghibur

penulis. Terima kasih telah menjadi keluarga kedua bagi penulis.

8. Teman-teman seperjuangan, Fenny, Shofan, Ayu, Kun, Intaen, Farah,

Nadey, Putnav, Alifia, Dhimas, Fahmi, dan Irfan. Terima kasih sudah

menjadi sahabat baik penulis dan segala kebaikan yang diberikan.

9. Senior terbaik, Yulianti, S.Kom yang selalu membantu, dan memberikan

saran sehingga penulis bisa menyelesaikan skripsi ini.

10. Seluruh teman-teman Teknik Informatika angkatan 2015, khususnya kelas

TI-B tercinta. Terima kasih atas kebersamaan, kenangan, ilmu dan

pengalaman selama masa perkuliahan.

11. Seluruh pihak yang tidak dapat disebutkan satu persatu baik secara langsung

maupun tidak langsung telah membantu penulis menyelesaikan skripsi ini.

Penulis berharap semoga skripsi ini dapat bermanfaat bagi para pembaca.

Penulis menyadari bahwa skripsi ini masih banyak kekurangan dan jauh dari kata

sempurna. Oleh karena itu, penulis menerima kritik maupun saran yang

membangun untuk pengembangan penelitian yang lebih baik.

Ciputat, November 2019

Penulis

PERNYATAAN PERSETUJUAN PUBLIKASI SKRIPSI

Sebagai sivitas akademik UIN Syarif Hidayatullah Jakarta, saya yang bertanda

tangan di bawah ini:

Nama : Nur Rina Utami

NPM : 11150910000051

Program Studi : Teknik Informatika

Fakultas : Sains dan Teknologi

Jenis Karya : Skripsi

demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada

Universitas Islam Negeri Syarif Hidayatullah Jakarta Hak Bebas Royalti

noneksklusif (Non-exclusive Royalty Free Right) atas karya ilmiah saya yang

berjudul:

Knowledge Discovery in Database Metode Generalized Vector Space Model

Pada Sistem Temu Kembali Informasi Terjemahan Kitab Mizanul Hikmah

Berbahasa Indonesia

beserta perangkat yang ada (jika diperlukan). Dengan Hak Bebas Royalti

Noneksklusif ini Universitas Islam Negeri Syarif Hidayatullah Jakarta berhak

menyimpan, mengalihmedia/formatkan, mengelola dalam bentuk pangkalan data

(database), merawat, dan mempublikasikan tugas akhir saya selama tetap

mencantumkan nama saya sebagai penulis/pencipta dan sebagai pemilik Hak Cipta.

Demikian pernyataan ini saya buat dengan sebenarnya.

Dibuat di Jakarta

Pada tanggal 20 November 2019

Yang menyatakan

(Nur Rina Utami)

Penulis : Nur Rina Utami (11150910000051)

Judul : Knowledge Discovery in Database Metode Generalized

Vector Space Model Pada Sistem Temu Kembali

Informasi Terjemahan Kitab Mizanul Hikmah

Berbahasa Indonesia

ABSTRAK

Al-Quran dan hadits merupakan dua sumber hukum utama dalam Islam. Penting

bagi umat Islam untuk mempelajari hadits. Hal ini disebabkan karena umat Islam

tidak bisa hanya bersandar pada Al-Quran saja, melainkan harus didampingi hadits.

Melalui wawancara dengan Ustaz Akmal Kamil dan Ustaz Ahmad Hafidh Al-Kaff,

permasalahan yang ada saat ini sistem pencarian hadits masih bersifat manual dan

membutuhkan waktu cukup lama dalam proses pencarian. Sehingga, dibutuhkan

sistem untuk mempermudah proses pencarian tersebut. Pada penelitian ini, dibuat

sistem temu kembali informasi menggunakan metode Generalized Vector Space

Model dengan pembobotan TF-IDF dan stemming Nazief-Adriani. Hasil pengujian

confusion matrix dalam penelitian ini didapatkan nilai precision 73,62%, recall

99,56%, dan accuracy 73,38%. Oleh karena itu, sistem dapat dikatakan baik,

dikarenakan sistem yang baik adalah sistem yang memiliki nilai recall dan

precision tinggi.

Kata Kunci : Generalized Vector Space Model, TF-IDF, Stemming

Nazief-Adriani, Sistem Temu Kembali Informasi, Confusion

Matrix

Jumlah Pustaka : 9 Buku, 16 Jurnal, dan 1 Website

Jumlah Halaman : VI BAB + XV Halaman + 87 Halaman + 13 Gambar + 16

Tabel + 2 Bagan

Penulis : Nur Rina Utami (11150910000051)

Judul : Knowledge Discovery in Database Metode Generalized

Vector Space Model Pada Sistem Temu Kembali

Informasi Terjemahan Kitab Mizanul Hikmah

Berbahasa Indonesia

ABSTRACT

Al-Quran and hadith are the two main sources of law in Islam. Muslims need to

study hadith. This is because Muslims cannot rely solely on the Al-Quran, but must

be accompanied by a hadith. Through interviews with Ustaz Akmal Kamil and

Ustaz Ahmad Hafidh Al-Kaff, the existing problems of the hadith search system

are still manual and require a long time in the search process. Thus, a system is

needed to simplify the search process. In this study, the information retrieval system

was made using the Generalized Vector Space Model method by weighting TF-IDF

and Nazief-Adriani stemming. Confusion matrix test results in this study obtained

a value of precision 73.62%, 99.56% recall, and 73.38% accuracy. Therefore, the

system can be said to be good, because a good system is a system that has high

recall and precision.

Keyword : Generalized Vector Space Model, TF-IDF, Nazief-Adriani

stemming, Information Retrieval System, Confusion Matrix

Number of Libraries : 9 Books, 16 Journals, and 1 Website

Number of Pages : VI Chapters + XV Pages + 87 Pages + 13 Pictures + 16

Tables + 2 Charts

DAFTAR ISI

HALAMAN PERSETUJUAN.............................................................................. ii

PERNYATAAN ORISINALITAS ...................................................................... iii

HALAMAN PENGESAHAN .............................................................................. iv

KATA PENGANTAR .......................................................................................... vi

PERNYATAAN PERSETUJUAN PUBLIKASI SKRIPSI ............................. vii

ABSTRAK .......................................................................................................... viii

ABSTRACT .......................................................................................................... ix

DAFTAR ISI .......................................................................................................... x

DAFTAR GAMBAR ........................................................................................... xii

DAFTAR TABEL............................................................................................... xiii

DAFTAR BAGAN .............................................................................................. xiv

DAFTAR LAMPIRAN ....................................................................................... xv

BAB I ...................................................................................................................... 1

PENDAHULUAN .................................................................................................. 1 1.1. Latar Belakang.......................................................................................... 1

1.2. Rumusan Masalah .................................................................................... 3

1.3. Tujuan Penelitian ...................................................................................... 3

1.4. Manfaat Penelitian .................................................................................... 3

1.4.1. Manfaat Bagi Penulis ........................................................................ 3

1.4.2. Manfaat Bagi Pengguna .................................................................... 4

1.4.3. Manfaat Bagi Universitas .................................................................. 4

1.5. Batasan Masalah ....................................................................................... 4

1.5.1. Metode............................................................................................... 4

1.5.2. Tools .................................................................................................. 4

1.5.3. Proses ................................................................................................ 4

1.6. Metodologi Penelitian .............................................................................. 5

1.6.1. Metode Pengumpulan Data ............................................................... 5

1.6.2. Metode Knowledge Discovery in Database ...................................... 5

1.7. Sistematika Penulisan ............................................................................... 5

BAB II .................................................................................................................... 7

LANDASAN TEORI ............................................................................................. 7

2.1. Knowledge Discovery in Database .......................................................... 7

2.2. Generalized Vector Space Model (GVSM) .............................................. 8

2.3. Sistem Temu Kembali Informasi (Information Retrieval System) ........... 9

2.4. Hadits ...................................................................................................... 11

2.4.1. Hadits Menurut Syiah ..................................................................... 11

2.4.2. Mizanul Hikmah.............................................................................. 11

2.5. Text Mining ............................................................................................. 11

2.6. Preprocessing ......................................................................................... 12

2.6.1. Case Folding ................................................................................... 12

2.6.2. Tokenizing ....................................................................................... 13

2.6.3. Filtering........................................................................................... 13

2.6.4. Stemming ......................................................................................... 13

2.7. TF-IDF .................................................................................................... 15

2.8. Confusion Matrix .................................................................................... 16

2.9. PHP ......................................................................................................... 17

2.9.1. Fungsi PHP...................................................................................... 17

2.9.2. Kelebihan PHP ................................................................................ 18

2.10. MySQL ............................................................................................... 18

2.11. XAMPP ............................................................................................... 19

2.12. Metode Pengumpulan Data ................................................................. 19

2.12.1. Pengamatan (Observation) .............................................................. 20

2.12.2. Wawancara (Interview) ................................................................... 20

2.12.3. Angket (Questionnaire) .................................................................. 20

2.13. Studi Literatur Sejenis ........................................................................ 22

BAB III ................................................................................................................. 30

METODOLOGI PENELITIAN ........................................................................ 30

3.1. Metode Pengumpulan Data .................................................................... 30

3.1.1. Data Primer ..................................................................................... 30

3.1.2. Data Sekunder ................................................................................. 30

3.2. Metode Knowledge Discovery in Database ........................................... 30

3.2.1. Selection .......................................................................................... 31

3.2.2. Preprocessing .................................................................................. 31

3.2.3. Transformation ................................................................................ 31

3.2.4. Data Mining .................................................................................... 31

3.2.5. Interpretation/Evaluation ................................................................ 31

3.3. Kerangka Berpikir .................................................................................. 31

BAB IV ................................................................................................................. 33

ANALISIS DAN PERANCANGAN SISTEM .................................................. 33

4.1. Proses Knowledge Discovery in Database ............................................. 33

4.1.1. Selection .......................................................................................... 33

4.1.2. Preprocessing .................................................................................. 33

4.1.3. Transformation ................................................................................ 48

4.1.4. Data Mining .................................................................................... 51

4.1.5. Interpretation/Evaluation ................................................................ 60

4.2. Flowchart Sistem.................................................................................... 61

BAB V ................................................................................................................... 62

HASIL DAN PEMBAHASAN ........................................................................... 62

5.1. Hasil Pengujian Sistem ........................................................................... 62

5.2. Hasil Tampilan User Interface ............................................................... 63

BAB VI ................................................................................................................. 73

PENUTUP ............................................................................................................ 73

6.1. Kesimpulan ............................................................................................. 73

6.2. Saran ....................................................................................................... 73

DAFTAR PUSTAKA .......................................................................................... 74

LAMPIRAN ......................................................................................................... 77

DAFTAR GAMBAR

Gambar 2.1 Proses Knowledge Discovery in Database .......................................... 7

Gambar 2.2 Taksonomi Pada Model Information Retrieval ................................. 10

Gambar 2.3 Metode Pengumpulan Data ............................................................... 20

Gambar 5.1 Interface Halaman Awal ................................................................... 63

Gambar 5.2 Interface Halaman Login ................................................................... 64

Gambar 5.3 Interface Halaman Register ............................................................... 64

Gambar 5.4 Interface Halaman Utama Admin ..................................................... 65

Gambar 5.5 Interface Halaman Utama User......................................................... 66

Gambar 5.6 Interface Halaman Users ................................................................... 67

Gambar 5.7 Interface Halaman Roles ................................................................... 68

Gambar 5.8 Interface Halaman Hadits.................................................................. 70

Gambar 5.9 Interface Halaman Search ................................................................. 71

Gambar 5.10 Interface Halaman Logout ............................................................... 72

DAFTAR TABEL

Tabel 2.1 Perbandingan Algoritma Stemming ...................................................... 13

Tabel 2.2 Tabel Confusion Matrix ........................................................................ 16

Tabel 2.3 Tabel Studi Literatur Sejenis................................................................. 22

Tabel 2.4 Tabel Perbandingan Antara Studi Literatur .......................................... 25

Tabel 4.1 Proses Case Folding.............................................................................. 33

Tabel 4.2 Proses Tokenizing .................................................................................. 35

Tabel 4.3 Proses Stopword Removal/Filtering ..................................................... 40

Tabel 4.4 Proses Stemming Nazief-Adriani .......................................................... 45

Tabel 4.5 Hasil Perhitungan IDF .......................................................................... 48

Tabel 4.6 Hasil Perhitungan nilai W .................................................................... 49

Tabel 4.7 Penentuan Vektor Ortogonal ................................................................. 51

Tabel 4.8 Hasil Perhitungan Index Term............................................................... 53

Tabel 4.9 Hasil Perhitungan Korelasi Term .......................................................... 54

Tabel 4.10 Hasil Perhitungan Vektor Dokumen. .................................................. 57

Tabel 4.11 Hasil Perhitungan Similaritas Dokumen ............................................. 59

Tabel 4.12 Hasil Perangkingan Dokumen ............................................................ 59

DAFTAR BAGAN

Bagan 3.1 Kerangka Berpikir……………………………………………………32

Bagan 4.1 Alur Sistem …………………………………….............................….60

DAFTAR LAMPIRAN

Lampiran 1. Surat Dosen Pembimbing Skripsi ..................................................... 77

Lampiran 2. Surat Penelitian Skripsi ke Islamic Cultural Center Jakarta ............. 78

Lampiran 3. Hasil Wawancara dengan Ustaz Akmal Kamil ................................ 79

Lampiran 4. Hasil Wawancara dengan Ustaz Ahmad Hafidh Al-Kaff ................. 82

Lampiran 5. Source Code Proses Preprocessing .................................................. 84

Lampiran 6. Source Code Proses TF-IDF dan GVSM ......................................... 85

Lampiran 7. Tanda Bukti Pengujian Sistem ......................................................... 87

PENDAHULUAN

1.1. Latar Belakang

Islam adalah agama Rahmatan Lil ‘Alamin yang artinya membawa

keberkahan bagi seluruh umat manusia. Di dalam Islam, terdapat aturan atau

hukum yang menjadi pedoman bagi umatnya untuk menjalankan kehidupan.

Al-Quran dan hadits merupakan dua sumber hukum utama dalam Islam. Hal

ini tertuang dalam firman Allah SWT Surah An-Nisa ayat 59 yang artinya:

“Wahai orang-orang yang beriman! Taatilah Allah dan taatilah Rasul

(Muhammad) dan ulil amri (pemegang kekuasaan) di antara kamu.

Kemudian, jika kamu berbeda pendapat tentang sesuatu, maka kembalikanlah

kepada Allah (Al-Quran) dan Rasul (Sunnahnya), jika kamu beriman kepada

Allah dan hari kemudian. Yang demikian itu, lebih utama (bagimu) dan lebih

baik akibatnya”(QS. An-Nisa: 59). Selain itu, Allah mengancam orang-orang

yang menyalahi Rasul, seperti dalam firman-Nya yang artinya: “Maka

hendaklah orang-orang yang menyalahi perintah Rasul-Nya takut akan

mendapat cobaan atau ditimpa azab yang pedih”(QS. An-Nur: 63).

Berdasarkan wawancara yang telah penulis lakukan dengan Ustaz Akmal

Kamil selaku pengurus Islamic Cultural Center Jakarta pada 26 Juli 2019,

beliau mengatakan bahwa penting bagi umat Islam untuk mempelajari suatu

hadits. Hal ini disebabkan karena umat Islam tidak bisa hanya bersandar pada

Al-Quran saja, melainkan harus didampingi oleh hadits. Dalam mempelajari

suatu hadits, diperlukan peran seorang ustaz ataupun guru yang ahli pada

bidang tersebut. Permasalahan yang ada pada saat ini, sistem pencarian hadits

masih bersifat manual dengan melakukan pencarian melalui media fisik

hadits. Dan mengakses hadits melalui media fisik hadits terbilang belum

cukup efektif, karena kita harus membuka kitab hadits secara perlembar

sehingga membutuhkan waktu yang lama.

UIN Syarif Hidayatullah Jakarta

Sistem pencarian hadits melalui media fisik hadits belum cukup efektif

juga dikatakan oleh Ustaz Ahmad Hafidh Al-Kaff selaku pengurus Islamic

Cultural Center Jakarta, pada wawancara yang telah penulis lakukan tanggal

26 Juli 2019. Beliau mengatakan bahwa saat ini proses pencarian hadits masih

bersifat manual melalui media fisik hadits. Hal ini terbilang belum cukup

efektif karena membutuhkan waktu yang cukup lama untuk mencari

informasi mengenai suatu permasalahan tertentu.

Pada data mining, ada yang dinamakan dengan proses Knowledge

Discovery in Database (KDD) yang bertujuan untuk mengekstraksi

pengetahuan berdasarkan ukuran dan ambang batas tertentu dalam basis data

(Foroughi & Luksch, 2018). Selain itu, untuk mempermudah dalam proses

pencarian terjemahan hadits, ada yang dinamakan information retrieval

system atau sistem temu kembali informasi. Information retrieval system atau

sistem temu kembali informasi merupakan bagian dari computer science

tentang pengambilan informasi dari dokumen-dokumen yang didasarkan

pada isi dan konteks dari dokumen-dokumen itu sendiri (Subari &

Ferdinandus, 2015).

Salah satu metode yang bisa digunakan dalam information retrieval

adalah Generalized Vector Space Model. Penelitian mengenai Generalized

Vector Space Model (GVSM) sebelumnya terdapat beberapa penelitian,

penelitian oleh (Suprianto, Sunardi, & Fadlil, 2019) dengan judul “Aplikasi

Sistem Temu Kembali Angket Mahasiswa Menggunakan Metode

Generalized Vector Space Model”, membahas tentang aplikasi pencarian data

angket mahasiswa dengan menggunakan metode Generalized Vector Space

Model, dan stemming Arifin Setiono. Selain itu, pada penelitian ini hanya

dilakukan pengujian recall dan precision saja. Dalam penelitian lainnya yang

dilakukan oleh (Muktiari, Bijaksana, & Wahyudi, 2018) dengan judul

“Pembangunan Ensiklopedia Kosa Kata Al-Quran Menggunakan

Generalized Vector Space Model dan Semantics Relatedness”, membahas

tentang sistem pencarian arti kata di dalam Al-Quran menggunakan metode

GVSM. Namun, pada penelitian ini tidak dilakukan pengujian confusion

matrix.

Pada skripsi ini, penulis akan membuat sistem temu kembali informasi

menggunakan metode Generalized Vector Space Model. Stemming yang akan

digunakan adalah stemming Nazief-Adriani. Berdasarkan penelitian yang

dilakukan oleh (Purnamasari & Suwardi, 2018), stemming Nazief-Adriani

memiliki kelebihan tingkat akurasi yang baik. Selain itu, pada penelitian ini

akan dilakukan pengujian nilai precision untuk mengevaluasi kemampuan

sistem untuk menemukan peringkat yang paling relevan, recall untuk

mengevaluasi kemampuan sistem untuk menemukan semua item yang

relevan dari koleksi dokumen, dan accuracy sebagai perbandingan kasus

yang diidentifikasi benar dengan jumlah seluruh kasus.

Berdasarkan uraian latar belakang di atas yang telah dijelaskan, penulis

ingin merancang “Knowledge Discovery in Database Metode Generalized

Vector Space Model Pada Sistem Temu Kembali Informasi Terjemahan Kitab

Mizanul Hikmah Berbahasa Indonesia”.

1.2. Rumusan Masalah

Berdasarkan latar belakang yang telah dipaparkan sebelumnya dapat

dirumuskan bahwa permasalahan yang ada adalah bagaimana

mengimplementasikan metode Generalized Vector Space Model pada sistem

temu kembali informasi terjemahan kitab Mizanul Hikmah berbahasa

Indonesia?

1.3. Tujuan Penelitian

Berdasarkan permasalahan yang telah disebutkan di atas, maka tujuan

dari penelitian ini adalah untuk mengimplementasikan metode Generalized

Vector Space Model pada sistem temu kembali informasi terjemahan kitab

Mizanul Hikmah berbahasa Indonesia.

1.4. Manfaat Penelitian

Penyusunan tugas akhir ini memiliki manfaat dalam tiga kategori sebagai

berikut:

1.4.1. Manfaat Bagi Penulis

1. Mengaplikasikan ilmu-ilmu akademis yang didapat selama

perkuliahan ke dalam sistem temu kembali informasi terjemahan

kitab Mizanul Hikmah berbahasa Indonesia menggunakan metode

Generalized Vector Space Model.

2. Untuk memenuhi salah satu syarat dalam meraih gelar sarjana

dalam Fakultas Sains dan Teknologi jurusan Teknik Informatika

Universitas Islam Negeri Syarif Hidayatullah Jakarta.

1.4.2. Manfaat Bagi Pengguna

Mempermudah dalam pencarian informasi mengenai isi hadits

dalam terjemahan kitab Mizanul Hikmah berbahasa Indonesia.

1.4.3. Manfaat Bagi Universitas

Mengetahui tingkat kemampuan mahasiswa dalam menerapkan

ilmu-ilmu yang telah diperoleh selama perkuliahan.

1.5. Batasan Masalah

Agar pembahasan lebih terarah berdasarkan perumusan masalah di atas,

maka batasan masalah dalam penelitian ini penulis membagi menjadi tiga

bagian, yaitu:

1.5.1. Metode

1. Metode pengumpulan data yang digunakan adalah studi pustaka

dan wawancara.

2. Penulis menggunakan metode Knowledge Discovery in Database

(KDD).

1.5.2. Tools

1. Penulis menggunakan bahasa pemrograman PHP untuk

pengkodean.

2. Manajemen database dibuat menggunakan MySQL.

1.5.3. Proses

1. Penelitian ini berisi tentang implementasi metode Generalized

Vector Space Model (GVSM) pada Sistem Temu Kembali

Informasi.

2. Database hanya berasal dari Kitab Mizanul Hikmah karya

Muhammad Muhammadi Reysyahri dengan jumlah 308

terjemahan.

3. Melakukan tahapan preprocessing yaitu case folding, tokenizing,

stopword removal/filtering, dan stemming Nazief-Adriani.

4. Melakukan pembobotan kata dengan TF-IDF.

1.6. Metodologi Penelitian

Pada penyusunan skripsi ini, penulis mengumpulkan data-data dan bahan

materi yang dibutuhkan dengan metode antara lain:

1.6.1. Metode Pengumpulan Data

1.6.1.1 Wawancara

1.6.1.2 Studi Pustaka

1.6.2. Metode Knowledge Discovery in Database

Penulis menggunakan metode Knowledge Discovery in Database

(KDD) yang memiliki tahapan-tahapan sebagai berikut:

1.6.2.1 Selection

1.6.2.2 Preprocessing

1.6.2.3 Transformation

1.6.2.4 Data Mining

1.6.2.5 Interpretation/Evaluation

1.7. Sistematika Penulisan

Dalam penulisan skripsi ini, penulis membagi sistematika penulisan

skripsi ke dalam enam bab yang secara singkat akan penulis uraikan sebagai

berikut.

BAB I PENDAHULUAN

Pada bab ini dijelaskan mengenai latar belakang, rumusan masalah,

tujuan penelitian, manfaat penelitian, batasan masalah, metodologi

penelitian dan sistematika penulisan.

BAB II LANDASAN TEORI

Pada bab ini berisi mengenai teori-teori yang berkaitan dan

digunakan dalam penelitian.

BAB III METODOLOGI PENELITIAN

Pada bab ini berisi tentang langkah-langkah metodologi penelitian

serta metode yang digunakan.

BAB IV ANALISIS DAN PERANCANGAN SISTEM

Pada bab ini membahas mengenai analisis kebutuhan sistem dan

perancangan aplikasi.

BAB V HASIL DAN PEMBAHASAN

Pada bab ini dijelaskan mengenai hasil dan pembahasan penelitian

yang dilakukan penulis.

BAB VI PENUTUP

Pada bab ini dijelaskan mengenai kesimpulan dari hasil penelitian

dan saran yang dapat digunakan untuk pengembangan sistem yang

lebih baik di masa yang akan datang.

BAB II

LANDASAN TEORI

2.1. Knowledge Discovery in Database

Proses Knowledge Discovery in Database (KDD) diperkenalkan oleh

Fayyad et al. pada tahun 1996. Metode ini adalah metode yang menggunakan

teknik data mining untuk mengekstraksi pengetahuan berdasarkan ukuran

dan ambang batas tertentu dalam basis data dengan menggunakan proses

preprocessing, pengambilan sampel atau transformasi data (Foroughi &

Luksch, 2018).

Proses KDD adalah proses yang berulang dan interaktif dengan langkah-

langkah sebagai berikut (Gullo, 2015):

1. Selection: tujuan utamanya adalah untuk membuat data set target dari

dari data asli dengan memilih subset variabel atau sampel data.

2. Preprocessing: bertujuan untuk membersihkan data dengan

melakukan berbagai operasi, contohnya seperti pemodelan dan

penghapusan noise.

3. Transformation: bertujuan untuk mengurangi dan memproyeksikan

data untuk mendapatkan representasi yang sesuai dengan tugas

tertentu yang harus dilakukan.

4. Data Mining: berkaitan dengan pemilihan metode yang digunakan,

contohnya peringkasan, klasifikasi, pengelompokkan, regresi, dan

lan sebagainya.

5. Interpretation/Evaluation: bertujuan untuk menafsirkan dan

mengesktrak pengetahuan dari pola yang dikumpulkan.

Gambar 2.1 Proses Knowledge Discovery in Database

(Sumber: Gullo, 2015)

2.2. Generalized Vector Space Model (GVSM)

Generalized Vector Space Model adalah sebuah metode yang

menggunakan konsep dari ruang vektor. Kata kunci yang dimasukkan oleh

pengguna dan kumpulan dokumen yang tersedia diubah menjadi vektor-

vektor yang kemudian dilakukan operasi perkalian titik dan hasilnya akan

menjadi acuan yang digunakan untuk menemukan relevansi dari kata kunci

yang dimasukkan terhadap dokumen (Suprianto et al., 2019).

Metode Generalized Vector Space Model (GVSM) dapat digunakan

untuk menemukan hasil dari pencarian berdasarkan kata kunci yang

dimasukkan dengan langkah sebagai berikut (Suprianto et al., 2019):

1. Kata depan dan penghubung dihilangkan.

2. Menggunakan stemming untuk membuang kata dasar atau imbuhan.

3. Membuat minterm sesuai kata kunci yang diinputkan, kemudian

diubah menjadi vektor ortogonal sesuai pola panjangnya kata kunci.

Contohnya sebagai berikut:

𝑀1 = (0,0)

𝑀2 = (1,0)

𝑀𝑛 = (0,0)

4. Melakukan perhitungan kemunculan kata yang terdapat pada

dokumen berdasarkan kata kunci.

5. Perhitungan index term dapat dinyatakan pada persamaan di bawah

𝑘1 =

∑∀,𝑔𝑖(𝑚𝑟)=1 𝑐𝑖,𝑟 𝑚𝑟

√∑∀,𝑔𝑖(𝑚𝑟)=1 𝑐𝑖,𝑟2

Keterangan:

𝑘1 = index term ke-1

𝑚𝑟 = vektor ortogonal sesuai pola minterm

𝑐𝑖,𝑟 = faktor korelasi antara index term ke-i dengan minterm r

Kemudian faktor korelasi dapat dinyatakan pada persamaan.

𝑐𝑖,𝑟 = ∑ 𝑤𝑖,𝑗𝑑𝑗|𝑔𝑗(𝑑𝑗 )=𝑔𝑖(𝑚𝑟)

Keterangan:

𝑐𝑖,𝑟 = faktor korelasi antara index term i dengan minterm r

𝑤𝑖,𝑗 = Berat index term i pada dokumen j

𝑔𝑖(𝑚𝑟) = Bobot index term 𝑘𝑖 dalam minterm 𝑚𝑟

6. Melakukan pengubahan kata kunci dan dokumen dengan persamaan:

𝑑𝑗 = ∑ 𝑤𝑖𝑗

𝑛𝑖=1 x 𝑘𝑖

𝑞 = ∑ 𝑞𝑖𝑛𝑖=1 x 𝑘𝑖

Keterangan:

𝑑𝑗 = vektor dokumen ke-j

𝑞 = vektor query

𝑤𝑖𝑗 = berat index term i pada dokumen j

𝑞𝑖 = berat index term pada query i

𝑘𝑖 = index term

𝑛 = jumlah index term

7. Langkah terakhir yaitu melakukan perhitungan vektor untuk

mengurutkan dokumen berdasarkan tingkat persamaan atau

similaritas dengan persamaan:

sim(𝑑𝑗 ′𝑞 )=

𝑑𝑗 .��

|𝑑𝑗 ||�� |

Keterangan:

𝑞 = vektor query

2.3. Sistem Temu Kembali Informasi (Information Retrieval System)

Information Retrieval System atau Sistem Temu Kembali Informasi

merupakan bagian dari computer science tentang pengambilan informasi dari

dokumen-dokumen yang didasarkan pada isi dan konteks dari dokumen-

dokumen itu sendiri. Selain itu, sistem temu kembali informasi adalah suatu

sistem yang mampu melakukan penyimpanan, pencarian, dan pemeliharaan

informasi. Informasi dalam konteks ini dapat terdiri dari teks (termasuk data

numerik dan tanggal), gambar, audio, video, dan objek multimedia lainnya.

Tujuan dari sistem IR adalah memenuhi kebutuhan informasi pengguna

dengan me-retrieve semua dokumen yang mungkin relevan, pada waktu yang

sama me-retrieve sesedikit mungkin dokumen yang tidak relevan. Sistem IR

yang baik memungkinkan pengguna menentukan secara cepat dan akurat

apakah isi dari dokumen yang diterima memenuhi kebutuhannya (Subari &

Ferdinandus, 2015).

Dalam information retrieval, terdapat tiga model klasik yang dinamakan

boolean, vector, dan probabilistic. Pada model boolean, dokumen dan kueri

direpresentasikan sebagai kumpulan dari indeks kata yang disebut set

theoretic. Pada model vector, dokumen dan kueri direpresentasikan sebagai

vektor dalam sebuah ruang t-dimensional yang disebut algebraic. Pada

model probabilistic, kerangka untuk pemodelan dokumen dan kueri

direpresentasikan berdasarkan pada teori probabilitas yang disebut

probabilistic (Baeza-Yates & Ribeiro-Neto, 2011).

Selama bertahun-tahun, paradigma pemodelan alternatif untuk setiap

jenis model klasik (set theoretic, algebraic, dan probabilistic) telah

diusulkan. Pada set-theoretic terbagi menjadi fuzzy dan extended boolean.

Pada algebraic terbagi menjadi generalized vector space model, latent

semantic indexing dan neural networks. Pada probabilistic terbagi menjadi

inference network dan belief network (Baeza-Yates & Ribeiro-Neto, 2011).

Di samping referensi untuk konten teks, model juga mereferensikan

untuk struktur yang biasanya ada pada teks tertulis yang disebut structured

model. Structured model itu sendiri dibedakan menjadi non-overlapping lists

dan proximal nodes. Dan berkenaan dengan browsing, dibedakan menjadi

flat, structure guided, dan hypertext (Baeza-Yates & Ribeiro-Neto, 2011).

Gambar 2.2 Taksonomi Pada Model Information Retrieval

(Sumber: Baeza-Yates & Ribeiro-Neto, 2011)

2.4. Hadits

Menurut (Nasrudin & Royani, 2017) dalam bukunya yang berjudul

Kaidah-kaidah Ilmu Hadits Praktis mengatakan bahwa hadits adalah segala

sesuatu yang datang dari Nabi SAW, baik berupa perkataan, persetujuan,

ataupun sifat.

Sedangkan (Baqi, 2017) dalam bukunya yang berjudul Shahih Bukhari

Muslim, mendefinisikan hadits sebagai segala hal yang terjadi pada diri

Rasulullah SAW setelah kenabiannya, berupa ucapan, perbuatan, maupun

ketetapan.

Berdasarkan definisi di atas, penulis menyimpulkan bahwa hadits adalah

segala sesuatu yang berasal dari Nabi SAW baik berupa perkataan, perbuatan

maupun persetujuan yang terjadi setelah kenabiannya.

2.4.1. Hadits Menurut Syiah

Hadits menurut Syiah adalah perkataan, perbuatan dan taqrir dari

al-Ma’shum. Dan al-Ma’shum dalam pandangan Syiah tidak hanya

terbatas di kalangan para nabi dan rasul. Para imam mereka juga

termasuk dalam kategori ini. Bahkan pada sebagian kelompok ekstrem

Syiah, ada yang memandang bahwa kedudukan para imam jauh berada

di atas para nabi dan rasul kecuali Rasulullah SAW (Ahmad, 2017).

2.4.2. Mizanul Hikmah

Mizanul Hikmah (Skala Kebijaksanaan) adalah kumpulan narasi

dari Nabi SAW dan dua belas imam (as). Kumpulan hadits Syiah ini

digunakan sebagai kitab penting dalam Syiah untuk memahami ajaran

Al-Quran dan dasar-dasar etis Islam. Hadits ini ditulis oleh Muhammad

Muhammadi Reysyahri dan pertama kali diterbitkan pada bulan Maret

1983 dalam bahasa arab (al-islam.org).

2.5. Text Mining

Menurut Onno W. Purbo (Purbo, 2019) dalam bukunya yang berjudul

Text Mining: Analisis Medsos, Kekuatan Brand & Intelejen di Internet

mengatakan bahwa Text mining, juga disebut sebagai data text mining, kira-

kira setara dengan analisis teks, adalah proses untuk memperoleh informasi

berkualitas tinggi dari teks. Informasi berkualitas tinggi biasanya diperoleh

karena memperlihatkan pola dan tren melalui cara seperti mempelajari pola

statistik. Text mining biasanya melibatkan proses penataan teks input

(biasanya parsing, bersama dengan penambahan beberapa fitur linguistik dan

penghapusan kata, dan selanjutnya menyisipannya ke dalam database),

menurunkan pola dalam data yang terstruktur dan akhirnya mengevaluasi dan

menginterpretasi output. ‘Kualitas tinggi’ di text mining biasanya mengacu

pada beberapa kombinasi dari relevansi, kebaruan, dan kemenarikan. Text

mining biasanya termasuk kategorisasi teks, teks clustering, ekstraksi

konsep/entitas, produksi taksonomi granular, analisis sentimen, merangkum

dokumen, dan pemodelan hubungan entitas (misalnya, mempelajari

hubungan antarentitas).

Secara umum, terdapat empat proses yang perlu dijalankan dalam text

mining, antara lain (Purbo, 2019):

1. Akusisi data, pengumpulan data.

2. Penyiapan data, text pre-processing.

3. Pemodelan yang akan melalui proses looping dengan proses evaluasi dan

validasi. Proses feedback loop biasanya digunakan pada text streaming

mining.

4. Presentasi dan interaksi biasanya dilakukan untuk memvisualisasikan

hasil pemodelan yang dilakukan.

2.6. Preprocessing

Proses text mining membutuhkan tahapan preprocessing, karena

dokumen atau teks yang akan dilakukan proses text mining terdapat simbol-

simbol, imbuhan (awalan dan akhiran), karakter kapital, dan kata yang sering

muncul (stopword). Tahapan preprocessing dilakukan pada dokumen yang

akan dicari dan query pencarian yang pengguna masukkan. Ada beberapa

tahapan preprocessing yaitu case folding, tokenizing, filtering dan stemming

(Suprianto et al., 2019).

2.6.1. Case Folding

Case folding adalah sebuah tahapan yang digunakan untuk

merubah teks yang awalnya huruf besar menjadi huruf kecil semua.

Tahapan ini dilakukan agar proses text mining menjadi lebih mudah

2.6.2. Tokenizing

Tokenizing adalah sebuah tahapan yang digunakan untuk

memisahkan atau menghilangkan string input berdasarkan setiap kata

penyusunnya atau memisahkan setiap kata yang tersusun dalam suatu

dokumen. Bagian yang dihilangkan dapat berupa angka, karakter atau

simbol, dan tanda baca selain dari huruf alphabet, hal ini dilakukan

karena karakter tersebut tidak memiliki pengaruh dalam pemrosesan

suatu teks (Suprianto et al., 2019).

2.6.3. Filtering

Filtering atau stopword removal adalah proses untuk

menghilangkan kata yang terdapat pada dokumen yang tidak relevan

dengan cara menggunakan stoplist. Stoplist berisi kumpulan kata yang

tidak relevan atau tidak digunakan dalam pemrosesan bahasa alami

2.6.4. Stemming

Stemming adalah tahapan proses lanjutan setelah filtering yang

digunakan untuk membuang imbuhan awalan atau akhiran menjadi kata

dasar (Suprianto et al., 2019).

Pada penelitian ini, penulis menggunakan algoritma stemming

Nazief & Adriani. Adapun perbandingan antara algoritma stemming

Nazief-Adriani dengan yang lainnya dijelaskan pada tabel di bawah ini

(Purnamasari & Suwardi, 2018).

Tabel 2.1 Perbandingan Algoritma Stemming

Algoritma Kelebihan Kekurangan

Nazief-Adriani Akurasi yang baik. Membutuhkan memori

yang besar.

Arifin-Setiono Overstemming dapat

ditangani dengan

kombinasi imbuhan.

Adanya duplikasi awalan

dan akhiran.

Vega Bressan Tidak memerlukan

kamus.

Akurasinya rendah.

Ahmad, Yusoff, Sembok Overstemming bisa

ditangani.

Akurasinya tergantung

pada urutan aturan.

(Sumber: Purnamasari & Suwardi, 2018)

Algoritma stemming Nazief & Adriani memiliki beberapa tahapan

yaitu (Nugroho, 2017):

1. Cari kata yang akan distem dalam kamus. Jika ditemukan maka

diasumsikan bahwa kata tersebut adalah kata dasar. Maka

algoritma berhenti.

2. Infleksi akhiran (“-lah”,”-kah”,”-ku”,”-mu” atau “-nya”)

dibuang. Jika berupa partikel (“-lah”,”-kah”,”-tah” atau “-pun”)

maka langkah ini diulangi lagi untuk menghapus kata ganti

posesif (“-ku”,”-mu” atau “-nya”), jika ada.

3. Hapus penurunan akhiran (“-i”,”-an” atau “-kan”). Jika kata

ditemukan di kamus, maka algoritma berhenti. Jika tidak maka

ke langkah 3a.

a. Jika “-an” telah dihapus dan huruf terakhir dari kata

tersebut adalah “-k”, maka “-k” juga ikut dihapus. Jika kata

tersebut ditemukan dalam kamus maka algoritma berhenti.

Jika tidak ditemukan maka lakukan langkah 3b.

b. Akhiran yang dihapus (“-i”,”-an” atau “-kan”)

dikembalikan, lanjut ke langkah 4.

4. Hapus penurunan awalan. Jika pada langkah 3 ada akhiran yang

dihapus maka pergi ke langkah 4a, jika tidak pergi ke langkah

a. Periksa tabel kombinasi awalan akhiran yang tidak

diizinkan. Jika ditemukan maka algoritma berhenti, jika

tidak pergi ke langkah 4b.

b. Pada langkah ini dilakukan perulangan sebanyak tiga kali.

Tentukan tipe awalan kemudian hapus awalan. Jika kata

dasar belum juga ditemukan lakukan langkah 5, jika sudah

maka algoritma berhenti. Catatan: jika awalan kedua sama

dengan awalan pertama algoritma berhenti.

5. Melakukan Recoding.

6. Jika semua langkah telah selesai tetapi tidak juga berhasil maka

kata awal diasumsikan sebagai kata dasar lalu proses diakhiri.

2.7. TF-IDF

Dalam text mining, term weighting merupakan salah satu tahapan yang

sangat penting. Tahapan ini dilakukan dengan tujuan untuk memberikan suatu

nilai/bobot pada term yang terdapat pada suatu dokumen. Bobot yang

diberikan terhadap sebuah term bergantung kepada metode yang digunakan

untuk membobotinya. Metode yang digunakan dalam penelitian ini adalah

TF-IDF (Term Frequency-Inverse Document Frequency) (Yusuf, Fauzi, &

Brata, 2018).

TF-IDF adalah metode pembobotan yang paling umum digunakan untuk

menggambarkan dokumen dalam vector space model. TF-IDF umumnya

digunakan untuk membandingkan vektor query dengan vektor dokumen

menggunakan kesamaan (similarity) (Yusuf et al., 2018).

Term Frequency (TF) adalah faktor yang menentukan bobot term pada

suatu dokumen berdasarkan jumlah kemunculannya dalam dokumen tersebut.

Nilai jumlah kemunculan suatu kata (term frequency) diperhitungkan dalam

pemberian bobot terhadap suatu kata (term frequency). Semakin besar jumlah

kemunculan suatu term dalam dokumen, semakin besar pula bobotnya dalam

dokumen atau akan memberikan nilai kesesuaian yang semakin besar (Yusuf

et al., 2018).

Inverse Document Frequency (IDF) adalah pengurangan dominasi term

yang sering muncul di berbagai dokumen. Hal ini diperlukan karena term

yang banyak muncul di berbagai dokumen, dapat dianggap sebagai term

umum (common term) sehingga tidak penting nilainya. Sebaliknya faktor

kejarang munculan kata (term scarcity) dalam koleksi dokumen harus

diperhatikan dalam pemberian bobot. Kata yang muncul pada sedikit

dokumen harus dipandang sebagai kata yang lebih penting (uncommon term)

daripada kata yang muncul pada banyak dokumen. Pembobotan akan

memperhitungkan faktor kebalikan frekuensi dokumen yang mengandung

suatu kata (inverse document frequency). Hal ini merupakan usulan dari

George Zipf. Zipf mengamati bahwa frekuensi dari sesuatu cenderung

kebalikan secara proposional dengan urutannya. TF-IDF dihitung

menggunakan persamaan berikut (Yusuf et al., 2018):

IDF(𝑡𝑖) = log(|𝐷|

𝐷𝐹(𝑡𝑖) ) (2.6)

Keterangan:

IDF(𝑡𝑖) = inverse document frequency dari kata (term) 𝑡𝑖

D = jumlah dokumen latih keseluruhan

𝐷𝐹(𝑡𝑖) = jumlah dokumen latih yang memiliki kata (term) 𝑡𝑖

Kemudian persamaan untuk menghitung bobot kata (𝑤𝑖) dalam

dokumen dihitung menggunakan persamaan (Yusuf et al., 2018):

𝑤𝑖 = TF(𝑡𝑖, 𝑑) x IDF(𝑡𝑖) (2.7)

Keterangan:

𝑤𝑖 = bobot kata (term) dalam dokumen d

TF(𝑡𝑖, 𝑑) = banyaknya kata (term) 𝑡𝑖 yang muncul dalam dokumen d

IDF(𝑡𝑖) = inverse document frequency dari kata (term) 𝑡𝑖

2.8. Confusion Matrix

Confusion matrix adalah sebuah metode yang biasa digunakan untuk

perhitungan akurasi. Dalam pengujian keakuratan hasil pencarian akan

dievaluasi nilai recall, precision, dan accuracy. Dimana precision

mengevaluasi kemampuan sistem untuk menemukan peringkat yang paling

relevan, dan didefinisikan sebagai presentase dokumen yang di-retrieve dan

benar-benar relevan terhadap query. Recall mengevaluasi kemampuan sistem

untuk menemukan semua item yang relevan dari koleksi dokumen dan

didefinisikan sebagai presentase dokumen yang relevan terhadap query. Dan

accuracy merupakan perbandingan kasus yang diidentifikasi benar dengan

jumlah seluruh kasus (Melita, Amrizal, Suseno, & Dirjam, 2018).

Dalam information retrieval, sistem yang dikatakan baik adalah sistem

yang memiliki nilai recall dan precision tinggi. Adapun tabel confusion

matrix adalah sebagai berikut (Melita et al., 2018):

Tabel 2.2 Tabel Confusion Matrix

Document Nilai Sebenarnya

Relevant Non Relevant

Retrieved True Positives (TP)

Correct Result

False Positives (FP)

Unexpected Result

Non Retrieved False Negatives (FN)

Missing Result

True Negatives (TN)

Correct Absence of

Result

(Sumber: Melita et al., 2018)

Sehingga, persamaannya adalah sebagai berikut (Melita et al., 2018):

Precision = 𝑇𝑃

(𝑇𝑃+𝐹𝑃) (2.8)

Recall = 𝑇𝑃

(𝑇𝑃+𝐹𝑁) (2.9)

Accuracy = 𝑇𝑃+𝑇𝑁

(𝑇𝑃+𝐹𝑃+𝑇𝑁+𝐹𝑁) (2.10)

2.9. PHP

PHP merupakan kependekan dari PHP Hypertext Preprocessor yaitu

bahasa pemrograman web yang dapat disisipkan dalam skrip HTML dan

bekerja di sisi server. Tujuan dari bahasa ini adalah membantu para

pengembangan web untuk membuat web dinamis dengan cepat (Abdulloh,

2018).

2.9.1. Fungsi PHP

Fungsi PHP dalam pemrograman web diantaranya sebagai berikut

(Abdulloh, 2018):

1. Menghasilkan halaman dinamis pada website.

2. Membuat, membuka, menulis, membaca, menghapus dan

menutup file pada server.

3. Memproses data yang dikirim dari form.

4. Mengirim dan mengakses cookie.

5. Modifikasi data pada database.

6. Mengontrol akses user.

7. Mengenkripsi data.

2.9.2. Kelebihan PHP

Menurut (Kawistara, 2016) dalam bukunya yang berjudul

Pemrograman Web Edisi Revisi, adapun kelebihan PHP yaitu:

1. PHP berbasis Server Side Scripting.

2. Command Line Scripting pada PHP.

3. PHP dapat Membuat Aplikasi Desktop.

4. Digunakan untuk Berbagai Macam Platform OS.

5. Mendukung Berbagai Macam Web Server.

6. Object Oriented Programming atau Procedural.

7. Output file PHP pada XHTML, HTML & XML.

8. Mendukung Banyak RDMS (Database).

9. Mendukung Banyak Komunikasi.

10. Pengolahan Teks yang Sangat Baik.

2.10. MySQL

MySQL adalah RDBMS yang cepat dan mudah digunakan, serta sudah

banyak dipakai untuk berbagai kebutuhan. MySQL dikembangkan oleh

MySQL AB Swedia. Hampir sebagian besar aplikasi website yang ada di

internet dikembangkan menggunakan MySQL dan bahasa pemrograman

lainnya, seperti PHP. Berikut ini hal-hal yang menyebabkan MySQL

menjadi begitu popular (Enterprise, 2017):

1. Berlisensi open-source, sehingga kita dapat menggunakannya secara

gratis.

2. Merupakan program yang powerful dan menyediakan fitur yang

lengkap.

3. Menggunakan bentuk standar bahasa data SQL.

4. Dapat bekerja dengan banyak sistem operasi dan dengan bahasa-

bahasa pemrograman, seperti PHP, PERL, C, C++, JAVA, dan lain-

5. Bekerja dengan cepat dan baik, bahkan dengan data set yang banyak.

6. Sangat mudah digunakan dengan PHP untuk pengembangan aplikasi

7. Mendukung banyak database, sampai 50 juta baris atau lebih dalam

suatu tabel.

8. Dapat dikustomisasi sesuai dengan keinginan kita.

2.11. XAMPP

XAMPP adalah perangkat lunak bebas, yang mendukung banyak

sistem operasi. Fungsinya adalah sebagai server yang berdiri sendiri

(localhost), yang terdiri atas program Apache HTTP Server, MySQL

database, dan penerjemah bahasa yang ditulis dengan bahasa pemrograman

PHP dan Perl. Nama XAMPP merupakan singkatan dari X (empat sistem

operasi apapun), Apache, MySQL, PHP dan Perl. Program ini tersedia

dalam GNU (General Public License) dan bebas, mudah digunakan, dan

dapat melayani tampilan halaman web yang dinamis. Selain itu, XAMPP

100% open source, tersedia bebas dan legal (Siregar & Taufik, 2017).

2.12. Metode Pengumpulan Data

Metode pengumpulan data adalah bagian instrumen pengumpulan data

yang menentukan berhasil atau tidaknya suatu penelitian. Kesalahan

penggunaan metode pengumpulan data atau metode pengumpulan data yang

tidak digunakan semestinya, berakibat fatal terhadap hasil-hasil penelitian

yang dilakukan (Bungin, 2017).

Ada dua metode utama dalam pengumpulan informasi tentang situasi,

masyarakat, masalah atau fenomena. Kadang-kadang informasi yang

diperlukan telah tersedia dan hanya perlu diambil dan dianalisis. Tetapi,

seringkali informasi yang diperlukan tersebut harus dikumpulkan sendiri

oleh peneliti. Berdasarkan cara pengumpulan informasi tersebut, maka ada

dua kategori metode pengumpulan data yaitu data sekunder dan data primer

(Widi, 2018).

Gambar 2.3 Metode Pengumpulan Data

(Sumber: Widi, 2018)

2.12.1. Pengamatan (Observation)

Observasi atau pengamatan adalah kegiatan keseharian menusia

dengan menggunakan pancaindra mata sebagai alat bantu utamanya

selain pancaindra lainnya seperti telinga, penciuman, mulut dan

kullit. Oleh karena itu, observasi adalah kemampuan seseorang

untuk menggunakan pengamatannya melalui hasil kerja pancaindra

mata serta dibantu dengan pancaindra lainnya (Bungin, 2017).

2.12.2. Wawancara (Interview)

Wawancara atau interview adalah sebuah proses memperoleh

keterangan untuk tujuan penelitian dengan cara tanya jawab sambil

bertatap muka antara pewawancara dengan responden atau orang

yang diwawancarai, dengan atau tanpa menggunakan pedoman

(guide) wawancara. Inti dari metode wawancara ini bahwa di setiap

penggunaan metode ini selalu ada beberapa pewawancara,

responden, materi wawancara dan pedoman wawancara (yang

terakhir ini tidak harus ada) (Bungin, 2017).

2.12.3. Angket (Questionnaire)

Sering pula motode angket disebut pula sebagai metode

kuesioner atau dalam bahasa Inggris disebut questionnaire (daftar

pertanyaan). Metode angket merupakan serangkaian atau daftar

pertanyaan yang disusun secara sistematis, kemudian dikirim untuk

diisi oleh responden. Setelah diisi, angket dikirim kembali atau

dikembalikan kepetugas atau peneliti. Bentuk umum sebuah angket

terdiri dari bagian pendahuluan berisikan petunjuk pengisian angket,

bagian identitas berisikan identitas responden seperti: nama, alamat,

umur, pekerjaan, jenis kelamin, status pribadi dan sebagainya,

kemudian baru memasuki bagian isi angket (Bungin, 2017).

2.13. Studi Literatur Sejenis

Dalam penelitian ini, penulis menggunakan literatur penelitian sejenis yang sudah ada sebelumnya. Hal ini dimaksudkan

untuk membandingkan studi literatur tersebut. Berikut ini tabel literatur sejenis yang penulis gunakan:

Tabel 2.3 Tabel Studi Literatur Sejenis

No. Judul Metode Deskripsi

1. Implementasi Generalized

Vector Space Model (GVSM)

dalam Pencarian Buku di

Perpustakaan

(I Made Suwija Putra, Ni

Putu Ayu Widiari, I Wayan

Gunaya, 2019)

- Preprocessing yang digunakan adalah

tokenizing, stopword removal, dan

stemming Porter.

- Menggunakan metode Generalized

Vector Space Model.

- Menggunakan metode pengujian

precision dan recall.

- Melakukan pencarian buku

berdasarkan query yang dimasukkan

pengguna.

- Mendapatkan hasil perbandingan nilai

precision dan recall sebesar 0,703 dan

0,910 yang artinya sistem pencarian

dengan metode GVSM ini masih

efektif digunakan.

2. Aplikasi Sistem Temu

Kembali Angket Mahasiswa

Menggunakan Metode

Generalized Vector Space

case folding, tokenizing, filtering,

stemming Arifin Setiono.

- Menggunakan pembobotan kata TF-

- Menggunakan metode Generalized

Vector Space Model.

- Melakukan proses pencarian pada data

angket mahasiswa, dokumen yang

memiliki tingkat kemiripan tertinggi

dengan kata kunci otomatis berada di

posisi paling atas.

- Didapatkan rata-rata nilai precision

sebesar 72%, dan recall sebesar 100%.

(Suprianto, Sunardi &

Abdul Fadlil, 2019)

- Menggunakan pengujian recall dan

precision.

3. Latent Semantic Indexing for

Indonesia Text Similarity

(Robbi Rahim, Nuning

Kurniasih, Muhammad

Dedi Irawan, Yustria

Handika Siregar,

Abdurrozaq Hasibuan,

Deffi Ayu Puspito Sari,

Tiarma Simanihuruk, Dian

Utami Sutiksno, Erland

Mouw, Idris Sudin &

Achmad Daengs GS, 2018)

tokenizing dan stopword removal.

- Menggunakan metode pembobotan

TF-IDF.

- Menggunakan metode Latent Semantic

Indexing.

- Melakukan proses kesamaan teks

berbahasa Indonesia.

- Penggunaan metode Latent Semantic

Indexing dapat memberikan nilai eror

yang kecil untuk mendeteksi kesamaan

suatu teks.

4. Implementation of

Generalized Vector Space

Model Method at Automatic

Assessment of Online Essay

case folding, tokenizing, filtering, dan

stemming.

- Menggunakan pembobotan TF-TC.

- Melakukan proses penilaian ujian esai

otomatis dengan menggunakan metode

- Didapatkan nilai rata-rata akurasi 66%,

selain itu metode GVSM dapat

(Muhammad Arafah,

Pastur & Fahmi Idrus,

- Menggunakan metode GVSM, dan

cosine similarity.

diimplementasikan dengan mudah dan

sistemnya cukup cepat.

5. Pembangunan Ensiklopedia

Kosa Kata Al-Quran

Menggunakan Generalized

Vector Space Model dan

Semantics Relatedness

(Annisa Dian Muktiari,

Moch. Arif Bijaksana &

Bambang Ari Wahyudi,

stopword removal, stemming dan

tokenizing.,

- Menggunakan metode GVSM.

- Melakukan proses pencarian arti kata

dalam Al-Quran, dan memberikan lima

dokumen yang dianggap relevan.

- Melakukan analisis perbandingan

antara metode Vector Space Model,

Generalized Vector Space Model, dan

Latent Semantic Indexing.

6. Information Retrieval using

Cosine and Jaccard Similarity

Measures in Vector Space

- Menggunakan metode VSM.

- Menggunakan metode cosine

similarity, dan jaccard similarity.

- Melakukan proses kesamaan teks.

- Memberikan gambaran singkat tentang

dasar information retrieval, VSM,

dengan pembobotan TF-IDF, dan

langkah-langkah cosine serta jaccard

similarity.

(Abhishek Jain, Aman Jain,

Nihal Chauhan, Vikrant

Singh & Narina Thakur,

7. Application of Vector Space

Model to Query Ranking and

Information Retrievel

(E.E. Ogheneovo, dan R.B.

Japheth, 2016)

- Menggunakan metode VSM.

- Menggunakan metode cosine

similarity.

- Melakukan proses pencarian informasi

dari internet dengan lebih efektif dan

efisien dengan menggunakan Vector

Space Model.

- Menerapkan DBMS sebagai database.

Sebagaimana yang terlihat pada tabel 2.3 di atas, terdapat beberapa penelitian terkait model algebraic pada information

retrieval, baik itu penelitian mengenai metode Generalized Vector Space Model, Latent Semantic Indexing, dan Vector Space

Model. Berdasarkan hal tersebut, dapat diketahui perbedaan dan keunggulan dari penelitian yang dilakukan oleh penulis

dibandingkan dengan penelitian-penelitian yang telah dilakukan sebelumnya, sebagaimana terlihat pada tabel 2.4 di bawah ini:

Tabel 2.4 Tabel Perbandingan Antara Studi Literatur

No. Judul Stemming

Nazief-

Adriani

TF-IDF Generalized

Vector Space

Pengujian Confusion Matrix

Precision Recall Accuracy

1. Implementasi

Generalized Vector

Space Model

(GVSM) dalam

Pencarian Buku di

Perpustakaan

(Putra, Widiari,

& Gunaya, 2019)

2. Aplikasi Sistem

Temu Kembali

Angket Mahasiswa

Menggunakan

Metode

Generalized Vector

Space Model

(Suprianto et al.,

3. Latent Semantic

Indexing for

Indonesia Text

Similarity

(Rahim et al.,

- - - - -

4. Implementation of

Generalized Vector

Space Model

Method at

Automatic

Assessment of

Online Essay Exam

(Arafah, Pasnur,

& Idrus, 2018)

- - - - -

5. Pembangunan

Ensiklopedia Kosa

Kata Al-Quran

- - - -

Menggunakan

Generalized Vector

Space Model dan

Semantics

Relatedness

(Muktiari et al.,

6. Information

Retrieval using

Cosine and

Jaccard Similarity

Measures in Vector

Space Model

(Jain, Jain,

Chauhan, Singh,

& Thakur, 2017)

- - - - -

7. Application of

Vector Space

- - - - -

Model to Query

Ranking and

Information

Retrievel

(Ogheneovo &

Japheth, 2016)

8. Knowledge

Discovery in

Database Metode

Generalized Vector

Space Model Pada

Sistem Temu

Kembali Informasi

Terjemahan Kitab

Mizanul Hikmah

Berbahasa

Indonesia

(Nur Rina Utami,

BAB III

METODOLOGI PENELITIAN

3.1. Metode Pengumpulan Data

Dalam skripsi ini penulis menggunakan dua metode dalam pengumpulan

data, dimana wawancara dilakukan untuk memperoleh data primer, dan studi

pustaka dilakukan untuk memperoleh data sekunder.

3.1.1. Data Primer

3.1.1.1. Wawancara

Pada metode ini penulis melakukan wawancara kepada Ustaz

Akmal Kamil dan Ustaz Ahmad Hafidh Al-Kaff, selaku pengurus

Islamic Cultural Center Jakarta pada Jumat, 26 Juli 2019.

Wawancara ini dilakukan untuk memperoleh dan mengumpulkan

data yang dibutuhkan antara lain data pendukung untuk latar

belakang, dan permasalahan terkait proses pencarian hadits.

Adapun permasalahan tersebut yaitu proses pencarian hadits masih

bersifat manual dan pencarian hadits melalui media fisik hadits

(manual) terbilang belum cukup efektif.

3.1.2. Data Sekunder

3.1.2.1. Studi Pustaka

Pada metode pengumpulan data dengan cara studi pustaka,

penulis mencari data-data pendukung yang relevan dengan objek

yang akan diteliti. Data-data pendukung tersebut digunakan dalam

penyusunan latar belakang, landasan teori, metodologi penelitian

dan pengembangan sistem. Pencarian bersumber dari buku

berjumlah 12 buku, jurnal berjumlah 16 jurnal, dan website

berjumlah 1 website.

3.2. Metode Knowledge Discovery in Database

Dalam penelitian ini, penulis menggunakan metode Knowledge

Discovery in Database yang terdiri dari:

3.2.1. Selection

Pada tahap ini dilakukan proses memilih dan membuat data set

yang akan digunakan. Selain itu, pada tahap ini juga ditentukan apa

tujuan dari proses knowledge discovery, termasuk mencari data apa saja

yang tersedia, memperoleh data tambahan, dan mengintegrasikan

semua data untuk proses knowledge discovery menjadi satu data set.

3.2.2. Preprocessing

Pada tahap ini dilakukan proses pembersihan data, seperti

menangani nilai yang hilang dan menghilangkan noise.

3.2.3. Transformation

Tahap ini dilakukan untuk menghasilkan data yang lebih baik

untuk data mining. Proses yang dilakukan antara lain, pengurangan

dimensi (seperti pemilihan dan ekstraksi fitur, dan pengambilan

sampel), dan transformasi atribut.

3.2.4. Data Mining

Pada tahap ini dilakukan penentuan metode data mining apa yang

akan digunakan untuk pencarian pola.

3.2.5. Interpretation/Evaluation

Pada tahap ini dilakukan proses evaluasi dan interpretasi dari pola

yang sudah didapat sesuai dengan tujuan yang sudah ditentukan.

3.3. Kerangka Berpikir

Bagan 3.1 Kerangka Berpikir

BAB IV

ANALISIS DAN PERANCANGAN SISTEM

4.1. Proses Knowledge Discovery in Database

4.1.1. Selection

Data yang digunakan dalam penelitian ini berasal dari kitab Mizanul

Hikmah jilid 1 karya Muhammad Muhammadi Reysyahri yang berisi

terjemahan kitab Mizanul Hikmah berbahasa Indonesia. Jumlah dataset

yang digunakan adalah sebanyak 308 terjemahan.

4.1.2. Preprocessing

Proses text mining membutuhkan tahapan preprocessing, karena

dokumen atau teks yang akan dilakukan proses text mining terdapat

simbol-simbol, imbuhan (awalan dan akhiran), karakter kapital, dan

kata yang sering muncul (stopword). Tahapan preprocessing dilakukan

pada dokumen yang akan dicari dan query pencarian yang pengguna

masukkan.

Pada penelitian ini, penulis berikan contoh query “berilmu,

bernilai, dan beradab”. Sehingga, hadits yang diproses harus sesuai

dengan query yang dimasukkan. Adapun hadits yang dijadikan contoh

yaitu hadits nomor 115, 116, 138, 140, 168, dan 306. Dengan rincian,

hadits nomor 115 memiliki kata adab, hadits nomor 116 memiliki kata

adab, ilmu dan nilai, hadits nomor 138 memiliki kata adab dan ilmu,

hadits nomor 140 memiliki kata ilmu, dan adab, hadits nomor 168

memiliki kata ilmu dan hadits nomor 306 tidak memiliki kata adab,

ilmu dan nilai. Selanjutnya, tahap preprocessing dokumen akan

dijelaskan prosesnya sebagai berikut:

1. Case Folding

Case folding adalah sebuah tahapan yang digunakan

untuk merubah teks yang awalnya huruf besar menjadi huruf

kecil semua. Hasil dari penerapan case folding adalah

sebagai berikut:

Tabel 4.1 Proses Case Folding

No. Sebelum Case Folding Setelah Case Folding

D1 Imam Ali as berkata, "Adab

merupakan kesempurnaan

seseorang."1

imam ali as berkata, "adab

seseorang."1

D2 Diriwayatkan dari Imam Ali as,

"Wahai mukmin, sesungguhnya

ilmu dan adab merupakan nilai

dirimu. Oleh karenanya,

hendaknya engkau bersungguh-

sungguh mempelajari

keduanya. Apa pun yang

menambah ilmu dan adabmu, ia

akan menambah pula pada

harga dan nilai dirimu."2

diriwayatkan dari imam ali as,

"wahai mukmin, sesungguhnya ilmu

dan adab merupakan nilai dirimu.

oleh karenanya, hendaknya engkau

bersungguh-sungguh mempelajari

keduanya. apa pun yang menambah

ilmu dan adabmu, ia akan

menambah pula pada harga dan nilai

dirimu."2

"Duduklah bersama ulama,

niscaya ilmumu bertambah,

adabmu menjadi lebih baik, dan

jiwamu menjadi suci."3

diriwayatkan dari imam ali as,

"duduklah bersama ulama, niscaya

ilmumu bertambah, adabmu

menjadi lebih baik, dan jiwamu

menjadi suci."3

"Jika ilmu seseorang

bertambah, niscaya adabnya

bertambah pula dan rasa

takutnya kepada Tuhannya

meningkat."5

diriwayatkan dari imam ali as, "jika

ilmu seseorang bertambah, niscaya

adabnya bertambah pula dan rasa

takutnya kepada tuhannya

meningkat."5

D5 Imam Ali as berkata,

"Hendaknya orang yang

menjadi muazin adalah yang

paling fasih di antara kalian,

dan yang menjadi imam (salat

berjamaah) adalah yang paling

imam ali as berkata, "hendaknya

orang yang menjadi muazin adalah

yang paling fasih di antara kalian,

dan yang menjadi imam (salat

berjamaah) adalah yang paling fakih

(orang yang ilmunya mendalam) di

antara kalian."2

fakih (orang yang ilmunya

mendalam) di antara kalian."2

D6 Imam Ali as berkata, "Seorang

imam membutuhkan hati yang

berakal (memahami), lisan

yang fasih, dan kekuatan untuk

menegakkan kebenaran."4

imam ali as berkata, "seorang imam

membutuhkan hati yang berakal

(memahami), lisan yang fasih, dan

kekuatan untuk menegakkan

kebenaran."4

Tabel 4.1 merupakan hasil dari penerapan case folding.

Pada tahap ini teks yang ada dirubah menjadi huruf kecil

semua. Tahapan ini dilakukan agar proses text mining

menjadi lebih mudah.

2. Tokenizing

Tokenizing adalah sebuah tahapan yang digunakan untuk

memisahkan atau menghilangkan string input berdasarkan

setiap kata penyusunnya atau memisahkan setiap kata yang

tersusun dalam suatu dokumen. Hasil dari penerapan

tokenizing adalah sebagai berikut:

Tabel 4.2 Proses Tokenizing

No. Sebelum Tokenizing Setelah Tokenizing

D1 imam ali as berkata, "adab

seseorang."

berkata

merupakan

kesempurnaan

seseorang

D2 diriwayatkan dari imam ali as,

"wahai mukmin, sesungguhnya

ilmu dan adab merupakan nilai

dirimu. oleh karenanya,

diriwayatkan

hendaknya engkau bersungguh-

sungguh mempelajari keduanya.

apa pun yang menambah ilmu

dan adabmu, ia akan menambah

pula pada harga dan nilai

dirimu."

mukmin

sesungguhnya

merupakan

dirimu

karenanya

hendaknya

engkau

bersungguh

sungguh

mempelajari

keduanya

menambah

adabmu

menambah

dirimu

"duduklah bersama ulama,

niscaya ilmumu bertambah,

adabmu menjadi lebih baik, dan

jiwamu menjadi suci."

diriwayatkan

duduklah

bersama

niscaya

ilmumu

bertambah

adabmu

menjadi

jiwamu

menjadi

"jika ilmu seseorang bertambah,

niscaya adabnya bertambah pula

dan rasa takutnya kepada

tuhannya meningkat."

diriwayatkan

seseorang

bertambah

niscaya

adabnya

bertambah

takutnya

kepada

tuhannya

meningkat

D5 imam ali as berkata, "hendaknya

orang yang menjadi muazin

adalah yang paling fasih di antara

kalian, dan yang menjadi imam

(salat berjamaah) adalah yang

paling fakih (orang yang ilmunya

mendalam) di antara kalian."2

berkata

hendaknya

menjadi

muazin

adalah

paling

antara

kalian

menjadi

berjamaah

adalah

paling

ilmunya

mendalam

antara

kalian

D6 imam ali as berkata, "seorang

imam membutuhkan hati yang

berakal (memahami), lisan yang

fasih, dan kekuatan untuk

menegakkan kebenaran."

berkata

seorang

membutuhkan

berakal

memahami

kekuatan

menegakkan

kebenaran

Tabel 4.2 merupakan hasil dari penerapan tokenizing.

Pada tahap ini ada beberapa bagian yang dihilangkan yaitu

angka, karakter atau simbol, dan tanda baca, selain dari huruf

alphabet. Hal ini dilakukan karena karakter tersebut tidak

memiliki pengaruh dalam pemrosesan suatu teks.

3. Stopword Removal/Filtering

Filtering atau stopword removal adalah proses untuk

menghilangkan kata yang terdapat pada dokumen yang tidak

relevan dengan cara menggunakan stoplist. Stoplist berisi

kumpulan kata yang tidak relevan atau tidak digunakan

dalam pemrosesan bahasa alami. Hasil dari penerapan

stopword removal adalah sebagai berikut:

Tabel 4.3 Proses Stopword Removal/Filtering

No. Sebelum Filtering Setelah Filtering

D1 imam imam

ali ali

berkata berkata

adab adab

merupakan x

kesempurnaan kesempurnaan

seseorang x

D2 diriwayatkan diriwayatkan

dari x

imam imam

ali ali

wahai x

mukmin mukmin

sesungguhnya sesungguhnya

ilmu ilmu

adab adab

merupakan x

nilai nilai

dirimu dirimu

oleh x

karenanya x

hendaknya x

engkau engkau

bersungguh bersungguh

sungguh sungguh

mempelajari mempelajari

keduanya x

yang x

menambah menambah

ilmu ilmu

adabmu adabmu

akan x

menambah menambah

pula x

pada x

harga harga

nilai nilai

dirimu dirimu

dari x

imam imam

ali ali

duduklah duduklah

bersama x

ulama ulama

niscaya niscaya

ilmumu ilmumu

bertambah bertambah

adabmu adabmu

menjadi x

lebih x

baik baik

jiwamu jiwamu

menjadi x

suci suci

dari x

imam imam

ali ali

jika x

ilmu ilmu

seseorang x

bertambah bertambah

niscaya niscaya

adabnya adabnya

bertambah bertambah

pula x

rasa rasa

takutnya takutnya

kepada x

tuhannya tuhannya

meningkat meningkat

D5 imam imam

ali ali

berkata berkata

hendaknya x

orang x

yang x

menjadi x

muazin muazin

adalah x

yang x

paling x

fasih fasih

antara x

kalian x

yang x

menjadi x

imam imam

salat salat

berjamaah berjamaah

adalah x

yang x

paling x

fakih fakih

orang x

yang x

ilmunya ilmunya

mendalam mendalam

antara x

kalian x

D6 imam imam

ali ali

berkata berkata

seorang x

imam imam

membutuhkan membutuhkan

hati hati

yang x

berakal berakal

memahami memahami

lisan lisan

yang x

fasih fasih

kekuatan kekuatan

untuk x

menegakkan menegakkan

kebenaran kebenaran

Tabel 4.3 merupakan hasil dari penerapan stopword

removal. Pada tahap ini, hasil dari proses tokenizing yang

dilakukan sebelumnya akan dicocokkan dengan stoplist yang

ada. Jika token yang dicek merupakan stoplist, maka token

tersebut akan dihapus. Sedangkan jika bukan, maka token

akan dibiarkan tetap ada.

4. Stemming

Stemming adalah tahapan proses lanjutan setelah

filtering yang digunakan untuk membuang imbuhan awalan

atau akhiran menjadi kata dasar. Pada penelitian ini penulis

menggunakan stemming Nazief-Adriani. Hasil dari

penerapan stemming Nazief-Adriani adalah sebagai berikut:

Tabel 4.4 Proses Stemming Nazief-Adriani

No. Sebelum Stemming Setelah Stemming

D1 imam imam

ali ali

berkata kata

adab adab

kesempurnaan sempurna

D2 diriwayatkan riwayat

imam imam

ali ali

mukmin mukmin

sesungguhnya sungguh

ilmu ilmu

adab adab

nilai nilai

dirimu diri

engkau engkau

bersungguh sungguh

sungguh sungguh

mempelajari ajar

menambah tambah

ilmu ilmu

adabmu adab

menambah tambah

harga harga

nilai nilai

dirimu diri

imam imam

ali ali

duduklah duduk

ulama ulama

niscaya niscaya

ilmumu ilmu

bertambah tambah

adabmu adab

baik baik

jiwamu jiwa

suci suci

imam imam

ali ali

ilmu ilmu

bertambah tambah

niscaya niscaya

adabnya adab

bertambah tambah

rasa rasa

takutnya takut

tuhannya tuhan

meningkat tingkat

D5 imam imam

ali ali

berkata kata

muazin muazin

fasih fasih

imam imam

salat salat

berjamaah jamaah

fakih fakih

ilmunya ilmu

mendalam dalam

D6 imam imam

ali ali

berkata kata

imam imam

membutuhkan butuh

hati hati

berakal akal

memahami paham

lisan lisan

fasih fasih

kekuatan kuat

menegakkan tegak

kebenaran benar

Tabel 4.4 merupakan hasil dari penerapan stemming.

Pada tahap stemming ini, dilakukan pengecekan kata dasar

terhadap term yang ada. Jika term merupakan kata

berimbuhan, maka akan dilakukan stemming dengan cara

menghapus inflection suffix (seperti -lah, -kah, -ku, -mu atau

-nya), menghapus derivation suffix (seperti -i,-an atau -kan),

dan menghapus derivation prefix (seperti di-, ke-, se-, dsb).

4.1.3. Transformation

Setelah proses preprocessing (tahap dari case folding sampai

stemming) selesai, maka selanjutnya akan dilakukan proses

pembobotan kata dengan menggunakan TF-IDF. Adapun rincian proses

pembobotan kata dengan TF-IDF adalah sebagai berikut:

Tabel 4.5 Hasil Perhitungan IDF

Terms TF DF IDF

Q 𝐃𝟏 𝐃𝟐 𝐃𝟑 𝐃𝟒 𝐃𝟓 𝐃𝟔 |𝐃|

𝐃𝐅(𝐭𝐢) 𝒍𝒐𝒈(

|𝐃|

𝐃𝐅(𝐭𝐢) )

adab 1 1 2 1 1 4 1,5 0,17609

ajar 1 1 6 0,77815

akal 1 1 6 0,77815

ali 1 1 1 1 1 1 6 1 0

as 1 1 1 1 1 1 6 1 0

baik 1 1 6 0,77815

benar 1 1 6 0,77815

butuh 1 1 6 0,77815

dalam 1 1 6 0,77815

diri 2 1 6 0,77815

duduk 1 1 6 0,77815

engkau 1 1 6 0,77815

fakih 1 1 6 0,77815

fasih 1 1 2 3 0,47712

harga 1 1 6 0,77815

hati 1 1 6 0,77815

ilmu 1 2 1 1 1 4 1,5 0,17609

imam 1 1 1 1 2 2 6 1 0

jamaah 1 1 6 0,77815

jiwa 1 1 6 0,77815

kata 1 1 1 3 2 0,30103

kuat 1 1 6 0,77815

lisan 1 1 6 0,77815

muazin 1 1 6 0,77815

mukmin 1 1 6 0,77815

nilai 1 2 1 6 0,77815

niscaya 1 1 2 3 0,47712

paham 1 1 6 0,77815

rasa 1 1 6 0,77815

riwayat 1 1 1 3 2 0,30103

salat 1 1 6 0,77815

sempurna 1 1 6 0,77815

suci 1 1 6 0,77815

sungguh 3 1 6 0,77815

takut 1 1 6 0,77815

tambah 2 1 2 3 2 0,30103

tegak 1 1 6 0,77815

tingkat 1 1 6 0,77815

tuhan 1 1 6 0,77815

ulama 1 1 6 0,77815

Tabel 4.5 merupakan hasil perhitungan IDF dari term yang ada.

Kolom DF pada term adab diperoleh dari jumlah dokumen yang

mengandung term “adab” yaitu sebanyak 4 dokumen. Kolom D/DF

diperoleh dari jumlah dokumen dibagi dengan nilai DF. Kolom IDF

diperoleh dari hasil perhitungan log dari nilai D/DF. Setelah dilakukan

perhitungan nilai IDF, kemudian dapat dilakukan perhitungan nilai

weight (w) pada tabel 4.6 dibawah ini:

Tabel 4.6 Hasil Perhitungan nilai W

𝐰𝐢 = TF(𝐭𝐢, 𝐝) x IDF(𝐭𝐢)

Q 𝐃𝟏 𝐃𝟐 𝐃𝟑 𝐃𝟒 𝐃𝟓 𝐃𝟔

0,17609 0,17609 0,35218 0,17609 0,17609 0 0

0 0,77815 0 0 0 0

0 0 0 0 0 0,77815

0 0 0 0 0 0

0 0 0,77815 0 0 0

0 0 0 0 0 0,77815

0 0 0 0 0,77815 0

0 1,556303 0 0 0 0

0 0 0,77815 0 0 0

0 0,77815 0 0 0 0

0 0 0 0 0,77815 0

0 0 0 0 0,47712 0,47712

0 0,77815 0 0 0 0

0 0 0 0 0 0,77815

0,17609 0 0,35218 0,17609 0,17609 0,17609 0

0 0 0 0 0 0

0 0 0 0 0,77815 0

0 0 0,77815 0 0 0

0,30103 0 0 0 0,30103 0,30103

0 0 0 0 0 0,77815

0 0 0 0 0,77815 0

0 0,77815 0 0 0 0

0,77815 0 1,556303 0 0 0 0

0 0 0,47712 0,47712 0 0

0 0 0 0 0 0,77815

0 0 0 0,77815 0 0

0 0,30103 0,30103 0,30103 0 0

0 0 0 0 0,77815 0

0,77815 0 0 0 0 0

0 0 0,77815 0 0 0

0 2,33445 0 0 0 0

0 0 0 0,77815 0 0

0 0,60206 0,30103 0,60206 0 0

0 0 0 0 0 0,77815

0 0 0 0,77815 0 0

0 0 0,77815 0 0 0

Tabel 4.6 merupakan hasil perhitungan weight (W) yang diperoleh

dari jumlah term pada setiap dokumen dikalikan dengan nilai IDF.

Contohnya, untuk term adab pada dokumen D1 terdapat 1 term, maka

diperoleh nilai W = 1 x 0,17609 = 0,17609.

4.1.4. Data Mining

Setelah melakukan proses preprocessing dan pembobotan kata

dengan TF-IDF, maka kita harus melakukan beberapa proses GVSM

diantaranya yaitu:

1. Menentukan minterm yang muncul pada dokumen yang

tersedia berdasarkan banyak kata yang diinputkan oleh

pengguna, penulis menggunakan 3 kata kunci sebagai

berikut:

𝑀𝑥 = adab

𝑀𝑦 = ilmu

𝑀𝑧 = nilai

2. Hasil perhitungan bobot (W) pada TF-IDF akan digunakan

nilainya ke dalam vektor ortogonal yang sudah dibentuk

berdasarkan pola minterm. Hasil yang didapatkan terdapat

pada tabel di bawah ini:

Tabel 4.7 Penentuan Vektor Ortogonal

Dokumen Adab Ilmu Nilai Vektor

Orthogonal

D1 0,17609 0 0 M1

D2 0,35218 0,35218 1,556303 M2

D3 0,17609 0,17609 0 M3

D4 0,17609 0,17609 0 M4

D5 0 0,17609 0 M5

D6 0 0 0 M6

q 0,17609 0,17609 0,778151

Tabel 4.7 merupakan hasil perhitungan bobot (W) pada

tabel 4.6. Nilai W yang diambil bobotnya hanyalah kata yang

menjadi kata kunci saja yaitu kata adab, ilmu dan nilai.

Keterangan:

D1 = dokumen 1 M1 = minterm 1 q = query

D2 = dokumen 2 M2 = minterm 2

3. Menghitung index term dengan menggunakan persamaan

𝑘1 =

∑∀,𝑔𝑖(𝑚𝑟)=1 𝑐𝑖,𝑟 𝑚𝑟

√∑∀,𝑔𝑖(𝑚𝑟)=1 𝑐𝑖,𝑟2

Keterangan:

𝑘1 = index term ke-1

𝑚𝑟 = vektor ortogonal sesuai pola minterm

𝑐𝑖,𝑟 = faktor korelasi antara index term ke-i dengan

minterm r

Adapun rincian perhitungannya yaitu:

Hasil perhitungan nilai 𝑘1 =

𝑘1 =

𝑐1,1𝑚1 + 𝑐1,2𝑚2 + 𝑐1,3𝑚3 + 𝑐1,4𝑚4 + 𝑐1,5𝑚5 + 𝑐1,6𝑚6

√𝑐1,12 + 𝑐1,2

2 + 𝑐1,32 + 𝑐1,4

2 + 𝑐1,52 + 𝑐1,6

= 0,17609𝑚1 + 0,35218𝑚2 + 0,17609𝑚3 + 0,17609𝑚4 + 0𝑚5 + 0𝑚6

√(0,17609)2+ (0,35218)2+(0,17609)2+(0,17609)2+(0)2+(0)2

= 0,17609𝑚1 + 0,35218𝑚2 + 0,17609𝑚3 + 0,17609𝑚4 + 0𝑚5 + 0𝑚6

√0,031007 + 0,12403 + 0,031007 + 0,031007 + 0 + 0

= 0,17609𝑚1 + 0,35218𝑚2 + 0,17609𝑚3 + 0,17609𝑚4

√0,217051

=0,37796𝒎𝟏 +0,75593𝒎𝟐 +0,37796𝒎𝟑 +0,37796𝒎𝟒

𝑘2 =

𝑐2,1𝑚1 + 𝑐2,2𝑚2 + 𝑐2,3𝑚3 + 𝑐2,4𝑚4 + 𝑐2,5𝑚5 + 𝑐2,6𝑚6

√𝑐2,12 + 𝑐2,2

2 + 𝑐2,32 + 𝑐2,4

2 + 𝑐2,52 + 𝑐2,6

=0𝑚1 +0,35218𝑚2 + 0,17609𝑚3 + 0,17609𝑚4 + 0,17609𝑚5 + 0𝑚6

√(0)2+ (0,35218)2+ (0,17609)2+ (0,17609)2+ (0,17609)2+(0)2

= 0𝑚1 +0,35218𝑚2 + 0,17609𝑚3 + 0,17609𝑚4 + 0,17609𝑚5 + 0𝑚6

√0 + 0,12403+ 0,031007+ 0,031007+ 0,031007+0

= 0,35218𝑚2 + 0,17609𝑚3 + 0,17609𝑚4 + 0,17609𝑚5

√0,217051

=0,75593𝒎𝟐 +0,37796𝒎𝟑 +0,37796𝒎𝟒 +0,37796𝒎𝟓

𝑘3 =

𝑐3,1𝑚1 + 𝑐3,2𝑚2 + 𝑐3,3𝑚3 + 𝑐3,4𝑚4 + 𝑐3,5𝑚5 + 𝑐3,6𝑚6

√𝑐3,12 + 𝑐3,2

2 + 𝑐3,32 + 𝑐3,4

2 + 𝑐3,52 + 𝑐3,6

= 𝑐30,1𝑚1 + 𝑐30,2𝑚2 + 𝑐30,3𝑚3 + 𝑐30,4𝑚4 + 𝑐30,5𝑚5 + 𝑐30,6𝑚6

√𝑐30,12 + 𝑐30,2

2 + 𝑐30,32 + 𝑐30,4

2 + 𝑐30,52 + 𝑐30,6

=1,556303𝑚2

√(1,556303)² =

1,556303𝑚2

√2,422079=1,0000000057𝒎𝟐

Hasilnya, penulis lampirkan pada tabel di bawah ini:

Tabel 4.8 Hasil Perhitungan Index Term

Dokumen K1 K2 K3

D1 0,37796 0 0 M1

D2 0,75593 0,75593 1,0000000057 M2

D3 0,37796 0,37796 0 M3

D4 0,37796 0,37796 0 M4

D5 0 0,37796 0 M5

D6 0 0 0 M6

Tabel 4.8 merupakan hasil perhitungan indeks term pada

setiap dokumen untuk masing-masing kata kunci yang

digunakan. Nilai indeks term dokumen D1 terhadap kata

kunci “adab” sebesar 0,37796, terhadap kata kunci “ilmu”

sebesar 0, dan terhadap kata kunci nilai sebesar 0.

Keterangan:

K1 = indeks term 1

K2 = indeks term 2

K3 = indeks term 3

4. Menghitung korelasi setiap term dengan menggunakan

persamaan 2.2:

𝑐𝑖,𝑟 = ∑ 𝑤𝑖,𝑗𝑑𝑗|𝑔𝑗(𝑑𝑗 )=𝑔𝑖(𝑚𝑟)

Keterangan:

𝑐𝑖,𝑟 = faktor korelasi antara index term i dengan minterm

𝑤𝑖,𝑗 = Berat index term i pada dokumen j

𝑔𝑖(𝑚𝑟)= Bobot index term 𝑘𝑖 dalam minterm 𝑚𝑟

Hasil korelasi term dapat dilihat pada tabel 4.9.

Tabel 4.9 Hasil Perhitungan Korelasi Term

Dokumen Adab Ilmu Nilai Vektor

Ortogonal

D1 0,17609 0 0 M1

D2 0,35218 0,35218 1,556303 M2

D3 0,17609 0,17609 0 M3

D4 0,17609 0,17609 0 M4

D5 0 0,17609 0 M5

D6 0 0 0 M6

Tabel 4.9 merupakan hasil perhitungan korelasi term

pada setiap dokumen untuk masing-masing kata kunci yang

digunakan. Nilai korelasi term dokumen D1 terhadap kata

kunci “adab” sebesar 0,17609, terhadap kata kunci ilmu

sebesar 0, dan terhadap kata kunci nilai sebesar 0.

5. Melakukan pengubahan kata kunci dan dokumen dalam

bentuk vektor dengan menggunakan persamaan 2.3 dan 2.4:

𝑑𝑗 = ∑ 𝑤𝑖𝑗

𝑛𝑖=1 x 𝑘𝑖

𝑞 = ∑ 𝑞𝑖𝑛𝑖=1 x 𝑘𝑖

Keterangan:

𝑞 = vektor query

𝑤𝑖𝑗 = berat index term i pada dokumen j

𝑞𝑖 = berat index term pada query i

𝑘𝑖 = index term

𝑛 = jumlah index term

Hasil perhitungan nilai 𝑑1 =

𝑑1 = 0,17609𝑘1

+0𝑘2 +0𝑘3

= 0,17609(0,37796𝑚1 +0,75593𝑚2 +0,37796𝑚3 +0,37796𝑚4 )

= 0,06655𝒎𝟏 +0,13311𝒎𝟐 +0,06655𝒎𝟑 +0,06655𝒎𝟒

𝑑2 = 0,35218𝑘1

+0,35218𝑘2 +1,556303𝑘3

= 0,35218 (0,37796𝑚1 +0,75593𝑚2 +0,37796𝑚3 +0,37796𝑚4 )

+0,35218(0,75593𝑚2 +0,37796𝑚3 +0,37796𝑚4 +0,37796𝑚5 )

+1,556303 (1,0000000057𝑚2 )

= 0,133109𝑚1 +0,26622𝑚2 +0,133109𝑚3 +0,133109𝑚4

+0,26622𝑚2 +0,133103𝑚3 +0,133109𝑚4 +0,133109𝑚5

+1,556303𝑚2

=0,13311𝒎𝟏 +2,08874𝒎𝟐 +0,26622𝒎𝟑 +0,26622𝒎𝟒 +0,13311𝒎𝟓

𝑑3 = 0,17609𝑘1

+0,17609𝑘2

= 0,17609(0,37796𝑚1 +0,75593𝑚2 +0,37796𝑚3 +0,37796𝑚4 )

+0,17609(0,75593𝑚2 +0,37796𝑚3 +0,37796𝑚4 +0,37796𝑚5 )

= 0,06655𝑚1 +0,13311𝑚2 +0,06655𝑚3 +0,06655𝑚4

+0,13311𝑚2 +0,06655𝑚3 +0,06655𝑚4 +0,06655𝑚5

= 0,06655𝒎𝟏 +0,26622𝒎𝟐 +0,1331𝒎𝟑 +0,1331𝒎𝟒 +0,06655𝒎𝟓

𝑑4 = 0,17609𝑘1

+0,17609𝑘2

= 0,17609(0,37796𝑚1 +0,75593𝑚2 +0,37796𝑚3 +0,37796𝑚4 )

+0,17609(0,75593𝑚2 +0,37796𝑚3 +0,37796𝑚4 +0,37796𝑚5 )

= 0,06655𝑚1 +0,13311𝑚2 +0,06655𝑚3 +0,06655𝑚4

+0,13311𝑚2 +0,06655𝑚3 +0,06655𝑚4 +0,06655𝑚5

= 0,06655𝒎𝟏 +0,26622𝒎𝟐 +0,1331𝒎𝟑 +0,1331𝒎𝟒 +0,06655𝒎𝟓

𝑑5 = 0,17609𝑘2

= 0,17609(0,75593𝑚2 +0,37796𝑚3 +0,37796𝑚4 +0,37796𝑚5 )

= 0,13311𝒎𝟐 +0,06655𝒎𝟑 +0,06655𝒎𝟒 +0,06655𝒎𝟓

𝑑6 = 0

Hasil perhitungan nilai 𝑞,𝑚1 =

𝑞,𝑚1 = 0,17609x 0,37796 + 0,17609x0 + 0,778151x0

= 0,06655

𝑞,𝑚2

= 0,17609x0,75593 + 0,17609x0,75593 + 0,778151x1,0000000057

= 0,13311 + 0,13311 + 0,778151

= 1,044371

𝑞,𝑚3 = 0,17609x0,37796 + 0,17609x0,37796 + 0,778151x0

= 0,06655 + 0,06655

= 0,13311

𝑞,𝑚4 = 0,17609x0,37796 + 0,17609x0,37796 + 0,778151x0

= 0,06655 + 0,06655

= 0,13311

𝑞,𝑚5 = 0,17609x0 + 0,17609x0,37796 + 0,778151x0

= 0,06655

Hasil perhitungan nilai 𝑞,𝑚6 = 0

Hasil pengubahan menjadi vektor dokumen dapat dilihat

pada tabel 4.10.

Tabel 4.10 Hasil Perhitungan Vektor Dokumen.

Dokumen Vektor Dokumen

D1 D2 D3 D4 D5 D6 Q

D1 0,06655 0,13311 0,06655 0,06655 0 0 0,06655

D2 0,13311 2,08874 0,26622 0,26622 0,13311 0 1,04437

D3 0,06655 0,26622 0,13311 0,13311 0,06655 0

0,13311

D4 0,06655 0,26622 0,13311 0,13311 0,06655 0

0,13311

D5 0 0,13311 0,06655 0,06655 0,06655 0 0,06655

D6 0 0 0 0 0 0 0

Tabel 4.10 merupakan hasil perhitungan vektor

dokumen dan kata kunci menggunakan nilai korelasi dan

indeks term yang telah diperoleh pada tabel 4.9 dan tabel 4.8.

Vektor dokumen D1 terhadap D1, diperoleh dari nilai

korelasi D1 dan nilai indeks term K1,K2, dan K3. Vektor

dokumen D1 terhadap D2 diperoleh dari nilai korelasi D2

dan nilai indeks term K1, K2, dan K3.

6. Melakukan perhitungan nilai similaritas atau kemiripan

dokumen dengan kata kunci, menggunakan persamaan 2.5:

sim(𝑑𝑗 ′𝑞 )=

𝑑𝑗 .��

|𝑑𝑗 ||�� |

Keterangan:

𝑞 = vektor query

Hasil perhitungan nilai similaritas dokumen 1 =

sim (𝑑1 , 𝑞) =

(0,06655 𝑥 0,06655)+(0,13311 x 1,04437)+(0,06655 x 0,13311)

+(0,06655 x 0,13311)+(0 x 0,06655)+ (0 x 0)

(√0,066552+0,133112+0,066552+0,066552+02+02 ) 𝑥

(√0,066552+1,044372+0,133112+0,133112+0,066552+02)

= (0,004429)+(0,139016)+(0,008858)+(0,008858)+(0)+(0)

√(0,004429)+(0,017718)+(0,004429)+(0,004429)+(0)+(0) 𝑥

√(0,004429)+(1,090709)+(0,017716)+(0,017716)+(0,004429)+(0)

= 0,161161

√0,031005√1,134998 =

0,161161

(0,176082)(1,065363) =

0,161161

0,187592 = 0,859104

sim (𝑑2 , 𝑞) =

(0,13311 𝑥 0,06655)+(2,08874 x 1,04437)+(0,26622 x 0,13311)

+(0,26622 x 0,13311)+(0,13311 x 0,06655)+ (0 x 0)

(√0,133112+2,088742+0,266222+0,266222+0,133112+02 ) 𝑥

(√0,066552+1,044372+0,133112+0,133112+0,066552+02)

= (0,008858)+(2,181417)+(0,035434)+(0,035434)+(0,008858)+(0)

√(0,017718)+(4,362835)+(0,070873)+(0,070873)+(0,017718)+(0) 𝑥

√(0,004429)+(1,090709)+(0,017716)+(0,017716)+(0,004429)+(0)

= 2,270002

√4,540018√1,134998 =

2,270002

(2,130732)(1,065363) =

2,270002

2,270002 = 1

sim (𝑑3 , 𝑞) =

(0,06655 𝑥 0,06655)+(0,26622 x 1,04437)+(0,13311 x 0,13311)

+(0,13311 x 0,13311)+(0,06655 x 0,06655)+ (0 x 0)

(√0,066552+0,266222+0,133112+0,133112+0,066552+02 ) 𝑥

(√0,066552+1,044372+0,133112+0,133112+0,066552+02)

= (0,004429)+(0,278032)+(0,017716)+(0,017716)+(0,004429)+(0)

√(0,004429)+(0,070873)+(0,017716)+(0,017716)+(0,004429)+(0) 𝑥

√(0,004429)+(1,090709)+(0,017716)+(0,017716)+(0,004429)+(0)

= 0,322321

√0,115162√1,134998 =

0,322321

(0,339355)(1,065363) =

0,322321

0,361537 = 0,891531

sim (𝑑4 , 𝑞) =

(0,06655 𝑥 0,06655)+(0,26622 x 1,04437)+(0,13311 x 0,13311)

+(0,13311 x 0,13311)+(0,06655 x 0,06655)+ (0 x 0)

(√0,066552+0,266222+0,133112+0,133112+0,066552+02 ) 𝑥

(√0,066552+1,044372+0,133112+0,133112+0,066552+02)

= (0,004429)+(0,278032)+(0,017716)+(0,017716)+(0,004429)+(0)

√(0,004429)+(0,070873)+(0,017716)+(0,017716)+(0,004429)+(0) 𝑥

√(0,004429)+(1,090709)+(0,017716)+(0,017716)+(0,004429)+(0)

= 0,322321

√0,115162√1,134998 =

0,322321

(0,339355)(1,065363) =

0,322321

0,361537 = 0,891531

sim (𝑑5 , 𝑞) =

(0 𝑥 0,06655)+(0,13311 x 1,04437)+(0,06655 x 0,13311)

+(0,06655 x 0,13311)+(0,06655 x 0,06655)+ (0 x 0)

(√02+0,133112+0,066552+0,066552+0,066552+02 ) 𝑥

(√0,066552+1,044372+0,133112+0,133112+0,066552+02)

= (0)+(0,139016)+(0,008858)+(0,008858)+(0,004429)+(0)

√(0)+(0,017718)+(0,004429)+(0,004429)+(0,004429)+(0) 𝑥

√(0,004429)+(1,090709)+(0,017716)+(0,017716)+(0,004429)+(0)

= 0,161161

√0,031005√1,134998 =

0,161161

(0,176082)(1,065363) =

0,161161

0,187592 = 0,859104

sim (𝑑6 , 𝑞) = 0

Hasil perhitungan nilai similaritas dokumen dapat dilihat

pada tabel 4.11.

Tabel 4.11 Hasil Perhitungan Similaritas Dokumen

Similaritas Dokumen

D1 D2 D3 D4 D5 D6

0,859104 1 0,891531 0,891531 0,859104 0

Tabel 4.11 merupakan hasil perhitungan nilai similaritas

atau kemiripan dokumen dengan kata kunci. Dimana

dokumen D1 memiliki kemiripan dengan kata kunci sebesar

0,859104, D2 sebesar 1, D3 sebesar 0,891531, D4 sebesar

0,859104 dan D5 sebesar 0. Berikut ini adalah urutan

dokumen yang sesuai dengan query pengguna berdasarkan

nilai hasil similarity tertinggi terdapat pada tabel 4.12.

Tabel 4.12 Hasil Perangkingan Dokumen

No. Urut No. Dokumen Nilai

1 D2 1

2 D3 0,891531

3 D4 0,891531

4 D1 0,859104

5 D5 0,859104

6 D6 0

Tabel 4.12 merupakan urutan dokumen yang sesuai

dengan query berdasarkan hasil similarity tertinggi. Terbukti,

bahwa D2 memiliki nilai kemiripan terdekat dengan query

yang dicari karena D2 memiliki kata ilmu, adab dan nilai.

Nilai D3 sama dengan nilai D4 karena memiliki frekuensi

kata yang sama yaitu hanya memiliki kata ilmu dan adab saja.

Begitupun nilai D1 dan D5 memiliki frekuensi kata yang

sama yaitu hanya memiliki kata ilmu saja atau adab saja.

Sedangkan D6 tidak memiliki kata ilmu, adab ataupun nilai.

4.1.5. Interpretation/Evaluation

Pada tahap ini dilakukan pengujian dengan confusion matrix yang

biasa digunakan dalam perhitungan akurasi pada suatu sistem temu

kembali informasi untuk mengevaluasi seberapa baik kemampuan

sistem dalam pencarian dokumen. Pada tahap ini dilakukan percobaan

terhadap 308 dokumen yang ada dalam database dengan menggunakan

1 query yaitu “imam yang berilmu dan beradab”.

Setelah melakukan percobaan terhadap 308 dokumen dengan query

tersebut, didapatkan 226 dokumen yang dihasilkan dan relevan (sesuai

dengan query), 81 dokumen yang dihasilkan tetapi tidak relevan (tidak

sesuai dengan query), dan 1 dokumen yang seharusnya relevan tetapi

tidak terambil. Oleh karena itu, hasil pengujian confusion matrix sesuai

dengan persamaan 2.8-2.10 adalah sebagai berikut:

1. Precision = 𝑇𝑃

(𝑇𝑃+𝐹𝑃) =

(226+81) x 100% = 73,62%

2. Recall = 𝑇𝑃

(𝑇𝑃+𝐹𝑁) =

(226+1) x 100% = 99,56%

3. Accuracy = 𝑇𝑃+𝑇𝑁

(𝑇𝑃+𝐹𝑃+𝑇𝑁+𝐹𝑁) =

(226+81+0+1) x 100%= 73,38%.

4.2. Flowchart Sistem

Bagan 4.1 Alur Sistem

HASIL DAN PEMBAHASAN

5.1. Hasil Pengujian Sistem

Pada tahap ini dilakukan pengujian akurasi untuk membandingkan hasil

perhitungan dengan cara manual dengan hasil perhitungan algoritma di

sistem. Dalam pengujian akurasi hasil algoritma ini hasil yang didapat harus

sama untuk keduanya, karena perhitungan manual merupakan acuan dalam

menentukan algoritma tersebut benar. Skenario yang digunakan dalam

pengujian manual adalah 6 dokumen terjemahan yang dijadikan data sampel.

Tabel 5.1 Tabel Pengujian Perhitungan Manual dengan Sistem

Dokumen

Keterangan Manual Sistem Status

Sesuai

D2 Terdapat

kata adab,

ilmu, dan

nilai.

1 1 Sesuai

D3 Terdapat

kata adab,

dan ilmu.

0,891531 0,891531 Sesuai

D4 Terdapat

kata adab,

dan ilmu.

0,891531 0,891531 Sesuai

D1 Terdapat

kata adab.

0,859104 0,859104 Sesuai

D5 Terdapat

kata ilmu.

0,859104 0,859104 Sesuai

terdapat

kata adab,

ilmu, dan

nilai.

0 0 Sesuai

5.2. Hasil Tampilan User Interface

1. Hasil Interface Halaman Awal

Gambar 5.1 Interface Halaman Awal

Gambar 5.1 merupakan tampilan halaman awal sistem ini ketika admin

dan user membuka sistem. Pada halaman tersebut terdapat menu login untuk

admin dan user mengakses sistem, dan menu register untuk admin dan user

mendaftar ke sistem agar bisa mengakses sistem.

2. Hasil Interface Halaman Login

Gambar 5.2 Interface Halaman Login

Gambar 5.2 merupakan tampilan halaman login. Pada halaman ini,

admin dan user diminta untuk memasukkan alamat email dan password agar

bisa masuk ke sistem. Selain itu, terdapat check box “Remember Me”,

dimana aktor bisa meminta sistem untuk mengingat password akunnya. Dan

link “Forgot Your Password” dapat digunakan jika aktor lupa password

akunnya.

3. Hasil Interface Halaman Register

Gambar 5.3 Interface Halaman Register

Gambar 5.3 merupakan tampilan halaman register. Pada halaman ini,

user yang belum terdaftar pada sistem, diminta untuk mengisi field yang

sudah disediakan, yaitu berupa nama, alamat email, password dan

konfirmasi password.

4. Hasil Interface Halaman Utama Admin

Gambar 5.4 Interface Halaman Utama Admin

Gambar 5.4 merupakan tampilan halaman utama admin. Adapun menu-

menu yang terdapat pada halaman ini yaitu user & roles, hadits dan search.

5. Hasil Interface Halaman Utama User

Gambar 5.5 Interface Halaman Utama User

Gambar 5.5 merupakan tampilan halaman utama user. Adapun menu-

menu yang terdapat pada halaman ini yaitu hadits, dan search.

6. Hasil Interface Halaman Users

Gambar 5.6 Interface Halaman Users

Gambar 5.6 merupakan tampilan halaman daftar user. Pada halaman ini

terdapat 4 action yang bisa dilakukan admin, yaitu tambah user, lihat user,

edit user dan hapus user. Untuk action hapus, admin bisa menghapus data

user hanya dengan menekan tombol delete.

7. Hasil Interface Halaman Roles

Gambar 5.7 Interface Halaman Roles

Gambar 5.7 merupakan tampilan halaman roles. Pada halaman ini

terdapat 4 action yang bisa dilakukan admin, yaitu tambah roles, lihat roles,

edit roles dan hapus roles. Untuk action hapus, admin bisa menghapus roles

hanya dengan menekan tombol delete.

8. Hasil Interface Halaman Hadits

Gambar 5.8 Interface Halaman Hadits

Gambar 5.8 merupakan tampilan halaman daftar hadits. Pada halaman

ini terdapat 3 action yang bisa dilakukan admin, yaitu tambah hadits, lihat

hadits, dan hapus hadits. Untuk action hapus, admin bisa menghapus hadits

hanya dengan menekan tombol delete.

9. Hasil Interface Halaman Search

Gambar 5.9 Interface Halaman Search

Gambar 5.9 merupakan tampilan halaman pencarian hadits dan juga

hasil pencariannya. Pada halaman ini, admin dan user bisa memasukkan

kata kunci yang ingin dicari, dan melihat hasil pencariannya. Selain itu,

admin dan user bisa melihat hasil perhitungan algoritmanya.

10. Hasil Interface Halaman Logout

Gambar 5.10 Interface Halaman Logout

Gambar 5.10 merupakan tampilan halaman logout. Ketika admin dan

user memilih menu logout, maka akan keluar dari sistem.

BAB VI

PENUTUP

6.1. Kesimpulan

Penelitian ini bertujuan untuk mengimplementasikan metode

Generalized Vector Space Model pada Sistem Temu Kembali Informasi

terjemahan kitab Mizanul Hikmah Berbahasa Indonesia. Berikut ini

kesimpulan yang diperoleh melalui penelitian yang dilakukan:

1. Metode Generalized Vector Space Model dengan pembobotan TF-IDF

dan stemming Nazief-Adriani telah berhasil diterapkan dalam sistem

dengan baik, dimana sistem dapat memberikan output berupa

rekomendasi terjemahan yang memiliki nilai kedekatan tertinggi

dengan query. Dan didapatkan nilai precision 73,62%, recall 99,56%,

dan accuracy 73,38%. Sehingga, sistem dapat dikatakan baik,

dikarenakan sistem yang baik adalah sistem yang memiliki nilai recall

dan precision tinggi.

6.2. Saran

Berikut ini saran yang perlu dipertimbangkan sebagai bentuk

pengembangan penelitian yang telah penulis lakukan:

1. Sistem dapat dilengkapi menjadi lengkap satu kitab, dan dapat

dikembangkan dengan menggunakan kitab lain.

2. Sistem dapat dikembangkan menjadi sistem berbasis android, sehingga

mudah digunakan.

DAFTAR PUSTAKA

Abdulloh, R. (2018). 7 in 1 Pemrograman Web untuk Pemula. Jakarta: Elex Media

Komputindo.

Ahmad, J. (2017). Hadits dan Ilmu Hadits dalam Pandangan Syiah, 1–17.

Al-Islam.(2019).Mizan al-Hikmah (Scale of Wisdom). Retrieved Agustus 7, 2019,

from Al-Islam: https://www.al-islam.org/mizan-al-hikmah-scale-wisdom.

Arafah, M., Pasnur, & Idrus, F. (2018). Implementation of Generalized Vector

Space Model Method at Automatic Assessment of Online Essay Exam.

Journal of Information Technology and ITS Utlization, 1(2), 17–22.

Baeza-Yates, R., & Ribeiro-Neto, B. (2011). Modern Information Retrieval. New

York: Addison-Wesley Professional.

Baqi, M. F. A. (2017). Hadits Shahih Bukhari Muslim. Jakarta: Elex Media

Komputindo.

Bungin, B. (2017). Metodologi Penelitian Kuantitatif. Jakarta: Kencana.

Enterprise, J. (2017). Otodidak MySQL untuk Pemula. Jakarta: Elex Media

Komputindo.

Foroughi, F., & Luksch, P. (2018). Data Science Methodology For Cybersecurity

Projects.

Gullo, F. (2015). From Patterns in Data to Knowledge Discovery : What Data

Mining Can Do. Physics Procedia, 62, 18–22.

https://doi.org/10.1016/j.phpro.2015.02.005

Jain, A., Jain, A., Chauhan, N., Singh, V., & Thakur, N. (2017). Information

Retrieval using Cosine and Jaccard Similarity Measures in Vector Space

Model. International Journal of Computer Application, 164(6), 28–30.

Kawistara, J. K. (2016). Pemrograman Web Edisi Revisi. Bandung: Informatika.

Melita, R., Amrizal, V., Suseno, H. B., & Dirjam, T. (2018). Penerapan Metode

Term Frequency Inverse Document Frequency (TF-IDF) dan Cosine Similarity

Pada Sistem Temu Kembali Informasi untuk Mengetahui Syarah Hadits

Berbasis Web (Studi Kasus: Syarah Umdatil Ahkam). Jurnal Teknik

Informatika, 11(2), 149–164.

Muktiari, A. D., Bijaksana, M. A., & Wahyudi, B. A. (2018). Pembangunan

Ensiklopedia Kosa Kata Al-Qur’an Menggunakan Generalized Vector Space

Model dan Semantics Relatedness. E-Proceeding of Engineering, 5(3), 7823–

Nasrudin, J., & Royani, D. (2017). Kaidah-kaidah Ilmu Hadits Praktis. Yogyakarta:

Deepublish.

Nugroho, H. T. (2017). Pengaruh Algoritma Stemming Nazief-Adriani Terhadap

Kinerja Algoritma Winnowing Untuk Mendeteksi Plagiarisme Bahasa

Indonesia. ULTIMA Computing, 9(1), 36–40.

Ogheneovo, E. ., & Japheth, R. . (2016). Application of Vector Space Model to

Query Ranking and Information Retrieval. International Journal of Advance

Research in Computer Science and Software Engineering, 6(5), 42–47.

Purbo, O. W. (2019). Text Mining: Analisis Medsos, Kekuatan Brand & Intelejen

di Internet. Jakarta: Andi Publisher.

Purnamasari, K., & Suwardi, I. (2018). Rule-based Part of Speech Tagger for

Indonesian Language. IOP Conference Series: Materials Science and

Engineering, 1–4.

Putra, I. M. S., Widiari, N. P. A., & Gunaya, I. W. (2019). Implementasi

Generalized Vector Space Model (GVSM) dalam Pencarian Buku di

Perpustakaan. MERPATI, 7(1), 86–94.

Rahim, R., Kurniasih, N., Irawan, M. D., Siregar, Y. H., Hasibuan, A., Sari, D. A.

P., … Daengs, A. (2018). Latent Semantic Indexing for Indonesian Text

Similarity. International Journal of Engineering & Technology, 7, 73–77.

Siregar, I. K., & Taufik, F. (2017). Perancangan Aplikasi SMS Alert Berbasis Web.

JIMP-Jurnal Informatika Merdeka Pasuruan, 2(2), 62–70.

Subari, & Ferdinandus. (2015). Sistem Information Retrieval Layanan Kesehatan

Untuk Berobat dengan Metode Vector Space Model (VSM) Berbasis Webgis.

SNATIKA 2015, 3, 202–212.

Suprianto, Sunardi, & Fadlil, A. (2019). Aplikasi Sistem Temu Kembali Angket

Mahasiswa Menggunakan Metode Generalized Vector Space Model. Jurnal

Teknologi Informasi Dan Ilmu Komputer (JTIIK), 6(1), 33–40.

Widi, R. K. (2018). Menggelorakan Penelitian; Pengenalan dan Penuntun

Pelaksanaan Penelitian. Yogyakarta: Deepublish.

Yusuf, S., Fauzi, M. A., & Brata, K. C. (2018). Sistem Temu Kembali Informasi

Pasal-Pasal KUHP (Kitab Undang-Undang Hukum Pidana) Berbasis Android

Menggunakan Metode Synonym Recognition dan Cosine Similarity, 2.

LAMPIRAN

Lampiran 1. Surat Dosen Pembimbing Skripsi

Lampiran 2. Surat Penelitian Skripsi ke Islamic Cultural Center Jakarta

Lampiran 3. Hasil Wawancara dengan Ustaz Akmal Kamil

Hasil Wawancara

Narasumber : Ustaz Akmal Kamil (Pengurus Islamic Cultural Center Jakarta)

Tempat : Islamic Cultural Center Jakarta

Hari/Tanggal : Jumat, 26 Juli 2019

1. Hadits merupakan sumber hukum kedua dalam Islam. Menurut Bapak,

sebagai umat Islam apakah penting bagi kita untuk mempelajari hadits?

Mengapa demikian?

Tujuan: untuk mengetahui pentingnya mempelajari hadits.

Jawab: Sangat penting. Karena di samping Al-Quran, As-Sunah An-

Nabawiyah atau hadits itu secara umum digunakan sebagai narasumber

kedua setelah Al-Quran dan berfungsi untuk menterjemahkan apa yang ada

di dalam Al-Quran. Karena, kita tidak bisa hanya bersandar pada Al-Quran

saja, melainkan tetap harus didampingi oleh As-Sunah atau hadits.

2. Menurut Bapak, apa dampak yang disebabkan jika umat Islam kurang

memahami suatu hadits?

Tujuan: untuk mengetahui dampak jika kurang memahami suatu hadits.

Jawab: Bisa salah kaprah dalam menyikapi suatu hal. Karena, Al-Quran dan

As-Sunah itu seperti satu tarikan napas. Kedua hal yang sangat penting bagi

kehidupan kita.

3. Menurut Bapak, bagaimana cara yang dapat kita tempuh untuk mempelajari

suatu hadits?

Tujuan: untuk mengetahui cara mempelajari suatu hadits.

Jawab: Cara untuk mempelajari suatu hadits bisa dilakukan dengan

perantara seorang ustaz ataupun guru yang ahli pada bidang tersebut.

4. Apakah saat ini proses pencarian hadits masih bersifat manual yaitu dengan

melakukan pencarian secara perlembar pada kitab hadits?

Tujuan: untuk mengetahui apakah proses pencarian hadits masih bersifat

manual atau tidak.

Jawab: Ya, saat ini proses pencarian hadits masih bersifat manual dengan

menggunakan kitab fisik hadits.

5. Menurut Bapak, apakah mengakses hadits melalui kitab hadits terbilang

efektif untuk melakukan proses pencarian informasi hadits secara cepat?

Tujuan: untuk mengetahui apakah sistem pencarian hadits melalui kitab

hadits efektif atau tidak.

Jawab: Mengakses hadits melalui media fisik hadits terbilang belum cukup

efektif, karena kita harus membuka kitab hadits secara perlembar sehingga

membutuhkan waktu yang lama.

6. Menurut Bapak, apa kitab hadits yang sering digunakan pada golongan

Syiah?

Tujuan: untuk mengetahui kitab hadits yang sering digunakan pada

golongan Syiah.

Jawab: Kitab Mizanul Hikmah, karena haditsnya pendek dan mudah dihafal.

7. Sejauh yang Bapak tahu, apakah sudah ada aplikasi pencarian yang memuat

hadits-hadits kitab Mizanul Hikmah?

Tujuan: untuk mengetahui apakah aplikasi yang penulis buat sudah ada atau

belum.

Jawab: Belum ada yang memuat hadits khusus kitab Mizanul Hikmah.

8. Menurut Bapak, setujukah apabila dibuat suatu sistem yang dapat

digunakan untuk mengetahui informasi dari sebuah hadits dengan berbasis

web agar dapat diakses oleh siapapun, kapanpun dan dimanapun?

Tujuan: untuk mengetahui apakah narasumber setuju jika dibuat aplikasi

yang penulis ingin buat.

Jawab: Sangat setuju.

9. Apa yang Bapak harapkan dari aplikasi yang akan dibuat?

Tujuan: untuk mengetahui harapan dari aplikasi yang akan penulis buat.

Jawab: Bisa digunakan oleh masyarakat banyak dan bisa sebagai kontribusi

mahasiswa sebagai agent of change. Harapannya, semoga aplikasi ini

nantinya bisa disebarkan dan dipromosikan untuk orang banyak.

Lampiran 4. Hasil Wawancara dengan Ustaz Ahmad Hafidh Al-Kaff

Hasil Wawancara

Narasumber : Ustaz Ahmad Hafidh Al-Kaff (Pengurus Islamic Cultural Center

Jakarta)

Tempat : Islamic Cultural Center Jakarta

Hari/Tangal : Jumat, 26 Juli 2019

1. Hadits merupakan sumber hukum kedua dalam Islam. Menurut Bapak,

sebagai umat Islam apakah penting bagi kita untuk mempelajari hadits?

Mengapa demikian?

Tujuan: untuk mengetahui pentingnya mempelajari hadits.

Jawab: Mempelajari hadits itu penting dan perlu dengan batas-batas

tertentu. Karena, tidak semua hadits itu diperlukan oleh masyarakat umum.

2. Menurut Bapak, apa dampak yang disebabkan jika umat Islam kurang

memahami suatu hadits?

Tujuan: untuk mengetahui dampak jika kurang memahami suatu hadits.

Jawab: Dampak jika kita kurang memahami hadits buruk sekali tanpa

melalui jalur yang benar. Dan jika tidak mau mempelajari hadits karena

membenci hadits itu parah. Yang jelas, kita harus memiliki kepedulian

kepada agama kita sendiri.

3. Menurut Bapak, bagaimana cara yang dapat kita tempuh untuk mempelajari

suatu hadits?

Tujuan: untuk mengetahui cara mempelajari suatu hadits.

Jawab: Untuk mempelajari hadits lebih baik bertanya pada ulama, jangan

memahaminya sendiri. Karena, nantinya akan menyebabkan munculnya

golongan-golongan ekstrem atau garis keras.

4. Apakah saat ini proses pencarian hadits masih bersifat manual yaitu dengan

melakukan pencarian secara perlembar pada kitab hadits?

Tujuan: untuk mengetahui apakah proses pencarian hadits masih bersifat

manual atau tidak.

Jawab: Ya, proses pencarian hadits masih bersifat manual.

5. Menurut Bapak, apakah mengakses hadits melalui kitab hadits terbilang

efektif untuk melakukan proses pencarian informasi hadits secara cepat?

Tujuan: untuk mengetahui apakah sistem pencarian hadits melalui kitab

hadits efektif atau tidak.

Jawab: Pencarian hadits melalui media fisik hadits belum efektif karena

memakan waktu cukup lama untuk mencari informasi mengenai suatu

permasalahan tertentu.

6. Menurut Bapak, apa kitab hadits yang sering digunakan pada golongan

Syiah?

Tujuan: untuk mengetahui kitab hadits yang sering digunakan pada

golongan Syiah.

Jawab: Kitab Mizanul Hikmah, karena kitab tersebut digunakan oleh

golongan Syiah maupun Sunni.

7. Sejauh yang Bapak tahu, apakah sudah ada aplikasi pencarian yang memuat

hadits-hadits kitab Mizanul Hikmah?

Tujuan: untuk mengetahui apakah aplikasi yang penulis buat sudah ada atau

belum.

Jawab: Belum ada.

8. Menurut Bapak, setujukah apabila dibuat suatu sistem yang dapat

digunakan untuk mengetahui informasi dari sebuah hadits dengan berbasis

web agar dapat diakses oleh siapapun, kapanpun dan dimanapun?

Tujuan: untuk mengetahui apakah narasumber setuju jika dibuat aplikasi

yang penulis ingin buat.

Jawab: Setuju.

9. Apa yang Bapak harapkan dari aplikasi yang akan dibuat?

Tujuan: untuk mengetahui harapan dari aplikasi yang akan penulis buat.

Jawab: Semoga dengan pembuatan aplikasi ini bisa menjadi amal soleh

untuk penulis dan semoga masyarakat bisa lebih tertarik lagi kepada hadits

dengan adanya sistem yang ada.

Lampiran 5. Source Code Proses Preprocessing

Lampiran 6. Source Code Proses TF-IDF dan GVSM

Lampiran 7. Tanda Bukti Pengujian Sistem

Hasil Pengujian Sistem

knowledge discovery in databaserepository.uinjkt.ac.id/dspace/bitstream/123456789... · al-quran...

Documents

problems and solutions - | search quran, hadith and

30 hadith for new muslims

sharia in a nutshell - step · sharia in a nutshell quran...

a selection of suplication (dua) from al quran and authentic...

quran: surath aal-imran chapter# 3 verse# 101-115 نمَوَ...

lesson 4 muhammad the quran and the hadith

janazah according to quran & hadith table of contents

quran and hadith speak against the wahabis

scanned with camscanner...quran and hadith make up the...

islam muhammad jesus christ muslim prayer quran hadith...

repentance and tawbah in islam from quran hadith

learn quran kids - supplications (dua) from the glorious...

40 hadith quran

quran surah surath al-baqarah chapter# 2 verse# 94-105 ·...

women in islam, statements from quran and hadith

definition of iman in the light of quran and hadith

the healing effect of honey as stated in quran and hadith

salah according to the quran and hadith

re quran o hadith k khilaf gm k 50 masail

kitabosunnat.com---ikar e hadith sy inkar quran...