· web viewweb mining adalah ekstraksi pola-pola penting dan bermanfaat namun tersimpan secara...

16
Web Mining (part 1 of 6: Abstrak dan Pendahuluan) Abstract: With the explosive growth of information sources available on the World Wide Web, it has become increasingly necessary for users to utilize automated tools in find the desired information resources, and to track and analyze their usage patterns. These factors give rise to the necessity of creating serverside and clientside intelligent systems that can effectively mine for knowledge. Web mining can be broadly defined as the discovery and analysis of useful information from the World Wide Web. This describes the automatic search of information resources available online, i.e. Web content mining, and the discovery of user access patterns from Web servers, i.e., Web usage mining. In this paper we present detail statistical formulation and experimental result to show how web mining can be utilized to perform potential customer. Kata kunci: web mining, potential customer. 1. Pendahuluan Tidak diragukan lagi bahwa kemajuan teknologi informasi telah memberikan banyak manfaat dan dukungan dalam menjalankan berbagai usaha sehingga mengakibatkan terjadinya persaingan yang sangat ketat dalam dunia bisnis. Perusahaan yang ingin tetap eksis perlu mengadopsi teknologi baru untuk mendukung operasional dalam upaya penetrasi pasar termasuk kecepatan layanan dan ketepataan target market. Dalam hal ini, situs perusahaan memegang peranan yang sangat penting dalam memasarkan produk dan menghimpun data dalam skala besar. Banyaknya transaksi yang dilakukan lewat situs internet mengakibatkan bertambahnya jumlah data yang harus disimpan dan dikelola. Pada data dengan berjumlah relatif besar sesungguhnya tersembunyi informasi yang dapat memberikan manfaat tambahan bagi perusahaan. Namun diperlukan teknik dengan algoritma khusus untuk menganalisis data berukuran besar agar hasil yang diberikan merepresentasikan suatu informasi yang benar-benar bermanfaat. Data mining merupakan salah satu teknik yang digunakan untuk menganalisis data, dan web mining digunakan untuk menganalisis data pada web aplikasi berbasis web. Dengan menggunakan teknik web mining, salah satu manfaat yang dapat diperolah adalah dalam menentukan pelanggan yang memiliki minat yang relatif besar terhadap sebuah produk, sehingga dapat dilakukan efisiensi dan efektivitas usaha, biaya, dan waktu untuk promosi. Pelanggan yang memiliki peluang

Upload: hoangthuan

Post on 28-May-2018

213 views

Category:

Documents


0 download

TRANSCRIPT

Web Mining (part 1 of 6: Abstrak dan Pendahuluan) Abstract: With the explosive growth of information sources available on the World Wide Web, it has become increasingly necessary for users to utilize automated tools in find the desired information resources, and to track and analyze their usage patterns. These factors give rise to the necessity of creating serverside and clientside intelligent systems that can effectively mine for knowledge. Web mining can be broadly defined as the discovery and analysis of useful information from the World Wide Web. This describes the automatic search of information resources available online, i.e. Web content mining, and the discovery of user access patterns from Web servers, i.e., Web usage mining. In this paper we present detail statistical formulation and experimental result to show how web mining can be utilized to perform potential customer.

Kata kunci: web mining, potential customer.

1. Pendahuluan

Tidak diragukan lagi bahwa kemajuan teknologi informasi telah memberikan banyak manfaat dan dukungan dalam menjalankan berbagai usaha sehingga mengakibatkan terjadinya persaingan yang sangat ketat dalam dunia bisnis. Perusahaan yang ingin tetap eksis perlu mengadopsi teknologi baru untuk mendukung operasional dalam upaya penetrasi pasar termasuk kecepatan layanan dan ketepataan target market. Dalam hal ini, situs perusahaan memegang peranan yang sangat penting dalam memasarkan produk dan menghimpun data dalam skala besar. Banyaknya transaksi yang dilakukan lewat situs internet mengakibatkan bertambahnya jumlah data yang harus disimpan dan dikelola. Pada data dengan berjumlah relatif besar sesungguhnya tersembunyi informasi yang dapat memberikan manfaat tambahan bagi perusahaan. Namun diperlukan teknik dengan algoritma khusus untuk menganalisis data berukuran besar agar hasil yang diberikan merepresentasikan suatu informasi yang benar-benar bermanfaat. Data mining merupakan salah satu teknik yang digunakan untuk menganalisis data, dan web mining digunakan untuk menganalisis data pada web aplikasi berbasis web.

Dengan menggunakan teknik web mining, salah satu manfaat yang dapat diperolah adalah dalam menentukan pelanggan yang memiliki minat yang relatif besar terhadap sebuah produk, sehingga dapat dilakukan efisiensi dan efektivitas usaha, biaya, dan waktu untuk promosi. Pelanggan yang memiliki peluang ketertarikan relatif lebih besar terhadap sebuah produk disebut sebagai pelanggan potensial (potential customer).

Sehubungan dengan hal tersebut, maka pada tulisan ini akan dibahas teknologi web mining untuk menentukan pelanggan potensial.

2. Web Mining

Web mining adalah ekstraksi pola-pola penting dan bermanfaat namun tersimpan secara implisit pada kumpulan data yang relatif besar pada layanan world wide web. Web mining teridiri atas tiga bagian yaitu: web content mining, web structure mining, dan web usage mining [2].

Web content mining adalah suatu proses otomatis untuk menemukan informasi yang berguna dari dokumen atau data. Pada prinsipnya teknik ini mengekstraksi kata kunci yang terkandung pada dokumen. Isi data web antara lain dapat berupa teks, citra, audio, video, metadata, dan hyperlink. Ada dua strategi yang umum digunakan: pertama langsung melakukan mining terhadap data, dan kedua melakukan pencarian serta mengimprove hasil pencarian seperti layaknya search engine.

Web struncture mining dikenal juga  sebagai web log mining adalah teknik yang digunakan untuk menemukan struktur link dari hyperlink dan membangun rangkuman website dan halaman  web. Salah satu manfaatnya adlah untuk  menentukan pagerank pada suatu halaman web.

Web usage mining adalah teknik untuk mengenali perilaku pelanggan dan struktur web melalui informasi yang diperoleh dari log, click stream, cookies, dan query. Berbagai tool yang sudah ada antara lain WebLogMiner yang melakukan mining terhadap data log. Teknik yang lebih canggih digunakan untuk melakukan OLAP. Manfaat web usage mining adalah untuk kustomosasi halaman berdasarkan profil pengguna, menentukan ketertarikan pelanggan terhadap produk tertentu, dan menentukan target market yang sesuai.

Web Mining (part 3 of 6: Information Gain) 2.1. Tahapan Web Mining

Tahapan web mining dapat diilustrasikan dengan gambar berikut [2]:

Gambar 1. Tahapan pada web mining

Pada gambar 1, tahapan pada web mining dibagi menjadi tiga kelompok yaitu preprocess, process, dan, post process. Tahapan preprocess meliputi data cleaning, transaction identification, integration, dan transformation. Pada tahap process diterapkan sejumlah formulasi statistik antara lain untuk mengurangi jumlah atribut dengan cara membuang atribut yang tidak berpengaruh (information gain). Pada tahap ini dapat juga dilakukan teknik clustering, asosiasi, dan klasifikasi. Pada tahap post processing dilakukan analisis lebih lanjut untuk mengolah hasil mining pada tahapan sebelumnya. Hal ini perlu dilakukan sebab sering sekali hasil yang diperoleh pada tahap process tidak memberikan sesuatu yang dapat digunakan secara langsung, sehingga diperlukan teknik lainnya seperti visualisasi grafik dan analisis statistik lainnya.

2.2. Information Gain

Tahapan process merupakan tahapan utama dalam web mining. Pada tahap ini, atribut yang akan diolah harus diminimalisasi terlebih dahulu dengan tujuan untuk membuang atirbut yang tidak perlu sehingga hanya atribut yang mempunyai relevansi kuat yang akan diproses, sehingga efisiensi space dan waktu dapat dicapai dan kualitas data yang dihasilkan lebih baik. Salah satu cara untuk mereduksi atribut adalah dengan information gain.

Information gain adalah pengukuran yang dilakukan untuk menseleksi atribut. Pengukuran ini dipelopori oleh Claude Shannon pada teori informasi [1] dituliskan sebagai:

Dalam hal ini pi adalah probabilitas sebuah tuple pada D masuk ke kelas Ci dan diestimasi dengan | Ci,D|/|D|. Fungsi log diambil berbasis 2 karena informasi dikodekan berbasis bit.

Misal S adalah himpunan beranggotakan s data. Misalkan label atribut yang mendefinisikan kelas memiliki m nilai berbeda yang mendefinisikan m kelas Ci (untuk i=1,2,..,m) berbeda. Misalkan Si adalah jumlah sampel S yang masuk ke dalam kelas Ci. Berdasarkan (1) maka informasi yang diharapkan perlu untuk mengklasifikasi suatu sampel yang diberikan adalah:

Yang dalam hal ini pi adalah peluang suatu sampel sembarang masuk ke kelas Ci dan ditaksir dengan si/s.

Misalkan atribut A yang bukan atribut suatu kelas, memiliki v buah nilai yang berbeda yaitu {a1, a2, …,av}. Atribut A dapat digunakan untuk memisahkan S ke dalam v subset Sj yaitu {S1, S2, …,Sv}, yang dalam hal ini Sj memuat sampel-sampel di dalam S yang memiliki nilai aj dari A. Jika atribut A dipilih sebagai atribut uji (atribut yang terbaik untuk pemisahan) maka

subset-subset tersebut akan berhubungan dengan cabang-cabang yang turun dari simpul yang memuat himpunan S. Misalkan Sij adalah jumlah sampel dari kelas Ci di dalam suatu subset Sj. Entropi atau informasi harapan berdasarkan pemisahan ke dalam subset-subset A dihitung dengan:

Bentuk bertindak sebagai pemberat dari subset j dan merupakan jumlah sampel di dalam subset tersebut (yang memiliki nilai aj dari A) dibagi dengan jumlah total sampel di dalam S. Semakin kecil nilai entropi maka semakin murni pemisahan subset. Untuk suatu subset Sj informasi harapan berdasarkan (2) adalah:

Yang dalam hal ini pij = sij / |sj| dan merupakan peluang dari suatu sampel di dalam Sj termasuk kelas Ci.

Selanjutnya, Information Gain atribut A diperoleh dengan perhitungan:

Gain(A) = I(s1,s2,…,sm) – E(A) ……..(4)

Dengan penjelasan lain, Gain(A) adalah reduksi yang diharapkan di dalam entropi yang disebabkan oleh pengenalan nilai atribut dari A. Atribut yang memiliki nilai information gain terbesar dipilih sebagai uji atribut untuk himpunan S. Selanjutnya suatu simpul dibuat dan diberi label dengan label atribut tersebut, dan cabang-cabang dibuat untuk masing-masing nilai dari atribut.

Berikut diberikan sebuah contoh untuk menghitung information gain:

Gambar 2. Contoh pereduksian atribut

Jika atribut buys_computer diambil sebagai label kelas, maka ada sebanyak m=2 kelas berbeda {C1=no, C2=yes}. Jumlah record pada data set adalah sebanyak 14 record sehingga s=14. Dengan demikian ada sebanyak s1=5 sampel dari S di kelas C1 dan sebanyak s2=9 sampel dari S di kelas C2. Dengan demikian informasi harapan untuk mengelompokkan kelas tersebut adalah:

Misalkan atribut A yang akan ditinjau dengan age, dan A memiliki 3 nilai berbeda, sehingga v=3 {a1=‘<30‘, a2=’30-40‘,a3=‘>40‘}. Selanjutnya atribut A tersebut dapat digunakan untuk memisahkan S ke dalam 3 subset yaitu {S1 untuk ‘<30‘, S2 untuk ’30-40‘, S3 untuk ‘>40‘}. Dengan demikian S11=3 adalah jumlah sampel dari kelas C1=no di dalam subset S1 untuk ‘<30‘. Selanjutnya S21=2 adalah jumlah sampel dari kelas C2=yes di dalam subset S1 untuk ‘<30‘.Selanjutnya S12=0 adalah jumlah sampel dari kelas C1=no di dalam subset S2 untuk ’30-40‘. Selanjutnya S22=4 adalah jumlah sampel dari kelas C2=yes di dalam subset S2 untuk ’30-40‘. Selanjutnya S13=2 adalah jumlah sampel dari kelas C1=no di dalam subset S3 untuk ’>40‘.Selanjutnya S23=3 adalah jumlah sampel dari kelas C2=yes di dalam subset S3 untuk ’>40‘. Sehingga s=s11+s21+s22+s13+s23 = 14 sampel. Kalau sj adalah jumlah sampel data pada masing-masing subset Sj, maka informasi harapan untuk masing-masing subset Sj adalah sebagai berikut:

Yang dalam hal ini, s1=s11+s21 = 3+2 dan s2=s12+s22 = 0+4 = 4 dan s3=s13+s23 = 2+3 = 5.

Entropi yang merupakan informasi harapan berdasarkan pemisahan kedalam subset-subset A dihitung sebagai:

Dengan demikian, informatian gain untuk atribut age adalah:

Gain(age) = I(s1,s2) – E(age)

= 0.94-0.694 = 0.246

Cara yang sama dilakukan terhadap atribut income, student, dan credit_rate dan diperoleh nilai masing-masing attribut adalah Gain(income)=0.029, dan Gain(student)=0.151, dan Gain(credit_rate)=0.046.

Didefinisikan sebuah nilai ambang (threshold) sebagai nilai batas untuk menentukan atibut-atribut apa saja yang akan digunakan. Atribut yang akan digunakan adalah atribut yang memiliki nilai Gain(atribut) >= threshold. Sebagai contoh, bila nilai threshold yang diberikan

adalah 0.1 maka atribut yang akan digunakan adalah age dan student, berurutan memiliki gain sebesar 0.246 dan 0.151. Hasilnya seperti decicion tree gambar berikut.

Gambar 3. Decision Tree

Web Mining (part 4 of 6: Market Basket Analysis) 2.3. Market Basket Analysis

Market basket data adalah himpunan data yang dijadikan sebagai objek penelitan pada area data mining. Market basket analysis adalah proses untuk menganalisis kebiasaan pelanggan dalam menyimpan item-item yang akan dibeli ke dalam keranjang belanjaannya. Market basket analysis memanfaatkan data transaksi penjualan untuk dianalisis sehingga dapat ditemukan pola berupa item-item yang cenderung muncul bersama dalam sebuah transaksi [1].

Selanjutnya pola yang ditemukan dapat dimanfaatkan untuk merancang strategi penjualan atau pemasaran yang efektif, yaitu dengan menempatkan item-item yang sering dibeli bersamaan ke dalam sebuah area yang

berdekatan, merancang tampilan item-item di katalog, merancang kupon diskon (untuk diberikan kepada pelanggan yang membeli item tertentu), merancang penjualan item-item dalam bentuk paket, dan sebagainya. Dengan menggunakan teknologi data mining, analisis data secara manual tidak diperlukan lagi.

Association rule adalah aturan yang digunakan untuk mengukur besarnya asosiasi atau keterhubungan antar item dalam market basket data. Association rule merupakan uji statistik yang merepresentasikan ukuran ketertarikan antar data. Terdapat dua ukuran ketertarikan (interestingness) pada association rule dalam bentuk XY yaitu [HAN06]:

a. support, merepresentasikan persentase transaksi dalam basis data yang berisi kombinasi item XY (gabungan dari himpunan X dan himpunan Y). Ini dapat dituliskan dalam bentuk probabilitas, P(XY).

confidence yaitu kuatnya hubungan antar item dalam aturan assosiatif, yang menunjukkan persentasi dari transaksi yang memuat X yang juga memuat Y. Ini dapat dituliskan dalam bentuk probabilitas kondisional, P(X|Y).

Sebagai contoh, dihitung nilai support untuk beberapa atribut data set yang diberikan pada tabel x setelah direduksi dengan atribut income dan credit_rate Untuk kombinasi atbribut age, student, dan buys_computer hasilnya diberikan pada tabel berikut:

Gambar 4. Penghitungan support

Dari tabel tersebut juga dapat dihitung nilai confidence. Sebagai contoh berdasarkan () maka confidence(student=yes => buy_computer=yes) adalah sebesar 6/7

Web Mining (part 5 of 6: Eksperimen) 3. Eksperimen

Kasus yang diambil dalam percobaan adalah perusahaan yang bergerak dalam bidang event organizer. Perusahaan bermaksud melakukan promosi acara hanya kepada pelanggan yang memiliki peluang ketertarikan relatif besar, sehingga pembiayaan yang dilakukan untuk aktivitas marketing dapat diefisiensikan.

Dengan mengimplementasikan teknik web mining, sebuah perusahaan yang melakukan penjualan tiket secara online dapat melakukan mining terhadap data transaksi untuk mengetahui pelanggan mana saja yang cocok untuk sebuah event acara yang akan diadakan. Web mining mengumpulkan data dari perilaku pelanggan saat mengunjungi situs web termasuk transaksi yang mereka lakukan.

Untuk menyederahanakan kasus, maka diberikan sejumlah atribut yang dianggap mewakili profil pelanggan, yaitu: pendidikan, status pernikahan, hobi, musik favaorit, program acara favorit, media informasi, dan bidang pekerjaan. Akan dianalisis profil yang cocok dengan event konser jazz.

Selain ini, disimpan juga data tentang link-link apa saja yang dikunjungi oleh pengguna saat mengunjungi situs, dan juga transaksi yang pernah dilakukan.

Sebagai langkah awal, seluruh atribut yang dibutuhkan disimpan pada tabel termasuk juga data hit link yang dilakukan, seperti pada gambar berikut.

Gambar 5. Data set kasus percobaan

Pada gambar tersebut, table menyimpan IdData, IdJenisAcara, IdPendidikan, IdStatusMenikah, IdHobby, IdMusik, IdProgramAcara, IdMedia, IdPekerjaan, IdLink, dan string.

Kemudian dihitung Information Gain untuk masing-masing atribut. Misalkan akan dianalisis pelanggan mana yang cocok dengan jenis acara konser jazz (atribut IdJenisAcara=A4), maka label kelas adalah IdJenisAcara, dan akan terdapat 2 kelas berbeda (m=2) yaitu untuk (C1=’A4’, C2=’bukan A4’). Data set berjumlah 25 sample, sehingga s=25, sehingga berdasarkan perhitungan isi table tersebut maka s1=11 dari kelas C1 dan s2=14 dari kelas C2. Nilai informasinya adalah:

I(s1,s2) = I(11,14)

Misalkan atribut A yang ditinjau adalah hobi, dan A memiliki 5 nilai berbeda {a1=’menyanyi’, a2=’membaca’, a3=’menonton’, a4=’berkebun’, a5=’memasak’} sehingga nilai v=5. Atribut A= hobi dapat digunakan untuk memisahkan S ke dalam 4 subset {S1 untuk menyanyi, S2 untuk membaca, S3 untuk menonton, S4 untuk berkebun, S5 untuk memasak}. Dengan demikian s11=0 adalah jumlah sampel dari kelas C1=’A4’ di dalam subset S1 untuk menyanyi, s21=0 adalah jumlah sampel dari kelas C2=’bukan A4’ di dalam subset S1 untuk menyanyi, s21=0 adalah jumlah sampel dari kelas C2=’bukan A4’ di dalam subset S1 untuk menyanyi, S12=8 adalah jumlah sampel dari kelas C1=’A4’ di dalam subset S2 untuk membaca. Selanjutnya s22=8 adalah jumlah sampel dari kelas C2=’bukan A4’ di dalam subset S2 untuk membaca, s13=3 adalah jumlah sampel dari kelas C1=’A4’ di dalam subset S3 untuk menonton, s23=6 adalah jumlah sampel dari kelas C2=’bukan A4’ di dalam subset S3 untuk menonton, s13=0 adalah jumlah sampel dari kelas C1=’A4’ di dalam subset S4 untuk berkebun, s23=0 adalah jumlah sampel dari kelas C2=’bukan A4’ di dalam subset S4 untuk berkebun, s13=0 adalah jumlah sampel dari kelas C1=’A4’ di dalam subset S5 untuk memasak, s23=0 adalah jumlah sampel dari kelas C2=’bukan A4’ di dalam subset S5 untuk membaca. Jadi s=s11+s12+s22+s13+s23+s14+s24+s15+s25 = 25 sampel.

Jika sj adalah jumlah sampel data pada masing-masing subset Sj, maka informasi yang diharapkan untuk masing-masing subset Sj adalah sebagai berikut:

I(s11,s21) =

Dengan cara yang sama didapatkan hasil I(s13,s23)=0.9183, dan I(s14,s24)=0, dan I(s15,s25)=0.

Dalam hal ini s1=s11+s21=0, s2=s12+s22=8+8=16, s3=s12+s23=3+6=9, s4=s14+s24=0+0=0, dan s5=s15+s25=0+0=0.

Entropi yang merupakan informasi harapan berdasarkan pemisahan kedalam subset-subset A adalah:

Dengan demikian, dain dari informasi dari suatu pemisahan demikian adalah:

Gain(hobi) = I(s1,s2) – E(hobi)

= 0.9896 – 0.9706 = 0.019

Dengan cara yang sama dihitung juga information gain untuk atribut lainnya, hasilnya diberikan pada gambar 6.

Gambar 6. Contoh pereduksian atribut

Bila didefinisikan threshold sebesar 0.02, maka atribut yang memenuhi adalah pendidikan, status menikah, dan atribut musik.

Setelah dilakukan proses reduksi atribut, maka proses mining dapat dilakukan berdasarkan aturan support dan confidence. Hasil reduksi adalah seperi gambar 7. Sedangkan hasil perhitungan support dan confidence terdapat pada gambar 8. Selanjutnya itemset dikombinasikan, dan dengan nilai threshold sebesar 0.2 dan didapatkan hasil akhir seperti pada gambar 9.

Dari hasil tersebut terlihat bahwa atribut B3 (hobi mendengarkan musik), C1 (status single), dan E5 (musik favorit jazz) memeiliki kecenderungan untuk melakukan reservasi konser jazz sebesar 40%. Itemset tersebut cocok dengan pelanggan dengan IdMembership 7 dan 9.

Gambar 7. Tabel atribut tereduksi

Gambar 8. Nilai support dan confidence

Gambar 9. Kombinasi akhir

Web Mining (part 6 of 6: Kesimpulan dan Pustaka) 4. Kesimpulan

Proses penghitungan Information Gain perlu dilakukan untuk mereduksi atribut yang tidak perlu. Web mining dapat digunakan untuk menganalisis data-data transaksi yang dilakukan oleh pengunjung web, untuk selanjutnya memanfaatkan hasilnya untuk peningkatan efisiensi aktivitas perusahaan.

5. Referensi

[1] Han, Jia Wei, and Kamber, Micheline (2006). Data Mining: Concepts and Techniques, University of Illionis at Urbana-Champaign

[2] www.galeas.de/webmining.html akses 6 Januari 2009