jurnal - 7209040003

Jurnal Elektro PENS

www.jurnalpa.eepis-its.edu

Teknik Telekomunikasi

Vol.1, No.1, 2012

Politeknik Elektronika Negeri Surabaya

PENGAKSESAN LAYANAN MAILBOX BERBASIS SPEECH

TO TEXT PADA ANDROID DENGAN METODE MEL

FREQUENCY CEPSTRAL COEFFICIENT (MFCC)

Riska Aprilia Raharjo, Mike Yuliana, Reni Soelistijorini

Program Studi D4 Teknik Telekomunikasi

Departemen Teknik Elektro

Politeknik Elektronika Negeri Surabaya Kampus PENS, Jalan Raya ITS Sukolilo, Surabaya 60111

Tel: (031) 594 7280; Fax: (031) 594 6114

Email: [email protected], [email protected], [email protected]

Abstrak

Kemajuan teknologi telekomunikasi saat ini membuat pengguna layanan telepon mulai meninggalkan layanan voice

mailbox. Hal ini dikarenakan untuk mengakses pesan suara yang terdapat pada layanan ini pengguna harus menghubungi voice

mailbox server terlebih dahulu. Seringkali pesan suara yang telah direkam pada layanan ini kurang akurat. Hal ini menyebabkan

pengguna jarang menggunakan layanan ini.

Pada penelitian ini dibuat sebuah perangkat lunak yang dapat mengubah informasi berupa sinyal suara menjadi teks.

Pengolahan sinyal suara ini menggunakan metode Mel Frequency Cepstral Coefficient (MFCC) untuk ekstraksi ciri sinyal suara

dan metode Dynamic Time Warping (DTW) untuk pencocokan dengan data standar sehingga didapatkan hasil berupa teks. Dari

hasil pengujian terlihat bahwa tingkat keberhasilan sistem untuk mengenali kata yang diucapkan oleh pengucap yang sama

dengan pemberi standar dan mengubahnya menjadi teks adalah 70%.

Kata Kunci : voice mailbox, MFCC, DTW, ekstraksi ciri Warping

luan

1. Pendahuluan

Pada perkembangan dunia telekomunikasi saat ini, kebutuhan masyarakat akan layanan telekomunikasi

semakin berkembang. Sehingga perusahaan yang bergerak di bidang telekomunikasi pada hakekatnya berupaya

untuk terus meningkatkan kualitas pelayanan dan membina hubungan dengan pelanggan sebagai realisasi dari misi

perusahaan, yaitu mencapai kepuasan pelanggan yang maksimal. Dalam hal ini aspek yang selalu diperhatikan

adalah berupa layanan, baik layanan dalam segi jaringan voice, aplikasi dan sebagainya.

Layanan voice mailbox[2] ini merupakan suatu layanan yang diaplikasikan untuk kondisi dimana

seseorang sering mobile, sehingga dengan adanya layanan ini penelpon dapat meninggalkan pesan jika seseorang

yang dihubungi tidak mengangkat telepon. Namun layanan voice mailbox ini juga memiliki kelemahan. Kelemahan

dari layanan voice mailbox ini adalah hasil dari rekaman pesan suara yang terdapat pada voice mailbox kurang

jernih, sehingga pelanggan jarang mengakses pesan suara yang telah ditinggalkan oleh pelanggan lain pada layanan

maibox tersebut.

http://www.jurnalpa.eepis-its.edu/

mailto:[email protected]

Jurnal Elektro PENS, Teknik Elektronika, Vol.1, No.1, (2015)

Pada penelitian ini dirancang dan dibuat suatu sistem yang dapat mengakses pesan suara yang telah

direkam sebelumnya pada layanan mailbox dengan menggunakan sistem Interactive Voice Response (IVR)[1]

dimana pesan suara tersebut telah dikonversi menjadi teks. Pengolahan pesan suara tersebut menggunakan metode

Mel Frequency Cepstral Coefficient (MFCC)[4] untuk ekstraksi ciri dan metode Dynamic Time Warping (DTW)[7]

untuk pencocokan dengan data standard pada database. Pengaksesan pesan suara yang telah dikonversi menjadi

bentuk teks dilakukan dengan menggunakan sebuah aplikasi yang telah dibuat pada handphone berbasis Android.

2.1 Metode Mel Frequency Cepstral Coefficient (MFCC)

Metode yang digunakan pada penelitian ini adalah metode Mel Frequency Cepstral Coefficient (MFCC). Metode

ini merupakan adaptasi dari sistem pendengaran manusia, dimana sinyal suara akan difilter secara linear untuk

frekuensi dibawah 1000 Hz dan secara logarithmik untuk frekuensi diatas 1000 Hz. Blok diagram untuk proses

MFCC ditunjukkan pada Gambar 1.

Sinyal suara File .wav

SamplingFront-End Detection

Frame Blocking Pre-emphasize Windowing

FFTMel Frequency

WrappingTake logarithmDCTMel cepstral

Gambar 1. Blok diagram Mel Frequency Cepstral Coefficient (MFCC)

Dari Gambar 1 dapat dijelaskan bahwa suara manusia yang keluar menghasilkan sinyal analog yang bersifat

kontinyu dan tidak terbatas oleh waktu (Infinite Time Interval). Sinyal analog tersebut kemudian mengalami proses

sampling[5] setiap 20 ms dengan frekuensi sampling sebesar 8000 Hz dengan tujuan agar sinyal analog tersebut

berubah menjadi sinyal diskrit. Setelah penyamplingan, dilanjutkan dengan proses frame blocking[3]. Dalam proses

ini, sinyal analog yang berada pada domain waktu yang bersifat time invariant (tidak bergantung pada waktu) harus

dibentuk dalam potongan-potongan waktu yang terbatas yang disebut dengan frame. Pada sinyal suara, frekuensi

rendah lebih dominan dibandingkan dengan frekuensi tinggi. Untuk memperoleh hasil yang lebih baik, maka perlu

diusahakan agar spektrum lebih datar, sehingga pada daerah frekuensi tinggi perlu lebih dikuatkan lagi, proses ini

disebut dengan pre-emphasize[3] dengan persamaan yang ditunjukkan pada persamaan (1).

�̅�(𝑛) = 𝑠(𝑛) − �̅�𝑠(𝑛 − 1) (1)

dimana :

�̅�(𝑛) = sinyal setelah proses pre-emphasize

𝑠(𝑛) = sinyal sebelum proses pre-emphasize

Frame yang telah di proses oleh pre-emphasize kemudian di-windowing[6]. Proses windowing dalam pengolahan

sinyal hasil dari sampling ini bertujuan untuk mengurangi efek diskontinyuitas pada ujung-ujung frame yang

dihasilkan oleh potongan-potongan sinyal. Korelasi antara lebar windowing dalam domain waktu dan amplitudo

berguna untuk menyederhanakan sinyal sehingga akan diperoleh domain frekuensi. Persamaan untuk proses

windowing ditunjukkan pada persamaan (2).

𝑊(𝑛) = 0.54 − 0.46 cos (2𝜋𝑛

𝑁− 1) (2)

dimana :

N = Jumlah data dalam satu window

n = urutan data ke-n

Dengan FFT[8] sinyal yang akan disampling dalam domain waktu ditransformasikan ke domain frekuensi.

Persamaan yang digunakan untuk proses FFT ditunjukkan pada persamaan (3).


𝑆[𝑘] = ∑ 𝑠[𝑛]𝑒−𝑗2𝜋𝑛𝑘

𝑁 , 0 ≤ 𝑘 ≤ 𝑁 − 1

𝑁−1

𝑛=0

(3)

dimana :

N = jumlah sampel yang akan diproses

S(n) = nilai sampel sinyal

k = variabel frekuensi diskrit

Proses selanjutnya adalah mengubah frekuensi dalam skala linier menjadi sebuah skala yang disebut ‘mel’. Skala

‘frekuensi mel’[4] adalah skala frekuensi linier di bawah 1000 Hz dan skala logaritmik diatas 1000 Hz yang

ditunjukkan pada persamaan (4). Dalam mel-frequency wrapping ini, sinyal hasil FFT dikelompokkan ke dalam

berkas filter triangular. Maksud pengelompokan di sini adalah setiap nilai FFT dikalikan terhadap gain filter yang

bersesuaian dan hasilnya dijumlahkan yang ditunjukkan pada persamaan (5).

𝑀𝑒𝑙(𝑓) = 2595 ∗ log10 (1 +𝑓

700) (4)

dimana:

Mel(f) = Fungsi skala mel

f = Frekuensi

𝑌[𝑖] = ∑ 𝑆[𝑗]𝐻𝑖[𝑗] (5)

𝑁

𝑗=1

dimana :

N = jumlah magnitude spectrum

S[j] = magnitude spectrum pada frekuensi j

H[j] = koefisien filterbank pada frekuensi j

M = jumlah channel dalam filterbank

Hasil dari mel-frequency wrapping tersebut berupa spektrum log mel yang dikonversi menjadi cepstrum

menggunakan Discrete Cosine Transform (DCT)[6] yang ditunjukkan pada persamaan (6).

𝜏𝑛 = ∑ (𝑙𝑜𝑔𝑆𝑘) cos [𝑛 (𝑘 −1

2)

𝜋

𝑘] (6)

𝐾

𝑘=1

Dimana :

𝑆𝑘 = keluaran dari proses filterbank pada indeks k

𝐾 = jumlah koefisien yang diharapkan

Hasil dari proses ini dinamakan mel-cepstral. Hasil inilah yang nantinya dipakai sebagai fitur yang dapat

mepresentasikan masing-masing frame. Kemudian fitur yang diperoleh tersebut digunakan sebagai pembanding

antara data masukan dengan data referensi yang terdapat pada basis data dengan menggunakan metode Dynamic

Time Warping (DTW)[7].

2.2 Metode Dynamic Time Warping

Metode Dynamic Time Warping sebuah metode yang memungkinkan komputer untuk mendapatkan jarak

(kemiripan) yang optimal antara 2 koefisien data yang diberikan. Koefisien-koefisien data tersebut di “warp” secara

non-linear dalam dimensi waktu untuk mengetahui jarak (kemiripan) antara 2 koefisien tersebut. Keunggulan DTW

dari metode jarak yang lainnya adalah mampu menghitung jarak dari dua vector data dengan panjang yang berbeda.


Mulai

Memasukkan koefisien mel-cepstral standar ke dalam array

Ti[i][j]

Memasukkan koefisien mel-cepstral sinyal masukan ke dalam

array Ri[i][j]

Mencari jarak minimal antara koefisien mel-cepstral standar

dengan mel-cepstral sinyal masukan untuk setiap frame

Didapatkan jarak minimal antara data standar dengan data

masukan

Selesai

Gambar 2. Flowchart proses DTW

Gambar 3 merupakan flowchart dari proses DTW yang menjelaskan tahapan-tahapan yang dilalui di dalammya.

Proses DTW ini membandingkan koefisien mel cepstral sinyal masukan dengan koefisien mel-cepstral sinyal

standar yang terdapat pada database.Sehingga hasil dari proses ini didapatkan jarak minimal antara data tersebut.

2.3 Alat dan Bahan

Dalam proses sistem pada tugas akhir ini dilakukan perancangan dengan perangkat pendukung yang meliputi :

1. Perangkat keras (Hardware)

Laptop COMPAQ Presario CQ40

Smartphone Sony Xperia U

2. Perangkat lunak (Software)

Visual C++ 6.0

2.4 Implementasi Sistem Pada implementasi sistem ini dijelaskan sistem secara keseluruhan mengenai integrasi dari keseluruhan sistem

hingga proses pengolahan data.

Telephone Network

Provider Network

Internet

Gambar 3. Blok diagram sistem secara keseluruhan

Berikut adalah penjelasan dari blok diagram sistem pada Gambar 3.

Di sisi user, saat user melakukan panggilan ke mobile client, namun tidak ada jawaban pada sisi mobile client

maka secara otomatis user akan terhubung oleh sistem voice mailbox. Sehingga user dapat meninggalkan pesan

berupa pesan suara untuk mobile client.

Pada Maibox dan Database Server, pesan suara dari user tersebut akan diolah melalui proses pengolahan sinyal

wicara dengan menggunakan metode MFCC dan DTW untuk selanjutnya dikonversi kedalam bentuk teks.

Pesan suara yang telah dikonversi menjadi pesan teks ini dapat diakses oleh mobile client dengan menggunakan

sebuah aplikasi Android yang sudah terhubung sebelumnya dengan jaringan internet, sehingga dapat

mengakses data berupa pesan teks dari mailbox dan database server.

Mailbox dan

Database Server Mobile Client User

Proses speech

to text


3. Hasil

Pada penelitian ini, sinyal suara yang digunakan berupa file .wav yang telah direkam menggunakan sistem IVR.

Frekuensi sampling yang digunakan dalam penelitian ini adalah 8000 Hz. Hal ini sesuai dengan frekuensi sampling

yang biasa digunakan pada sistim teleponi.

Gambar 4. Sinyal suara kata “halo” yang digunakan untuk proses pengolahan suara

Hasil utama pada penelitian ini adalah membandingkan antara koefisien mel cepstral sinyal masukan dengan

koefisien mel cepstral standar yang terdapat pada database sehingga didapatkan jarak minimal antara kedua data

tersebut. Maka dapat ditampilkan koefisien mel cepstral data masukan dan data standar yang didapatkan untuk kata

halo pada Tabel 1 dan Tabel 2.

Tabel 1 Hasil koefisien mel cepstral kata “halo” (input)

Frame ke

Koefisien mel cepstral

koef. 1 koef. 2 koef. 3 koef. 4 koef. 5 koef. 6 …. koef.13

1 0.724727 0.202405 -0.08494 0.013483 0.029045 0.091207 ….. 0.401816

2 0.76475 0.198693 -0.08077 0.013128 0.014793 0.100653 ….. 0.39372

3 0.775222 0.20658 -0.0677 -0.00042 0.01807 0.103808 ….. 0.277633

4 0.773964 0.231344 -0.06367 -0.01637 0.023572 0.085613 ….. 0.451125

5 0.771568 0.252391 -0.06371 -0.0131 0.016888 0.079009 ….. 0.561242

6 0.785878 0.251588 -0.04183 -0.01523 0.003439 0.073835 ….. 0.66255

7 0.769195 0.252152 -0.01866 -0.0152 -0.00056 0.067267 ….. 0.741481

N ….. ….. …… ….. ….. ….. ….. …..

Tabel 2 Hasil koefisien mel cepstral kata “halo” (database)

Frame ke

Koefisien mel cepstral

koef. 1 koef. 2 koef. 3 koef. 4 koef. 5 koef. 6 …. koef.13

1 0.874583 0.215655 -0.09855 0.057358 0.016443 0.104927 .... 0.358038

2 0.898032 0.197415 -0.09158 0.046907 0.014961 0.111033 …. 0.501784

3 0.886145 0.193397 -0.07692 0.02949 0.027393 0.115468 …. 0.464464

4 0.881745 0.193777 -0.08282 0.033109 0.020108 0.117176 …. 0.317898

5 0.866666 0.19957 -0.07448 0.025611 0.015749 0.127813 …. 0.316714

6 0.875719 0.186442 -0.06803 0.033231 0.013263 0.12482 …. 0.073253

7 0.867248 0.1999 -0.07306 0.035252 0.015444 0.119793 …. 0.219955

N ….. ….. …… ….. ….. ….. ….. …..


Nilai koefisien mel cepstral yang telah diperoleh untuk sinyal masukan dan sinyal standar ini dibandingkan

dengan metode Dynamic Time Warping sehingga didapatkan nilai jarak minimal untuk masing-masing kata. Dari

kedua Tabel 1 dan Tabel 2 ini diperoleh hasil jarak sebagai berikut :

Tabel 3 Jarak pada pengujian kata “halo”

Pengujian ke- Telepon Halo Kembali Jumpa Bertemu

1 0.062102 0.274641 0.230162 0.558562 0.232887

2 0.069022 0.000147 0.001035 1.585816 0.000861

3 0.10153 0.001917 0.007759 1.729777 0.007269

4 0.179825 0.488486 0.428512 0.327772 0.432227

5 0.023207 0.015011 0.006117 1.319999 0.006568

6 0.3833 0.118509 0.15098 2.610435 0.148788

7 0.094863 0.001098 0.005998 1.701905 0.005568

8 0.247807 0.049703 0.071424 2.233154 0.069918

9 0.217674 0.036747 0.055698 2.14074 0.05437

10 0.553231 0.219900 0.26342 3.028877 0.260521

%prosentase 10% 70% 20% 0% 0%

Tabel 3 merupakan hasil dari jarak pada pengujian kata “halo”. Sesuai data yang ada jarak diantara kedua data

diperoleh kemiripan antara file “halo” pada database dan data input. Dimana beberapa nilai jarak untuk kata “halo”

merupakan nilai minimum diantara file yang lainnya.

Gambar 4. Hasil konversi berupa kata “Halo” pada file teks.txt

Gambar 4 merupakan hasil dari konversi sinyal suara ke dalam bentuk teks yang disimpan dalam bentuk file .txt.

Kata yang tercetak dalam file . txt tersebut sesuai dengan jarak minimal yang didapatkan.

4. Diskusi

Pada sistem speech to text yang telah dibuat ini, dapat dibuktikan bahwa dari proses keseluruhan untuk

pengolahan sinyal suara, mulai dari sistem pengenalan suara sampai didapatkan koefisien mel cepstral. Setelah

didapatkan nilai koefisien mel cepstral ini untuk sinyal masukan. Maka proses pencocokan dapat dilakukan dengan

menggunakan metode Dynamic Time Warping.Dari hasil yang telah didapatkan dapat dilihat bahwa sistem ini dapat

mengubah sinyal suara menjadi teks. Tingkat keberhasilan terbesar adalah sebesar 70%, sedangkan tingkat

kebarhisaln terkecil adalah sebesar 40%. Hal ini disebabkan oleh beberapa faktor, antara lain pengucapan dari

pengucap (dependent speaker) yang tidak selalu sama, hal ini menyebabkan koefisien yang didapat dari proses

sebelumnya berbeda, sehingga pada saat pencocokan dengan metode Dynamic Time Warping jarak yang di dapat

tidak sesuai dengan yang diharapkan. Selain itu faktor peralatan pada saat perekaman juga mempengaruhi baik

tidaknya file “.wav” yang dihasilkan. Penentuan sinyal standard yang dijadikan sebagai pembanding dengan sinyal

masukan juga mempengaruhi keberhasilan sistem ini.


5. Kesimpulan

Dari sistem yang telah dibuat, maka diperoleh beberapa kesimpulan yaitu :

1. Metode Mel Frequency Cepstral Coefficients adalah metode yang baik untuk ekstraksi fitur dalam pengenalan

suara.

2. Nilai-nilai parameter MFCC yang digunakan sangat mempengaruhi baik buruknya hasil dari proses MFCC itu

sendiri, sehingga berpengaruh terhadap tingkat kesuksesan saat pencocokan.

3. Hal-hal yang dapat mempengaruhi baik buruknya kinerja sistem speech to text yang dibuat adalah panjang

frame (N), panjang pergeseran frame (M), jumlah koefisien filterbank, dan jumlah koefisien MFCC

4. Dengan menggunakan metode Dynamic Time Warping dapat dicari pemadanan suatu wicara dengan mengukur

jarak antara sinyal masukan dengan sinyal standar.

5. Penentuan sinyal standard yang dijadikan sebagai pembanding dengan sinyal masukan juga mempengaruhi

keberhasilan sistem ini.

Referensi [1] M. Yuliana, M. Huda, P. Kristalina. “Analisa Kualitas Sinyal Suara pada Layanan Mailbox Berbasis Teknologi Interactive Voice

Response (IVR)”, Politeknik Elektronika Negeri Surabaya, Surabaya : 2010. [2] Mike Yuliana. “praktikum Sistem Voice Response (IVR)”, Modul dasar Jaringan Telephony, Surabaya : Politeknik Elektronika Negeri

Surabaya, 2008.

[3] Manunggal, HS. “Perancangan dan Pembuatan Perangkat Lunak Pengenalan Suara Pembicara dengan Menggunakan Analisa MFCC Feature Extraction”, Tugas Akhir Petra, Surabaya: 2005.

[4] Kshamamayee Dash, Debananda Padhi, Bhoomika Panda, Prof. Sanghamitra Mohanty, "Speaker Identification using Mel Frequency

Cepstral Coefficient and BPNN", 2nd International Journal of Advanced Research in Computer Science and Software Engineering (IARCSSE), 2012.

[5] John Bellamy, "Digital Telephony", John Wiley & Sons, 2005. [6] Viplav Gautam, Saurabh Sharma, Swapnil Gautam, Gaurav Sharma, "Identification and Verification of Speaker using Mel Frequency

Cepstral Coefficient", 3rd International Journal of Electronics and Communication Engineering & Technology (IJECET), 2012.

[7] Auruma Nurrachmad, “Aplikasi Pengenalan Wicara untuk Dial Telephone dengan Metode Dependent Speaker”, Tugas Akhir politeknik Elektronika Negeri Surabaya, Surabaya: 2006

jurnal - 7209040003

Documents