jurnal - 7209040003
DESCRIPTION
Kemajuan teknologi telekomunikasi saat ini membuat pengguna layanan telepon mulai meninggalkan layanan voice mailbox. Hal ini dikarenakan untuk mengakses pesan suara yang terdapat pada layanan ini pengguna harus menghubungi voice mailbox server terlebih dahulu. Seringkali pesan suara yang telah direkam pada layanan ini kurang akurat. Hal ini menyebabkan pengguna jarang menggunakan layanan ini. Pada penelitian ini dibuat sebuah perangkat lunak yang dapat mengubah informasi berupa sinyal suara menjadi teks. Pengolahan sinyal suara ini menggunakan metode Mel Frequency Cepstral Coefficient (MFCC) untuk ekstraksi ciri sinyal suara dan metode Dynamic Time Warping (DTW) untuk pencocokan dengan data standar sehingga didapatkan hasil berupa teks. Dari hasil pengujian terlihat bahwa tingkat keberhasilan sistem untuk mengenali kata yang diucapkan oleh pengucap yang sama dengan pemberi standar dan mengubahnya menjadi teks adalah 70%.TRANSCRIPT
![Page 1: Jurnal - 7209040003](https://reader035.vdocument.in/reader035/viewer/2022081205/563dbcb7550346aa9ab0a218/html5/thumbnails/1.jpg)
Jurnal Elektro PENS
www.jurnalpa.eepis-its.edu
Teknik Telekomunikasi
Vol.1, No.1, 2012
Politeknik Elektronika Negeri Surabaya
PENGAKSESAN LAYANAN MAILBOX BERBASIS SPEECH
TO TEXT PADA ANDROID DENGAN METODE MEL
FREQUENCY CEPSTRAL COEFFICIENT (MFCC)
Riska Aprilia Raharjo, Mike Yuliana, Reni Soelistijorini
Program Studi D4 Teknik Telekomunikasi
Departemen Teknik Elektro
Politeknik Elektronika Negeri Surabaya Kampus PENS, Jalan Raya ITS Sukolilo, Surabaya 60111
Tel: (031) 594 7280; Fax: (031) 594 6114
Email: [email protected], [email protected], [email protected]
Abstrak
Kemajuan teknologi telekomunikasi saat ini membuat pengguna layanan telepon mulai meninggalkan layanan voice
mailbox. Hal ini dikarenakan untuk mengakses pesan suara yang terdapat pada layanan ini pengguna harus menghubungi voice
mailbox server terlebih dahulu. Seringkali pesan suara yang telah direkam pada layanan ini kurang akurat. Hal ini menyebabkan
pengguna jarang menggunakan layanan ini.
Pada penelitian ini dibuat sebuah perangkat lunak yang dapat mengubah informasi berupa sinyal suara menjadi teks.
Pengolahan sinyal suara ini menggunakan metode Mel Frequency Cepstral Coefficient (MFCC) untuk ekstraksi ciri sinyal suara
dan metode Dynamic Time Warping (DTW) untuk pencocokan dengan data standar sehingga didapatkan hasil berupa teks. Dari
hasil pengujian terlihat bahwa tingkat keberhasilan sistem untuk mengenali kata yang diucapkan oleh pengucap yang sama
dengan pemberi standar dan mengubahnya menjadi teks adalah 70%.
Kata Kunci : voice mailbox, MFCC, DTW, ekstraksi ciri Warping
luan
1. Pendahuluan
Pada perkembangan dunia telekomunikasi saat ini, kebutuhan masyarakat akan layanan telekomunikasi
semakin berkembang. Sehingga perusahaan yang bergerak di bidang telekomunikasi pada hakekatnya berupaya
untuk terus meningkatkan kualitas pelayanan dan membina hubungan dengan pelanggan sebagai realisasi dari misi
perusahaan, yaitu mencapai kepuasan pelanggan yang maksimal. Dalam hal ini aspek yang selalu diperhatikan
adalah berupa layanan, baik layanan dalam segi jaringan voice, aplikasi dan sebagainya.
Layanan voice mailbox[2] ini merupakan suatu layanan yang diaplikasikan untuk kondisi dimana
seseorang sering mobile, sehingga dengan adanya layanan ini penelpon dapat meninggalkan pesan jika seseorang
yang dihubungi tidak mengangkat telepon. Namun layanan voice mailbox ini juga memiliki kelemahan. Kelemahan
dari layanan voice mailbox ini adalah hasil dari rekaman pesan suara yang terdapat pada voice mailbox kurang
jernih, sehingga pelanggan jarang mengakses pesan suara yang telah ditinggalkan oleh pelanggan lain pada layanan
maibox tersebut.
![Page 2: Jurnal - 7209040003](https://reader035.vdocument.in/reader035/viewer/2022081205/563dbcb7550346aa9ab0a218/html5/thumbnails/2.jpg)
Jurnal Elektro PENS, Teknik Elektronika, Vol.1, No.1, (2015)
Pada penelitian ini dirancang dan dibuat suatu sistem yang dapat mengakses pesan suara yang telah
direkam sebelumnya pada layanan mailbox dengan menggunakan sistem Interactive Voice Response (IVR)[1]
dimana pesan suara tersebut telah dikonversi menjadi teks. Pengolahan pesan suara tersebut menggunakan metode
Mel Frequency Cepstral Coefficient (MFCC)[4] untuk ekstraksi ciri dan metode Dynamic Time Warping (DTW)[7]
untuk pencocokan dengan data standard pada database. Pengaksesan pesan suara yang telah dikonversi menjadi
bentuk teks dilakukan dengan menggunakan sebuah aplikasi yang telah dibuat pada handphone berbasis Android.
2.1 Metode Mel Frequency Cepstral Coefficient (MFCC)
Metode yang digunakan pada penelitian ini adalah metode Mel Frequency Cepstral Coefficient (MFCC). Metode
ini merupakan adaptasi dari sistem pendengaran manusia, dimana sinyal suara akan difilter secara linear untuk
frekuensi dibawah 1000 Hz dan secara logarithmik untuk frekuensi diatas 1000 Hz. Blok diagram untuk proses
MFCC ditunjukkan pada Gambar 1.
Sinyal suara File .wav
SamplingFront-End Detection
Frame Blocking Pre-emphasize Windowing
FFTMel Frequency
WrappingTake logarithmDCTMel cepstral
Gambar 1. Blok diagram Mel Frequency Cepstral Coefficient (MFCC)
Dari Gambar 1 dapat dijelaskan bahwa suara manusia yang keluar menghasilkan sinyal analog yang bersifat
kontinyu dan tidak terbatas oleh waktu (Infinite Time Interval). Sinyal analog tersebut kemudian mengalami proses
sampling[5] setiap 20 ms dengan frekuensi sampling sebesar 8000 Hz dengan tujuan agar sinyal analog tersebut
berubah menjadi sinyal diskrit. Setelah penyamplingan, dilanjutkan dengan proses frame blocking[3]. Dalam proses
ini, sinyal analog yang berada pada domain waktu yang bersifat time invariant (tidak bergantung pada waktu) harus
dibentuk dalam potongan-potongan waktu yang terbatas yang disebut dengan frame. Pada sinyal suara, frekuensi
rendah lebih dominan dibandingkan dengan frekuensi tinggi. Untuk memperoleh hasil yang lebih baik, maka perlu
diusahakan agar spektrum lebih datar, sehingga pada daerah frekuensi tinggi perlu lebih dikuatkan lagi, proses ini
disebut dengan pre-emphasize[3] dengan persamaan yang ditunjukkan pada persamaan (1).
�̅�(𝑛) = 𝑠(𝑛) − �̅�𝑠(𝑛 − 1) (1)
dimana :
�̅�(𝑛) = sinyal setelah proses pre-emphasize
𝑠(𝑛) = sinyal sebelum proses pre-emphasize
Frame yang telah di proses oleh pre-emphasize kemudian di-windowing[6]. Proses windowing dalam pengolahan
sinyal hasil dari sampling ini bertujuan untuk mengurangi efek diskontinyuitas pada ujung-ujung frame yang
dihasilkan oleh potongan-potongan sinyal. Korelasi antara lebar windowing dalam domain waktu dan amplitudo
berguna untuk menyederhanakan sinyal sehingga akan diperoleh domain frekuensi. Persamaan untuk proses
windowing ditunjukkan pada persamaan (2).
𝑊(𝑛) = 0.54 − 0.46 cos (2𝜋𝑛
𝑁− 1) (2)
dimana :
N = Jumlah data dalam satu window
n = urutan data ke-n
Dengan FFT[8] sinyal yang akan disampling dalam domain waktu ditransformasikan ke domain frekuensi.
Persamaan yang digunakan untuk proses FFT ditunjukkan pada persamaan (3).
![Page 3: Jurnal - 7209040003](https://reader035.vdocument.in/reader035/viewer/2022081205/563dbcb7550346aa9ab0a218/html5/thumbnails/3.jpg)
Jurnal Elektro PENS, Teknik Elektronika, Vol.1, No.1, (2015)
𝑆[𝑘] = ∑ 𝑠[𝑛]𝑒−𝑗2𝜋𝑛𝑘
𝑁 , 0 ≤ 𝑘 ≤ 𝑁 − 1
𝑁−1
𝑛=0
(3)
dimana :
N = jumlah sampel yang akan diproses
S(n) = nilai sampel sinyal
k = variabel frekuensi diskrit
Proses selanjutnya adalah mengubah frekuensi dalam skala linier menjadi sebuah skala yang disebut ‘mel’. Skala
‘frekuensi mel’[4] adalah skala frekuensi linier di bawah 1000 Hz dan skala logaritmik diatas 1000 Hz yang
ditunjukkan pada persamaan (4). Dalam mel-frequency wrapping ini, sinyal hasil FFT dikelompokkan ke dalam
berkas filter triangular. Maksud pengelompokan di sini adalah setiap nilai FFT dikalikan terhadap gain filter yang
bersesuaian dan hasilnya dijumlahkan yang ditunjukkan pada persamaan (5).
𝑀𝑒𝑙(𝑓) = 2595 ∗ log10 (1 +𝑓
700) (4)
dimana:
Mel(f) = Fungsi skala mel
f = Frekuensi
𝑌[𝑖] = ∑ 𝑆[𝑗]𝐻𝑖[𝑗] (5)
𝑁
𝑗=1
dimana :
N = jumlah magnitude spectrum
S[j] = magnitude spectrum pada frekuensi j
H[j] = koefisien filterbank pada frekuensi j
M = jumlah channel dalam filterbank
Hasil dari mel-frequency wrapping tersebut berupa spektrum log mel yang dikonversi menjadi cepstrum
menggunakan Discrete Cosine Transform (DCT)[6] yang ditunjukkan pada persamaan (6).
𝜏𝑛 = ∑ (𝑙𝑜𝑔𝑆𝑘) cos [𝑛 (𝑘 −1
2)
𝜋
𝑘] (6)
𝐾
𝑘=1
Dimana :
𝑆𝑘 = keluaran dari proses filterbank pada indeks k
𝐾 = jumlah koefisien yang diharapkan
Hasil dari proses ini dinamakan mel-cepstral. Hasil inilah yang nantinya dipakai sebagai fitur yang dapat
mepresentasikan masing-masing frame. Kemudian fitur yang diperoleh tersebut digunakan sebagai pembanding
antara data masukan dengan data referensi yang terdapat pada basis data dengan menggunakan metode Dynamic
Time Warping (DTW)[7].
2.2 Metode Dynamic Time Warping
Metode Dynamic Time Warping sebuah metode yang memungkinkan komputer untuk mendapatkan jarak
(kemiripan) yang optimal antara 2 koefisien data yang diberikan. Koefisien-koefisien data tersebut di “warp” secara
non-linear dalam dimensi waktu untuk mengetahui jarak (kemiripan) antara 2 koefisien tersebut. Keunggulan DTW
dari metode jarak yang lainnya adalah mampu menghitung jarak dari dua vector data dengan panjang yang berbeda.
![Page 4: Jurnal - 7209040003](https://reader035.vdocument.in/reader035/viewer/2022081205/563dbcb7550346aa9ab0a218/html5/thumbnails/4.jpg)
Jurnal Elektro PENS, Teknik Elektronika, Vol.1, No.1, (2015)
Mulai
Memasukkan koefisien mel-cepstral standar ke dalam array
Ti[i][j]
Memasukkan koefisien mel-cepstral sinyal masukan ke dalam
array Ri[i][j]
Mencari jarak minimal antara koefisien mel-cepstral standar
dengan mel-cepstral sinyal masukan untuk setiap frame
Didapatkan jarak minimal antara data standar dengan data
masukan
Selesai
Gambar 2. Flowchart proses DTW
Gambar 3 merupakan flowchart dari proses DTW yang menjelaskan tahapan-tahapan yang dilalui di dalammya.
Proses DTW ini membandingkan koefisien mel cepstral sinyal masukan dengan koefisien mel-cepstral sinyal
standar yang terdapat pada database.Sehingga hasil dari proses ini didapatkan jarak minimal antara data tersebut.
2.3 Alat dan Bahan
Dalam proses sistem pada tugas akhir ini dilakukan perancangan dengan perangkat pendukung yang meliputi :
1. Perangkat keras (Hardware)
Laptop COMPAQ Presario CQ40
Smartphone Sony Xperia U
2. Perangkat lunak (Software)
Visual C++ 6.0
2.4 Implementasi Sistem Pada implementasi sistem ini dijelaskan sistem secara keseluruhan mengenai integrasi dari keseluruhan sistem
hingga proses pengolahan data.
Telephone Network
Provider Network
Internet
Gambar 3. Blok diagram sistem secara keseluruhan
Berikut adalah penjelasan dari blok diagram sistem pada Gambar 3.
Di sisi user, saat user melakukan panggilan ke mobile client, namun tidak ada jawaban pada sisi mobile client
maka secara otomatis user akan terhubung oleh sistem voice mailbox. Sehingga user dapat meninggalkan pesan
berupa pesan suara untuk mobile client.
Pada Maibox dan Database Server, pesan suara dari user tersebut akan diolah melalui proses pengolahan sinyal
wicara dengan menggunakan metode MFCC dan DTW untuk selanjutnya dikonversi kedalam bentuk teks.
Pesan suara yang telah dikonversi menjadi pesan teks ini dapat diakses oleh mobile client dengan menggunakan
sebuah aplikasi Android yang sudah terhubung sebelumnya dengan jaringan internet, sehingga dapat
mengakses data berupa pesan teks dari mailbox dan database server.
Mailbox dan
Database Server Mobile Client User
Proses speech
to text
![Page 5: Jurnal - 7209040003](https://reader035.vdocument.in/reader035/viewer/2022081205/563dbcb7550346aa9ab0a218/html5/thumbnails/5.jpg)
Jurnal Elektro PENS, Teknik Elektronika, Vol.1, No.1, (2015)
3. Hasil
Pada penelitian ini, sinyal suara yang digunakan berupa file .wav yang telah direkam menggunakan sistem IVR.
Frekuensi sampling yang digunakan dalam penelitian ini adalah 8000 Hz. Hal ini sesuai dengan frekuensi sampling
yang biasa digunakan pada sistim teleponi.
Gambar 4. Sinyal suara kata “halo” yang digunakan untuk proses pengolahan suara
Hasil utama pada penelitian ini adalah membandingkan antara koefisien mel cepstral sinyal masukan dengan
koefisien mel cepstral standar yang terdapat pada database sehingga didapatkan jarak minimal antara kedua data
tersebut. Maka dapat ditampilkan koefisien mel cepstral data masukan dan data standar yang didapatkan untuk kata
halo pada Tabel 1 dan Tabel 2.
Tabel 1 Hasil koefisien mel cepstral kata “halo” (input)
Frame ke
Koefisien mel cepstral
koef. 1 koef. 2 koef. 3 koef. 4 koef. 5 koef. 6 …. koef.13
1 0.724727 0.202405 -0.08494 0.013483 0.029045 0.091207 ….. 0.401816
2 0.76475 0.198693 -0.08077 0.013128 0.014793 0.100653 ….. 0.39372
3 0.775222 0.20658 -0.0677 -0.00042 0.01807 0.103808 ….. 0.277633
4 0.773964 0.231344 -0.06367 -0.01637 0.023572 0.085613 ….. 0.451125
5 0.771568 0.252391 -0.06371 -0.0131 0.016888 0.079009 ….. 0.561242
6 0.785878 0.251588 -0.04183 -0.01523 0.003439 0.073835 ….. 0.66255
7 0.769195 0.252152 -0.01866 -0.0152 -0.00056 0.067267 ….. 0.741481
N ….. ….. …… ….. ….. ….. ….. …..
Tabel 2 Hasil koefisien mel cepstral kata “halo” (database)
Frame ke
Koefisien mel cepstral
koef. 1 koef. 2 koef. 3 koef. 4 koef. 5 koef. 6 …. koef.13
1 0.874583 0.215655 -0.09855 0.057358 0.016443 0.104927 .... 0.358038
2 0.898032 0.197415 -0.09158 0.046907 0.014961 0.111033 …. 0.501784
3 0.886145 0.193397 -0.07692 0.02949 0.027393 0.115468 …. 0.464464
4 0.881745 0.193777 -0.08282 0.033109 0.020108 0.117176 …. 0.317898
5 0.866666 0.19957 -0.07448 0.025611 0.015749 0.127813 …. 0.316714
6 0.875719 0.186442 -0.06803 0.033231 0.013263 0.12482 …. 0.073253
7 0.867248 0.1999 -0.07306 0.035252 0.015444 0.119793 …. 0.219955
N ….. ….. …… ….. ….. ….. ….. …..
![Page 6: Jurnal - 7209040003](https://reader035.vdocument.in/reader035/viewer/2022081205/563dbcb7550346aa9ab0a218/html5/thumbnails/6.jpg)
Jurnal Elektro PENS, Teknik Elektronika, Vol.1, No.1, (2015)
Nilai koefisien mel cepstral yang telah diperoleh untuk sinyal masukan dan sinyal standar ini dibandingkan
dengan metode Dynamic Time Warping sehingga didapatkan nilai jarak minimal untuk masing-masing kata. Dari
kedua Tabel 1 dan Tabel 2 ini diperoleh hasil jarak sebagai berikut :
Tabel 3 Jarak pada pengujian kata “halo”
Pengujian ke- Telepon Halo Kembali Jumpa Bertemu
1 0.062102 0.274641 0.230162 0.558562 0.232887
2 0.069022 0.000147 0.001035 1.585816 0.000861
3 0.10153 0.001917 0.007759 1.729777 0.007269
4 0.179825 0.488486 0.428512 0.327772 0.432227
5 0.023207 0.015011 0.006117 1.319999 0.006568
6 0.3833 0.118509 0.15098 2.610435 0.148788
7 0.094863 0.001098 0.005998 1.701905 0.005568
8 0.247807 0.049703 0.071424 2.233154 0.069918
9 0.217674 0.036747 0.055698 2.14074 0.05437
10 0.553231 0.219900 0.26342 3.028877 0.260521
%prosentase 10% 70% 20% 0% 0%
Tabel 3 merupakan hasil dari jarak pada pengujian kata “halo”. Sesuai data yang ada jarak diantara kedua data
diperoleh kemiripan antara file “halo” pada database dan data input. Dimana beberapa nilai jarak untuk kata “halo”
merupakan nilai minimum diantara file yang lainnya.
Gambar 4. Hasil konversi berupa kata “Halo” pada file teks.txt
Gambar 4 merupakan hasil dari konversi sinyal suara ke dalam bentuk teks yang disimpan dalam bentuk file .txt.
Kata yang tercetak dalam file . txt tersebut sesuai dengan jarak minimal yang didapatkan.
4. Diskusi
Pada sistem speech to text yang telah dibuat ini, dapat dibuktikan bahwa dari proses keseluruhan untuk
pengolahan sinyal suara, mulai dari sistem pengenalan suara sampai didapatkan koefisien mel cepstral. Setelah
didapatkan nilai koefisien mel cepstral ini untuk sinyal masukan. Maka proses pencocokan dapat dilakukan dengan
menggunakan metode Dynamic Time Warping.Dari hasil yang telah didapatkan dapat dilihat bahwa sistem ini dapat
mengubah sinyal suara menjadi teks. Tingkat keberhasilan terbesar adalah sebesar 70%, sedangkan tingkat
kebarhisaln terkecil adalah sebesar 40%. Hal ini disebabkan oleh beberapa faktor, antara lain pengucapan dari
pengucap (dependent speaker) yang tidak selalu sama, hal ini menyebabkan koefisien yang didapat dari proses
sebelumnya berbeda, sehingga pada saat pencocokan dengan metode Dynamic Time Warping jarak yang di dapat
tidak sesuai dengan yang diharapkan. Selain itu faktor peralatan pada saat perekaman juga mempengaruhi baik
tidaknya file “.wav” yang dihasilkan. Penentuan sinyal standard yang dijadikan sebagai pembanding dengan sinyal
masukan juga mempengaruhi keberhasilan sistem ini.
![Page 7: Jurnal - 7209040003](https://reader035.vdocument.in/reader035/viewer/2022081205/563dbcb7550346aa9ab0a218/html5/thumbnails/7.jpg)
Jurnal Elektro PENS, Teknik Elektronika, Vol.1, No.1, (2015)
5. Kesimpulan
Dari sistem yang telah dibuat, maka diperoleh beberapa kesimpulan yaitu :
1. Metode Mel Frequency Cepstral Coefficients adalah metode yang baik untuk ekstraksi fitur dalam pengenalan
suara.
2. Nilai-nilai parameter MFCC yang digunakan sangat mempengaruhi baik buruknya hasil dari proses MFCC itu
sendiri, sehingga berpengaruh terhadap tingkat kesuksesan saat pencocokan.
3. Hal-hal yang dapat mempengaruhi baik buruknya kinerja sistem speech to text yang dibuat adalah panjang
frame (N), panjang pergeseran frame (M), jumlah koefisien filterbank, dan jumlah koefisien MFCC
4. Dengan menggunakan metode Dynamic Time Warping dapat dicari pemadanan suatu wicara dengan mengukur
jarak antara sinyal masukan dengan sinyal standar.
5. Penentuan sinyal standard yang dijadikan sebagai pembanding dengan sinyal masukan juga mempengaruhi
keberhasilan sistem ini.
Referensi [1] M. Yuliana, M. Huda, P. Kristalina. “Analisa Kualitas Sinyal Suara pada Layanan Mailbox Berbasis Teknologi Interactive Voice
Response (IVR)”, Politeknik Elektronika Negeri Surabaya, Surabaya : 2010. [2] Mike Yuliana. “praktikum Sistem Voice Response (IVR)”, Modul dasar Jaringan Telephony, Surabaya : Politeknik Elektronika Negeri
Surabaya, 2008.
[3] Manunggal, HS. “Perancangan dan Pembuatan Perangkat Lunak Pengenalan Suara Pembicara dengan Menggunakan Analisa MFCC Feature Extraction”, Tugas Akhir Petra, Surabaya: 2005.
[4] Kshamamayee Dash, Debananda Padhi, Bhoomika Panda, Prof. Sanghamitra Mohanty, "Speaker Identification using Mel Frequency
Cepstral Coefficient and BPNN", 2nd International Journal of Advanced Research in Computer Science and Software Engineering (IARCSSE), 2012.
[5] John Bellamy, "Digital Telephony", John Wiley & Sons, 2005. [6] Viplav Gautam, Saurabh Sharma, Swapnil Gautam, Gaurav Sharma, "Identification and Verification of Speaker using Mel Frequency
Cepstral Coefficient", 3rd International Journal of Electronics and Communication Engineering & Technology (IJECET), 2012.
[7] Auruma Nurrachmad, “Aplikasi Pengenalan Wicara untuk Dial Telephone dengan Metode Dependent Speaker”, Tugas Akhir politeknik Elektronika Negeri Surabaya, Surabaya: 2006