[ieee 2009 ieee 17th signal processing and communications applications conference (siu) - antalya,...

4
Altuzay Snflama ile Sesbirim Temelli Türkçe Yaltk Kelime Tanma Phonem-Based Isolated Turkish Word Recognition With Subspace Classifier Serkan Keser 1 , Rifat Edizkan 2 1 Endüstriyel Elektronik Program Krehir Ahi Evran Üniversitesi [email protected] 2 Elektrik Elektronik Mühendislii Bölümü Eskiehir Osmangazi Üniversitesi [email protected] Özetçe Bu çalmada, ortak vektör yaklam (OVY) ile sesbirim temelli Türkçe yaltk kelime tanma gerçekletirilmitir. OVY sesbirim snflamada kullanlmtr. Snflama sonucu ortaya çkan sesbirim dizisi için kelime çözümlemesi gereksiz karma adresleme (GKA) ile yaplmtr. Sözlüklerinde farkl kelimeler kullanlan uygulamalar gelitirmek için kelime temelli ses tanma yöntemleri yerine sesbirim temelli sistemler daha uygundur. Bu nedenle, bu çalmada OVY’nin sesbirim temelli kelime tanmadaki baarmn deerlendirilmitir. Deneysel çalmada METU veri tabanndan rastgele seçilmi kelimelerden %70-80 kelime tanma baarm elde edilmitir. OVY’de iyiletirmeler yaparak ve farkl dil çözümleme yöntemleri kullanlarak yüksek baarml snrl sayda kelime tanma yapmak mümkün olabilir. Abstract In this study, phoneme-based isolated Turkish word recognition with Common Vector Approach (CVA) has been performed. CVA has been used to classify phonemes. The phoneme sequence obtained from the classification is decoded into the word using redundant hash addressing (RHA). The phoneme-based speech recognition is more suitable than the word-based speech recognition for implementing applications that use different words in their dictionaries. For that reason, in this study the CVA is evaluated to see whether it could be used in phoneme-based word recognition or not. In the experimental study we obtained the word recognition rates 70- 80% from randomly selected words in METU database. It might be possible to obtain higher recognition rates by improving the CVA and by using different word decoding techniques. 1. Giri Ses tanma; sesli komut (robot, tat ve bilgisayar kontrolü), IVR (Interactive Voice Responce), sesi yazya dönütürme, konumac tanma ve onaylama ve anahtar kelime tanma gibi uygulamalarda kullanlmaktadr. Ses tanma sistemlerinde, Dynamic Time Warping (DTW), Hidden Markov Model (HMM), Neural Networks (NN) veya altuzay snflandrclar (FLDA, CLAFIC, OVY) kullanlmaktadr. Bunlar içinde “state of art” olarak bilenen HMM, ticari ses tanma sistemlerinde tercih edilmektedir. HMM ile karlatrlabilir baarmlar veren yöntemlerin ses tanmada kullanm aratrmaclarn ilgisini çekmektedir. Bunlar içinde bir altuzay snflandrma yöntemi olan OVY, snrl sayda yaltk kelime tanma uygulamalarnda HMM’le karlatrlabilir baarmlar vermektedir [1]. OVY ayrca, snflandrma yöntemindeki basitlikten dolay HMM göre daha hzl çalmaktadr. OVY yöntemi ses tanma yannda, konumac tanma ve anahtar kelime tanma uygulamalarnda da kullanlmtr [2,3]. OVY’nin ses tanma uygulamalarnda imdiye kadar kelime temelli snflandrma yaplm ve snrl sayda kelime kullanlarak % 95’in üzerinde baarmlar elde edilmitir[1]. Kelime temelli ses tanmada her kelime için veri taban ihtiyac vardr. Bu nedenle kelime temelli tanma sistemlerine yeni kelime eklemek her zaman kolay olmayabilir. Çünkü istenilen kelime için veri taban hemen elde edilemeyebilir. Bu da ses tanma sistemin ticari olarak kullanlmasn güçletirir. Fakat sesbirim temelli ses tanma yaplan sistemlerde sesbirim dizileri kullanlarak tanyc sisteme yeni bir kelime eklemek mümkündür. Bu da tanyc sistemin kullanlabilirlii arttrmaktadr. Sesbirim temelli ses tanma sistemlerinde dildeki her sesbirim snf için bir model oluturulur. Bu sistemlerde yüksek baarm elde etmek için kullanlan veri tabannn dildeki bütün farkl söyleyileri kapsamas gerekir. Veri tabannda sesbirim snrlarn kesin olarak belirlemek çok zordur. Bunun yannda ses yolunun farkl ekil almasnda dolay sesbirimler farkl ekilde üretilebilmektedir. Bütün bunlar öznitelik uzaynda sesbirim dalmlarnn iç içe geçmesine neden olmakta ve snflandrma baarmn düürmektedir. Ayrca kelimelerin fonetik gösterimlerindeki baz sesbirimler ortak eklemlenmeden dolay konumac tarafndan yutulabilmektedir. Bu da sesbirim dizilerinden kelime tanmay etkileyen baka bir etkendir. Sesbirimler ksa süreli olmalarndan dolay çok fazla bilgi içermemektedirler. Bu nedenlerden dolay sesbirim snflandrma baarmlar çok yüksek deildir [4]. Fakat sesbirim tanma sonuçlar dil modeliyle birletirilerek çok yüksek kelime tanma oranlar elde edilebilmektedir. Literatürde daha çok üçlü sesbirim (triphone) kullanlarak ses tanma yaplmaktadr. Üçlü sesbirimleriyle dildeki farkl söyleyiler modellenebilir. Bir dilde saylar binlerle ifade edilen üçlü sesbirimleri bulunmaktadr. 978-1-4244-4436-6/09/$25.00 ©2009 IEEE 93

Upload: rifat

Post on 06-Mar-2017

221 views

Category:

Documents


5 download

TRANSCRIPT

Page 1: [IEEE 2009 IEEE 17th Signal Processing and Communications Applications Conference (SIU) - Antalya, Turkey (2009.04.9-2009.04.11)] 2009 IEEE 17th Signal Processing and Communications

Altuzay S�n�flama ile Sesbirim Temelli Türkçe Yal�t�k Kelime Tan�ma

Phonem-Based Isolated Turkish Word Recognition With Subspace Classifier

Serkan Keser1, Rifat Edizkan 2

1Endüstriyel Elektronik Program� K�r�ehir Ahi Evran Üniversitesi [email protected]

2Elektrik Elektronik Mühendisli�i Bölümü Eski�ehir Osmangazi Üniversitesi

[email protected]

Özetçe Bu çal��mada, ortak vektör yakla��m� (OVY) ile sesbirim temelli Türkçe yal�t�k kelime tan�ma gerçekle�tirilmi�tir. OVY sesbirim s�n�flamada kullan�lm��t�r. S�n�flama sonucu ortaya ç�kan sesbirim dizisi için kelime çözümlemesi gereksiz karma adresleme (GKA) ile yap�lm��t�r. Sözlüklerinde farkl� kelimeler kullan�lan uygulamalar geli�tirmek için kelime temelli ses tan�ma yöntemleri yerine sesbirim temelli sistemler daha uygundur. Bu nedenle, bu çal��mada OVY’nin sesbirim temelli kelime tan�madaki ba�ar�m�n� de�erlendirilmi�tir. Deneysel çal��mada METU veri taban�ndan rastgele seçilmi� kelimelerden %70-80 kelime tan�ma ba�ar�m� elde edilmi�tir. OVY’de iyile�tirmeler yaparak ve farkl� dil çözümleme yöntemleri kullan�larak yüksek ba�ar�ml� s�n�rl� say�da kelime tan�ma yapmak mümkün olabilir.

Abstract In this study, phoneme-based isolated Turkish word recognition with Common Vector Approach (CVA) has been performed. CVA has been used to classify phonemes. The phoneme sequence obtained from the classification is decoded into the word using redundant hash addressing (RHA). The phoneme-based speech recognition is more suitable than the word-based speech recognition for implementing applications that use different words in their dictionaries. For that reason, in this study the CVA is evaluated to see whether it could be used in phoneme-based word recognition or not. In the experimental study we obtained the word recognition rates 70-80% from randomly selected words in METU database. It might be possible to obtain higher recognition rates by improving the CVA and by using different word decoding techniques.

1. Giri� Ses tan�ma; sesli komut (robot, ta��t ve bilgisayar kontrolü), IVR (Interactive Voice Responce), sesi yaz�ya dönü�türme, konu�mac� tan�ma ve onaylama ve anahtar kelime tan�ma gibi uygulamalarda kullan�lmaktad�r.

Ses tan�ma sistemlerinde, Dynamic Time Warping (DTW), Hidden Markov Model (HMM), Neural Networks (NN) veya altuzay s�n�fland�r�c�lar (FLDA, CLAFIC, OVY) kullan�lmaktad�r. Bunlar içinde “state of art” olarak bilenen

HMM, ticari ses tan�ma sistemlerinde tercih edilmektedir. HMM ile kar��la�t�r�labilir ba�ar�mlar veren yöntemlerin ses tan�mada kullan�m� ara�t�rmac�lar�n ilgisini çekmektedir. Bunlar içinde bir altuzay s�n�fland�rma yöntemi olan OVY, s�n�rl� say�da yal�t�k kelime tan�ma uygulamalar�nda HMM’le kar��la�t�r�labilir ba�ar�mlar vermektedir [1]. OVY ayr�ca, s�n�fland�rma yöntemindeki basitlikten dolay� HMM göre daha h�zl� çal��maktad�r. OVY yöntemi ses tan�ma yan�nda, konu�mac� tan�ma ve anahtar kelime tan�ma uygulamalar�nda da kullan�lm��t�r [2,3].

OVY’nin ses tan�ma uygulamalar�nda �imdiye kadar kelime temelli s�n�fland�rma yap�lm�� ve s�n�rl� say�da kelime kullan�larak % 95’in üzerinde ba�ar�mlar elde edilmi�tir[1].

Kelime temelli ses tan�mada her kelime için veri taban� ihtiyac� vard�r. Bu nedenle kelime temelli tan�ma sistemlerine yeni kelime eklemek her zaman kolay olmayabilir. Çünkü istenilen kelime için veri taban� hemen elde edilemeyebilir. Bu da ses tan�ma sistemin ticari olarak kullan�lmas�n� güçle�tirir. Fakat sesbirim temelli ses tan�ma yap�lan sistemlerde sesbirim dizileri kullan�larak tan�y�c� sisteme yeni bir kelime eklemek mümkündür. Bu da tan�y�c� sistemin kullan�labilirli�i artt�rmaktad�r.

Sesbirim temelli ses tan�ma sistemlerinde dildeki her sesbirim s�n�f� için bir model olu�turulur. Bu sistemlerde yüksek ba�ar�m elde etmek için kullan�lan veri taban�n�n dildeki bütün farkl� söyleyi�leri kapsamas� gerekir. Veri taban�nda sesbirim s�n�rlar�n� kesin olarak belirlemek çok zordur. Bunun yan�nda ses yolunun farkl� �ekil almas�nda dolay� sesbirimler farkl� �ekilde üretilebilmektedir. Bütün bunlar öznitelik uzay�nda sesbirim da��l�mlar�n�n iç içe geçmesine neden olmakta ve s�n�fland�rma ba�ar�m�n� dü�ürmektedir. Ayr�ca kelimelerin fonetik gösterimlerindeki baz� sesbirimler ortak eklemlenmeden dolay� konu�mac� taraf�ndan yutulabilmektedir. Bu da sesbirim dizilerinden kelime tan�may� etkileyen ba�ka bir etkendir. Sesbirimler k�sa süreli olmalar�ndan dolay� çok fazla bilgi içermemektedirler. Bu nedenlerden dolay� sesbirim s�n�fland�rma ba�ar�mlar� çok yüksek de�ildir [4]. Fakat sesbirim tan�ma sonuçlar� dil modeliyle birle�tirilerek çok yüksek kelime tan�ma oranlar� elde edilebilmektedir. Literatürde daha çok üçlü sesbirim (triphone) kullan�larak ses tan�ma yap�lmaktad�r. Üçlü sesbirimleriyle dildeki farkl� söyleyi�ler modellenebilir. Bir dilde say�lar� binlerle ifade edilen üçlü sesbirimleri bulunmaktad�r.

978-1-4244-4436-6/09/$25.00 ©2009 IEEE 93

Page 2: [IEEE 2009 IEEE 17th Signal Processing and Communications Applications Conference (SIU) - Antalya, Turkey (2009.04.9-2009.04.11)] 2009 IEEE 17th Signal Processing and Communications

Bu çal��mada OVY ile sesbirim temelli Türkçe yal�t�k kelime tan�ma konusu üzerinde çal���lm��t�r. OVY altuzay s�n�fland�r�c�s�yla kelime söyleyi�i içindeki sesbirim dizisi elde edilmektedir. Bu dizinin sözlükteki hangi kelimeyi olu�turdu�unu çözümlemek için gereksiz karma adresleme (GKA) yönteminden yararlan�lm��t�r[5]. Çal��mada kelime tan�ma ba�ar�mlar� METU veri taban� üzerinde elde edilmi�tir.

2. Sesbirim Temelli Yal�t�k Kelime Tan�ma Sesbirim temelli yal�t�k kelime tan�ma sisteminde sesbirim s�n�flama ve kelime çözümleme yap�lmaktad�r. Bu sistemlerde sesbirim s�n�flama için de�i�ik s�n�fland�r�c�lar kullan�labilir. Bu çal��mada OVY altuzay s�n�fland�rma yöntemi kullan�lm��t�r. OVY’den elde edilen sesbirim dizisi RHA kullan�larak çözümlenmi� ve bu dizinin sözlükte hangi kelime olabilece�i bulunmu�tur. GKA ile kelime çözümleme yap�l�rken en basit seviyede dil modellemesi yap�lmaktad�r.

2.1. Ortak Vektör Yakla��m�

OVY, ses ve görüntü tan�ma uygulamalar�nda kullan�lan bir altuzay s�n�flama yöntemidir[6,7]. Bu yöntem ile her s�n�fa ait de�i�mez özellikleri ta��yan ortak vektör elde edilir. OVY hem yeterli veri durumu � �m n� , hem de yetersiz veri

durumlar� � �m n� için uygulanabilir [9,11,12]. Burada m ses komut s�n�f�na ait vektör say�s�n�, n ise her vektördeki eleman say�s�n� göstermektedir. Bu çal��mada OVY yetersiz veri durumu için ses komut tan�ma yap�lmaktad�r.

OVY’ de e�itim ile bir s�n�f�na ait ortak vektör ve o s�n�f�n farks�zl�k altuzay�n� geren özvektörler elde edilir. Yetersiz veri durumunda (m<n) ortak vektör ve farks�zl�k altuzay� Gram-Schmidt dikle�tirme yöntemi veya altuzay teknikleri kullan�larak elde edilebilir. Altuzay tekni�inde ortak vektör ile ortak de�i�inti matrisinin özvektörleri aras�ndaki ili�kiden yararlan�l�r[8].

E�itim setinde bir s�n�f�na ait öznitelik vektörleri

1 2, ,..., na a a � �m ile gösterilsin Bu s�n�fa ait ortak

de�i�inti matrisi � , Denklem (1)’den elde edilir.

� �� �T

1orti

m

iorti aaaa � �

(1)

Burada orta , s�n�f ortalama vektörünü göstermektedir. OVY’ de öznitelik uzay�, farkl�l�k altuzay� B ve farks�zl�k altuzay� B� olmak üzere birbirine dik iki altuzaya ayr�l�r. Farks�zl�k altuzay� B�, ortak de�i�inti matrisinin s�f�r özde�erlerine kar��l�k gelen özvektörler taraf�ndan gerilir. Yetersiz veri durumu (m<n) için ortak de�i�inti matrisi � , n-m+1 adet s�f�r özde�ere sahip olacakt�r. Bu özde�erler büyükten küçü�e s�raland���nda fark ve farks�zl�k altuzaylar� için özde�erler a�a��daki �ekilde seçilir:

12121 ......... ������ ������� mnmnnn

m-1 n-m+1 0i� �

0 i�

Fark Altuzay� Farks�zl�k Altuzay�

i� özde�erine kar��l�k gelen özvektör iu ile gösterilsin. Bu durumda farks�zl�k altuzay izdü�üm matrisi a�a��daki �ekilde bulunur.

� 1

1

Tmn

jjjuuP (2)

Bir s�n�fa ait ortak vektör aortak , o s�n�fa ait her hangi bir öznitelik vektörünün farks�zl�k altuzay�na izdü�ümünden elde edilir:

a a�ortak iP mi 1,2,..,� (3)

Yeterli veri durumunda ( n)m � , fark ve farks�zl�k alt uzaylar� tahmini olarak belirlenebilir. Ortak de�i�inti matrisinin s�f�rdan farkl� n adet özde�eri olur. Bu özde�erler küçükten büyü�e s�raland���nda ilk k adet s�f�ra yak�n özde�ere kar��l�k gelen özvektörler farks�zl�k alt uzay�n� gerer. Yeterli veri durumunda ortak vektör, s�n�f ortalama vektörünün faks�zl�k alt uzay�na izdü�ümünden elde edilir:

� ��

k

iiiortortak uuaa

1

T (4)

Burada orta , öznitelik vektörlerinin ortalamas�n� göstermektedir:

m

jiort aa

1

1m

(5)

Farks�zl�k altuzay�n� geren en küçük k özde�er say�s�,

özde�erlerin toplam�n�n belli L yüzdesine kar��l�k gelecek �ekilde seçilebilir [1].

OVY’de tan�ma yap�l�rken en küçük Öklid uzakl�k ölçütü kullan�l�r. Bu ölçüte göre, öznitelik vektörü ax ’in her s�n�f�n farks�zl�k altuzay�ndaki izdü�ümünün, o s�n�f�n ortak vektörüne olan uzakl��� bulunur. Bu vektör, en küçük uzakl��� veren s�n�fa atan�r.

cortakc

c

CcaaPc

�� enküçükle

1

* (6)

Denklem (6)’de C, s�n�f say�s�n� göstermektedir.

2.2. Gereksiz Karma Adresleme

Bu çal��mada, GKA kelime çözümlemede kullan�lm��t�r. Altuzay s�n�fland�r�c� kullan�larak bir kelimeye ait söyleyi� içindeki sesbirimler elde edilir. Bu sesbirimlerin sözlükteki hangi kelimeye ait oldu�u GKA taraf�ndan belirlenir [5,9,10].

Karma yönteminde, veri arama i�lemini bir ç�rp�da yapmak ve aranana do�rudan ula�mak için karma fonksiyonu kullan�l�r. Bu fonksiyona, arama i�leminde kullan�lacak anahtar de�eri girilir ve kar��l���nda bir tamsay� (indis) de�eri elde edilir. Verilerin tablodaki yerleri buradan elde edilen indis de�eriyle belirlenir.

Karma tablosu veri dizisinden olu�ur. Bu tabloda her veriye, karma fonksiyondan anahtar de�erine göre üretilen indisle eri�ilebilir.

Karma fonksiyonu iki farkl� anahtar de�eri için ayn� de�eri üretiyorsa çat��ma olu�ur. Çat��may� en aza indirmek

978-1-4244-4436-6/09/$25.00 ©2009 IEEE 94

Page 3: [IEEE 2009 IEEE 17th Signal Processing and Communications Applications Conference (SIU) - Antalya, Turkey (2009.04.9-2009.04.11)] 2009 IEEE 17th Signal Processing and Communications

için karma fonksiyonunu iyi seçmek gerekir. Fakat baz� durumlarda çat��may� önleyecek karma fonksiyonu bulunamaz. Çat��may� önlemek için en çok kullan�lanlar� aç�k adresleme ve ba�l� liste yöntemi kullan�lmaktad�r [11].

2.2.1. Aç�k Adresleme

Çat��ma durumunda veri, çat��man�n oldu�u indisten sonraki bo� k�sma (slot) yerle�tirilir. Bu i�lem için tablo boyutu kadar farkl� de�erler üreten karma fonksiyonlar� � �0 1 2 1, , . . . . Mh h h h

olu�turulur. Bu fonksiyonlar

çat��man�n oldu�u indisten itibaren indis de�eri üretirler. Fonksiyonlar kullan�larak bo� bir k�s�m bulunana kadar arama yap�l�r. Bu �ekilde çat��ma olu�turan veriler tablodaki bo� k�s�mlara yerle�tirilir. �ekil 1’de “baba” ve “araba” kelimeleri için çat��man�n aç�k adreslemeyle nas�l çözümlendi�i gösterilmektedir.

�ekil 1: Aç�k adresleme.

2.2.2. Ba�l� liste kullan�m�

Çat��ma durumunda, çat��an veriler bir liste halinde ba�lan�rlar [12]. Karma fonksiyonu bu listelerden birine ait indis üretti�inde bu ba�l� liste üzerinden dola�arak karar kural� temelinde do�ru kelimeye ula�maya çal���r (�ekil 2).

�ekil 2: Ba�l� liste kullan�m�.

2.2.3. GKA ile Kelime Çözümleme

Karma sözlü�ün, tan�nmas� istenilen tüm kelimeleri kapsamas� gerekmektedir. Bilinmeyen bir kelime için karma fonksiyonu ile indis de�eri üretilir. �ndis de�erinin gösterdi�i bellek gözündeki adres bilgisi bir i�aretçide tutulur [5,10,12]. ��aretçi karma tablosundaki N-gram’lara kar��l�k gelen sözlük kelimelerini gösterir. Bu sayede bilinmeyen kelime için

sözlükte kelime adaylar� bulunur. Aday kelimeler içinde özellik uzakl��� en küçük veren kelime aranan kelimelidir. � � � � Bnn,nenbüyükBA,FD BA (7)

Denklem (7)’de özellik uzakl��� (feature distance), bilinmeyen kelimeye ait N-gramlar ile karma tablodaki N-gramlar aras�ndaki uzakl�k ölçütünü göstermektedir.

Denklemde An ve Bn , A ve B dizilerindeki N- gram’lar�n

say�s�n� ve En ise iki dizi aras�ndaki benzer N-gram say�s�n� göstermektedir. N-gram’lar, sözcüklere ait karakter dizisinin N uzunluklu alt dizisi �eklinde tan�mlan�r. N-gram’�n boyutu bir ise unigram, iki ise bigram ve üç ise trigram olarak adland�r�lmaktad�r.

GKA’n�n uygulamas�nda önce sesbirimlerin alfabetik kar��l�klar� a�a��da verilen karma fonksiyonu ile karma tablosuna yerle�tirildi. � � 27 mod kkhash Burada k, sesbirimin alfabetik kar��l���n�n ASCII de�eridir. Daha sonra, sesbirim dizisinde elde edilen kelimeye ait tekli karakter (unigram) dizileri kullan�larak kelime çözümleme yap�lm��t�r. Çat��man�n çözümlenmesi için ba�l� liste yöntemi kullan�lm��t�r. �ekil 3’de “�ehir” kelimesi için GKA kullan�larak kelime çözümleme gösterilmi�tir.

�ekil 3: GKA kullanarak kelime çözümleme.

3. Deneysel Çal��ma Deneysel çal��mada kullan�lan METU veritaban�, 120 konu�mac�dan al�nan 40’ar adet üçlü ses dengeli cümlelerin seslendirilmesi ile Türkçede 29 harfe kar��l�k gelen 38 sesbirim göz önünde bulundurularak olu�turulmu�tur[13]. METUbet fonetik alfabesinde 38 sesbirim s�n�f� bulunmaktad�r. Deneysel çal��mada kelime ba�ar�mlar� ki�i ba��ml� ve ki�i ba��ms�z durumlar için elde edilmi�tir[14].

METU veritaban�nda ses kay�tlar� 16 kHz’de örneklenmi�tir ve her örnek 16 bit’le gösterilmektedir. OVY’de sesbirimler için vektör boyutu, veri taban�ndaki

978-1-4244-4436-6/09/$25.00 ©2009 IEEE 95

Page 4: [IEEE 2009 IEEE 17th Signal Processing and Communications Applications Conference (SIU) - Antalya, Turkey (2009.04.9-2009.04.11)] 2009 IEEE 17th Signal Processing and Communications

ortalama sesbirim uzunlu�u olarak al�nm��t�r. Öznitelik vektörleri 20 ms’lik çerçeveler üzerinden elde edilmi�tir. Bu çerçeveler 12 MFCC parametresi ve çerçeve enerjisinden olu�an 13 parametreyle temsil edilmektedir. Çerçeveler aras� %50 üst üste binme yap�lm��t�r. Ard���k 7 çerçeveden elde edilen öznitelikler arka arkaya eklenerek 80 ms çerçeveyi temsil eden 91 boyutlu (13x7) öznitelik vektörü elde edilir.

Ki�i ba��ml� kelime tan�ma çal��mas�nda seçilen bir ki�iden al�nan 15 örnekten 10’u e�itim, 5’i test için kullan�lm��t�r. Ki�i ba��ms�z kelime tan�mada ise her sesbirim s�n�f� için 300 örnek e�itim ve 100 örnek test için kullan�lm��t�r. Ki�i ba��ml� ve ba��ms�z tan�mada s�ras�yla yetersiz ve yeterli veri durumu için OVY uygulanm��t�r. Sesbirim temelli yal�t�k kelime tan�mada, veri taban�ndan ki�i ba��ms�z ve ki�i ba��ml� tan�ma için s�ras�yla rastgele seçilen 90 ve 40 kelime kullan�lm��t�r. METU veri taban�nda baz� sesbirimler çok s�k geçmemektedir. Bu nedenle allofonlar birle�tirilerek 27 sesbirim kullan�lm��t�r. Ünlü sesbirimler (8) : A, E, O, OE, U, UE, I, IY Ünsüz sesbirimler (19) : B, C, CH, D, F, G, H, K, L, M, N, P, R, S, SH, T, VV, Y, Z

Ünlü ve ünsüz sesbirimlerin OVY ile s�n�flama ba�ar�mlar� Tablo 1’de verilmektedir.

Tablo 1: Sesbirim tan�ma ba�ar�mlar� (%).

E�itim Test Ünlü Ünsüz Ünlü Ünsüz Ki�i Ba��ml� 100 100 63.30 63.06 Ki�i Ba��ms�z 85.7 90 48.75 53.02

OVY ile bir kelime söyleyi�i içindeki sesbirimler

belirlenirken ünlü ve ünsüz s�n�flar�, ünlü ve ünsüz ses bölgelerine ayr� yar� uygulanm��t�r. Bunu yapabilmek için ses, s�f�r geçi� ve enerji e�ik de�erine göre ünlü ve ünsüz bölgelere ayr�lm��t�r.

Yap�lan çal��mada, ses bölgesi üzerinde 20 ms’lik çerçeve 10ms’lik kayd�r�larak OVY s�n�fland�r�c�yla sesbirim dizisi elde edilir. Her ünlü/ünsüz bölgesine bir sesbirim atan�r[14]. Bu �ekilde elde edilen sesbirim dizisinin çözümlenmesi GKA taraf�ndan yap�l�r.

Deneysel çal��mada ki�i ba��ms�z kelime tan�ma ba�ar�m� %72.22 olarak elde edilmi�tir. Ki�i ba��ml� kelime tan�ma ba�ar�m� ise % 82.5’dir.

4. Sonuçlar ve Öneriler Bu çal��mada OVY kullan�larak sesbirim temelli yal�t�k kelime tan�ma gerçekle�tirilmi�tir. Sesbirim ve kelime tan�ma ba�ar�mlar� METU veri taban� üzerinde elde edilmi�tir. Kelime çözümleme için GKA kullan�lm��t�r. Çal��mada sadece klasik OVY yöntemi kullan�lm�� ve altuzaylar üzerinde ba�ar�m� art�racak çal��malar yap�lmam��t�r. Tan�ma ba�ar�m�n� art�rmak için yeni s�n�fland�r�c�lar veya s�n�fland�r�c� birle�tirme yöntemleri kullan�labilir. GKA yerine dil yap�s�ndaki sesbirimlerin ç�kma olas�l�klar� ile bunlar�n birbirini takip etme olas�l�klar� incelenerek olu�turulacak dil modeliyle yüksek kelime tan�ma ba�ar�mlar� elde edilebilir.

5. Te�ekkür Bu çal��maya desteklerinden dolay� Prof.Dr. Tolga Çilo�lu’na te�ekkür ederiz.

6. Kaynakça [1] Gülmezo�lu, M. B. , Dzhafarov, V. , Edizkan R. and

Barkana, A., “The Common ector Approach and Its Comparison with Other Subspace Methods in Case of Sufficient Data”, Computer Speech and Language, (21:2) 266-281, 2007.

[2] Gülmezo�lu, M. B. and Barkana, A., “Text-Dependent Speaker Recognition by Using Gram-Schmidt Orthogonalization Method”, IASTED International Conference Signal Processing and Communications, , 1998, p. 438-440.

[3] Bayrakçeken, M.K., Çay, M.A. ve Barkana, A., “Ortak Yöney Yakla��m� ile Anahtar Sözcük Yakalama”, 15. Sinyal ��leme ve �leti�im Uygulamalar� Kurultay�, 2007.

[4] Ar�soy, E. ve Arslan, L.M., “Turkish Dictation Sytem for Broadcast News Applications, 13. Sinyal ��leme ve �leti�im Uygulamalar� Kurultay�, 2005, p. 629 – 632.

[5] Kohonen, T., Rittinen, H., Jalanko, M., Reuhkala, E. and Haltsonen, S., “A thousand-word recognition system based on the learning subspace method and redundant hash addressing”, Proceedings of the Fifth International Conference on Pattern Recognition, 1980, p. 158-165.

[6] Gülmezoglu, M.B, Dzhafarov, V., Keskin, M. and Barkana, A., “A Novel Approach to Isolated Word Recognition”, Speech and Audio Processing, IEEE Transactionson (7: 6) 620 – 628, 1999.

[7] Edizkan, R., Tiryaki, B., Büyükcan, T. ve Uzun, �., 2007, “Ses Komut Tan�ma �le Gezgin Araç Kontrolü”, Akademik Bili�im, 2007.

[8] Gülmezoglu, M.B., Dzhafarov, V.and Barkana, A., “The Common Vector Approach and its Relation to Principal Component Analysis”, IEEE Transactions on Speech and Audio Processing, 9(6):655 – 662, 2001.

[9] Erickson, J., Hash Tables, University of Illinois,Lecture Notes, 2002.

[10] Reuhkal, E., Jalanko, M. and Kohonen, T., “A Radundant Hash Addressing Method Adapted For The Postprocessing and Error-Correction of Computer- Recognized Speech”, Helsinki University of Technology 1979, p. 591-594.

[11] Ya�mur, O., Hashing Fonksiyonlar�, Hash Tablosu ve Collision. http://www.csharpnedir.com., 11 Mart 2007.

[12] Çölkesen, R., Veri Yap�lar� ve Algoritmalar, Papatya Yay�nc�l�k, 2004.

[13] Salor, Ö., Pellom, B., Çilo�lu, T., Hac�o�lu, K. and Demirekler, M., “New Corpora and Tools for Turkish Speech Research”, 10. Sinyal ��leme ve �leti�im Uygulamalar� Kurultay�, 2002, s. 476-481.

[14] Keser S., Ortak vektör Yakla��m� ile Fonem Tabanl� Türkçe Yal�t�k Kelime Tan�ma, Yüksek Lisans Tezi, Eski�ehir Osmangazi Üniversitesi, 2008.

978-1-4244-4436-6/09/$25.00 ©2009 IEEE 96