xxvi fonetiikan päivät 2010 · xxvi fonetiikan päivät 2010 stefan werner, tomi kinnunen (toim.)...

81
XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

Upload: others

Post on 30-Jul-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

XXVI Fonetiikan päivät 2010Stefan Werner, Tomi Kinnunen (toim.)

Mekrijärven tutkimusasema25.–26.2.2010

Page 2: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

University of Eastern Finland electronic publicationsISBN 978-952-61-0391-4 (PDF)

XXVI Fonetiikan päivät 2010

Stefan Werner, Tomi Kinnunen (toim.)

ITÄ-SUOMEN YLIOPISTOJOENSUU 2011

Page 3: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

Stefan Werner, Tomi Kinnunen (toim.):XXVI Fonetiikan päivät 2010

University of Eastern Finland electronic publicationsApril 2011, Joensuu

ISBN 978-952-61-0391-4 (PDF)

Copyright © by the authors.

Ladou XƎLTEX-ohjelmistolla, kirjasimena L L.

Page 4: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

Sisältö

Alkusanat v

Seppo Fagerlund, Unto K. Laine, Toomas Altosaar:Klusiilien tunnistaminen lyhytaikaisen temporaalirakenteen perusteella 1

Janne Pylkkönen:Mallikompleksisuuden vaikutus puheentunnistimen tarkkuuteen diskriminatiivistenopetusmenetelmien kanssa 6

Mona Lehtinen, Reijo Aulanko, Annukka Vanhanen, Heini Kallio, Olli Aaltonen:Puheen tuoamisen ja havaitsemisen tutkimisesta artikulografian keinoin 11

Michael L. O’Dell, Juraj Simko, Tommi Nieminen,Mari Vainio, Mona Lehtinen:Timing of intervocalic consonant gestures in Finnish 16

Osmo Eerola, Jyrki Tuomainen:Identification of the Finnish vowels [e:], [i:], [y:] and [ø:] in noise 22

Osmo Eerola, Jyrki Tuomainen:Ohjaavatko prototyypit suomen vokaalien tunnistamista ja tuoamista? 27

Maija S. Peltola, Henna Tamminen, Laura Salonen, Risto Näätänen:Vokaalien havaitseminen kaksikielisillä ja vieraan kielen oppijoilla 29

Dennis Estill:e enigmatic central vowel in Moksha. How central, how reduced? 33

Bongkot Kangaspunta, Stefan Werner:ai vowels and tones 38

Nele Salveste:Variation of pit cues in the perception of Estonian quantities 42

Stina Ojala:Rytmi puheessa ja viiomisessa 47

Riikka Ylitalo:Suomen varieteeien välisistä kesto- ja perustaajuuseroista CV.CV(X)-rakenteisissasanoissa 50

iii

Page 5: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

Osmo Eerola, Olli Aaltonen, Mona Lehtinen:Puheentutkimuksen menetelmät -oppimateriaalihankkeen esiely 59

Elina Tergujeff, Riikka Ullakonoja, Hannele Dufva:Phonetics and foreign language teaing in Finland 63

Tommi Nieminen, Anna Lantee:Yhdyssanasta suomen kielessä ja puheessa 69

iv

Page 6: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

Alkusanat

Itä-Suomen yliopiston yleisen kielitieteen ja kieliteknologian sekä tietojenkäsielytieteen op-piaineet järjestivät kahdennetkymmenennetkuudennet Fonetiikan päivät Mekrijärven tutki-musasemalla 25.–26. helmikuuta 2010. Kyseessä oli neljäs kerta, kun Fonetiikan päivät pidet-tiin Joensuun alueella: edelliset kerrat olivat vuosina 1996, 1984 ja 1976. Päätösistunnossa so-viiin vuoden 1996 esimerkkiä seuraten, eä seuraava kokoontumispaikka on taas Virossa.

Vuoden 2010 Fonetiikan päiville osallistuivat neljäkymmentäyksi tutkijaa ja opiskelijaakuudesta maasta ja kahdeksasta yliopistosta; ohjelma sisälsi kahdeksantoista esitelmää se-kä yhdeksän posteria. Tarkemmat tiedot löytyvät kokouksen WWW-sivuilta: http://phon.joensuu.fi/fp2010/.

Haluamme kiiää paitsi kaikkia kirjoiajia ja muita osallistujia myös paikallisia avusta-jiamme Bongkot Kangaspuntaa ja Alberto Ciarlantia. Tämän kokousjulkaisun etu- ja taka-kannen ilmakuvat on ystävällisesti antanut käyöömme Alpo Hassinen.

Joensuussa 27. huhtikuuta 2011Stefan WernerTomi Kinnunen

v

Page 7: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

S. Werner, T. Kinnunen (toim.), XXVI Fonetiikan päivät 2010, UEF 2011, s. 1–5ISBN 978-952-61-0391-4 (PDF). http://epublications.uef.fi/© by the authors

Klusiilien tunnistaminen lyhytaikaisen temporaalirakenteen perusteella

Seppo Fagerlund, Unto K. Laine, Toomas Altosaar

Aalto-yliopiston teknillinen korkeakoulu, signaalinkäsielyn ja akustiikan [email protected]

TiivistelmäKlusiilien automaainen tunnistaminen puheesta on

tyypillisesti osoiautunut vaikeaksi tehtäväksi. Suurinsyy tähän on klusiilien lyhytkestoisuus ja niiden epä-säännöllinen signaalirakenne. Perinteiset hahmontun-nistusmenetelmät oleavat tunnisteavien signaalienolevan riiävän pitkiä ja stationaarisia. Tässä artikkelis-sa esielemme uuden menetelmän lyhytkestoisten ääni-signaalien tunnistamiseen. Menetelmä perustuu äänita-pahtumien lyhytaikaisen temporaalirakenteiden kuvaa-miseen permutaatiomuunnoksella sekä siihen kytketyllätilastollisella mallilla.Avainsanat: klusiilien tunnistaminen, hahmontunnistus,permutaatiomenetelmät

1. JohdantoPuheentunnistussovelluksissa konsonanien ja erityi-sesti soinniomien klusiilien tunnistaminen on nykyisis-sä puheentunnistusalgoritmeissa osoiautunut vaikeak-si tehtäväksi. Suurin syy tähän on klusiilien lyhytkestoi-suus sekä signaalirakenne, joka on vaihteleva ja kohinan-omainen. Useimmat puheentunnistusalgoritmit oleavatpuheen olevan jaksollista ja stationaarista puheen piir-teistyksessä käyteävän aikaikkunan sisällä ja muutok-set aikaikkunoiden välillä ovat pieniä tunnisteavan yk-sikön (esimerkiksi yksiäinen äänne) sisällä. Tämä oletusei toteudu klusiileiden tapauksessa kovinkaan hyvin.

Aiemmat soinniomien klusiilien tunnistamiseenkäyteävät menetelmät perustuvat purskeen taajuusin-formaation ja seuraavan vokaalin formanitietoon [1, 2,3]. Ali et al. [1] saavuivat TIMIT-tietokannan näyeil-lä 86% tunnistustarkkuuden klusiileille käyäen piirtei-nä purskeen sekä seuraavan äänteen taajuusinformaatio-ta. Myös DeMori ja Flammia [3] käyivät spektraalistatietoa piirteinä saavuaen parhaimmillaan 73% tunnis-tustarkkuuden klusiileille. Pican et al. [4] piirteisti ääni-näyeet MFCC piirteillä saavuaen 78% tunnistustark-kuuden klusiileille. Tässä menetelmässä kontekstuaali-nen tieto oteiin huomioon käyäen piilo Markov mal-leja (HMM).

Tässä työssä käytämme klusiilien tunnistamiseenmenetelmää joka ei tee mitään oletuksia tunnisteavas-ta signaalista. Menetelmä perustuu signaalinäyeidenamplitudiarvojen järjestykseen (permutaatioihin) hyvin

lyhyessä aikaikkunassa. Menetelmässä kukin aikaikku-na korvataan koodilla joka on kuvaus vastaavaan per-mutaatioon, jonka jälkeen koodipareista luodaan ääni-näyteä vastaava tilastollinen malli. Tässä työssä mal-lit klusiileille on muodosteu purskeiden alusta, koskayhtenä tarkoituksena oli myös selviää sisältääkö purs-keet klusiilien tunnistamiseen tarviavan informaationvai tarvitaanko tunnistamiseen myös klusiilia seuraa-van äänteen tietoa. Vertailun vuoksi tunnistusta testat-tiin myös spektraalisilla malleilla käyäen samaa aineis-toa.

Lyhytaikaiseen temporaalirakenteeseen pohjautuviamenetelmiä on käytey melko vähän erilaisissa (au-dio)signaalin analyysi ja tunnistussovelluksissa. Viimevuosina kiinnostus permutaatiomenetelmiin on kuiten-kin lisääntynyt [5, 6]. Bandt ja Pompe [7] käyää permu-taatioentropiaa signaalien kompleksisuusmiana. Per-mutaatiomenetelmiä on käytey myös tunnistamaanlentokoneiden moooriäänien poikkeavuuksia [8] sekäEEG signaalien analysointiin [9].

2. Materiaali

Testimateriaalina käyteiin TIMIT-puhetietokantaa janäyeet valiiin niin eä mallien opetukseen ja tun-nistuksen testaamiseen ei käytey samaa aineistoa. Täs-sä käyteiin TIMIT:n valmista jakoa opetus- sekä tes-tiosaan. Klusiilitunnistusta testaiin tunnetun vokaalintai diongin yhteydessä ja testiin valiiin kaikki ne ta-paukset joista oli riiävästi näyeitä tietokannan ope-tusosiossa. Riiäväksi määräksi katsoiin vähintään viisinäyteä jokaisen soinnioman klusiilin yhteydessä ja li-säksi edellyteiin eä testiaineistossa on vähintään yksinäyte jokaisesta klusiili-äänne parista. Näillä kriteereillätestiin valiiin 18 eri tapausta, jotka on esitey taulukos-sa 1. Taulukossa on myös opetusnäyeiden lukumääräteriteltynä kunkin soinnioman klusiilin yhteydessä.

Mallien opetuksessa käyteiin kaikki opetusmate-riaali vaikka näyeiden lukumäärissä on suuria eroja.Opetuksen yhteydessä mallit normalisoitiin niin eeinäyeiden lukumäärien eroista pääse syntymään paino-tusta jonkin tietyn mallin hyväksi. Yhden äänteen ta-pauksessa (k,p,t + eh) tunnistus testaiin myös niin et-tä opetuksessa käyteiin yhtäläinen määrä näyeitä jo-kaisen klusiilin kohdalla. opetusnäyeiden lukumääräk-

Page 8: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

Fagerlund et al.: Klusiilien tunnistaminen lyhytaikaisen temporaalirakenteen perusteella 2

Taulukko 1: Näyeiden lukumäärät TIMIT-tietokannanopetusosiossa.

voc/di k p taa 170 104 87ax 75 58 98ae 149 48 112ao 103 38 59iy 77 73 128ih 101 71 159ix 225 70 407eh 306 70 138er 75 77 63axr 44 145 124ay 26 44 101ah 122 21 62aw 42 19 11ey 85 92 89ow 72 58 32uh 33 20 28uw 11 8 56ux 35 5 240

si valiiin vähiten näyeitä sisältävästä klusiili diongiparista. Kahden muun parin kohdalla opetusaineisto va-liiin satunnaisesti niin eä opetukseen käyteävä näy-temäärä oli yhtäläinen jokaisen mallin kohdalla.

3. Menetelmä

Kuvassa 1 on esitey kaaviokuva tässä työssä käytetynmenetelmän eri osista. Ikkunoinnissa tutkiava signaa-li jaetaan permutaatioikkunoihin. Yksiäisessä ikkunas-sa ei kuitenkaan välämää käytetä peräkkäisiä näyt-teitä vaan ikkuna voi sisältää esimerkiksi signaalin jo-ka toisen näyeen, jolloin aikaviive τ ikkunan sisällä on2 (näyteä). Tässä työssä käytey permutaatioikkunankoko on viisi signaalinäyteä ja aikaviive on 2 näytet-tä. Viisi näyteä voidaan laiaa 5! = 120 eri järjestyk-seen eli käyteävissä on 120 eri permutaatiota. Näyt-teiden absoluuisilla amplitudiarvoilla ei ole merkitystä,ainoastaan amplitudiarvojen suuruusjärjestystä, eli per-mutaatiota hyödynnetään. Permutaatioparien frekvens-simatriisi kuvaa tieyjen permutaatioparien, eli kahdenikkunan permutaatioiden, esiintymisfrekvenssejä tutkit-tavassa signaalissa.

3.1. Permutaatiomuunnos

Permutaatiomuunnoksessa aikasignaali muunnetaan per-mutaatiosekvenssiksi. Permutaatiomuunnos aikasignaa-lista x(t) permutaatiokoodien πτ

n(t) sekvenssiksi määri-tellään

πτn(t) =

(1 2 3 ... nr1 r2 r3 ... rn

)(1)

ikkunoin&  

permutaa&omuunnos  

Permutaa&oparien  frekvenssimatriisi  

Frekvenssimatriisin  tasoitus  

x(t)  

A(x(t),l)  

Kuva 1: Kaaviokuva menetelmästä.

0 2 4 6 8 10 12 14 160

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

Kuva 2: Esimerkki permutaatiosta {3 2 1 5 4}, ikkunakoonollessa 5 ja ikkunan aikaviiveen 2.

joka toteuaa

xt−r1τ ≥ xt−r2τ ≥ ... ≥ xt−rn−1τ ≥ xt−rnτ (2)

Kaavoissa n ja τ ovat vastaavasti permutaatioikku-nan koko sekä aikaviive. Indeksit rl kertovat signaa-linäyeiden suuruusjärjestyksen permutaatioikkunassa.Samansuuruiset arvot alkuperäisessä signaalissa permu-taatioikkunan sisällä oletetaan harvinaisiksi, mua josniitä esiintyy käytetään ehtoa rl > rl−1. Kuvassa 2 onesimerkki aikatasoisen signaalin yhden ikkunan permu-taatiomuunoksesta. Tässä esimerkissä käytetään samojapermutaatioikkuna parametrien (koko ja aikaviive) ar-voja kuin tässä työssä on käytey. Koska permutaatio-muunnos tehdään joka ajanhetkellä t on permutaatio-koodien sekvenssin pituus sama kuin alkuperäisellä sig-naalilla. Permutaatiokoodien sekvenssin elementit saa-vat vain kokonaislukuarvoja joukosta {1, 2, ..., n!}.

3.2. Frekvenssimatriisi

Permutaatioparien frekvenssimatriisi kertoo perääis-ten (ja tietyllä etäisyydellä olevien) permutaatiokoodienesiintymisfrekvenssit tutkiavassa signaalissa. Matriisi

Page 9: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

Fagerlund et al.: Klusiilien tunnistaminen lyhytaikaisen temporaalirakenteen perusteella 3

muodostetaan seuraavasti

A(πi, πj) =n(πi, πj)

N(3)

jossa n(πi, πj) on indeksiparin (koodiparin) πi ja πj

kokonaislukumäärä tutkiavassa signaalissa ja N =∑n(πi, πj) normalisoi matriisin niin eä sen summa on

1.Matriiseista tulee kuitenkin hyvin harvoja sillä useim-

pia permutaatioindeksipareja ei esiinny tutkiavissa sig-naaleissa ja se voi aiheuaa laskennallisia ongelmiamyö-hemmässä vaiheessa. Lisäksi on osoiautunut eä per-mutaatioparien frekvenssimatriisi on liian karkea kuvaussignaaleista. Ongelma saadaan ratkaistua frekvenssimat-riisien tasoiamisella (spatiaalinen suodatus), joka aut-taa kumpaankin em. ongelmaan. Tasoitusta ei kuiten-kaan tehdä suoraan frekvenssimatriisiin vaan se tehdäänetsimällä matriisin jokaiseen alkioon liiyvien permu-taatioden lähimmät naapurit Kendal-metriikan mukaan.Kendal-metriikassa kahden permutaation välinen etäi-syys on

τK(πi, πj) = 1− 2dK(πi, πj)

dKmax

(4)

jossa dK on pieninmäärä alkeispermutaatiota joita tarvi-taan eä permutaatiosta πi saadaan πj . Alkeispermutaa-tio tarkoiaa operaatiota jossa permutaation vierekkäi-set elementit vaihtavat paikkaa, esimerkiksi {1234} →{2134} (dK = 1) ja dKmax tarkoiaa pienintä määräalkeispermutaatioita, joilla permutaatiosta saadaan senkäänteispermutaatio, esim. {2134} → {4312}. dKmax

arvo saadaan kaavasta

dKmax =n(n− 1)

2(5)

jossa n on permutaatioikkunan koko.Frekvenssimatriisin jokainen alkioon liiyy kaksi

permutaatiokoodia ja kun jokaisella permutaatiolla onneljä naapuria, jonka dK = 1 kun n = 5, liiyy jokai-seen permutaatiomatriisin elemeniin kahdeksan naa-puria. Jokaisen elementin uusi lukuarvo lasketaan paino-teuna summana naapurien ja alkuperäisen arvon kes-ken siten eä alkuperäisen arvon painoarvo on puoletuudesta arvosta. Kuvassa 3 on esimerkki frekvenssimat-riisin tasoituksesta, vasemmalla on alkuperäinen ja oi-kealla tasoiteu matriisi.

4. Tunnistuskokeet4.1. Mallien opetus

Mallien opetuksessa jokaiselle klusiilille luotiin omamal-li jokaisen taulokossa 1 esitetyn äänteen yhteydessä.Opetuksessa käyteiin kaikki se materiaali mitä tieto-kannan opetusosiossa on. Mallit muodosteiin klusiilinpurskeen alusta eri kokoisissa kehyksessä siten eä ke-hyksen koko on pienimmillään 50 näyteä (noin 3ms) ja

20 40 60 80 100 120

20

40

60

80

100

120

0.5

1

1.5

2

2.5

3

3.5

4

4.5

5

5.5x 10 4

20 40 60 80 100 120

20

40

60

80

100

120 0

0.5

1

1.5

x 10 3

Kuva 3: Matriisien spatiaalinen suodatus Kendal-metriikan avulla.

suurimmillaan 960 näyteä (noin 60ms). Suurin kehysko-ko vastaa keskimäärin 90% purskeiden energiasta lasket-tuna purskeen alusta. Eri klusiilien tapauksessa tässä eiollut suurta eroa eikä myöskään purskeen esiintyessä eriäänteiden yhteydessä. Niissä tapauksissa missä purskeenkesto on lyhyempi kuin käytetyn kehyksen koko käy-teiin koko purske opetukseen, mua ei kuitenkaan sitäseuraavaa äänneä. Spatiaalinen suodatus tehtiin lopul-liselle frekvenssimatriisille, ei siis jokaisen opetusnäyt-teen matriisille erikseen.

4.2. Tunnistus

Tunnistuskokeissa testisignaalista muodosteiin frek-venssimatriisi kehyksessä jonka aloiteiin 20ms ennenpurskeen alkua ja jonka kokoa kasvateiin iteratiivisesti5ms kerrallaan koko purskeen sekä sitä seuraavan ään-teen ajan. Jokaisella iteraatiokierroksella frekvenssimat-riisi päiviteiin ja sitä verraiin vastaaviin malleihineuclidisella etäisyysmitalla

deuck(T,A) =

√√√√ 120∑i,j=1

(Ti,j −Ai,j)2 (6)

jossa T ja A ovat vastaavasti testinäyeen ja mallinfrekvenssimatriisit. Testaava näyte tunnisteiin siihenluokkaan, jonka euklidinen etäisyys mallien suhteen olipienin.

Myös signaalien esikäsielyn vaikutusta tunnistus-tulokseen testaiin. Esikäsielynä käyteiin signaalienesikorostusta, alipäästösuodatusta tai ei mitään suoda-tusta. Esikorostus on tyypillinen esikäsielymenetelmämonissa puheen analyysisovelluksissa ja tässä käyteiinesikorostussuodaimen kertointa α = 0.9. Alipäästö-suodatuksessa käyteiin FIR-suodatinta, jonka astelukuoli 10 ja 3 dB:n rajataajuus 7,2 kHz. Esikäsielyn vaiku-tusta ei testau spektrimenetelmällä.

Page 10: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

Fagerlund et al.: Klusiilien tunnistaminen lyhytaikaisen temporaalirakenteen perusteella 4

200 (12.5ms) 400 (25 ms) 600 (37.5 ms) 1,000 (62.5 ms)35

40

45

50

55

60

65

70

75

80

Model frame size

Rec

ogni

tion

accu

racy

FFTPermutationPermutationno smoothing

Kuva 4: Tunnistustulokset malli-ikkunan koon funktiona.Käyrät osoiavat keskimääräisen tunnistustuloksen kol-messa eri tapauksessa (permutaatiomenetelmä, permutaa-tiomenetelmä ilman spatiaalista suodatusta ja spektrime-netelmä).

5. Tulokset

Kuvassa 4 on esitey tulokset klusiilien tunnistamisel-le opetusdatan kehyksen koon funktiona. Käyrät esiä-vät kuinka monta prosenia testiaineistosta tunnistet-tiin oikein kolmessa eri tapauksessa. Selvästi paras tulos(ylin käyrä) saavuteiin tässä esetetyllä permutaatiome-netelmällä kun käyteiin frekvenssimatriisien spatiaalis-ta suodatusta. Suodatus toisteiin kolme kertaa, jolloinmatriisit tasoiuivat enstisestään, mua luokat eroele-va informaatio säilyi hyvin. Odotetusti heikoin tulos saa-vuteiin klusiilien spektriin pohjautuvalla menetelmälläja permutaatiomenetelmä ilman spatiaalista suodatustasijoiui näiden kahden väliin. Jokaisessa tilanteessa tun-nistustulos heikkeni kun mallien luonnissa käytey ope-tusaineiston kehyksen koko oli suurempi kuin 25ms.

Taulukossa 2 on esitey keskimääräiset tunnistustu-lokset eri esikäsielytilanteissa. Taulukossa HP tarkoit-taa esikorostusta, LP alipäästösuodatusta ja keskimmäi-nen sarake kertoo tulokset ilman esikäsielyä. Taulu-kosta nähdään eä paras tulos saadaan kun signaaliel-le ei tehdä mitään esikäsielyä. Myös esikorostuksenja alipäästösuodatuksen tapauksessa tunnistustulos heik-kenee ikkunakoon kasvaessa riiävän suureksi.

Taulukko 2: Tunnistustulokset eri esikäsielytilanteissa.

ikkunakoko HP - LP50 65 72 71100 74 78 77200 74 78 77350 77 77 77960 67 72 68

6. Päätelmiä ja keskustelua

Permutaatiomenetelmä kuvaa tehokkaasti lyhyitä ääni-tapahtumia joiden temporaalinen rakenne on vaihte-leva, mua jotka sisältävät samankaltaisia lyhytaikai-sia rakenteita. Nämä ehdot toteutuvat hyvin soinnio-mien klusiilien kohdalla. Frekvenssimatriisien spatiaali-nen suodatus lisää menetelmän robustisuua ja tunnis-tustulokset paranivatkin huomaavasti suodatuksen an-siosta. Käyämällä lyhyempää permutaatioikkunaa fre-kvenssimatriiseista ei tulisi harvoja, mua tämä tipuai-si mahdollisten permutaatioden lukumäärän 24:ään, jokaei ole riiävä määrä luoteavaan tunnistamiseen.

Tässä työssä käyteiin konsonanien malleissa ai-noastaan purskeosan tietoa ja mitään tietoa seuraavastaäänteestä ei käytey. Tunnistustulokset ovat hyvin lu-paavia sillä yleisesti oletetaan konsonania seuraaval-la äänteellä olevan suuri merkitys konsonantin tunnis-tuksessa. Tässä työssä saatujen tulosten valossa näyäisisiltä eä konsonantin purskeosalla on tärkeä rooli kon-sonantin tunnistuksessa. Konsonania seuraavan ään-teen informaation lisääminen malliin todennäköisesti li-sää entisestään tunnistustarkkuua. Konsonanien tun-nistustulokset ovat myös hyvin verraavissa aiempientutkimusten kanssa, vaikka niissä käytetään myös kon-sonaia seuraavan äänteen informaatiota hyväksi. Tu-losten valossa konsonantit eroeleva informaatio on ni-menomaan purskeen alussa, sillä tunnistustulokset heik-kenevät mallikehyksen koon kasvaessa yli 25ms:n miai-seksi.

Permutaatiomuunnos ja siitä luotu permutaatiopa-rien frekvenssimatriisi on hyvin mielenkiintoinen työ-kalu lyhytkestoisten ja signaalirakenteeltaan epäsään-nölliten äänitapahtumien analysoimiseen ja automaai-seen tunnistamiseen. Menetelmä toimii puhtaasti aika-alueessa eikä se edellytä äänitapahtumien olevan kestol-taan pitkiä. Myöskään merkiäviä spektraalisia eroja eivälämää tarvita eri luokkiin kuuluvien äänitapahtu-mien välillä. Menetelmä on vielä varsin uusi ja hyvin vä-hän tutkiu, mua tässä esitetyt tulokset ovat hyvin lu-paavia. Menetelmällä voisi olla sovelluksia hyvin laajaltierilaisten äänitapahtumien analysoinnissa ja tunnistami-sessa.

7. Viitteet[1] Ali A. M. A., Van der Spiegel J. and Mueller P., ”Robust

classification of stop consonants using auditory-basedspeech processing”, 2001

[2] Zheng Y., Hasegawa-Johnson M. and Borys S., ”Stopconsonant classification by dynamic formant trajectory”,2004

[3] DeMori R. and FlammiaG., ”Speaker-independent conso-nant classification in continuous speech with distinctivefeatures and neural networks”, e Journal of the Acous-tical Society of America, 94(6): 3091–3103,1993

Page 11: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

Fagerlund et al.: Klusiilien tunnistaminen lyhytaikaisen temporaalirakenteen perusteella 5

[4] Pican N., Fohr D., and Mari J., “HMMs and OWE neuralnetwork for continuous speech recognition”, Fourth In-ternational Conference on Spoken Language Prosessing,1996.

[5] Keller K. and Sinn M., “Ordinal analysis of time series”,Physica A: Statistical Mechanics and its Applications,356:114–120, 2005.

[6] Keller K., Sinn M. and Emonds J., ”Time series fromthe ordinal viewpoint”, Stochastics and Dynamics, 7(2):247–272, 2007

[7] Bandt C. and Pompe B., “Permutation entropy: A natu-ral complexity measure for time series”, Physical ReviewLeers, 88(17), 2002

[8] Eklund N and Goebel K., “Using neural networks and therank permutation transformation to detect abnormal con-ditions in aircra engines”, IEEE Mid-SummerWorkshopon So Computing in Industrial Applications, 2005

[9] Keller K., Lauffer H., and Sinn M., “Ordinal analysis ofEEG time series.”, In Kurths J., Allefeld C., beim GrabenP., editor, AdvancedMethods of Electrophysiological Sig-nal Analysis and Symbol Grounding, chapter 7, pages109–119. Nova Science Publishers, 2008

Page 12: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

S. Werner, T. Kinnunen (toim.), XXVI Fonetiikan päivät 2010, UEF 2011, s. 6–10ISBN 978-952-61-0391-4 (PDF). http://epublications.uef.fi/© by the author

Mallikompleksisuuden vaikutus puheentunnistimen tarkkuuteendiskriminatiivisten opetusmenetelmien kanssa

Janne Pylkkönen

Tietojenkäsielytieteen laitos, Informaatio- ja luonnontieteiden tiedekunta,Aalto-yliopiston teknillinen korkeakoulu

[email protected]

Tiivistelmä

Automaainen puheentunnistin perustuu monimutkai-siin tilastollisiin malleihin, jotka on opeteu laajoista ai-neistoista. Näiden mallien koko, eli mallikompleksisuus,vaikuaa suoraan puheentunnistimen muistijäljen ko-koon sekä tunnistusnopeuteen. Tarkkuuden suhteen hy-vä mallin koko joudutaan valitsemaan joko jollain heu-ristiikalla tai kokeilemalla eri mallien suorituskykyä.

Tässä tutkimuksessa selviteiin akustisten mallienkompleksisuuden vaikutusta tunnistustarkkuuteen kunmalli opetetaan perinteisen suurimman uskoavuudeneli ML-menetelmän (Maximum Likelihood) sijaan diskri-minatiivisilla menetelmillä. Niissä opetus tapahtuu rin-nakkain puheentunnistimen kanssa, mikä on laskennal-lisesti huomaavasti raskaampaa. Tällöin opetuksessavoidaan kuitenkin keskiyä ongelmallisiin virhekohtiin,mikä tyypillisesti parantaa tunnistustarkkuua selväs-ti. Laskennallisen vaativuuden vuoksi mallikompleksi-suuden valinnasta tulee diskriminatiivisten menetelmienkanssa ongelmallisempaa. Siksi onkin mielenkiintoistatietää, mikä on optimaalisen mallikoon yhteys eri ope-tusmenetelmillä.

Kokeet kahdella erilaisella diskriminatiivisella esti-mointimenetelmällä osoiivat, eä tunnistustarkkuudensuhteen optimaalisen mallikompleksisuuden valintaanriiää ML-menetelmää varten valiu optimikompleksi-suus. Diskriminatiivisten menetelmien kanssa on kuiten-kin tärkeää tarkkailla ylioppimista jokaisella opetusite-raatiolla testaamalla tunnistustarkkuua opetusjoukostariippumaomalla datalla.

1. Johdanto

Nykyaikaiset laajan sanaston automaaiset puheentun-nistimet käyävät suurista aineistoista opeteuja tilas-tollisia akustisia malleja kohdentamaan äänisignaalinäännepaloihin, joista sien muodostetaan äänteet, sa-nat ja lopulta lauseet. Akustiset mallit voivat sisältäämiljoonia vapaita parametreja, jotka estimoidaan ope-tusvaiheessa. Ainoastaan mallin topologia sekä mallinkompleksisuua ohjaavat raja-arvot asetetaan etukäteenilman opetusdataa.

Akustisten mallien kompleksisuus, eli käytännössävapaiden parametrien lukumäärä, vaikuaa suoraan pu-heentunnistimenmuistijäljen kokoon ja tunnistusnopeu-teen. Kompleksisuuden yhteys tunnistustarkkuuteen onmonimutkaisempi, sillä sekä liian pieni eä liian suurivapaiden parametrien määrä voi johtaa huonoihin tu-loksiin. Liian yksinkertainen malli ei kykene mallinta-maan riiävästi niitä monimutkaisia ilmiöitä joita pu-heen tarkka tunnistaminen vaatii. Kuitenkin malli voi ol-la myös niin monimutkainen eei käyteävissä olevas-ta opetusaineistosta voida luoteavasti estimoida kaik-kia sen parametreja. Tällöin malli voi oppia turhia yksi-tyiskohtia, minkä vuoksi se ei enää toimi hyvin opetusai-neiston ulkopuolisella, uudella puheella. Tällaista tark-kuuden huononemista kutsutaan ylioppimiseksi. Herk-kyys siihen riippuu useista tekijöistä, kuten opetusai-neiston laadusta sekä käytetyistä oppimisalgoritmeista.Näistä syistä akustisen mallin kompleksisuuden valintaonkin tärkeä vaihe hyvälaatuista puheentunnistinta ope-teaessa.

Paras tapa akustisen mallin kompleksisuuden valin-taan olisi opeaa useita malleja eri kompleksisuuksil-la, testata niiden toimintaa realistisella tunnistustestil-lä ja valita tämän perusteella paras malli. Yleensä tä-mä on kuitenkin laskennallisesti liian raskas toimenpi-de. Käytännössä akustisen mallin kompleksisuuden va-lintaan käytetäänkin heuristiikkoja, joilla ainakin raja-taan vapaiden parametrien määrä johonkin haarukkaan.

Viime aikoina akustisten mallien opetuksessa onyleistynyt ns. diskriminatiivisten menetelmien käyö[1]. Niissä on ideana käyää tunnistinta jo opetusvai-heessa osoiamaan virhealiita kohtia opetusaineistos-ta, jolloin opetus voi keskiyä enemmän näihin vai-keisiin tapauksiin. Tämä on kuitenkin laskennallisestimonin verroin raskaampi tapa opeaa akustisia malle-ja kuin perinteinen suurimman uskoavuuden menetel-mä (Maximum Likelihood, ML). Diskriminatiivisten me-netelmien kanssa mallin kompleksisuuden kokeellinenvalinta muodostuu tästä syystä entistäkin vaivalloisem-maksi. Koska kompleksisuuden säätöön käytetyt heuris-tiikat on tyypillisesti koeteltu perinteisen ML-opetuksenkanssa, ei ole myöskään takeita siitä eä näitä samoja

Page 13: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

Pylkkönen: Mallikompleksisuuden vaikutus puheentunnistimen tarkkuuteen diskriminatiivisten opetusmenetelmien kanssa 7

heuristiikkoja voisi suoraan soveltaa myös diskriminatii-visten opetusmenetelmien kanssa.

Tässä työssä pyriiin selviämään, kuinka malli-kompleksisuuden valinta muuuu käyteäessä diskri-minatiivisia opetusmenetelmiä ML-menetelmän sijaan.Tutkimusta varten opeteiin akustisia malleja eri malli-kompleksisuuksilla, niin ML-menetelmällä kuin kahdellaeri diskriminatiivisella opetusmenetelmällä. Näiden mal-lien tunnistustarkkuua testaiin suomenkielisessä sa-nelutehtävässä.

Seuraavissa kappaleissa esitellään puheentunnisti-men toimintaa sekä akustisen mallin rakennea ja esti-mointia. Tämän jälkeen esitetään koeasetelma ja testientulokset, sekä niistä tehdyt johtopäätökset.

2. Puheentunnistimen rakenne

Nykyaikainen automaainen puheentunnistus perustuuakustiikan ja kielen mallintamiseen tilastollisilla mal-leilla. Puhesignaalia analysoidaan näiden suurista ai-neistoista opeteujen mallien avulla, jotka mahdollista-vat todennäköisyyksien laskemisen eri tunnistushypo-teeseille. Puheentunnistus voidaankin tällöin nähdä ha-kutehtävänä, jossa tarkoituksena on löytää mallien mie-lestä paras hypoteesi tunnistustulokseksi.

Joa puheen tilastollinen mallinnus onnistuisi, tuleese esiää sopivassa muodossa. Akustiikan mallintamis-ta varten puhesignaalia täytyy muokata useilla eri ta-voilla. Tätä prosessia kutsutaan piirreirroitukseksi. Sentarkoituksena on poistaa puhesignaalista tunnistuksenkannalta tarpeetonta informaatiota ja esiää puhe kom-pakteina piirteinä joille on muodosteavissa tiiviitä ja-kaumamalleja. Tässä työssä käyteiin hyvin yleisiä Mel-taajuisia kepstripiirteitä (Mel-Frequency Cepstral Coef-ficients, MFCC), jotka yhdistävät psykoakustiikasta saa-tua informaatiota ihmisen kuulon toiminnasta tehokkaa-seen signaalin prosessointiin.

Myös kielen mallinnus vaatii mallinneavien yksi-köiden määrielemisen. Monissa kielissä tämä tarkoit-taa lähinnä sanaston ja siihen liiyvän ääntösanakirjanmääriämistä. Suomen kielen lukuisten taivutusmuoto-jen vuoksi pelkkä sanatason mallintaminen ei kuiten-kaan riitä hyvään mallinnukseen. Tässä tutkimuksessakielen mallinnukseen käyteiinkin automaaisella me-netelmällä pilkouja sanapaloja [2].

Akustisen mallin avulla puheen piirre-esityksestävoidaan laskea todennäköisyyksiä erilaisille äännepaloil-le ja niiden sekvensseille. Puheentunnistimen hakualgo-ritmin toteuava osa, dekooderi, yhdistää nämä toden-näköisyydet sanastoon ja kielimalliin ja iteroi niiden ra-joiamana valtavan määrän erilaisia tunnistushypotee-seja etsiessään mallien mielestä parasta tunnistustulosta.Tämä puheentunnistusprosessi on esitey kuvassa 1.

KielimalliSanasto

Puhesignaali

Piirre−esitys

Akustisettodennäköisyydet

Tunnistustulos

Dekooderi

Akustinenmalli

Kuva 1: Kaaviokuva puheentunnistimen toiminnasta.

Kuva 2: Esimerkki HMM/GMM-mallin osasta.

2.1. Akustinen malli ja parametrien määrä

Yleisin puheentunnistimissa käytey akustinen malli onkätkey Markov-malli (Hidden Markov Model, HMM),jonka tilojen piirrejakaumia mallinnetaan Gaussin miks-tuurimalleilla (GMM). Kuva 2 esiää esimerkin osas-ta tällaista mallia. HMM/GMM mallissa Markov-tilojenavulla voidaan mallintaa äänteiden temporaalista raken-nea, kun taas GMM:t mahdollistavat joustavan ja tar-kan piirrejakaumien mallintamisen kussakin äännepalaakuvaavassa tilassa.

Joa laajan sanaston jatkuvan puheen automaai-nen tunnistus toimisi hyvällä tarkkuudella, tarvitaan var-sinmonimutkaisia akustisiamalleja. Pohjimmiltaan tämäjohtuu puheen monimuotoisuudesta ja sen sisältämäs-tä variaatiosta. Puhujariippumaoman puheentunnisti-men tulee kyetä tunnistamaan hyvinkin erilaisia puhujiaja puhetyylejä. Koartikulaatioefektien vuoksi äänteidenmallinnuksessa tulee oaa huomioon missä kontekstissakukin äänne lausutaan. Lisäksi mahdolliset taustakohinathankaloiavat entisestään vaikeaa tunnistusongelmaa.

Hyvässä akustisessa mallissa äänteet mallinnetaanpiirrejakaumiltaan stationääristen palojen, eli tilojen,

Page 14: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

Pylkkönen: Mallikompleksisuuden vaikutus puheentunnistimen tarkkuuteen diskriminatiivisten opetusmenetelmien kanssa 8

ketjuina. Riiävän tarkan mallin saavuamiseksi tar-vitaan jopa tuhansia piirrejakaumiltaan erilaisia tiloja.Näitä piirrejakaumiamallintaviin Gaussinmikstuurimal-leihin tarvitaan tyypillisesti kymmeniä Gaussin kompo-neneja, joa varsinkin erilaiset puhujat saadaan tun-nistumaan riiävän hyvin. Kun piirre-esityskin tarvitseekymmeniä dimensioita (tässä tutkimuksessa käyteiin 39dimensioisia piirteitä), päädytään jopa monen miljoonanparametrin malleihin. Tämä siitä huolimaa eä Gaus-sien mallinnuksessa on jo tehty yksinkertaistus piirre-dimensioiden riippumaomuudesta, mikä vähentää pa-rametrien määrää huomaavasti, koska Gaussit voidaantällöin mallintaa diagonaalisilla kovariansseilla.

3. Akustisten mallien estimointi

Automaaisen puheentunnistimen tilastollisetmallit ope-tetaan suurista aineistoista oikeaa puhea ja tekstiä. Laa-jan sanaston jatkuvan puheen tunnistamiseen tarkoite-tun puhujariippumaoman akustisen mallin opetukseentarvitaan tyypillisesti joitain kymmeniä tunteja puhet-ta. Mitä vaikeammasta aineistosta on kyse, esimerkik-si taustakohinan tai puhetyylin vaihtelevuuden suhteen,sitä enemmän opetusaineistoa tarvitaan hyvien mallienopeamiseen.

Ennen akustisen mallin opetusta tulee määritellämallin rakenne, eli topologia. Vakiintunut käytäntö onkäyää kontekstiriippuvien äänteiden mallintamiseenkolmetilaisiaMarkov-malleja. Äännekontekstien tehokashuomioiminen vaatii useita teknisiä ratkaisuja, kuten ti-lojen jakamista eri kontekstien kesken ja opetusaineistos-ta puuuvien kontekstien generointia foneeisten sään-töjen sekä opetusaineistosta estimoitujen akustisten tila-jakaumien perusteella [3]. Tämä prosessi tarvitsee usei-den raja-arvojenmääriämistä, mikä voidaan nähdä osa-na mallin topologian aseamista.

Tyypillisesti kullekin tilalle määritetään oma Gaus-sin mikstuurimallinsa, joiden komponenien määrä onvapaasti valiavissa. Toisissa järjestelmissä komponent-tien määrä asetetaan ennakolta, yleensä samaksi kaikkiintiloihin, kun taas toisissa, mukaan lukien tässä työssäkäytetyssä puheentunnistimessa, Gaussien määrä riip-puu kunkin tilan yleisyydestä opetusaineistossa. Jälkim-mäisessäkin tapauksessa akustisen mallin Gaussien ko-konaismäärä on helposti säädeävissä tilojen yleisyydenja Gaussien määrän yhdistävällä kertoimella.

Kun mallin topologia ja parametrien määrää sää-tävät raja-arvot on päätey, suoritetaan varsinainenmallin opetus eli estimointi. Perinteinen tapa tähänon nk. suurimman uskoavuuden menetelmä, eli ML-menetelmä. Siinä mallin parametrit asetetaan niin, eäopetusaineiston uskoavuus mallin mielessä maksimoi-tuu. HMM/GMM-malleille on olemassa tehokas iteratii-vinen ExpectationMaximization (EM) algoritmi [4], jollatämä estimointi voidaan tehdä.

ML-estimoinnin ongelmana on, eä se keskiyy ai-noastaan jakaumien uskoavuuksien parantamiseen ei-kä varsinaiseen tunnistustuloksen parantamiseen. Tä-tä käytännön ongelmaa varten on kehitelty diskrimina-tiivisia opetusmenetelmiä [1, 5], jotka pyrkivät löytä-mään mallin heikkouksia tunnistamalla opetusaineistoa,ja mahdollisuuksien mukaan korjaamaan siinä havait-semansa tunnistusvirheet. Tämä kuitenkin johtaa ML-estimointiin verrauna moninkertaisiin laskennallisiinvaatimuksiin. Tästä johtuen diskriminatiivinen opetustehdäänkin alkaen valmiiksi opetetusta ML-mallista, jaopetusalgoritmit sisältävät paljon nopeuavia heuris-tiikkoja.

Akustisten mallien diskriminatiiviseen opetukseenon olemassa useita eri menetelmiä. Valiavana on, kuin-ka opetusaineiston virhealiua mitataan, sekä se, kuin-ka mallin parametrit varsinaisesti estimoidaan. Täs-sä työssä virhemiana käyteiin yksinkertaisteuunfoneemivirheeseen perustuvaa MPFE-menetelmää [5].Koska estimointialgoritmit sisältävät heuristiikkoja, voiniiden valinnalla olla yllääviäkin vaikutuksia tutkit-taessa jotain puheentunnistimen ominaisuua. Tästäsyystä tämän työn kokeet tehtiin kahdella erilaisella es-timointialgoritmilla, perinteisellä Extended Baum-Welch(EBW) estimoinnilla [1] sekä optimointilähtöisemmälläConstrained Line Search (CLS) menetelmällä [6].

4. Koeasetelma

Tässä tutkimuksessa haluiin selviää, muuuuko op-timaalinen akustisen mallin kompleksisuus siirryäes-sä ML-estimoinnista monimutkaisempiin, diskriminatii-visiin opetusmenetelmiin. Tutkimus tehtiin kokeellises-ti opeamalla viiden eri mallikompleksisuuden akus-tista mallia kolmella eri estimointimenetelmällä: ML-menetelmällä, sekä kahdella edellä mainitulla diskrimi-natiivisella estimointialgoritmilla, EBW- ja CLS-menetel-millä. On huomioitavaa, eä molemmat diskrimina-tiivisista menetelmistä käyivät lähtökohtanaan ML-menetelmällä saatua mallia.

Testien yksinkertaistamiseksi akustisenmallin komp-leksisuua säädeiin muuamalla ainoastaan Gaussinmikstuurimallien komponenien määriä. Mallin topolo-gia ja tilojen, eli mikstuurien, määrä pysyivät kaikissa ta-pauksissa samoina. Oletuksena oli, eä suhteellisen lä-hellä optimaalista mallikompleksisuua tilojen määräl-lä ei ole suurta vaikutusta mallin tunnistustarkkuuteen.Aivan tarkalleen tämä ei pidä paikkaansa, mua pyrki-mys optimoida samaan aikaan sekä Gaussien eä tilojenmäärää johtaa hyvin raskaisiin analyyseihin [7]. Tälläoletuksella saatiin myös vähenneyä merkiävästi dis-kriminatiivisten menetelmien laskentavaatimuksia, kos-ka opetusaineiston tunnistamisen nopeuamiseksi teh-tyjä verkkoja ei tarviu saman topologian vuoksi gene-roida uudestaan jokaista mallia varten.

Page 15: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

Pylkkönen: Mallikompleksisuuden vaikutus puheentunnistimen tarkkuuteen diskriminatiivisten opetusmenetelmien kanssa 9

Tutkimuksen kokeiden ajamiseen käyteiin laitok-sella kehiteyä suomenkielistä jatkuvan puheen tunnis-tinta. Tällä tunnistinjärjestelmällä eri mikstuureihin ope-teiin eri määriä Gaussin komponeneja riippuen miks-tuureja vastaavien tilojen yleisyydestä. Varsinaista kom-ponenien määrää säädeiin raja-arvolla, joka kertoo,kuinka paljon dataa tulee mikstuurissa minimissään ol-la kutakin Gaussin komponenia kohden. Akustisessamallissa olevien Gaussin komponenien kokonaismäärävaihteli välillä 13000–68000, mikä vastaa n. 1–5miljoonaaestimoitavaa parametria.

Akustisetmallit opeteiin suomenkielisestä Speecon-aineistosta [8], käyäen ainoastaan puhdasta ja jatkuvaapuhea. Opetusaineistossa oli 310 puhujaa, joilta oli yh-teensä n. 15h puhea. Testijoukot olivat myös Speecon-aineistosta, mua ne sisältivät ainoastaan opetusjouk-koon kuulumaomia puhujia. Mallien esivalintaan käy-teiin ns. development-testijoukkoa, lopullisia testejävarten oli lisäksi oma riippumaton testijoukkonsa. Mo-lemmissa testijoukoissa oli 40 puhujaa ja noin 2h puhet-ta.

Tunnistustestien tulosta analysoitiin kirjainvirheel-lä. Se kertoo tarviavien kirjaintason editointioperaa-tioiden määrän joa tunnistustuloksesta saataisiin oikeareferenssiteksti. Tulos esitetään proseniosuutena refe-renssitekstin kirjaimista. Tällainen mia soveltuu hyvinsuomenkielisen puheentunnistuksen virhemitaksi, kuntaas yleisemmin käytey sanavirhe voisi suomen ta-pauksessa liioitella virheiden määrää yhdyssana- ja tai-vutusmuotovirheiden vuoksi.

5. Tulokset

Diskriminatiiviset opetusmenetelmät pyrkivät keskiy-mään opetusaineistossa virhealiisiin kohtiin. Vaikka tä-mä voikin parantaa mallien tarkkuua, tekee se myösmenetelmistä herkkiä ylioppimaan opetusaineistoa, mi-kä voi lopulta jopa heikentää mallien toimintaa riippu-maomalla aineistolla. Koska akustisen mallin estimoin-ti tapahtuu iteratiivisesti, on kuitenkin mahdollista tark-kailla opetuksen etenemistä tunnistamalla kunkin ope-tusiteraation tuoamalla mallilla opetusaineistosta riip-pumatonta puhea. Valitsemalla tällä tavoin sen iteraa-tion mallin, joka antoi pienimmän virheen, voidaan var-sinaiset testit tehdä mallilla jonka oletetaan toimivanparhaiten riippumaomalla aineistolla. Tätä mallivalin-taa varten käyteiin erillistä development-testijoukkoa.Kuva 3 näyää virheen kehiymisen tällä joukolla käy-teäessä EBW-estimointia neljällä eri mallikompleksi-suudella.

Parhaat mallit löytyivät EBW:n tapauksessa iteraa-tioilla 2-7 mallikompleksisuudesta riippuen, CLS:llä vas-taavasti iteraatioilla 4-7.ML-estimointi ei ole yhtä herkkäylioppimiselle, joten vastaavaa mallivalintaa ei sen kans-sa tarvinnut tehdä.

Kuva 3: Virheen kehiyminen iteraatioiain EBW-estimointimenetelmällä eri mallikompleksisuuksilla.

Kuva 4: Lopullisen tunnistustestin tulokset eri estimointi-menetelmillä, käyäen eri kokoisia akustisia malleja.

Kun kunkin mallikompleksisuuden paras malli eriestimointimenetelmillä oli valiu, ajeiin lopullinentunnistustesti riippumaomalla testiaineistolla. Kuva 4näyää kirjainvirheen kolmella eri estimointimenetel-mällä Gaussien määrän funktiona.

Näistä tuloksista nähdään heti eä diskriminatii-vinen opetus parantaa kaikilla mallikompleksisuuksillatarkkuua selvästi ML-malliin verrauna. Tutkimuksenkannalta oleellista kuitenkin on, eä paras tunnistustu-los kaikilla estimointimenetelmillä saavutetaan samallamallikompleksisuudella.

6. JohtopäätöksetTässä tutkimuksessa haluiin selviää, kuinka malli-kompleksisuuden valinta muuuu siirryäessä akus-tisten mallien opetuksessa ML-estimoinnista diskrimi-natiivisiin menetelmiin. Johtopäätös tunnistustesteistäon, eä optimaalinen mallikompleksisuus ei näyäisimuuuvan kehiyneempiä estimointimenetelmiä käy-teäessä. Tämä mahdollistaa mallikompleksisuuden va-linnan pelkästään ML-mallia käyämällä, mikä on tär-

Page 16: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

Pylkkönen: Mallikompleksisuuden vaikutus puheentunnistimen tarkkuuteen diskriminatiivisten opetusmenetelmien kanssa 10

keää, sillä diskriminatiivinen opetus vaatii moninkertai-sesti ML-estimoinnin tarvitseman laskenta-ajan. Jos mal-likompleksisuus on totuu valitsemaan jonkin heuristii-kan avulla, toimivat ne oleteavasti hyvin myös diskri-minatiivisten menetelmien kanssa.

On myös tapauksia joissa akustinen malli halutaanoptimoida muun kuin pelkän tarkkuuden perusteella.Pienempi akustinen malli kuluaa vähemmän muistia javaatii vähemmän laskentaa myös tunnistuksen aikana.Nämä ovat tärkeitä näkökohtia erityisesti mobiililaieis-sa. Tutkimuksen tulokset osoiavat, eä myös näissä ta-pauksissa diskriminatiivisen opetuksen käyö lopullisiamalleja opeteaessa on hyödyllistä. Jos ML-mallin tark-kuus on riiävä, mahdollistaa diskriminatiivisen opetuk-sen käyö mallikompleksisuuden huomaavan pienen-tämisen, näiden kokeiden puieissa jopa parametrimää-rän puoliamisen. Vastaavasti jos mallikompleksisuusoli kiinnitey, saatiin diskriminatiivista opetusta käyt-täen keskimäärin 11.5% pienempi virhe kirjainvirheellämitauna.

Diskriminatiivinen opetus kuitenkin vaatii ylioppi-misen tarkkailua, joa lopulliseksi akustiseksi malliksitulee valiua hyvin toimivamalli. Tutkimuksessa käytet-ty menetelmä riippumaoman testiaineiston käytöstä onyksinkertainen ja suhteellisen nopea tapa tähän varmis-tamiseen. Tulokset osoiavat eä se riiää takaamaanML-estimointia paremman tunnistustarkkuuden.

7. KiitoksetKirjoiaja kiiää Kieliteknologian tutkijakoulua (KIT)tutkimuksensa rahoiamisesta.

8. Viitteet[1] Woodland, P. C. & Povey, D., “Large Scale Discriminative

Training of Hidden Markov Models for Speech Recogni-tion”, Computer Speech and Language, 16:25–47, 2002.

[2] Creutz, M., “Induction of the Morphology of NaturalLanguage: Unsupervised Morpheme Segmentation withApplication to Automatic Speech Recognition”, väitöskir-ja, Helsinki University of Technology, 2006.

[3] Odell, J., “e Use of Context in Large Vocabulary SpeechRecognition”, väitöskirja, Cambridge University, 1995.

[4] Bilmes, J., “A Gentle Tutorial of the EM Algorithm and itsApplication to Parameter Estimation for GaussianMixtureandHiddenMarkovModels”, tekninen rapori, TR-97-021,ICSI, 1997.

[5] Zheng, J. & Stolcke, A. “Improved Discriminative Trai-ning Using Phone Laices”, Proceedings of Interspeech,2125–2128, 2005.

[6] Liu, P., Liu, C., Jiang, H., Soong, F. & Wang, R.-H., “A Con-strained line Search Optimization Method for Discrimina-tive Training of HMMs”, IEEE Transactions on Speech andAudio Processing, 16(5):900–909, 2008.

[7] Watanabe, S., Sako, A. & Nakamura, A., “Automatic De-termination of Acoustic Model Topology Using Variatio-nal Bayesian Estimation and Clustering for Large Vocabu-

lary Continuous Speech Recognition”, IEEE Transactionson Speech and Audio Processing, 14(3):855–872, 2006.

[8] Iskra, D., Grosskopf, B., Marasek, K., van den Heuvel, H.,Diehl, F. & Kiessling, A., “SPEECON – Speech Databasesfor Consumer Devices: Database Specification and Valida-tion”, Proceedings of LREC, 329–333, 2002.

Page 17: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

S. Werner, T. Kinnunen (toim.), XXVI Fonetiikan päivät 2010, UEF 2011, s. 11–15ISBN 978-952-61-0391-4 (PDF). http://epublications.uef.fi/© by the authors

Puheen tuottamisen ja havaitsemisen tutkimisesta artikulografian keinoin

Mona Lehtinen, Reijo Aulanko, Annukka Vanhanen, Heini Kallio, Olli Aaltonen

Käyäytymistieteiden laitos/puhetieteet, Helsingin yliopisto{firstname.lastname|heini.h.kallio}@helsinki.fi

Tiivistelmä

TiivistelmäArtikulografi on laite, jolla voidaan luoteavasti ja hel-posti tutkia puheliikkeitä, jotka muuten olisivat näky-mäömissä suun sisällä tapahtuvina hankalasti kuvan-neavissa. Helsingin yliopistoon hankiiin (Carstens3D Articulograph) AG500–niminen kolmiuloeiseen ku-vaukseen pystyvä ja reaaliaikanäytöllä varusteu elekt-romagneeinen artikulografi, joka oteiin käyöön lop-puvuodesta 2009. Tässä artikkelissa kuvatun kokeen yk-si tarkoitus olikin laieen käytön opeelu ja mahdolli-suuksien kartoiaminen. Suunnielimme puheen tuot-tamista ja havaitsemista artikulografian keinoin lähesty-vän kokeen, jossa artikulografissa oleva henkilö kuun-telee, kategorisoi ja imitoi kuulemiaan ärsykkeitä (syn-teeiset vokaalit). Tulokset: Ei huomaavaa/havaiavaaartikulatorista aktivaatiota passiivisessa tilanteessa, arti-kulaatioliikkeiden tarkkuus kun kategoria selvä ja epä-tarkkuus kategorioiden välillä. Imitaatiossa koehenkilöi-denF2:n suhteessa ärsykkeen F2:een havaiiin jonkinas-teinen vastaavuus. Luokielutehtävän reaktioajoissa ha-vaiiin kasvua kategoriarajalla. Kielen kärjen liike ei tu-losten perusteella eroele vokaaleja.

1. JohdantoPuheen tuoaminen kuuluu fonetiikan tutkimuskohtei-den ytimeen yhdessä puheakustiikan ja puheen havait-semisen kanssa. Viime vuosina puheen motoriikan tutki-mus on kuitenkin jäänyt vähemmälle mm. menetelmienkäytön hankaluuden ja tarviavan laieiston kalleudenvuoksi. Artikulaatioliikkeiden tutkiminen on ollut selväs-ti hankalampaa kuin puheen akustinen analyysi tai ha-vaintokokeiden tekeminen.

Helsingin yliopistoon hankiiin vuonna 2009 Suo-men ensimmäinen artikulografi Carstens 3D Articulo-graphAG500 [1, 2], jokamahdollistaa puheliikkeiden vai-vaomamman ja tarkan kuvantamisen. Seuraavissa kap-paleissa esitellään menetelmää ja sen historiaa lyhyesti.

1.1. Elektromagneettisesta artikulografiasta yleensä

Laieen toiminta perustuu magneeikeloihin, joista jo-kainen tuoaa eri taajuudella vaihtelevaa magneei-kenää. Koehenkilön artikulaatioelimiin kiinniteään

sensoreita, joihin em. magneeikenä indusoi muuu-van sähkövirran – tämä mahdollistaa sensoreiden etäi-syyden määriämisen kustakin magneeikelasta kulla-kin ajan hetkellä. Em. AG500:ssa on kuusi läheäjäke-laa, 12 käyteävissä olevaa sensoria ja se tekee miauk-sia 200 Hz:n näyeenootaajuudella. Sensoreiden liike-data säilötään artikulografissa itsessään olevalle keskus-tietokoneelle, josta se on haeavissa, tarkasteltavissa se-kä muuteavissa jatkokäsiteltävään muotoon kontrolli-koneena toimivan kanneavan tietokoneen kaua. Sen-soreiden liikeä voi myös seurata reaaliajassa kontrolli-koneen näytöltä. Kun data on haeu keskustietokoneeltaja esikäsitelty (muuntamalla valmistajan tarjoamilla oh-jelmilla paikkatietodata liikeradoiksi ja normalisoimallapään liikkeet pois), voidaan tulosten tarkastelua jatkaaesim. Matlabilla. Eräässä artikulografin suorituskykyä jaluoteavuua käsielleessä tutkimuksessa havaiiin, eäAG500 –järjestelmä on riiävä ja luoteava menetelmäpuheliikkeiden mallintamiseen, oleaen eä tutkimuk-sessa itsessään pyritään mahdollisimman korkeaan laa-tuun ja validiteeiin: ”e performance of the [AG500]system was judged as adequate for speech movementacquisition, provided that specific steps are taken for mi-nimizing error during recording and for validating thequality of recorded data.” [3].

Artikulografin käyö ei vaadi lääketieteen ammai-laisen läsnäoloa ja on oikein tehtynä koehenkilölle vaara-tonta ja kivutonta. Laieen sensoreilla ei katsota olevan(jatkuvaa) häiritsevää vaikutusta koehenkilön puheeseen([4], joskin reaktio sensoreihin voi olla yksilöllinen, ks.esim. Katz et al. [5]). Miauksia ei voida turvallisuussyis-tä suoriaa, jos kohdehenkilöllä on sydämentahdistin.Kokeen turvalliseen ja oikeelliseen suoriamiseen liiyymyös laieiston toiminnan ja kunnon tarkkailu, koehen-kilön informointi menetelmän suhteen sekä hygieniastahuolehtiminen (sensoreiden puhdistus, käsihygienia…).

1.2. Historiaa

Ensimmäisiä magneeeihin perustuvia miauksia kielenliikkeestä aleiin tehdä 1970-luvulla. Sonoda [6] kiinnit-ti kokeessaan magneetin koehenkilön kieleen ja toisensuun ulkopuolelle, jolloin suun sisällä olevan magnee-tin sijainti voitiin selviää. Hixon [7] ja van der Giet[8] käyivät vaihtelevaa magneeikenää ja useita lähe-

Page 18: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

Lehtinen et al.: Puheen tuottamisen ja havaitsemisen tutkimisesta artikulografian keinoin 12

tinsignaaleja, jolloin suun sisältä saatiin tehtyä miauk-sia useammista kohdista. 1980- luvulla Perkell [9] puoles-taan kehii tämän periaaeen pohjalta yksikön, jossa oli2 läheäjäkelaa ja pieniä sensoreita kielen liikkeen mit-taamiseen. Schönle kollegoineen [10] teki vuonna 1983miauksia neljästä eri pisteestä suun sisältä samankaltai-sella menetelmällä. Kehitystyö jatkui 1980-luvulla esim.Göingenin yliopistossa (Medical School of the Univer-sity of Göingen) ja vuonna 1988 Carstens Medizinelekt-ronik – yhtiö julkisti ensimmäisen AG-sarjan artikulo-grafinsa (ks. [2] sekä [4]). Vuonna 2007 perusteiin AISC-niminen elin (Articulograph International Steering Co-miee), jonka tehtävä valmistelu-/ohjauskomiteana onkehiää, ohjeistaa ja seurata artikulografilla tehtävää tut-kimusta. Tätä kirjoiaessa (8.6.2010) AISC:n toiminta vai-kuaisi olevan vielä järjestäytymisvaiheessa. Carstensininternet- ja wikisivuille [1, 2] on kuitenkin keräy mm.laieen käyöä, hygieniaa ja tulosten käsielyä koske-vaa yleisesti hyväksyyä ohjeistusta ja tietoa. Valmistajaylläpitää myös julkaisulistaa, josta käy ilmi, eä elekt-romagneeista artikulografiaa käytetään nykyään ver-raain laajasti monilla eri tieteenaloilla. Sovellusalueitalöytyy esim. hammaslääketieteen, neurologian, neurop-sykologian, fonetiikan ja logopedian saralla.

1.3. Puheen tuottamisen ja havaitsemisen tutkimises-ta artikulografian keinoin

Puhea tuotetaan puristamalla ilmaa keuhkoista ääni-huulten läpi ääntöväylään ja tekemällä artikulaatioliik-keitä. Puhea havaitaan motorisen teorian mukaan ha-vaitsemalla puhujan suunnielemia artikulaatioliikkeitäja akustisen teorian mukaan eroelemalla oleellinen kie-lellinen informaatio akustisesta signaalista. (Ks. motori-seen teoriaan liiyen esim. [11] ja akustiseen teoriaanliiyen esim. [12].) Mikäli siis pelkkä kuunteleminen ai-heuaa aktivaatiota artikulaatioelimistössä, voidaan si-tä pitää osoituksena liikkeen olennaisuudesta havain-nolle. Tutkiaksemme puheen tuoamisen ja havaitse-misen suhdea artikulografilla suunnielimme alla ku-vatun kokeen. Tarkoituksena oli selviää, miten ärsyk-keiden osuminen suomen vokaalien foneemikeskuksiinvs. foneemirajoille vaikuaa koehenkilön ääntöelintenreaktioihin eri koetilanteissa. Lisäksi haluiin nähdä, ai-heuaako pelkkä kuunteleminen artikulaatioelinten lii-keä, erityisesti tilanteissa, joissa ärsyke ei yksiseliei-sesti osu vokaalifoneemin omalle alueelle. Samalla pyrit-tiin tarkastelemaan, miten koehenkilöt matkivat ja luo-kielevat kuulemaansa. Eräs kokeen tarkoituksista olimyös uuden menetelmän käyöönoo ja sen mahdolli-suuksien kartoiaminen.

2. Menetelmät

2.1. Koeasetelma

Ärsykkeinä käyteiin synteeisiä vokaaleja suomen jat-kumoilta [i–y] ja [ä–a]. [i–y]-jatkumolla F2 vaihteli 30melin välein n. 2900 Hz:stä n. 1500 Hz:iin ja [ä–a]-jat-kumolla vastaavasti n. 2100 Hz:sta n. 1050 Hz:iin. Är-sykkeissä määritellyistä viidestä alimmasta formantistavain F2 vaihteli jatkumon sisällä. F1 oli 250 Hz jatku-mon [i–y] kohdalla ja 720 Hz jatkumossa [ä–a]. Muut for-mantit olivat F3 = 3010 Hz, F4 = 3300 Hz, F5 = 3850 Hz.Kullakin jatkumolla oli 19 ärsykeä, joista jokainen kesti200 ms. Kukin ärsyke esiteiin 5 kertaa jatkumonsa si-sällä satunnaistetussa järjestyksessä kolmenlaisessa koe-tilanteessa. Passiivisessa tilanteessa artikulografissa ole-van koehenkilön tehtävänä oli vain kuunnella ärsykkeitä,aktiivisessa tilanteessa luokitella ja imitaatiotilanteessatoistaa kuultuja ärsykkeitä. Em. kolmen koetilanteen jär-jestys vaihteli koehenkilöiäin ja ärsykkeet satunnaistet-tiin joka kerta uudelleen (sama ärsyke ei esiintynyt kahtakertaa peräkkäin).

Ärsykkeet satunnaisteiin ja esiteiin Presentation-ohjelmalla. Koehenkilöiden (nappia painamalla antamat)vastaukset luokielutehtävään ja vastaamiseen kulunutaika tallenneiin Presentationilla ja puhe Shure SM58 -mikrofonin kauaAG500:n omalla nauhoitusohjelmalla/-ominaisuudella.

2.2. Koehenkilöt

Koehenkilöinä oli 6 äidinkieleltään suomenkielistä nais-ta, joiden keski-ikä oli 24 vuoa. Yhtä lukuun oamaakaikki koehenkilöt olivat pääkaupunkiseudulta. Koehen-kilöt eivät raportoineet todeuja kielen, puheen tai kuu-lon häiriöitä eivätkä sydämentahdistimen olemassaoloa.Koehenkilöt eivät saaneet rahallista korvausta osallistu-misestaan kokeeseen ja kaikilta keräiin ennen koeasuostumus sekä taustatiedot.

2.3. Kokeen kulku

Järjestelmä avaiin ohjeiden mukaisesti hyvissä ajoinennen koea. AG500:n sensorit (mallia HQ220-L165-S)kiinniteiin koehenkilöön liimaten ja teipaten. Yleises-ti oaen kieleen ja huuliin kiinniteävät ns. miaus-sensorit liimaiin (Cyano Veneer (Fast) Adhesive Liquid–liimalla jota valmistaa Hager Werken). Pään liikku-misen vaikutuksen normalisointia varten tarviavat ns.vakaus- tai referenssisensorit (reference sensors) puoles-taan kiinniteiin teipillä. Vakaussensorit kiinniteiin ne-nänvarteen sekä vasempaan ja oikeaan kartiolisäkkee-seen (korvantaus). Miaussensorit kiinniteiin ylä- jaalahuuleen (huulen ja muun ihon rajapinnalle), vasem-paan ja oikeaan suupieleen, kielen kärkeen sekä kes-kemmälle kieleen. (Eräässä toisessa kokeessa vakaussen-sorit kiinniteiin silmälasikehyksiin, jotka koehenkilöl-

Page 19: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

Lehtinen et al.: Puheen tuottamisen ja havaitsemisen tutkimisesta artikulografian keinoin 13

Kuva 1: Ärsykkeen F2 (sinisellä) suhteessa koehenkilöntuotokseen (punaisella) imitaatiotehtävässä.

lä oli päällä kokeen aikana. Pyrkimyksenä tässä oli mi-nimoida ihon joustamisen ja liimauksen höltymisen ris-kit [13]. Toisaalta silmälasitkaan eivät välämää oletäysin stabiilit koehenkilön päässä.) Koehenkilön rantee-seen kiinniteiin miavirheiden estämiseksi eräänlaisel-la rannekkeella tai klipsillä maadoitusjohto.

Koehenkilöitä ohjeisteiin passiivisessa tilanteessakuuntelemaan ja imitaatiotilanteessa toistamaan kuu-lemiaan ärsykkeitä. Luokielutehtävässä koehenkilöäpyydeiin luokielemaan kuulemansa nappia painamal-la enemmän /i/:n tai /y/:n (ja osakokeesta riippuen vas-taavasti /a/:n tai /ä/:n) kaltaisiin.

Tulokset esikäsiteltiin valmistajan ohjelmilla (Calc-Pos, NormPos) ja jatkokäsiteltiin Matlabilla.

3. Tulokset3.1. Aktiivinen ja passiivinen tilanne: kuuntelu- jaimitointitehtävät

Imitaatiotehtävässä koehenkilön tuotosten voidaan ylei-sellä tasolla katsoa seuraavan ärsykkeen F2:n nousua.Poikkeavuua kuitenkin on. Koehenkilö ei myöskäännosta F2:taan juurikaan yli 1959 Hz:n yli.

Aktiivisessa tilanteessa näkyy selkeää (kielen kärjen)liikeä, jota passiivisessa tilanteessa ei ole.

3.2. Kategorisointi

Kategoriaraja näyäisi sijoiuvan [a-ä] -jatkumolla 1400-1500 Hz:n välille ja [i-y ] –jatkumolla n. 2200-2300 Hz:nvälille.

Taulukko 1:Keskimääräiset reaktioajat koehenkilöiäin jajatkumoiain.

Jatkumo Reaktioajat (ms)[a–ä] 7702 / 10207 / 9046 / 6006 /

8341 / 6494[i–y] 7589 / 9167 / 9155 / 5033 /

7829 / 5714

Kuva 2:Kielen etuosan liike kuunneltaessa (pass) ja toistet-taessa (akt) synteeisiä vokaaliärsykkeitä jatkumolta [a-ä]. Molemmissa osissa ylin käyrä on tilanteessa nauhoitet-tu ääniaalto, jossa ärsykeä seuraa koehenkilön tehtävästäriippuva reaktio. Alemmat käyrät esiävät kielen pysty-suuntaista ja etu-takasuuntaista liikeä.

Keskimääräiset reaktioajat vaihtelevat ärsykkeiäinvälillä 6930-9130 ms (ks. liite 1, kuva 4). Reaktioajat ovatkeskimäärin suuremmat [a-ä] –jatkumolla. [a-ä] –jatku-molla on myös havaiavissa reaktioaikojen nousua ka-tegoriarajalla (kategorisointitehtävän mukaan raja kul-kee suunnilleen kahdeksannen ärsykkeen kohdalla). [i-y] –jatkmolla luokielutehtävään perustuva kategoria-raja on suunnilleen ärsykkeen 12 kohdalla, jonka lähistöl-lä näkyy reaktioajoissakin pientä nousua. Kategorisointi-tehtävässä keskimääräiset erot koehenkilöiden välillä oli-vat muutaman sekunnin kymmenesosan luokkaa.

Selkeät kategoriat ([a-ä]- jatkumon ääripäät) sijoit-tuvat kielen edestakaisen liikkeen kohdalla 8 ja ylösalai-sen liikkeen osalta 6miayksikön rajoihin, kun kokonais-vaihtelu on n. 14 yksikköä (kuva 5).

3.3. Muut tehdyt havainnot menetelmän käytöstä

Kokeen yksi tarkoitus oli tutustua artikulografiin mene-telmänä. Seuraavassa listassa tiivisteynä olevat havain-not on koosteu saadun kirjallisen ja suullisen ohjeistuk-sen sekä kokeen aikana tehtyjen huomioiden perusteella.Kokeen aikana tehtyjen havaintojen perusteella koostet-tiin myös artikulografiin liiyvä ohjelista, joka on tarkoi-tus julkaista myöhemmin verkossa.

• Laieen lämpeneminen kestää (suosituksen mu-kaan järjestelmän tulisi olla päällä n. 2 h ennenkäyöä).

Page 20: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

Lehtinen et al.: Puheen tuottamisen ja havaitsemisen tutkimisesta artikulografian keinoin 14

Kuva 3: Luokielua.

• Yhden ”sweepin”/näyeen/osakokeen pituus max.n. 1,5 min. datan jatkokäsielyn takia.

• Sensoreiden ja niiden johtojen mahd. vaikutuskoehenkilön puheeseen, koehenkilön touminen.

• Sensorin johdon ollessa liian lähellä läheäjäkelaaaiheutuu häiriöitä.

Kokeita tehtäessä ja ajankäyöä suunniteltaessa onoteava huomioon laieen käyöönooon kuluva aika:artikulografin on suositeltavaa olla päällä noin kahdentunnin ajan ennen käyöä, joa magneeikelojen läm-pötila ehtii nousta tasaiseksi eivätkä vaihtelut vaikutamiausten ja kokeen tuloksiin [1]. Toinen huomionar-voinen seikka on se, eä datan jälkikäsielyn sujuvuu-den vuoksi on vielä toistaiseksi kannaavaa pitää yhden”sweepin”/kerralla keräävän näyeen/osakokeen pi-tuus maksimissaan puolessatoista minuutissa. NormPos-ohjelman, joka siis normalisoi näyeestä pois pään liik-keiden vaikutuksen, olemassa oleva versio ei vielä täl-lä hetkellä käsiele suurikokoisia tiedostoja. Tämä joh-taa liian pitkien tiedostojen kohdalla joko niiden käsit-telemää jäämiseen tai niiden käsielemiseen pienem-missä osissa. (Toisaalta Carstens ilmoii olevansa kehit-telemässä uua versiota ohjelmasta, jossa ongelma il-meisesti olisi ratkaistu (Birgia Carstens, henkilökohtai-nen tiedonanto 6.8.2010).) Koe itsessäänhän voi koostuamonesta lyhyemmästä näyeestä tai osakokeesta, sen-soreiden liimaus kestää puolenkin tunnin kokeen luo-teavasti. Havaitsimme myös, eä sensorin johdon ole-

Kuva 4: Koehenkilöiden yli keskiarvoistetut reaktioajat(ms) ärsykkeiäin. Kullakin jatkumolla on 19 ärsykeäääripäiden ollessa ärsykkeet 1 ja 19. (Ks. liite 1.)

Kuva 5: Kielen kärjen liike kategorioiain. X-akselilla kie-len edestakainen liike ja y-akselilla pystysuuntainen. Kel-taisella ja mustalla [a-ä]- jatkumon ääripäät ae19 (kelt.)ja ae01 (must.), sininen edustaa jatkumon ärsykkeitä ae10-ae18, ja punainen muita jatkumon ärsykkeitä.

minen liian lähellä läheäjäkelaa aiheuaa huomaaviahäiriöitä miaustuloksessa. Sensorien kiinnityksessä ha-vaitsimme liimauksen olevan teippausta suositeltavam-pi vaihtoehto käyteäväksi myös suun ulkopuolella koh-dissa, joissa iho venyy ja liikkuu paljon tai joka altistuuuloshengitysilman kosteudelle. Huomasimme myös sen-soreiden ja niiden johtojen vaikuavan jossain määrinkoehenkilöiden puheeseen aiheuaen virheartikulaatioi-ta ja epäselvyyä. Joillain vaikutus oli voimakkaampaa jakesti pidemmän aikaa, joillain taas vaikutus oli pienempija touminen nopeampaa. Johtojen ja sensoreiden mah-dollinen vaikutus koehenkilön puheeseen kannaaa ot-taa huomioon koea suunniteltaessa. (Sensoreiden vai-kutuksesta puheeseen ks. myös esim. Katz et al. [5].)

Page 21: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

Lehtinen et al.: Puheen tuottamisen ja havaitsemisen tutkimisesta artikulografian keinoin 15

4. Johtopäätökset/yhteenveto/

Kokeessamme emme havainneet huomaavaa/havaiavaaartikulatorista aktivaatiota passiivisessa tilanteessa koe-henkilön pelkästään kuunnellessa ärsykkeitä, ainakaanartikulografin mahdollistamalla tarkkuudella.

Imitaatiotehtävässä koehenkilöiden F2:n suhteessaärsykkeen F2:een oli havaiavissa jonkinasteinen vas-taavuus, koehenkilöt siis tuntuivat eroavan synteeisetvokaalitF2:n muutoksen perusteella ja matkivan sitä..

Luokielutehtävässä mitatut reaktioajat vaikuivattehtävään nähden oleteavan kaltaisilta kasvaen kate-goriarajalla. Reaktioaikojen perusteella [i-y] –jatkumoneroelu näyäisi olevan helpompi tehtävä kuin [a-ä]–jatkumon. Viimemainitulla on myös havaiavissa sel-keämpi reaktioaikojen nousu kategoriarajalla.

Artikulaatioliikkeet ovat eriäin tarkkoja. Verraainpienikin muutos voi olla lopputuloksen kannalta olen-nainen. Imitaatiotehtävässä ärsykkeen kategorian ollessaselkeämyös vastauksen artikulaatioliikkeet näyivät sel-kiytyvän. Kielen kärjen liike ei tulosten valossa eroele[a-ä]- tai [i-y]- jatkumoiden vokaaleja.

Teimme kokeen aikana myös yleisiä havaintoja, jotkaliiyvät artikulografin käyöön ja sillä tehtäviin kokei-siin ylipäänsä. Kaikista kappaleessa 3.3 luetelluista ha-vaitsemistamme seikoista emme löytäneet tietoa etukä-teen, eikä sitä uskoaksemme ole olemassa. Artikulografinkäyö ei vaadi lääketieteen ammailaista, mua edellyt-tää luonnollisesti perehtymistä ja käytön opeelua.

5. Kiitokset

Haluaisimme osoiaa kiitokset kaikille kokeeseen osal-listuneille, Kirsi Hariselle ärsykkeistä sekä Kalevi Reini-kaiselle käytännön tuesta.

6. Viitteet[1] Carstens Medizinelektronik. AGwiki. (Lueu 9.6.2010.),

URL: http://wiki.ag500.net/Main\_Page.

[2] Carstens Medizinelektronik. Articulography - electromag-netic systems for visualization of speech movement in-side the mouth. (Lueu 9.6.2010), URL: http://www.articulograph.de/.

[3] Y. Yunusova, J. R. Green ja A. Mefferd, ”Accuracy assess-ment for AG500, electromagnetic articulograph,” Journal ofSpeech, Language, and Hearing Research, vol. 52, s. 547-555, 2009.

[4] P. W. Schönle, K. Gräbe, P. Wenig, J. Höhne, J. Schrader jaB. Conrad, ”Electromagnetic articulography: Use of alter-nating magnetic fields for tracking movements of multiplepoints inside and outside the vocal tract,” Brain Lang., vol.31, s. 26-35, 5, 1987.

[5] W. F. Katz, S. V. Bharadwaj ja M. P. Steler, ”Influencesof Electromagnetic Articulography Sensors on Speech Pro-duced by Healthy Adults and Individuals With Aphasia

and Apraxia,” J. Speech Lang. Hear. Res., vol. 49, s. 645-659,June 1, 2006.

[6] Y. Sonoda, ”Observation of tongue movements employingmagnetometer sensor,” IEEE Transactions on Magnetics,vol. 10, s. 954-957, 1974.

[7] T. J. Hixon, ”An Electromagnetic Method for TransducingJaw Movements during Speech,” J. Acoust. Soc. Am., vol.49, s. 603-606, 1971.

[8] G. van der Giet, ”Computer-controlled method for measu-ring articulatory activities,” J. Acoust. Soc. Am., vol. 61, s.1072-1076, 1977.

[9] J. S. Perkell ja D. Oka, ”Use of an alternating magnetic fielddevice to track midsagial plane movements of multiplepoints inside the vocal tract,” J. Acoust. Soc. Am., vol. 67, s.92-92, 1980.

[10] P. W. Schönle, P. Wenig, J. Schrader, K. Graebe, E. Broeck-mann ja B. Conrad, ”Ein elektromagnetisches Verfahrenzur simultanen Registrierung von Bewegungen im Be-reich des Lippen-,Unterkiefer- und Zungensystems,” Bio-med Tech., s. 263-267, 1983.

[11] F. Pulvermüller, M. Huss, F. Kherif, F. Moscoso del PradoMartin, O. Hauk ja Y. Shtyrov, ”Motor cortex maps articu-latory features of speech sounds,” PNAS, vol. 103, s. 7865-7870, May 16, 2006.

[12] S. K. Sco, C. McGeigan ja F. Eisner, ”A lile more con-versation, a lile less action:candidate roles for motor cortex in speech perception,” NatRev Neurosci., vol. 10, s. 295-302, 2009.

[13] W. Jun, A. Samal, J. R. Green ja T. D. Carrell, ”Vowel recog-nition from articulatory position time-series data,” teokses-sa Signal Processing and Communications, 2009. IEEE In-ternational Conference on Signal Processing and Commu-nications (ICSPC 2009), Omaha, Nebraska, USA, 2009, s. 1-6.

7. Liitteet

Liite 1. Keskimääräiset reaktioajat (ms) ärsykkeiäin

Ärsyke Km. RT Ärsyke Km. RTae01_1046Hzwav 7493 i01_1518Hzwav 7428ae02_1093Hzwav 7946 i02_1578Hzwav 7413ae03_1141Hzwav 7033 i03_1640Hzwav 7252ae04_1191Hzwav 7681 i04_1703Hzwav 7338ae05_1242Hzwav 7222 i05_1768Hzwav 6933ae06_1294Hzwav 7704 i06_1834Hzwav 7143ae07_1348Hzwav 7914 i07_1903Hzwav 7176ae08_1403Hzwav 9129 i08_1973Hzwav 7173ae09_1460Hzwav 8591 i09_2045Hzwav 7711ae10_1518Hzwav 8821 i10_2119Hzwav 7792ae11_1578Hzwav 8025 i11_2195Hzwav 7508ae12_1640Hzwav 8107 i12_2273Hzwav 7687ae13_1703Hzwav 8313 i13_2353Hzwav 7864ae14_1768Hzwav 8032 i14_2436Hzwav 7094ae15_1834Hzwav 8025 i15_2520Hzwav 7214ae16_1903Hzwav 7472 i16_2607Hzwav 7448ae17_1973Hzwav 8394 i17_2696Hzwav 7453ae18_2045Hzwav 7792 i18_2788Hzwav 7573ae19_2119Hzwav 7842 i19_2882Hzwav 7383Total ka 7976 7399

Page 22: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

S. Werner, T. Kinnunen (toim.), XXVI Fonetiikan päivät 2010, UEF 2011, s. 16–21ISBN 978-952-61-0391-4 (PDF). http://epublications.uef.fi/© by the authors

Timing of intervocalic consonant gestures in Finnish

Miael L. O’Dell1, Juraj Simko2, Tommi Nieminen3,Mari Vainio4, Mona Lehtinen4

1University of Tampere, 2Bielefeld University,3University of Turku, 4University of Helsinki

[email protected], [email protected], [email protected],[email protected], [email protected]

Abstracte Embodied Task Dynamic model of gestural sequenc-ing predicts that an intervocalic consonantal lip closinggesture should come later if the tongue is moving from/i/ to /a/ rather than from /a/ to /i/ because this relationis more efficient in terms of production and perceptibil-ity. We tested this prediction for two Finnish speakersproducing /ipa/ and /api/ using EMA to track speakers’articulation. e results confirm the predictions for thesetwo speakers.Index Terms: gestural timing, Embodied TaskDynamics,Finnish, vowel to consonant coordination, EMA

1. Baground1.1. Articulatory Phonology and gestural score

According to one theory of speech production, Articula-tory Phonology (AP), an uerance is fully described byits gestural score [1, 2]. e gestural score captures ac-tivation intervals of primitive articulatory (and phono-logical) units—gestures. Each active gesture drives thevocal tract articulators towards a target position corre-sponding to a vocal tract constriction that results in theintended acoustic communicative event. e active ges-ture thus turns the vocal tract into a coordinative struc-ture with the articulators acting in synergy in order toaain the given gestural target. is target-oriented be-havior is expressed via a variable called tract variable thatrepresents the vocal tract state relevant to the given task.e lip aperture (LA) tract variable, for example, capturesthe distance between the lips and is thus linked to the de-gree to which the task of a bilabial closure is achieved ata given moment.

e dynamics of the vocal tract under the influence ofan active gesture is usually modeled using the Task Dy-namics (TD) theory of target-oriented motor action [3].e behavior of each tract variable involved in achiev-ing the given gestural target is obtained as a solutionof a damped mass-spring dynamical system which hasthe given target as its equilibrium position and a stiff-ness parameter determining the responsiveness of the

system to the given task. e associated kinematics ofthe vocal tract articulators, e.g. the tongue body, tonguetip, the lips or the jaw, is then obtained by recasting thetract variable trajectories to the space of model articu-lator variables using a pseudo-inverse of the redundantanatomy (articulator variables-to-tract variables) map-ping [4].

e temporal details of activation paern capturedby the gestural score is the crucial determinant of tra-jectories of speech articulators participating in the pro-duction of the given uerance. e gestures’ activationonsets and offsets, plus the gestural stiffness parameters,are the sole factors governing the surface form of a ges-tural sequence—the intended uerance. e question ofhow these parameters are determined must thus be cen-tral to any inquiry into the nature of speech production.

In one of the early aempts to answer this questionwithin the AP framework, Browman and Goldstein [5]proposed a rule-based account of intergestural timing.e relative onsets and offsets of the neighboring ges-tures depended solely on the type of their mutual lexicalaffiliation. In the subsequent work [6, 7, 8], a coupledoscillator methodology has been used to refine this localapproach and generalize it to global sequencing paerns.

1.2. Embodied Task Dynamics

Simko and Cummins [9] have proposed an alternativeaccount of timing in a gestural score. Inspired by Lind-blom’sHypo-hyperarticulation (H&H) theory and his Emer-gent Phonology theory [10, 11, 12], they proposed amodeldesigned for testing the hypothesis that the local andglobal intergestural relations are formed by optimalityprinciples. at is, the timing details of a gestural se-quence as well as the stiffness parameter values of par-ticipating gestures are optimal with respect to competingproduction and perception efficiency requirements.

e optimization framework is currently implementedon a vastly simplified model of the vocal tract capturingonly vertical movement of a subset of speech articula-tors: the jaw, tongue body, tongue tip and the upper andlower jaw. is simple architecture allows for account-

Page 23: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

O’Dell et al.: Timing of intervocalic consonant gestures in Finnish 17

ing for a very limited number of speech gestures: a highand a low vowel (labelled /i/ and /a/, respectively) re-alized using the tongue body height (TB) tract variable,and two stop consonants, bilabial closure /p/ and alveo-lar stop /t/ imposed via lip aperture (LA) and tongue tipheight (TT) tract variables, respectively.

1.3. Cost and Efficiency

Competing efficiency requirements are represented bythree cost functions: articulatory effort E, parsing costP and duration cost D. ese cost measures are func-tions of the onsets and offsets of all gestures participatingin the realization of the given uerance and of the ges-tural stiffness values. For parsimony’s sake, the stiffnessparameters are interlinked and represented by a singlevalue for the entire sequence referred to as the overallstiffness parameter. An overall cost function whose min-ima are presumed to represent optimal gestural scores isthen defined as a weighted sum of these three compo-nents:

C = αEE + αPP + αDD, (1)

where the weight coefficients αE , αP and αD representhigh level intentional parameters that can impose sequenc-ing modifications corresponding to lax and tense articu-lation and speaking rate variations.

Articulatory effort E is calculated as an integral offorces exerted by model muscles in order to move the vo-cal tract articulators through the given sequence of ges-tural targets. In order to be able to approximate theseforces, the traditional TD model has been thoroughly re-evaluated. e resulting Embodied Task Dynamics linksthe target oriented behavior of the speech system withthe underlying physical and anatomical constraints. Inparticular, the behavior of model articulators cruciallydepends on their physical properties, the masses actedupon in order to achieve gestural targets. e articula-tors themselves thus act as mass springs, in contrast tothe traditional TD implementation where this privilegeis only given to the abstract tract variables. (For imple-mentation details, see [13]). If the articulator masses areset to correspond to the physical masses of the vocal tractcomponents, the forces involved in the realization of thegiven uerance can be quantified and used as a realis-tic measure of articulatory effort E. e task dynam-ics active during the activation intervals of gestures iscomplemented with an always active speech-ready dy-namics driving the vocal tract towards a neutral position(schwa).

Parsing cost P is an approximate measure of the lis-tener’s effort in perceiving an uerance. Simko andCum-mins [9] presume that this effort is inversely proportionalto the duration and articulatory precision of each real-ized gesture in the uerance. A gesture is considered re-alized whenever the associated tract variable sufficiently

approaches its gestural target. For stop consonants thismeans that closure is achieved.¹ Vowels are realizedwhenthe tongue body is within 20% of the distance betweenspeech-ready (neutral) position and the given gesturaltarget. Simko and Cummins [9] also assume that a vo-calic gesture, even when sufficiently close to its target,is not perceived during a simultaneous consonantal clo-sure, and therefore this time is not included in the real-ization interval of the gesture.

Furthermore, the gestures with longer realization in-tervals are presumed to be perceived more easily by thelistener then shorter ones. is relationship between theparsing cost and the duration of a given gesture is not alinear one: the perceptibility of a gesture increases dra-matically within a few first tens of milliseconds aer theonset of the gesture’s prominence interval, and then re-mains virtually unaffected. is requirement is capturedby the duration estimate function which is a monotoni-cally increasing time function with range [0, 1) asymp-totically converging to 1.

Finally each gesture is given a measure of “perceivedquality” based on both precision and duration and thesequality measures are combined into an overall parsingcost associatedwith thewhole gestural sequence. Aswasthe case with the cost E expressing the articulatory ef-fort, the value of P is again a function of the onset andoffset times of gestural activation intervals, and of thevalue of the overall stiffness parameter.

Note that this definition of parsing cost function re-flects simple intuitions about what is a surface form of a“good” speech gesture. e means employed are limitedby the simplified nature of the vocal tract model. Manyinfluential phonetic phenomena (voicing, pitch, inten-sity, non-linearities associated with the articulation-to-acoustics mapping, etc.) are omied in the evaluationof gestural quality. Certainly, some of these phenom-ena play important roles in relating the production of agiven uerance and the listener’s ability to perceive itcorrectly. It is very likely that the way these phenomenaexert their influence over this ability is language depen-dent. Similarly, the exact values of the various parsingcost function parameters represent details of interpreta-tion of different aspects of gestural production and areagain strong candidates for characterizing a given lan-guage. us the way the parsing cost function is de-fined encodes the phonological knowledge of the mod-eled speaker.

Duration cost. e third cost component, durationcost D, simply evaluates the overall duration of gestu-ral sequence realization. It is computed as the length ofthe interval from the onset of the first gesture in the se-quence to the offset of the realization interval of the lastgesture (in seconds). While the parsing cost P captures

¹As in the traditional TD account, dynamical targets are set beyondthe physical boundaries of the vocal tract.

Page 24: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

O’Dell et al.: Timing of intervocalic consonant gestures in Finnish 18

the position of the given uerance on the H&H scale, thevalueD reflects the speaking rate at which the sequenceis uered.

e relative values of the weight coefficients αP andαD used in the definition of the overall cost C func-tion (see Equation 1) thus represent the premium placedon the articulation precision and speaking rate, respec-tively. e higher the relative value of αD , for example,the more “expensive” it is to realize the given gesturalsequence slowly.

1.4. Finding an optimal gestural score

To identify the gestural score optimal with respect to thecombination of these components, an optimization pro-cedure based on simulated annealing is used (illustratedin Fig. 1). e function C mapping the onsets and offsetsof gestural activation intervals and the overall stiffnessvalue to the quantitative cost measure is the objectivefunction of this optimization problem. e weight coef-ficientsαE ,αP andαD are fixed parameters of the objec-tive function representing the intentions of the speakerwith respect to the H&H scale and speaking rate. Allother parameters are seen as speaker or language depen-dent. Note that the optimal gestural score/stiffness com-bination emerges as the result of the cost optimizationalone; no other explicit phonological rules governing therelative timing of gestures, for example, are used.

Figure 1: An example of optimization.

1.5. A Specific Prediction

eEmbodied Task Dynamic model makes many specificpredictions. In this study we focus on one non-triviallocal phasing prediction. One robust result of the opti-mization simulations that have been carried out is thattongue body movement (vowel transition) should startlater for /a/ → /i/ than for /i/ → /a/ in relation to an in-tervocalic bilabial stop gesture, e.g. in /api/ tongue bodymovement (vowel transition) should start later relativeto the lip closing gesture than it does in /ipa/. Just such arelation was in fact observed by Löfqvist & Gracco [14]

for English speakers. Embodied Task Dynamics offers anexplanation for this state of affairs in terms of efficiency:simulations show that this phasing relation is optimalin terms of using minimal energy for production whilemaintaining perceptibility [9, 13].

Our specific research question in the present studywas simply, Does this gestural phasing relation hold truefor Finnish?

2. Methods

2.1. Articulography (EMA)

In order to address the question at hand, we used elec-tromagnetic articulography (EMA) to track articulatorymovements of two native Finnish speakers, onemale (TN)and one female (JV). e apparatus used for this purposewas the Carstens AG 500 Articulograph at the Universityof Helsinki. Simultaneous audio recordings were madewhile the articulograph recorded the three dimensionalmovements of sensors aached to subjects’ articulators.

Eight sensors were monitored aached to the upperlip, the lower lip, the tongue body, the tongue tip, andchin, as well as three reference points: behind le earand right ear and at the bridge of the nose.

A rough estimate of the speaker’s hard palate was ob-tained by instructing the subject to move the tongue tipback and forth along the roof of the mouth. In order toobtain an estimate of the distance between the lip sen-sors at the moment of lip contact the subjects were alsorecorded while opening and closing the lips.

2.2. Test material

Subjects first pronounced the test words tati, tapi, tita,tipa, tai, tappi, tia, tippa, tipta, tapti embedded in thecarrier sentence Mitä sana tarkoiaa? (“Whatdoes the word mean?”). Subjects read five blocksof these sentences in pseudorandom order, took a pause,then read five more blocks, then aer another pause readfive more blocks. us each sentence was read a total of15 times. We report here only on the words with intevo-calic /p/ (or /pp/ (tapi, tipa, tappi, tippa).

Aer this subjects pronounced sequences of four testwords (tipa tipa …, tapi tapi …, pati pati …, pita pita …)continuously for approximately ten seconds each, result-ing in approximately 30 cyclic repetitions for each word.

2.3. Measurements

Following Löfqvist & Gracco [14] wemade twomeasure-ments each for the test words in carrier sentences. A lipaperture curve was computed as the vertical distance be-tween lip sensors and the onset of the lip closing gesturewas taken defined as the point of zero aperture velocityprior to lip closure. Likewise a tongue body speed curvewas calculated from the horizontal and vertical compo-

Page 25: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

O’Dell et al.: Timing of intervocalic consonant gestures in Finnish 19

nents of the tongue body sensor and onset of the tonguebody gesture was defined as the point of minimum speedprior to the vowel transition. ese measurements are il-lustrated in Fig. 2 for test word tipa.

Unfortunately several of the test words for the firstsubject (TN) were not measurable because of interfer-ence due to sensor leads inadvertently coming too closeto the articulograph magnets. We were le with 6 mea-surable cases of tipa, 2 tapi, 6 tippa and 3 tappi for subjectTN. Two cases of tipa were not measurable for JV for thesame reason.

3. Results

3.1. Sentences

Results for the test words in carrier sentences are shownin Fig. 3. Each dot indicates the measured tongue bodylag (tongue body onset time minus lip onset time) fora single test word token. e vertical lines indicate themean lags for subject JV. Means are not shown for subjectTN because of sparse data, nonetheless the two subjectsdo show remarkable agreement. As expected, tongue lagis greater (on average) for tapi compared to tipa as wellas tappi compared to tippa. It also appears that the gem-inate stops in both cases have a greater lag (on average)compared to the corresponding singleton stop. esedifferences are highly significant statistically, althoughthere is considerable overlap in the distributions.²

3.2. Cyclic repetitions

Phase portraits of the cyclic repetitions for each subjectfor all conditions are shown in Fig. 4. ese figures plotlip aperture on the y-axis (open at top, closed at boom,with horizontal line showing estimated point of lip con-tact) against tongue body movement on the x-axis ([ɑ]towards the le, [i] towards the right). Tongue body po-sition has been reduced to a single dimension by project-ing the tongue body sensor coordinates onto the princi-pal axis of movement (both speakers exhibited very lin-ear movement between [ɑ] and [i] positions).

e main point to notice here is that the cycles for/ipa/ (le column in Fig. 4) are not mirror images of thecorresponding /api/ cycles (right column in Fig. 4) withrespect to the lip closing gestures, shown with red ar-rows in the figure. In the /ipa/ cycles the tongue body isalready moving from [i] towards [ɑ] (lewards in Fig. 4)well before lip closure (red arrow slanting le), whereasin the /api/ cycles the tongue body starts to move from[ɑ] toward [i] (rightwards in Fig. 4) much later, oen notuntil closure has been achieved.

²Mean lags (ms, subject JV only): tipa 20.6, tapi 33.7. tippa 36.4, tappi65.7. ANOVA (subject JV): vowel effect ([i…A] vs. [A…i]) F (1, 54) =17.2225, p = 0.00012, quantity effect F (1, 54) = 20.5636, p =0.00003, interaction F (1, 54) = 2.42652, n.s.

4. Summary

Our research has confirmed one prediction of Embod-ied Task Dynamics, at least for two Finnish speakers:Tongue bodymovement (vowel transition) does start lateron average for /a/→ /i/ than for /i/ → /a/ in relation tolip onset for intervocalic /p/. Besides providing furthersupport for the model, this is interesting in and of itselfas an extention to Finnish of the phenomenon reportedby Löfqvist and Gracco for English [14].

An additional question which came up as a result ofthe investigation is the relation of the Finnish quantityopposition to interarticulator phasing—for our speakerstongue lag was greater for geminates compared to sin-gletons. Whether or not this can also be explained interms of efficiency is something we hope to pursue fur-ther in our continuing research. Also the effects of hypervs. hypo speech and fast vs. slow speaking rate, both ofwhich are modeled in the Embodied Task Dynamic ap-proach, are questions we hope to address in the future.

5. References[1] C. P. Browman and L. Goldstein, “Some notes on syllable

structure in Articulatory Phonology.” Phonetica, vol. 45,no. 2–4, pp. 140–155, 1988.

[2] ——, “Articulatory gestures as phonological units,”Phonology, vol. 6, pp. 151–206, 1989.

[3] E. L. Saltzman and J. A. S. Kelso, “Skilled actions: A task-dynamic approach,” Psyological Review, vol. 94, no. 4, pp.84–106, 1987.

[4] E. L. Saltzman and K. G. Munhall, “A dynamical approachto gestural paerning in speech production,” EcologicalPsyology, vol. 1, no. 4, pp. 333– 382, 1989.

[5] C. P. Browman and L. Goldstein, “Tiers in articulatoryphonology, with some implications for casual speech,” inPapers in Laboratory Phonology I: Between the Grammarand Physics of Spee, J. Kingston and M. E. Beckman,Eds. Cambridge University Press, Cambridge, 1990, pp.341–376.

[6] D. Byrd and E. Saltzman, “Intragestural dynamics of mul-tiple prosodic boundaries,” Journal of Phonetics, vol. 26,pp. 173–199, 1998.

[7] C. P. Browman and L. Goldstein, “Competing constraintson intergestural coordination and self-organization ofphonological structures,” Bulletin de la CommunicationParlée, vol. 5, pp. 25–34, 2000.

[8] E. Saltzman, H. Nam, J. Krivokapić, and L. Goldstein, “Atask-dynamic toolkit for modeling the effects of prosodicstructure on articulation,” in Spee Prosody 2008: FourthConference on Spee Prosody, Campinas, Brazil, P. A. Bar-bosa, S. Madureira, and C. Reis, Eds., 2008, pp. 175–184.

[9] J. Simko and F. Cummins, “Embodied Task Dynamics,”Psyological Review, in press, 2010.

[10] B. Lindblom, “Economy of speech gestures,” ineProduc-tion of Spee, P. F. MacNeilage, Ed. New York: Springer-Verlag, 1983.

Page 26: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

O’Dell et al.: Timing of intervocalic consonant gestures in Finnish 20

125.0 125.5 126.0

10

20

30

40

50

tipa

Lip aperture

Tongue body horizontal

Tongue body vertical

Tongue body speed

Lip onset =

zero lip aperture velocity

Tongue onset =

minimum tongue body speed

Figure 2: Measurements (cf. Löfqvist & Gracco 1999).

tipa

tapi

tippa

tappi

-20

-20

0

0

20

20

40

40

60

60

80

80

100

100

120

120

TN

JV

Figure 3: Tongue body lag (ms) for sentences.

[11] ——, “Explaining phonetic variation: A sketch of the H& H theory,” in Spee Production and Spee Modelling,W. J. Hardcastle and A. Marchal, Eds. Kluwer AcademicPublishers, 1990, pp. 403–439.

[12] ——, “Emergent phonology,” in Proc. 25th Annual Meetingof the Berkeley Linguistics Society, U. California, Berkeley,1999.

[13] J. Simko, “e embodied modelling of gestural sequencingin speech,” Univerity College Dublin, Tech. Rep., 2009.

[14] A. Löfqvist and V. L. Gracco, “Interarticulator program-ming in VCV sequences: Lip and tongue movements,”Journal of the Acoustical Society of America, vol. 105, no. 3,pp. 1864–1876, 1999.

Page 27: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

O’Dell et al.: Timing of intervocalic consonant gestures in Finnish 21

Subject TNtipa tipa tipa … tapi tapi tapi …

..

-30 -25 -20 -15

-5

0

5

10

p

a i

.

ɑ

.

i

.p

..

-30 -25 -20 -15

-5

0

5

10

p

a i

.

ɑ

.

i

.p

pati pati pati … pita pita pita …

..

-30 -25 -20 -15

-5

0

5

10

p

a i

.

ɑ

.

i

.p

..

-30 -25 -20 -15

-5

0

5

10

p

a i

.

ɑ

.

i

.p

Subject JVtipa tipa tipa … tapi tapi tapi …

..

-30 -25 -20 -15 -10

-4

-2

0

2

4

6

8

10

p

a i

.

ɑ

.

i

.p

..

-30 -25 -20 -15 -10

-4

-2

0

2

4

6

8

10

p

a i

.

ɑ

.

i

.p

pati pati pati … pita pita pita …

..

-30 -25 -20 -15 -10

-4

-2

0

2

4

6

8

10

p

a i

.

ɑ

.

i

.p

..

-30 -25 -20 -15 -10

-4

-2

0

2

4

6

8

10

p

a i

.

ɑ

.

i

.p

Figure 4: Repetitions, tongue body movement (x-axis) vs. lip aperture (y-axis)

Page 28: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

S. Werner, T. Kinnunen (toim.), XXVI Fonetiikan päivät 2010, UEF 2011, s. 22–26ISBN 978-952-61-0391-4 (PDF). http://epublications.uef.fi/© by the authors

Identification of the Finnish vowels [e:], [i:], [y:] and [ø:] in noise

Osmo Eerola1,2, Jyrki Tuomainen2,3,4

1Department of Biomedical Engineering, Tampere University of Technology, Tampere2Centre for Cognitive Neuroscience, University of Turku, Turku3Department of Logopedics, Åbo Akademi University, Turku

4Research Department of Speech, Hearing and Phonetic Sciences, [email protected], [email protected]

Abstract

Listeners identified 46 variants of synthesized Finnish /e:/,/i:/, /y:/, and /ø:/ vowels in the presence of pink noise at-9, -6, -3, and 0 dB SNR, and without noise. ey fur-ther evaluated the goodness of the variants in the non-masking condition on scale 1–7. e identification of thehighest scoring variants (prototypes) was comparedwiththe lowest scoring variants (non-prototypes) of the samevowel category. Prototypes were identified in noise sig-nificantly beer than non-prototypes, and identificationrate was >90% even at the -3 dB SNR. Differences be-tween vowels as a function of prototypicality and SNRwere also found.

1. Introduction

Perceptual phoneme prototypes are defined as the bestexemplars of a given phoneme category and they are pro-posed to act as templates, or internal anchors, affectingthe recognition of spoken uerances. Since the concep-tion of phoneme prototypes, a plethora of research re-ports has been published on their relation to phoneticcategorization and discrimination of phonetic variantsclose to a category boundary and within the category [1-3]. Less is known, however, about the impact of theseprototypes on perception in the more or less noisy ev-eryday listening conditions.

is raises the question whether perceptual proto-types are rather an experimental phenomenon which isonly found in ideal laboratory conditions, or if they actu-ally play a crucial role in the speech recognition throughprototypical vowels acting as perceptual templates, therebyaiding speech perception in noisy environments. eaim of the present experiment was to test the hypothesisthat prototypical vowels are recognized more accuratelyin noise than the non-prototypical instances of the samevowel category.

2. Materials and methods

2.1. Stimuli

Forty-six (46) vowel variants were synthesized using theKla serial mode speech synthesizer [4] to represent thelong Finnish /e:/, /i:/, /y:/, and /ø:/ vowels with a dura-tion of 250 ms. For each category, a central vowel wasfirst selected, based on the earlier reported typical F1,F2, and F3 formant values of the relevant vowels occur-ring in Finnish spoken words [5, 6]. Nine vowel variantsin the earlier reported typical F1–F2 variability areas [7]were then synthesized around each of the central vow-els, to form a continuum for the vowel pairs /i:/ - /y:/, /i:/- /e:/, /i:/ - /ø:/, /y:/ - /e:/, /y:/ - /ø:/, and /ø:/ - /e:/. Sincenatural sounding synthesis results are important in thegoodness evaluation, four different sets of F3–F5 valueswere used for the 46 variants. e F1–F6 values used inthe synthesis of the 40 vowel variants are presented inTable 1. Six more variants were synthesized to cover thecategory boundary areas between the four vowels. eF1 values of these six variants varied from 350 Hz to 400Hz, and F2 from 1950 Hz to 2040 Hz, while the rest ofthe formants had fixed values as follows: F3=2800 Hz,F4=3300 Hz, F5=3850 Hz, and F6=4900 Hz. e f0 contourrose from 112 Hz to 122 Hz during the first 50ms and thendecreased to 102 Hz until the end of the 250 ms stimulus.A linear window of 10 ms was used at the beginning andend of the stimulus in order to prevent audible clicks.

Table 1: Formant F1–F6 frequency ranges of the vow-els.

Pink noise was selected because of its good speechmasking properties [8, 9]. e noise mask used in the ex-periment was of one second of duration and had a spec-tral envelope as presented in Figure 1. is noise is “speechnoise” in the sense that its spectral envelope follows thespectral properties of speech signals: peak intensity inthe f0–F1 range and even roll-out of 6 dB/octave at thehigher frequencies of F1–F5 formants. e vowel stim-uli and noise masks were combined using the Praat so-ware (hp://www.fon.hum.uva.nl/praat/) with the vowelstimuli occurring in the beginning of the 1 s noise burst.

Page 29: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

Eerola & Tuomainen: Identification of the Finnish vowels [e:], [i:], [y:] and [ø:] in noise 23

/e:/ (Hz) /i:/ (Hz) /y:/ (Hz) /ø:/ (Hz)F1 370–475 285-335 255-340 375-480

F21980-2500

2170-2800

1500-2040

1450-1920

F32800,3300

2980,3300

2400 2400

F43300,4000

3300,4000

3000 3000

F53850,4500

3850,4500

3500 3500

F6 4900 4900 4900 4900

Figure 1: e spectral envelopes of the pink masking noiseand the /i:/ vowel (stimulus variant /i:/6) used in the exper-iment. Frequency resolution: one bar = 100 Hz.

e sound intensity level of the vowels was set at 74dB, and the noise intensity levels were set at 83 dB, 80dB, 77 dB, and 74 dB. e signal-to-noise ratios (SNRs)of the four different masking conditions were thus 0 dB(SNR=1), -3 dB, -6 dB, and -9 dB for the 77 dB, 80 dB, and83 dB noise levels, respectively. e power spectra of thefour signal-in-noise conditions are presented in Figure 2.

e stimuli were presented in an acoustically damp-ened room (27 dBA Sound Pressure Level, SPL) via SennheiserPC161 headphones which were calibrated in the begin-ning of each session by Brüel & Kjaer Type 2235 SPL me-ter to deliver 83 +/- 0.5 dBA SPL at the highest-intensitynoise mask.

2.2. Subjects

Eight normally hearing young adults aged 17-31 and speak-ing the modern educated Finnish of South-West Finlandvolunteered as subjects (fivemale, three female). All sub-jects were audiologically screened for hearing impair-ments.

Figure 2: e power spectra of a stimulus signal (/i:/6 vowelvariant, 74 dBSPL) embedded in pink masking noise at83 dBSPL, 80 dBSPL, 77 dBSPL, and 74 dBSPL. Signal-to-noise ratios (SNR) are given for ea masking noise level.e F2 and F3 peaks are visible at SNR = 0 dB and SNR =-3 dB.

2.3. Procedure

e EMFC tool of Praat was used for stimulus deliveryand data collection. e stimuli were presented in 10blocks of 46 stimuli, each variant occurring 10 times inrandom order. Next stimulus was presented once thesubject had classified the previous one as belonging toone of the four categories /e:/, /i:/, /y:/, or /ø:/. e sub-jects had also the option of selecting “other vowel” or“unclear” if they were not sure about the category or didnot hear any vowel. Aer each block, the subject wasallowed to take a short break. e test started with atraining block consisting of 30 vowels. e experimentalblocks were then run in the same order for each subject,that is, masked by pink noise at 83 dB, 80 dB, 77 dB, and74 dB (SPL). If the subject was not able to recognize anyvowels at the 83 dB noise, the test was discontinued andresumed at the 80 dB level. By starting with the low-est SNR, it was possible to avoid such learning effectsthat might have occurred if the different masks were pre-sented in random order.

In the last test, the subjects first identified the vowelsand then rated the goodness of each vowel stimuluswith-out a noise mask. A rating scale of 1–7 was employed.e highest score (7) represented a natural sounding, goodexemplar of the relevant vowel category, whereas thelowest score (1) represented a poor exemplar. If the sub-ject could not categorize the stimulus as any vowel at all,then he or shewas instructed to use a null goodness score(0). e stimuli were presented in the same manner as inthe masking tests.

Page 30: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

Eerola & Tuomainen: Identification of the Finnish vowels [e:], [i:], [y:] and [ø:] in noise 24

2.4. Analysis

For each subject, the identifications of the 46 stimulusvariants were counted in the non-masking and in the dif-ferent masking conditions. is resulted in a categoriza-tion rate (%) for each stimulus. e number of “unclear”responses was counted for each stimulus, to be used as ageneral measure of difficulty in categorization.

For those stimuli that were classified as belonging toone and the same category in the non-masking conditionat a rate of >80%, a mean goodness score and standarddeviation values were calculated. e stimulus with thehighest score was denoted as the prototype (P) and theone with the poorest score as a non-prototype (NP). Ifseveral stimuli had the same mean goodness value, theone with the smallest standard deviation was selected asP. e significance of difference of the P and NP good-ness values was tested by using the two-tailed t-test withunequal variances. e non-prototype was primarily se-lected from the stimuli with 100% classification to thesame category, but if the difference was not significant(p>0.05), stimuli with a lower identification percentage(80-90%) were used instead. e mean identification val-ueswere first subjected to an omnibus three-way repeated-measures Analysis of Variance (ANOVA) (Vowel: /e/, /i/,/y/, /ø/; Noise level: 80 dB, 77 dB, 74 dB; Prototypicality:prototype, non-prototype). Significant main effects andinteraction were followed up using either t-tests or sim-pler repeated-measures ANOVAs. Greenhouse-Geissercorrectionwas usedwhen the sphericity assumptionwasnot met. e identification rate of the prototypical vari-ant without mask was used as the reference base.

3. Results

In the 83dB condition, only one subject appeared ini-tially to identify vowels, but further analysis showed thatthe identification was rather by chance, and all of theother subjects, reported to hear nothing but noise. Ac-cordingly, the 83 dB condition was abandoned, and 80dB was used instead as the first masking condition. eoverall identification paern over prototypes and non-prototypes of all vowels, at different noise levels andwith-out noise, is presented in Figure 3. At the 74 dB masklevel (SNR=0 dB) hardly any deterioration in the identi-fication of prototypical vowels is present, and at 77 dBnoise level (SNR = -3 dB) the prototypes are still identi-fied as belonging to the same category at a rate of >90%,whereas for non-prototypes the consistency of catego-rization is clearly diminished (89% at 74 dB and 72% at77 dB), as compared to the non-masking situation. einability to make the categorization at all, as reflected bythe share of “unclear” responses of all responses, was 1%for the non-masking condition and 1.6%, 3.0%, and 19.2%for the 80 dB, 77 dB, and 74 dB mask conditions, respec-tively.

Figure 3: Identification rates (%) of vowel prototypes (P)and non-prototypes (NP) in three masking noise conditions(80 dBSPL, 77 dBSPL, and 74 dBSPL), and without a noisemask. Summary of results of eight subjects and all fourvowels grouped together.

Statistical analysis using an ANOVA showed a maineffect of Noise level (F(2,14)=65.995, p<.001, ηp2=0.904,74 dB, M=9.3; 77 dB, M=8.1; 80 dB, M=4.8; all compar-isons significant at p< .009) indicating a poorer identifi-cation performance at higher noise levels. Furthermore,the main effect of Prototypicality was also significant(F(3,21)=3.601, p<.03, ηp2=0.340) which was due to thehigher identification rates for prototypical (M=8.2) thanfor non-prototypical vowels (M=6.6). Interestingly, theinteractions between Vowel type and Noise level, or Pro-totypicality and Noise level were not significant (F<1.5in both cases), suggesting that pink noise reduced theidentification accuracy in a similar way regardless of thevowel type or whether the vowel was regarded as proto-typical or non-prototypical in the non-mask condition.Finally, and most importantly, a three-way interactionbetweenVowel type, Noise level, and Prototypicalitywassignificant (F(6,42)=3.510, p<.007, ηp2=0.334). is wasfollowed up by a two-way repeated-measures ANOVAseparately for prototypical and non-prototypical stimuliwith Vowel type and Noise level as within-subject fac-tors.

e results showed that the noise reduced the identi-fication accuracy of the prototypical vowels to a greaterextent at the medium (77 dB) and highest (80 dB) noiselevels (/i:/ and /y:/ were affected more than /e:/ and /ø:/)whereas no difference was observed between the vowelsat the lowest (74 dB) level (Figure 4). An opposite pat-tern was observed with non-prototypical vowels wherelarge variation was seen in the identification accuracybetween the vowels at the lowest and medium noise lev-els (/i:/ and /y:/ were again affected more than /e:/ and/ø:/), but no differenceswere observed at the highest level(Figure 5).

Page 31: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

Eerola & Tuomainen: Identification of the Finnish vowels [e:], [i:], [y:] and [ø:] in noise 25

Figure 4: Identification rates (%) for the prototypical /e:/,/ø:/, /i: /, and /y:/) vowels in three masking noise conditionsat 74 dBSPL, 77 dBSPL, and 80 dBSPL.

Figure 5: Identification rates (%) for the non-prototypical/e:/, /ø:/, /i:/, and /y:/ vowels in three masking noise condi-tions at 74 dBSPL, 77 dBSPL, and 80 dBSPL.

4. DiscussionAs regards the selection of Ps and NPs for a particularvowel category, it is worth pointing out that the good-ness rating of prototypes (5.9) and non-prototypes (4.0)was statistically significantly different (p<0.05) for all sub-jects (except Subject 2 for /i:/), and they were identified>80% as belonging to the relevant category in the non-masking condition. e rather highmean goodness scoreof all NPs indicates that although they are, on average,regarded as rather good exemplars of each particular cat-egory, they are more difficult to detect in noise than theprototypes are. e quality of the non-masked stimuliwas by most subjects commented as quite natural, witha few exceptions that sounded more synthetic. Addi-tionally, at the lowest signal-to-noise ratio (-6 dB), thesubjects reported that the stimuli were hardly hearable,whereas at the 0 dB SNR most subjects told they wereable to hear quality differences in the stimuli within aparticular category.

e results also showed large individual variation inthe categorization of the stimuli on the continua betweenthe vowel pairs /i:/ - /y:/, /i:/ - /e:/, /i:/ - /ø:/, /y:/ - /e:/,

/y:/ - /ø:/, and /ø:/ - /e:/. is is in line with our earlierfindings [6, 10]. e category boundaries appear to bespecific to individuals and may even change in differentmasking conditions. For example, Subject 7 identified thevariant /y:/6 (F1=255 Hz, F2=1900 Hz, F3 2400 Hz) at a rateof 100% as /y:/ with 74 dB mask and without mask, 40%as /i:/ and 60% as /y:/ with 77 dB mask, and 80% as /i:/with 80 dB mask. Similarly, Subject 5 identified the vari-ant /e:/6 (F1=420 Hz, F2=2500 Hz, F3=3300 Hz) 100% as/e:/ with 74 dB mask and without mask, 100% as /ø:/ with77 dB mask, and 10% as /e:/, 50% as /i:/, and 30% as /ø:/(10% unclear) with 80 dBmask. Only six responses (out of3680) indicated that the subjects had regarded the stimulias belonging to other Finnish vowel categories (/u/, /o/,/a/, /ae/) than those under study, which may be partiallyexplained by the instruction to use the given four cate-gories, but also indicates that the formant space appliedin the synthesis is representative for the relevant vowels.e subjects appeared to learn, or adapt to, the stimuliduring the first or second block of 46 stimuli in the 80dB masking condition. is is indicated by the rapid de-crease of “unclear” answers aer 30–80 stimuli had beenpresented. Typically, the share of “unclear” answers de-creased from 50–100% for the first block to 20–50% in thesecond block, and further to 5–20% in the remaining 8blocks.

Since none of the subjects was able to hear the stimuliat -9 dB SNR and most of them started to identify vowelsabove a chance level at -6 dB SNR, one can conclude thata detection level for categorical differences lies some-where between -6 and -9 dB SNR at around 80 dBA SPL.Liu and Kewley-Port have studied the formant discrim-ination of American English vowels under two types ofnoise, long-term speech-shaped noise (LTSS) and multi-talker babble noise [8]. e spectral properties of theLTSS are very similar to the noise used in our study.ey found that for LTSS the discrimination thresholdsof F1 and F2 formant frequencies were elevated by a fac-tor of three at the lowest SNR of -2 dB and -4 dB, as com-pared to the non-masking condition, when the thresh-old was approximately 0.2 barks [11]. ey further re-ported that since the Euclidean distance of 0.56 barksin the F1xF2 space is the average of formant distancesbetween the closest vowels pairs of American English,the disability to discriminate differences around the ele-vated thresholds (0.6 barks) makes the vowel identifica-tion vague in the presence of noise. In our study, theclosest distance between category centers (the centralvowel /y:/6 , F1=300 Hz, F2=1865 Hz, and /ø:/6, F1=450Hz, F2=1740 Hz) was 1.51 barks, which is well above thethresholds. However, the smallest distance between twovariants within a category, /y:/6 and /y:/3 (F1=320 Hz,F2=1850 Hz), was only 0.21 barks, which equals the abovereported threshold in non-masking condition. Accordingto the statistical analyses, the mean goodness scores (5.4

Page 32: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

Eerola & Tuomainen: Identification of the Finnish vowels [e:], [i:], [y:] and [ø:] in noise 26

and 5.05) for this minimum-distance pair were not signif-icant in our study. However, a closer inspection of theresults showed that two subjects were able to rate thegoodness of these two minimum-distance stimuli signif-icantly differently (mean scores 5.0 and 5.9, p=0.03; and4.7 and 6.0, p= 0.04). is confirms the finding reportedby Liu and Kewley-Port that an Euclidean distance of0.2 bark can be discriminated and that such a differencecan be used in experimental design for evaluating vowelgoodness.

e results also showed that noise affected the iden-tification of high-front (/i:/ and /y:/) and mid-front (/e:/and /ø:/) vowels differently as a function of noise level.In essence, prototypical high-front vowels were affectedto a higher extent than mid-front vowels, especially inthe higher levels of noise. For non-prototypical vowels, adifferent paern was observed in that high-front vowelswere more difficult to identify than mid-front vowels atthe lower noise intensities. Assuming that formants arethe main acoustic cues that provide information aboutthe identity of the vowel category [12], we speculate thatthis could be due to the different local spectral paerns ofthese vowels: since pink noise is more effective in mask-ing the lower frequencies, the differences in F1 (see Table1) of the high-front and mid-front vowels may explain, atleast partially, the observed differences.

5. Conclusions

e results of our study indicate that prototypical exem-plars of a vowel category are more reliably identified innoise than non-prototypical ones. is expands the in-terpretation of prototypes also to more natural listeningconditions. e ability to hear minor goodness differ-ences between the same phoneme category exemplars,and the clear differences how well these exemplars fromthe same category are identified in the presence of noise,would suggest that the perceptual prototypes have a spe-cial role in the mechanism underlying perception.

6. References[1] J. L. Miller, C. M. Connine, T. M. Schermer and K. R. Klu-

ender, “A possible auditory basis for internal structure ofphonetic categories,” J. Acoust. Soc. Am., vol. 73, pp. 2124-2133, 1983.

[2] P. K. Kuhl, “Human adults and human infants show a “per-ceptual magnet effect” for prototypes of speech categories,monkeys do not,” P&P, vol. 50, pp. 93-107, 1991.

[3] P. Iverson and P. K. Kuhl, “Perceptual magnet and phonemeboundary effects in speech perception: Do they arise fromcommon mechanism?” P&P, vol. 62, pp. 874-886, 2000.

[4] D. H. Kla, “Soware for Cascade/Parallel Formant Syn-thesizer,” J. Acoust. Soc. Am., vol. 53, pp. 8-16, 1980.

[5] K. Wiik, “Finnish and English vowels,” Annales Universi-tatis Turkuensis, vol. Series B, 1965.

[6] O. Eerola, J. Laaksonen, J. Savela and O. Aaltonen, “Per-ception and production of the short and long Finnish [i]vowels: Individuals seem to have different perceptual andarticulatory templates,” in Proceedings of the 15th Interna-tional Congress of Phonetics Sciences, 2003.

[7] O. Aaltonen and J. Suonpää, “Computerized Two-DimensionalModel for Finnish Vowel Identifications,” Audiology, vol.22, pp. 410-415, 1983.

[8] C. Liu andD. Kewley-Port, “Formant discrimination in noisefor isolated vowels,” J. Acoust. Soc. Am., vol. 116, pp. 3119-3129, 2004.

[9] M.D. Rao and T. Letowski, “CallsignAcquisition Test (CAT):Speech Intelligibility in Noise,” Ear & Hearing, vol. 27, pp.120-128, 2006.

[10] O. Aaltonen, O. Eerola, Å. Hellström, E. Uusipaikka and H.A. Lang, “Perceptual magnet effect in the light of behav-ioral and psychophysiological data,” J. Acoust. Soc. Am.,vol. 101, pp. 1090-1103, 1997.

[11] H. Traunmüller, “Analytical expressions for the tonotopicsensory scale,” J. Acoust. Soc. Am., vol. 88, pp. 97-100,1990.

[12] D. H. Kla, (1982). “Prediction of perceived phonetic dis-tance from critical-bands spectra: A first step,” Proc. IEEEInt. Conf. Speech Acoust. Signal Process., pp. 1278-1281,1982.

Page 33: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

S. Werner, T. Kinnunen (toim.), XXVI Fonetiikan päivät 2010, UEF 2011, s. 27–28ISBN 978-952-61-0391-4 (PDF). http://epublications.uef.fi/© by the authors

Ohjaavatko prototyypit suomen vokaalien tunnistamista ja tuottamista?

Osmo Eerola1, Jyrki Tuomainen2

1 Biolääketieteen tekniikan laitos, Tampereen teknillinen yliopisto2 Logopedian oppiaine, Åbo Akademi

[email protected]

1. Johdanto

Prototyypillä tarkoitetaan tietyn käsiteluokan tyypilli-sintä edustajaa. Puheen havaitsemisessa vokaaliprototyy-peillä arvellaan olevan merkitystä äänteiden tunnistuk-sessa [1]. Prototyypit opitaan automaaisesti aistialtis-tuksen kaua. Äidinkielen tuoton opeelu tapahtuu jo-keltelemalla, kun pikkulapsi harjoielee puhea yrit-tämällä tuoaa kuulemansa. Mielenkiintoinen kysymyskuuluukin, vaikuavatko kielen omaksumisessa muo-dostuvat havaintoprototyypit myös puheen tuooon.Aiempien tutkimustemme [2] mukaan näin ei olisi mut-ta silloin vertailu rajoiui /i/-vokaaliin ja muuujana oliyksinomaan F2-formanitaajuus.

Tässä tutkimuksessa vertaillaan suomen kielen pit-kien vokaalien /e:/, /i:/, /y:/ ja /ø:/ havaitsemista ja tuot-toa seitsemällä koehenkilöllä F1- ja F2-formanien suh-teen.

2. Koehenkilöt ja menetelmät

Kirjallisuuden perusteella kunkin tutkiavan vokaaliluo-kan kategoriakeskiöön valiiin tyypillinen kyseistä vo-kaalia edustava äänne [3-4]. Keskiön läheisyyteen ja vo-kaaliparien /i:/–/y:/, /i:/–/e:/, /i:/–/ø:/, /y:/–/e:/, /y:/–/ø:/ja /ø:/–/e:/ väliin syntetisoitiin yhteensä 46 erilaista ään-neä, joiden kesto oli 250 ms ja joiden psykoakustinenero mel-asteikolla F1–F2-formanitasossa pideiin mah-dollisimman vakiona.

Vokaaliäänteet esiteiin kalibroiduilla kuulokkeillaakustisesti vaimennetussa huoneessa 74 dBA:n äänen-painetasolla vapaaehtoisille koehenkilöille satunnaises-sa järjestyksessä siten, eä kukin äänne toistui 10 kertaa.Koehenkilöistä (N=8) kolme oli naisia (S1, S5 ja S7) ja viisimiehiä. Kategorisointikokeessa koehenkilöiden tehtävä-nä oli tunnistaa esitetyt äänteet johonkin mainituista vo-kaaliluokista tai jäää ne luokielemaa. Lopuksi koe-henkilöt arvioivat äänteiden laatua asteikolla 1–7. Kussa-kin vokaaliluokassa prototyypiksi nimeiin parhaan laa-tuarvion saanut äänne.

Tuookokeessa samat henkilöt (N=7, yksi koehenki-lö ei osallistunut tuookokeeseen) lausuivat mikrofoniinvokaalit /e:/, /i:/, /y:/ ja /ø:/ sanoihin tiili ja tyyli sekä epä-sanoihin teeli ja tööli upoteuina. Kukin äänne lausuiin

viisi kertaa peräkkäin. Tallenteista eroteiin pitkät vo-kaalit ja niistä laskeiin F1- ja F2-formanien keskiarvotja hajonnat kullekin vokaaliluokalle Praat-ohjelmalla.

3. Tulokset ja niiden tarkastelu

Kuten kuvasta 1 näkyy, ainoastaan /ø:/-vokaalin kohdal-la prototyypin F1–F2-keskiarvot (punainen) osuvat lähessamaan kuin tuotetun vokaalin keskiarvot (musta), jot-ka vastaavat varsin hyvin kirjallisuuden perusteella va-liuja kategoriakeskiöitä (vihreä). Yksilötasolla koehen-kilöiden oman prototyypin ja oman tuoton euklidistenetäisyyksien (d) keskiarvon minimi osuu /y:/-vokaaliin(Taulukko I). Keskiarvo on merkitsevästi (t-testi: p<0.01)pienempi kuin /i:/ ja /e:/-vokaalilla. Myös yksilövariaatioon huomaavaa: eri vokaaleilla tuoton ja havaintoproto-tyypin etäisyyden keskiarvo on 109 mel koehenkilöllä S1ja 463 mel koehenkilöllä S5. Keskivokaaleilla /y:/ (d=128mel) ja /ø:/ (d=195 mel) keskiarvo on pienempi kuin etu-vokaaleilla /i:/ (d=431 mel) ja /e:/ (d=303 mel). Tämä erovokaalien välillä on huomaava koehenkilöillä S3 ja S4.

Kaikkien tuoteujen vokaalien etäisyyksien keskiar-vo prototyypeistä on 264 mel (Taulukko I). Kategorioit-tain tarkasteltuna (Kuva 2) prototyyppiparien etäisyyk-sien keskiarvo on 255 mel ja tuoteujen vokaaliparienvastaavasti 185 mel. Tämän perusteella siis tuotetut vo-kaalit eroavat psykoakustisella mel-asteikolla yksilölli-sistä prototyypeistä hieman enemmän (10 mel) kuin erikategorioihin kuuluvien prototyyppien keskimääräinenetäisyys toisistaan ja huomaavasti enemmän (80 mel)kuin tuoteujen vokaalien keskimääräinen etäisyys toi-sistaan.

Saatu tulos on aiemman tutkimuksemme [2] mu-kainen eikä siis tue oleamusta, eä havaintoprototyy-pit sellaisenaan ohjaisivat artikulaatiota. Kuvan 1 perus-teella havaintoprototyypit ja tuotetut vokaalit sijoiu-vat kuitenkin hieman samankaltaiseksi ryppääksi F1–F2-avaruudessa. Voidaan spekuloida, eä esimerkiksi luu-johtokuuluminen [5] seliäisi saatuja eroja: havainto-prototyypit muodostuvat ilmajohtumisen kaua, mut-ta artikulaation auditiivinen takaisinkytkentä tapahtuuilma- ja luujohtumisen kaua.

Page 34: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

Eerola & Tuomainen: Ohjaavatko prototyypit suomen vokaalien tunnistamista ja tuottamista? 28

Kuva 1: Yhteenveto havainto- ja tuookokeen tuloksis-ta formaniavaruudessa F1–F2 (mel-asteikko, Hz-arvotapuviivoin). Havaintokokeessa esitetyt vokaalivariantit onmerkiy sinisellä (kategoriakeskiöt vihreällä), havainto-prototyypit punaisella ja tuookokeen keskiarvot mustallapallolla.

Taulukko 1: Koehenkilöiden havaintoprototyyppien jatuoteujen vokaalien euklidiset etäisyydet (d) F1–F2-formaniavaruudessa (mel-asteikko).

/i:/ /y:/ /e:/ /ø:/ keskiarvoS1 78 138 191 30 109S2 275 316 225 257 268S3 708 56 381 38 296S4 531 56 337 84 252S5 679 140 419 613 463S6 507 123 428 172 308S7 239 67 141 170 154

keskiarvo 431 128 303 195 264keskihajonta 238 91 116 202

Kuva 2: Havaintoprototyyppien (N=8, punaisella) ja tuo-teujen vokaaliparien (N=7, mustalla) euklidisten etäi-syyksien (d) keskiarvot (mel-asteikko).

4. Lähteet[1] J. L. Miller, C. M. Connine, T. M. Schermer and K. R.

Kluender, ”A possible auditory basis for internal structu-re of phonetic categories,” J. Acoust. Soc. Am., vol. 73, pp.2124–2133, 1983.

[2] O. Eerola, J. Laaksonen, J. Savela and O. Aaltonen, ”Percep-tion and production of the short and long Finnish [i]vowels: Individuals seem to have different perceptual andarticulatory templates,” in Proceedings of the 15th Interna-tional Congress of Phonetics Sciences, Barcelona, 2003.

[3] K. Wiik, ”Finnish and English vowels,” Annales Universita-tis Turkuensis, Series B, 1965.

[4] O. Aaltonen and J. Suonpää, ”Computerized Two-Dimensi-onal Model for Finnish Vowel Identifications,” Audiology,vol. 22, pp. 410-415, 1983.

[5] S. Reinfeldt, P. Östli, B. Håkansson and S. Stenfelt, ”Hea-ring one’s own voice during phoneme vocalization - trans-mission by air and bone conduction,” J. Acoust. Soc. Am.,submied.

Page 35: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

S. Werner, T. Kinnunen (toim.), XXVI Fonetiikan päivät 2010, UEF 2011, s. 29–32ISBN 978-952-61-0391-4 (PDF). http://epublications.uef.fi/© by the authors

Vokaalien havaitseminen kaksikielisillä ja vieraan kielen oppijoilla

Maija S. Peltola1,2, Henna Tamminen1,2, Laura Salonen1,2, Risto Näätänen3,4,5

1Fonetiikka, Turun yliopisto2Kognitiivisen neurotieteen tutkimuskeskus, Turun yliopisto

3Psykologian laitos, Kognitiivisen aivotutkimuksen keskus, Helsingin yliopisto4Centre of Functionally Integrative Neuroscience, University of Århus, Denmark

5Department of Psychology, University of Tartu, Estonia{maija.peltola|henna.tamminen|lemsal}@utu.fi, [email protected]

Tiivistelmä

Monissa tutkimuksissa syntyperäiset kaksikieliset ja vie-raan kielen oppijat rinnastetaan toisiinsa, vaikka oppi-mistaustan lisäksi kielitaidossa ja kielten prosessoinnis-sa voi olla suuriakin eroja. Tässä tutkimuksessa selvi-teiin tasapainoisten kaksikielisten ja luokkahuonees-sa vieraan kielen taitonsa oppineiden kielen käyäjienvokaalien havaitsemista kahdessa eri kielellisessä ym-päristössä, jolloin tarkoituksena oli paljastaa mahdolli-set erot kielten järjestäytymisessä suhteessa oppimis-taustaan. Identifikaatiokokeiden tulokset osoiavat, eäoppijoilla uuden kielen äännejärjestelmä ei vaikuta äi-dinkielen äänteiden havaitsemiseen, mua syntyperäi-sillä kaksikielisillä molemmilla äidinkielillä on vaikutuk-sia äänteiden tunnistamiseen. Tätä tulosta tukevat myössuoriamamme herätevastemiaukset. Näiden tulostenperusteella vaikuaakin siltä, eä tasapainoiset kaksikie-liset eivät pidä äidinkieliään erillisinä järjestelminä, kuntaas kielen oppijoille muodostuu kaksi erillistä kielellistäsysteemiä.

1. Johdanto

Suomalaisessa kuluurissa kaksikielisyyden määritelmäon melko selkeä ja termillä viitataankin yleensä sellai-siin puhujiin, joiden vanhemmat ovat kotikielinään käyt-täneet kahta eri kieltä, usein suomea ja ruotsia. Tätätaustaa vasten onkin oltava erityisen huolellinen, kuntarkastellaan kansainvälistä kaksikielisyyskirjallisuua.Kansainvälisessä kaksikielisyystutkimuksessa on julkais-tu tuloksia, joissa kaksikielisyyden määritelmät ovat vä-hintäänkin kirjavia: Joissakin tapauksissa kaksikielisiksiluokitellut kielenkäyäjät ovat syntyperältään kaksikie-lisiä, mua yhtälailla kaksikielisiksi voidaan kutsua vie-rasta kieltä vasta melko vähän opiskelleita vieraan kie-len oppijoita. Kun oteaan lisäksi huomioon käyteävis-sä olevien tutkimusmenetelmien kirjo, ei olekaan yllää-vää, eä käsitykset kaksikielisten puheenhavaitsemises-ta ovat ristiriitaisia.

Kaksikielisten puheenhavaitsemistutkimuksissa onviime vuosikymmeninä keskityy selviämään proses-soinnin neuraalista organisaatiota. Chee et al. [1] osoit-tivat, eä kahden kielen neuraalisten edustumien sijain-ti on sama silloin, kun oppiminen on alkanut nuorel-la iällä. Ristiriitaiseksi tilanteen tekee se, eä Klein etal. [2] osoiivat edustumien olevan lokaalisuudeltaanidenisiä myös myöhäisessä vieraalle kielelle altistumi-sessa, mua Perani et al. [3] päätyivät päinvastaiseen, sil-lä heidän tutkimuksessaan myöhäinen kielenoppiminenjohti erillisiin lokalisaatioihin. Kielelle altistumisiän li-säksi tutkimuksissa on keskityy erilaisten oppimistaus-tojen neuraalisiin vaikutuksiin: maahanmuuajilla kie-let näyävät olevan toiminnallisesti eroamaomat [4],kun taas luokkahuoneoppiminen johtaisi erillisten neu-raalisten järjestelmien syntymiseen [5]. Neuraalisen pro-sessoinnin näkökulmasta on siis melko vaikeata päätellä,miten kaksi kieltä on edusteuina erilaisten kaksikielis-ten aivoissa.

Kaksikielisyyden määrielyn ongelmiin ei liene sel-keää ratkaisua, mua yhtenä mahdollisuutena olisi huo-mioida oppimistausta ja jakaa kaksikieliset balansoitu-neisiin ja dominaneihin kaksikielisiin [6]. Edelliselläviitataan tilanteeseen, jossa molemmat kielet on opiutasapainoisesti, eli lapsuudesta lähtien, kun taas jälkim-mäisessä on kyseessä myöhemmin opiu kaksikielisyys.Termipari huomioi myös kielellisen kompetenssin erot,joiden oletetaan olevan olemaomat balansoituneillakaksikielisillä, mua huomaavatkin dominanteilla kak-sikielisillä. Dominanien kaksikielisten yhtenä alalajinapidetään vieraan kielen oppijoita, joita ei tällöin tulisikutsua kaksikielisiksi. Lisäksi tässä määritelmässä ote-taan voimakkaasti kantaa sen puolesta, eä dominanteil-la kaksikielisillä voisi olla kaksi erillistä kielellistä järjes-telmää (coordinate-tilanne), kun taas oppijoilla olisi yksiyhtenäinen järjestelmä (compound-tilanne). Tämä näke-mys ei kuitenkaan ole ainoa mahdollisuus, sillä oppijoillavoisi aluksi ajatella olevan compound-tilanne, jossa äi-dinkieleen nivoutetaan uusia elemenejä (kuten perin-teisessä Kontrastiivisessa Analyysissa ajatellaan, esim.

Page 36: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

Peltola et al.: Vokaalien havaitseminen kaksikielisillä ja vieraan kielen oppijoilla 30

[7], [8]), minkä jälkeen oppiminen johtaisi järjestelmieneriytymiseen, eli coordinate-tilanteeseen. Tällöin oppi-misen lopullisena tuloksena olisikin kaksi erillistä järjes-telmää. Onmyösmahdollista, eä balansoituneilla kaksi-kielisillä olisikin lähtökohtaisesti compound-tilanne, jol-loin siis kielet olisivat oppimistaustan mukaisesti järjes-täytyneet yhdeksi kokonaisuudeksi, jossa molempia kie-liä prosessoitaisiin täysin automaaisesti.

Tässä tutkimuksessa pyriiin selviämään, mitenbalansoituneet kaksikieliset ja dominantit kaksikieliset(eli vieraan kielen oppijat) havaitsevat osaamiaan kie-liä erilaisissa kielellisissä ympäristöissä, eli miten kaksikieltä on organisoituneina näillä erilaisilla kahden kie-len puhujilla. Tulosten perusteella on mahdollista arvioi-da, johtavatko erilaiset kielenoppimistaustat kahden eril-lisen vai yhden nivoutuneen järjestelmän syntyyn.

2. Tutkimus

2.1. Menetelmät

2.1.1. Koehenkilöt

Tutkimukseen osallistui kaksi koehenkilöryhmää: ensim-mäisessä ryhmässä (Ryhmä 1) oli kaksitoista (7 nais-ta) balansoitunua suomi-ruotsi kaksikielistä koehenki-löä; toinen ryhmä (Ryhmä 2) koostui yhdeksästä (6 nais-ta) äidinkielenään suomea puhuvasta ruotsia pääainee-naan opiskelevasta vieraan kielen edistyneestä oppijas-ta. Iältään koehenkilöryhmät vastasivat toisiaan (Ryh-män 1 iän keskiarvo 20,3 vuoa, Ryhmän 2 iän keskiar-vo 20,2 vuoa). Kielellinen tausta selviteiin ja vakioi-tiin kaksikielisyys-kyselyn avulla. Tässä kyselyssä kaksi-kieliseltä ryhmältä selviteiin lapsuuden kielellisten vi-rikkeiden tasapainoisuus sekä nykyinen kielten käytönmäärällinen ja laadullinen jakauma. Opiskelijaryhmältäpuolestaan varmisteiin heidän ruotsin kielen oppimis-taustansa ja nykyinen kielen käytön määrä ja kielitaito.Näiden kartoitusten perusteella ryhmiä voitiin nimiääbalansoituneiksi ja dominanteiksi kaksikielisiksi.

2.1.2. Ärsykkeet

Tutkimuksessa käytetyt syntetisoidut (HlSyn 1,0 Sensi-metrics, Inc.) ärsykkeet muodostivat suppeiden vokaa-lien jatkumon. Tämä 18 vokaalin jatkumo jaetaan suo-men kielessä kahteen kategoriaan /y/ - /u/, mua ruotsis-sa vastaavalle alueelle sijoiuu kolme vokaalia /y/ - /ʉ/ -/u/. Jatkumo muodosteiin toista formania (F2) varioi-malla. Minimiarvona oli 606 Hz (703 Mel) ja maksimina2077 Hz (1553 Mel) ja ärsykkeiden välinen akustinen erooli 50 Mel. Muiden formanien arvot pideiin vakioina(F1 = 250 Hz, F3 = 2600 Hz, F4 = 3500 Hz). Lisäksi pe-rustaajuus noudai samaa, puheelle tyypillistä muotoasiten, eä F0 alkoi 112 Hz arvosta, nousi huippuunsa (132Hz) 100 ms kohdalla ja laski äänteen lopussa 92 Hz tasol-le. Ärsykkeiden kesto oli 350 ms.

2.1.3. Koeasetelma ja analyysi

Koehenkilöt osallistuivat tutkimuksiin kaksi kertaa (vä-lissä vähintään viikko). Puolet koehenkilöistä tuli labo-ratorioon ensin suomenkielisen tutkijan kanssa, kun taaspuolet osallistui tutkimuksiin ensin ruotsin kielellä. Iden-tifikaatiokokeessa koehenkilöiden tuli nimetä kuuleman-sa vokaalikategoria tutkimustilanteessa käytetyn kielenmukaisesti, jolloin saimme selviteyä kategoriarajojensijainnit sekä suomen eä ruotsin fonologisen järjestel-män mukaisesti. Identifikaatiokokeen tuloksista analy-soimme SPSS 10.0 (SPSS Inc.) ohjelman probit-analyysinavulla sekä kategoriarajojen sijainnit eä rajojen sijoit-tamisen systemaaisuuden. Tällöin siis pystyimme nä-kemään 1) sijaitsevatko kategoriarajat eri paikoissa erikielissä, 2) sijoiavatko erilaiset kaksikieliset (balansoi-tuneet vs. dominantit) rajat samoihin kohtiin molemmis-sa kielissä ja 3) eroavatko ryhmät kategorisointinsa sys-temaaisuudessa, eli kategoriarajan jyrkkyydessä. Näi-den keinojen avulla pyrimme pääelemään, vaikuavat-ko kielet toisiinsa, vai voidaanko toinen kieli inhiboida,jolloin olisi mahdollista pitää kielet erillään. Tilastollises-sa analyysissä käytimme toisteujen miausten varians-sianalyysiä (ANOVA).

Samassa tutkimussessiossa rekisteröimme myös he-rätevasteita EEG-laieiston (Synamps) avulla. Valitsim-me ärsykkeet identifikaatiokokeen avulla yksilöllisesti si-ten, eä vokaaliparilla oli fonologinen funktio suomenkielessä (/y/-/u/), mua sama pari sijoiui ruotsin kielenvokaalin /ʉ/ sisään. Analysoimme erilaisten kaksikielis-ten poikkeavuusnegatiivisuus herätevasteen (mismatchnegativity, MMN) amplitudin ja latenssin. MMN-vasteenvoimakkuus on riippuvainen siitä, ylitetäänkö kategoria-raja vai ei, mikä siis osoiaa, eä MMN-vaste on sensi-tiivinen kielispesifille fonologiselle ilmiölle [9]. Mikälikielet pidetään erillään toisistaan, olisi mahdollista, et-tä samalle vokaaliparille syntyneen vasteen amplitudi jalatenssi olisi riippuvainen kielikontekstista. Vaihtoehtoi-sesti on mahdollista, eä MMN-vasteella on sama ampli-tudi ja latenssi molemmissa kieliympäristöissä, mikä viit-taisi siihen, eä molempia kieliä havaitaan esitietoises-ti, automaaisesti yhden yhtenäisen äännejärjestelmänavulla.

2.2. Tulokset

Kuvasta 1 voidaan nähdä molempien ryhmien suomen/y/ - /u/ rajan sijoielu ja kuvassa 2 on esiteynä identi-fikaatiotulokset ruotsin /y/ - /ʉ/ - /u/ jatkumolla. Kuvienperusteella on selvää, eä molemmat ryhmät pystyi-vät sijoiamaan suomen vokaalien kategoriarajan ruot-sin kategorian /ʉ/ sisälle. Balansoituneiden kaksikielistensuomen /y/ - /u/ raja sijaitsi kohdassa 8,8 (kh 2,54), ruot-sin /y/ - /ʉ/ raja kohdassa 12,9 (kh 1,23)ja /ʉ/ - /u/ rajakohdassa 4,6 (kh 0,75). Dominantit kaksikieliset sijoii-vat vastaavat rajat kohtiin 10,1 (kh 1,16), 12,2 (kh 0,94) ja

Page 37: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

Peltola et al.: Vokaalien havaitseminen kaksikielisillä ja vieraan kielen oppijoilla 31

Kuva 1: Balansoituneiden (ohut viiva) ja dominanien(paksu viiva) kaksikielisten suomen vokaalien identifikaa-tio. F2 arvo on suurin ärsykkeessä 18 ja pienin ärsykkeessä1.

5,0 (kh 0,60). Tilastolliset analyysit osoiivat eeivät ra-jojen sijainnit eronneet ryhmätasolla. Kategoriarajojensijainnin lisäksi kuvista 1 ja 2 voidaan tarkastella rajojensijoielun systemaaisuua, eli rajojen kulmakertoimia.Balanssoituneille kaksikielisillä rajojen jyrkkyyksille las-ketut arvot olivat seuraavat: suomen /y/ - /u/ raja 1,89(kh 2,66), ruotsin /y/ - /ʉ/ raja 2,04 (kh 0,67) ja ruotsin/ʉ/ - /u/ raja 3,54 (kh 2,43). Dominanteilla kaksikielisil-lä vastaavat arvot olivat 1,54 (kh 0,62), 2,51 (kh 2,43) ja1,63 (kh 0,75). Kategoriarajojen jyrkkyyksien tilastollinentarkastelu osoii, eä ryhmät erosivat toisistaan (kate-goriarajojen jyrkkyys x ryhmä -interaktio: f(2,18)=4,737,p=0,022). Tarkempi analyysi osoii, eä dominanteillakaksikielisillä rajojen jyrkkyydet eivät eronneet eri kieli-konteksteissa, eli kategoriarajojen sijoielu oli yhtä sys-temaaista molemmissa kielissä. Balansoituneilla kaksi-kielisillä tilanne oli erilainen, sillä heidän kategoriara-jansa olivat loivemmat suomen rajalla verrauna ruot-sin rajoihin (suomen kulma vs. ruotsin /y/ - /ʉ/ kulma:t(11)=2,626, p=0,024; suomen kulma vs. ruotsin /ʉ/ - /u/kulma: t(11)=-3,201, p=0,008). Tämä osoiaa, eä rajan si-joielun systemaaisuus riippui käyteävästä kielestä.

MMN-herätevastemiausten tulokset olivat saman-suuntaiset identifikaatiokokeiden tulosten kanssa, silläbalansoituneilla kaksikielisillä vokaaliparin synnyämävaste ei ollut riippuvainen ympäristön kielestä, eli MMN-vasteen amplitudi ja latenssi eivät eronneet tilastollises-ti merkiävästi toisistaan eri kielikonteksteissa. Domi-nanteilla kaksikielisillä puolestaan amplitudi oli voima-kas silloin, kun vokaalipari ylii foneemikategorian ra-jan, eli silloin, kun kontekstikielenä oli suomi, mua sa-ma äännepari ei aiheuanut vastea lainkaan esiintyes-sään fonologisesti epärelevantissa kontekstissa, eli ruot-sinkielisessä ympäristössä (f(1,8)=8,843, p=0,018). Lisäk-si balansoituneiden kaksikielisten MMN-vasteen latenssioli pidempi (f(1,20)=4,834, p=0,040).

Kuva 2: Balansoituneiden (ohut viiva) ja dominanien(paksu viiva) kaksikielisten ruotsin vokaalien identifikaa-tio. F2 arvo on suurin ärsykkeessä 18 ja pienin ärsykkeessä1.

3. Johtopäätökset

Tutkimustulosten perusteella onmahdollista vastata use-aan kysymykseen, jotka pureutuvat vokaalien kategori-sen kuulemisen ja kaksikielisyyden eri aspekteihin. En-sinnäkin tulosten avulla voidaan päätellä jotakin vieraankielen vokaalien oppimisesta, ja toisaalta taas vokaalienkielispesifistä havaitsemisesta. Kolmanneksi on mahdol-lista tarkastella tuloksia kaksikielisyyden määritelmiennäkökulmasta. Lopulta kaikkia näitä näkökulmia yhdis-telemällä päästään arvioimaan kielellisten järjestelmienfunktionaalista organisaatiota.

Ruotsin kielen vokaalikategorioiden rajojen sijain-tien yhteneväisyys balansoituneilla ja dominanteillakaksikielisillä on selvä oppimisen indikaaori: edisty-neet suomalaiset vieraan kielen oppijat ovat oppineetkohdekielensä erilaiset, äidinkielestä poikkeavat katego-riat. Tämä tulos siis osoiaa, eä vieraan kielen ääntei-den oppimisteorioiden [10], [11] valossa erityisen vai-keaksi ennusteu kohdekielen kategoria on mahdollistaoppia luokkahuoneopetuksessakin. Mielenkiintoista onse, eä kahta kieltä (joko dominantisti tai balansoidus-ti) puhuvien kaksikielisten on mahdollista sijoiaa ka-tegoriaraja keskelle toisen kielensä kategorian keskusta.Tämä on erityisen ylläävä tulos siitä näkökulmasta, et-tä puheen havaitsemisen tutkimuksissa toistuvien näke-mysten mukaan kategoriakeskuksilla ja rajoilla on toi-sistaan poikkeavat, päinvastaiset roolit, eli kategoriakes-kusten prototyyppiset edustajat ovat vastakkainen voi-ma kategoriarajojen ympäristössä esiintyville huonoil-le edustajille. Tämä siis viiaisi joko siihen, eä kahdenkielen hallitsijoiden puheen havaitseminen ei perustuisi-kaan samoihin lainalaisuuksiin kuin yksikielisillä puhu-jilla tai siihen, eä ihmisen kyky tietoisesti pääää kuu-lemastaan, vaikuaa tilannekohtaisesti.

Kaksikielisyyden määritelmien näkökulmasta voi-daan todeta, eä terminologisesti näyäisi mielekkäältä

Page 38: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

Peltola et al.: Vokaalien havaitseminen kaksikielisillä ja vieraan kielen oppijoilla 32

eroaa toisistaan eri tavoin kielitaidon hankkineet kah-den kielen puhujat. Tämän tutkimuksen perusteella eivoida oaa kantaa siihen, miten mahdollinen ja toden-näköinen ryhmien välinen kielitaitoero vaikuaa havait-semiseen, mua fokuksessa olleen kielellisen oppimis-taustan rooli selkeytyy. Kansainvälisessä kirjallisuudes-sa molempien ryhmien määrielyksi olisi riiänyt termi”kaksikielinen”, mua äänteiden havaitsemisprosessieneroavuuksien perusteella tämä terminologinen nipua-minen ei olisi perusteltua.

Tutkimuksen tärkeimpänä tuloksena voidaan pitääsitä löydöstä, eä balansoituneilla kaksikielisillä suomenvokaalikategorioiden välisen rajan sijoiaminen akusti-selle jatkumolle oli epäsystemaaista. Tämä viiaa sii-hen, eä balansoituneiden kaksikielisten havaintojär-jestelmässä toisen äidinkieleen vokaalikategoria vaikut-taa toisen äidinkielen vokaalien havaitsemiseen. Päin-vastaisen tuloksen löytyminen vieraan kielen oppijoil-ta vahvistaa tämän löydöksen merkiävyyä, sillä do-minanteilla kasikielisillä mitään tällaista siirtovaikutustaei näytä olevan. Tämä tulos olisi seliteävissä siten, et-tä syntymästään saakka kahta kieltä oppineet kaksikie-liset havaitsisivat molempia kieliään yhden yhtenäisenäännejärjestelmän avulla, kun taas koululuokassa kielenoppineet prosessoisivat kieliä toisistaan erillään. Heräte-vastetutkimuksen tulokset tukevat tätä tulkintaa, sillä ba-lansoituneiden kaksikielisten MMN-vasteen amplitudi eiollut riippuvainen kontekstikielestä. Tämä siis tarkoiai-si sitä, eä esitietoisessa prosessoinnissa balansoituneetkaksikieliset eivät eriytä kieliä toisistaan. Dominanteillakaksikielisillä kielellinen ympäristö puolestaan laukaiseetoisen äännejärjestelmän aktiiviseksi toisen jäädessä in-hiboiduksi. Tätä ajatusta tukee edelleen se, eä balansoi-tuneilla kaksikielisillä MMN-vasteen latenssi oli pidem-pi. Tämä voisi johtua siitä, eä prosessoinnissa joudu-taan huomioimaan suurempi joukko mahdollisia kielel-lisiä kategorioita, kun taas dominanteilla kaksikielisilläolisi aktiivisena verrokkina ainoastaan yhden kielen ään-nekategorioiden inventaari.

Tämän tutkimuksen perusteella voidaan todeta, eäkahden kielen hallinta voi perustua erilaisiin prosessoin-titapoihin. Tuloksemme viiaavat siihen, eä syntype-räisillä kaksikielisillä kielet ovat eroamaomasti nivou-tuneet toisiinsa, kun taas luokkahuoneessa kielitaitonsasaavuaneilla kielet muodostavat kaksi erillistä järjes-telmää. Oppimistaustan näkökulmasta tämä tulkinta onperusteltu, sillä kotikielenä kaksi kieltä ovat arkisessa-kin käytössä toistensa lomassa, kun taas luokkahuonees-sa kieli opitaan aina tietyssä rajatussa kontekstissa.

4. Kiitokset

Haluamme kiiää professori Teija Kujalaa hänen tues-taan ja monista tutkimusta parantaneista kommenteis-taan. FM Heidi Toivosta kiitämme hänen materiaalinkeruuseen antamastaan suuresta avusta. Lisäksi olem-

me kiitollisia Suomen Akatemialle rahoituksesta, jon-ka turvin osa materiaalista on keräy (projekti numero206352).

5. Lähteet[1] Chee, M. W. L., Caplan, D., Soon, C. S., Sriram, N., Tan,

E. W. L., iel, T. and Weekes, B., ”Processing of VisuallyPresented Sentences in Mandarin and English Studied withfMRI”, Neuron, 23(1):127-137, 1999.

[2] Klein, D., Milner, B., Zatorre, R. J., Meyer, E. and Evans, A.C., ”e neural substrates underlying word generation: Abilingual functional-imaging study”, Proc. Natl. Acad. Sci.USA, 92(7):2899-2903, 1995.

[3] Perani, D., Dehaene, S., Grassi, F., Cohen, L., Cappa, S. F.,Dupoux, E., Fazio, F. and Mehler, J., ”Brain processing ofnative and foreign languages”, NeuroReport, 7(15-17):2439-2444, 1996.

[4] Winkler, I., Kujala, T., Alku, P. and Näätänen, R., ”Languagecontext and phonetic change detection”, Cognit. Brain Res.,17(3):833-844, 2003.

[5] Peltola, M. S. and Aaltonen, O., ”Long-TermMemory TraceActivation for Vowels Depends on the Mother Tongue andthe Linguistic Context”, J. Psychophysiol., 19(3):159-164,2005.

[6] Albert, M. L. and Obler, L. K., ”e Bilingual Brain. Neurop-hysiological and Neurolinguistic Aspects of Bilingualism”,New York: Academic Press, 1978.

[7] Lado, R., ”Linguistics across Cultures”, University of Mic-higan Press, 1957.

[8] Weinreich, U., ”Languages in Contact”, London: Mouton,1953/1963.

[9] Näätänen, R., Lehtokoski, A., Lennes, M., Cheour, M., Huo-tilainen, M., Iivonen, A., Vainio, M., Alku, P., Ilmoniemi, R.J., Luuk, A., Allik, J., Sinkkonen, J. and Alho, K., ”Language-specific phoneme representations revealed by electric andmagnetic brain responses”, Nature, 385(6615):432-434, 1997.

[10] Flege, J. E., ”e production of “new” and “similar” phonesin a foreign language: evidence of speech perception”, J.Phon., 15(1):47-65, 1987.

[11] Best, C. T. and Strange, W., ”Effects of phonological andphonetic factors on cross-language perception of approxi-mants”, J. Phon., 20(3):305-330, 1992.

Page 39: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

S. Werner, T. Kinnunen (toim.), XXVI Fonetiikan päivät 2010, UEF 2011, s. 33–37ISBN 978-952-61-0391-4 (PDF). http://epublications.uef.fi/© by the author

e enigmatic central vowel in Moksha. How central, how reduced?

Dennis Estill

University of [email protected]

AbstractOne aim of this paper is to help determine the character-istics of the central vowel in Moksha-Mordvin, a Finniclanguage. is phoneme(s?) has been a subject of disputesince the earliest investigations of the language. Moreexactly, a question that has occupied the minds of schol-ars is whether the central vowel is one phoneme /ə̂/ withtwo allophones [ə̂] and [ə] or two distinct phonemes /ə̂/and /ə/. While the realisation of this vowel is obviouslygenerally related to the palatisation of the preceding con-sonant, the maer has been confused by exceptions, or atleast one striking and oen cited exception, to this ten-dency. Another aim of the paper is to ascertain whetherthe vowel in question is a full vowel or whether it is re-duced. ere may be a need in Uralic studies in generalto beer define what should be regarded as vocalic re-duction.

e results of the investigation suggest that there isso much variation in the pronunciation ofə̂ and ə thateven considering them to be regular allophones of thecentral vowel is frustrated. I suggest the central vowelshould be considered one phonemewhose realisation de-pends on the phonetic environment and speaker charac-teristics and that any exceptions should be regarded asanomalies. To help determine the full or reduced natureof the vowel, this paper describes a comparison with afull central vowel in an unrelated language, Romanian.Such a comparison strongly suggests that the Mokshacentral vowel fits into a conventional description of re-duction, as has generally been believed, even if this is notnecessarily true of central vowels in certain other Uraliclanguages.

1. IntroductionA fundamental difference between the Erzya and Mok-sha Mordvin languages is the occurrence in Mok-sha of an extra vowel—or vowels, depending on thesource—placed somewhere near the centre of the vocalicspace. Moksha school manuals present the vowel chartin a manner corresponding to the following:

front center backclose i uopen-mid e ə oopen ä a

A more exact description is given by Raija Bartens[1] who presents separate paradigms for initial and sub-sequent vowels, thus:

initial syllablei ue ə̂/ə oä a

subsequent syllable(s)i u

ə̂/əä a

László Keresztes, on the other hand, seems to placethe central vowel in a more open position [3]:

i ue oa ä

ə

In Erzya there is no such central vowel as /ə/, noris there an open front vowel corresponding to /ä/ inthe standard dialect. Diachronically, however, referenceto Erzya oen indicates from which vowels the presentMokshaə̂/ə forms have derived. Word stress, which hasoen been related to a centralisation process for non-stressed vowels and therefore must be taken into ac-count, is usually on the initial syllable in Moksha, al-though there are a number of important exceptions.

e above description of the Moksha vowel systemwould seem to suggest a paramount role for the (for now)central vowel. Its two variants [ə̂] and [ə] are regardedas allophones by most scholars, although there are somegrounds for believing that the variants may be regardedas phonemes in their own right [1]. As a very generalrule [ə̂] occurs following a palatised consonant and [ə] inthe wake of other consonants. One well-know exceptionto this rule is šejə̂r ˜ ‘mouse’.

e purpose of this paper is to analyse how Mokshaspronounce /ə/ today, and this can be well represented bythe younger generation of the Moksha population. Sev-eral questions can be propounded concerning the centralvowel:

1. Are there in fact two allophones?

Page 40: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

Estill: The enigmatic central vowel in Moksha. How central, how reduced? 34

2. Are these variants on the F1 or F2 axis, or both?

3. Can /ə/ accurately be described as a central or neu-tral vowel?

4. Can /ə/ accurately be described as a reducedvowel?

A further reason for consideration of the Mokshacentral vowel is a taken-for-granted aitude sometimesexpressed in connectionwith central vowels in the Uraliclanguages, according to which central vowels are al-ways reduced in nature. Even if they can be shownto have centralised and become reduced diachronically,their quality may today have changed the status of thephoneme and turned it into a full central vowel. Nor isthe reduction of vowels simply a maer of vowel length:according to John Laver [4], vowel reduction can meanthat ‘the vowel is pronounced shorter, less loud, lower inpitch and more central in quality’ (p. 157).

2. Baground to the experiment

For the purposes of inquiry into this question an exper-iment was devised. is experiment was aided by threeMoksha informants; EK, MA and YE. eir pronuncia-tion of typical words containing /ə/ and its variant wereanalysed acoustically, and subsequently considered froma number of perspectives. e recordings, which tookplace in a room at the Department of Finno-Ugrian Stud-ies of the University of Helsinki, were made using a Plex-talk recorder fied with an AKG 660S microphone, andthese were analysed on the Praat 4.0 program. Every ef-fort was made to keep sound interference to a minimum.

e informants were all female (dates of birth1985–86) and represented different dialect areas; West-ern (EK), South-western (MA) and North-western (YE).All informants had an academic background. Centralvowel pronunciation tendencies were initially analysedby asking the informants whether the dialectal pronun-ciation for ‘man’ (Stand. miŕďä) was mə̂ŕďä or məŕďä intheir village.

Originally ten words were chosen for the experi-ment, although owing to the unfamiliarity of one ofthe words to informant MA, this was replaced with an-other, one which she suggested. Since there were onlyten words, the informants were well able to concentratecareful articulation. ese words contained all those fea-tures necessary for answering the questions posed forthis analysis. e words chosen were the following; onthe le is the word in Cyrillic, in the middle in SUT andon the right is the correspondence in English. e vowelunder consideration has been underlined for emphasis.

велень песа veləń pesa end of villageкормилць koŕməľeć feederняамс ńejəms see (v.)сельгомс śeľgəms spit (v.)симомс śiməms drink (v.)лкнамс lə̂knаms shake (v.)пандоня pandə̂ńa hill, mountainплхтамс pə̂Ltams burn (v.)прнамс pə̂rnams hold (v.)трнатомс tə̂rnatə̂ms sound (v.)шеер šejə̂r mouse

With the exception of tə̂rnatə̂ms, ńejəms and koŕmə-ľeć, all words were repeated six times by each informant—veləń pesa seven times by one speaker, although YEseems to have ‘made up for this’ by pronouncing thenext word koŕməľeć five times. e verb ńejəms wasaccidentally omied by EK and AM alone pronouncedtə̂rnatə̂ms. is meant that a total of 180 word tokens, 96examples of [ə̂] and 84 examples of [ə], were finally anal-ysed. It should perhaps again be stated that the phonotaxof šejə̂r does not correspond to that of the other words.If it were to do so following the palatisation rule, then jwould have to be followed by *ə. Although word stresswas on the first syllable of each word with the exceptionof koŕməľeć, on which stress fell on the third syllable,there was a lile variation, and this can be fairly accu-rately calculated with the help of table 2.

3. Results of the experiment3.1. Formants

Figure 1a presents the total occurrences of all the centralvowels acoustically measured for this analysis, with theexception of the special case of šejə̂r, which is consideredseparately below. is table displays the distribution ofnearly all occurrences of the Moksha [ə̂] and [ə] as beingalong the F1 axis at 400–500 Hz. It should be observedthat between 1500–2100 Hz on the F2 axis very few in-cidences of this vowel can be seen, although the mean(shown by a square-shaped marker) is located here. Es-sentially, we might consider those incidences on the lein the chart to be realisations of variants of /e/, judgingfrom their placement on the F1–F2 axes. Correspond-ingly, those on the right fall into the area in vocal spacetypically occupied by variants of /o/. is chart leavesthe space normally filled by /ə/ virtually empty, and sug-gests a lack of centrality for this phoneme, which in thisdata is only central in theory, that is, by mathemati-cal calculation. Scaering in the F1/F2 dimensions is, ofcourse, a normal feature in vowel charts, which is prob-ably even more evident when vowels remain unstressed.Most of those measured for this experiment were un-stressed, although two words each contained a stressedexample of /ə/, the ə in koŕməľeć (which is shown in fig-

Page 41: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

Estill: The enigmatic central vowel in Moksha. How central, how reduced? 35

Figure 1: a) Total occurrences of the Moksha vowel /ə/ inthe vowel art for 3 informants, EK, YE and MA. Square-shaped marker shows location of mean. Subfigures b) andc) contain results for stressed and unstressed Moksha vow-els /ə/ separately.

ure 1b as a series of scaered dots at top le) and theə̂ inpə̂rnams (the dot cluster at lower right). When these twosoundswere omied there remained an even distributionof realisations along the F1 axis (c), although as figure 2will show two separate clusters were formed irrespec-tive of whether the vowel was [ə̂] or [ə] and the spacebetween these clusters was empty. e word koŕməľećis the only example of a loan (in this case pre-revolution),and the Russian correspondence кормилец has the close/i/ as its second vowel. e close realisation of [ə] inthe experiment has therefore probably been caused byRussian interference, and should perhaps be disregarded.pə̂rnams on the other hand fits neatly into the generalpaern.

Figure 2a presents the results of the experiment as asummary of the placement of all occurrences of [ə̂] in thevowel space. Figure 2b shows the placement of all occur-rences of [ə], with the exception of the anticipated [ə] inthe word šejə̂r, which are indicated separately in figure3. Figure 2a shows that pronunciations of [ə̂] were dis-tributed widely in the vowel chart with the mean beinglocated in a space in which no pronunciations actuallyoccurred. e conclusion can thus be drawn that (virtu-ally) any pronunciation was acceptable for [ə̂]. On thisevidence, as far as the questions raised above are con-cerned, the answer to (2) is both F1 and F2, and (3) mustbe no. e tendency is for the F1 axis placements to grav-itate to the middle, but a similar centralisation tendencyis not evident vertically on the F2 axis. Figure 2b indi-cates that on the F1 axis, [ə] fell consistently between400–500 Hz, although no such F2 regularity was evident.

Figure 2: Total occurrences of the Moksha vowel [ə̂] on thevowel art for 3 informants, EK, YE and MA (a). Totaloccurrences of the Moksha vowel [ə] on the vowel art forthe same informants (b). Square-shaped markers show lo-cation of mean.

It is clear from figure 2 that the paerns for both allo-phones were the same and it is difficult to discern anydifferences in the position of either phone in the vocalspace. In answering question (1) it would seem that theMoksha /ə/ can only be regarded as a single phoneme.Respecting question (2), this vowel occurs at a point inthe centre of F1 and can be articulated anywhere alongthe F2 scale, and as far as question (3) is concerned [ə]is more of a mid-vowel than a central one. However, ifviewed from the mean, then both [ə̂] and [ə] are to beviewed as central vowels. estion (4) regarding reduc-tion will be answered aer consideration of durationalaspects below. estion (1) is more difficult to answer,since the general paerns of distribution, while showingmany similarities, do differ in some respects, for example[ə] is clearly more frontal.

e word šejə̂r was acoustically analysed separatelyin order to determine whether the sound occurring aerpalatisation was the anticipated [ə] or the irregular [ə̂].e results of the measurements which appear in figure3 show consensus among speakers as to the quality ofthe vowel suggesting that the sound is in fact [ə̂]. Nev-ertheless, its position is somewhat more open than thatgenerally occupied by [ə̂] or [ə], according to the resultsshown in figure 2. For [ə̂] to be accepted as a phonemein its own right it must occur in the word šejə̂r in samevowel space as that occupied by the same vowel in thenumerous non-palatised words in which it occurs. Fromthis evidence this does not appear to be the case. Butlet it be remembered that even a close analysis of threeinformants is still insufficient for drawing a definite con-clusion. If the place occupied in the vowel space by [ə̂]and [ə] cannot be delineated, then it would not seem rele-vant to consider the [ə̂] in šejə̂ras an independent vowel.

3.2. Duration

e answer to question (4) above regarding whether ornot /ə/ is a reduced vowel in Moksha depends on the ex-

Page 42: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

Estill: The enigmatic central vowel in Moksha. How central, how reduced? 36

Figure 3: Placement in the vowelart of theMoksha vowel[ə̂] aer the palatised /j/ in the word šejə̂r for 3 informants,EK, YE and MA. 18 occurrences are displayed. Square-shaped marker shows location of mean.

tent to which the central vowel can be shown to be re-duced as determined by those criteria mentioned aboveand stated in [4]. If the Moksha /ə/ can be shown to besignificantly shorter than a full central vowel would be,then the case for reduction could be closed.

e total means for word-stressed vowels were159.1ms (164 tokens) for all vowels (not the diphthong)except [ə] and [ə̂] and 91.5ms (35 tokens) for [ə] and [ə̂],for unstressed vowels 119.9ms (88 tokens) for all vowelsexcept [ə] and [ə̂] and 78.2ms (148 tokens) for [ə] and[ə̂]. Bearing in mind that the intrinsic properties of non-central/mid vowels that affect duration are distinct fromthe other vowels in the vowel chart should provide ameans of gauging the extent to which the duration of thecentral vowel may vary from the others. Table 1 showsthe duration of all vowels and includes the only diph-thong (/eĭ/) in the recorded material.

e ratio between stressed full vowels and stressedcentral vowels is 159.9:91.5 and 119.9:78.2 for unstressed.Viewed as percentages, these differences mean that fullvowels are 74.6% longer than stressed vowels and 53.3%longer than unstressed. In short, full vowels are muchlonger than /ə/, and this applies to the closer [ə] as muchas to the mid-central [ə̂]. is is not, however, the fullstory. If comparison is made between open-mid vowels,the durational difference is almost nonexistent when theunstressed cases are examined. Although the stressed/e/ is significantly longer in duration than stressed /ə/, asimilar shortening of duration should occur as with thefull vowels.

ere are relatively few languages whose range offull vowels includes the central vowel and which mightbe used for comparison. One such language is Roma-nian. I recorded the speech of two Romanian newsread-ers,¹ segmented the vowels and calculated their dura-tion, as had been done in the case of the Moksha vowels,in order to determine the relative duration of the cen-tral vowel compared to the other vowels in the vowel

¹12a.m. news, Radio Romania 27.7.08, readers Sorin Croitorescu andAngela Bârgoan (approx. half in hal).

Figure 4: Placement in the vowel art of the Moksha [ə]in the word koŕməľeć for 3 informants, EK, YE and MA. 18occurrences are displayed. Square-shaped marker showslocation of mean.

chart and subsequently to compare these findings as be-ing fairly representative, to the difference between thecentral vowel and other vowels in Moksha. ere is animportant difference between the recordings, insofar asthe Moksha speakers under laboratory conditions tooktime while pronouncing their words with care, whereasthe newsreaders, under pressure, read very quickly, of-ten swallowing sounds. erefore, comparative ratherthan intrinsic durations must be compared. e resultsof these findings are shown in the table which follows:

e duration ratio for stressed non-central vowelscompared to the central vowel in Romanian was 57.1:54.4and for unstressed 56.4:64.3, that is, stressed vowels were5.0% longer than the central vowel and unstressed 14%shorter. In other words the central vowel in Romanian(and presumably other languages) when it is not reduced,has the same relative duration, relative that is to theparticular vowel in question, as other full vowels. Re-turning to the Moksha vowels it should be observed thatalthough unstressed /e/ and /o/ are of the same dura-tion as /ə/, the example word is problematic, being theonly case of a Russian loan, albeit pre-revolutionary, inthe research material and therefore well established. Itwill also be recalled from what was stated earlier, that/e/ and /o/ only occur in initial syllables traditionally.It has been observed before about the other Mordviniclanguage Erzya [2] that speakers more oen than notpronounce such loanwords in a more Russified fashion.e situation is unlikely to be different for speakers ofMoksha, especially when the orthography is misleading.e wide dispersion of placements (figure 4) and the ten-dency towards closeness, characteristic of the Russiansound и in кормилць, suggest that this examplemight beconsidered an anomaly when calculating duration. ekoŕməľeć example is shown in figure 4.

Looking at the two sounds common to Moksha andRomanian for the purposes of this experiment, un-stressed /a/ and unstressed /i/, and comparing these to/ə/ in the respective language, it becomes clear that theMoksha /ə/ is much shorter in duration than the full vow-els even taking into account the respective postitions of

Page 43: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

Estill: The enigmatic central vowel in Moksha. How central, how reduced? 37

Table 1: Duration in milliseconds of all Moksha vowels together with number of incidences in recorded material (stressedvowels are marked with an asterisk).

vowel *a *e *eĭ *i a e o *ə *ə̂ ə ə̂ ə̂+ədur./ms 168 144 246 103 145 92 70 118 67 91 68 78tokens 60 68 18 18 54 17 17 17 18 67 81 148

Table 2: Duration in milliseconds of all Romanian vowels together with number of incidences in recorded material (stressedvowels are marked with an asterisk).

vowel *a *â *e *i *o *u a â e i o u *ă ădur./ms 69 53 58 48 58 47 70 49 61 46 56 47 54 64tokens 26 4 43 22 13 14 24 6 24 22 14 18 11 12

articulation (Romanian /a/ 70.3ms, /i/ 46.4ms, /ə/ 64.3ms,Moksha /a/ 144.6ms, /i/ 102.7ms, /ə/ 78.2).

4. Conclusions

Because of the limited amount amount of material at mydisposal, the purpose of the exercise described above wasnot to deliver “conclusions”, but simply to raise questionsabout the Moksha central vowel and present some pos-sible explanations and suggestions concerning its status.e results of this experiment show that there is so muchvariation in the pronunciation of [ə̂] and [ə] that evenconsidering them to be regular allophones of the cen-tral vowel is frustrated. More likely they should be con-sidered a single phoneme whose realisation depends notonly on the phonetic environment as such, but which isalso speaker specific. is vowel mainly occurs on theF1 axis at 400–500 Hz, that is, it is an open-mid vowel,although it can oen be realised (and thus articulatedalthough not necessarily perceived) as /e/ or /o/. Fur-ther, it cannot be described as a central vowel because,although its mean is central, the realisation of this vowelis hardly ever that of the central vowel. Comparing theMoksha central vowel to a fully articulated central vowel,as in Romanian for example, suggests that it is consider-ably reduced, particularly in length. Even if the resultsof this experiment concerning the reduction of the Mok-sha phoneme /ə/ are accurate, this does not mean thatother similar vowels in other Uralic languages are alsoreduced.

5. Anowledgments

e author wishes to thank the University of Helsinki forproviding the facilities and the informants.

6. References

[1] Bartens, Raija (1999) Mordvalaiskielten rakenne ja kehitys,Helsinki: Mémoires de la Société Finno-Ougrienne 232.

[2] Estill, Dennis (2004) Diachronic change in Erzya wordstress, Helsinki: Mémoires de la Société Finno-Ougrienne246.

[3] Keresztes, László (1990) Chrestomatia Morduinica, Bu-dapest: Tankönyvkiadó.

[4] Laver, John (1994) Principles of phonetics, Cambridge.

Page 44: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

S. Werner, T. Kinnunen (toim.), XXVI Fonetiikan päivät 2010, UEF 2011, s. 38–41ISBN 978-952-61-0391-4 (PDF). http://epublications.uef.fi/© by the authors

ai vowels and tones

Bongkot Kangaspunta, Stefan Werner

General Linguistics & Language Technology, University of Eastern Finland{bongkot.kangaspunta|stefan.werner}@uef.fi

Abstract

According to Scherba phonology school’s phoneme con-cept, the ai language can be categorized as a syllabiclanguage with its own specifications. eai vowel in-ventory includes not only front and back vowels, but alsocentral vowels. Mid vowels can be closed as well as open.F1 and F2 values of vowels are affected by tones, causingthe values to rise in high and falling tones (which beginwith a high pitch and only fall towards the end).

1. Introduction

is paper introduces a different approach to defin-ing phoneme than what is usually known in the west andstudy ai phonology on the ground of this concept. InScherba’s school of phonology phonemes are not onlylinear representatives of sounds they potentially can beassociated with meanings (morphemes). If such abilitydoes not belong to sounds but the whole syllables in alanguage, the shortest phonological unit of such a lan-guage is syllable, not phoneme, thus the language is syl-labic, not phenemic. Syllables in such a language canstill be separated into their components, into consonantsand vowels, however, these units are not equivalents ofphonemes in phonemic languages and they have a lowerstatus than syllables themselves. Nevertheless, this doesnot prohibit us to study the vowels’ or consonants’ prop-erties on their own. We present a case study ofai vow-els in connection with ai tones in this paper.

2. Phonemic vs. syllabic languages

e definition of the phoneme in Scherba’s school ofphonology leads to a specific understanding of phonemeand syllable as phonological units. It is not only inter-esting as a theory, we find it very useful when studyinga so-called syllabic language such as ai. In this paper,we introduce this theory and base our investigation ofai vowels on it.

According to Scherba [4], “the phoneme is the short-est element in the general acoustic representation of alanguagewhich can be associated with ameaningful rep-resentation in that language”. Later Zinder [5, 6] devel-oped this theory and we can summarize the properties

of a phoneme in this school of phonology (see also [2])as follows:

• e phoneme is the shortest, linear, further insep-arable sound unit.

• e phoneme is the minimal unit by segmentationand minimal constitutive unit of a language.

• A phoneme is identified as a speech segment byits potential association with meaning, as it canform the minimal unit with meaning, i.e. the mor-pheme.

• e phoneme becomes an independent phonologi-cal unit, which, on its own, is deprived of meaning.

is understanding implies that a phoneme is not onlya sound in the language but a phoneme possesses theabove mentioned qualities and functions. Scherba [4]also noted that “One can imagine a language, in which allsyllables are open and consist of a consonant and a vowel‘a’ and in such language phonemes would be ‘sa’, ‘ka’,‘ta’ and so on – ‘a’ would not be separated consciously”.From this comes the understanding of the syllable as aphonological unit. us we have twominimal phonolog-ical units. However, they are unequal, as syllables can besegmented into smaller components (onsets and rimes)and constitutive function in syllabic languages belongsto syllables [3].

According to Kasevich [3], the specific features ofsyllabic languages are:

1. ere is a defined syllable structure. Consonantclusters are generally not allowed.

2. Meaningful units cannot be shorter than a syllable.

3. e impossibility of amorphemic boundarywithina syllable is conditioned by two factors: prohibi-tion of non-syllabic morphemes and prohibition ofsyllabic boundaries’change of place.

4. Syllables can be broken into components: onsetand rime.

5. Alternation of a syllable’ s components can takeplace only on the level of onset or rime.

Page 45: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

Kangaspunta & Werner: Thai vowels and tones 39

6. e connection between vowel and final conso-nant is stronger than that of onset consonant andvowel.

7. Syllabic languages tend to be tonal languages.

3. aie syllabic nature of the ai language ([3]) is oen

not acknowledged in its analysis. e present study isintended as a first step towards a more appropriate rep-resentation of the ai vowel system. If we apply theabove-mentioned rules to defining the minimal phono-logical unit we will find the following specification ofai.

As a rule, syllables in ai are constructed accordingto a strict structure which is broken only in loan wordsof recent times.

1. In ai words, except for some rare cases, conso-nant clusters are allowed when the second conso-nant is a sonorant (r, l or w) and the cluster is lo-cated at the beginning of a word before a vowel.Only consonants without explosion can be at theend of the syllable. Six types of syllable structuresare possible.

• a single vowel, such as [u:Ă£] (“garage”), [a:](“father’s younger sibling”);

• consonant + vowel: [thi:Ď£] (“at”), [tha:] (“toapply something on skin, to rub on skin, topaint”);

• vowel or diphthong + consonant without re-lease: [a:Ă£ŋ] (“basin, bath tub”), [iaŋ] (“lean-ing, diagonal”)

• consonant + vowel + consonants without re-lease consonant: [tham] (“to do”);

• consonant + sonorant ([r], [l] or [w]) + vowel:[pla:] (“fish”), [kwa:Ĺ£] (“right (side)”);

• consonant + sonorant ([r], [l] or [w]) + vowel+ consonants without release: [kla] (“to re-turn”), [kwaj] (“water buffalo”).

2. A meaningful unit cannot be shorter than a sylla-ble. Only syllables, a single vowel or a combina-tion of vowel and consonant, can represent mor-phemes, for example, [a:] (“father’s younger sib-ling”, [pu:Ă£] (“grandfather on paternal side”), [pɔ:](name of a tree). Morphemes which are shorterthan a syllable do not exist in ai.

Usually ai words consist of one syllable. If aword consists of more than one syllable, i.e. oftwo independent words, then the border betweenthe words is still kept. If the first word ends with aconsonant and the second word begins with a con-sonant or a vowel, the consonant at the end of the

Figure 1: Spectrogram of ai word [mɨn]

first word stays unchanged, or at least the aemptto keep it that way is made, though sometimes anaudible release might appear. is way we see aconsonant in the middle of the word, for exam-ple [na

Ă£mtoĂ£k ̚] (“waterfall”) (from [nam] (“wa-

ter”) and [tok ̚] (“to rain, to fall”).

3. Intra-syllabic morpheme borders are impossible.In ai, word forms do not change which does notallow us to break them into any parts. e mor-pheme manifests itself as the whole syllable andmorpheme borders in ai words always coincidewith syllable ends.

4. ai syllables can be broken down into their com-ponents, onset and rime. Components of syllableare less independent units than the syllable itselfsince they serve for its construction [3]. If we ex-tract the onset [kh] and rime [on,] from the word[khon] – person, human, then they are deprived ofmeaning as there are no such morphemes in ai.Even if we break rime into vowel and end conso-nant only the vowel can be related to any meaning

5. ewhole syllables with different onsets can inter-change, cf. [ba:], “to accidentally cut something”,[pa:], “to cut a small part”).

(a) e vowel and end consonant aremore closelyconnected than the onset consonant and vow-el. is explains the consonant without au-dible release at the end of the syllable, whichshows the unity of rime, i.e. combination ofvowel and consonant. ese end consonantscannot be taken away from the vowel. Exam-ples are illustrated with spectrograms below.

Figure 1 is a wide-band spectrogram of the wordมึน [mɨn], “dizzy”. It is still clear where each com-

Page 46: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

Kangaspunta & Werner: Thai vowels and tones 40

Figure 2: Spectrogram of ai word [tit̚].

Figure 3: Spectrogram of ai word phuak.

ponent of the syllable is and one can see the endsonorant in the spectrogram, which makes it pos-sible to segment the syllable into its components.

Figure 2 is a spectrogram of the word ติด [tit̚ ], “tostick something to, to be addicted to, to be hookedon”. As we can see from the spectrogram one canmake out the initial consonant but can barely tellwhere the end consonant is, unlike the exampleabove where the end consonant is a sonorant.

Above is another waveform and spectrogram for asyllable with non-sonorant end consonant. is isthe wordพวก [phuaĎ£:k], a particle indicating plu-ral. Again, we can hardly spot the end consonantin the spectrogram and by perception it sounds asif something is at the end of the vowel.

Figure 4: Vowel inventory of ai.

6. ai, like many syllabic languages, is a tonal lan-guage. As mentioned earlier, there are five differ-ential tones in the ai language.

4. Data and analysis

One female native speaker of Southern ai (Song-khla) recorded with Praat twice a set of 100 isolated vow-els, manifesting all five tones, and a set of 54 words, re-sulting in a corpus of 308 vowel productions. In the fol-lowing, we present our observations on vowel formantsand tone, which partly differ from the results of Abram-son’s [1] classic pilot study.

ere are nine vowels in the ai vowel inventory:three front vowels, three central and three back vow-els. Only back vowels are rounded. All ai closed andclosed-mid vowels seem to cluster together while openand open-mid vowels are distant from them (see Figure1). Here and in the following two charts different tonesare represented by different vowel circle colors. Note thetones’effects on F1/F2.

Front vowels differ both in F1 and F2 values. Unlikethe results from Abramson [1] where close front vow-els’ F2 values are rather close together, our [i] and [e]’sF2 values differ by about 500 Hz and open front vowel[ɛ]’s F2 value is less than [i] by 700 Hz. Moreover, [ɛ]has a very high F1 value (over 900 Hz), which sets it farapart from other front vowels as one can see from Fig-ure 4, which is ploed based on median values of thevowels. However, when taking into account all of thefront vowels values from our data, we see that, at a cer-tain point, [i] and [e] overlap and some of the [e] canbe nearly as open as [ɛ] (see Figure 5). is may be dueto the fact that when combined with certain tones andpitch value rises, harmonics seem to be affected and F1

Page 47: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

Kangaspunta & Werner: Thai vowels and tones 41

Figure 5: ai front vowels with interaction with tones.

values are raised as a result. When looking closely atthe vowels, grouping them by tones, it is clear that all ofthem keep a good distance from one another. It is im-possible to study ai vowels out of tonal context evenin pseudo words/syllables, which makes it hard to seethe ideal vowel representatives unaffected by tones andwhich is why tone influences on vowels should alwaysbe considered when studying ai vowels and/or sylla-bles.

Similarly to front vowels, central and back vowelsdiffer in their level of openness, with closed and closed-mid vowels grouping together and overlapping in thearea where closed vowels are combined with falling tone(which has a very high pitch rise and only falls in the lastthird of the rime – single vowels, or vowels with conso-nants) and closed-mid vowels with low tone. However,round back open-mid [ɔ] vowels are less open than open-mid front vowel and much less than central open vowel.All central vowels have similar F2 valueswhile back vow-els vary in their F2 values with closed one having thelowest F2 value and open-mid one having the highest F2value (see Figures 6 and 7).

5. Anowledgements

Our work has been partially funded by the ErasmusMundus Masters Program in Clinical Linguistics.

6. References[1] A.S. Abramson. e vowels and tones of standard ai:

Acoustical measurements and experiments. Indiana U. Re-search Center in Anthropology, Folklore, and Linguistics,Bloomington,1962.

[2] V. B. Kasevich. Elements of General Linguistics [in Rus-sian]. Leningrad, 1977.

Figure 6: ai central vowels with tones.

Figure 7: ai ba vowels with tones.

[3] V. B. Kasevich. Phonological problems of general and east-ern linguistics [in Russian]. Moscow,1983.

[4] L. V. Scherba. 1912. Russkie glasnye v kachestvom I kolich-estvom otnoshenii. Leningrad.

[5] L. R. Zinder. 2007. Obshaja fonetika i izbrannye statii. 2ndedition. St. Petersburg.

[6] L. R. Zinder, V. B. Kasevich. 1989. Fonema i ee mesto v sis-teme jazyka i rechevoj dejatelnosti Voprosy jazykoznanija.No 6.

Page 48: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

S. Werner, T. Kinnunen (toim.), XXVI Fonetiikan päivät 2010, UEF 2011, s. 42–46ISBN 978-952-61-0391-4 (PDF). http://epublications.uef.fi/© by the author

Variation of pit cues in the perception of Estonian quantities

Nele Salveste

Department of Estonian and General Linguistics, University of Tartu

[email protected]

Abstract

Words in Estonian vary phonologically depending onthree contrastive quantities. antity is carried by thefoot consisting of two syllables. e main acoustic cuesfor quantities are the duration ratio of vowels in the firstand second syllable and the location of the pitch peak.e duration ratios in Q1, Q2 and Q3 are 2:3, 3:2 and 2:1respectively. e pitch peak in Q1 andQ2 is in the secondhalf of the first syllable and in Q3 in the beginning of thefirst syllable. Lippus and Pajusalu [12] have shown thatspeakers fromWestern and Central Estonia rely more onpitch, while speakers from Eastern and Southern Estoniaperceive quantities primarily on the basis of the durationratios. Lippus et al. [11] propose that if the acoustic cuescontradict with each other, the quantity perception canbe disturbed.

is paper reports an imitation experiment (analo-gous to Pierrehumbert and Steele [15]) where subjectswere presented with stimuli containing contradictingcues. Subjects heard manipulated words in a frame sen-tence and had to imitate what they heard. e targetword occurred with three duration ratios: 1.5, 2.0, and2.5, and with different locations of pitch turning points,advanced proportionally in 6 steps. In this way Q2 andQ3 words with regular acoustic cues, but also with con-tradicting acoustic cues were created.

e results show that the duration ratio was moredominant than the pitch cue in quantity perception. epitch cue turned out to be crucial in the case of stimuliin which the quantity was not clear to the subjects fromthe duration ratio (2.0).

1. Introductionantity is phonetically and phonologically a very com-plex phenomenon in Estonian. antity cannot bebound to either segmental or syllabic level of the word.Phonologically most efficient and economic way for de-scribing quantity is a metric foot consisting of two syl-lables. antity is not defined by the length of one ortwo segments, but by the duration ratio of the vowelsin the first and second syllable. Typical duration ratiosof vowels (V1/V2) in Q1, Q2 and Q3 are 0.5, 1.5 and 2.0

[7] respectively, but they can be greater in spontaneousspeech [6, 7, 14]. Another feature of quantity that wasreported to be crucial already in the 1960s [7, 10] is thepitch peak or the pitch turning point (TP) which is inthe second half of V1 in Q1 and Q2 and in the beginningof V1 in Q3 [7,8]. Inadvertently this leads to an idea ofEstonian as a pitch accent language, and Lehiste [9] hasargued that Estonian has developed from a quantity lan-guage to a pitch accent language. Both features - dura-tion ratios as well as the pitch cue – appear to be stable instressed positions in spontaneous speech [5, 1]. Lippus etal. [11] have shown in their perception experiment thatfor Estonians the pitch cue is very important for success-ful perception of quantity.

However, further studies on Estonian quantity haveshown that the pitch can vary greatly. Eek and Meis-ter [4] consider pitch as the secondary property of quan-tity. Krull [6] has suggested that the acoustic cues arein a co-varying trading relationship: the pitch cue isvariable when the duration ratios are kept constant, andvice versa. Additionally, Lippus and Pajusalu [12] haveshown that the variation of acoustic cues begins at thelevel of speaker’s perceptual habits. e experiment ofLippus and Pajusalu [12] demonstrated that the speakersfrom Western and Central Estonia rely more on pitch,while speakers from Eastern and Southern Estonia per-ceive quantities primarily on the basis of the durationratios.

As there exists variation in the acoustic propertiesof Estonian quantity on the acoustic as well as on theperceptional level, it would be interesting to see if thequantities were descriminated even in the case of con-tradicting cues. Lippus et al. [11] have suggested that ifthe acoustic cues contradict with each other, the quantityperception can be disturbed. But as mentioned above,pitch cue is not always stable and is considered as a sec-ondary property of quantity. Furthermore, there are re-sults that suggest that subjects use acoustic propertiesdifferently in quantity perception. erefore it is as-sumed here that the perception of quantity cannot bedisturbed while one of the cues is generally dominant forsubjects and will lead to unambiguous perception. Testsubjects are expected to fall into two categories: the first

Page 49: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

Salveste: Variation of pitch cues in the perception of Estonian quantities 43

group will rely more on durational information, and thesecond group will perceive quantities based on the pitchcue. e listeners who rely primarily on pitch are lesslikely to be distracted by misleading information fromduration ratios.

2. Materials and methode stimuli used in the perception experiment were ma-nipulated from a natural Q2 word siidi (‘silk’, sg. gen.).At first, three stimuli with three kinds of duration ratioswere created by manipulating the durations of the firstand the second vowel (V1, V2):

Table 1: Stimuli with three different durations of V1 andV2 and duration ratios.

Stimulus

C (ms) V1 (ms) C (ms) V2 (ms) Total (ms) V1/V2

1 116 160 70 105 451 1.5

2 116 190 70 75 451 2.5

3 116 175 70 85 446 2.0

efirst stimulus is a typical Q2word, and the secondstimulus a typical Q3 word. erefore the first stimuluswill be called Q2-stimulus and the second Q3-stimulus.Depending on test subjects’ perceptual habits, stimulus3 could be either in Q2 or in Q3, thus it will be calledQ?-stimulus.

ese three stimuli were manipulated proportionallywith 6 pitch peaks, while the peak was advanced in 6steps on the first vowel (V1), as seen in Figure 1. epitch fall was 20 Hz. In this way in total 18 stimuli werecreated.

usQ2 andQ3words with regular acoustic cues, butalso with contradicting acoustic cues were created.

Test subjects heard manipulated words in the framesentence Ma ostan _ talle (‘I’ll buy him _’) and had toimitate what they heard. Each stimulus was repeated 10times. e imitations were recorded and analysed acous-tically with Praat [2].

Test subjects were 5 males and 7 females between theages of 20 and 39. Five subjects were originally fromSouth Estonia, six formNorth Estonia and one fromWestEstonia.

In total 2160 sentences were recorded, out of which2065 sentences was analyzed.

3. ResultsAs there was no correlation between the origin of thetest subject and performance in the test, the results willbe described within the whole group.

e results show that the duration ratio is a veryprominent cue for the quantity perception. In the

200

220

240

260

C1 V1 C2 V2

1 2 3 4 5 6

0.0 446.0 ms

Fre

quen

cy (

Hz)

Time (ms)

Figure 1: e pit turning point (TP) advanced in 6 stepson V1 in stimuli with three different duration ratios

Q2-stimulus and Q3-stimulus, the placement of thepitch peak has no effect on the perception of quantity.e only variation in Q2- and Q3-responses could beachieved in the Q?-stimulus, where 69% of responseswere in Q2 and 31% of the responses in Q3. e resultsare illustrated in Figure 2.

Table 2 shows the percent of perceived quantity foreach test subject separately. In the case of Q2-stimulusand Q3-stimulus, the perceived quantity is in accordancewith the duration ratio of the stimulus. us, there isno reason to look at the perception of the pitch effectin these stimuli, but the variation in the perception ofQ?-stimuli should be examined in some more detail, inparticular the pitch effect.

From Table 2 it can be seen that the variation in Q2and Q3 responses was greatest for subjects AP, HL, IM,IT, MM and PT. Figure 3 demonstrates the effect of theposition of the pitch turning point in the Q2 and Q3 re-sponses of these subjects.

In Figure 3 it can be seen that Q3 is mainly perceivedif the TP is located at 3/6 and also at 4/6 of the V1. isresult is similar to those by Lippus et al. [13], where Q3was perceived when the TP was located at 1/3 of the V1.us, Q3 is not perceived when the TP is at the begin-ning of V1, but in the middle or close to the middle ofV1. When the TP was located in the second half of thevowel, mainly Q2 was perceived and that could be inter-preted as a strong influence of pitch on quantity percep-tion. Additionally, it can be assumed that the stimuluswith the TP at 1/6 of V1 was rather perceived as a lowlevel tonal movement. In Figure 3, one can see that inthis case Q2- and Q3-responses vary strongly. us, it

Page 50: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

Salveste: Variation of pitch cues in the perception of Estonian quantities 44

Q2−stimulus Q3−stimulus Q?−stimulus

Res

pons

es (

%)

020

4060

8010

0

Q2−stimulus Q3−stimulus Q?−stimulus

020

4060

8010

0

Q2Q3

Figure 2: Percent of Q2 (light gray) and Q3 (dark gray)responses to stimuli with three different duration ratios.

can be concluded that without the pitchmovement it wasdifficult for the test subjects to decide on the quantity ofthe stimulus.

As an imitation experiment was carried out, theacoustical properties could be measured in the imitationsof test subjects. Figures 4 and 5 demonstrate that thepitch movements and duration ratios in the pronuncia-tions of the stimuli with different duration ratios did notdiffer from each other. e most important result is thatthe pitch movements in pronunciations of Q2 and Q3 donot reveal any difference in locations of TPs. Responsesto the stimuli are always produced with the pitch fallingfrom the beginning of V1. Table 3 presents data for therange of pitch falls and the location of TP expressed asa percent of the duration of V1 showing the relative dis-tance of TP from the beginning of V1.

4. Discussion and conclusions

An imitation experiment was carried out to test the con-tribution of acoustic properties in the quantity percep-tion and production. On the basis of the results it can beconcluded that it was not possible to create the situationwhere the pitch cue and duration ratio could have con-tradicted with one another, because the duration ratioturned out to be more dominant. ere is reason to be-lieve that the dominance of the duration ratio emergedfrom the nature of stimuli. Duration in stimuli variedin 3 steps whereas pitch in 6 steps. It is suggested thatthe durational variation was clearer for the perception,because of the smaller variation in duration ratios, andmasked the variation in pitch movements.

Table 2: Percent of Q2 and Q3 responses to the stimuli withthree different duration ratios presented separately for eatest subject.

Perceived quantity (%)

V1/V2=1.5

V1/V2=2.5

V1/V2=2.0

Subject Q2 Q3 Q2 Q3 Q2 Q3

AP 98 2 12 88 68 32

HL 86 14 4 96 60 40

IM 95 5 0 100 49 51

IT 98 2 2 98 65 35

KK 100 0 0 100 90 10

LE 100 0 2 98 71 29

LS 100 0 2 98 81 18

MG 100 0 0 100 79 21

MJ 100 0 6 94 75 25

MM 98 2 3 97 58 42

MS 98 2 5 95 71 29

PT 100 0 0 100 57 43

Table 3: e percent of turning points and the range ofpit fall in responses given to different stimuli for femalesand males separately.

Turning point(%)

Range of thefall (Hz)

Stimulus Response Females Males Females Males

Q2 Q2 6.6 24.0 18.3 7.5

Q3 5.1 12.2 32.0 19.0

Q3 Q2 5.4 8.8 24.7 11.3

Q3 3.5 13.5 25.0 17.9

Q? Q2 6.4 27.2 18.1 8.3

Q3 8.5 12.6 24.2 13.2

However, a very important outcome of the experi-ment is that the stimuli with the duration ratio 2.0 re-ceived both Q2 and Q3 responses. As expected, twogroups of listeners emerged in the case of Q?-stimuli:one group of listeners, who perceived on the basis ofthe duration ratio that the stimuli belonged to Q2 andthe other group of listeners, who were influenced by thepitch movements on V1. For the second group of listen-ers the tonal information turned out to be crucial, be-cause they could not decide on the quantity of the stimulibased on the duration ratio only.

Page 51: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

Salveste: Variation of pitch cues in the perception of Estonian quantities 45

Res

pons

es (

%)

020

4060

8010

0

Res

pons

es (

%)

020

4060

8010

0

1 2 3 4 5 6

Position of TP in V1 of Q?−stimulus

Q2Q3

Figure 3: Percent of Q2 and Q3 responses to Q?- stimuliwith six different locations of TPs for test subjects AP, HL,IM, IT, MM and PT.

As seen in the analysis of the pronunciations givenby the test subjects to the stimuli, no categories in pitchproduction emerged. e reason may lay in the fact thatthe stimuli were presented to the test subjects and pro-nounced by them in the middle of a frame sentence. Eek[3] has stated that the characteristic location of the TPoccurs in sentence-initial or in sentence-final position.Sentence-internal position is oen unstressed and bothQ2 and Q3 carry the pitch fall from the beginning of V1.Asu et al. [1] also found that in spontaneous speech thedistinctiveness of pitch movements or of duration ratioscan be neutralized in unstressed positions.

As a result of the perception experiment reportedhere the duration ratio turned out to be more dominantthan the pitch cue. e pitch was crucial in the case ofstimuli where the quantity was not clear for the test sub-jects from the duration ratio. However, the quite stronginfluence of pitch cue in quantity provides motivationto continue clarifying phonetic and phonological role ofpitch in Estonian.

5. Anowledgmentsis study was partly supported by the Estonian ScienceFoundation grant GFLEE7904. I would like to thank allmy test subjects, and I am very grateful tomy supervisorsPire Teras and Eva Liina Asu-Garcìa, and also to PärtelLippus for their supportive and practical advice.

0 50 100 200 300

Word duration (ms)

Fre

quen

cy (

Hz)

100

150

200

0 50 100 200 300

Word duration (ms)

Fre

quen

cy (

Hz)

100

150

200

Pronunciation of Q2−stimulus

0 50 100 200 300

Word duration (ms)

Fre

quen

cy (

Hz)

100

150

200

0 50 100 200 300

Word duration (ms)

Fre

quen

cy (

Hz)

100

150

200

Pronunciation of Q3−stimulus

0 50 100 200 300

Word duration (ms)

Fre

quen

cy (

Hz)

100

150

200

0 50 100 200 300

Word duration (ms)

Fre

quen

cy (

Hz)

100

150

200

Pronunciation of Q?−stimulus

0 50 100 200 300

Word duration (ms)

Fre

quen

cy (

Hz)

100

150

200

0 50 100 200 300

Word duration (ms)

Fre

quen

cy (

Hz)

100

150

200

Pronunciation of Q2−stimulus

0 50 100 200 300

Word duration (ms)

Fre

quen

cy (

Hz)

100

150

200

0 50 100 200 300

Word duration (ms)

Fre

quen

cy (

Hz)

100

150

200

Pronunciation of Q3−stimulus

0 50 100 200 300

Word duration (ms)

Fre

quen

cy (

Hz)

100

150

200

0 50 100 200 300

Word duration (ms)

Fre

quen

cy (

Hz)

100

150

200

Pronunciation of Q?−stimulus

Figure 4: F0 movements of Q2 (circles) and Q3 (triangles)in responses given to the stimuli with three different du-ration ratios. e first part of the f0 contour is from V1,the second part from V2, the gap between V1 and V2 rep-resents the intervocalic consonant (duration = 70 ms). efirst row presents production of females and the second rowproduction of males.

Q2 !Q3 !Q2 Q3 Q2 Q3

01

23

45

6

Q2 !Q3 !Q2 Q3 Q2 Q3

01

23

45

6

N=684 N=15 N=20 N=665 N=470 N=211

Dur

atio

n ra

tio(V

1/V

2)

Q2−stimulusQ3−stimulusQ?−stimulus

Figure 5: Average duration ratios in responses given to thestimuli with three kinds of duration ratios. ‘!’ indicates thatthere were too lile data.

Page 52: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

Salveste: Variation of pitch cues in the perception of Estonian quantities 46

6. References[1] Asu et al. 2009 = Asu, Eva Liina, Pärtel Lippus, Pire Teras,

Tuuli Tuisk 2009. e realization of Estonian quantity char-acteristics in spontaneous speech. – Nordic Prosody. Pro-ceedings of the Xth Conference, Helsinki 2008. Frankfurtam Main: Peter Lang Verlag, pp. 49–56.

[2] Boersma, Paul, David Weenink 2010. Praat: doing pho-netics by computer (Version 5.1.30) [Computer program].Retrieved March 25, 2010, from http://www.praat.org/

[3] Eek, Arvo 1983. Kvantiteet ja rõhk eesti keeles (I). – Keel jaKirjandus, no 9, pp 481–489.

[4] Eek, Arvo; Meister, Einar (1998). Estonian speech in theBABEL multilanguage database: phonetic-phonologicalproblems revealed in the text corpus. In: Workshop onSpeech Database Development for Central and Eastern Eu-ropean Languages: Granada, Spain, May 27, 1998.

[5] Krull, Diana 1992. Temporal and tonal correlates to quan-tity in Estonian. – Experiments in Speech processes. PER-ILUS, nr 15. Stockholm: Institute of Linguistics, StockholmUniversity, pp. 17–36.

[6] Krull, Diana 1993. Word-prosodic features in Estonian con-versational speech: some preliminary results. – Experi-ments in Speech processes. PERILUS, 17. Stockholm: In-stitute of Linguistics, University of Stockholm, pp. 45–54.

[7] Lehiste, Ilse 1960. Segmental and syllabic quantity in Esto-nian. – American Studies in Uralic Linguistics. Ed. omasA. Sebeok. Uralic and Altaic Series, vol. 1. Bloomington:Indiana University Publications, pp. 21–82.

[8] Lehiste, Ilse 1997. Search for Phonetic Correlates in Esto-nian Prosody. – Estonian Prosody: Papers from a Sympo-sium. Ed. by I. Lehiste and J. Ross. Tallinn: Institute ofEstonian Language, pp. 11–35

[9] Lehiste, Ilse 2003. Prosodic change in progress: fromquantity language to accent language. – Development inProsodic Systems. Eds. Paula Fikkert, Haike Jacobs. Berlin:Walter de Gruyter GmbH & Co, pp 47–65.

[10] Liiv, Georg 1961. Eesti keele kolme vältusastme kestus jameloodiatüübid. – Keel ja Kirjandus, no 7 ja 8, pp 412–424ja 480–490.

[11] Lippus et al. 2009 = Lippus, Pärtel, Karl Pajusalu, Jüri Allik2009. e tonal component of Estonian quantity in nativeand non-native perception. – Journal of Phonetics, vol 37,pp. 388–396.

[12] Lippus, Pärtel, Karl Pajusalu (2009). Regional variation inthe perception of Estonian quantity. – Nordic Prosody.Proceedings of the Xth Conference, Helsinki 2008. Frank-furt am Main: Peter Lang Verlag, pp. 151–157.

[13] Lippus et al. 2010 = Lippus, Pärtel, Karl Pajusalu, Jüri Allik2010. e role of the pitch cue in the perception of theEstonian long quantity. TIE Conference Series on Tone andIntonation 3. Lisbon, 15–17. September 2008. (In Press)

[14] Parve, Merike 2003. Välted Lõuna-Eesti murretes. Tartu:Tartu Ülikooli Kirjastus.

[15] Pierrehumbert, Janet B., Shirley A. Steele 1989. Categoriesof Tonal Alignment in English. – Phonetica, No. 5, pp.181–196.

Page 53: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

S. Werner, T. Kinnunen (toim.), XXVI Fonetiikan päivät 2010, UEF 2011, s. 47–49ISBN 978-952-61-0391-4 (PDF). http://epublications.uef.fi/© by the author

Rytmi puheessa ja viittomisessa

Stina Ojala

Informaatioteknologian laitos, Turun [email protected]

1. JohdantoRytmi on olennainen osa kaikkea mitä teemme. Rytmintärkeyä ei tule edes ajatelleeksi, ei ennen kuin se syystätai toisesta häiriintyy. Rytmin häiriintyessä merkityksel-liset liikkeet tulevat lähes mahdoomiksi. Rytmi on olen-nainen osa myös puhea ja koartikulaatio on yksi ryt-min ilmentymä – artikulaatioelinten koordinoitu ja sau-maton yhteistyö mahdollistaa sujuvan puheen. Koarti-kulaation tutkimuksessa perinteisesti on käytey akusti-sen fonetiikan tutkimusmenetelmiä sekä erilaisia koejär-jestelyitä (mm. bite-block -tutkimukset, joita käytetäänartikulografiassa yleisesti ja erilaiset puudutukset [mm.11, 8]), mua viime aikoina myös Suomessa on tullutmahdolliseksi tutkia koartikulaatiota suoraan artikulo-grafialla. Koartikulaatiossa kuten muussakin koordinoi-dussa liikkeessä on yleensä mukana useampi kuin yksirytmi samaan aikaan. Esimerkkinä vaikkapa yksiäisentavun vaatima liikesarjojen yhdisteleminen: hengitysjak-so, kurkunpään, kielen ja huulten liikkeet yhtenä rytmi-senä kokonaisuutena.

Ja kaikki tämä tapahtuu samanaikaisesti, koordinoi-dusti – ja niin automaaisesti eemme sitä yleensä edesjää ajaelemaan puhuessamme. Artikulatorisen fonolo-gian esimerkit muistuavat orkesteripartituuria – jokai-sen instrumentin (tässä tapauksessa eri artikulaatioelin-ten) tuoamat osatekijät ovat omana rivinään paperil-la, joista yhteistyön tuloksena syntyy rytmitekstuuri -musiikkia tai puhea. Puhea voidaan siis kuvata liike-partituurilla, jossa jokaisella artikulaatioon osallistuvallaelimellä on oma rivinsä ja puheen sujuvuudenmiareinavoidaan käyää artikulaatioliikkeiden ajoitusta toisiinsanähden. Puherytmi on hyvin yksilöllinen, mua esim. erikieliset aksentit voidaan luokitella puherytmin ja äänne-kestojen avulla.

2. Rytmi puheessaJokaisella meistä on yksilöllinen puherytmi, siis jokai-sen puhe rytmiyy omalla tavallaan. Puhenopeus onmyöskin yksilöllinen, joskin yksilön ulkoiset tekijät, ku-ten esim. asuinpaikka (murre- ja kieliasu) tai ikä (sosio-lekti) vaikuavat niin, eä henkilöiden puhenopeus- jarytmipiirteet eivät erotu toisistaan liikaa. Murteita voi-daan luokitella myös esim. puhenopeuden perusteella jasen avulla voidaan lisätä mm. taiteellista vaikutelmaa ku-

ten esim. runonlausunnassa [6]. Puherytmi siis koostuumonista päällekkäisistä osarytmeistä. Nämä ovat keske-nään vuorovaikutuksessa niin, eä syntyy sujuva ja hel-posti tuoteava tapa puhua. Puhuessa pitää kuitenkin ot-taa huomioon myös kuulija, jolloin yksi rytmiin vaikut-tava tekijä onkin tilannekohtainen – henkilö, jonka kans-sa puhutaan. Myös se, kuinka monelle puhutaan vaikut-taa puhenopeuteen. Puhenopeus ja -rytmi on myös yksiselkeän puheen miareista – liian nopeasta puheesta onvaikea saada selvää.

Puherytmiä voidaan tarkastella artikulaatioliikesar-jojen, niiden yhdistelmän, äänteiden, äänneyhdistel-mien, sanojen, lauseiden, puhunnosten tai vaikkapa hen-gitysjaksojen tasolla. Jokaisella tasolla tapahtuvat muu-tokset vaikuavat kaikkiin muihin tasoihin. Niinpä esi-merkiksi hengästyminen vaikuaa kaikkiin muihin pu-herytmin tasoihin ja tuo niille muutoksia. Toisaalta kie-len liikkeiden estäminen tai estyminen vaikuaa muille-kin tasoille. Suurin osa puherytmiikan tutkimuksesta ontehty puheen prosodiikkaa käsielevissä projekteissa jatutkimushankkeissa. Puherytmin merkitystä vieraan kie-len aksentin havaitsemisessa tutkitaan Helsingin yliopis-ton ProoF-projektissa [20]. Puherytmiä on viime aikoinatutkiu myös mm. kaksosten puheen keskinäisissä ver-tailuissa [4, 9]. Keinäsen [4] mukaan puherytmi on yk-silöllinen, mua joidenkin kaksosparien puherytmi onkeskenään hyvin samankaltainen sekä äänne-, tavu- eäsanatasolla.

Joskus puhea rytmitetään ns. syke-eleillä (”beats”tai ”batons” [5]). Ne vahvistavat puherytmiä ja toimivatpuheen ulkoisena ”metronomina”. Ne synkronoidaan nii-hin kiinteimmin liiyviin akustisiin elemeneihin [10].Tässä yhteydessä mielenkiintoisimpia puhuessa tuote-tuista eleistä ovat juuri edellä mainitut syke-eleet, joi-den ajallinen synkronointi akustisten tapahtumien kans-sa on tarkimmin säädeltyä. Syke-eleitä käytetään hyväk-si myös rytmitykseen perustuvassa puheterapiassa [16],joka on käytössä mm. änkytyksen hoidossa.

3. Rytmi viittomisessa

Aivan kuten puhe, viiominenkin järjestyy ajassa. Myösviiomisen rytmi on yksilöllinen, mua toisin kuin pu-heesta, viiomisen rytmiikkaan vaikuavista tekijöistäei vielä ole paljonkaan tutkimuksia. Viimeaikaiset viio-

Page 54: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

Ojala: Rytmi puheessa ja viittomisessa 48

makieleen kohdistuvat tutkimukset ovat rytmielement-tien tutkimuksen osalta keskiyneet kielen taiteelliseenaspektiin ja rytmin osuuteen siinä [18], mua tutkiuon myös esimerkiksi lastenlorujen rytmielemenejä [2]ja yhden käden sisäisen koartikulaation rytmiikkaa [15].Taiteellisen aspektin tutkimuksissa on löydey viio-masiirtymistä sellaisia muotoja mitä tavallisessa kielen-käytössä ei esiinny. Viiomakielisen runouden fonolo-gian tutkimuksissa on keskityy mm. rytmin ilmaisuunviiomakielisissä lauluissa [7]. Kliman ja Bellugin mu-kaan amerikkalaisen viiomakielen runoudessa ja lau-luissa rytmi ja tekstuurit ovat lähinnä henkilökohtaistenmieltymysten mukaisia eivätkä niinkään vakiintuneita.

Viiomakielen koartikulaatio järjestyy pääosin kah-della tasolla: yksiäisen käden sisäinen koartikulaatio jakahden käden välinen interartikulaatio. Koska viiomi-seen on käyteävissä kaksi suurta artikulaaoria (kädet),on tutkiavana kolmiuloeisessa tilassa kolme koartiku-laation osa-aluea. Viiomien tutkimukseen sovelleu-na koartikulaatio sisältäämonta samanaikaista vuorovai-kutusta: peräkkäisten käsimuotojen, artikulaatiopaikko-jen, orientaatioiden, liikkeiden vaikutusta toisiinsa mo-lemmissa käsissä; käsien vaikutusta toisiinsa – siis mitenkäsien keskinäinen paikka viiomatilassa vaikuaa toi-siinsa; miten käsien etäisyys kehosta vaikuaa molem-piin edellisiin ja sitä, miten ilmeet vaikuavat toisiinsa.Kuten edellisestä listauksesta huomataan, on viiomienkoartikulaation tutkimus on laaja kokonaisuus. Lisää va-pausasteita viiomisen koartikulaatioon tulee siitä, eäkädet liikkuvat lähes toisistaan riippumaa aidosti kol-miuloeisessa tilassa.

Kaikki ihmiset viiovat eri tavalla, yksilölliset tyy-liseikat vaikuavat viioman edustuman lopulliseenmuotoon – voidaankin oleaa, eä jokaiselle ihmisel-le muodostuu jonkinlainen oma ”viioma-avaruus” (vrt.vokaaliavaruus [mm. 19, 1]; kuulokäyrät) – tieto siitä,mitkä ovat kunkin ihmisen omat viioma-avaruuden ää-ripäät kunkin viioman osalta. Koartikulaation vaiku-tuksesta syntynyt kunkin henkilön yksilöllinen viioma-avaruus on hänen viiomakielinen sormenjälkensä, jokaon hänen oma viiomatyylinsä.

Erilaisten aiemmissa tutkimuksissa käyteyjen mit-tausten perusteella löydeävissä oli kaksi limiäistä ryt-mitekstuuria: hitaampi, sekä käsillä eä muulla kehollailmaistu ja nopeampi, pelkästään käsillä ilmaistu rytmi[14, 15]. Tämä tulos on samankaltainen kuin mitä saa-daan segmentaalisten ja prosodisten yksikköjen rytmintutkimuksissa mm. akustisen fonetiikan tutkimusmene-telmillä. Tulos muistuaa myös puheen ja puhea tuke-vien eleiden välistä suhdea.

Sekä liikeratojen taloudellisuua eä vajaaliikkeidenkäyöä sääteleviä elemenejä on aiempien omien tut-kimusten perusteella löydey kaksi: käsien keskinäinenetäisyys ja viiomanopeus. Nämä kaksi elemeniä toi-mivat osaksi limiäin, osaksi erillään. Käsien keskinäi-

nen etäisyys vaikui liikenopeuteen niin, eä kun kädetolivat lähellä toisiaan liikenopeudet hidastuivat. Yksiäi-sistä sormista molempien käsien etusormet näyäisivätolevan määrääviä sormia: niiden liikelaajuudet ja –no-peudet ovat suurimpia verrauna muihin sormiin [15].Voisiko syynä olla etusormen erityistehtävä, joka on käy-tössä myös puheessa: osoiaminen? Käsien ja kehon vä-linen etäisyys sekä aiemmat ja seuraavat viiomat vai-kuavat myös viioman orientaatioon, ts. siihen, mihinsuuntaan kämmen ja sormet osoiavat suhteessa hori-sontaalitasoon [13].

4. Rytmin merkitys evoluutiossa –pohdintaa

Rytmi näyäytyy tärkeänä elemeninä kaikessa mi-tä teemme kävelystä nielemiseen ja hengityksestä pu-heeseen, käden heilautuksesta tervehtiessä viiomiseen.Kaiken kaikkiaan tekemisen rytmiyminen sykleiksinäyäytyy eri alojen tutkimuksissa riippumaa siitämiksi sitä kulloinkin kutsutaan. Jos siis sivuutetaan ter-minologiset kysymykset ja luetaan kirjallisuua avoiminmielin havaitaan, eä kaikki viiaa samaan rytmiseenominaisuuteen, joka itse asiassa on löydeävissä niin pu-heessa, viiomisessa kuin missä tahansa muussakin ih-misen toiminnassa [3]. Koska tämä rytmisyys tulee esiinuudestaan ja uudestaan ”ihmistutkimuksissa” siinä saat-taa piillä ihmisen kommunikaation evoluution avain. Sepuolestaan taas on tukemassa väiteä, eä eleet muo-dostavat yhtenäisen perustan sekä puheelle eä viio-mille [21].Toisin sanoen: kaikelle mitä teemme on löy-deävissä yhteinen nimiäjä: koartikulaatio ja rytmi.Eleien alkuperä kommunikaatioavaimena voisi seliääetusormen erityistehtävän, osoiamisen sekä puheessaeä viiomisessa. Tämän pikkulapset osaavat: he osoit-tavat sitä, mitä haluavat, kohdea, johon ovat menossa– yksinkertaisesti osoitus toimii heillä ei vain puheen tu-kena vain puhea korvaavana elemeninä. Sama osoit-taminen näyeli suurta osaa 1970-luvun kädellisten kom-munikaation tutkimuksissa [mm. 17]. Suurin osa kielen-tutkijoista on painoanut sitä, etä viiomakieli olisi jo-tenkin erilainen tai erikoinen. Viimeaikaisten tutkimus-ten valossa viiomakielen erikoisuus taitaakin olla se,eei mitään erikoista ole. [22], vaan viiominen, kutenkaikki muukin mitä teemme, järjestyy ajassa sykleiäin.Näin viiominenkin on vain yksi osa elämänrytmin il-mentymiä.

5. Viitteet[1] Aaltonen, O., Eerola, O., Hellstrom, A., Uusipaikka, E. and

Lang, A. H. (1997). Perceptual magnet effect in the lightof behavioral and psychophysiological data, Journal of theAcoustical Society of America 101(2): 1090-105.

[2] Blondel, M. & Miller, C. (2001). Movement and Rhythm inNursery Rhymes in LSF. Sign Language Studies 2:1, 24-61.

Page 55: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

Ojala: Rytmi puheessa ja viittomisessa 49

[3] Ghez, C. & Krakauer, J. (2000). Organization of move-ment. In Kandel, E.R., Schwartz, J.H. & Jessell, T.M. (eds.)Principles of Neural Science. McGraw-Hill: New York

[4] Keinänen, Leena (2010). Idenisten ja epäidenisten kak-sosten puhe - Monotsygooisten ja ditsygooisten kaksos-ten puheen vertailua kesto-, nopeus-, tauko- ja taajuusmit-tauksin. PhD dissertation. University of Helsinki.

[5] Kendon, A. (1972). Some relationships between body mo-tion and speech. In A. Siegman and B. Pope (eds.) Studiesin dyadic communication, 177-210. New York: PergamonPress.

[6] Kiparsky, P. (1975). Stress, Syntax and Meter. Language51:3, 576-616.

[7] Klima, E. & Bellugi, U. (1976). Poetry and song in a languagewithout sound. Cognition 4, 45-97.

[8] Laaksonen, Juha-Peri (2006). Control mechanisms ofspeech production. Evidence from Acoustic Studies ofSpeech aer Neural and Muscular Manipulations of theTongue. Annales Universitatis Turkuensis D730.

[9] Loakes, D. (2008). A forensic phonetic investigation into thespeech paerns of identical and non-identical twins. Inter-national Journal of Speech, Language and the Law 15:1, 97-100

[10] McNeill, D. (1992). Hand and Mind: what gestures revealabout thought. University of Chicago Press.

[11] Niemi M, Laaksonen J-P, Aaltonen O, Happonen R-P. Ef-fects of transitory lingual nerve impairment on speech: anacoustic study of diphthong sounds. Journal of Oral andMaxillofacial Surgery 62: 44–51.

[12] O’Dell, Michael and TommiNieminen 2001. Speech rhythmsas cyclical activity. In: Ojala, S. & Tuomainen, J. (eds.) 21.Fonetiikan päivät Turku 4.-5.1.2001 Publications of the De-partment of Finnish and General Linguistics of the Univer-sity of Turku 67: 159-168.

[13] Ojala, 2010. Rytmin vaikutus viiomiin ja puheeseen. Teok-sessa: Jantunen, T. (toim.). Näkökulmia viiomaan ja viit-tomistoon. Soveltavan kielentutkimuksen teoriaa ja käy-täntöä 5. (painossa)

[14] Ojala, S., Salakoski, T. & Aaltonen, O. (2008). Viiomienkoartikulaatiosta. In O’Dell, M. & Nieminen, T. (eds.) Fone-tiikan päivät 2008. Tampere Studies in Language, Transla-tion and Culture, Series B 3, Tampere: Tampere UniversityPress, 139-146.

[15] Ojala, S., Salakoski, T. & Aaltonen, O. (2009). Coar-ticulation in sign and speech. Proceedings of NoDaLi-Da 2009, Odense, Denmark. Electronically available athp://hdl.handle.net/10062/9208

[16] Orell, T. (2010). Rytminen puheterapia – rytmin käyöpuhemotoriikan kuntoutuksessa. Teoksessa Korpilahti, P.,Aaltonen, O. & Laine, M. (toim.): Kieli ja Aivot: Kommuni-kaation perusteet, häiriöt ja kuntoutus, ss. 330-336.

[17] Paerson, F. & Linden, E. (1981/1986). Koko – puhuva go-rilla.

[18] Peters, 2002 Deaf American Literature. From Carnival tothe Canon. Gallaudet University Press. Washington D.C.

[19] Savela, J., Ojala, S., Aaltonen, O. & Salakoski, T. (2007). Ro-le of different spectral aributes on vowel perception: thecase of Udmurt. Proceedings of NODALIDA 2007 in Tartu,384-388.

[20] Toivola, M., Aho, E. & Lennes, M. (2008). ProoF -projekti.Helsingin yliopisto.

[21] Wilcox, S. (2002). e gesture-language interface: evidencefrom signed languages. In Prillwitz, S, Hanke, T. & Vollha-ber, T. (eds.): International Studies on Sign Language andthe Communication of the Deaf.

[22] Zachau & Ojala, 2010. Viiomakieli. Teoksessa Korpilahti,P., Aaltonen, O. & Laine, M. (toim.): Kieli ja Aivot: Kom-munikaation perusteet, häiriöt ja kuntoutus, ss. 168-175.

Page 56: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

S. Werner, T. Kinnunen (toim.), XXVI Fonetiikan päivät 2010, UEF 2011, s. 50–58ISBN 978-952-61-0391-4 (PDF). http://epublications.uef.fi/© by the author

Suomen varieteettien välisistä kesto- ja perustaajuuseroistaCV.CV(X)-rakenteisissa sanoissa

Riikka Ylitalo

Oulun yliopisto

[email protected]

TiivistelmäTässä artikkelissa, joka pohjautuu väitöskirjani tuloksiin,tarkastellaan Oulun, Tampereen ja Turun seuduilla pu-huavien suomen varieteeien välisiä segmenikesto-ja F₀-eroja CV.CV(X)-rakenteisissa sanoissa. Väitöskir-jassa tutkituista viidestä suomen sanarakenteesta selväs-ti eniten varieteeien välisiä kesto- ja F₀-eroja ilmenijuuri CV.CV(X)-rakenteessa. Kestojen osalta voidaan ly-hyesti todeta, eä CV.CV(X)-rakenteisissa sanoissa Ou-lun ja Turun varieteeteissa ensimmäinen tavu on toistatavua lyhempikestoinen, mua Tampereen varieteetissaensimmäisen tavun kesto on toisen tavun kestoa lyhem-pi. Huomaavin varieteeien välinen perustaajuuseroon se, eä kontrastiivisesti aksentoiduissa CV.CV(X)-ra-kenteisissa sanoissa F₀:n huippu sijaitsee Turun varietee-tissa kauempana sanassa kuinOulun ja Tampereen varie-teeteissa.

1. JohdantoCV.CV(X) on erikoinen suomen sanarakenne siksi, et-tä toisin kuin useimpien muiden kielemme sanaraken-teiden, sen ensimmäinen tavu on fonologisesti lyhyt.Näin ollen CV.CV(X)-rakenteisen sanan toinen mora si-jaitsee vasta sen toisessa tavussa. Vaikuaa siltä, eäsuomen eri varieteeteissa toteutetaan tätä fonologises-ti poikkeuksellista rakennea edustavia sanoja foneet-tisesti hieman eri tavoin. Eriäin tunneu CV.CV(X)-sanoihin liiyvä foneeinen ilmiö on ns. puolipidennys,eli se, eä monissa suomen murteissa toisen tavun yksi-näisvokaali on ensi tavun yksinäisvokaalia pidempikes-toinen sanoissa, joiden ensimmäinen tavu on lyhyt. Kaik-kein laajimmin ilmiö on tullut tunnetuksi lounaismur-teiden piirteenä (esim. [turuˑs]). Lounaismurteiden lisäk-si puolipidennystä on havaiu lähes kaikilla muillakinsuomen murrealueilla, paitsi karkeasti sanouna vyö-hykkeellä, joka ulouu Etelä-Pohjanmaalta Kaakkois-Suomeen [2].

Tässä tutkimuksessa vertaillaan aksentoimaomienja kontrastiivisesti aksentoitujen CV.CV(X)-rakenteistensanojen foneeista toteutumista kolmessa suomen va-rieteetissa. Tutkiavina ovat Oulun ja Turun varieteetit,

joissa on havaiu puolipidennystä, sekä Tampereen va-rieteei, jossa pidennystä ei ole havaiu.

2. Tutkimusmenetelmät

Tutkitut CV.CV(X)-rakenteiset sanat ovat kolmen miai-sia; tyyppiä CV.CV, CV.CV.CV ja CV.CV.CVC.CV. Kuta-kin näistä rakenteista edustaa 10 sanaa. Kaksitavuiset sa-nat ovat koti, kumi, kuti, käpy, näky, Pasi, sata, Sepe, si-ka ja sopu, kolmitavuiset kotilo, kumina, kutina, Käpylä,näkymä, Pasila, satama, sepeli, sikala ja sopuli sekä ne-litavuiset kotilosta, kuminasta, kutinasta, Käpylästä, nä-kymästä, Pasilasta, satamasta, sepelistä, sikalasta ja so-pulista. Sanat siis muodos-

tavat kolmen sanan sarjoja, joiden kaksi ensimmäistätavua ovat segmentaalisesti samat, ja nelitavuiset sanatovat kolmitavuisten elatiivimuotoja.

Sanat sijoiteiin kehysvirkkeisiin aksentoinnin kan-nalta kolmeen erilaiseen asemaan: aksentoimaomaan,remaaisesti (lievästi) aksentoituun ja kontrastiivises-ti (vahvasti) aksentoituun asemaan. Seuraavissa esimer-keissä kohdesana on koti. Koehenkilöille anneiin ääni-tystilanteessa ohje lukea virkkeet ”korostaen” isoilla kir-jaimilla kirjoiteuja sanoja.

• Aksentoimaton asema:Sanoin eä Annan koti PYSTYTETTIIN kalliolle, ensanonut eä Annan koti PERUSTETTIIN sinne.

• Remaaisesti aksentoitu asema:Sanoin eä Annan koti puuuu TIEKARTALTA.

• Kontrastiivisesti aksentoitu asema:Sanoin eä Annan KOTI paloi, en sanonut eä An-nan KOULU paloi.

Aksentoimaomaan asemaan sijoitetun kohdesanan si-sältävissä kehysvirkkeissä, joissa kohdesana siis esiintyykaksi kertaa, mitaavaksi oteiin kohdesanan ensimmäi-nen esiintymä, vaikka jälkimmäinen esiintymä todennä-köisesti olisi vielä ensimmäistäkin varmemmin aksentoi-maton; silloinhan kyseessä on vanha tieto, jota harvoin

Page 57: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

Ylitalo: Suomen varieteettien välisistä kesto- ja perustaajuuseroista CV.CV(X)-rakenteisissa sanoissa 51

aksentoidaan. Koska kaikkien puhunnosten aikana kui-tenkin yleensä tapahtuu sävelkorkeuden laskua puhun-noksen alusta sen loppua kohden, on hyvä, eä tutkia-vat sanat esiintyvät puhunnoksissa samassa kohtaa senalusta lukien.

Ennen aineiston analysoimista kaikki koehenkilöidentuoamat kohdesanat kuunneltiin sen tarkistamiseksi,onko sanat aksentoitu tutkimusasetelmassa tarkoitetul-la tavalla ja äänney segmentaalisesti oikein. Kuuntelus-sa ilmeni, eeivät remaaisesti aksentoiduiksi tarkoite-tut kohdesanat yleensä olleet tulleet tuotetuiksi toivotul-la tavalla lievästi aksentoituina, vaan useimmiten täysinaksentoimaomina. Tästä syystä remaaisesti aksentoi-duiksi tarkoitetut sanaesiintymät jäteiin pois analysoi-tavasta tutkimusmateriaalista.

Tutkimuksessa on 18 koehenkilöä. Kuusi heistä onkotoisin Oulun seudun murteen alueelta, kuusi lounais-murteiden alueelta Turun seudulta ja kuusi perihämä-läisten murteiden alueelta Tampereen seudulta. Koehen-kilöt ovat syntyneet, tai asuneet korkeintaan muutamanvuoden iästä saakka, ja eläneet ainakin lähes koko elä-mänsä murrealueella, jota edustavat. Koehenkilöt ovatnuoria opiskelijanaisia, yhtä Turkua edustavaa koehen-kilöä lukuunoamaa yliopisto-opiskelijoita. He ovatsyntyneet vuosina 1980–1986, ja olivat äänityshetkellä18–25-vuotiaita.

Koehenkilöt saivat tutkiavat sanat kehyslauseineenlueavikseen äänitysstudiossa tietokoneen ruudulta. Virk-keiden lukemisen tahtia säädeltiin siten, eä koehenki-lö joutui pitämään kaikkien virkkeiden välissä vähintäänparin sekunnin tauon. Tällä pyriiin välämään luet-telomaisuua ja lukemismaneerien syntymistä. Luetutvirkkeet tallenneiin Oulun ja Turun varieteeien osal-ta suoraan kovalevylle (44,1 kHz, 16 biiä), Tampereenvarieteetin osalta MD-levylle.

Aksentoimaomia ja kontrastiivisesti aksentoitujaCV.CV(X)-rakenteisia sanoja tallenneiin yhteensä 1080(3 sanarakennea * 10 sanaa * 2 aksentuaatioasemaa *18 koehenkilöä), kultakin murrealueelta 360 sanaesiin-tymää. Näistä ei oteu mukaan analyysiin selvästi ei-toivotulla tavalla aksentoituja tai segmentaalisesti vir-heellisesti tuoteuja esiintymiä, joita ei kuitenkaan ollutpaljon.

Kohdesanoista mitaiin Praat-ohjelman avulla seu-raavat seikat:

• Kaikkien kohdesanojen äännesegmenien kestot.Kaksoisvokaalien, diongien ja kaksoiskonsonant-tien osalta mitaiin vain niiden kokonaiskes-tot, koska kaksoisvokaaleja ja -konsonaneja onmahdo-tonta jakaa kahta eri fonologista kompo-nenia edustaviin osiin foneeisin perustein, jadionginkin segmentointi kahdeksi eri vokaali-segmentiksi foneeisin perustein on vaikeaa, elleimahdotonta.

• Jokaisen kohdesanan sävelkorkeuskäyrän huippu-kohdan etäisyys sanan alusta.

• Perustaajuus seuraavista kohdista:

– kohdesanaa edeltävän tavun alusta ja lopusta

– kohdesanan ensimmäisen tavun alusta, kes-keltä ja lopusta sekä alun ja keskikohdan puo-livälistä sekä keskikohdan ja lopun puolivä-listä (yhteensä viidestä kohdasta ensimmästätavua)

– kohdesanan toisen tavun alusta, keskeltä jalopusta sekä alun ja keskikohdan puolivälistäsekä keskikohdan ja lopun puolivälistä (yh-teensä viidestä kohdasta toista tavua)

– kohdesanan kolmannen tavun alusta, keskel-tä ja lopusta

– kohdesanan neljännen tavun alusta ja lopus-ta

– kohdesanaa seuraavan tavun alusta, keskeltäja lopusta

– kohdesanan perustaajuuskäyrän huippukoh-dasta.

– kohdesanaa edeltävän tavun alusta ja lopusta

– kohdesanan ensimmäisen tavun alusta, kes-keltä ja lopusta sekä alun ja keskikohdan puo-livälistä sekä keskikohdan ja lopun puolivä-listä (yhteensä viidestä kohdasta ensimmästätavua)

– kohdesanan toisen tavun alusta, keskeltä jalopusta sekä alun ja keskikohdan puolivälistäsekä keskikohdan ja lopun puolivälistä (yh-teensä viidestä kohdasta toista tavua)

– kohdesanan kolmannen tavun alusta, keskel-tä ja lopusta

– kohdesanan neljännen tavun alusta ja lopus-ta

– kohdesanaa seuraavan tavun alusta, keskeltäja lopusta

– kohdesanan perustaajuuskäyrän huippukoh-dasta.

Kohdesanaa edeltävän ja seuraavan tavun perustaa-juudet mitaiin, joa nähtäisiin, miten kohdesanan sä-velkorkeudet suhteutuvat äänneympäristön sävelkorkeu-teen. Perustaajuuden miauskohtia sijoiteiin eniten sa-nan ensimmäiseen ja toiseen tavuun, koska on todeu,eä suomessa painotuksen kannalta kiinnostavimmat il-miöt tapahtuvat näiden tavujen aikana [3]. Lisäksi koh-desanojen varsinkin neljännet tavut olivat usein redusoi-tuneita. Hitaan ja työlään miaamisen vähentämiseksi

Page 58: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

Ylitalo: Suomen varieteettien välisistä kesto- ja perustaajuuseroista CV.CV(X)-rakenteisissa sanoissa 52

jäteiin myös kunkin murrealueen summiaisesti vali-tuilta kolmelta koehenkilöltä miaamaa perustaajuu-det aksentoimaomista sanoista, koska perustaajuudenkulku näissä sanoissa on ennusteavissa: sävelkorkeu-den muutoksia ei niiden aikana juuri tapahdu [4]. Mit-taustulokset kooiin SPSS-tiedostoon, ja kaikki tilastoa-nalyysit tehtiin SPSS-ohjelman avulla.

On vielä paikallaan tähdentää, eä tutkimuksen ai-neisto ei missään nimessä ole murrea, vaan yleiskie-listä lukupuhuntaa, eikä käsillä oleva tutkimus ole var-sinainen murretutkimus. Tästä huolimaa koehenkilöi-den tuoama yleiskielinen lukupuhunta on alueellises-ti väriynyä yleiskielistä lukupuhuntaa; puheen tietytalueelliset ominaisuudet tulevat esille myös tällaisessapuheessa. Äännesegmenien kestot ja aksentuaation to-teutuminen sävelkorkeuden muutosten avulla ovat mi-tä luultavimmin puhujalle itselleen hyvin tiedostamat-tomia asioita, joita puhujan on todennäköisesti eriäinhankala havaita, saati sien säädellä omassa puheessaan.Suomessa murrepiirteiden tiedostamista ei ole tutkiukovin paljon, mua yleinen käsitys kuitenkin on, eäfoneeiset murrepiirteet tiedostetaan huonommin kuinfonemaaiset [5, 6]. On myös havaiu, eä murrepiir-re tiedostetaan huonommin, jos se kytkeytyy yhtäaikai-sesti moneen kielen tasoon, eikä piirre liity mihinkääntieyyn yksiäiseen foneemiin [7]. Tässä tutkimuksessakäsiteltävät kielenpiirteet täyävät myös nämä kriteerit.

3. Tulokset

Alkuperäisissä analyyseissa [1] käytetyt luokielevatmuuujat ovat Prominenssi, Varieteei, Rakenne ja Ta-vuluku. Koska tässä kirjoituksessa käsitellään ainoas-taan CV.CV(X)-rakenteisia sanoja, Rakenne-muuujanvaikutuksista ei luonnollisestikaan ole mainintoja seu-raavassa tarkastelussa. Myöskään tavuluvun vaikutuksiaei mainita, koska tässä kirjoituksessa keskitytään varie-teeien välisiin eroihin, eikä Tavuluvulla ja Varieteetillaole yhteisvaikutusta yhteenkään CV.CV(X)-rakenteisistasanoista mitauun kesto- tai F₀-arvoon. Tekstin luea-vuuden parantamiseksi varieteeien nimityksiä on ly-henney; esimerkiksi ilmaus ”Segmeni X on lyhempiOulussa kuin Turussa” tarkoiaa seuraavassa ”SegmeniX on lyhempi Oulun varieteetissa kuin Turun varieteetis-sa”. Samasta syystä kontrastiivisesti aksentoituja sanojakutsutaan lyhemmin aksentoiduiksi sanoiksi.

3.1. Äännesegmenttien kestot

Mikäli prominenssi vaikuaa äännesegmentin kestoon,tämä tarkoiaa aineistossa aina sitä, eä kyseinen seg-meni on kestoltaan pidempi aksentoiduissa kuin aksen-toimaomissa sanoissa. Tämän vuoksi prominenssin vai-kutustapaa ei yleensämainita seuraavassa analyysien ra-portoinnissa.

Taulukko 1: Aksentoimaomien CV.CV(X)-rakenteistensanojen keskimääräiset äännekestot millisekunneissaeri varieteeteissa. T=tavuluku, Ou=Oulu, Ta=Tampere,Tu=Turku.

T C1 V1 C2 V2 C3 V3 C4 C5 V4

Ou 2 65 57 71 87

3 75 58 74 63 42 60

4 73 62 74 70 46 47 50 57 44

Ta 2 73 58 72 53

3 81 63 76 48 44 56

4 80 65 75 50 46 48 53 61 36

Tu 2 71 56 85 65

3 83 60 91 56 44 57

4 81 63 87 60 48 47 53 70 31

Taulukko 2: Kontrastiivisesti aksentoitujen rakenteen1 sanojen keskimääräiset äännekestot millisekunneissaeri varieteeteissa. T=tavuluku, Ou=Oulu, Ta=Tampere,Tu=Turku.

T C1 V1 C2 V2 C3 V3 C4 C5 V4

Ou 2 101 87 96 121

3 100 81 89 100 46 59

4 98 78 87 102 48 57 60 62 41

Ta 2 121 91 90 67

3 118 86 89 69 47 60

4 115 82 86 70 51 54 71 65 33

Tu 2 116 75 118 92

3 119 69 113 84 46 57

4 112 68 107 84 49 55 74 80 37

Prominenssi vaikuaa C1:n kestoon [F(1,90) = 97,02,p < 0,001]. Lisäksi siihen vaikuaa Varieteei [F(2,90) =5,34, p < 0,01]. Muuujien kesken ei ole yhteisvaikutusta.Post hoc -testi osoii, eä C1 on merkitsevästi lyhempiOulussa kuin muissa varieteeteissa, ja eä Turku ja Tam-pere eivät eroa toisistaan sen keston suhteen.

Prominenssi vaikuaa myös V1:n kestoon [F(1,90)= 133,92, p < 0,001]. Samoin siihen vaikuaa Varieteet-ti [F(2,90) = 9,73, p < 0,001]. Prominenssilla ja Varietee-tilla on V1:n kestoon yhteisvaikutus [F(2,90) = 6,55, p< 0,01]. Tämän yhteisvaikutuksen tutkimiseksi aksentoi-dut ja aksentoimaomat sanat analysoitiin erillään toi-sistaan. Tällöin ilmeni, eä aksetoimaomissa sanoissaVarieteei ei vaikuta V1:n kestoon, mua aksentoiduissasanoissa V1 onmerkitsevästi lyhempi Turussa kuinmuis-sa varieteeteissa, joissa sen kesto on tilastollisesti sama[F(2,45) = 12,12, p < 0,001].

Page 59: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

Ylitalo: Suomen varieteettien välisistä kesto- ja perustaajuuseroista CV.CV(X)-rakenteisissa sanoissa 53

Kuva 1: Aksentoimaomien CV.CV-rakenteisten sanojenäännesegmenien keskimääräiset kestot millisekunneissaeri varieteeteissa.

C2:n kestoon vaikuavat Prominenssi [F(1,90) =81,93, p < 0,001] ja Varieteei [F(2,90) = 35,30, p < 0,001].Muuujien välillä ei ole yhteisvaikutusta. Post hoc -testiosoii, eä C2 on merkitsevästi pidempi Turussa kuinTampereella ja Oulussa, ja eä segmeni on Tampereel-la ja Oulussa tilastollisesti samanpituinen.

V2:n kestoon vaikuavat sekä Prominenssi [F(1,90) =79,40, p < 0,001] eä Varieteei [F(2,90) = 37,95, p < 0,001].Yhteisvaikutusta muuujien välillä ei ole. Post hoc -testiosoii, eä kaikki varieteetit eroavat merkitsevästi toi-sistaan V2:n keston suhteen: segmeni on pisin Oulussaja lyhin Tampereella.

Prominenssi vaikuaa myös C3:n kestoon [F(1,60) =5,61, p < 0,05], mua Varieteetilla ei ole vaikutusta tä-män segmentin kestoon. Muuujien välillä ei ole yhteis-vaikutusta. Samoin V3:n kestoon vaikuaa Prominenssi[F(1,60) = 6,59, p < 0,05], mua ei Varieteei, eikä muuu-jien välillä ole yhteisvaikutusta. C4:n kestoon vaikuaaProminenssi [F(1,30) = 13,32, p = 0,001]. Varieteei ei vai-kuta C4:n kestoon, eikä sen ja Prominenssin välillä oleyhteisvaikutusta segmentin kestoon. C5:n kestoon Pro-minenssi ei vaikuta, mua on olemassa taipumus siihen,eä C5 olisi pitempi aksentoiduissa kuin aksentoimao-missa sanoissa [p = 0,066]. Varieteei vaikuaa C5:n kes-toon [F(2,30) = 8,48, p = 0,001]. Muuujien välillä ei oleyhteisvaikutusta. Post hoc -testi osoii, eä C5 on mer-kitsevästi pidempi Turussa kuin Oulussa ja Tampereella,ja eä Oulussa ja Tampereella segmentin kesto on tilas-tollisesti sama.

V4:n kestoon Prominenssi ei vaikuta, mua Varie-teei vaikuaa [F(2,30) = 5,63, p < 0,01]. Muuujien välil-lä ei ole yhteisvaikutusta. Post hoc -testi osoii, eä V4on merkitsevästi pidempi Oulussa kuin Turussa ja Tam-pereella, ja eä jälkimimäisissä varieteeteissa segmenion tilastollisesti samankestoinen.

Kuvasta 1, jossa esitetään aksentoimaomien CV.CV-rakenteisten sanojen äännekestot eri varieteeteissa, nä-kyvät varieteeien väliset erot, jotka edellä selostetuissatilastollisissa analyyseissa todeiin sanan ensimmäises-sä ja toisessa tavussa: Oulussa C1 on lyhempi ja TurussaC2 pidempi kuin muissa varieteeteissa, sekä V2 on pisinOulussa, seuraavaksi pisin Turussa ja lyhin Tampereella.

Kuvassa 2 näkyvät aksentoitujen CV.CV-rakenteistensanojen äännekestot. Varieteeien väliset erot segment-tien kestoissa näkyvät selvästi: nytkin C1 on Oulussa ly-hempi ja C2 Turussa pidempi kuin muissa varieteeteis-

Kuva 2: Aksentoitujen CV.CV-rakenteisten sanojen ään-nesegmenien keskimääräiset kestot millisekunneissa erimurteissa.

Kuva 3: Aksentoimaomien CV.CV.CVC.CV-rakenteistensanojen äännesegmenien keskimääräiset kestot millise-kunneissa eri murteissa.

sa, ja V2 on pisin Oulussa ja lyhin Tampereella. LisäksiV1:n kesto on lyhempi Turussa kuin muissa varieteeteis-sa; vastaavaa eroa ei ole olemassa aksentoimaomissaCV.CV-sanoissa.

Koska Varieteei ei vaikuta CV.CV(X)-rakenteistensanojen C3:n tai V3:n kestoon eikä Varieteetilla jaTavuluvulla ole yhteisvaikutuksia ylipäätään minkäänCV.CV(X)-rakenteisten sanojen äännesegmentin kestoon,CV.CV.CV-rakenteisten sanojen äännekestoja esiäviäkuvia ei tässä yhteydessä ole nähtävillä. Tällaiset kuvatkuitenkin ovat esillä lähteessä [1].

CV.CV.CVC.CV-rakenteisten aksentoimaomien sa-nojen äännekestoja esiävässä kuvassa 3 näkyvät vastaa-vat varieteeien väliset kestoerot ensimmäisen ja toisentavun segmenteissä kuin kaksitavuisissa aksentoimao-missa sanoissa: C1 on lyhempi Oulussa ja C2 pidempiTurussa kuin muissa varieteeteissa, ja V2 on pisin Ou-lussa ja lyhin Tampereella. Lisäksi kuvasta näkyvät nemerkitseviksi todetut varieteeien väliset erot, eä C5on pidempi Turussa ja V4 pidempi Oulussa kuin muissavarieteeteissa.

Aksentoiduissa CV.CV.CVC.CV-rakenteisissa sanois-sa ovat voimassa kaikki samat varieteeien väliset kes-toerot kuin aksentoimaomissa CV.CV.CVC.CV-raken-teisissa sanoissa. Niiden lisäksi voimassa on sama V1:nkestoero kuin lyhemmissä aksentoiduissa CV.CV(X)-rakenteisissa sanoissa: segmeni on lyhempi Turussakuin muissa varieteeteissa.

Yhteenvetona edellisestä tarkastelusta voidaan to-deta, eä eniten varieteeien välisiä kestoeroja ilmeniCV.CV(X)-rakenteisten sanojen kahdessa ensimmäisessätavussa. Kolmannessa tavussa eroja ei ilmennyt lainkaan,mua neljännessä tavussa niitä jälleen havaiiin. Mer-kille pantavaa on, eä havaitut varieteeien väliset erotovat samat molemmissa tutkituissa prominenssiasteissalukuun oamaa sitä, eä V1:n kesto on aksentoimat-tomissa sanoissa sama kaikissa varieteeteissa, mua ak-

Page 60: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

Ylitalo: Suomen varieteettien välisistä kesto- ja perustaajuuseroista CV.CV(X)-rakenteisissa sanoissa 54

Kuva 4: Aksentoitujen CV.CV.CVC.CV-rakenteisten sano-jen äännesegmenien keskimääräiset kestot millisekun-neissa eri murteissa.

sentoiduissa sanoissa pidempi Turussa kuin muissa va-rieteeteissa.

Kun testaiin, onko varieteeien välillä erojaCV.CV(X)-rakenteisten sanojen äännesegmenikoh-taisissa aksenipidennysmäärissä, eli siinä kuinkapaljon pidempikestoisia sanojen eri äännesegmentitovat aksentoiduissa kuin aksentoimaomissa sanoissa,havaiiin eä eroja on ainoastaan yksi: V1 piteneeTurussa vähemmän kuin muissa varieteeteissa, joissasegmeni pitenee saman verran [F(2,45) = 9,14, p < 0,001],mua minkään muun segmentin aksenipidennyksenmäärään Varieteei ei vaikuta.

3.2. Perustaajuudet

Eri puhujaryhmien absoluuiset keskimääräiset perus-taajuusarvot poikkeavat toisistaan lähes väistämää.Näin ilmeni olevan asian laita myös tämän tutkimuk-sen aineistossa, jossa keskimääräinen absoluuinen F₀kohdesanaa edeltävän tavun alussa on suurin Oulussaja pienin Tampereella. Tämän vuoksi kaikki aineistonsanoista mitatut F₀-arvot normalisoitiin ennen analyy-sien tekemistä. Aksentoidut ja aksentoimaomat sanatnormalisoitiin erikseen. Normalisoinnissa kunkin promi-nenssiryhmän sanojen F₀-arvot suhteuteiin niitä kehys-lauseissa edeltävien tavujen alusta mitaujen perustaa-juusarvojen keskiarvoon siten, eä kohdesanoista mita-tuista F₀-arvoista vähenneiin kyseistä sanaa edeltäväntavun alun perustaajuusarvo, ja erotukseen lisäiin kaik-kia saman prominenssiryhmän sanoja edeltävien tavujenalun F₀-arvojen keskiarvo.

Perustaajuuden muutokset ovat aineiston aksentoi-maomissa sanoissa vähäisiä. Lievät perustaajuudennousut aksentoimaomien sanojen aikana voivat toisi-naan olla merkki siitä, eeivät koehenkilöt ole tuoa-neet kaikkia aksentoimaomiksi tarkoitetuuja ja ääni-tysten jälkeisessä kuuntelussa aksentoimaomiksi luo-kiteltuja sanoja täysin ilman aksenia. Kuitenkin kai-ken kaikkiaan perustaajuuden nousuja esiintyy aksen-toimaomissa sanoissa hyvin vähän, ja olemassa olevatnousut tapahtuvat yleensä V2:ta ja V4:ää edeltävien kon-sonanien aikana. Muulloin aksentoimaomien sanojenperustaajuudessa tapahtuu lähinnä vain koko puhunnok-sen perustaajuuskäyrästä johtuvaa laskua. F₀:n porras-mainen nousu V2:ta ja V4:ää edeltävien konsonanienaikana johtunee mikroprosodiikasta: perustaajuuden on

Kuva 5: Perustaajuus eri murteissa kaiken miaisissa ak-sentoimaomissa CV.CV(X)- rakenteisissa sanoissa. Kestotovat pelkästään nelitavuisten sanojen kestoja.

todeu olevan suhteellisen suuri väliömästi soinnio-man plosiivin jälkeen [8]. Kaikki aineiston sanojen V4:iäedeltävät konsonantit ovat soinniomia plosiiveja, ja hy-vin suuri osa aineiston sanojen V2:ia edeltävistä kon-sonanteista on soinniomia plosiiveja. Kaikki aineistonV3:ia edeltävät konsonantit ovat puolestaan soinnillisia,eikä ennen V3:a tapahdu perustaajuuden porrasmaistanousua.

Varieteei vaikuaa aksentoimaomien CV.CV(X)-rakenteisten sanojen F₀:aan ainoastaan toisen tavunensimmäisessä miauskohdassa, jossa perustaajuus onsuurempi Oulussa kuin Tampereella, eikä Turku eroamuista varieteeteista asian suhteen [F(2,21) = 4,71, p <0,05]. Toisen tavun ensimmäiset miauskohdat eivät kui-tenkaan ole eri varieteeteissa ajallisesti täsmälleen sa-malla ajallisella etäisyydellä sanan alusta, kuten kuvas-ta 5 voidaan nähdä. Analyysissa, jossa vertailtiin Oulunja Tampereen varieteeien toisen tavun toisten miaus-kohtien ja Turun varieteetin toisen tavun ensimmäisenmiauskohdan F₀-arvoja, ei paljastunut varieteeien vä-lisiä merkitseviä eroja.

Aksentoiduissa sanoissa toteutuu selvä F₀:n nousu-lasku -kuvio kaikissa varieteeteissa. Ensimmäisessä ta-vussa F₀ on kuitenkin kaikissa viidessä miauskohdassasuurempi Oulussa kuin muissa varieteeteissa, jotka eiväteroa toisistaan asian suhteen (kohta 1 [F(2,45) = 11,04, p <0,001], kohta 2 [F(2,45) = 10,59, p < 0,001], kohta 3 [F(2,45)= 9,80, p < 0,001], kohta 4 [F(2,45) = 8,16, p = 0,001], kohta5 [F(2,45) = 7,22, p < 0,01]). Toisen tavun kolmessa en-simmäisessä miauskohdassa ei ole varieteeien välisiämerkitseviä perustaajuuseroja, mua toisen tavun kah-dessa viimeisessä miauskohdassa F₀ on Turussa suu-rempi kuin Oulussa, Tampereen eroamaa tilastollises-ti kummastakaan muusta varieteetista (kohta 4 [F(2,45)= 3,23, p < 0,05], kohta 5 [F(2,45) = 4,34, p < 0,05]). Kol-mannen tavun kahdessa ensimmäisessä miauskohdassaei ole merkitseviä varieteeien välisiä F₀-eroja. Kolman-nen tavun kolmannessa miauskohdassa F₀ on suurempi

Page 61: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

Ylitalo: Suomen varieteettien välisistä kesto- ja perustaajuuseroista CV.CV(X)-rakenteisissa sanoissa 55

Kuva 6: Perustaajuus ja äännesegmenien kestot eri mur-teissa aksentoiduissa CV.CV-rakenteisissa sanoissa. F₀:nkeskimääräistä huippukohtaa ei ole merkiy Turun va-rieteetin perustaajuuskäyrään, koska kyseinen kohta osuuC2:een, joka on suurimmassa osassa tutkiuja sanoja soin-niton.

Turussa kuin Oulussa, eikä Tampere eroa asiassa kum-mastakaan muusta varieteetista [F(2,30) = 4,27, p < 0,05].Neljännessä tavussa varieteeien F₀:t ovat tilastollisestisamanlaisia.

Kuvasta 6 näkyy selvästi, eä kaksitavuisissa aksen-toiduissa CV.CV-sanoissa F₀ on ensimmäisessä tavussakorkeampi Oulussa kuin muissa varieteeteissa. Toisen ta-vun osalta on näkyvissä, eä F₀ on Turussa selvästi kor-keampi kuin muissa varieteeteissa, vaikka tilastollises-ti merkitsevä perustaajuusero onkin olemassa vain Tu-run ja Oulun välillä toisen tavun kahdessa viimeisessämiauskohdassa. Tampereen ja Oulun toisen tavun F₀-käyrät ovat melko samanlaisia.

Kuitenkaan pelkästään vertailemalla varieteeien F₀-arvoja miauskohdissa, joiden sijainti ei perustu abso-luuiseen etäisyyteen sanan alusta, ei saada täydellistäkuvaa varieteeien välisistä perustaajuuden kulun erois-ta, koska tavuihin sidotut miauskohdat sijaitsevat erivarieteeteissa eri absoluuisella etäisyydellä sanan alus-ta sen vuoksi, eä äännesegmentit ovat eri varieteeteis-sa eri miaisia. Esimerkiksi kuvasta 6 näkyy, eä kaksi-tavuisissa aksentoiduissa CV.CV(X)-rakenteisissa sanois-sa Turun varieteetin toisen tavun ensimmäinen miaus-kohta on absoluuiselta sijainniltaan lähempänä Oulunvarieteetin toisen tavun toista kuin ensimmäistä miaus-kohtaa. Oulun ja Turun varieteeien toisen tavun ensim-mäisten miauskohtien välinen perustaajuusero ei siisole tilastollisesti merkitsevä, muaOulun varieteetin toi-sen tavun toisessa miauskohdassa, joka on absoluui-selta sijainniltaan sanan alusta lukien lähempänä Turunvarieteetin toisen tavun ensimmäistä miauskohtaa, F₀on pienempi kuin heti toisen tavun alussa. Kun vertailtiinkaiken pituisten CV.CV(X)-rakenteisten sanojen perus-taajuuksia Turun varieteetin toisen tavun ensimmäisenmiauskohdan, Oulun varieteetin toisen tavun toisen ja

Kuva 7: F₀ kaiken miaisissa aksentoiduissa CV.CV(X)-rakenteisissa sanoissa (kestot ovat pelkästään nelitavuistensanojen kestoja). Kohdat, joissa sijaitsevien miauspistei-den kesken tehtiin täydentäviä F₀-vertailuja, on ympäröity.

Tampereen varieteetin toisen tavun ensimmäisen mit-tauskohdan kesken, osoiautui, eä varieteeien välilläon tässä kohtaa sanaa tilastollisesti merkitsevä perustaa-juusero: F₀ on kohdassa suurempi Turussa kuin muissavarieteeteissa, joissa F₀ on tilastollisesti sama [F(2,51) =4,10, p < 0,05].

Samoin osoiautui, eä F₀ on Turussa suurempi kuinmuissa varieteeteissa, jotka eivät eroa asiassa toisistaan,myös kohdassa, johon sijoiuvat Oulun ja Tampereenvarieteeien toisen tavun kolmannet miauskohdat se-kä Turun varieteetin toisen tavun toinen miauskohta[F(2,51) = 6,56, p < 0,01]. Kohdassa, jossa ovat Oulun ja Tu-run varieteeien toisen tavun neljännet miauskohdat jaTampereen varieteetin toisen tavun viides miauskohta,F₀ on suurempi Turussa kuin Oulussa, mua Tampere eieroa muista varieteeteista asian suhteen [F(2,51) = 3,88, p< 0,05]. Kuten edellä mainiiin, toisen tavun loppuosassaF₀ on Turussa suurempi kuin Oulussa myös nimellisestisamojen miauskohtien välisessä vertailussa. Kuvassa 7on ympäröity ajallisesti toisiaan vastaavat kohdat, joidenF₀-arvoja edellä vertailtiin.

Tutkituista sanoista mitaiin F₀ myös perustaajuus-käyrän korkeimmasta kohdasta, kuten jaksossa 2 mai-niiin. Analyysit osoiivat, eä F₀:n huippu sijaitseekauimpana sanassa, 264 ms päässä sanan alusta, Turus-sa. Oulu ja Tampere eivät poikkea toisistaan F₀:n huipunsijainnin suhteen [F(2,45) = 10,09, p < 0,001]; Oulussa pe-rustaajuushuippu sijaitsee keskimäärin 172 ms ja Tam-pereella 207 ms päässä sanan alusta. Turun varieteetis-sa F₀:n huippu sijoiuu heti V2:n alkuun, jonka jälkeenF₀ lähtee laskuun, kun taas muissa varieteeteissa huippusaavutetaan ja F₀:n lasku alkaa viimeistään V1:n lopussa.

Koska suurimmassa osassa alkuperäisen aineistonCV.CV(X)-rakenteisia sanoja C2 on soinniton, niiden pe-rusteella ei voitu tietää, sijaitseeko F₀:n huippukohtaTurun varieteetissa vasta V2:n alussa myös sellaisissaCV.CV(X)-rakenteisissa sanoissa, joissa C2 on soinnilli-

Page 62: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

Ylitalo: Suomen varieteettien välisistä kesto- ja perustaajuuseroista CV.CV(X)-rakenteisissa sanoissa 56

Kuva 8: Perustaajuus ja äännesegmenien kestot milli-sekunneissa Turun varieteetin CV.CV-rakenteisissa aksen-toiduissa sanoissa. Perustaajuuden huippukohtaa kuvaavamerkki on osoiteu nuolella.

nen, vai sijoiuuko huippu niissä jo C2:een. Asian sel-viämiseksi hankiiin lisämateriaalia: 30 kontrastiivi-sesti aksentoitua CV.CV-rakenteista sanaa, joiden mo-lemmat konsonantit ovat soinnillisia, viiden koehenki-lön tuoamana, eli yhteensä 150 sanaesiintymää. Koe-henkilöt olivat samoja kuin alkuperäisen aineiston Tur-kua edustavat koehenkilöt (yksi alkuperäisen aineistonTurkua edustavista koehenkilöistä ei päässyt äänityk-seen), ja kohdesanat anneiin heidän lueavikseen sa-malla tavoin kuin ensimmäisessäkin äänityksessä. Sano-jen kehyslauseet olivat vastaavanlaisia kuin alkuperäisenaineiston kontrastiivisesti aksentoitujen sanojen kehys-lauseet. Koehenkilöiden puhetuotokset tallenneiin sa-malla tavalla kuin ensimmäisessäkin äänityksessä ja ti-lastolliset analyysit tehtiin edelleen SPSS-ohjelman avul-la.

Osoiautui, eä lisäaineiston sanoissa F₀:n huippu si-jaitsee keskimäärin 215 ms etäisyydellä sanan alusta, elihuomaavasti aikaisemmin kuin alkuperäisen aineistonTurkua edustavissa aksentoiduissa CV.CV(X)-sanoissa.Vertailun vuoksi laskeiin myös huipun sijainti alkupe-räisen aineiston pelkästään kaksitavuisissa aksentoiduis-sa CV.CV(X)-rakenteisissa Turun varieteetin sanoissa: seosoiautui sijaitsevan 247 ms sanan alusta, eli selväs-ti kauempana kuin uuden aineiston sanoissa, vaikkakinhieman lähempänä sanan alkua kuin alkuperäisen aineis-ton kaiken miaisissa Turun varieteetin aksentoiduissaCV.CV(X)-sanoissa keskimäärin.

Kuvassa 8 on esitey äännesegmenien kestot ja F₀:nkulku lisämateriaalin sanoissa. Kuvasta näkyy, eä pe-rustaajuushuippu sijaitsee lisäaineistossa hieman ennenC2:n puoltaväliä.

Turun varieteetin aksentoitujen CV.CV(X)-rakenteis-ten sanojen F₀:n huippu siis sijaitsee V2:n alussa, jos C2on soinniton, ja C2:ssa hieman ennen segmentin puolta-väliä, jos C2 on soinnillinen. Sanoissa, joissa C2 on soin-niton, F₀:n korkein huippu ”leikkautuu” pois.

Kaikkiaan Turun varieteetin F₀:n huipun myöhäinensijainti on huomaavin varieteeien välinen perustaa-juusero tutkituissa sanoissa.

4. Yhteenveto ja pohdintaaYhteenvetona tutkituista varieteeien välisistä eroistaCV.CV(X)-rakenteisissa sanoissa voidaan todeta, eä C1on molemmissa prominenssiasteissa lyhempi Oulussakuin muissa varieteeteissa. V1 on aksentoiduissa sanois-sa lyhempi Turussa kuinmuissa varieteeteissa, minkä saaaikaan segmentin Turussa muita varieteeeja vähäisem-pi aksenipidennys. C2 on pidempi Turussa kuin muissavarieteeteissa ja V2 on pidempi Oulussa kuin molemmis-sa muissa varieteeteissa sekä pidempi Turussa kuin Tam-pereella. Edelleen C5 on pidempi Turussa kuin muissavarieteeteissa ja V4 merkitsevästi pidempi Oulussa kuinmuissa varieteeteissa. Perustaajuuksien osalta tärkeim-mät havainnot ovat, eä aksentoiduissa sanoissa F₀:nhuippu sijaitsee Turun varieteetissa kauempana sanassakuin Oulun ja Tampereen varieteeteissa, ja eä aksen-toitujen sanojen F₀ nousee Oulussa korkeammalle kuinTurussa, ja Turussa puolestaan korkeammalle kuin Tam-pereella.

Lopuksi on paikallaan vielä hieman pohtia CV.CV(X)-sanojen kahden ensimmäisen tavun segmenikestoja.Taulukkoon 3 on laskeu taulukosta 1 näkyvien tieto-jen perusteella kaiken miaisten tutkiujen CV.CV(X)-rakenteisten aksentoimaomien sanojen neljän ensim-mäisen segmentin keskimääräiset kestot.

Suomi ja Ylitalo [9] havaitsivat segmentaalisestikontrolloituja aksentoimaomia sanoja tutkiessaan, eäsanojen äännesegmentit ja tavut olivat merkitsevästi pi-dempikestoisia esiintyessään sanan kahden ensimmäisenmoran rajaaman alueen sisäpuolella kuin esiintyessääntämän alueen ulkopuolella, ja pääelivät kestojen piden-tymisen olevan sanapainon korrelaai. Suomen ja Ylita-lon koehenkilöt olivat kaikki kotoisin pohjoismurteiden[10] alueelta. Seuraavaksi tarkastellaankin sitä, pätevät-kö Suomen ja Ylitalon tulokset CV.CV(X)-rakenteisissasanoissa Oulun varieteetin lisäksi myös Tampereen jaTurun varieteeteissa.

Taulukko 3: CV.CV(X)-rakenteisten aksentoimaomiensanojen neljän ensimmäisen segmentin keskimääräi-set kestot millisekunneissa eri varieteeteissa. Ou=Oulu,Ta=Tampere, Tu=Turku.

C1 V1 C2 V2

Ou 71 59 73 73

Ta 78 62 74 50

Tu 78 60 88 60

Taulukon 3 taustalla olevista, pyöristämäömistä mit-taustuloksista laskeuna aksentoimaomien CV.CV(X)-

Page 63: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

Ylitalo: Suomen varieteettien välisistä kesto- ja perustaajuuseroista CV.CV(X)-rakenteisissa sanoissa 57

sanojen ensimmäisen tavun kesto suhteessa niiden toi-sen tavun kestoon on Oulussa 0,89, Turussa 0,94 ja Tam-pereella 1,14. Varieteetilla on merkitsevä vaikutus tähänsuhdelukuun [F(2,45) = 43,60, p < 0,001], ja post hoc -testiosoiaa, eä tavujen kestosuhde on Tampereella merkit-sevästi erilainen kuin muissa varieteeteissa, joissa kysei-nen suhdeluku on tilastollisesti sama.

Taulukko 4: CV.CV(X)-rakenteisten kontrastiivisesti ak-sentoitujen sanojen neljän ensimmäisen segmentin kes-kimääräiset kestot millisekunneissa eri varieteeteissa.Ou=Oulu, Ta=Tampere, Tu=Turku.

C1 V1 C2 V2

Ou 100 82 91 108

Ta 118 86 88 69

Tu 116 71 113 87

Taulukon 4 taustalla olevasta pyöristämäömästä da-tasta laskeuna kontrastiivisesti aksentoitujenCV.CV(X)-rakenteisten sanojen ensimmäisen tavun kesto suhtees-sa toisen tavun kestoon on Oulussa 0,92, Turussa 0,94ja Tampereella 1,31. Varieteetilla on merkitsevä vaiku-tus myös tähän suhdelukuun [F(2,45) = 64,00, p < 0,001],ja post hoc -testi osoiaa, eä kestojen suhde on myöskontrastiivisesti aksentoiduissa sanoissa erilainen Tam-pereella kuin Oulussa ja Turussa, joissa se on tilastolli-sesti samanlainen.

Nämä tulokset voidaan tulkita siten, eä Tampereenvarieteetissa sanan pääpainosta toteutuu kestojen avul-la suurempi osa sanan ensimmäisessä kuin toisessa ta-vussa, kun taas Oulun ja Turun varieteeteissa tilanne onpäinvastainen. Rytmisessä mielessä Tampereen varietee-tissa toteutuu CV.CV(X)-sanoissa trokeinen rytmi (pit-kä–lyhyt), kun taas Oulun ja Turun varieteeteissa jam-binen rytmi (lyhyt–pitkä). Asian selviämiseksi tarkem-min tarviaisiin segmentaalisesti kontrolloidumpi mate-riaali, mua oaen huomioon, eä tämän tutkimuksenmateriaali on kuitenkin sama kaikissa varieteeteissa, ha-vaitun eron voidaan oleaa olevan todellinen.

Saaaa siis olla, eä tavurakenne on Tampereen va-rieteetissa tärkeämpi sanapainon ja aksentin foneeistatoteutumista määriävä tekijä kuin Oulun ja Turun va-rieteeteissa. Itse asiassa ainoa syy, miksi Suomi ja Yli-talo [9] pääivät kuvata sanapainon toteutumista kes-tojen välityksellä tavujen sijasta morien avulla, olivat(C)V.CV(X)-rakenteiset sanat. Jos tätä sanarakennea eiolisi olemassa, voitaisiin yksinkertaisesti sanoa sananpääpainon toteutuvan suomessa siten, eä segmeni-kestot ovat pidempiä sanan ensimmäisessä tavussa kuinmyöhemmin sanan ensimmäisessä tahdissa. Mua kos-ka (C)V.CV(X)-rakenne on olemassa, ja koska sen toisentavun yksinäisvokaalin kesto on esimerkiksi pohjoismur-teiden alueella puhuavassa suomessa pidentynyt, Suo-

mi ja Ylitalo katsoivat käytännöllisemmäksi määritelläsanapainon toteutumisalaksi sanan kahden ensimmäisenmoran rajaaman segmenijakson, kuin määritellä toteu-tumisalan olevan sanan ensimmäisen tavun, mikäli en-simmäinen tavu on fonologisesti pitkä, ja sanan kaksi en-simmäistä tavua, mikäli ensimmäinen tavu on fonologi-sesti lyhyt.

Koska sanapainon toteutumisala kuitenkin näyääTampereen varieteetissa painouvan sanan ensimmäi-seen tavuun, eikä CV.CV(X)-sanojen V2 ole Tampereel-la puolipitkä vaan paremminkin puolilyhyt (taulukon 4perusteella laskeuna aksentoiduissa CV.CV(X)-sanoissakestosuhde V2/V1 on Tampereella 0,80, kun taas Turus-sa se on 1,23 ja Oulussa 1,32), sanapainon toteutumisalavoitaisiin mahdollisesti määritellä Tampereen varietee-tissa yhtä luontevasti tavujen kuin morienkin avulla. Sa-ma saaaa päteä Tampereen seudulla puhuavan suo-men lisäksi muihinkin hämäläismurteisiin ja niihin poh-jautuviin puhesuomen varieteeeihin, yleensäkin sellai-seen suomeen, jossa ei esiinny puolipidennystä. Asianselviämiseksi tarvitaan lisätutkimuksia segmentaalises-ti tarkoin kontrolloidulla materiaalilla.

5. Lopuksi

Tutkimuksessa ilmeni monia segmenikestojen ja perus-taajuuden eroja CV.CV(X)-rakenteisissa sanoissa Oulun,Tampereen ja Turun seuduilla puhuavien suomen va-rieteeien välillä. Tampereen varieteetissa CV.CV(X)-ra-kenteisten sanojen ensimmäinen tavu on kestoltaan tois-ta tavua pidempi, kun taas Oulun ja Turun varieteeteissatoinen tavu on ensimmäistä tavua pidempikestoinen. Tä-mä viiaa siihen, eä Tampereen varieteetissa sanapainototeutuu kestojen avulla suuremmaksi osaksi CV.CV(X)-rakenteisen sanan ensimmäisessä tavussa kuin Oulun jaTurun varieteeteissa.

Tärkein tutkimuksessa paljastunut varieteeien väli-nen perustaajuusero on se, eä Turun varieteetissa F₀:nhuippu sijaitsee CV.CV(X)-rakenteisissa sanoissa vastasanan toisessa tavussa, sen sijaan Oulun ja Tampereenvarieteeteissa huipun sijaintipaikkana on ensimmäinentavu.

6. Lähteet

[1] Ylitalo, R.,e Realisation of Prominence inree Varietiesof Standard Spoken Finnish, Acta Universitatis OuluensisB 88, Oulu 2009.

[2] Wiik, K., “Suomen murteiden vokaalien kestoista”, O. Aal-tonen & T. Hulkko [toim.], Fonetiikan päivät – Turku 1985.XIII Fonetiikan päivillä Turun yliopistossa 30.–31.8.1985 pi-detyt esitelmät, Turun yliopiston suomalaisen ja yleisenkielitieteen laitoksen julkaisuja 26, 253–317, Turku 1985.

[3] Suomi, K., Toivanen, J. ja Ylitalo, R., Fonetiikan ja suomenäänneopin perusteet, Gaudeamus, Helsinki 2006.

Page 64: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

Ylitalo: Suomen varieteettien välisistä kesto- ja perustaajuuseroista CV.CV(X)-rakenteisissa sanoissa 58

[4] Suomi, K., Toivanen, J. ja Ylitalo, R., ”Durational and to-nal correlates of accent in Finnish”, Journal of Phonetics31, 113–138, 2003.

[5] Nahkola, K., Yleisgeminaatio. Äänteenmuutoksen synty javaiheet kielisysteemissä erityisesti Tampereen seudun hä-mäläismurteiden kannalta, SKS:n toimituksia 457, Helsinki1987.

[6] Makkonen, S., ”Ee tiällä nyt pelekkee savvoo puhuta”. Vie-remäläisnuorten murteen käyö ja tiedostaminen, pro gra-du -tutkielma, Oulun yliopiston Suomen ja saamen kielenja logopedian laitos, Oulu 1997.

[7] Kuisti, A., Enontekiöläisnuorten murteen tiedostaminen,pro gradu -tutkielma, Oulun yliopiston Suomen ja saamenkielen ja logopedian laitos, Oulu 2003.

[8] Hombert, J., ”Consonant types, vowel quality, and tone”, V.Fromkin [toim.], Tone. A Linguistic Survey, 77–111, Acade-mic Press, New York 1978.

[9] Suomi, K. ja Ylitalo, R., “On durational correlates of wordstress in Finnish”, Journal of Phonetics 32, 35–63, 2004.

[10] Paunonen, H., “Till en ny indelning av de finska dialekter-na”, Fenno-Ugrica Suecana 10, 75–95, 1991.

Page 65: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

S. Werner, T. Kinnunen (toim.), XXVI Fonetiikan päivät 2010, UEF 2011, s. 59–62ISBN 978-952-61-0391-4 (PDF). http://epublications.uef.fi/© by the authors

Puheentutkimuksen menetelmät -oppimateriaalihankkeen esittely

Osmo Eerola1, Olli Aaltonen2, Mona Lehtinen2

1Biolääketieteen tekniikan laitos, Tampereen teknillinen yliopisto2Käyäytymistieteiden laitos/puhetieteet, Helsingin yliopisto

[email protected], [olli.aaltonen|mona.lehtinen]@helsinki.fi

Tiivistelmä

Ajatus puhetieteilijöitä ja puhetieteen opiskelijoita pal-velevan menetelmätietopankin rakentamisesta esiteiinXXVI Fonetiikan päivillä 25.2.2010. Artikkelissa kuvataantämän PuMePa:ksi nimetyn hankkeen keskeinen sisältösekä esitellään aiheesta tehdyn kyselyn tuloksia. Kyse-lyyn vastasi yhteensä 10 henkilöä. Kyselyn perusteellaPuMePa:n toteuaminen sai kannatusta, mua sen to-dellinen käytännön hyöty vastaajille arvioitiin vähem-män tarpeelliseksi. Tulosten perusteella ajatusta kehite-tään eteenpäin ja toteutukseen lähdetään pienimuotoi-sesti esimerkiksi linkkikokoelman kaua.

1. JohdantoHelsingin yliopiston (HY) Puhetieteiden laitos on koor-dinoinut Suomen Kuluurirahaston vuosina 2008-2010rahoiamaa puhetyöpajaa, jonka toiminta jatkuu myös2010 jälkeen. Puhetyöpajan työryhmä ja laaja kirjoit-tajakunta ovat laatineet oppikirjan nimeltään Puhu-va Ihminen (2009, Otava). Kirjahankkeen jatkona onsuunnieilla puhetieteiden tutkimusmetodologiaan ja -menetelmiin keskiyvän oppimateriaalin tuoaminenalan opiskelijoiden ja tutkijoiden käsikirjaksi ja verkko-materiaaliksi. Hankea kutsutaan nimellä PuMePa (Pu-heentutkimuksen MenetelmäPankki).

PuMePa-hanke esiteltiin Suomen puheentutkijoille25.-26.2.2010 pideyjen XXVI Fonetiikan päivien yhtey-dessä Mekrijärven tutkimusasemalla Ilomantsissa. Sa-massa yhteydessä kartoiteiin kyselykaavakkeella tule-vien käyäjien ja mahdollisten materiaalin tuoajienajatuksia hankkeen vaatimusmäärielyjen tuoamistavarten. Kartoitusta laajenneiin toteuamalla maalis-kuussa 2010 verkkokysely puhetyöpajan sivustolla.

2. PuMePan mahdollisuudetMiksi PuMePa olisi mielekäs hanke? Ensinnäkin se olisisuomenkielinen portaali puhetieteiden menetelmiin. Seolisi opeajien ja tutkijoiden laatima, joten se vastaisijuuri opiskelijoiden ja tutkijoiden tarpeisiin. Ainakin jon-kinlaisen vertaisarvioinnin läpikäyneenä sillä olisi myöstiey laatutakuu paikkansapitävyydestä. PuMePa voi al-kaa pienestä, esim. linkkilistasta verkossa, ja kehiyä tar-

peen ja resurssien mukaan. Se voisi myös sisältää mah-dollisuuden vuorovaikutukseen muiden käyäjien kans-sa. Seuraavassa esitellään PuMePaa mahdollisten käyö-tapausten kaua.

2.1. Käyttötapauksia

• Opiskelija kertaa käymänsämenetelmäkurssinma-teriaalit teniä varten materiaalipankista. Kurssinaikana osallistujat ovat keskustelleet mieltään as-karruavista asioista materiaalipankin kaua.

• Harjoitustyötä, kandidaatintutkielmaa tai graduatekevä opiskelija turvautuumateriaalipankkiin saa-dakseen muistinvirkistystä ja kollegiaalista tukeamuilta menetelmien suhteen.

• Uusi menetelmä, ohjelma tai versiopäivitys ilmes-tyy. Materiaalipankki päivitetään. Kokeneemmatkäyäjät jakavat kokemuksiaan ja vinkkejään ma-teriaalipankin kaua, uudet voivat oaa oppia.

• Jatko-opiskelija huomaa tutkimuksessaan hyödyl-liseksi ohjelman, jota ei ole juuri käyänyt (esim.Praat). Materiaalipankista ja sen käyäjiltä hän saatietoa, vinkkejä ja konkreeista apua.

• Tutkimussuunnitelmaa tekevä tutkija tarkistaa tie-tokannasta, mistä Suomessa löytyy tarviaviinmiauksiin sopiva laieisto.

3. PuMePan mahdollinen sisältö jatoteutustapa

Huomaava osa tarviavastamateriaalista on jo olemas-sa verkossa valmiina dokumeneina tai niiden esiastei-na. Keskeinen osa työtä on löytää, analysoida ja muoka-ta tämä materiaali hankkeen edellyämään muotoon –lisäksi tarvitaan täydentävää materiaalia.

3.1. Mahdollista sisältöä

Parhaimmillaan PuMePa palvelee monia eri tieteenalojaja käyäjäryhmiä.

Page 66: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

Eerola et al.: Puheentutkimuksen menetelmät -oppimateriaalihankkeen esittely 60

3.1.1. Tutkimusmenetelmät

PuMePa sisältäisi nimensä mukaisesti tietoa tutkimus-menetelmistä: ohjelmista, koeasetelmista jne. Laieidenja ohjelmien kohdalle pankista voisi löytyä esim. linkke-jä valmistajan sivuille ja jo olemassa oleviin käyöop-paisiin jne. PuMePassa voisi olla myös käyäjien itsensäkirjoiamia käyökokemuksia ja neuvoja liiyen mene-telmiin, ohjelmiin tai laieisiin. Samassa yhteydessä voi-si olla myös linkkejä, käyäjien kokemuksia ja neuvojaliiyen johonkin tieyyn menetelmään (esim. artikulo-grafi).

3.1.2. Koehenkilöt

Koehenkilöiden kanssa toimimiseen liiyy paljon huo-mioitavaa, opiavaa ja muisteavaa. Luvat, perustieto-lomakkeet, ohjeet ja vallitsevien käytäntöjen kuvauk-set löytyisivät kätevästi PuMePasta. Menetelmäpankkiinvoitaisiin myös koota neuvoja koehenkilöiden hankkimi-sen suhteen.

3.1.3. Tulosten käsiely

Mitä ohjelmia tai analyysitapoja tulosten käsielyssäkannaaa käyää ja miten niitä käytetään? Entä tulostenraportointi, tieteellinen kirjoiaminen? Näidenkin kysy-mysten kohdalla PuMePa voi tarjota ohjeita, linkkejä jakäyäjien kokemuksia. (Esim. keskustelunanalyysi.)

4. Kyselyn tulokset

Kysely toteuteiin Fonetiikan päivillä sekä verkkokyse-lynä. Kyselyyn saatiin 10 vastaajaa, joista suurin osa toi-mii tutkimustehtävissä. Vastaajien yhteenlasketusta työ-ajasta lähes puolet kuluu tutkimuksen tekoon. Mukanaoli 2 päätoimista opiskelijaa sekä 2 täysipäiväistä tutki-jaa, muut ilmoiivat työaikansa jakautuvan eri tehtä-vien kesken. 64% vastaajista työskenteli fonetiikan pa-rissa. Suurin osa vastaajista (99%) piti menetelmäpank-kia ainakin jonkin verran hyödyllisenä itselleen ja lähes-tulkoon 100% ainakin jonkin verran hyödyllisenä muil-le. Tärkeimpänä ominaisuutena pideiin metodologisenkirjallisuuden esielyä, linkkikokoelmaa kirjallisuuteensekä tietyn menetelmän asiantuntijoihin sekä kokeellis-tenmenetelmien kuvauksia. 40% vastaajista sijoiaisi Pu-MePan Helsingin yliopiston palvelimelle. 50% toteuaisihankkeen yhteisöllisesti esim. Wikipedian tyyliin. Kyse-lyssä tiedusteltiin myös mahdollista halukkuua osallis-tua PuMePanmateriaalin tuoamiseen – tässä yhteydes-sä 2 vastaajaa ilmoii voivansa olla mukana.

5. Johtopäätökset/yhteenveto

PuMePaa voidaan pitää, ainakin jossain muodossaan, to-teuamisen arvoisena. PuMePa tulee alkamaan pienestäja kehiymään tarpeen ja resurssien mukaan.

6. KiitoksetHaluamme kiiää kyselyyn vastanneita sekä hankeatukeneita.

Page 67: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

Eerola et al.: Puheentutkimuksen menetelmät -oppimateriaalihankkeen esittely 61

Kuva 1: Vastaajien työajan keskimääräinen jakautuminen proseneina

Kuva 2: Vastaajien ala

Kuva 3: Kuinka tärkeänä vastaajat pitävät PuMePaa itselleen

Kuva 4: PuMePan hyödyllisyys muille (opiskelijat, tutkijat)

Page 68: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

Eerola et al.: Puheentutkimuksen menetelmät -oppimateriaalihankkeen esittely 62

Kuva 5: PuMePa:n ehdoteujen ominaisuuksien arvioitu hyödyllisyys kyselyn perusteella

Page 69: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

S. Werner, T. Kinnunen (toim.), XXVI Fonetiikan päivät 2010, UEF 2011, s. 63–68ISBN 978-952-61-0391-4 (PDF). http://epublications.uef.fi/© by the authors

Phonetics and foreign language teaing in Finland

Elina Tergujeff1, Riikka Ullakonoja2, Hannele Dufva1

1Department of Languages, University of Jyväskylä2Centre for Applied Language Studies, University of Jyväskylä

{elina.tergujeff|riikka.ullakonoja|hannele.t.m.dufva}@jyu.fi

Abstract

is paper reports the findings of a survey study, whichaimed at exploring the role of phonetics in foreign lan-guage teaching. University students (n=220) served asparticipants, filling in an online questionnaire about learn-ing of oral skills in foreign languages. In this paper weconcentrate on questions in which the participants re-flected on the teachingmethods usedwhen they aendedbasic and upper secondary education, and on what theparticipants saw as the components of good oral skillsin foreign languages. e results reveal that phonetictraining is not a frequently used method in foreign lan-guage teaching in Finland. However, there are differ-ences in the use of phonetic training between task typesand languages. Producing foreign language sounds ac-curately and appropriate intonation and speech rhythmwere considered relatively important factors of good oralskills by the participants, but theoretical knowledge aboutpronunciation and oral skills were not.

1. Baground

is paper reports the results of a survey study conductedin the autumn of 2009. e survey focused on Finnishuniversity students’ opinions on the learning of oral skillsin foreign¹ language (Swedish, English, German, French,and Russian) instruction at school. Here, we focus on therole of phonetic training in particular and discuss somedifferences between the instruction of different foreignlanguages. As theoretical background of this study wedraw on literature on phonetic training in language ped-agogy. A special reference is made to Finnish learners,since all subjects in our study were speakers of Finnish.In addition, we shall briefly mention studies on phonetictraining in foreign language textbooks, because textbookshave an important role in language teaching.

¹Here the term foreign language is used for any language that islearnt aer the mother tongue at school; also Swedish which is thesecond national language of Finland.

1.1. Phonetic training in language teaing

Phonetic training in language pedagogy is frequently as-sociated with the teaching and learning of phonetic (orphonemic) script and transcriptions in the InternationalPhonetic Alphabet (IPA). is is a controversial method(e.g. [1]) deriving from the Reform Movement of lan-guage teaching, with which the founding of the Inter-national Phonetic Association in 1886 is closely linked[2]. However, phonetic script as a learning tool is recom-mended in pronunciation teaching literature (e.g. [1]),used in foreign language textbooks (see 1.2 below), andconsidered beneficial especially to Finnish learners of for-eign languages (see 1.3 below). Phonetic script enablesthe learner to obtain explicit information about pronun-ciation, which is beneficial in particular when learninga language with weak spelling-to-sound correspondenceand ambiguous spelling. Learning phonetic script is alsoconsidered to have an important role in explicit pronun-ciation teaching, which is necessary in a sense that mereexposure to foreign language speech does not guaranteethe learning of pronunciation. [3]

However, phonetic training is not mere phonetic orphonemic transcription. Learners may also benefit fromexplanations on how particular sounds are articulated,analysis of how they themselves produce mother tongue(L1) and target language (TL) sounds, and of comparingL1 and TL sound systems [1]. In these activities toolssuch as phonetic terminology, (cardinal) vowel diagrams,formant maps and consonant charts can be made use of[4]. Moreover, phonetic training is not restricted to theproductive side of pronunciation, but can be used in theform of discrimination practice to train the ear for soundcontrasts and prosodic properties.

1.2. Phonetic training in foreign language textbooks

In Finnish schools, textbooks play a great role in bothmother tongue and foreign language teaching [5]. ere-fore it may be justified to assume that also the major-ity of pronunciation activities used in the foreign lan-guage classroom derive from published materials. Even

Page 70: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

Tergujeff et al.: Phonetics and foreign language teaching in Finland 64

though textbooks and other teaching materials are not awell-researched area, some recent studies have shed lighton pronunciation teaching materials in Finnish foreignlanguage textbooks, offering an insight into the use ofphonetic training in these materials. Terguje’s [6] text-book analysis on textbooks of English reveals that theIPA is extensively used in the selected textbooks, and thattasks in both producing and deciphering phonemic scriptare included. e textbooks also include discriminationpractice of both segmentals and suprasegmentals (wordstress) and make use of tactile reinforcement (cf. [2]) byencouraging the learners to e.g. feel voicing as vibrationin their throats while pronouncing voiced sounds.

In textbooks of German, phonetic training is not asextensively used, as stated in Pasanen [7]. Pasanen’sstudy reveals that IPA transcriptions are seldom used intextbooks of German – in some textbooks they are nonex-istent, and the TL sounds are described in terms of L1sounds. Salo [8] mentions the lack of pronunciation ex-ercises in textbooks of Swedish, even though pronuncia-tion is not the focus of his textbook analysis. Accordingto Salo, one of the selected textbooks does not addresspronunciation in any way. However, Isokallio’s [9] text-book analysis reveals that one of the selected texbooksof Swedish include discrimination practice on segmentsand varieties of Swedish.

1.3. Phonetic training and Finnish learners

Although there are few studies only that directly dealwith pronunciation teaching in the Finnish context (see[10]), there is a fair amount of contrastive phonetic orphonological studies, studies focusing on learning pro-nunciation and also some textbooks on the phonetic sys-tems of different languages (e.g. [11, 12, 13, 14, 15]) thatdeal specifically with Finnish as L1. On the basis of thesestudies, one has some knowledge at least on how Finnishlearners perceive and produce the segmental and prosodicproperties of certain foreign languages and it is also clearthat the results of these studies could be beer utilizedfor pedagogical purposes. Similarly, there is also researchon the role of orthography in learning pronunciation.For example, native speakers of Finnish are used to aclose leer-to-phoneme correspondence in their L1 (cf.[16]). erefore phonetic/phonemic transcription can beseen as particularly useful for Finnish learners of foreignlanguages, and this has also been demonstrated by Lin-tunen [17]. In his study, Lintunen found a correlationbetween the skills in transcription and pronunciation ofadvanced Finnish learners of English, and the majority(82%, n=111) of the learners themselves stated that theteaching of transcription had helped their pronunciation.e learners’ prior knowledge of phonetic symbols wasconsidered poor: 76.9% (n=108) stated they had not beentaught how to read the transcription symbols at school.

2. Present studye aim of the present study is to answer the followingresearch question: What is the role of phonetics in theteaching and learning of oral skills in different foreignlanguages at school? e issue is approached throughtwo subquestions: (1) As reported by university students,what methods have been used in the teaching of oralskills in foreign languages during their school time? (2)As reported by students, what are the components ofgood oral skills in foreign languages?

e participants (n=220) were language studentsfrom a Finnish university. Most of them (95%) werewomen and majored in language studies (89%). e ma-jority (95%) of the subjects were between 19–30 years ofage. All students’ L1 was Finnish.

e data were collected through an online surveyadministered in Mr Interview programme. e surveyconsisted of background information questions as wellas several multiple-choice questions concerning the stu-dents’ views about their learning of oral skills in foreignlanguages at school. e foreign languages included inthe study were: Swedish, English, German, French andRussian. In the present study, the questions focusing onteaching methods used to teach oral skills as well as oncomponents of oral proficiency in foreign language wereanalyzed. Other aspects have been discussed in e.g. [18].

Data were analyzed in programmes Microso Exceland PASW Statistics 18. χ2-test was used for testing thedifferences between the frequency distributions of dif-ferent variables.

3. ResultsBelow, we will discuss first, what kind of teaching meth-ods and activities the students said were used by theirteachers during the foreign language lessons wheneverthe learning of orals skills was concerned. Further, wespecify whether they mentioned phonetic aspects in par-ticular. Second, we will discuss how the students definedgood oral proficiency, discussing the position of phoneticaspects therein.

3.1. Teaing methods

Figure 1 shows a summary of the teaching methods thestudents reported as having been used by their foreignlanguage teachers during their school years. As moststudents have studied several foreign languages, severalanswers by the same student are included which resultsin the high value of n. e results show that listeningcomprehension and listen-and-repeat tasks were by farthe most frequently mentioned teaching methods. In ad-dition, oral skills tasks from the textbook as well as pairor group work were mentioned rather oen. e stu-dents report that activities involving learning strategies,role plays or technology are used only rarely. ese re-

Page 71: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

Tergujeff et al.: Phonetics and foreign language teaching in Finland 65

Figure 1: Summary of all teaing methods used to teaoral skills as reported by students (n=673).

sults seem to support the findings on the important roleof textbooks and publishedmaterials – but they also speakfor a possibly narrow range of activity types and taskspresented in these books. us one could speculate thatcertain traditional task and activity typeswill be recycledfrom one textbook generation to another.

In Table 1 below, the results for those teaching meth-ods that focus on phonetic issues in particular are shown.ese are teaching phonetic script, phonetic listeningtasks and practising intonation and rhythm. e χ2-testshows that the categories (never, rarely, sometimes, of-ten) differ statistically significantly from each other inall the three teaching methods. e percentages showthat overall 50% of the students reported having neverbeen taught phonetic script at school (cf. [17]). Accord-ing to 44–45% of the respondents, such teaching meth-ods involving phonetics as phonetic listening tasks andpractising intonation and rhythm had never been usedto teach oral skills, while 2–3% of the students reportedthat these had been used oen.

In the survey, students were asked to report theteaching methods in each of the foreign language theyhad studied at school. erefore, it is interesting to lookat possible differences between the languages.

As shown by Figure 2, teaching of the phonetic scriptwas reported to be more popular in some languages thanother. e majority of the subjects said that in Swedishand German it was never used as a teaching method, and

Table 1: Summary of selected phonetic teaing meth-ods used to tea pronunciation as reported by students(n=673).

Teachingphoneticscript

χ2 = 325.9,p < 0.0001

Phoneticlisteningtasks

χ2 = 331.4,p < 0.0001

Practisingintonationχ2 = 305.5,p < 0.0001

never 50% 45% 44%

rarely 32% 38% 38%

some-times 15% 15% 15%

oen 3% 2% 3%

Figure 2: Frequency of teaing phonetic script in differentforeign languages.(English: χ2 = 125.9, p < 0.0001; Swedish: χ2 = 207.5, p < 0.0001;German: χ2 = 87.6, p < 0.0001; Fren: χ2 = 23.3, p < 0.0001; Russian:χ2 = 7.6, p < 0.05)

in English, rarely. e χ2-test shows that the categories(never, rarely, sometimes, oen) differ statistically sig-nificantly from each other in all the five languages in-vestigated.

We also examined how oen phonetic listening tasks,e.g. ear-training for sound contrasts, were reported ashaving been in use in each of the foreign languages un-der investigation (see Figure 3). e students reportedthat these tasks were used never or rarely during English,Swedish and German lessons, while in the case of Frenchand Russian there was more variability in the students’answers. For example, 35% of the students said they wereused oen in the Russian language classroom. e χ2-test shows that the categories (never, rarely, sometimes,oen) differ statistically significantly from each other inall the languages investigated except Russian that has thesmallest number of respondents.

Page 72: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

Tergujeff et al.: Phonetics and foreign language teaching in Finland 66

Figure 3: Frequency of using phonetic listening tasks indifferent foreign languages.(English: χ2 = 120.7, p < 0.0001; Swedish: χ2 = 176.2, p < 0.0001;German: χ2 = 87.2, p < 0.0001; Fren: χ2 = 18.4, p < 0.0001; Russian:χ2 = 5.8, p > 0.1)

Furthermore, as shown in Figure 4, practicing into-nation and rhythm was not a popular classroom activ-ity. About a half of the students said that intonationand rhythm were never practised in English, Swedishand German instruction and 33–44% of the students re-ported these prosodic properties were practiced rarely.Again, concerning French and Russian, there were morestudents responding sometimes and oen than concern-ing other languages. e χ2-test shows that the cate-gories (never, rarely, sometimes, oen) differ statisticallysignificantly from each other in all the five languages.

In sum, our results seem to speak first, of the scarcityor irregularity of the phonetic instruction at the Finnishschool. Even though there is phonetic material availablein the textbooks and teachingmaterials, and even thoughmost of the activities seem to come directly from thesematerials, they are clearly not used in a regular fashion.However, there are interesting differences between thelanguages. As to the reasons, we can only speculate, butit can be suggested that in case of the “less taught” lan-guages (French and Russian) teachers may see it relevantto pay more aention to maers of pronunciation thanin the case of German, Swedish and English, languagesthat may be experienced as more “available” or “easy”by teachers. Also, the results may suggest that the roleof the teacher is also important in the sense that his orher own background may or may not involve phonetictraining.

3.2. Components of oral proficiency

In the survey, the respondents were also asked to choosethree most important and three least important compo-

Figure 4: Frequency of practising intonation and rhythmin different foreign languages.(English: χ2 = 147.4, p < 0.0001; Swedish: χ2 = 140.7, p < 0.0001;German: χ2 = 78.9, p < 0.0001; Fren: χ2 = 24.4, p < 0.0001; Russian:χ2 = 13.3, p < 0.005)

nents of oral proficiency in a foreign language from thelist in Table 2. Table 2 shows the components that wereestimated as the most important, in decending order ac-cording to the most important component.

As shown in Table 2 above, two components clearlystood out as ‘important’: 1) fluency and 2) comprehen-sion of speech. us the students clearly appreciate flu-ency as an essential feature of good foreign languagespeech (see also [19] for the role of fluency in FL speech)and also, its perceptual “counterpart”, spoken languagecomprehension. Also, a correct pronunciation of soundsand correct production of prosodic features such as stressand intonation are fairly highly regarded. To compare,Table 3 shows the least important aspects in oral profi-ciency as judged by the students.

As the students’ answers indicate, they saw a socio-pragmatic skill – i.e. using different varieties and reg-isters – as the least important factor in foreign languageoral proficiency. e second and third least important as-pects were, according to the students, theoretical knowl-edge about pronunciation/oral skills and a native-like per-formance. e fact that theoretical knowledge is appre-ciated so lile is of course interesting. It seems to suggestthat even at the university level, the students do not seethe merit of explicit, theoretical instruction, relying per-haps, on the notion that learning pronunciation occurs“spontaneously”.

4. Discussion and conclusionsToday – both at the level of CEFR [20] and national cur-ricula – the development of oral skills is seen as an im-portant goal of foreign language teaching. Although pho-

Page 73: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

Tergujeff et al.: Phonetics and foreign language teaching in Finland 67

Table 2: e most important components of oral profi-ciency in foreign languages according to the respondents.

mostimportant

(n=215)

2ndmostimportant

(n=213)

3rdmostimportant

(n=215)

fluency of speech 43% 31% 9%

comprehension of speech 36% 34% 10%

knowledge of conversation norms 8% 13% 26%

accurate production of sounds 7% 11% 31%

using language in a native-like way 3% 3% 4%

appropriate intonation and rhythm 2% 6% 12%

giving an oral presentation in for-eign language

0% 0% 1%

understanding different varietiesand registers

0% 1% 7%

using different varieties andregisters

0% 0% 0%

theoretical knowledge 0% 0% 1%

netics is not explicitly mentioned in this connection, itcan be suggested that both an explicit instruction on pho-netic issues and activities involving practice at both per-ceptual and productive levels are important factors in de-veloping oral proficiency. However, as the results of thepresent study seem to suggest, pronunciation skills areneither very explicitly nor very regularly dealt with ina Finnish foreign language classroom. e students’ an-swers also suggest that oral skills activities are most of-ten teacher-oriented (e.g. teacher correcting the pupils’pronunciation) or using the traditional exercises in thetextbooks and other teachingmaterials (see also [6]). especifically phonetic aspects of oral skills seem to be onlyrarely dealt with in a foreign language classroom. How-ever, the students’ answers seem to indicate that theythemselves value such aspects of their foreign languageproficiency, the learning of which would benefit fromphonetic training. Moreover, the students do not seemto connect theoretical knowledge to the development oftheir oral proficiency.

Finally, we wish to point out that it is important todiscuss, and perhaps reconsider, the teaching of oral skills– and its phonetic factors. Today, this is particularly cru-cial in Finland because of the future oral skills test as partof the National Matriculation Examination. It goes with-out saying that foreign language pedagogy needs to beresearch-based, drawing on the latest developments invarious areas and disciplines that examine oral commu-

Table 3: e least important components of oral proficiencyin foreign languages according to the respondents (n=215).

leastimportant

2ndleastimportant

3rdleastimportant

using different varieties and regis-ters

39% 32% 14%

theoretical knowledge 29% 22% 19%

using foreign language in anative-like way

20% 20% 24%

giving an oral presentation inforeign language

7% 10% 20%

fluency of speech 2% 1% 0%

knowledge of conversation norms 2% 2% 5%

appropriate intonation and rhythm 1% 1% 7%

accurate production of sounds 0% 1% 4%

comprehension of speech 0% 1% 1%

understanding different varietiesand registers

0% 8% 7%

nication and its learning. To develop the teaching of oralskills in the foreign language classroom, to design appro-priate materials and to enhance the ways of assessmentof oral proficiency, we also need a sophisticated theo-retical understanding on the nature of oral skills (in L1and in different additional languages) and new insightsinto how oral proficiency develops. is may mean thedevelopment of a model where oral skills are regardedholistically, starting from cultural and interactional is-sues and ranging into phonetic, perceptual and articula-tory aspects.

Summing up, although it is unquestionable that learn-ing to communicate in a foreign language involves var-ious social, cultural and individual factors and abilities,we have here aimed at pointing out the importance ofwhat are traditionally called phonetic (and/or phonolog-ical) aspects. e learners need to develop their percep-tual and articulatory skills but it can be argued that forthis they also need a sufficient amount of “theoreticalknowledge” on e.g. native and target language phonol-ogy, orthography and the like. For this, they need sup-port from their teachers and teaching materials. Conse-quently, more research is needed that only regards theissues at a theoretical level but connects the findings topedagogical practices.

.

Page 74: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

Tergujeff et al.: Phonetics and foreign language teaching in Finland 68

5. References[1] Seidlhofer, B., ”Pronunciation”, in Carter, R. and Nunan, D.

[Eds.], e Cambridge guide to teaching English to speak-ers of other languages, Cambridge University Press, Cam-bridge, 2001.

[2] Celce-Murcia, M., Brinton, D.M. and Goodwin, J.M,“Teaching pronunciation. A reference for teachers of En-glish to speakers of other languages”, Cambridge Univer-sity Press, Cambridge, 1996.

[3] Wells, J.C., “Why phonetic transcription is important”,Malsori (Journal of the Phonetic Society of Korea), 13–32,239–242, 1996.

[4] Iivonen, A., “Fonetiikan merkitys kielenomaksumisessa ja–opetuksessa”, in Iivonen, A., Aulanko, R. and Vainio, M.[Eds.], Monikäyöinen fonetiikka, Mimeographed series ofthe Department of Phonetics no. 21, University of Helsinki,2005.

[5] Luukka, M-R., Pöyhönen, S., Huhta, A., Taalas, P., Tar-nanen, M. and Keränen, A., “Maailma muuuu – mitätekee koulu? Äidinkielen ja vieraiden kielten tekstikäytän-teet koulussa ja vapaa-ajalla”, Centre for Applied LanguageStudies, University of Jyväskylä, 2008.

[6] Tergujeff, E. “Pronunciation teaching materials in FinnishEFL textbooks”, in A. Henderson [Ed], English Pronuncia-tion: Issues and Practices (EPIP): Proceedings of the FirstInternational Conference. June 3–5 2009, Université deSavoie, Chambéry, France, 2010.

[7] Pasanen, E., ”Ausspracheübungen in finnischen DaF-Lehrwerken – Eine untersuchung an sechs Lehrwerkserienür die Anängerstufe“, UnpublishedMAesis in German,Department of Languages, University of Jyväskylä, 2007.

[8] Salo, O-P., ”Vad, när och hur? Svensk läroboksgrammatikör finska elever” in Muiari, V. and Rahkonen, M. [Eds.],Svenskan i Finland 9, Department of Languages, Universityof Jyväskylä, 2006.

[9] Isokallio, S., “Kuuntelutehtävät perusopetuksen ruotsinoppikirjoissa Färdiga, gå! ja Klick 7”, Unpublished MAesis in pedagogics, Faculty of Pedagogics, University ofJoensuu, 2008.

[10] Iivonen, A. and Nevalainen, T., ”Vieraan kielen fonetiikanopetuksen lähtökohtia”. Publications of the Department ofPhonetics, University of Helsinki, Helsinki, 1998.

[11] Lehtonen, J., Sajavaara, K. and May, A., ”Spoken English:the perception and production of English on a Finnish-English contrastive basis”, Gummerus, Jyväskylä, 1977.

[12] Morris-Wilson, I., ”English segmental phonetics for Finns”,Finn Lectura, Helsinki, 1992.

[13] Kalmbach, J-M. ”Phonétique et prononciation du français– ranskan kielen fonetiikka ja ääntäminen”, Manycon Oy,Jyväskylä, 2003.

[14] Kuronen, M. and Leinonen, K., ”Svenskt ual ör fin-skspråkiga. Teori och övningar i finlandssvenskt ochrikssvenskt ual”, Juvenes Print, 2010.

[15] Mäkilä, K., de Silva, V., Kärkkäinen, H. and Ullakonoja, R.,”Uusi venäjän ääntämisopas”, Finnlectura, forthcoming.

[16] Suomi, K., Toivanen, J. and Ylitalo, R., ”Finnish sound struc-ture. Phonetics, phonology, phonotactics and prosody”,University of Oulu, Oulu, 2008.

[17] Lintunen, P., ”Pronunciation and phonemic transcription:a study of advanced Finnish learners of English”, Univer-sity of Turku, Turku, 2004.

[18] Tergujeff, E., Ullakonoja, R. and Dufva, H., ”Learning oralskills in different foreign languages”, paper presented atALAA 2010 Future Directions in Applied Linguistics, Bris-bane, Australia, 5 July 2010.

[19] Ullakonoja, R. and Dufva, H. ”Perception of L2 Fluency inStudy Abroad Context”, Academic Exchangearterly, 12(3), 62–66, 2008.

[20] Council of Europe, “Common European framework of ref-erence for languages: Learning, teaching, assessment”,Cambridge University Press, Council of Europe, 2001.

Page 75: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

S. Werner, T. Kinnunen (toim.), XXVI Fonetiikan päivät 2010, UEF 2011, s. 69–74ISBN 978-952-61-0391-4 (PDF). http://epublications.uef.fi/© by the authors

Yhdyssanasta suomen kielessä ja puheessa

Tommi Nieminen1, Anna Lantee2

1Kieli- ja käännöstieteiden laitos, Turun yliopisto2Kieli- ja käännöstieteiden laitos, Tampereen yliopisto

[email protected], [email protected]

Tiivistelmä

Finnish compounds have traditionally been viewed as“words” on a par with their constituent parts and thusshould be wrien together. is writing rule is howeveroen ignored, which has given rise to claims that theerror demonstrates “lack of linguistic insight”. We de-fend the opposite position: compounds are a syntactic-semantic phenomenon, and the convention of writingthem together is actually contrary to the intuitions of thelanguage speakers.

1. Johdanto

Yhdyssana kuvataan suomen kielen nykykuvauksissayleensä sananmuodostuksen yhteydessä, rinnan johta-misen (derivaation) kanssa. Yhdysmuodosteen katsotaannäin olevan sana samassa määrin kuin yhdistämätön sa-na tai johdoskin, jolloin siihen kohdistuvat myös samat”sanauden” ehdot kuten yksinään esiintymisen mahdol-lisuus, permutoinnin vapaus sekä sisäinen koheesio [1].

Näin määritellen yhdyssanan katsotaan kuuluvankielen (Saussuren languen) rakenteeseen ja löytyvän niinkirjoitetusta kuin puhutustakin kielenkäytöstä. Yhdyssa-na ei siis olisi vain ortografinen konventio vaan kielenreaalinen ominaispiirre, jolla on vastine kieltä puhuvanyksilön kielitajussa.

Sanastatuksen osoiaminen on kuitenkin ongelmal-lista. Esimerkiksi suomen sanoille ominaisista fonotak-tisista rajoituksista vokaalisointu ei yhdyssanoja kos-ke (ks. alalukua 4.1), yhdyssanan prosodinen yhtenäi-syys on kyseenalainen (4.5) ja havainnot niin puhutus-ta kuin kirjoitetusta kielestäkin osoiavat, eei yhdyssa-noihin kohdistu kielenkäyäjiltä samaa koherenssiodo-tusta kuin yhdistämäömiin sanoihin (4.5–4.6). Onko yh-dyssana siis oikeasti sana lainkaan vai syntaktinen kon-struktio?

Foneetikkoa koskeaa etenkin kysymys sanapainonyleisestä käytöstä yhdyssanauden kriteerinä: yhdyssa-nan katsotaan yhdistämäömän sanan tavoin saavan yh-den vahvan painon ensitavulleen. Käsitys löytyy niinkielenkuvauksista, oppikirjoista kuin kielentutkijoidenkäyökäsieistäkin. Empiirisen tutkimuksen tukea sillelöytyy kirjallisuudesta niukasti.

Tavoieemme tässä katsauksessa on tarkastella kriit-tisesti yhdyssanan asemaa sanana. Tavoieenamme eiole vastustaa ortografisen yhdyssanan käsiteä eikä väit-tää, eeikö puhutussakin kielessä voisi olla yhdyssano-ja (tai vastaavaa ilmiötä). Ensinnäkään ei ole aprioristasyytä, miksi kirjoitetun ja puhutun kielen pitäisi pyrkiäpiirteiensä yksi-yksisyyteen, joten havainnot puhutus-ta kielestä eivät sinällään muutu relevanteiksi kirjoite-tun yleiskielen normien suhteen. Kirjoitetussa kielessäyhteen- ja erikseenkirjoiaminen toteuaa kielenkäytönkannalta tarpeelliseksi koeua funktiota, vaikkei vastaa-vaa ilmiötä puhutusta kielestä (ja siten kielestä yleensä)voitaisikaan löytää. Toisekseen emme esitä, eeikö orto-grafisen yhdyssanan vastinea puhutusta kielestä voisilainkaan löytää, vaan eei sellaisia kriteerejä ole toistai-seksi esitey, jotka tätä ehdoomasti vaatisivat.

Esiteyjen kriteerien valossa, joita käymme läpi ar-tikkelin luvussa 4, emme näe syytä pitää yhdyssanojasanoina samassa mielessä kuin yhdistämäömiä sanoja.Nähdäksemme yhdyssanat olisi mielekkäämpää sijoiaakieliopissa syntaktiseksi eikä morfologiseksi ilmiöksi, jakatsoa tämän konstruktion toteutuvan puhutussa kieles-sä prosodisesti enemmän informaatiorakenteen (taktis-ten) seikkojen kuin tietyn leksikaalisesti koherentin hah-mon määräämänä.

2. Yhdyssanan ortografian historiaa

Yhteen- tai erikseenkirjoiaminen on nimenomaisestiortografinen seikka. Sanaväli on kirjoituksen keino, jolleei puhutusta kielestä suoraa vastinea löydy. Yhteenkir-joiamista perusteltaessa vedotaan kuitenkin usein sii-hen, millaiseksi yhdyssana kielen ja sen puhujien todel-lisuudessa ortografian perusteella postuloidaan.

Yhteenkirjoiamisperinteen ensisijainen alkuperä onselvä. Mallinantajakielinä toimivat saksa ja ruotsi, jois-sa tapa oli suomen kirjakieltä luotaessa jo käytössä.Ylipäänsä sanat aleiin eroaa toisistaan kirjoitukses-sa latinan väliömässä edeltäjässä etruskissa kuudennel-ta vuosisadalta eaa. alkaen [2, 3], ja tapa jäää jotkinkonstruktiot yhteenkirjoitetuiksi lienee peräisin samoiltaajoin. Yhteenkirjoiamiselle semmin esitetyt perustelut,painokriteeri mukaan lueuna, onkin nähtävä vakiintu-

Page 76: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

Nieminen & Lantee: Yhdyssanasta suomen kielessä ja puheessa 70

neiden ortografisten konventioiden jälkikäteiseksi moti-voinniksi.

Suomen yhteenkirjoitussäännöt eivät toki heti ol-leet täsmälleen kuten nykyään. Alusta saakka joitakinsanaketjuja tuli kuitenkin tavaksi kirjoiaa yhteen, toi-sia erikseen, ja yhteen kirjoiteiin paljolti samoja kon-struktiotyyppejä kuin siemminkin. Vanhassa kirjakie-lessä käytäntö vaihteli suuresti. Varsinkin varhaisinta or-tografiaa tarkasteltaessa on usein epäselvää, hallitsee-ko yhteen kirjoiamista mikään yleinen sääntö vai onkokirjoitusasu ratkaistu tapaus tapaukselta.

Kuvaavaa on, eä vaikka varhaisissakin sanakirjois-sa ja sanalueeloissa esiintyy yhdyssanoja, yhdyssanankriteerejä saatiin odoaa 1800-luvulle. Varhaisvaihees-sa yhdyssana on näin selkeästi ortografinen konventio,jota ei, kuten ei sananrajojen merkitsemistä muuten-kaan, koeu ehkä edes tarpeelliseksi perustella. Tilan-nea luultavasti helpoi, eä suomea kirjoiteiin jul-kisesti vähän ja eä niukoissakin kirjallisissa teksteissäyhteen- ja erikseenkirjoiaminen vaihteli suuresti. Var-haisista käsikirjoituksista ja kirjeistä kuitenkin tiedetään,eei yhdyssanojen erikseen kirjoiaminen suinkaan oleuusi tai englannista viime sotien jälkeen lainau ilmiö,kuten joskus on väitey, vaan osa suomen oikeinkirjoi-tuksen koko puolen vuosituhannen miaista historiaa.

3. Yhdyssanan kuvauksen historiaa

Varhaisimmissa suomen kuvauksissa (esim. [4]) yhdyssa-noja ei käsitelty lainkaan, vaikka niitä sanaesimerkkeinäesiintyi.

1800-luvun puolivälin tietämissä yhdyssana lopultailmaantui kielioppeihin omana lukunaan. Tuolloiset ku-vaukset muistuavat hämmästyävän paljon niin toisi-aan kuin myöhempiä, nykylukijallekin tuuja kuvauk-sia. Esim. Eurén [5] ja Collan [6] mainitsevat suunnilleensamat asiat suunnilleen samassa järjestyksessä: suomenilmaisuvoiman, mistä johdosten ja yhdyssanojen moni-naisuus toimivat esimerkkeinä; varhaisimmalle kirjakie-lelle tyypillisten yhdysverbien sopimaomuuden suo-men kieleen; yhdyssubstantiivien runsauden; niiden ta-vallisimman muodon eli nominatiivi- tai genetiivialkui-suuden sekä -nen-sanojen -s-vartalon yhdyssubstantiivinmääriteosana.

Eurénista ja Collanista nykypäiviin yleiskielioppienkuvaukset yhdyssanasta ovat säilyneet samankaltaisina.Yhdyssana kuvataan sanaan rinnastuvaksi konstruktiok-si, jonka ”litmustesteinä” toimivat tietyt kriteerit, tär-keimpinä näistä semaninen ero vastaavasta sanaliitos-ta sekä käsieellinen vakiintuneisuus (ks. 4.4) ja yh-dyssanan yksiäinen pääpaino (4.5). Esimerkiksi Saari-maa [7] aloiaa selkeimmästä tapauksesta eli siitä, mis-sä määriteosa on nominatiivimuotoinen substantiivi; täl-löin muista kriteereistä riippumaa sanat aina kirjoite-taan yhteen (ks. 4.3). Sen lisäksi hän mainitsee vain pai-nokriteerin:

Mikäli yhdyssana ei ole sellainen, eä yh-dysosat ovat samanarvoisia …, on siinä vainyksi painokukkula, yksi ainoa pääpaino, tie-tenkin ensimmäisellä tavulla niin kuin yh-distämäömissäkin sanoissa …. Sanaliitossataas on eri sanoilla tavallisesti oma paino-kukkulansa …. [7]

Vastaava väite esiintyy Kielitoimiston oikeinkirjoi-tusoppaassa [8]. Siinä yhdyssanauden pääkriteeriksi mai-nitaan käsieellinen vakiintuneisuus, vaikka myös tiet-tyjen muotojen yhteenkirjoiamisen konventionaali-suus tunnustetaan. Paino mainitaan ”tunnistamisen” vä-lineenä, mikä jo ilmaisuna antaa ymmärtää, eä yhdys-sanat nähdään kielenpuhujan sanatajun kannalta todel-liseksi kategoriaksi.

Keunen [9] ei eriele yhdyssanan kriteerejä mut-ta implikoi pitävänsä tärkeimpänä koherenssia (ks. 4.2 ja4.3): yhdyssanan väliin ei voi tulla muita sanoja. Hänenmukaansa yhdyssanoja ”on murteissa paljon vähemmänkuin yleiskielessä”, mistä hän todistuksena käyää puo-lihumoristisia vieruspareja kuten ”Tuusko sitä ollaan nie-meltä? [= ’Tuusniemeltäkö’] — Tuus”. Penilä [10] puo-lestaan salavihkaa korostaa yhteenkirjoiamisen arbit-raarisuua. Vaikka yhdyssanat mainitaan sananmuodos-tuskeinona, yhdyssanaus nähdään pitkälti konventiok-si: yhteen kirjoitetaan, jos jokin ”suhteellisen selväpiir-teinen periaate” löytyy ja ”vakiintunut tapa” sitä puol-taa, muulloin erikseen. Väljä on myös sanan määritelmä,jossa Penilä viiaa lähinnä merkityksellisyyteen sekätarkoieellisuuteen (referenssiin), jonka hän taas katsoovakiintuneista fraaseista kadonneen. Korostaessaan yh-dyssanan ja sanaliiton rajan olevan puhutussa kielessäepäselvä hän varovasti tukee tässä esiämäämme kan-taa, jonka mukaan yhdyssana on vain kirjoitetun kielenilmiö.

Uudemmista kieliopeista Leino [11] sijoiaa yhdys-sanat kokonaan sananmuoto-opin ulkopuolelle ja käsit-telee asiaa vain kirjoitetun kielen oikeinkirjoitussääntö-jen yhteydessä. ISK:ssa [12], josta jälkimmäisen tapai-nen osio teoksen deskriptiivisen luonteen vuoksi puut-tuu, yhdyssanat sijoiuvat sananmuodostukseen muamahdollisuus eroaa niitä sanaliitoista puhutussa kieles-sä kyseenalaistetaan.

4. Yhdyssanauden kriteerit

Tarkastellaan seuraavaksi tiiviisti yhdyssanauden kritee-rejä kielen eri tasoilla. Kysymys on siitä, miten yhdyssa-nan voi sanoa olevan samanlainen kuin sana, jonka yh-teen kirjoiamista ei kukaan kyseenalaista, ja erilainenkuin vastaava (erikseen kirjoiteava) sanaliio. Proso-dian irrotamme fonologiaosuudesta enemmän retorisistakuin metodologisista syistä: yhdyssanauden keskeisek-si kriteeriksi usein mainiu sanan yksiäinen pääpainoansaitsee tulla erikseen tarkastelluksi. Luvun lopuksi tar-

Page 77: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

Nieminen & Lantee: Yhdyssanasta suomen kielessä ja puheessa 71

kastelemme kirjoitetun kielen käytäntöä, vaikkei sitä kie-len tasoksi voikaan nähdä, koska se näkemyksemme mu-kaan muodostaa yhdyssanauden todellisimman kriteerinniin preskriptiivisessä kuin deskriptiivisessäkinmielessä.

4.1. Fonologia

Sanoilla on suomessa joitakin fonotaktisia erityisrajoi-tuksia:

1. sanat eivät voi alkaa konsonaniyhtymällä eivätkäpääyä siihen

2. sanan lopussa mahdollisia konsonaneja ovat vainalveolaarit (paitsi d): t, s, n, l, r

3. sanassa voi esiintyä vain joko takaisia tai etisiäsointuvokaaleja (a, o, u tai ä, ö, y).

Omia erityissääntöjään yhdyssanoilla ei ole eikä yhdys-sanan ja sanaliiton eroaminen näin ole fonotaktisin pe-rustein mahdollista. Koska yhdyssana koostuu sanoistaeikä esim. sanavartaloista (ks. kuitenkin alalukua 4.2), ra-joitukset 1–2 pätevät sellaisinaan niihinkin, sikäli kuinne kielen muutoksen ja uusien lainakerrostumien takiamuutenkaan ovat voimassa.

Poikkeuksena on kolmas, vokaalisointua koskevasääntö. Se on nimenomaisesti ollut tapanamuotoilla niin,eei se päde yhdyssanoihin (”samassa, yhdistämäömäs-sä sanassa …”). Fonologisen kriteerin perusteella yhdys-sana siis nimenomaisesti ei ole sana – tai vähintäänkinse on sanaksi fonotaktisesti poikkeuksellinen.

4.2. Morfologia

Yhdyssanoja ei erota yhdistämäömistä sanoista mikääntaivutus- tai johto-opillinen seikka. Yhdyssanat taipuvat,tai niiden perusosa taipuu (ks. kongruenssi, 4.3), samois-sa kieliopillisissa kategorioissa kuin muutkin sanat. Sa-moin yhdyssanoista voidaan muodostaa johdoksia ja neitse voivat muodostua johdoksista yhdistämäömien sa-nojen tapaan.

Tämä ei kuitenkaan varsinaisesti todista yhdyssanaasanaksi, koska myös sanaliitot voivat (tietenkin) sisältääjohdoksia ja muodostaa uusia johdoksia. Morfologisestiyhdyssana ei siis eroa sanaliitostakaan, mitä korostaa se,eä suomen yhdyssanat – toisin kuin joidenkin muidenkielten [13] – rakennetaan kokonaisista (nominatiivi- taiobliikvisijaisista) sanoista, niin perussanoista kuin joh-doksistakin, eikä esim. taivutusvartaloista.

Yleissääntöön ovat poikkeuksena ns. casus compo-nens -tapaukset. Ylivoimaisesti yleisempi poikkeuksis-ta on se, eä yhdyssanan määriteosana toimivan -nen-loppuisen nominin -nenmuuuu yhdyssanaan liiteäes-sä (kuten obliikvivartalossakin) -s-:ksi: esim. nainen →nais=. Harvinaisempi poikkeus koskee joidenkin sanojenloppuvokaalia ja mahdollisesti sitä edeltävää konsonant-tia: esim. kolme mua kolmi=, neljä mua neli=. Näiden

määriteosien joukko on rajallinen ja lienee kokonaisuu-dessaan pysyväksi vakiintunut.

Myös sanahahmon koherenssin eli sisäisen eheydenvoi sijoiaa morfologian alle. Yhdyssanan katsotaan ole-van konstruktio, joka ei hyväksy osiensa väliin muita sa-noja. Kuten Keusen [9] yllä lainau esimerkkikin osoit-taa, sääntö ei elävässä kielessä ole ehdoton. Koherenssiinliiyvää sanahahmouskriteeriä sen sijaan voi käyää jo-pa yhdyssanaa vastaan: vaikka ”yhdyssanojen” erikseen-kirjoiaminen onkin varsin yleistä, yhdistämäömiä sa-noja ei kirjoiteta ”erikseen”; ts. voidaan kirjoiaa sanomalehti muei *l ehti tai *leh ti. Sanahahmo on siis vahvastikielitajussa läsnä yhdistämäömille muei yhdyssanoil-le.

4.3. Syntaksi

Syntaktisesti yhdyssanan voi eroaa vastaavasta sana-liitosta inkongruenssi. Siinä missä esimerkiksi substan-tiivia määriävä adjektiivi taipuu tämän kanssa samassaluvussa ja sijassa, yhdyssanan määriteosana oleva adjek-tiivi tyypillisesti ei taivu: esim. märkä puku ’puku, jokaon märkä’ : märässä puvussa mua märkäpuku ’sukel-lusasu’ :märkäpuvussa. Säännöstä on tosin sanaliiton ta-voin käyäytyviä eli kongruoivia poikkeuksia, esim. sa-na omatunto : omassatunnossa.

Inkongruenssi on nimenomaan nominatiivialkuisiayhdyssanoja vastaavista sanaliitoista eroava piirre,koska vastaavat sanaliitot kongruoivat. Obliikvisija-alkuisetyhdyssanat ja sanaliitot käyäytyvät toistensa kanssa sa-moin: lehmän kello ’tietylle lehmälle kuuluva kello’ : leh-män kelloa, lehmänkello ’tietynlainen kello’ : lehmänkel-loa.

Obliikvisijaisten määriteosien tapaukset osoiavat,eei inkongruenssi ole ehdoton eikä tarpeellinen edelly-tys sanojen yhteenkirjoiamiselle. Silti inkongruenssi onoikeastaan semanisen eron ohella yhdyssanauden sel-kein ja kiistaomin kriteeri: inkongruentin ja kongruen-tin rakenteen formaalinen ero implikoi, eä kieli tekeerakenteiden välille funktionaalisenkin eron. Voidaan kui-tenkin kiistellä, mitä ero tarkoiaa. Inkongruenssia esiin-tyy myös sekvensseissä, joita ei ole ehdoteukaan yh-dyssanoiksi: esim. näillä näkymin tai tällä erää. Ero in-kongruentin ”yhdyssanan” ja kongruentin sanaliiton vä-lillä voidaan yhtä hyvin – ja kaiken sanotun valossa pa-remminkin – nähdä eroksi kahden erityyppisen syntak-tisen konstruktion kuin ”sanan” ja useammasta sanastakoostuvan sekvenssin välillä.

Koska sanaliio toimii syntaktisesti lausekkeena, setoimii lauserakenteessa samassa tehtävässä kuin yksiäi-nen sanakin ja oaa samaan tapaan lisämäärieitä, jotensyntaksia ei edellä sanoua laajemmin voi käyää yh-dyssanauden kriteerinä. Esimerkiksi sanaliiomärkä pu-ku voi saada genetiivimäärieen aivan samoin kuin yh-dyssana märkäpukukin.

Page 78: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

Nieminen & Lantee: Yhdyssanasta suomen kielessä ja puheessa 72

Yhdessä tietyssä sekvenssissä yhteenkirjoiaminenmääräytyy puhtaasti rakenteen kaua, muista kritee-reistä kuten semanisesta vakiintuneisuudesta riippu-maa. Milloin pysyvästi nominatiivimuotoinen substan-tiivi määriää toista substantiivia, yhteenkirjoiamisensääntö on nimiäin ortografisesti ehdoton. Tällaisten ta-pausten kirjoiamista erikseen kielenhuollosta kirjoia-vat ovat kutsuneet ”oireeksi sanatajun puueesta” [14].Tätä pidämme selkeänä ylilyöntinä. Ortografinen käsi-te on tällöin oteu liian tosissaan, etenkin kun on huo-maava, eä nimenomaan näissä tapauksissa semant-tiseen eroon perustuva testi (ks. 4.4) ei välämää toi-mi. Käsitys on suoraa perua vähintäänkin Saarimaahan[7] ulouvasta kielenhuollon perinteestä nähdä tämänpoikkeukseomimman oikeinkirjoitussäännön rikkomi-nen erityisen pahaksi, liki anteeksiantamaomaksi vir-heeksi. Kaikkia kirjoitussääntöjä, helpoimpiakin, on kui-tenkin mahdollista rikkoa, ja kuten käytäntö osoiaa, ri-kotaan (ks. 4.6). Tätä ei voi pitää todisteena kuin siitä,eei kirjoitussääntöä osata, muisteta tai siitä ei välitetä.

Edellä mainiuun koherenssiin liiyen voi mainita,eä on muitakin syntaktisia konstruktioita, jotka eiväthyväksy ”särkemistä” eli toisten elemenien tuloa si-säänsä. Särkymäömyyä on joskus jopa pidey yhtenälauseen konstituenien kriteerinä [15].

4.4. Semantiikka

Yhdyssanauden semaninen kriteeri koostuu kahdestatekijästä: käsieellisestä vakiintuneisuudesta, jota useinon yksiäistapauksissa vaikea vallankaan naiivin kie-lenkäyäjän arvioida, sekä semanisesta erosta suh-teessa vastaavaan yhdistämäömään ilmaukseen. Se-maninen ero tarkoiaa tässä lähinnä merkityksen ei-kompositionaalisuua suhteessa yhdysosiin eli emer-genisyyä Kelomäen [16] mielessä.

Lähinnä kielenhuollon suunnalta on anneu ymmär-tää, eä yhdyssanan ja sanaliiton semanisen eriyty-neisyyden takia ”yhteen ja erilleen kirjoiaminen ei …ole ’pelkkä oikeinkirjoitusasia’, vaan … syvälle kielenolemukseen kuuluva sanarakennekysymys” [14]. Sikä-li kuin kyse on käsieenmuodostuksesta, johon maini-tussa artikkelissa viitataan, on toa, eä yhdyssana voikäsieellisesti olla aivan eri asia kuin vastaava sana-liio. Tämä ei kuitenkaan ole sanarakennea koskevavaan semanis-käsieellinen kysymys. Lisäksi vastaa-van eron voi löytää niin fraaseista ja idiomeista kuin joh-doksistakin: esim. potkaista tyhjää voidaan kontekstissaymmärtää paitsi idiomaaisesti ’kuolemisena’ (joka olisi”yhdyssanamerkitys”) myös (kompositionaalisesti) ’tyh-jän potkaisemisena’; samoin, kuten Räisänen [17] todis-telee, päätellä voidaan johdoksen leksikalisoituneisuu-desta huolimaa joskus ymmärtää paitsi ’inferenssien te-kemisenä’ myös ’jatkuvana tai toistuvana pääämisenä’.Yhdyssana–sanaliio-eron tapauksessa kirjoituskäytän-teet antavat (puhutusta kielestä poiketen) systemaai-

sen mahdollisuuden osoiaa semanista eroa, idiomienja johdosten tapauksessa eivät.

4.5. Prosodia

Suomen kielioppikuvausten varsinmutkaton vaikkamut-kikkaasti ilmaistu yleissääntö suomen sanapainosta esit-tää sanan – niin yhdistämäömän kuin yhdyssanankin –pääpainon tulevan sanan ensitavulle ja sivupainon kol-mannelle, viidennelle jne. tavuille, ei kuitenkaan sananviimeiselle tavulle, mua jos kolmas tavu on lyhyt, sivu-paino siirtyy neljännelle, kuudennelle jne. tavulle. Yleis-kuvaus on todellisen puheen kannalta äärimmäinen yk-sinkertaistus.

Kielenkuvauksissa yhdyssana saa kuitenkin aina yh-den, vahvan painon ensitavulleen. Ääriesimerkkinä Nie-mi [18] väiää näin olevan jopa frasaalisissa ad hoc-yhdyssanoissa kuten mikä-sen-nimi-nyt-taas-olikaan-näyelijä tai anna-mun-kaikki-kestää-tilanne. On vai-kea kuvitella kielenpuhujien kykenevän tuoamaan näi-tä yksipainoisina juoksevassa puheessa.

Suomi [19] on itse asiassa torjunut kaikki yhdistämät-tömänkin sanan fonologiset ja prosodiset kriteerit. Sa-narajoja ei ole puheesta mahdollista eroaa yksin ään-neseikkojen perusteella. Nieminen [20] vuorostaan onosoianut yhdyssanan painotuksen vastaavan mitä ta-hansa sanajonoa. Hitaassa lukupuheessakin sanapainotjäävät usein toteutumaa, ja yhdyssanoissa useammat-kin osat, tai jokin muu kuin ensimmäinen, voi saada vah-vimman prominenssin Edelleen tämän artikkelin kirjoit-tajat osoiivat (julkaisemaomassa) Tampereen Fonetii-kan päivien 2008 posterissaan, eä monitulkintaisen yh-dyssanojen eroaminen toisistaan painon avulla on yli-päänsä hyvin epävarmaa. Voidaan siis päätellä, eä ku-ten jo Penilä [10] totesi ja kuten ISK:ssakin [12] myön-netään, puheessa yhdyssanat eivät erotu sanaliitoista.

Painotusta onkin mielekkäämpää tarkastella infor-maatiorakenteen kannalta. Jos esimerkiksi verrataan ”sa-naliioa” ˌnuori ˈpɑri vastaavaan ”yhdyssanaan” ˈnuo-ri=ˌpɑri, painotuksen ero on periaaeellisesti selvä. Eron-teko liiyy kuitenkin vähintään yhtä lailla informaa-tiorakenteeseen eli uusien tai tärkeiden sanojen koros-tamiseen kuin konstruktiotyyppiin. Lisäksi merkityse-ron uskoava, puheesta luoteavasti erouva tuoami-nen painon avulla on epävarmaa sellaisessa kielessä kuinsuomessa, jossa painon foneeiset korrelaatit ovat heikot[21].

4.6. Kirjoitetun kielen käytänteet ja käytäntö

Kirjoitetun kielen käytännössä yhdyssanavirheet liene-vät yleisin jatkuvasti esillä pysytellyt kielenhuoltoseikka.Yhdyssana-”virheet” paljastuvat tekstistä jo silmäillen, jasiksi ne osoiavat nopeimmin, kuinka hyvin kirjoiajahallitsee ortografisen konvention. Ei ole ihme, eä esim.Facebookissa on tätä kirjoiteaessa ainakin kaksi yhdys-

Page 79: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

Nieminen & Lantee: Yhdyssanasta suomen kielessä ja puheessa 73

sanavirheisiin liiyvää ryhmää sekä yksi aiheeseen liit-tyvä profiili.

Yhdyssanavirheet ja niistä valiaminen eivät oleuusia asioita, pikemmin muutos on tapahtunut siinä,kuinka laajalle yleisölle erilaisten kielenkäyäjien tekstitleviävät [22]. Vakiintuneimpienkin yhdyssanojen erik-seen kirjoiaminen on kaua suomen kirjoitetun kielenhistorian varsin vakaana pysytellyt ilmiö. Täsmällisiätilastotiedoiakin uskaltaa veikata, eä 1800-luvun kir-jeissä yhdyssanavirheiden määrä on samaa luokkaa kuin2000-luvun alun kouluaineissa.

Näyää siis siltä, eei ”yhdyssana” koherenina, rik-komaomana sanana ole koskaan kuulunut kaikkien kie-lenkäyäjien kielitajuun. Tämän perusteella on vaikeanähdä sen kuuluvan kielen rakenteeseen.

4.7. Kriteerien tiivistelmä

Semanis-käsieellistä kriteeriä voi pitää pätevänä:mär-kä puku on eri asia kuin märkä puku. Puheessa eroa onkuitenkin vaikea systemaaisesti toteuaa, joten kirjoi-tus on tältä osin pitää puhea tarkempi väline osoia-maan funktionaalista eroa. Muista kriteereistä vain casuscomponens -tapaukset näyävät tekevän todellisen eronsanaliioihin, ja nekin voi yhtä hyvin tulkita ”morfolo-giseksi sandhiksi”: tietyssä syntaktisessa konstruktiossa(”yhdyssana”) konstruktio määriää jonkin osan fonolo-gisen muodon osien rajalla.

5. Lopuksi: Yhdyssanoja ei ole

Historiakatsaus osoiaa, eä vähintäänkin Penilästäalkaen kielentutkijat ovat tunnustaneet yhdyssanan ole-van pikemmin kirjoiteuun kieleen kuin kieleen (langue)kuuluva käsite. Tästä huolimaa artikkelia edeltäneetesitelmämme Fonetiikan ja Kielitieteen päivillä heräi-vät yleisössä selvästi hämmennystä. Kielitieteen käytän-töön näkyy revenneen kuilu teoreeisen tiedon ja käy-tännön taidon välille.

Yhdyssana kuvaa osistaan semanisesti eriytyneenkäsieen. Tämä on jopa yhdyssanauden keskeisin kritee-ri. Merkityksen eriytyneisyys ja ei-kompositionaalisuuspätee kuitenkin myös moniin selviin ei-sanoihin kutenfraaseihin ja idiomeihin. Oleellista onkin kysyä, millä pe-rusteella yhdyssana on sana. Näin voidaan ratkaista, mis-sä määrin kielenhuollon kannalta virheellinen tapa kir-joiaa yhdyssanoja erikseen on vain tietämäömyyäkirjoitetun kielen normeista ja missä määrin merkki kie-litajun ongelmista.

Yhdyssanauden kriteerien kriiinen tarkastelu pal-jastaa, eei yhdyssana ole sana. Tässä mielessä yh-dyssanoja ei ole: ne eivät kuulu niinkään morfologisensananmuodostusopin kuin syntaktisten konstruktioidenja semanisen tulkinnan alaan. Yhteen kirjoiaminenon puolestaan ortografinen seikka, josta kielenhuollossavoidaan sopia tästä riippumaa. Nähdyn valossa on niin

asiallisesti kuin eeisestikin väärin syyllistää yhdyssa-noja erikseen kirjoiavia sanatajun puueesta. Kyse on”kielellisestä knopista”, jonka avulla kirjoiaja voi osoit-taa sivistystasoaan [22].

6. Viitteet[1] F. Karlsson, Yleinen kielitiede, 2. l. Helsinki: Yliopistopai-

no & Helsinki University Press, 1998.

[2] L. Bonfante, ”e scripts of Italy”, P. T. Daniels &W. Bright, toim.New York & Oxford: Oxford UniversityPress, 1996, 297–311.

[3] G. Bonfante & L. Bonfante,e Etruscan language: An int-roduction, 2. l. Manchester & New York: Manchester Uni-versity Press, 2002.

[4] R. v. Becker, Finsk grammatik, Åbo, 1824.

[5] G. E. Eurén, Grunddragen till finsk formlära. Helsingfors:J. C. Frenckell & Son, 1846.

[6] F. Collan, Finsk språklära. Helsingfors: J. C. Frenckell &Son, 1847.

[7] E. A. Saarimaa, Kieliopas, 4. l. Helsinki: WSOY, 1957.

[8] S. Kankaanpää, E. Heikkilä, R. Korhonen, S. Maamies &A. Piehl, toim.,Kielitoimiston oikeinkirjoitusopas, 2. l. Hel-sinki: Kotimaisten kielten tutkimuskeskus, 2007.

[9] L. Keunen,Hyvää vapaata suomea. Jyväskylä: K. J. Gum-merus, 1949.

[10] A. Penilä, Suomen kielioppi, 2. l. Helsinki: WSOY, 1963.

[11] P. Leino, Suomen kielioppi. Helsinki: Otava, 1996.

[12] A. Hakulinen, M. Vilkuna, R. Korhonen, V. Koivisto, T.-R.Heinonen & I. Alho, toim., Iso suomen kielioppi. Helsinki:SKS, 2004.

[13] A. Biseo, ”Presentation: Compounds crosslinguistical-ly”, Lingue e linguaggio, vol. 8, no. 2, 167–170, 2009.

[14] R. Eronen, S. Maamies & A. Räikkälä, ”Yhdyssanat”, Kie-likello, no. 4, 1996.

[15] R. D. Van Valin, An introduction to syntax. Cambridge:Cambridge University Press, 2001.

[16] T. Kelomäki, Ekvatiivilause. Helsinki: SKS, 1997.

[17] A. Räisänen, ”Sananmuodostus ja konteksti,” Viriäjä,vol. 90, 155–161, 1986.

[18] J. Niemi, ”Compounds in Finnish”, Lingue et linguaggio,vol. 8, no. 2, 237–256, 2009.

[19] K. Suomi, ”On detecting word boundaries in Finnish”,Nordic Journal of Linguistics, vol. 8, 211–231, 1985.

[20] T. Nieminen, “Suomen kielen puherytmi”. Pro gradu-tutkielma, suomen kielen ja yleisen kielitieteen laitos,Tampereen yliopisto, 1996.

[21] M. Miller, ”On the perception of rhythm”, Journal of Pho-netics, vol. 12, 75–83, 1984.

Page 80: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

Nieminen & Lantee: Yhdyssanasta suomen kielessä ja puheessa 74

[22] H. Paunonen, ”Suomen kielen ohjailun myytit ja stereo-typiat”, Viriäjä, vol. 100, no. 4, 544–555, 1996.

Page 81: XXVI Fonetiikan päivät 2010 · XXVI Fonetiikan päivät 2010 Stefan Werner, Tomi Kinnunen (toim.) Mekrijärven tutkimusasema 25.–26.2.2010

2011