1 analyses formantiques automatiques de voyelles orales : évidence de la réduction vocalique en...

Post on 03-Apr-2015

102 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

1

Analyses formantiques automatiques

de voyelles orales :

évidence de la réduction vocalique en langues française et allemande

Cédric Gendrot 1 et Martine Adda-Decker 21 LPP Université Paris Sorbonne Nouvelle CNRS UMR 7018 ILPGA

2 LIMSI-CNRS Bât. 508, BP 133, 91403 Orsay cedex, France

2

Plan

• 1 Introduction

• 2 Méthodologie : • 2.1. Corpus

• 2.2. Segmentation

• 2.3. Filtrages

• 3 Analyses• 3.1. Taux de rejets

• 3.2. Variations du triangle vocalique

• 4 Discussion

3

1. INTRODUCTION

• Cette étude est menée dans le cadre du projet MIDL du programme interdisciplinaire Société de l’Information du CNRS, dont les partenaires sont le LIMSI-CNRS, LPP Paris3, CTA/DGA, Télécom Paris, EA1483 Paris3.

• Utilisation de :– Grands corpus audio

– Outils automatiques d’alignement

– Analyses formantiques automatiques

4

1. INTRODUCTION

• Nous tenterons de répondre à ces questions :– dans quelles proportions peut-on, avec des traitements automatiques,

extraire des valeurs de formants de manière fiable?

– quelle proportion des voyelles extraites de parole naturelle, a des valeurs de formants proches des cibles attendues?

– comment évoluent les formants en fonction de la durée des segments ; quelles voyelles sont les plus sujettes à réduction?

• Nous comparerons les langues françaises et allemandes à partir de ces données.– quelles différences entre les réductions dans les deux langues ?

5

Contribution de ces travaux

• ... Si la fiabilité est avérée ....

• l’établissement de valeurs de formants et de leur variabilité en français– les phénomènes de réduction– variations en termes d’aperture (corrélée à F1) et d’antériorité/postériorité (corrélée à F2).

6

Plan

• 1 Introduction

• 2 Méthodologie : • 2.1. Corpus

• 2.2. Segmentation

• 2.3. Filtrages

• 3 Analyses• 3.1. Taux de rejets

• 3.2. Variations du triangle vocalique

• 4 Discussion

7

2.1. CORPUS

• Enregistrements radio-et télédiffusés d’émissions journalistiques

• Corpus français :– 2 heures de parole utile (15 hommes et 15 femmes) – émissions de France Inter

– parole « semi-spontanée », réductions

– 40% de voyelles.(avec nasales)

– // et // sont comptabilisés ensemble

– pas de nasales dans nos analyses

• Corpus allemand :– 2 heures de parole utile (20 hommes et 10 femmes)– émissions journalistiques d’ARTE– 37% de voyelles (avec diphtongues)– pas de diphtongues dans nos analyses

8

Voy. #occ. (%) voy. #occ. (%)a 5365 (18.2) I 3186 (13.3)i 3781 (12.8) , 3174 (13.3)e 3713 (12.6) A 2625 (10.9), 3361 (11.4) i 2466 (10.3) 3148 (10.7) a 2386 (9.9) 2219 (7.5) 2252 (9.4) 1672 (5.7) e 1840 (7.7)u 1374 (4.7) U 1700 (7.1)y 1313 (4.5) 1322 (5.5)õ 1274 (4.3) o 1244 (5.2) 1130 (3.8) u 688 (2.9)o 833 (2.8) y 371 (1.5) 289 (1.0) Y 306 (1.3)

 : 250 (1.0) 190 (0.8)

les voyelles antérieures (non arrondies) sont plus fréquentes

voyelles relâchées (/I/, /A/, /U/) + fréquentes que leurs contreparties tendues (/i/, /a/, /u/)

quantité majoritaire de /a/

les voyelles non arrondies sont plus fréquentes

9

F2

a

e

iou

y

F (Hz)

800100012001400160018002000220024002600200

400

600

800

10

2.2. Segmentation automatique

• Le système de reconnaissance automatique du LIMSI a été utilisé pour l’alignement du corpus.

• La transcription orthographique étant connue à priori, le « système d’alignement » sert à :

– poser les frontières des phonèmes alignés (segments),

– à déterminer d’éventuelles variantes de prononciation réalisées (e.g. liaisons et / /),

– isoler silences, respirations et autres bruits.

• Des modèles de phones indépendants du contexte sont utilisés pour l’alignement. Pour des raisons techniques, la précision de segmentation est de 10ms, la durée minimale d’un segment est de 30ms.

• L’étiquetage ainsi produit est phonémique (correspondant à une prononciation standard des mots). Les mesures des formants permettront d’évaluer les variations observées dans la réalisation des phonèmes.

11

un exemple

-0.4205

0.298

0

3000

6000

z e d x m i n i s t r . e p a d x o f O

composéede ministres [silence]et pas de hautsfonctionnaires

Time (s)0 1.45389

12

Plan

• 1 Introduction

• 2 Méthodologie : • 2.1. Corpus

• 2.2. Segmentation

• 2.3. Filtrages

• 3 Analyses• 3.1. Taux de rejets

• 3.2. Variations du triangle vocalique

• 4 Discussion

13

2.3. Filtrages

Mesuresbrutes retenues

2ndfiltrage

reje

tées

retenues

1erfiltrage

reje

tées

14

1er filtrage

• précautions méthodologiques indispensables … pour éviter les détections erronées !

– précision de la segmentation automatique

– dévoisement partiel (voire total) des voyelles– formants proches, plus particulièrement dans les basses

fréquences, (e.g. voyelles fermées postérieures /u/)

15

1er filtrage … suite

• Les valeurs de pics d’amplitude mesurées sont filtrées afin de rejeter les valeurs aberrantes par rapport à l’acoustique du conduit vocal.

• Des fourchettes de valeurs inférieures et supérieures pour les trois premiers formants sont utilisées

• par exemple, /e/h doit réunir toutes les conditions suivantes pour être retenu par le 1er filtrage

/e/ (Hommes)

F1 < 800 HzF2 >1100 et <2400 Hz

F3 > 2000 Hz

4.16 % de rejets La majeure partie de ces rejets correspondent à des segments de très courte durée (600 des segments rejetés ont une durée inférieure à 50ms).

16

Mesuresbrutes retenues

2ndfiltrage

reje

tées

retenues1er

filtrage

reje

tées

96 %

4 %

17

2nd filtrage :

• Les valeurs conservées par l’étape précédente sont ensuite filtrées par rapport à des valeurs canoniques publiées dans la littérature ;

Les plages sont fixées arbitrairement à +/- 200Hz pour chaque formant (F1 et F2). Cette plage peut paraître trop restrictive surtout pour les fréquences élevées.

• Les valeurs retenues après ce second filtrage sont considérées comme proches des valeurs canoniques, (bonne articulation)

Les valeurs rejetées sont conservées dans le but de les comparer aux valeurs retenues. (cibles non atteintes, "formant undershoot")

• Avec ce filtrage 38% des segments sont rejetés.

18

Mesures brutes retenues

2ndfiltrage

reje

tées

retenues1er

filtrage

reje

tées

96 %

4 %

38 % 62 %

19

Plan

• 1 Introduction

• 2 Méthodologie : • 2.1. Corpus

• 2.2. Segmentation

• 2.3. Filtrages

• 3 Analyses• 3.1. Taux de rejets

• 3.2. Variations du triangle vocalique

• 4 Discussion

20

3. ANALYSES ET RESULTATS

21

3.1. Taux de rejet des voyelles

1er -2nd filtrage

• en fonction de l’identité de la voyelle :

• 1er filtrage : les taux de rejets sont plus élevés pour /i/, /y/, /u/, /o/ et //. • 2ème filtrage : les taux de rejets sont plus élevés pour les voyelles postérieures et

/a/.

• Le /u/ est fortement rejeté pour les deux types de filtragei y e a o u

534

1525

134

0.328

0.646

435

0.422

143

4.941

2565

pour le 1er filtr, car souvent trop court, dévoisépour le 2nd filtr, /a/ car +/-200 Hz semble être trop petite fourchette

22

3.1. Taux de rejet des voyelles

1er - 2nd filtrage• en fonction de la durée :

• plus de segments courts éliminés que de segments longs ...

• ... pour ces segments courts les effets de coarticulation et d’assimilation sont les plus importants.

Intervalle D (en ms)

filtrage 1filtrage 2

[30 - 50]6.1 %46.9 %

[60 - 80]2.8 %35.7 %

[90 – 110]2.4 %

29.3 %

tab. : proportion de segments rejetés pour différents intervalles de durée

allemand similaire mais pas le temps ici

23

3.2. Variations du triangle vocalique

• Cette étude est réalisée sur le corpus moins les 4% éliminés après 1er filtrage ...

• les valeurs retenues après le second filtrage sont globalement :– plus extrêmes en termes de fermeture/ouverture :

– les valeurs de F1 sont plus faibles pour les voyelles fermées et plus élevées pour les voyelles ouvertes.

– plus extrêmes en termes d’antériorité/postériorité :– les valeurs de F2 sont plus faibles pour les voyelles postérieures et plus élevées pour les voyelles antérieures.

• Les voyelles centrales // et // gardent quant à elles, des valeurs stables pour les deux filtrages..

24

a

e

i

ou

y

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

a

e

i

ou

y

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

Valeurs moyennes de F1 et F2 pour les voyelles orales du français. En noir, les valeurs retenues par le 1er filtrage (96%). En rouge, les valeurs retenues par le 2nd filtrage(60%)

25

a

e

i

ou

y

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

Valeurs moyennes de F1 et F2 pour les voyelles orales du français. En rouge, les valeurs retenues par le 2nd filtrage (60%)

a

e

i

ou

y

26

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

a

e

i

ou

y

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

Valeurs moyennes de F1 et F2 pour les voyelles orales du français. En noir, les valeurs retenues par le 1er filtrage (96%).

27

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

a

e

i

ou

y

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

a

e

i

ou

y

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

Valeurs moyennes de F1 et F2 pour les voyelles orales du français. En noir, les valeurs retenues par le 1er filtrage (96%). En rouge, les valeurs retenues par le 2nd filtrage(60%)

28

:

:

A

E

I

O

UY

a

e

i

o

u

y

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

:

:

A

E

I

O

UY

a

e

i

o

u

y

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

Valeurs moyennes de F1 et F2 pour les voyelles de l'allemand. En noir, les valeurs retenues par le 1er filtrage. En rouge, les valeurs retenues par le 2nd filtrage

29

:

:

A

E

I

O

UY

a

e

i

o

u

y

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

:

:

A

E

I

O

UY

a

e

i

o

u

y

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

Valeurs moyennes de F1 et F2 pour les voyelles de l'allemand. En noir, les valeurs retenues par le 1er filtrage. En rouge, les valeurs retenues par le 2nd filtrage

30

:

:

A

E

I

O

UY

a

e

i

o

u

y

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

:

:

A

E

I

O

UY

a

e

i

o

u

y

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

Valeurs moyennes de F1 et F2 pour les voyelles de l'allemand. En noir, les valeurs retenues par le 1er filtrage. En rouge, les valeurs retenues par le 2nd filtrage

31

Plan

• 1 Introduction

• 2 Méthodologie : • 2.1. Corpus

• 2.2. Segmentation

• 2.3. Filtrages

• 3 Analyses• 3.1. Taux de rejets

• 3.2. Variations du triangle vocalique

• 4 Discussion

32

3.2. Variations du triangle vocalique

• Cette étude est réalisée sur le corpus moins les 4% éliminés après 1er filtrage ...

• en fonction du sexe du locuteur• Le vecteur reliant les voyelles est petit pour les voyelles arrières, ... celles-ci

étant des voyelles arrondies (et fermées), la différence entre hommes et femmes est moindre que pour les autres voyelles.

33

a

e

i

ou

y

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

FIG. 3 – Valeurs moyennes de F1 et F2 pour les voyelles orales du français après le filtrage1. En rouge pour les femmes En noir pour les hommes.

34

a

e

i

ou

y

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

FIG. 3 – Valeurs moyennes de F1 et F2 pour les voyelles orales du français après le filtrage1. En rouge pour les femmes En noir pour les hommes.

35

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

a

e

i

ou

y

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

FIG. 3 – Valeurs moyennes de F1 et F2 pour les voyelles orales du français après le filtrage1. En rouge pour les femmes En noir pour les hommes.

a

e

i

ou

y

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

36

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

a

e

i

ou

y

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

FIG. 3 – Valeurs moyennes de F1 et F2 pour les voyelles orales du français après le filtrage1. En rouge pour les femmes En noir pour les hommes.

a

e

i

ou

y

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

37

pour l'allemand ...

38

:

A

E

I

O

UY

a

e

i

o

u

y

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

39

:

A

E

I

O

UY

a

e

i

o

u

y

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

40

:

A

E

I

O

UY

a

e

i

o

u

y

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

:

E

I

O

Y

a

e

i

o

u

y

A

U

41

:

A

E

I

O

UY

a

e

i

o

u

y

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

:

E

I

O

Y

a

e

i

o

u

y

A

U

42

:

A

E

I

O

UY

a

e

i

o

u

y

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

:

E

I

O

Y

a

e

i

o

u

y

A

U

43

en fonction de la durée

• les segments courts subissent plus de rejets que les segments longs lors du 2nd filtrage. Les voyelles courtes sont en effet considérablement réduites en termes de F1 et de F2

• centralisation des voyelles

• cibles non atteintes

• Les variations observées pour l’allemand en fonction de la durée des voyelles sont très proches de celles observées pour le français

pour les voyelles les plus brèves

44

pour le français ...

45

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

a

e

i

ou

y

Valeurs moyennes de F1 et F2 pour les voyelles orales du français. valeurs retenues par le 2nd filtrage (60%)

valeurs canoniques

46

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

a

e

i

o

u

y

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

800100012001400160018002000220024002600200

400

600

800

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

(ici durée 90 ms)

a

e

i

ou

y

valeurs canoniques

47

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

a

e

i

o

u

y

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

800100012001400160018002000220024002600200

400

600

800

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

(ici durée 90 ms)

48

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

a

e

i

o

u

y

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

800100012001400160018002000220024002600200

400

600

800

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)en bleu ... durée 90 ms

x

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

a

e

i

ou

x

y

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

800100012001400160018002000220024002600200

400

600

800

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

en rouge ... 90ms durée 60 ms

49

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

a

e

i

o

u

y

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

800100012001400160018002000220024002600200

400

600

800

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

x

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

a

e

i

ou

x

y

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

800100012001400160018002000220024002600200

400

600

800

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

en rouge ... 90ms durée 60 ms

en bleu ... durée 90 ms

50

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

a

e

i

o

u

y

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

800100012001400160018002000220024002600200

400

600

800

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

x

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

a

e

i

ou

x

y

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

800100012001400160018002000220024002600200

400

600

800

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

a

e

i

ou

y

en bleu ... durée 90 ms

en rouge ... 90ms durée 60 ms

en noir ... durée 50 ms

51

pour l'allemand ...

52

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

:

A

I

O

UY

a

e

i

o

u

y:

E:

A

E

I

O

U

Y

a

e

i

o

u

y

(ici durée 90 ms)

valeurs canoniques

Valeurs moyennes de F1 et F2 pour les voyelles orales de l ’allemand.

53

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

:

A

E

I

O

U

Y

a

e

i

o

u

y

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)en bleu ... durée 90 ms

:

A

E

I

O

UY

a

e

i

o

u

y

en rouge ... 90ms durée 60 ms

:

A

E

I

O

UY

a

e

i

ou

y

en noir ... durée 50 ms

54

9

A

E

I

O

UY

a

e

i

ou

xy

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

9

A

E

I

O

UY

a

e

i

o

u

x

y

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

9

A

E

I

O

U

Y

a

e

i

o

u

x

y

800100012001400160018002000220024002600200

400

600

800

F2 (Hz)

FIG. 9 – Valeurs moyennes de F1 et F2 pour les voyelles orales de l’allemand en fonction de leur durée. Par ordre croissant (noir, rouge, bleu)

55

Plan

• 1 Introduction

• 2 Méthodologie : • 2.1. Corpus

• 2.2. Segmentation

• 2.3. Filtrages

• 3 Analyses• 3.1. Taux de rejets

• 3.2. Variations du triangle vocalique

• 4 Discussion

56

4. DISCUSSION

– dans quelles proportions peut-on, avec des traitements automatiques, extraire des valeurs de formants de manière fiable?

– quelle proportion des voyelles extraites de parole naturelle, a des valeurs de formants proches des cibles attendues?

• Nous retrouvons pour environ 60% des voyelles des valeurs formantiques proches des valeurs de référence connues.

• Pour les 40% de voyelles rejetées, les valeurs formantiques extraites décrivent un mouvement concentrique dans le triangle vocalique. Ceci évoque des phénomènes de réduction vocalique, plutôt que des erreurs de détection de formants, ce qui plaide en faveur de la validité de l’approche automatique

57

4. DISCUSSION

– comment évoluent les formants en fonction de la durée des segments ; quelles voyelles sont les plus sujettes à réduction?

– quelles différences entre les réductions dans les deux langues ?

allemand : langue à accent lexical, plus de réduction que pour le français?

• Les réductions sont observées à un degré comparable dans les deux langues. Ceci suggère que la réduction n’est pas un phénomène exclusivement linguistique, mais admet aussi une cause d’ordre physique ou physiologique.

• Les variations formantiques sur l’ensemble du corpus (moins les 4% du premier filtrage) en fonction de la durée ne sont pas chaotiques. Les formants tendent vers une voyelle centrale pour les segments de courte durée.

top related