1 analyses formantiques automatiques de voyelles orales : évidence de la réduction vocalique en...
TRANSCRIPT
1
Analyses formantiques automatiques
de voyelles orales :
évidence de la réduction vocalique en langues française et allemande
Cédric Gendrot 1 et Martine Adda-Decker 21 LPP Université Paris Sorbonne Nouvelle CNRS UMR 7018 ILPGA
2 LIMSI-CNRS Bât. 508, BP 133, 91403 Orsay cedex, France
2
Plan
• 1 Introduction
• 2 Méthodologie : • 2.1. Corpus
• 2.2. Segmentation
• 2.3. Filtrages
• 3 Analyses• 3.1. Taux de rejets
• 3.2. Variations du triangle vocalique
• 4 Discussion
3
1. INTRODUCTION
• Cette étude est menée dans le cadre du projet MIDL du programme interdisciplinaire Société de l’Information du CNRS, dont les partenaires sont le LIMSI-CNRS, LPP Paris3, CTA/DGA, Télécom Paris, EA1483 Paris3.
• Utilisation de :– Grands corpus audio
– Outils automatiques d’alignement
– Analyses formantiques automatiques
4
1. INTRODUCTION
• Nous tenterons de répondre à ces questions :– dans quelles proportions peut-on, avec des traitements automatiques,
extraire des valeurs de formants de manière fiable?
– quelle proportion des voyelles extraites de parole naturelle, a des valeurs de formants proches des cibles attendues?
– comment évoluent les formants en fonction de la durée des segments ; quelles voyelles sont les plus sujettes à réduction?
• Nous comparerons les langues françaises et allemandes à partir de ces données.– quelles différences entre les réductions dans les deux langues ?
5
Contribution de ces travaux
• ... Si la fiabilité est avérée ....
• l’établissement de valeurs de formants et de leur variabilité en français– les phénomènes de réduction– variations en termes d’aperture (corrélée à F1) et d’antériorité/postériorité (corrélée à F2).
6
Plan
• 1 Introduction
• 2 Méthodologie : • 2.1. Corpus
• 2.2. Segmentation
• 2.3. Filtrages
• 3 Analyses• 3.1. Taux de rejets
• 3.2. Variations du triangle vocalique
• 4 Discussion
7
2.1. CORPUS
• Enregistrements radio-et télédiffusés d’émissions journalistiques
• Corpus français :– 2 heures de parole utile (15 hommes et 15 femmes) – émissions de France Inter
– parole « semi-spontanée », réductions
– 40% de voyelles.(avec nasales)
– // et // sont comptabilisés ensemble
– pas de nasales dans nos analyses
• Corpus allemand :– 2 heures de parole utile (20 hommes et 10 femmes)– émissions journalistiques d’ARTE– 37% de voyelles (avec diphtongues)– pas de diphtongues dans nos analyses
8
Voy. #occ. (%) voy. #occ. (%)a 5365 (18.2) I 3186 (13.3)i 3781 (12.8) , 3174 (13.3)e 3713 (12.6) A 2625 (10.9), 3361 (11.4) i 2466 (10.3) 3148 (10.7) a 2386 (9.9) 2219 (7.5) 2252 (9.4) 1672 (5.7) e 1840 (7.7)u 1374 (4.7) U 1700 (7.1)y 1313 (4.5) 1322 (5.5)õ 1274 (4.3) o 1244 (5.2) 1130 (3.8) u 688 (2.9)o 833 (2.8) y 371 (1.5) 289 (1.0) Y 306 (1.3)
: 250 (1.0) 190 (0.8)
les voyelles antérieures (non arrondies) sont plus fréquentes
voyelles relâchées (/I/, /A/, /U/) + fréquentes que leurs contreparties tendues (/i/, /a/, /u/)
quantité majoritaire de /a/
les voyelles non arrondies sont plus fréquentes
9
F2
a
e
iou
y
F (Hz)
800100012001400160018002000220024002600200
400
600
800
10
2.2. Segmentation automatique
• Le système de reconnaissance automatique du LIMSI a été utilisé pour l’alignement du corpus.
• La transcription orthographique étant connue à priori, le « système d’alignement » sert à :
– poser les frontières des phonèmes alignés (segments),
– à déterminer d’éventuelles variantes de prononciation réalisées (e.g. liaisons et / /),
– isoler silences, respirations et autres bruits.
• Des modèles de phones indépendants du contexte sont utilisés pour l’alignement. Pour des raisons techniques, la précision de segmentation est de 10ms, la durée minimale d’un segment est de 30ms.
• L’étiquetage ainsi produit est phonémique (correspondant à une prononciation standard des mots). Les mesures des formants permettront d’évaluer les variations observées dans la réalisation des phonèmes.
11
un exemple
-0.4205
0.298
0
3000
6000
z e d x m i n i s t r . e p a d x o f O
composéede ministres [silence]et pas de hautsfonctionnaires
Time (s)0 1.45389
12
Plan
• 1 Introduction
• 2 Méthodologie : • 2.1. Corpus
• 2.2. Segmentation
• 2.3. Filtrages
• 3 Analyses• 3.1. Taux de rejets
• 3.2. Variations du triangle vocalique
• 4 Discussion
13
2.3. Filtrages
Mesuresbrutes retenues
2ndfiltrage
reje
tées
retenues
1erfiltrage
reje
tées
14
1er filtrage
• précautions méthodologiques indispensables … pour éviter les détections erronées !
– précision de la segmentation automatique
– dévoisement partiel (voire total) des voyelles– formants proches, plus particulièrement dans les basses
fréquences, (e.g. voyelles fermées postérieures /u/)
15
1er filtrage … suite
• Les valeurs de pics d’amplitude mesurées sont filtrées afin de rejeter les valeurs aberrantes par rapport à l’acoustique du conduit vocal.
• Des fourchettes de valeurs inférieures et supérieures pour les trois premiers formants sont utilisées
• par exemple, /e/h doit réunir toutes les conditions suivantes pour être retenu par le 1er filtrage
/e/ (Hommes)
F1 < 800 HzF2 >1100 et <2400 Hz
F3 > 2000 Hz
4.16 % de rejets La majeure partie de ces rejets correspondent à des segments de très courte durée (600 des segments rejetés ont une durée inférieure à 50ms).
16
Mesuresbrutes retenues
2ndfiltrage
reje
tées
retenues1er
filtrage
reje
tées
96 %
4 %
17
2nd filtrage :
• Les valeurs conservées par l’étape précédente sont ensuite filtrées par rapport à des valeurs canoniques publiées dans la littérature ;
Les plages sont fixées arbitrairement à +/- 200Hz pour chaque formant (F1 et F2). Cette plage peut paraître trop restrictive surtout pour les fréquences élevées.
• Les valeurs retenues après ce second filtrage sont considérées comme proches des valeurs canoniques, (bonne articulation)
Les valeurs rejetées sont conservées dans le but de les comparer aux valeurs retenues. (cibles non atteintes, "formant undershoot")
• Avec ce filtrage 38% des segments sont rejetés.
18
Mesures brutes retenues
2ndfiltrage
reje
tées
retenues1er
filtrage
reje
tées
96 %
4 %
38 % 62 %
19
Plan
• 1 Introduction
• 2 Méthodologie : • 2.1. Corpus
• 2.2. Segmentation
• 2.3. Filtrages
• 3 Analyses• 3.1. Taux de rejets
• 3.2. Variations du triangle vocalique
• 4 Discussion
20
3. ANALYSES ET RESULTATS
21
3.1. Taux de rejet des voyelles
1er -2nd filtrage
• en fonction de l’identité de la voyelle :
• 1er filtrage : les taux de rejets sont plus élevés pour /i/, /y/, /u/, /o/ et //. • 2ème filtrage : les taux de rejets sont plus élevés pour les voyelles postérieures et
/a/.
• Le /u/ est fortement rejeté pour les deux types de filtragei y e a o u
534
1525
134
0.328
0.646
435
0.422
143
4.941
2565
pour le 1er filtr, car souvent trop court, dévoisépour le 2nd filtr, /a/ car +/-200 Hz semble être trop petite fourchette
22
3.1. Taux de rejet des voyelles
1er - 2nd filtrage• en fonction de la durée :
• plus de segments courts éliminés que de segments longs ...
• ... pour ces segments courts les effets de coarticulation et d’assimilation sont les plus importants.
Intervalle D (en ms)
filtrage 1filtrage 2
[30 - 50]6.1 %46.9 %
[60 - 80]2.8 %35.7 %
[90 – 110]2.4 %
29.3 %
tab. : proportion de segments rejetés pour différents intervalles de durée
allemand similaire mais pas le temps ici
23
3.2. Variations du triangle vocalique
• Cette étude est réalisée sur le corpus moins les 4% éliminés après 1er filtrage ...
• les valeurs retenues après le second filtrage sont globalement :– plus extrêmes en termes de fermeture/ouverture :
– les valeurs de F1 sont plus faibles pour les voyelles fermées et plus élevées pour les voyelles ouvertes.
– plus extrêmes en termes d’antériorité/postériorité :– les valeurs de F2 sont plus faibles pour les voyelles postérieures et plus élevées pour les voyelles antérieures.
• Les voyelles centrales // et // gardent quant à elles, des valeurs stables pour les deux filtrages..
24
a
e
i
ou
y
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
a
e
i
ou
y
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
Valeurs moyennes de F1 et F2 pour les voyelles orales du français. En noir, les valeurs retenues par le 1er filtrage (96%). En rouge, les valeurs retenues par le 2nd filtrage(60%)
25
a
e
i
ou
y
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
Valeurs moyennes de F1 et F2 pour les voyelles orales du français. En rouge, les valeurs retenues par le 2nd filtrage (60%)
a
e
i
ou
y
26
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
a
e
i
ou
y
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
Valeurs moyennes de F1 et F2 pour les voyelles orales du français. En noir, les valeurs retenues par le 1er filtrage (96%).
27
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
a
e
i
ou
y
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
a
e
i
ou
y
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
Valeurs moyennes de F1 et F2 pour les voyelles orales du français. En noir, les valeurs retenues par le 1er filtrage (96%). En rouge, les valeurs retenues par le 2nd filtrage(60%)
28
:
:
A
E
I
O
UY
a
e
i
o
u
y
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
:
:
A
E
I
O
UY
a
e
i
o
u
y
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
Valeurs moyennes de F1 et F2 pour les voyelles de l'allemand. En noir, les valeurs retenues par le 1er filtrage. En rouge, les valeurs retenues par le 2nd filtrage
29
:
:
A
E
I
O
UY
a
e
i
o
u
y
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
:
:
A
E
I
O
UY
a
e
i
o
u
y
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
Valeurs moyennes de F1 et F2 pour les voyelles de l'allemand. En noir, les valeurs retenues par le 1er filtrage. En rouge, les valeurs retenues par le 2nd filtrage
30
:
:
A
E
I
O
UY
a
e
i
o
u
y
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
:
:
A
E
I
O
UY
a
e
i
o
u
y
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
Valeurs moyennes de F1 et F2 pour les voyelles de l'allemand. En noir, les valeurs retenues par le 1er filtrage. En rouge, les valeurs retenues par le 2nd filtrage
31
Plan
• 1 Introduction
• 2 Méthodologie : • 2.1. Corpus
• 2.2. Segmentation
• 2.3. Filtrages
• 3 Analyses• 3.1. Taux de rejets
• 3.2. Variations du triangle vocalique
• 4 Discussion
32
3.2. Variations du triangle vocalique
• Cette étude est réalisée sur le corpus moins les 4% éliminés après 1er filtrage ...
• en fonction du sexe du locuteur• Le vecteur reliant les voyelles est petit pour les voyelles arrières, ... celles-ci
étant des voyelles arrondies (et fermées), la différence entre hommes et femmes est moindre que pour les autres voyelles.
33
a
e
i
ou
y
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
FIG. 3 – Valeurs moyennes de F1 et F2 pour les voyelles orales du français après le filtrage1. En rouge pour les femmes En noir pour les hommes.
34
a
e
i
ou
y
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
FIG. 3 – Valeurs moyennes de F1 et F2 pour les voyelles orales du français après le filtrage1. En rouge pour les femmes En noir pour les hommes.
35
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
a
e
i
ou
y
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
FIG. 3 – Valeurs moyennes de F1 et F2 pour les voyelles orales du français après le filtrage1. En rouge pour les femmes En noir pour les hommes.
a
e
i
ou
y
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
36
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
a
e
i
ou
y
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
FIG. 3 – Valeurs moyennes de F1 et F2 pour les voyelles orales du français après le filtrage1. En rouge pour les femmes En noir pour les hommes.
a
e
i
ou
y
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
37
pour l'allemand ...
38
:
A
E
I
O
UY
a
e
i
o
u
y
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
39
:
A
E
I
O
UY
a
e
i
o
u
y
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
40
:
A
E
I
O
UY
a
e
i
o
u
y
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
:
E
I
O
Y
a
e
i
o
u
y
A
U
41
:
A
E
I
O
UY
a
e
i
o
u
y
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
:
E
I
O
Y
a
e
i
o
u
y
A
U
42
:
A
E
I
O
UY
a
e
i
o
u
y
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
:
E
I
O
Y
a
e
i
o
u
y
A
U
43
en fonction de la durée
• les segments courts subissent plus de rejets que les segments longs lors du 2nd filtrage. Les voyelles courtes sont en effet considérablement réduites en termes de F1 et de F2
• centralisation des voyelles
• cibles non atteintes
• Les variations observées pour l’allemand en fonction de la durée des voyelles sont très proches de celles observées pour le français
pour les voyelles les plus brèves
44
pour le français ...
45
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
a
e
i
ou
y
Valeurs moyennes de F1 et F2 pour les voyelles orales du français. valeurs retenues par le 2nd filtrage (60%)
valeurs canoniques
46
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
a
e
i
o
u
y
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
800100012001400160018002000220024002600200
400
600
800
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
(ici durée 90 ms)
a
e
i
ou
y
valeurs canoniques
47
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
a
e
i
o
u
y
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
800100012001400160018002000220024002600200
400
600
800
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
(ici durée 90 ms)
48
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
a
e
i
o
u
y
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
800100012001400160018002000220024002600200
400
600
800
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)en bleu ... durée 90 ms
x
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
a
e
i
ou
x
y
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
800100012001400160018002000220024002600200
400
600
800
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
en rouge ... 90ms durée 60 ms
49
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
a
e
i
o
u
y
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
800100012001400160018002000220024002600200
400
600
800
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
x
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
a
e
i
ou
x
y
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
800100012001400160018002000220024002600200
400
600
800
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
en rouge ... 90ms durée 60 ms
en bleu ... durée 90 ms
50
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
a
e
i
o
u
y
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
800100012001400160018002000220024002600200
400
600
800
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
x
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
a
e
i
ou
x
y
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
800100012001400160018002000220024002600200
400
600
800
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
a
e
i
ou
y
en bleu ... durée 90 ms
en rouge ... 90ms durée 60 ms
en noir ... durée 50 ms
51
pour l'allemand ...
52
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
:
A
I
O
UY
a
e
i
o
u
y:
E:
A
E
I
O
U
Y
a
e
i
o
u
y
(ici durée 90 ms)
valeurs canoniques
Valeurs moyennes de F1 et F2 pour les voyelles orales de l ’allemand.
53
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
:
A
E
I
O
U
Y
a
e
i
o
u
y
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)en bleu ... durée 90 ms
:
A
E
I
O
UY
a
e
i
o
u
y
en rouge ... 90ms durée 60 ms
:
A
E
I
O
UY
a
e
i
ou
y
en noir ... durée 50 ms
54
9
A
E
I
O
UY
a
e
i
ou
xy
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
9
A
E
I
O
UY
a
e
i
o
u
x
y
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
9
A
E
I
O
U
Y
a
e
i
o
u
x
y
800100012001400160018002000220024002600200
400
600
800
F2 (Hz)
FIG. 9 – Valeurs moyennes de F1 et F2 pour les voyelles orales de l’allemand en fonction de leur durée. Par ordre croissant (noir, rouge, bleu)
55
Plan
• 1 Introduction
• 2 Méthodologie : • 2.1. Corpus
• 2.2. Segmentation
• 2.3. Filtrages
• 3 Analyses• 3.1. Taux de rejets
• 3.2. Variations du triangle vocalique
• 4 Discussion
56
4. DISCUSSION
– dans quelles proportions peut-on, avec des traitements automatiques, extraire des valeurs de formants de manière fiable?
– quelle proportion des voyelles extraites de parole naturelle, a des valeurs de formants proches des cibles attendues?
• Nous retrouvons pour environ 60% des voyelles des valeurs formantiques proches des valeurs de référence connues.
• Pour les 40% de voyelles rejetées, les valeurs formantiques extraites décrivent un mouvement concentrique dans le triangle vocalique. Ceci évoque des phénomènes de réduction vocalique, plutôt que des erreurs de détection de formants, ce qui plaide en faveur de la validité de l’approche automatique
57
4. DISCUSSION
– comment évoluent les formants en fonction de la durée des segments ; quelles voyelles sont les plus sujettes à réduction?
– quelles différences entre les réductions dans les deux langues ?
allemand : langue à accent lexical, plus de réduction que pour le français?
• Les réductions sont observées à un degré comparable dans les deux langues. Ceci suggère que la réduction n’est pas un phénomène exclusivement linguistique, mais admet aussi une cause d’ordre physique ou physiologique.
• Les variations formantiques sur l’ensemble du corpus (moins les 4% du premier filtrage) en fonction de la durée ne sont pas chaotiques. Les formants tendent vers une voyelle centrale pour les segments de courte durée.