1 cours parole du 2 mars 2005 enseignants: dr. dijana petrovska-delacrétaz et gérard chollet...

24
1 Cours parole du 2 Mars 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Synthèse de la Parole 1. Introduction, Historique, Domaines d’applications 2. Synthèse à partir d’un texte / à partir de concepts 3. Traduction Graphèmes --> Phonèmes et Prosodèmes 4. Synthèse articulatoire / acoustique 5. Synthèse par concaténation 6. Modèles de langage 7. Evaluation 8. Conclusions

Upload: evonne-legendre

Post on 03-Apr-2015

106 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 1 Cours parole du 2 Mars 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Synthèse de la Parole 1.Introduction, Historique, Domaines

1

Cours parole du 2 Mars 2005enseignants: Dr. Dijana Petrovska-Delacrétaz

et Gérard Chollet

Synthèse de la Parole

1. Introduction, Historique, Domaines d’applications 2. Synthèse à partir d’un texte / à partir de concepts3. Traduction Graphèmes --> Phonèmes et Prosodèmes4. Synthèse articulatoire / acoustique5. Synthèse par concaténation6. Modèles de langage7. Evaluation8. Conclusions

Page 2: 1 Cours parole du 2 Mars 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Synthèse de la Parole 1.Introduction, Historique, Domaines

2

Biblio

• Traitement de la parole, R.Boite… (chapitre 7)

• Spoken Language Processing, X. Xuang…. (Part 4, chapitres 14 -16)

Page 3: 1 Cours parole du 2 Mars 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Synthèse de la Parole 1.Introduction, Historique, Domaines

3

1. Définitions

Système de synthèse vocale à partir du texte ("text to speech -TTS« ) ? idéalement s'est une machine capable de synthétiser (lire) n'importe quel texte (même des mots nouveaux), imitant n'importe quel locuteur, de manière aussi fidèle que possible (intelligibilité, spontanéité) et en conservant toutes les informations présentes dans le message vocal.

Provenance du texte: à partir d'un texte introduit sur un clavier, scanné, issu d'un système de reconnaissance optique des caractères ("Optical Character Recognition- OCR"), ou produit automatiquement par un système de dialogue homme-machine.

Page 4: 1 Cours parole du 2 Mars 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Synthèse de la Parole 1.Introduction, Historique, Domaines

4

La synthèse, pour quoi faire ?• Services de télécommunications

Rendre toute information écrite disponible via le téléphone (horaires de cinéma, horaires de train, informations routières, état d’un compte en banque, dernière facture téléphonique, etc.)

• Applications en bureautique Terminaux parlants, lecture des emails par la voix, etc.

• Applications dans les transports Information dans les automobiles, aide à l’exploitation des trains, lecture de cadrans dans les avions, etc.

• Aide aux personnes handicapées Un handicapé peut s’exprimer par le biais d’un synthétiseur (cours du célèbre astrophysicien Stephen

Hawking)

• Apprentissage des langues étrangères Dictionnaires électronique avec prononciation intégrée, logiciels d’apprentissage des langues étrangères,

traduction automatique, etc.

• Livres et jouets parlants À l’usage des enfants en bas âge

• Communication naturelle avec la machine

Page 5: 1 Cours parole du 2 Mars 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Synthèse de la Parole 1.Introduction, Historique, Domaines

5

2. Applications prévisibles

Ceci nous permettrait (dans le futur) d'atteindre les buts suivants:

• d'atteindre des taux de compression élevés (utile p.ex. dans la transmission des messages parlés)

• d'avoir une grande flexibilité concernant le choix des voix de synthèse

• de préserver des informations extra-textuelles (stress, prosodie, vitesse d’élocution,…)

• d'avoir une méthode de représentation alternative aux documents textuels (utile plus pour les aveugles, ou pour des applications mains-libres )

• de disposer d'un système complet et convivial de dialogue homme-machine

Page 6: 1 Cours parole du 2 Mars 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Synthèse de la Parole 1.Introduction, Historique, Domaines

6

mais encore

• Aide à l’apprentissage (ou perfectionnement) de langues étrangères (système tonal du chinois ou les variations de Fo ont des signification différentes, traducteur multi-langues)

• Monde ludique des livres et jouets parlants

• Monitoring vocal pour des informations urgentes ou multiples (pilote d'avions)

• Améliorer nos connaissance théoriques sur la phonétique, compréhension de la parole, perception

Page 7: 1 Cours parole du 2 Mars 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Synthèse de la Parole 1.Introduction, Historique, Domaines

7

3. Situation actuelle des synthétiseurs de parole à partir du texte

• possible pour un très petit nombre de locuteurs (voix féminine ou masculine)

• pour un vocabulaire restreint

• pour des langues pour lesquelles des grosses bases de données existent, et dont la grammaire est bien étudié

• pour des nouvelle langues il faut tout recommencer

• Constatation: on est loin du but !

Page 8: 1 Cours parole du 2 Mars 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Synthèse de la Parole 1.Introduction, Historique, Domaines

8

Structure d’un système de synthèse

SYNTHESE DE LA PAROLE A PARTIR DU TEXTE

TRAITEMENT DULANGAGE NATUREL

Formalismes linguistiques

Moteurs d’inférenceInférences logiques

TRAITEMENT DUSIGNAL NUMERIQUE

Modèles mathématiques

AlgorithmesCalculs numériques

Texte ParolePhonèmes

Prosodie

Page 9: 1 Cours parole du 2 Mars 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Synthèse de la Parole 1.Introduction, Historique, Domaines

9

5. Modules et flux de données des systèmes TTS

Traitement du langagenaturel

(analyse morpho-synthaxique)

Formalismes linguistiquesMoteurs d'inférenceInférences logiques

Traitement du signalnumérique

Modèles mathématiquesAlgorithmes

Calculs numériques

texte

Phonèmes

Prosodie

Page 10: 1 Cours parole du 2 Mars 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Synthèse de la Parole 1.Introduction, Historique, Domaines

10

Du Texte à la Phonétique

Pré-processeurAnalyseur

morphologique

Analyseur contextuel

Analyseur syntaxique- prosodique

Phonétiseur

Générateur de prosodie

Texte

Structurede

données

Phonèmes

Prosodie

Page 11: 1 Cours parole du 2 Mars 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Synthèse de la Parole 1.Introduction, Historique, Domaines

11

5.1 Module traitement du langage naturel

• Pré-processeur: transforme le texte, de façon à identifier des séquences de caractères qui risquent de poser un problème (nombres, abréviations, acronymes, …)

• Analyseur morphologique: identifie les natures possibles pour chaque mot individuellement (nom, prénom, verbe,…)

• Analyseur contextuel : comme avant mais en contexte, donc permet de réduire la liste des natures possibles;

• Analyseur syntaxique-prosodique : affine les résultat de l'analyseur contextuel, et établit un découpage de texte en groupes de mots, pour leur associé une prosodie.

• Convertisseur graphème -phonème (phonétisation)

Page 12: 1 Cours parole du 2 Mars 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Synthèse de la Parole 1.Introduction, Historique, Domaines

12

5.1.1 Prétraitement

des données textuelles • détection des fins de phrases (les ponctuations ne sont pas toujours indicateurs

de fins de phrases, 12.3.4, p.ex., Dr….• implique l'identifications des mots à problèmes

AcronymesFDA = Food and Drug Administration;CO (carbon oxyde, Colorado, commanding officer..)MD (doctor of medicine or Maryland)

Phrases ambiguesAt 8 am I ( At <time> eight am </time> orAt 8 am I ( At <number> eight </number> am I

datesTemps MonnaieGrand nombres (quelle suite de chiffres,p.ex pour les cartes de crédit)…………

Page 13: 1 Cours parole du 2 Mars 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Synthèse de la Parole 1.Introduction, Historique, Domaines

13

5.1.2 Analyseur linguistique

principalement le parseur syntactique e t sémantique

• Peuvent utiliser les règles de NLP (Natural language Processing) si elles existent ( elles sont dérivés des grands corpus textuels)

• Sert a mettre des tags fonctionels sur des mots et a lever les ambiguités détectés dans le module de prétraitment

• les ambigités semantiques sont souvent difficiles a resoudre ( At 8 am I)

Solution possible:

• utilisation des langages structurés (xml) avec des "tags" spécifiques

Page 14: 1 Cours parole du 2 Mars 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Synthèse de la Parole 1.Introduction, Historique, Domaines

14

5.2 Phonétiseur automatique

Plus le vocabulaire est grand, plus on a des problèmes, et il n'existe pas de solution globale, car les problèmes sont très variés:

• homographes hétérophones i.e. des mots qui s'écrivent de la même façon mais se prononcent différemment (des os, un os)

• Coarticulation (dans un mot)

• liaisons phonétiques entre groupes de mots : deux à deux (liaison optionnelle) ou plat exquis (liaison interdite)…

• en français le e muet ( surtout dans le sud de la France..)

• nouveaux mots (acronymes y compris)

• Noms propres

Page 15: 1 Cours parole du 2 Mars 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Synthèse de la Parole 1.Introduction, Historique, Domaines

15

Phonétisation (1)

Page 16: 1 Cours parole du 2 Mars 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Synthèse de la Parole 1.Introduction, Historique, Domaines

16

Phonétisation (2)

Page 17: 1 Cours parole du 2 Mars 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Synthèse de la Parole 1.Introduction, Historique, Domaines

17

5.3 Prosodie

• C'est la manière de prononciation qui est importante pour la compréhension (dénotation et co-notation); Elle comprend :

les pausesle pitch (Fo)la vitesse de prononciationl'amplitude

Page 18: 1 Cours parole du 2 Mars 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Synthèse de la Parole 1.Introduction, Historique, Domaines

18

Prosodie : la « musique » de la parole

Page 19: 1 Cours parole du 2 Mars 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Synthèse de la Parole 1.Introduction, Historique, Domaines

19

5.4 Traitement du signal numérique

• Transforme la suite de phonèmes et leur prosodie en signal sonore : c'est le module de synthèse

• Il existe deux familles de synthétiseurs : par règle

par concaténation avec modification de la forme d'onde (prosodie)sans modification de la forme d'ondeen domaine limité (enregistrement de phrases entières)

Page 20: 1 Cours parole du 2 Mars 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Synthèse de la Parole 1.Introduction, Historique, Domaines

20

Qu’est-ce qu’un diphone ?

Page 21: 1 Cours parole du 2 Mars 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Synthèse de la Parole 1.Introduction, Historique, Domaines

21

Concaténation de diphones

Page 22: 1 Cours parole du 2 Mars 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Synthèse de la Parole 1.Introduction, Historique, Domaines

22

Liens Internet

Synthèse

• http://tcts.fpms.ac.be/synthesis/mbrola.html

• http://www.bell-labs.com/project/tts/#examples

• http://www.cstr.ed.ac.uk/projects/festival/

• http://www.research.att.com/projects/tts/

Codage

• http://people.qualcomm.com/karn/voicedemo/

Page 23: 1 Cours parole du 2 Mars 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Synthèse de la Parole 1.Introduction, Historique, Domaines

23

8.3 Codeurs segmentaux

• Permettent la plus grande réduction du débit (<800bps), mais nécessitent des méthodes de reconnaissance des unités segmentales.

• Résultats similaires dans l'implémentation des systèmes dépendant du locuteur.

• Comment pourrait-on encore réduire le débit: en transmettant le texte reconnu, et en effectuant de la synthèse à partir du texte du coté du transmetteur.

Page 24: 1 Cours parole du 2 Mars 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Synthèse de la Parole 1.Introduction, Historique, Domaines

24

Recherche actuelle