1 cours parole du 16 février 2005 enseignants: dr. dijana petrovska-delacrétaz et gérard chollet...

26
1 Cours parole du 16 février 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Reconnaissance Automatique de la Parole 1. Introduction, Historique, Domaines d’applications 2. Extraction de paramètres 3. Comparaison de représentations temps-fréquence 4. DTW : Dynamic Time Warping (anamorphose T-F) 5. Modèles stochastiques (HMM, Réseaux Bayésiens) 6. Modèles de langage 7. Evaluation 8. Conclusions

Upload: eloise-ferrer

Post on 03-Apr-2015

106 views

Category:

Documents


3 download

TRANSCRIPT

Page 1: 1 Cours parole du 16 février 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Reconnaissance Automatique de la Parole 1.Introduction,

1

Cours parole du 16 février 2005enseignants: Dr. Dijana Petrovska-Delacrétaz

et Gérard Chollet

Reconnaissance Automatique de la Parole

1. Introduction, Historique, Domaines d’applications 2. Extraction de paramètres3. Comparaison de représentations temps-fréquence4. DTW : Dynamic Time Warping (anamorphose T-F)5. Modèles stochastiques (HMM, Réseaux Bayésiens)6. Modèles de langage7. Evaluation8. Conclusions

Page 2: 1 Cours parole du 16 février 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Reconnaissance Automatique de la Parole 1.Introduction,

2

Références bibliographiques :Reconnaissance Automatique de la Parole

Page 3: 1 Cours parole du 16 février 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Reconnaissance Automatique de la Parole 1.Introduction,

3

Histoire de la Reconnaissance Automatique de la Parole

Page 4: 1 Cours parole du 16 février 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Reconnaissance Automatique de la Parole 1.Introduction,

4

Type de parole

• Mots isolés

• Mots connectés

• Détection de mots clés

• Parole contrainte

• Parole continue

• Parole spontanée

Page 5: 1 Cours parole du 16 février 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Reconnaissance Automatique de la Parole 1.Introduction,

5

Taille du vocabulaire

• Quelques mots (5 – 50)

• Petit vocabulaire (50 – 500)

• Vocabulaire moyen (500 – 5000)

• Grand vocabulaire (5000 – 50000)

• Très grand vocabulaire (> 50000)

Page 6: 1 Cours parole du 16 février 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Reconnaissance Automatique de la Parole 1.Introduction,

6

Dépendance au locuteur

• Dépendant du locuteur :le système fonctionne correctement avec un utilisateur particulier

Adaptation au locuteur =utilise quelques données spécifiques

d’un locuteur pour adapter le systèmeà une nouvelle voix

• Indépendant du locuteur :le système fonctionne avec n’importe quel utilisateur

Page 7: 1 Cours parole du 16 février 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Reconnaissance Automatique de la Parole 1.Introduction,

7

Environnement d’utilisation

• Parole large-bande(ordinateur, etc.)

• Parole bande-étroite avec distorsion (téléphone, etc.)

• Environnement calme (bureau + micro-casque)

• Bruit de fond

Page 8: 1 Cours parole du 16 février 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Reconnaissance Automatique de la Parole 1.Introduction,

8

Profil des utilisateurs potentiels

• Utilisation professionnelle par des spécialistes

• Grand public

• Entraîné / naïf

• Fréquent / occasionnel

• Utilité

• Coopération

Page 9: 1 Cours parole du 16 février 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Reconnaissance Automatique de la Parole 1.Introduction,

9

Deux exemples

Dictée vocale• Parole continue

• Grand vocabulaire

• Adaptation au locuteur

• Bureau+micro-casque

• Utilisateurs d’ordinateurs

Service téléphonique• Détection de mots clés

• Quelques mots

• Indépendant du locuteur

• Parole téléphonique

• Grand public

Page 10: 1 Cours parole du 16 février 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Reconnaissance Automatique de la Parole 1.Introduction,

10

Dimensions et difficultés en RAP

• Taille du vocabulaire, perplexité, facteur de branchement,• Environnement sonore (prise de son), distortions, pertes,

bande passante (téléphonique, élargie, HiFi,…)• Nombre de locuteurs concernés, motivation des locuteurs,• Possibilités d’apprentissage, d’adaptation,• Nombre de langues, accents, …• Ergonomie de l’interface vocale,

Page 11: 1 Cours parole du 16 février 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Reconnaissance Automatique de la Parole 1.Introduction,

11

Variabilité intra- et inter-locuteur

Page 12: 1 Cours parole du 16 février 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Reconnaissance Automatique de la Parole 1.Introduction,

12

Variabilité intra-locuteur

Page 13: 1 Cours parole du 16 février 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Reconnaissance Automatique de la Parole 1.Introduction,

13

Modèles probabilistes

• La séquence des observations (vecteurs de paramètres) est généré par un automate stochastique à nombre fini d’états.

• Les Modèles de Markov Cachés (HMM : Hidden Markov Models) sont les plus utilisés.

Page 14: 1 Cours parole du 16 février 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Reconnaissance Automatique de la Parole 1.Introduction,

14

Modèle de Markov caché : principe

Page 15: 1 Cours parole du 16 février 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Reconnaissance Automatique de la Parole 1.Introduction,

15

Modèles de Markov cachés (HMM)

meilleurchemin

)S(Plog)Y,X(iXjy∑−=μ

Mot 2

Mot 1

Mot n

Mot inconnu Y

Mot

X

Page 16: 1 Cours parole du 16 février 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Reconnaissance Automatique de la Parole 1.Introduction,

16

Viterbi : exemple

Page 17: 1 Cours parole du 16 février 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Reconnaissance Automatique de la Parole 1.Introduction,

17

Le modèle hiérarchique

Page 18: 1 Cours parole du 16 février 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Reconnaissance Automatique de la Parole 1.Introduction,

18

Le modèle hiérarchique : exemple

Page 19: 1 Cours parole du 16 février 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Reconnaissance Automatique de la Parole 1.Introduction,

19

Modèles phonétiques (1)

Page 20: 1 Cours parole du 16 février 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Reconnaissance Automatique de la Parole 1.Introduction,

20

Modèles phonétiques (2)

Le mot « américain »

Page 21: 1 Cours parole du 16 février 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Reconnaissance Automatique de la Parole 1.Introduction,

21

Modèles contextuels

Page 22: 1 Cours parole du 16 février 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Reconnaissance Automatique de la Parole 1.Introduction,

22

8.3 Codeurs segmentaux

• Permettent la plus grande réduction du débit (<800bps), mais nécessitent des méthodes de reconnaissance des unités segmentales.

• Résultats similaires dans l'implémentation des systèmes dépendant du locuteur.

• Comment pourrait-on encore réduire le débit: en transmettant le texte reconnu, et en effectuant de la synthèse à partir du texte du coté du transmetteur.

Page 23: 1 Cours parole du 16 février 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Reconnaissance Automatique de la Parole 1.Introduction,

23

Modèles de langage

• A un instant donné, tous les mots n’ont pas la même probabilité de présence :

Le petit chat boit du …

• Grammaires probabilistes : toutes les phrases sont possibles mais avec des probabilités différentes

• Grammaires à états finis : partition binaire des séquences de mots en « séquences possibles » et « séquences impossibles »

Page 24: 1 Cours parole du 16 février 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Reconnaissance Automatique de la Parole 1.Introduction,

24

Modèle acoustique + Modèle de langage

Page 25: 1 Cours parole du 16 février 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Reconnaissance Automatique de la Parole 1.Introduction,

25

Performances

Page 26: 1 Cours parole du 16 février 2005 enseignants: Dr. Dijana Petrovska-Delacrétaz et Gérard Chollet Reconnaissance Automatique de la Parole 1.Introduction,

26

Recherche actuelle