le signal vocal production du signal ; modèles de production notions sur laudition allure...

54
Le Signal Vocal Production du signal ; Modèles de production • Notions sur l’audition • Allure temporelle • Analyse en fréquence • Typologie des signaux • Représentation Temps-Fréquence, spectrogramme • Transmission , Synthèse, Reconnaissance • Détection de la mélodie, de l’intonation • Analyse « cepstrale » et par prédiction linéaire • Analyse des formants et de leur évolution • Principe de la synthèse de parole • Données utilisées en reconnaissance de parole http://tcts.fpms.ac.be/cours/1005-08/speech/parole.p http://svr-www.eng.cam.ac.uk/~ajr/SA95/node87.html

Upload: hercule-bailly

Post on 03-Apr-2015

109 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Le Signal Vocal Production du signal ; Modèles de production Notions sur laudition Allure temporelle Analyse en fréquence Typologie des signaux Représentation

Le Signal Vocal

• Production du signal ; Modèles de production• Notions sur l’audition• Allure temporelle• Analyse en fréquence• Typologie des signaux• Représentation Temps-Fréquence, spectrogramme• Transmission , Synthèse, Reconnaissance• Détection de la mélodie, de l’intonation• Analyse « cepstrale » et par prédiction linéaire• Analyse des formants et de leur évolution• Principe de la synthèse de parole• Données utilisées en reconnaissance de parole

http://tcts.fpms.ac.be/cours/1005-08/speech/parole.pdfhttp://svr-www.eng.cam.ac.uk/~ajr/SA95/node87.html

Page 2: Le Signal Vocal Production du signal ; Modèles de production Notions sur laudition Allure temporelle Analyse en fréquence Typologie des signaux Représentation

http://perso.club-internet.fr/mantonio/condvoc.htm

Production du signal ; Modèles de production

Page 3: Le Signal Vocal Production du signal ; Modèles de production Notions sur laudition Allure temporelle Analyse en fréquence Typologie des signaux Représentation

http://perso.club-internet.fr/mantonio/condvoc.htm

Page 4: Le Signal Vocal Production du signal ; Modèles de production Notions sur laudition Allure temporelle Analyse en fréquence Typologie des signaux Représentation

http://perso.club-internet.fr/mantonio/condvoc.htm

temps

Page 5: Le Signal Vocal Production du signal ; Modèles de production Notions sur laudition Allure temporelle Analyse en fréquence Typologie des signaux Représentation

http://www.ling.su.se/staff/hartmut/kemplne.htm

Wolfgang von Kempelen (1770)

Page 6: Le Signal Vocal Production du signal ; Modèles de production Notions sur laudition Allure temporelle Analyse en fréquence Typologie des signaux Représentation

guimbarde, chants diphoniques, arc à bouche, didgeridoo

clicsen langue xhosaen Afrique du sud

Page 7: Le Signal Vocal Production du signal ; Modèles de production Notions sur laudition Allure temporelle Analyse en fréquence Typologie des signaux Représentation

Synthèse numérique (ou équivalent analogique)

y t a i y t i x ti

p ou( ) ( ) ( ) ( )

( )

1

10 12

1

A z( )

Filtre récursif

Filtre linéaire variant lentement dans le tempsreprésentant les évolutions temporelles

des résonances du conduit vocal

Impulsionsdes cordes vocales

(intonation)ou bruit

(fricatives)

(Sa réponse en fréquencecorrespond au spectre du signal vocal)

y t( )

Signal synthétisé

x t( )

Page 8: Le Signal Vocal Production du signal ; Modèles de production Notions sur laudition Allure temporelle Analyse en fréquence Typologie des signaux Représentation

100 2000

1

0 50400

200

0

200

100 2001

0

1

0 2000

50

100

0 2000

20

40

0 100 2000

0.5

temps

fréquence

Cordes vocalesintonation

Conduit vocalrésonances

Signal sonoresynthétique

Page 9: Le Signal Vocal Production du signal ; Modèles de production Notions sur laudition Allure temporelle Analyse en fréquence Typologie des signaux Représentation

http://www.iurc.montp.inserm.fr/cric/audition/

Audition

Page 10: Le Signal Vocal Production du signal ; Modèles de production Notions sur laudition Allure temporelle Analyse en fréquence Typologie des signaux Représentation

http://www.iurc.montp.inserm.fr/cric/audition/

Page 11: Le Signal Vocal Production du signal ; Modèles de production Notions sur laudition Allure temporelle Analyse en fréquence Typologie des signaux Représentation

Phénomène de masquage (mp3)

0 5 10 15

0

20

40

60

80

0 5 10 15

0

20

40

60

80

x(n) = sinusoïde masquante

q(n) = sinusoïde masquée

0 5 10 150

20

40

60

80

100

120

Fréquences (kHz)

Sx(f) = DSP du signal

Sm(f) = Seuil de masquage

http://tsi.enst.fr/~moreau/activites_enseignement.html

fréquence fréquence

Page 12: Le Signal Vocal Production du signal ; Modèles de production Notions sur laudition Allure temporelle Analyse en fréquence Typologie des signaux Représentation

Analyse spectrale à court terme

spectre

Spectre (log)

temps

Spectre échelle mel

fréquence

fréquencefréquence

Page 13: Le Signal Vocal Production du signal ; Modèles de production Notions sur laudition Allure temporelle Analyse en fréquence Typologie des signaux Représentation

0 0.15 0.29 0.44 0.58 0.73 0.88 1.02 1.17 1.32 1.46 1.61 1.75

mg md

0.095 0.1 0.105 0.11 0.115 0.12 0.125 0.13 0.135 0.14 0.145 0.15 0.155 0.16 0.165 0.17 0.175 0.18 0.185 0.19 0.195 0.24 10

4

2 104

0

2 104

4 104

0.095 0.1 0.105 0.11 0.115 0.12 0.125 0.13 0.135 0.14 0.145 0.15 0.155 0.16 0.165 0.17 0.175 0.18 0.185 0.19 0.195 0.24 10

4

2 104

0

2 104

4 104

0 200 400 600 800 1000 1200 1400 1600 1800 2000 2200 2400 2600 2800 3000 3200 3400 3600 3800 4000 4200 4400 4600 4800 50000

10

20

30

40

0 200 400 600 800 1000 1200 1400 1600 1800 2000 2200 2400 2600 2800 3000 3200 3400 3600 3800 4000 4200 4400 4600 4800 50000

10

20

30

40

Signal vocal

Zoom

Spectre de la portion analysée : formants

temps

fréquence

Page 14: Le Signal Vocal Production du signal ; Modèles de production Notions sur laudition Allure temporelle Analyse en fréquence Typologie des signaux Représentation

0 0.15 0.29 0.44 0.58 0.73 0.88 1.02 1.17 1.32 1.46 1.61 1.75

mg md

0.095 0.1 0.105 0.11 0.115 0.12 0.125 0.13 0.135 0.14 0.145 0.15 0.155 0.16 0.165 0.17 0.175 0.18 0.185 0.19 0.195 0.24 10

4

2 104

0

2 104

4 104

0 0.15 0.29 0.44 0.58 0.73 0.88 1.02 1.17 1.32 1.46 1.61 1.75

mg md

0.095 0.1 0.105 0.11 0.115 0.12 0.125 0.13 0.135 0.14 0.145 0.15 0.155 0.16 0.165 0.17 0.175 0.18 0.185 0.19 0.195 0.24 10

4

2 104

0

2 104

4 104

0.095 0.1 0.105 0.11 0.115 0.12 0.125 0.13 0.135 0.14 0.145 0.15 0.155 0.16 0.165 0.17 0.175 0.18 0.185 0.19 0.195 0.24 10

4

2 104

0

2 104

4 104

0 200 400 600 800 1000 1200 1400 1600 1800 2000 2200 2400 2600 2800 3000 3200 3400 3600 3800 4000 4200 4400 4600 4800 50000

10

20

30

40

0 200 400 600 800 1000 1200 1400 1600 1800 2000 2200 2400 2600 2800 3000 3200 3400 3600 3800 4000 4200 4400 4600 4800 50000

10

20

30

40

spectre

Module de la transformée de Fourier

Deux secondes de signal temporel

Analyse d ’une portion de 100 ms

fondamental

harmoniques

Formants (résonnances)

temps

fréquence

Page 15: Le Signal Vocal Production du signal ; Modèles de production Notions sur laudition Allure temporelle Analyse en fréquence Typologie des signaux Représentation

Allure temporelle des signaux

• Voyelles et consonnes voisées

• Fricatives

• Plosives• Fricatives voisées

• Plosives voisées

• Voyelle et consonnes nasaliséesa, e, oe, i, o, u, ou, é, è, l, r

m, n, on, an, in, unf, s, chv, z, jp, t, kb, d, g

+sons « doubles », diphtongues, ... w, ll

Page 16: Le Signal Vocal Production du signal ; Modèles de production Notions sur laudition Allure temporelle Analyse en fréquence Typologie des signaux Représentation

signalanalysé sousmatrice signalcoupé debutanalyse finanalyse 0 0( )

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1 0.11

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

‘ eu ’

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

‘ a ’

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

‘ ai ’

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

‘ o ’

temps

fréquence

temps

fréquence

temps

fréquence

temps

fréquence

Page 17: Le Signal Vocal Production du signal ; Modèles de production Notions sur laudition Allure temporelle Analyse en fréquence Typologie des signaux Représentation

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

‘ u ’

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

‘ i ’

temps

fréquence

temps

fréquence

Page 18: Le Signal Vocal Production du signal ; Modèles de production Notions sur laudition Allure temporelle Analyse en fréquence Typologie des signaux Représentation

‘ (ll)an ’

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 0.4 0.8 1.2 1.6 2 2.4 2.8 3.2 3.6 41

2

3

4

‘ on ’

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

debutanalyse

0 0.4 0.8 1.2 1.6 2 2.4 2.8 3.2 3.6 41

2

3

‘ in ’

temps

fréquence

temps

fréquence

temps

fréquence

Page 19: Le Signal Vocal Production du signal ; Modèles de production Notions sur laudition Allure temporelle Analyse en fréquence Typologie des signaux Représentation

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

(a)ll

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

‘ m ’

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

‘ n ’

temps

fréquence

temps

fréquence

temps

fréquence

Page 20: Le Signal Vocal Production du signal ; Modèles de production Notions sur laudition Allure temporelle Analyse en fréquence Typologie des signaux Représentation

‘ ta ’

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

signalanalysé sousmatrice signalcoupé debutanalyse finanalyse 0 0( )

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

‘ d ’

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

‘ b ’

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

‘ po ’

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

10

20

3.0557

2.54 2.56 2.57 2.58 2.59 2.61 2.62 2.63 2.64 2.66 2.672.73 10

4

2754

3.28 104 ‘ co ’

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

‘ g ’

temps

fréquence

temps

fréquence

temps

fréquence

temps

fréquence

temps

fréquence

temps

fréquence

Page 21: Le Signal Vocal Production du signal ; Modèles de production Notions sur laudition Allure temporelle Analyse en fréquence Typologie des signaux Représentation

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

‘ s ’

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

‘ j ’

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

‘ f ’

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

10

20

30

‘ z ’

0 0.010.020.030.040.050.060.070.080.09 0.1

0 400800120016002000240028003200360040000

20

40

‘ v ’

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 0.4 0.8 1.2 1.6 2 2.4 2.8 3.2 3.6 40

10

20

‘ ch ’

temps

fréquence

temps

fréquence

temps

fréquence

temps

fréquence

temps

fréquence

temps

fréquence

Page 22: Le Signal Vocal Production du signal ; Modèles de production Notions sur laudition Allure temporelle Analyse en fréquence Typologie des signaux Représentation

tempsfréquence perspective

log spectrogramme( )

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.52 10

4

0

2 104

chronogrammeénergie (log)

temps

fréq

uenc

e

ampl

itude spectrogramme

chronogramme

Page 23: Le Signal Vocal Production du signal ; Modèles de production Notions sur laudition Allure temporelle Analyse en fréquence Typologie des signaux Représentation

fréquence

temps

amplitude

Spectrogramme, sonogramme, sonagramme Evolution au cours du temps de l ’analyse spectrale à court terme

fréquence

temps

mise en évidence des formants (résonances du conduit vocal)

Page 24: Le Signal Vocal Production du signal ; Modèles de production Notions sur laudition Allure temporelle Analyse en fréquence Typologie des signaux Représentation

ph o n e t i c i an

fréquence

temps

Page 25: Le Signal Vocal Production du signal ; Modèles de production Notions sur laudition Allure temporelle Analyse en fréquence Typologie des signaux Représentation

Le « cepstre »

- Analyse de la fréquence fondamentale chant, intonation- Paramètres de base pour la reconnaissance

fréquence« temps »

Page 26: Le Signal Vocal Production du signal ; Modèles de production Notions sur laudition Allure temporelle Analyse en fréquence Typologie des signaux Représentation

Analyse de la fréquence fondamentalechant, intonation

4

0 125 250 375 500 625 750 875 10001

2

3

temps

fréquence

fondamentalharmoniques

Page 27: Le Signal Vocal Production du signal ; Modèles de production Notions sur laudition Allure temporelle Analyse en fréquence Typologie des signaux Représentation

0 6.34 12.6819.0225.36 31.7 38.0444.3850.7257.06 63.4 69.7476.0882.4288.76 95.1101.44107.78114.12120.46126.8133.14139.48145.82152.16158.5164.84171.18177.52183.86190.2196.54202.880

1 104

2 104

1.943 104

0

cbas k

longueurcoupe

50

00 k

0 507.2 1014.4 1521.6 2028.8 2536 3043.2 3550.4 4057.6 4564.8 5072 5579.2 6086.4 6593.6 7100.8 7608 8115.2 8622.4 9129.6 9636.8 1.01 104

1000

500

0

500

1000893.488

884.279

CCk

longueurcoupe0 k

0 6.34 12.6819.0225.36 31.7 38.0444.3850.7257.06 63.4 69.7476.0882.4288.76 95.1101.44107.78114.12120.46126.8133.14139.48145.82152.16158.5164.84171.18177.52183.86190.2196.54202.880

1 104

2 104

3 104

2.272 104

0

cbandek

longueurcoupe

50

00 k

0 1014.4 2028.8 3043.2 4057.6 5072 6086.4 7100.8 8115.2 9129.6 1.01 104

1 104

5000

0

5000

1 104

5.366 103

5.366 103

CFBk

REDRESk 0.5

longueurcoupe0 k

0 6.34 12.6819.0225.36 31.7 38.0444.3850.7257.06 63.4 69.7476.0882.4288.76 95.1101.44107.78114.12120.46126.8133.14139.48145.82152.16158.5164.84171.18177.52183.86190.2196.54202.880

5 107

1 108

8.578 107

0

cbas k

longueurcoupe

50

00 k

0 507.2 1014.4 1521.6 2028.8 2536 3043.2 3550.4 4057.6 4564.8 5072 5579.2 6086.4 6593.6 7100.8 7608 8115.2 8622.4 9129.6 9636.8 1.01 104

1 107

5 106

0

5 106

1 107

5.927 106

5.939 106

CCk

longueurcoupe0 k

Passe bas

Passe bandedémodulation

Passe bassur le résultat

Analyse de la mélodie (pitch)

fondamental

harmoniques

temps

fréquence

temps

fréquence

temps

fréquencefondamental retrouvé par démodulation

Page 28: Le Signal Vocal Production du signal ; Modèles de production Notions sur laudition Allure temporelle Analyse en fréquence Typologie des signaux Représentation

Codage à bas débit (moins de 15kbits/s) : prédiction linéaireCodage à débit moyen : 16 à 32 kbits/s : modulation deltaTéléphonie : 8bits x 8000 éch./s = 64 kbits/sHaute fidélité 16bits x 44100 éch./s = 700 kbits/MP3 = 144 kbits/s

Codage de la parole : différents débits enfonction des applications et de la qualité acceptée

Page 29: Le Signal Vocal Production du signal ; Modèles de production Notions sur laudition Allure temporelle Analyse en fréquence Typologie des signaux Représentation

Téléphonie numérique

Réduire la dynamique

Loi « mu »)].1([log2 xQy

94.4 38.8 0 72.4 128

0

128

128

yx

128128 x 128

Échantillonnage à 8kHz quantification sur 8 bits

Page 30: Le Signal Vocal Production du signal ; Modèles de production Notions sur laudition Allure temporelle Analyse en fréquence Typologie des signaux Représentation

q

kktkb

1

+_)(tx

)(t

Tra

nsm

issi

on

q

kktkt btx

1

)(

)(tx )(t

Codage par modulation delta (parole)pour les débits de 16à 32 kBits/s

Quantification de la différenceentre le signal et sa prédiction

Synthèse

Analyse

Page 31: Le Signal Vocal Production du signal ; Modèles de production Notions sur laudition Allure temporelle Analyse en fréquence Typologie des signaux Représentation

Filtrage des signauxdans différentes bandes de fréquences

T. FourierSélection des canaux utiles (effet de masquage1er codage

T. Cos etcodage

T. Cos etcodage

T. Cos etcodage

T. Cos etcodage

T. Cos etcodage

Em

issi

on d

es d

onné

es

Principe du codage MP3

Page 32: Le Signal Vocal Production du signal ; Modèles de production Notions sur laudition Allure temporelle Analyse en fréquence Typologie des signaux Représentation

Analyse par prédiction linéaire

Canal vocalImpusions

(cordes vocales)

Bruit(pour les fricatives)

Signal Synthétique

Filtre récursifdont la réponse en

fréquence estcelle du spectre

à court terme

)(

1

zA

(~ 20 ms)

Page 33: Le Signal Vocal Production du signal ; Modèles de production Notions sur laudition Allure temporelle Analyse en fréquence Typologie des signaux Représentation

- Calcul de 11 coefficients de corrélation sur une portion de 25 ms (200 échantillons)

- Application de l ’algorithme de Levinsonpour obtenir les coefficients du filtre récursif

(sous la forme d ’un filtre en treillis)

- Transmission des coefficients et du signal résiduel (erreur de prédiction) au récepteurqui en déduit la synthèse du signal

199

0)()(

tk ktxtxr

101 )10()1(1

1

)(

1

zazazA

Page 34: Le Signal Vocal Production du signal ; Modèles de production Notions sur laudition Allure temporelle Analyse en fréquence Typologie des signaux Représentation

Codage par prédiction linéaire

signal analysé calcul de corrélationalgorithme de Levinson

coefficients du filtre A(z)filtre nonrécursif A(z)

signal résiduel e(t)recherche de périodicité L

(max de corrélation) e(t)e(t+L)

v(t)=e(t)-r.e(t-L)

quantificationrecherche d’un

élément ressemblant à un tronçon de v(t)

dans un dictionnaire

d(n)

filtre récursif 1/A(z)

e(t)=v(t)+r.e(t-L)

reconstruction de v(t)à partir des d(n)

transmission

signal synthétisé

L

signal résiduel e(t)

d(n)

v(t) v(t)

étape decompression

analyse synthèse

Page 35: Le Signal Vocal Production du signal ; Modèles de production Notions sur laudition Allure temporelle Analyse en fréquence Typologie des signaux Représentation

Spectre de la portionde signal analysé

Réponse en fréquencedu filtre récursif

modélisant le signal vocal

Analyse par prédiction linéaire

fréquence

Page 36: Le Signal Vocal Production du signal ; Modèles de production Notions sur laudition Allure temporelle Analyse en fréquence Typologie des signaux Représentation

Code Excited Linear Prediction (CELP)

Dictionnairede signaux

élémentairesPrédiction à long terme(intonation)

Modèledu conduit vocal

génération du signald’entrée du filtre (cordes vocales, bruit)

Page 37: Le Signal Vocal Production du signal ; Modèles de production Notions sur laudition Allure temporelle Analyse en fréquence Typologie des signaux Représentation

(Ech 11025 Hz)

k 0 1023

0 64 128 192 256 320 384 448 512 576 640 704 768 832 896 960 1024816

113

590

0 128 256 384 512 640 768 896 10240

500

1000

0 204.8 409.6 614.4 819.2 1024500

0

500

portion de signal de parole analyséefiltrage passe bande du signaldans le domaine des fréquences

temps

tempsfréquence

Illustration de l ’application de la prédiction linéaireau codage de la parole en téléphonie

Page 38: Le Signal Vocal Production du signal ; Modèles de production Notions sur laudition Allure temporelle Analyse en fréquence Typologie des signaux Représentation

0 2 4 6 8 10 125 10

6

0

5 106

1 107

0 1 2 3 4 5 6 7 8 9 10 11 12 13 141

0

1Corrélation : r(n) Coefficients de A(z)

Réponse impulsionnelledu filtre récursif 1/A(z)

Réponse impulsionnelledu filtre non récursif A(z)

Algo de Levinsonou Schur

temps

Signal modélisé

tempstemps

Page 39: Le Signal Vocal Production du signal ; Modèles de production Notions sur laudition Allure temporelle Analyse en fréquence Typologie des signaux Représentation

50 100 150 200 250 300 350 4002000

1000

0

1000

0 102.4 204.8 307.2 409.6 5120

2

4

6

1.2 0 1.21.2

0

1.2

Réponse impulsionnelledu filtre récursif

Réponse en fréquence du filtre récursif

Zéros de A(z)(pôles de 1/A(z))

temps

fréquence

Page 40: Le Signal Vocal Production du signal ; Modèles de production Notions sur laudition Allure temporelle Analyse en fréquence Typologie des signaux Représentation

0 64 128 192 256 320 384 448 512 576 640 704 768 832 896 960 1024846.71

124.2

598.31

Signal résiduel à coder- Recherche de la périodicité (pitch :

prédiction à long termeon code x(t)-x(t-L) : estimer L

- Quantification vectorielle

1617181920212223242526272829303132346.71

4.74

337.22

L

On découpe le signal en tronçonscomparaison à des formes de signalmémorisées dont on transmet le numéro+ transmission des coefs du filtre

Spectre du signal résiduel

temps

temps

fréquence

Page 41: Le Signal Vocal Production du signal ; Modèles de production Notions sur laudition Allure temporelle Analyse en fréquence Typologie des signaux Représentation

Synthèse de son ; diphones

Difficultés:• Enchainement de sons élémentaires• Intonation naturelle

Page 42: Le Signal Vocal Production du signal ; Modèles de production Notions sur laudition Allure temporelle Analyse en fréquence Typologie des signaux Représentation

.

Découpe d’un son élémentaire (p. ex. diphone)en période de longueur double de la période du pitch

)().()( tfttxts nn

nknknk httsn

ty ,, ).()(

Chacun des ~1000 diphones (33x33) est découpé en10 ou 20 sons élémentaires de 100 à 200 échantillons

Synthèse de parole

)()( nn ttsn

tx

mbrola

http://tcts.fpms.ac.be/synthesis/mbrola.html

Page 43: Le Signal Vocal Production du signal ; Modèles de production Notions sur laudition Allure temporelle Analyse en fréquence Typologie des signaux Représentation

On peut rajouter ces tronçons après les avoir décaléset amplifiés en fonction de la mélodie, de l ’intonation, ...

Plus aigu : diminuer

Plus grave : augmenter

Modification de l ’amplitude en changeant

nkt ,

nkt ,

nkh ,

Page 44: Le Signal Vocal Production du signal ; Modèles de production Notions sur laudition Allure temporelle Analyse en fréquence Typologie des signaux Représentation

Reconnaissance de la Parole fondée sur les Modèles de Markov Cachés

Hidden Markov Models

1. Introduction2. Formulation en reconnaissance de parole 2.1 Reconnaissance (Viterbi) 2.2 Probabilité d’une séquence 2.3 Apprentissage3. Mise en œuvre 3.1 Analyse spectrale à court terme 3.2 Quantification vectorielle 3.3 Forme usuelle de l’automate

http://htk.eng.cam.ac.uk/

Page 45: Le Signal Vocal Production du signal ; Modèles de production Notions sur laudition Allure temporelle Analyse en fréquence Typologie des signaux Représentation

transition

mesures

a m m( ' , )

b m n( , ') b m n( , )

2. Automates utilisés dans les modèles de Markov cachés

Séquence d’états :

Séquence de mesures :

(Probabilités)

S s s sT 0 1, , ,

Y y y yT 0 1, , ,

d m p s m( ) ( ) 0

a m m p s m s mt t( ' , ) ( '/ ) 1

b m n p y n s mt t( , ) ( / )

états

n’ n

m’ m

probabilité de transition de l’état m’ à l’état m

probabilité de mesurer ‘n’ quand l’automate estdans l’état m

probabilité que l’état initial soit m

Page 46: Le Signal Vocal Production du signal ; Modèles de production Notions sur laudition Allure temporelle Analyse en fréquence Typologie des signaux Représentation

Les trois problèmes :

1. Reconnaissance : Y donné quelle est la S la plus probable ?

2. Quelle est la probabilité d’observer Y avec l ’automate (a,b,d) ?

3. Apprentissage : comment calculer a(m,m’), b(m,n) et d(m)

Séquence d’états :

Séquence de mesures :

S s s sT 0 1, , ,

Y y y yT 0 1, , ,

Page 47: Le Signal Vocal Production du signal ; Modèles de production Notions sur laudition Allure temporelle Analyse en fréquence Typologie des signaux Représentation

Algorithme de ViterbiCalcul par récurrence de r m p s s s m y yt t t t( ) max ( , , , , , , ) 0 1 0

Initialisation

Récurrence

Fin de l’algorithme

r m r m a m m b m ytm

t t( ') max ( ) ( , ') ( ' , ) 1

r m d m b m y0 0( ) ( ) ( , )

t T

r mt 1( )

q mt ( ')m'

Obtention de la séquence la plus probable

m' '

t 1 t t 1 temps

Etat m

« Treillis » pourreprésenterl ’évolutionde l ’automateau cours du temps

Page 48: Le Signal Vocal Production du signal ; Modèles de production Notions sur laudition Allure temporelle Analyse en fréquence Typologie des signaux Représentation

Probabilité d’observation d’une séquence Y avec (a,b,d)

p Y d s b s y a s s b s yt t t tt

T

S( ) ( ) ( , ) ( , ) ( , )

0 0 0 1

1

1

Calcul à t croissant

t t tm p s m y y( ) ( ,[ , , ]) 0

0 0( ) ( ) ( , )m d m b m y

tm

M

t tm m a m m b m y

11

1( ) ( ') ( ' , ) ( , )'

p Y mm

T( ) ( )

Utilisé pour comparer la pertinence de différents automates(un automate est associé à un mot)

(aussi utilisé dans les « turbocodes en détection d ’erreurs »

Page 49: Le Signal Vocal Production du signal ; Modèles de production Notions sur laudition Allure temporelle Analyse en fréquence Typologie des signaux Représentation

Apprentissage de mots (cf. notes de cours)Calculer à partir de mesures Y de a(m,m’), b(m,n), d(m)

Automate usuel (Bakis)

Défauts de rythmes (doublement ou suppression d’une étape)voir aussi le « dynamic time warping »

t

t’

(lourd : nécessite de nombreuses réalisations deY)

Page 50: Le Signal Vocal Production du signal ; Modèles de production Notions sur laudition Allure temporelle Analyse en fréquence Typologie des signaux Représentation

3. Mise en forme des données mesurées sur la parole

Associer à une portion de signal vocal (~20ms)une mesure y(t) :- Analyse spectrale à court terme un vecteur (dim 20)- Quantification vectorielle

F o n e t i ch i an

Page 51: Le Signal Vocal Production du signal ; Modèles de production Notions sur laudition Allure temporelle Analyse en fréquence Typologie des signaux Représentation

Analyse spectrale à court terme

0 500 1000 1500 2000 2500 3000 3500 4000 4500

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21

2000

4000

Echelle Mel linéaire exponentielle

Fréquence centraledu filtre

Banc de filtres

Page 52: Le Signal Vocal Production du signal ; Modèles de production Notions sur laudition Allure temporelle Analyse en fréquence Typologie des signaux Représentation

Coefficients cepstraux

Energie en sortie des différents filtres : C(n)

c k C n k nn

( ) log[ ( )]cos[ ( )]

1

20

20

1

2

Peuvent être liés aux coefficients de la prédiction linéaire

c k a kk

a c kk

( ) ( ) ( ) ( ) ( )

1

1

1

Page 53: Le Signal Vocal Production du signal ; Modèles de production Notions sur laudition Allure temporelle Analyse en fréquence Typologie des signaux Représentation

Quantification vectorielle

Trouver des représentants pour des nuages de points

Choisir des centres de classesAssigner à cette classe les pointsvoisinsPrendre comme centre de classele barycentre des points d’uneclasseréitérer jusqu ’à convergence

Passer des c(k) aux y (mesures)

Page 54: Le Signal Vocal Production du signal ; Modèles de production Notions sur laudition Allure temporelle Analyse en fréquence Typologie des signaux Représentation

Toutefois, beaucoup de réglages et de variantes…

Recherche : « comprendre » le signal vocalet l ’information qu ’il contient (et non se contenterd ’une « simple » comparaison)

Comprendre le fonctionnement de la cochlée et du système nerveux auditif