le signal vocal production du signal ; modèles de production notions sur laudition allure...

Le Signal Vocal

• Production du signal ; Modèles de production• Notions sur l’audition• Allure temporelle• Analyse en fréquence• Typologie des signaux• Représentation Temps-Fréquence, spectrogramme• Transmission , Synthèse, Reconnaissance• Détection de la mélodie, de l’intonation• Analyse « cepstrale » et par prédiction linéaire• Analyse des formants et de leur évolution• Principe de la synthèse de parole• Données utilisées en reconnaissance de parole

http://tcts.fpms.ac.be/cours/1005-08/speech/parole.pdfhttp://svr-www.eng.cam.ac.uk/~ajr/SA95/node87.html

http://perso.club-internet.fr/mantonio/condvoc.htm

Production du signal ; Modèles de production


temps

http://www.ling.su.se/staff/hartmut/kemplne.htm

Wolfgang von Kempelen (1770)

guimbarde, chants diphoniques, arc à bouche, didgeridoo

clicsen langue xhosaen Afrique du sud

Synthèse numérique (ou équivalent analogique)

y t a i y t i x ti

p ou( ) ( ) ( ) ( )

( )

1

10 12

1

A z( )

Filtre récursif

Filtre linéaire variant lentement dans le tempsreprésentant les évolutions temporelles

des résonances du conduit vocal

Impulsionsdes cordes vocales

(intonation)ou bruit

(fricatives)

(Sa réponse en fréquencecorrespond au spectre du signal vocal)

y t( )

Signal synthétisé

x t( )

100 2000

1

0 50400

200

0

200

100 2001

0

1

0 2000

50

100

0 2000

20

40

0 100 2000

0.5

temps

fréquence

Cordes vocalesintonation

Conduit vocalrésonances

Signal sonoresynthétique

http://www.iurc.montp.inserm.fr/cric/audition/

Audition

http://www.iurc.montp.inserm.fr/cric/audition/

Phénomène de masquage (mp3)

0 5 10 15

0

20

40

60

80

0 5 10 15

0

20

40

60

80

x(n) = sinusoïde masquante

q(n) = sinusoïde masquée

0 5 10 150

20

40

60

80

100

120

Fréquences (kHz)

Sx(f) = DSP du signal

Sm(f) = Seuil de masquage

http://tsi.enst.fr/~moreau/activites_enseignement.html

fréquence fréquence

Analyse spectrale à court terme

spectre

Spectre (log)

temps

Spectre échelle mel

fréquence

fréquencefréquence

0 0.15 0.29 0.44 0.58 0.73 0.88 1.02 1.17 1.32 1.46 1.61 1.75

mg md

0.095 0.1 0.105 0.11 0.115 0.12 0.125 0.13 0.135 0.14 0.145 0.15 0.155 0.16 0.165 0.17 0.175 0.18 0.185 0.19 0.195 0.24 10

4

2 104

0

2 104

4 104

0.095 0.1 0.105 0.11 0.115 0.12 0.125 0.13 0.135 0.14 0.145 0.15 0.155 0.16 0.165 0.17 0.175 0.18 0.185 0.19 0.195 0.24 10

4

2 104

0

2 104

4 104

0 200 400 600 800 1000 1200 1400 1600 1800 2000 2200 2400 2600 2800 3000 3200 3400 3600 3800 4000 4200 4400 4600 4800 50000

10

20

30

40

0 200 400 600 800 1000 1200 1400 1600 1800 2000 2200 2400 2600 2800 3000 3200 3400 3600 3800 4000 4200 4400 4600 4800 50000

10

20

30

40

Signal vocal

Zoom

Spectre de la portion analysée : formants

temps

fréquence

0 0.15 0.29 0.44 0.58 0.73 0.88 1.02 1.17 1.32 1.46 1.61 1.75

mg md

0.095 0.1 0.105 0.11 0.115 0.12 0.125 0.13 0.135 0.14 0.145 0.15 0.155 0.16 0.165 0.17 0.175 0.18 0.185 0.19 0.195 0.24 10

4

2 104

0

2 104

4 104

0 0.15 0.29 0.44 0.58 0.73 0.88 1.02 1.17 1.32 1.46 1.61 1.75

mg md

0.095 0.1 0.105 0.11 0.115 0.12 0.125 0.13 0.135 0.14 0.145 0.15 0.155 0.16 0.165 0.17 0.175 0.18 0.185 0.19 0.195 0.24 10

4

2 104

0

2 104

4 104

0.095 0.1 0.105 0.11 0.115 0.12 0.125 0.13 0.135 0.14 0.145 0.15 0.155 0.16 0.165 0.17 0.175 0.18 0.185 0.19 0.195 0.24 10

4

2 104

0

2 104

4 104

0 200 400 600 800 1000 1200 1400 1600 1800 2000 2200 2400 2600 2800 3000 3200 3400 3600 3800 4000 4200 4400 4600 4800 50000

10

20

30

40

0 200 400 600 800 1000 1200 1400 1600 1800 2000 2200 2400 2600 2800 3000 3200 3400 3600 3800 4000 4200 4400 4600 4800 50000

10

20

30

40

spectre

Module de la transformée de Fourier

Deux secondes de signal temporel

Analyse d ’une portion de 100 ms

fondamental

harmoniques

Formants (résonnances)

temps

fréquence

Allure temporelle des signaux

• Voyelles et consonnes voisées

• Fricatives

• Plosives• Fricatives voisées

• Plosives voisées

• Voyelle et consonnes nasaliséesa, e, oe, i, o, u, ou, é, è, l, r

m, n, on, an, in, unf, s, chv, z, jp, t, kb, d, g

+sons « doubles », diphtongues, ... w, ll

signalanalysé sousmatrice signalcoupé debutanalyse finanalyse 0 0( )

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1 0.11

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

‘ eu ’

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

‘ a ’

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

‘ ai ’

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

‘ o ’

temps

fréquence

temps

fréquence

temps

fréquence

temps

fréquence

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

‘ u ’

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

‘ i ’

temps

fréquence

temps

fréquence

‘ (ll)an ’

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 0.4 0.8 1.2 1.6 2 2.4 2.8 3.2 3.6 41

2

3

4

‘ on ’

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

debutanalyse

0 0.4 0.8 1.2 1.6 2 2.4 2.8 3.2 3.6 41

2

3

‘ in ’

temps

fréquence

temps

fréquence

temps

fréquence

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

(a)ll

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

‘ m ’

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

‘ n ’

temps

fréquence

temps

fréquence

temps

fréquence

‘ ta ’

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

signalanalysé sousmatrice signalcoupé debutanalyse finanalyse 0 0( )

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

‘ d ’

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

‘ b ’

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

‘ po ’

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

10

20

3.0557

2.54 2.56 2.57 2.58 2.59 2.61 2.62 2.63 2.64 2.66 2.672.73 10

4

2754

3.28 104 ‘ co ’

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

‘ g ’

temps

fréquence

temps

fréquence

temps

fréquence

temps

fréquence

temps

fréquence

temps

fréquence

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

‘ s ’

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

‘ j ’

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

20

40

‘ f ’

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 400 800 1200 1600 2000 2400 2800 3200 3600 40000

10

20

30

‘ z ’

0 0.010.020.030.040.050.060.070.080.09 0.1

0 400800120016002000240028003200360040000

20

40

‘ v ’

0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1

0 0.4 0.8 1.2 1.6 2 2.4 2.8 3.2 3.6 40

10

20

‘ ch ’

temps

fréquence

temps

fréquence

temps

fréquence

temps

fréquence

temps

fréquence

temps

fréquence

tempsfréquence perspective

log spectrogramme( )

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.52 10

4

0

2 104

chronogrammeénergie (log)

temps

fréq

uenc

e

ampl

itude spectrogramme

chronogramme

fréquence

temps

amplitude

Spectrogramme, sonogramme, sonagramme Evolution au cours du temps de l ’analyse spectrale à court terme

fréquence

temps

mise en évidence des formants (résonances du conduit vocal)

ph o n e t i c i an

fréquence

temps

Le « cepstre »

- Analyse de la fréquence fondamentale chant, intonation- Paramètres de base pour la reconnaissance

fréquence« temps »

Analyse de la fréquence fondamentalechant, intonation

4

0 125 250 375 500 625 750 875 10001

2

3

temps

fréquence

fondamentalharmoniques

0 6.34 12.6819.0225.36 31.7 38.0444.3850.7257.06 63.4 69.7476.0882.4288.76 95.1101.44107.78114.12120.46126.8133.14139.48145.82152.16158.5164.84171.18177.52183.86190.2196.54202.880

1 104

2 104

1.943 104

0

cbas k

longueurcoupe

50

00 k

0 507.2 1014.4 1521.6 2028.8 2536 3043.2 3550.4 4057.6 4564.8 5072 5579.2 6086.4 6593.6 7100.8 7608 8115.2 8622.4 9129.6 9636.8 1.01 104

1000

500

0

500

1000893.488

884.279

CCk

longueurcoupe0 k

0 6.34 12.6819.0225.36 31.7 38.0444.3850.7257.06 63.4 69.7476.0882.4288.76 95.1101.44107.78114.12120.46126.8133.14139.48145.82152.16158.5164.84171.18177.52183.86190.2196.54202.880

1 104

2 104

3 104

2.272 104

0

cbandek

longueurcoupe

50

00 k

0 1014.4 2028.8 3043.2 4057.6 5072 6086.4 7100.8 8115.2 9129.6 1.01 104

1 104

5000

0

5000

1 104

5.366 103

5.366 103

CFBk

REDRESk 0.5

longueurcoupe0 k

0 6.34 12.6819.0225.36 31.7 38.0444.3850.7257.06 63.4 69.7476.0882.4288.76 95.1101.44107.78114.12120.46126.8133.14139.48145.82152.16158.5164.84171.18177.52183.86190.2196.54202.880

5 107

1 108

8.578 107

0

cbas k

longueurcoupe

50

00 k

0 507.2 1014.4 1521.6 2028.8 2536 3043.2 3550.4 4057.6 4564.8 5072 5579.2 6086.4 6593.6 7100.8 7608 8115.2 8622.4 9129.6 9636.8 1.01 104

1 107

5 106

0

5 106

1 107

5.927 106

5.939 106

CCk

longueurcoupe0 k

Passe bas

Passe bandedémodulation

Passe bassur le résultat

Analyse de la mélodie (pitch)

fondamental

harmoniques

temps

fréquence

temps

fréquence

temps

fréquencefondamental retrouvé par démodulation

Codage à bas débit (moins de 15kbits/s) : prédiction linéaireCodage à débit moyen : 16 à 32 kbits/s : modulation deltaTéléphonie : 8bits x 8000 éch./s = 64 kbits/sHaute fidélité 16bits x 44100 éch./s = 700 kbits/MP3 = 144 kbits/s

Codage de la parole : différents débits enfonction des applications et de la qualité acceptée

Téléphonie numérique

Réduire la dynamique

Loi « mu »)].1([log2 xQy

94.4 38.8 0 72.4 128

0

128

128

yx

128128 x 128

Échantillonnage à 8kHz quantification sur 8 bits

q

kktkb

1

+_)(tx

)(t

Tra

nsm

issi

on

q

kktkt btx

1

)(

)(tx )(t

Codage par modulation delta (parole)pour les débits de 16à 32 kBits/s

Quantification de la différenceentre le signal et sa prédiction

Synthèse

Analyse

Filtrage des signauxdans différentes bandes de fréquences

T. FourierSélection des canaux utiles (effet de masquage1er codage

T. Cos etcodage

T. Cos etcodage

T. Cos etcodage

T. Cos etcodage

T. Cos etcodage

Em

issi

on d

es d

onné

es

Principe du codage MP3

Analyse par prédiction linéaire

Canal vocalImpusions

(cordes vocales)

Bruit(pour les fricatives)

Signal Synthétique

Filtre récursifdont la réponse en

fréquence estcelle du spectre

à court terme

)(

1

zA

(~ 20 ms)

- Calcul de 11 coefficients de corrélation sur une portion de 25 ms (200 échantillons)

- Application de l ’algorithme de Levinsonpour obtenir les coefficients du filtre récursif

(sous la forme d ’un filtre en treillis)

- Transmission des coefficients et du signal résiduel (erreur de prédiction) au récepteurqui en déduit la synthèse du signal

199

0)()(

tk ktxtxr

101 )10()1(1

1

)(

1

zazazA

Codage par prédiction linéaire

signal analysé calcul de corrélationalgorithme de Levinson

coefficients du filtre A(z)filtre nonrécursif A(z)

signal résiduel e(t)recherche de périodicité L

(max de corrélation) e(t)e(t+L)

v(t)=e(t)-r.e(t-L)

quantificationrecherche d’un

élément ressemblant à un tronçon de v(t)

dans un dictionnaire

d(n)

filtre récursif 1/A(z)

e(t)=v(t)+r.e(t-L)

reconstruction de v(t)à partir des d(n)

transmission

signal synthétisé

L

signal résiduel e(t)

d(n)

v(t) v(t)

étape decompression

analyse synthèse

Spectre de la portionde signal analysé

Réponse en fréquencedu filtre récursif

modélisant le signal vocal

Analyse par prédiction linéaire

fréquence

Code Excited Linear Prediction (CELP)

Dictionnairede signaux

élémentairesPrédiction à long terme(intonation)

Modèledu conduit vocal

génération du signald’entrée du filtre (cordes vocales, bruit)

(Ech 11025 Hz)

k 0 1023

0 64 128 192 256 320 384 448 512 576 640 704 768 832 896 960 1024816

113

590

0 128 256 384 512 640 768 896 10240

500

1000

0 204.8 409.6 614.4 819.2 1024500

0

500

portion de signal de parole analyséefiltrage passe bande du signaldans le domaine des fréquences

temps

tempsfréquence

Illustration de l ’application de la prédiction linéaireau codage de la parole en téléphonie

0 2 4 6 8 10 125 10

6

0

5 106

1 107

0 1 2 3 4 5 6 7 8 9 10 11 12 13 141

0

1Corrélation : r(n) Coefficients de A(z)

Réponse impulsionnelledu filtre récursif 1/A(z)

Réponse impulsionnelledu filtre non récursif A(z)

Algo de Levinsonou Schur

temps

Signal modélisé

tempstemps

50 100 150 200 250 300 350 4002000

1000

0

1000

0 102.4 204.8 307.2 409.6 5120

2

4

6

1.2 0 1.21.2

0

1.2

Réponse impulsionnelledu filtre récursif

Réponse en fréquence du filtre récursif

Zéros de A(z)(pôles de 1/A(z))

temps

fréquence

0 64 128 192 256 320 384 448 512 576 640 704 768 832 896 960 1024846.71

124.2

598.31

Signal résiduel à coder- Recherche de la périodicité (pitch :

prédiction à long termeon code x(t)-x(t-L) : estimer L

- Quantification vectorielle

1617181920212223242526272829303132346.71

4.74

337.22

L

On découpe le signal en tronçonscomparaison à des formes de signalmémorisées dont on transmet le numéro+ transmission des coefs du filtre

Spectre du signal résiduel

temps

temps

fréquence

Synthèse de son ; diphones

Difficultés:• Enchainement de sons élémentaires• Intonation naturelle

.

Découpe d’un son élémentaire (p. ex. diphone)en période de longueur double de la période du pitch

)().()( tfttxts nn

nknknk httsn

ty ,, ).()(

Chacun des ~1000 diphones (33x33) est découpé en10 ou 20 sons élémentaires de 100 à 200 échantillons

Synthèse de parole

)()( nn ttsn

tx

mbrola

http://tcts.fpms.ac.be/synthesis/mbrola.html

On peut rajouter ces tronçons après les avoir décaléset amplifiés en fonction de la mélodie, de l ’intonation, ...

Plus aigu : diminuer

Plus grave : augmenter

Modification de l ’amplitude en changeant

nkt ,

nkt ,

nkh ,

Reconnaissance de la Parole fondée sur les Modèles de Markov Cachés

Hidden Markov Models

1. Introduction2. Formulation en reconnaissance de parole 2.1 Reconnaissance (Viterbi) 2.2 Probabilité d’une séquence 2.3 Apprentissage3. Mise en œuvre 3.1 Analyse spectrale à court terme 3.2 Quantification vectorielle 3.3 Forme usuelle de l’automate

http://htk.eng.cam.ac.uk/

transition

mesures

a m m( ' , )

b m n( , ') b m n( , )

2. Automates utilisés dans les modèles de Markov cachés

Séquence d’états :

Séquence de mesures :

(Probabilités)

S s s sT 0 1, , ,

Y y y yT 0 1, , ,

d m p s m( ) ( ) 0

a m m p s m s mt t( ' , ) ( '/ ) 1

b m n p y n s mt t( , ) ( / )

états

n’ n

m’ m

probabilité de transition de l’état m’ à l’état m

probabilité de mesurer ‘n’ quand l’automate estdans l’état m

probabilité que l’état initial soit m

Les trois problèmes :

1. Reconnaissance : Y donné quelle est la S la plus probable ?

2. Quelle est la probabilité d’observer Y avec l ’automate (a,b,d) ?

3. Apprentissage : comment calculer a(m,m’), b(m,n) et d(m)

Séquence d’états :

Séquence de mesures :

S s s sT 0 1, , ,

Y y y yT 0 1, , ,

Algorithme de ViterbiCalcul par récurrence de r m p s s s m y yt t t t( ) max ( , , , , , , ) 0 1 0

Initialisation

Récurrence

Fin de l’algorithme

r m r m a m m b m ytm

t t( ') max ( ) ( , ') ( ' , ) 1

r m d m b m y0 0( ) ( ) ( , )

t T

r mt 1( )

q mt ( ')m'

Obtention de la séquence la plus probable

m' '

t 1 t t 1 temps

Etat m

« Treillis » pourreprésenterl ’évolutionde l ’automateau cours du temps

Probabilité d’observation d’une séquence Y avec (a,b,d)

p Y d s b s y a s s b s yt t t tt

T

S( ) ( ) ( , ) ( , ) ( , )

0 0 0 1

1

1

Calcul à t croissant

t t tm p s m y y( ) ( ,[ , , ]) 0

0 0( ) ( ) ( , )m d m b m y

tm

M

t tm m a m m b m y

11

1( ) ( ') ( ' , ) ( , )'

p Y mm

T( ) ( )

Utilisé pour comparer la pertinence de différents automates(un automate est associé à un mot)

(aussi utilisé dans les « turbocodes en détection d ’erreurs »

Apprentissage de mots (cf. notes de cours)Calculer à partir de mesures Y de a(m,m’), b(m,n), d(m)

Automate usuel (Bakis)

Défauts de rythmes (doublement ou suppression d’une étape)voir aussi le « dynamic time warping »

t

t’

(lourd : nécessite de nombreuses réalisations deY)

3. Mise en forme des données mesurées sur la parole

Associer à une portion de signal vocal (~20ms)une mesure y(t) :- Analyse spectrale à court terme un vecteur (dim 20)- Quantification vectorielle

F o n e t i ch i an

Analyse spectrale à court terme

0 500 1000 1500 2000 2500 3000 3500 4000 4500

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21

2000

4000

Echelle Mel linéaire exponentielle

Fréquence centraledu filtre

Banc de filtres

Coefficients cepstraux

Energie en sortie des différents filtres : C(n)

c k C n k nn

( ) log[ ( )]cos[ ( )]

1

20

20

1

2

Peuvent être liés aux coefficients de la prédiction linéaire

c k a kk

a c kk

( ) ( ) ( ) ( ) ( )

1

1

1

Quantification vectorielle

Trouver des représentants pour des nuages de points

Choisir des centres de classesAssigner à cette classe les pointsvoisinsPrendre comme centre de classele barycentre des points d’uneclasseréitérer jusqu ’à convergence

Passer des c(k) aux y (mesures)

Toutefois, beaucoup de réglages et de variantes…

Recherche : « comprendre » le signal vocalet l ’information qu ’il contient (et non se contenterd ’une « simple » comparaison)

Comprendre le fonctionnement de la cochlée et du système nerveux auditif

le signal vocal production du signal ; modèles de production notions sur laudition allure...

Documents