le signal vocal production du signal ; modèles de production notions sur laudition allure...
TRANSCRIPT
Le Signal Vocal
• Production du signal ; Modèles de production• Notions sur l’audition• Allure temporelle• Analyse en fréquence• Typologie des signaux• Représentation Temps-Fréquence, spectrogramme• Transmission , Synthèse, Reconnaissance• Détection de la mélodie, de l’intonation• Analyse « cepstrale » et par prédiction linéaire• Analyse des formants et de leur évolution• Principe de la synthèse de parole• Données utilisées en reconnaissance de parole
http://tcts.fpms.ac.be/cours/1005-08/speech/parole.pdfhttp://svr-www.eng.cam.ac.uk/~ajr/SA95/node87.html
http://perso.club-internet.fr/mantonio/condvoc.htm
Production du signal ; Modèles de production
http://perso.club-internet.fr/mantonio/condvoc.htm
http://perso.club-internet.fr/mantonio/condvoc.htm
temps
http://www.ling.su.se/staff/hartmut/kemplne.htm
Wolfgang von Kempelen (1770)
guimbarde, chants diphoniques, arc à bouche, didgeridoo
clicsen langue xhosaen Afrique du sud
Synthèse numérique (ou équivalent analogique)
y t a i y t i x ti
p ou( ) ( ) ( ) ( )
( )
1
10 12
1
A z( )
Filtre récursif
Filtre linéaire variant lentement dans le tempsreprésentant les évolutions temporelles
des résonances du conduit vocal
Impulsionsdes cordes vocales
(intonation)ou bruit
(fricatives)
(Sa réponse en fréquencecorrespond au spectre du signal vocal)
y t( )
Signal synthétisé
x t( )
100 2000
1
0 50400
200
0
200
100 2001
0
1
0 2000
50
100
0 2000
20
40
0 100 2000
0.5
temps
fréquence
Cordes vocalesintonation
Conduit vocalrésonances
Signal sonoresynthétique
http://www.iurc.montp.inserm.fr/cric/audition/
Audition
http://www.iurc.montp.inserm.fr/cric/audition/
Phénomène de masquage (mp3)
0 5 10 15
0
20
40
60
80
0 5 10 15
0
20
40
60
80
x(n) = sinusoïde masquante
q(n) = sinusoïde masquée
0 5 10 150
20
40
60
80
100
120
Fréquences (kHz)
Sx(f) = DSP du signal
Sm(f) = Seuil de masquage
http://tsi.enst.fr/~moreau/activites_enseignement.html
fréquence fréquence
Analyse spectrale à court terme
spectre
Spectre (log)
temps
Spectre échelle mel
fréquence
fréquencefréquence
0 0.15 0.29 0.44 0.58 0.73 0.88 1.02 1.17 1.32 1.46 1.61 1.75
mg md
0.095 0.1 0.105 0.11 0.115 0.12 0.125 0.13 0.135 0.14 0.145 0.15 0.155 0.16 0.165 0.17 0.175 0.18 0.185 0.19 0.195 0.24 10
4
2 104
0
2 104
4 104
0.095 0.1 0.105 0.11 0.115 0.12 0.125 0.13 0.135 0.14 0.145 0.15 0.155 0.16 0.165 0.17 0.175 0.18 0.185 0.19 0.195 0.24 10
4
2 104
0
2 104
4 104
0 200 400 600 800 1000 1200 1400 1600 1800 2000 2200 2400 2600 2800 3000 3200 3400 3600 3800 4000 4200 4400 4600 4800 50000
10
20
30
40
0 200 400 600 800 1000 1200 1400 1600 1800 2000 2200 2400 2600 2800 3000 3200 3400 3600 3800 4000 4200 4400 4600 4800 50000
10
20
30
40
Signal vocal
Zoom
Spectre de la portion analysée : formants
temps
fréquence
0 0.15 0.29 0.44 0.58 0.73 0.88 1.02 1.17 1.32 1.46 1.61 1.75
mg md
0.095 0.1 0.105 0.11 0.115 0.12 0.125 0.13 0.135 0.14 0.145 0.15 0.155 0.16 0.165 0.17 0.175 0.18 0.185 0.19 0.195 0.24 10
4
2 104
0
2 104
4 104
0 0.15 0.29 0.44 0.58 0.73 0.88 1.02 1.17 1.32 1.46 1.61 1.75
mg md
0.095 0.1 0.105 0.11 0.115 0.12 0.125 0.13 0.135 0.14 0.145 0.15 0.155 0.16 0.165 0.17 0.175 0.18 0.185 0.19 0.195 0.24 10
4
2 104
0
2 104
4 104
0.095 0.1 0.105 0.11 0.115 0.12 0.125 0.13 0.135 0.14 0.145 0.15 0.155 0.16 0.165 0.17 0.175 0.18 0.185 0.19 0.195 0.24 10
4
2 104
0
2 104
4 104
0 200 400 600 800 1000 1200 1400 1600 1800 2000 2200 2400 2600 2800 3000 3200 3400 3600 3800 4000 4200 4400 4600 4800 50000
10
20
30
40
0 200 400 600 800 1000 1200 1400 1600 1800 2000 2200 2400 2600 2800 3000 3200 3400 3600 3800 4000 4200 4400 4600 4800 50000
10
20
30
40
spectre
Module de la transformée de Fourier
Deux secondes de signal temporel
Analyse d ’une portion de 100 ms
fondamental
harmoniques
Formants (résonnances)
temps
fréquence
Allure temporelle des signaux
• Voyelles et consonnes voisées
• Fricatives
• Plosives• Fricatives voisées
• Plosives voisées
• Voyelle et consonnes nasaliséesa, e, oe, i, o, u, ou, é, è, l, r
m, n, on, an, in, unf, s, chv, z, jp, t, kb, d, g
+sons « doubles », diphtongues, ... w, ll
signalanalysé sousmatrice signalcoupé debutanalyse finanalyse 0 0( )
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1 0.11
0 400 800 1200 1600 2000 2400 2800 3200 3600 40000
20
40
‘ eu ’
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07
0 400 800 1200 1600 2000 2400 2800 3200 3600 40000
20
40
‘ a ’
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
0 400 800 1200 1600 2000 2400 2800 3200 3600 40000
20
40
‘ ai ’
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
0 400 800 1200 1600 2000 2400 2800 3200 3600 40000
20
40
‘ o ’
temps
fréquence
temps
fréquence
temps
fréquence
temps
fréquence
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
0 400 800 1200 1600 2000 2400 2800 3200 3600 40000
20
40
‘ u ’
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
0 400 800 1200 1600 2000 2400 2800 3200 3600 40000
20
40
‘ i ’
temps
fréquence
temps
fréquence
‘ (ll)an ’
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
0 400 800 1200 1600 2000 2400 2800 3200 3600 40000
20
40
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
0 0.4 0.8 1.2 1.6 2 2.4 2.8 3.2 3.6 41
2
3
4
‘ on ’
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
debutanalyse
0 0.4 0.8 1.2 1.6 2 2.4 2.8 3.2 3.6 41
2
3
‘ in ’
temps
fréquence
temps
fréquence
temps
fréquence
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07
0 400 800 1200 1600 2000 2400 2800 3200 3600 40000
20
40
(a)ll
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
0 400 800 1200 1600 2000 2400 2800 3200 3600 40000
20
40
‘ m ’
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
0 400 800 1200 1600 2000 2400 2800 3200 3600 40000
20
40
‘ n ’
temps
fréquence
temps
fréquence
temps
fréquence
‘ ta ’
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
0 400 800 1200 1600 2000 2400 2800 3200 3600 40000
20
40
signalanalysé sousmatrice signalcoupé debutanalyse finanalyse 0 0( )
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07
0 400 800 1200 1600 2000 2400 2800 3200 3600 40000
20
40
‘ d ’
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
0 400 800 1200 1600 2000 2400 2800 3200 3600 40000
20
40
‘ b ’
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
0 400 800 1200 1600 2000 2400 2800 3200 3600 40000
20
40
‘ po ’
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
0 400 800 1200 1600 2000 2400 2800 3200 3600 40000
10
20
3.0557
2.54 2.56 2.57 2.58 2.59 2.61 2.62 2.63 2.64 2.66 2.672.73 10
4
2754
3.28 104 ‘ co ’
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
0 400 800 1200 1600 2000 2400 2800 3200 3600 40000
20
40
‘ g ’
temps
fréquence
temps
fréquence
temps
fréquence
temps
fréquence
temps
fréquence
temps
fréquence
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
0 400 800 1200 1600 2000 2400 2800 3200 3600 40000
20
40
‘ s ’
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
0 400 800 1200 1600 2000 2400 2800 3200 3600 40000
20
40
‘ j ’
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
0 400 800 1200 1600 2000 2400 2800 3200 3600 40000
20
40
‘ f ’
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
0 400 800 1200 1600 2000 2400 2800 3200 3600 40000
10
20
30
‘ z ’
0 0.010.020.030.040.050.060.070.080.09 0.1
0 400800120016002000240028003200360040000
20
40
‘ v ’
0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1
0 0.4 0.8 1.2 1.6 2 2.4 2.8 3.2 3.6 40
10
20
‘ ch ’
temps
fréquence
temps
fréquence
temps
fréquence
temps
fréquence
temps
fréquence
temps
fréquence
tempsfréquence perspective
log spectrogramme( )
0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.52 10
4
0
2 104
chronogrammeénergie (log)
temps
fréq
uenc
e
ampl
itude spectrogramme
chronogramme
fréquence
temps
amplitude
Spectrogramme, sonogramme, sonagramme Evolution au cours du temps de l ’analyse spectrale à court terme
fréquence
temps
mise en évidence des formants (résonances du conduit vocal)
ph o n e t i c i an
fréquence
temps
Le « cepstre »
- Analyse de la fréquence fondamentale chant, intonation- Paramètres de base pour la reconnaissance
fréquence« temps »
Analyse de la fréquence fondamentalechant, intonation
4
0 125 250 375 500 625 750 875 10001
2
3
temps
fréquence
fondamentalharmoniques
0 6.34 12.6819.0225.36 31.7 38.0444.3850.7257.06 63.4 69.7476.0882.4288.76 95.1101.44107.78114.12120.46126.8133.14139.48145.82152.16158.5164.84171.18177.52183.86190.2196.54202.880
1 104
2 104
1.943 104
0
cbas k
longueurcoupe
50
00 k
0 507.2 1014.4 1521.6 2028.8 2536 3043.2 3550.4 4057.6 4564.8 5072 5579.2 6086.4 6593.6 7100.8 7608 8115.2 8622.4 9129.6 9636.8 1.01 104
1000
500
0
500
1000893.488
884.279
CCk
longueurcoupe0 k
0 6.34 12.6819.0225.36 31.7 38.0444.3850.7257.06 63.4 69.7476.0882.4288.76 95.1101.44107.78114.12120.46126.8133.14139.48145.82152.16158.5164.84171.18177.52183.86190.2196.54202.880
1 104
2 104
3 104
2.272 104
0
cbandek
longueurcoupe
50
00 k
0 1014.4 2028.8 3043.2 4057.6 5072 6086.4 7100.8 8115.2 9129.6 1.01 104
1 104
5000
0
5000
1 104
5.366 103
5.366 103
CFBk
REDRESk 0.5
longueurcoupe0 k
0 6.34 12.6819.0225.36 31.7 38.0444.3850.7257.06 63.4 69.7476.0882.4288.76 95.1101.44107.78114.12120.46126.8133.14139.48145.82152.16158.5164.84171.18177.52183.86190.2196.54202.880
5 107
1 108
8.578 107
0
cbas k
longueurcoupe
50
00 k
0 507.2 1014.4 1521.6 2028.8 2536 3043.2 3550.4 4057.6 4564.8 5072 5579.2 6086.4 6593.6 7100.8 7608 8115.2 8622.4 9129.6 9636.8 1.01 104
1 107
5 106
0
5 106
1 107
5.927 106
5.939 106
CCk
longueurcoupe0 k
Passe bas
Passe bandedémodulation
Passe bassur le résultat
Analyse de la mélodie (pitch)
fondamental
harmoniques
temps
fréquence
temps
fréquence
temps
fréquencefondamental retrouvé par démodulation
Codage à bas débit (moins de 15kbits/s) : prédiction linéaireCodage à débit moyen : 16 à 32 kbits/s : modulation deltaTéléphonie : 8bits x 8000 éch./s = 64 kbits/sHaute fidélité 16bits x 44100 éch./s = 700 kbits/MP3 = 144 kbits/s
Codage de la parole : différents débits enfonction des applications et de la qualité acceptée
Téléphonie numérique
Réduire la dynamique
Loi « mu »)].1([log2 xQy
94.4 38.8 0 72.4 128
0
128
128
yx
128128 x 128
Échantillonnage à 8kHz quantification sur 8 bits
q
kktkb
1
+_)(tx
)(t
Tra
nsm
issi
on
q
kktkt btx
1
)(
)(tx )(t
Codage par modulation delta (parole)pour les débits de 16à 32 kBits/s
Quantification de la différenceentre le signal et sa prédiction
Synthèse
Analyse
Filtrage des signauxdans différentes bandes de fréquences
T. FourierSélection des canaux utiles (effet de masquage1er codage
T. Cos etcodage
T. Cos etcodage
T. Cos etcodage
T. Cos etcodage
T. Cos etcodage
Em
issi
on d
es d
onné
es
Principe du codage MP3
Analyse par prédiction linéaire
Canal vocalImpusions
(cordes vocales)
Bruit(pour les fricatives)
Signal Synthétique
Filtre récursifdont la réponse en
fréquence estcelle du spectre
à court terme
)(
1
zA
(~ 20 ms)
- Calcul de 11 coefficients de corrélation sur une portion de 25 ms (200 échantillons)
- Application de l ’algorithme de Levinsonpour obtenir les coefficients du filtre récursif
(sous la forme d ’un filtre en treillis)
- Transmission des coefficients et du signal résiduel (erreur de prédiction) au récepteurqui en déduit la synthèse du signal
199
0)()(
tk ktxtxr
101 )10()1(1
1
)(
1
zazazA
Codage par prédiction linéaire
signal analysé calcul de corrélationalgorithme de Levinson
coefficients du filtre A(z)filtre nonrécursif A(z)
signal résiduel e(t)recherche de périodicité L
(max de corrélation) e(t)e(t+L)
v(t)=e(t)-r.e(t-L)
quantificationrecherche d’un
élément ressemblant à un tronçon de v(t)
dans un dictionnaire
d(n)
filtre récursif 1/A(z)
e(t)=v(t)+r.e(t-L)
reconstruction de v(t)à partir des d(n)
transmission
signal synthétisé
L
signal résiduel e(t)
d(n)
v(t) v(t)
étape decompression
analyse synthèse
Spectre de la portionde signal analysé
Réponse en fréquencedu filtre récursif
modélisant le signal vocal
Analyse par prédiction linéaire
fréquence
Code Excited Linear Prediction (CELP)
Dictionnairede signaux
élémentairesPrédiction à long terme(intonation)
Modèledu conduit vocal
génération du signald’entrée du filtre (cordes vocales, bruit)
(Ech 11025 Hz)
k 0 1023
0 64 128 192 256 320 384 448 512 576 640 704 768 832 896 960 1024816
113
590
0 128 256 384 512 640 768 896 10240
500
1000
0 204.8 409.6 614.4 819.2 1024500
0
500
portion de signal de parole analyséefiltrage passe bande du signaldans le domaine des fréquences
temps
tempsfréquence
Illustration de l ’application de la prédiction linéaireau codage de la parole en téléphonie
0 2 4 6 8 10 125 10
6
0
5 106
1 107
0 1 2 3 4 5 6 7 8 9 10 11 12 13 141
0
1Corrélation : r(n) Coefficients de A(z)
Réponse impulsionnelledu filtre récursif 1/A(z)
Réponse impulsionnelledu filtre non récursif A(z)
Algo de Levinsonou Schur
temps
Signal modélisé
tempstemps
50 100 150 200 250 300 350 4002000
1000
0
1000
0 102.4 204.8 307.2 409.6 5120
2
4
6
1.2 0 1.21.2
0
1.2
Réponse impulsionnelledu filtre récursif
Réponse en fréquence du filtre récursif
Zéros de A(z)(pôles de 1/A(z))
temps
fréquence
0 64 128 192 256 320 384 448 512 576 640 704 768 832 896 960 1024846.71
124.2
598.31
Signal résiduel à coder- Recherche de la périodicité (pitch :
prédiction à long termeon code x(t)-x(t-L) : estimer L
- Quantification vectorielle
1617181920212223242526272829303132346.71
4.74
337.22
L
On découpe le signal en tronçonscomparaison à des formes de signalmémorisées dont on transmet le numéro+ transmission des coefs du filtre
Spectre du signal résiduel
temps
temps
fréquence
Synthèse de son ; diphones
Difficultés:• Enchainement de sons élémentaires• Intonation naturelle
.
Découpe d’un son élémentaire (p. ex. diphone)en période de longueur double de la période du pitch
)().()( tfttxts nn
nknknk httsn
ty ,, ).()(
Chacun des ~1000 diphones (33x33) est découpé en10 ou 20 sons élémentaires de 100 à 200 échantillons
Synthèse de parole
)()( nn ttsn
tx
mbrola
http://tcts.fpms.ac.be/synthesis/mbrola.html
On peut rajouter ces tronçons après les avoir décaléset amplifiés en fonction de la mélodie, de l ’intonation, ...
Plus aigu : diminuer
Plus grave : augmenter
Modification de l ’amplitude en changeant
nkt ,
nkt ,
nkh ,
Reconnaissance de la Parole fondée sur les Modèles de Markov Cachés
Hidden Markov Models
1. Introduction2. Formulation en reconnaissance de parole 2.1 Reconnaissance (Viterbi) 2.2 Probabilité d’une séquence 2.3 Apprentissage3. Mise en œuvre 3.1 Analyse spectrale à court terme 3.2 Quantification vectorielle 3.3 Forme usuelle de l’automate
http://htk.eng.cam.ac.uk/
transition
mesures
a m m( ' , )
b m n( , ') b m n( , )
2. Automates utilisés dans les modèles de Markov cachés
Séquence d’états :
Séquence de mesures :
(Probabilités)
S s s sT 0 1, , ,
Y y y yT 0 1, , ,
d m p s m( ) ( ) 0
a m m p s m s mt t( ' , ) ( '/ ) 1
b m n p y n s mt t( , ) ( / )
états
n’ n
m’ m
probabilité de transition de l’état m’ à l’état m
probabilité de mesurer ‘n’ quand l’automate estdans l’état m
probabilité que l’état initial soit m
Les trois problèmes :
1. Reconnaissance : Y donné quelle est la S la plus probable ?
2. Quelle est la probabilité d’observer Y avec l ’automate (a,b,d) ?
3. Apprentissage : comment calculer a(m,m’), b(m,n) et d(m)
Séquence d’états :
Séquence de mesures :
S s s sT 0 1, , ,
Y y y yT 0 1, , ,
Algorithme de ViterbiCalcul par récurrence de r m p s s s m y yt t t t( ) max ( , , , , , , ) 0 1 0
Initialisation
Récurrence
Fin de l’algorithme
r m r m a m m b m ytm
t t( ') max ( ) ( , ') ( ' , ) 1
r m d m b m y0 0( ) ( ) ( , )
t T
r mt 1( )
q mt ( ')m'
Obtention de la séquence la plus probable
m' '
t 1 t t 1 temps
Etat m
« Treillis » pourreprésenterl ’évolutionde l ’automateau cours du temps
Probabilité d’observation d’une séquence Y avec (a,b,d)
p Y d s b s y a s s b s yt t t tt
T
S( ) ( ) ( , ) ( , ) ( , )
0 0 0 1
1
1
Calcul à t croissant
t t tm p s m y y( ) ( ,[ , , ]) 0
0 0( ) ( ) ( , )m d m b m y
tm
M
t tm m a m m b m y
11
1( ) ( ') ( ' , ) ( , )'
p Y mm
T( ) ( )
Utilisé pour comparer la pertinence de différents automates(un automate est associé à un mot)
(aussi utilisé dans les « turbocodes en détection d ’erreurs »
Apprentissage de mots (cf. notes de cours)Calculer à partir de mesures Y de a(m,m’), b(m,n), d(m)
Automate usuel (Bakis)
Défauts de rythmes (doublement ou suppression d’une étape)voir aussi le « dynamic time warping »
t
t’
(lourd : nécessite de nombreuses réalisations deY)
3. Mise en forme des données mesurées sur la parole
Associer à une portion de signal vocal (~20ms)une mesure y(t) :- Analyse spectrale à court terme un vecteur (dim 20)- Quantification vectorielle
F o n e t i ch i an
Analyse spectrale à court terme
0 500 1000 1500 2000 2500 3000 3500 4000 4500
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
2000
4000
Echelle Mel linéaire exponentielle
Fréquence centraledu filtre
Banc de filtres
Coefficients cepstraux
Energie en sortie des différents filtres : C(n)
c k C n k nn
( ) log[ ( )]cos[ ( )]
1
20
20
1
2
Peuvent être liés aux coefficients de la prédiction linéaire
c k a kk
a c kk
( ) ( ) ( ) ( ) ( )
1
1
1
Quantification vectorielle
Trouver des représentants pour des nuages de points
Choisir des centres de classesAssigner à cette classe les pointsvoisinsPrendre comme centre de classele barycentre des points d’uneclasseréitérer jusqu ’à convergence
Passer des c(k) aux y (mesures)
Toutefois, beaucoup de réglages et de variantes…
Recherche : « comprendre » le signal vocalet l ’information qu ’il contient (et non se contenterd ’une « simple » comparaison)
Comprendre le fonctionnement de la cochlée et du système nerveux auditif