Études de techniques d’extraction de l’information ... · vi 3.4.3. lissages ... solutions de...

72
Études de techniques d’extraction de l’information spatiale dans une scène sonore multicanal Benjamin DUVAL Rapport de stage de Master 2 SdI/MIS/ATIAM Effectué dans les laboratoires de France Télécom R&D 15 mars - 29 septembre 2006 Stage encadré par David VIRETTE et Jérôme DANIEL

Upload: dinhdung

Post on 29-Aug-2018

212 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale dans une scegravene

sonore multicanal

Benjamin DUVAL

Rapport de stage de Master 2 SdIMISATIAM Effectueacute dans les laboratoires de France Teacuteleacutecom RampD

15 mars - 29 septembre 2006

Stage encadreacute par David VIRETTE et Jeacuterocircme DANIEL

iii

Remerciements Je tiens agrave remercier chaleureusement toute lrsquoeacutequipe son 3D de France Teacuteleacutecom

RampD en particulier mes 2 co-encadrants David et Jeacuterocircme pour leur accueil leur disponibiliteacute et leur gentillesse et pour les geacuteneacutereuses et passionnantes explications Merci eacutegalement agrave Manu drsquoen face Greg et Alex pour leur confiance et Rozenn parce qursquoelle le vaut bien

Merci agrave Stouf et Micheline super doctoranges et collegravegues de bureau fabuleux

pour tous les bons moments en particulier les instants Bobbyhellip Merci agrave tous les theacutesards et stagiaires du labo pour leur accueil en particulier Jean-Claude lrsquoex-strapontiste

Merci enfin agrave tous ceux qui mrsquoont proposeacute de deacutecouvrir leurs terribles seacuteances de

tests drsquoeacutecoute les musiques du corpus de tests MPEG et les bruits blancs de Steph trottent encore dans ma tecirctehellip

v

Table des matiegraveres Preacutesentation de France Teacuteleacutecom RampD1 Introduction2 Chapitre 1 Ambisonics3

11 Principe 3 111 Du B-format agrave HOA3 112 Repreacutesentation de scegravene sonore avec HOA 5

12 Encodage et deacutecodage spatial 7 121 Encodage spatial 7 122 Deacutecodage spatial 8

13 Critique de la technologie HOA 11 131 Bilan 11 132 Limites pratiques11

Chapitre 2 Analyser un contenu HOA 13 21 Objectifs 13

211 Restitution de la spatialisation agrave partir drsquoun downmix mono13 212 Ameacutelioration de la preacutecision spatiale 13

22 Principe de lrsquoextraction drsquoinformation spatiale avec une ACP 14 221 Information spatiale 14 222 Application de lrsquoanalyse en composantes principales 15

23 Meacutethodologie 16 231 Construction de scegravenes artificielles 16 232 Exploitation drsquoenregistrements naturels 18 233 Visualisations des reacutesultats 18 234 Diffeacuterents modes drsquoeacutecoute 19

Chapitre 3 Description des analyses 21 31 Deacutetermination des directions principales 21

311 Base des algorithmes 21 312 Traitement du champ reacutesiduel 22

32 Extension agrave la 3D23 33 Analyse aux ordres supeacuterieurs 23

331 Description 23 332 Illustration sur une scegravene virtuelle24

34 Traitement des donneacutees 26 341 Algorithme des k-moyennes26 342 Critegraveres de pertinence 27

vi

343 Lissages29 35 Exploitation de toutes les composantes de lrsquoACP29

Chapitre 4 Reacutesultats et applications 31 41 Illustration et critique des reacutesultats obtenus31

411 Avant-propos 31 412 Scegravene 2D artificielle agrave 4 sources fixes 31 413 Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile32 414 Scegravene 3D artificielle agrave 1 source et bruit de fond 33 415 Scegravene 2D naturelle agrave 1 source 34

42 Quelques applications34 421 Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre 2 agrave partir

de lrsquoordre 1 34 422 Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave partir

de W 36 43 Comparaison avec une meacutethode existante 37 44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee

39441 Position du problegraveme39 442 Solution proposeacutee40 443 Bilan 42

Conclusion43 Annexe A Deacuteveloppement du champ acoustique en harmoniques

spheacuteriques 45 A1 Eacutequation drsquoonde en coordonneacutees spheacuteriques 45 A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 46

Annexe B Compleacutements theacuteoriques sur le deacutecodage HOA 53 B1 Vecteur veacutelociteacute et vecteur eacutenergie 53 B2 Deacutecodages optimiseacutes 54

Annexe C Analyse en composantes principales55 C1 Espace des donneacutees 55 C2 Diagonalisation 57 C3 Code Matlab 57

Annexe D Analyse en sous-bandes 59 D1 La transformeacutee de Fourier agrave court terme (TFCT)59 D2 Synthegravese par addition-recouvrement60

Bibliographie 63

vii

Table des figures Figure 11 - Scheacutema global du principe de la technologie HOA 4 Figure 12 - Prototype de microphone HOA drsquoordre 45 Figure 13 - Erreur de reconstruction drsquoune onde plane en fonction de lrsquoordre M

et du produit kr6 Figure 14 - Repreacutesentation dans le plan horizontal dans une zone de diamegravetre 1m

de la reconstruction drsquoune onde plane pour plusieurs ordres et freacutequences 6 Figure 15 - Encodage horizontal 8 Figure 16 - Prise de son virtuelle eacutequivalente agrave un encodage au 1er ordre et un

deacutecodage basique sur une disposition en 2D hexagonale 10 Figure 17 - Directiviteacutes theacuteoriques et reconstruites dans le plan horizontal12 Figure 21 - Y en fonction de X dans le cas drsquoun bruit blanc enregistreacute 15 Figure 22 - Y en fonction de X dans le cas drsquoun son placeacute artificiellement 15 Figure 23 - Signes de W X et W Y en fonction du cadran16 Figure 24 - Interface graphique du logiciel Bidule 17 Figure 25 - Repreacutesentation de tables des couleurs19 Figure 26 - Repreacutesentation de la pertinence 19 Figure 31 - Scheacutema geacuteneacuteral drsquoanalyse 21 Figure 32 - Filtres utiliseacutes inspireacutes des filtres ERB 22 Figure 33 - Position des sources de la scegravene de test agrave 4 sources dont 1 mobile24 Figure 34 - Angles drsquoune scegravene virtuelle ayant 1 source mobile et 3 sources fixes

25 Figure 35 - Angles de la mecircme scegravene trouveacutes agrave partir drsquoune ACP sur les ordres 0

et 2 25 Figure 36 - Angles drsquoune scegravene reacuteelle constitueacutee drsquoun bruit parcourant le cercle

trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 0 et 2 et 0 et 426 Figure 37 - Repreacutesentation temps-freacutequence des angles28 Figure 38 - Eacutenergie de ce mecircme son 28 Figure 39 - Norme relative de la 1egravere composante28 Figure 310 - Pondeacuteration appliqueacutee agrave lrsquoentreacutee des k-moyennes 29 Figure 311 - Directiviteacutes seacuteparant ideacutealement 4 sources placeacutees agrave 17 73 195 et -

58deg 30 Figure 41 - Angles theacuteoriques et calculeacutes pour une scegravene constitueacutee de 4 sons

fixes 32 Figure 42 - Angles theacuteoriques et calculeacutes de la scegravene agrave 4 sources dont 1 mobile32

viii

Figure 43 - Azimut et eacuteleacutevation theacuteoriques et calculeacutes drsquoun son en 3D artificiel placeacute dans une ambiance bruyante 33

Figure 44 - Angles theacuteoriques et calculeacutes drsquoun bruit blanc tournant autour du micro enregistreacute en chambre sourde 34

Figure 45 - Principe de lrsquoameacutelioration de la preacutecision spatiale 35 Figure 46 - Directiviteacutes eacutequivalentes agrave la seacuteparation de 4 sources agrave lrsquoordre 135 Figure 47 - Principe de la restitution de lrsquoordre 1 agrave partir du signal mono W 36 Figure 48 - Scheacutema de principe de la meacutethode BCC36 Figure 49 - X et Y dans le cas drsquoune sinusoiumlde placeacutee agrave 15deg et 120deg37 Figure 410 - Angles trouveacutes par lrsquoalgorithme de [Pulkki and Faller 2006] 38 Figure 411 - Angles trouveacutes par une ACP pour la mecircme scegravene 39 Figure 412 - Scheacutema de principe drsquoune confeacuterence audio spatialiseacutee 40 Figure 413 - Scheacutema ameacutelioreacute (deacutebit reacuteduit)40 Figure 414 - Analyse principe de lrsquoencodage dans le serveur 41 Figure 415 - Synthegravese principe du deacutecodage dans le client 41 Figure A1 - Systegraveme de coordonneacutees spheacuteriques 45 Figure A2 - Fonctions de Bessel spheacuteriques )(krjm pour les ordres 0 agrave 5 47 Figure A3 - Repreacutesentation des harmoniques spheacuteriques pour les ordres m = 0 agrave

3 51 Figure B1 - Deacutecodages les plus approprieacutes par sous-bande et en fonction de

lrsquoeacutetendue de la zone drsquoeacutecoute54 Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT60 Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add61

1

Preacutesentation de France Teacuteleacutecom RampD Le groupe France Teacuteleacutecom est lrsquoun des principaux opeacuterateurs de

teacuteleacutecommunications au monde Creacuteeacutee en 1988 apregraves le scindement des PTT (Poste Teacuteleacutegraphe Teacuteleacutephone) en deux groupes France Teacuteleacutecom a longtemps beacuteneacuteficieacute du statut drsquoopeacuterateur historique Depuis 1997 France Teacuteleacutecom fonctionne en tant que socieacuteteacute anonyme

Le CNET Centre National drsquoEacutetude en Teacuteleacutecommunication a eacuteteacute creacuteeacute en 1944

dans le but de reacutetablir un reacuteseau de teacuteleacutecommunication en France En mars 2000 le CNET change de nom et devient France Teacuteleacutecom Recherche amp Deacuteveloppement

Le site France Teacuteleacutecom Division RampD agrave Lannion a eacuteteacute inaugureacute le 28 octobre

1963 Lrsquoeacutequipe son 3D y megravene des recherches sur la prise et la restitution du son la spatialisation sonore ainsi que sur les environnements acoustiques virtuels Elle participe eacutegalement activement agrave la normalisation MPEG-4

De nombreux travaux sont consacreacutes aux technologies de spatialisation binaurale

transaurale (avec la technique du steacutereacuteo-dipocircle) et ambisonique De nombreux brevets et publications deacutecoulent de ces recherches qui trouvent deacutejagrave des applications dans la confeacuterence audio spatialiseacutee et ouvrent des perspectives bien plus vastes

2

Introduction La reproduction sonore semble aujourdrsquohui ecirctre parfaitement maicirctriseacutee Mais

lrsquoest-elle vraiment Rien nrsquoest moins sucircr Reproduire un son signifie ldquoreproduire toutes ses proprieacuteteacutes telles qursquoelles existent dans une situation drsquoeacutecoute reacuteellerdquo (tel que rappeleacute dans [Nicol 1999]) Or le son est un pheacutenomegravene agrave quatre dimensions il eacutevolue dans le temps et dans les 3 dimensions de lrsquoespace Si le problegraveme de la reproduction temporelle peut ecirctre consideacutereacute comme reacutesolu la restitution spatiale est elle toujours agrave lrsquoeacutetude

La restitution drsquoune scegravene sonore (crsquoest-agrave-dire drsquoun ensemble drsquoeacuteveacutenements

sonores placeacutes agrave des positions et des instants preacutecis) passe par la reproduction du champ acoustique dans une zone donneacutee zone au moins assez grande pour qursquoon puisse y placer ses 2 oreilles Lrsquoauditeur pourra alors localiser preacuteciseacutement les sources constituant la scegravene agrave la fois en temps et dans lrsquoespace

Lrsquoobjectif du stage preacutesenteacute ici est de retrouver par le calcul ces informations agrave

partir de lrsquoanalyse de signaux de repreacutesentation du champ sonore 3D en particulier ceux issus de lrsquoencodage spatial de scegravenes sonores reacutealiseacute par la technologie Higher Order Ambisonics (HOA) Il srsquoagit de retrouver dans une scegravene HOA les positions qursquooccupaient les sources agrave chaque instant lors de lrsquoencodage

Cette analyse permet alors drsquoentrevoir des applications pour le codage et la

transmission etou lrsquoameacutelioration de contenu audio 3D la seacuteparation de sources ou bien encore la confeacuterence audio spatialiseacutee En effet une telle description de la scegravene permettrait de caracteacuteriser de maniegravere leacutegegravere une partie de lrsquoinformation transmise par les signaux HOA et ouvrirait mecircme lrsquoopportuniteacute drsquoun deacutemixage

Nous allons ici preacutesenter la technologie ambisonics puis les eacuteleacutements theacuteoriques et

pratiques de lrsquoanalyse des signaux HOA Les eacuteleacutements matheacutematiques sur lesquels repose ambisonics agrave savoir le deacuteveloppement drsquoun champ acoustique en harmoniques spheacuteriques sont deacuteveloppeacutes en Annexe A La lecture preacutealable de cette annexe nrsquoest pas indispensable agrave la compreacutehension du Chapitre 1 mais est vivement conseilleacutee

3

Chapitre 1

Ambisonics

11 Principe

111 Du B-format agrave HOA Lrsquoapproche ambisonique deacuteveloppeacutee dans les anneacutees 1970 par Gerzon [Gerzon

1973] [Gerzon 1985] a pour but de reconstruire au voisinage de la tecircte de lrsquoauditeur le champ sonore et ses caracteacuteristiques de propagation crsquoest-agrave-dire au minimum le champ de pression et son gradient Cette technique est cateacutegoriseacutee dans les techniques de panoramique drsquoamplitude ou agrave microphones coiumlncidents Le format orignal appeleacute B-format peut en fait ecirctre vu comme une restriction au 1er ordre drsquoune deacutecomposition du champ en harmoniques spheacuteriques (voir Annexe A) ou cylindriques (dans le cas drsquoune restriction agrave 2 dimensions) Le format HOA (Higher Order Ambisonics) est une extension de cette deacutecomposition agrave des ordres plus eacuteleveacutes permettant une reconstruction ameacutelioreacutee du champ (une meilleure approximation) dans une zone de restitution eacutelargie

Une grande speacutecificiteacute de lrsquoapproche ambisonique est de contenir directement

lrsquoinformation spatiale en codant le champ acoustique en un point de lrsquoespace indeacutependamment du systegraveme de restitution utiliseacute contrairement aux systegravemes de spatialisations classiques (steacutereacuteo 51hellip) Lrsquoencodage directionnel drsquoune onde plane S drsquoincidence u se traduit par les eacutequations

r

⎪⎪

⎪⎪

=

=

=

=

δ

δθ

δθ

sin2

cossin2

coscos2

SZ

SY

SX

SW

(11)

Le facteur de normalisation 2 a eacuteteacute introduit agrave lrsquoorigine pour srsquoassurer que les

composantes W X et Y aient une eacutenergie moyenne eacutegale dans le cas de lrsquoencodage drsquoun champ diffus horizontal

Chapitre 1 Ambisonics 4

Le B-format peut ecirctre vu comme une troncature au premier ordre de la deacutecomposition en seacuterie de Fourier-Bessel du champ sonore [Daniel 2000] Une troncature agrave un ordre plus eacuteleveacute (Higher Order Ambisonics) apporte alors agrave la reconstruction une meilleure qualiteacute tant en terme de preacutecision de lrsquoimage que de dimensions du sweet spot zone ougrave le champ original est restitueacute avec une toleacuterance donneacutee Cette zone tregraves petite pour lrsquoordre 1 (il faut veiller agrave se placer bien au centre du dispositif) est nous le verrons nettement eacutelargie aux ordres supeacuterieurs On atteint eacutegalement une discrimination angulaire plus fine Ces ordres supeacuterieurs eacutetant les termes suivants de la seacuterie de Fourier-Bessel une repreacutesentation HOA inclut les ordres infeacuterieurs constituant donc une repreacutesentation hieacuterarchique (ou scalable) du champ sonore

La chaicircne de traitement drsquoun systegraveme ambisonique se deacutecompose en plusieurs

eacutetapes (voir Figure 11) - lrsquoencodage spatial reacutealiseacute de maniegravere artificielle pour spatialiser une scegravene

syntheacutetique ou bien agrave partir de signaux naturels issus drsquoune structure multi-microphonique (voir Figure 12)

- une eacuteventuelle transformation des signaux HOA (compression ou

transformations lineacuteaires comme par exemple une rotation) - le deacutecodage spatial matriccedilage des signaux pour une diffusion adapteacutee au

dispositif drsquoeacutecoute

Figure 11 - Scheacutema global du principe de la technologie HOA [Moreau 2006]

11 Principe 5

Figure 12 - Prototype de microphone HOA drsquoordre 4 constitueacute de 32 capteurs omnidirectifs

reacutepartis sur une sphegravere en plastique rigide [Moreau 2006]

112 Repreacutesentation de scegravene sonore avec HOA La seacuterie de Fourier-Bessel (A16) en Annexe A) tronqueacutee agrave lrsquoordre M donne une

approximation de la repreacutesentation du champ sonore

sum sum sum= = plusmn=

=M

m

m

nmnmnm

mM YBkrjikrp

0 0 1)()()(

σ

σσ δθδθ (12)

La repreacutesentation drsquoordre M est composeacutee de signaux HOA en 3D

et

2)1( += MK12 += MK signaux HOA si on se contente du plan horizontal

Pour mesurer lrsquoerreur de reconstruction on peut utiliser le critegravere des moindres

carreacutes normaliseacute (NMSE pour Normalized Mean Square Error)

intint

intint minus=

S

SM

dSkrp

dSkrpkrpkre 2

2

)(

)()()(

δθ

δθδθ (13)

Dans le cas particulier drsquoune onde plane lrsquoerreur de reconstruction est

indeacutependante de lrsquoangle drsquoincidence et ne deacutepend que de lrsquoordre et du produit kr En rappelant que k est le nombre drsquoonde cfck πω 2== on srsquoaperccediloit que lrsquoerreur de reconstruction pour un ordre donneacute augmente quand on srsquoeacuteloigne du centre du systegraveme (r augmente) ou lorsque la freacutequence srsquoeacutelegraveve On remarque qursquoune erreur de 4 (-14 dB) est atteinte approximativement quand M = kr

Chapitre 1 Ambisonics 6

Figure 13 - Erreur de reconstruction drsquoune onde plane en fonction

de lrsquoordre M et du produit kr [Moreau et al 2006]

Figure 14 - Repreacutesentation dans le plan horizontal dans une zone de diamegravetre 1m de la

reconstruction drsquoune onde plane (agrave droite) pour plusieurs ordres et freacutequences Les niveaux de gris repreacutesentent la valeur de la pression acoustique Les courbes eacutetoileacutees indiquent la

limite des zones ougrave lrsquoerreur de reconstruction est infeacuterieure agrave 7 (-115 dB) [Moreau 2006]

12 Encodage et deacutecodage spatial 7

12 Encodage et deacutecodage spatial

121 Encodage spatial Drsquoun point de vue drsquoingeacutenieur du son lrsquoencodage spatial peut ecirctre vu comme un

panoramique drsquoamplitude Un preneur de son lrsquointerpreacutetera comme une capture par un jeu de microphones directifs coiumlncidents Un matheacutematicien verra plutocirct le lien avec la deacutecomposition en harmoniques spheacuteriques deacutecrite en Annexe A

Eacutetudions le cas drsquoune onde plane provenant de la direction )( pp δθ avec une

amplitude S Lrsquoexpression du champ de pression srsquoeacutecrit alors

γδθ cos)( jkrSekrp = (14)

soit encore

)(cos)()12()(0

γδθ mmm

m PkrjjmSkrp suminfin

=

+= (15)

ougrave γ deacutesigne lrsquoangle entre la direction (θ δ ) du point drsquoobservation et la direction

)( pp δθ de provenance de lrsquoonde Il vient ensuite

sum sumsum= plusmn=

infin

=

=m

nmnppmnm

m

m YYkrjjSkrp0 10

)()()()(σ

σσ δθδθδθ (16)

En identifiant cette eacutequation (16) avec la seacuterie de Fourier-Bessel (A16) nous

obtenons finalement lrsquoexpression de la transformeacutee de Fourier spheacuterique drsquoun champ de pression acoustique engendreacute par une onde plane [Moreau 2006]

)( ppmnmn YSB δθσσ = (17)

Les coefficients sont ainsi deacutefinis par la valeur des harmoniques spheacuteriques

dans la direction de provenance de lrsquoonde plane pondeacutereacutee par lrsquoamplitude

σmnB

S du signal transporteacute Ce sont ces coefficients qui constituent le signal ambisonique Des coefficients de normalisation ou de semi-normalisation sont ensuite appliqueacutes pour que les signaux soient drsquoeacutenergie moyenne eacutequivalente entre eux ( ) ou entre les diffeacuterents ordres ( ) (voir Annexe A Tableau A1)

DN 3α DSN 3αDSN 3α

DSN 3α Ces fonctions drsquoencodage peuvent ecirctre simplifieacutees dans le cas drsquoune restriction agrave 2

dimensions (plan horizontal) On ne conserve alors que 2 composantes par ordre celles qui deacutecrivent le plan horizontal crsquoest-agrave-dire veacuterifiant m = n Les coefficients de normalisation sont alors diffeacuterents et lrsquoangle δ est nul Les composantes restantes sont alors

Chapitre 1 Ambisonics 8

ordre notations eacutecriture 0 W 1

00B 1

X 111B θcos2

1 Y 1

11minusB θsin2

U 122B )2cos(2 θ

2 V 1

22minusB )2sin(2 θ

- 1mmB )cos(2 θm

m - 1minus

mmB )sin(2 θm Tableau 11 - Fonctions drsquoencodage ambisonique dans le plan horizontal

avec la convention de normalisation associeacutee (N2D) La figure suivante illustre lrsquoencodage spatial aux ordres 0 1 et 2 de 2 sources

placeacutees aux angles vθ et vθ dans le plan horizontal

ordres 0 et 1 ordre 2

Figure 15 - Encodage horizontal [Moreau et al 2006] Le coefficient (gain) appliqueacute agrave

chaque composante de chacune des 2 sources est donneacute par les intersections des flegraveches et des diagrammes des harmoniques

Comme on peut le voir sur cette figure un encodage au 1er ordre offre une

discrimination angulaire peu appuyeacutee alors que les 2 sources pourtant proches auront des coefficients tregraves diffeacuterents agrave lrsquoordre 2 (les points drsquointersection sont plus eacuteloigneacutes)

122 Deacutecodage spatial Lrsquoobjectif du deacutecodage est de restituer au mieux sur un systegraveme de diffusion

donneacute le champ sonore HOA Il faut ainsi calculer les signaux Sl agrave diffuser sur L haut-parleurs en fonction des composantes ambisoniques Ces σ

mnB L haut-parleurs peuvent ecirctre disposeacutes dans le plan horizontal ou dans un espace tridimensionnel Les deacutecodages les plus courants srsquoeffectuent sur une demi-sphegravere (cas 3D) ou un cercle (cas 2D) de

12 Encodage et deacutecodage spatial 9

haut-parleurs Crsquoest une opeacuteration matricielle qursquoon peut formaliser dans le cas drsquoun deacutecodage dans le plan horizontal par lrsquoeacutequation

BSC =sdot (18)

ougrave la matrice C contient les vecteurs harmoniques spheacuteriques associeacutes agrave chaque direction de haut-parleur et organiseacutes suivant ses lignes le vecteur S contient les signaux eacutemis par les L haut-parleurs et enfin le vecteur B contient les signaux HOA

⎟⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜⎜

=

⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜

=

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

=

10

100

2

1

1011

10

11111

111

10011

100

)()()(

)()()()(

M

mn

LLLMM

llmn

LL

LL

B

B

B

B

S

SS

S

YYY

YYYY

CM

M

M

L

MM

L

L

σσ

δθδθδθ

δθδθδθδθ

(19)

)( ll δθ repeacuterant la position du legraveme haut-parleur

Il faut donc estimer S connaissant B et C Le deacutecodage se reacutesume alors agrave un systegraveme de (M +1)2 (en 3D) ou 2M +1 (en 2D) eacutequations lineacuteaires agrave L inconnues On ne peut trouver de solution exacte que si le nombre de haut-parleurs est au moins eacutegal au nombre de signaux crsquoest-agrave-dire si L gt (M +1)2 (en 3D) ou 2M +1 (en 2D) Crsquoest en outre une condition neacutecessaire pour pouvoir avoir une reproduction homogegravene de la scegravene sonore

La matrice C nrsquoest pas neacutecessairement carreacutee et inversible une solution geacuteneacuterale

consiste agrave calculer lrsquoinverse geacuteneacuteraliseacutee de la matrice C noteacutee D encore appeleacutee pseudo-inverse de Moore-Penrose

BDS sdot= (110)

avec

1pinv( ) ( )t tD C C C C minus= = sdot sdot (111) D est appeleacutee matrice de deacutecodage BDS sdot= reacutesout le systegraveme (18) si les haut-

parleurs sont suffisamment nombreux L gt (M +1)2 (en 3D) ou 2M +1 (en 2D)) Srsquoils sont en outre disposeacutes sur une sphegravere (3D) ou un cercle (2D) de maniegravere eacutequidistante crsquoest-agrave-dire srsquoils sont les sommets drsquoun polyegravedre ou polygone reacutegulier ils preacuteservent alors la proprieacuteteacute drsquoorthonormaliteacute des harmoniques spheacuteriques Ceci se traduit par

Lt ILCC sdot=sdot (112)

ougrave IL est la matrice identiteacute de taille LLtimes On a alors

1pinv( ) tD CL

= = C (113)

Chapitre 1 Ambisonics 10

Cette proprieacuteteacute ne peut pas ecirctre matheacutematiquement veacuterifieacutee en 3D au-delagrave de lrsquoordre 2 autrement dit il nrsquoexiste pas de polyegravedre reacutegulier dont la position des sommets conserve strictement lrsquoorthonormaliteacute des harmoniques spheacuteriques

Visuellement le deacutecodage correspond agrave la reproduction du champ sonore tel qursquoil

aurait eacuteteacute capteacute par un ensemble de N microphones agrave directiviteacutes hyper-cardioiumldes tourneacutes chacun vers lrsquoun des haut-parleurs Leur directiviteacute serait drsquoautant plus preacutecise que lrsquoordre de reproduction est eacuteleveacute

Figure 16 - Prise de son virtuelle eacutequivalente agrave un encodage au 1er ordre et un deacutecodage

basique sur une disposition en 2D hexagonale [Moreau et al 2006] Le gain gl appliqueacute agrave chaque haut-parleur pour une direction de source virtuelle donneacutee

(en vert) est indiqueacute par la longueur des flegraveches et est reporteacutee aux points drsquointersection de la flegraveche verte et des diagrammes de directiviteacute

On peut remarquer que les diagrammes de directiviteacute sont tregraves larges par rapport

agrave lrsquoespacement angulaire des haut-parleurs Le 2nd ordre offrirait des directiviteacutes plus fines et donc une seacutelectiviteacute spatiale accrue Il faudrait alors bien sucircr davantage de haut-parleurs pour ne pas introduire des ldquotrousrdquo entre eux On remarque eacutegalement la preacutesence non neacutegligeable des lobes secondaires utiles pour la reconstruction du champ acoustique (notamment en basses freacutequences) mais qui peuvent ecirctre gecircnants dans certains cas par exemple lorsque lrsquoauditoire est large

Ce deacutecodage est appeleacute deacutecodage basique car il nrsquooptimise pas la restitution en

accord une quelconque hypothegravese et cherche uniquement agrave reproduire fidegravelement le champ acoustique Pour ameacuteliorer la restitution dans des cas critiques comme par exemple en-dehors du sweet spot (centre du dispositif) il faut optimiser le deacutecodage en reacuteduisant par exemple les lobes secondaires Ainsi le deacutecodage max-rE srsquoattache agrave maximiser lrsquoeacutenergie reccedilue de la provenance de la direction souhaiteacutee alors que le deacutecodage in-phase annule complegravetement ces lobes secondaires (voir Annexe B)

13 Critique de la technologie HOA 11

13 Critique de la technologie HOA

131 Bilan On a ainsi vu que la technologie HOA est une repreacutesentation intermeacutediaire du

champ de pression acoustique agrave mi-chemin entre la description directe du champ lui-mecircme et des signaux agrave restituer Cette technologie a de nombreux avantages compareacutee aux autres meacutethodes de reproduction de champ sonore (on trouvera notamment une eacutetude deacutetailleacutee des comparaisons entre HOA et la Wave Field Synthesis (WFS) dans [Daniel et al 2003]) elle permet drsquoeacuteviter le repliement spatial (voir paragraphe suivant) et permet ainsi une reconstruction dans une gamme de freacutequences tregraves large

La qualiteacute de la restitution ambisonique nrsquoest theacuteoriquement limiteacutee que part

lrsquoordre de troncature de la seacuterie de Fourier-Bessel agrave partir du moment ougrave le nombre de haut-parleurs est suffisant Ainsi un ordre tendant vers lrsquoinfini (et un nombre de haut-parleurs au moins aussi grand) permettra une reproduction quasi-parfaite sur lrsquoensemble de la zone drsquoeacutecoute

Mais les principaux avantages de cette technologie sont drsquoune part drsquoecirctre flexible

crsquoest-agrave-dire qursquoon peut agrave loisir adapter le nombre de signaux transmis au canal de transmission Une chute de deacutebit nrsquoentraicircnera pas de coupure de la transmission mais simplement une perte de preacutecision spatiale par lrsquoabandon des composantes drsquoordres les plus eacuteleveacutes Et drsquoautre part elle est indeacutependante du systegraveme de reproduction Ainsi un mecircme signal HOA pourra ecirctre diffuseacute sur toutes les configurations de haut-parleurs il suffira pour cela de calculer la matrice de deacutecodage associeacutee agrave ce systegraveme

132 Limites pratiques Dans la pratique cette technologie a toutefois des limitations Si lrsquoaliasing spectral

est eacuteviteacute on constate aux ordres les plus eacuteleveacutes lrsquoapparition drsquoun repliement spatial lors des enregistrements naturels agrave partir drsquoune freacutequence lieacutee agrave la distance maximale entre 2 capsules du microphone HOA (qui doit ecirctre au plus eacutegale agrave la moitieacute de la plus petite longueur drsquoonde drsquoapregraves Shannon) et au nombre total de capsules (qui doit ecirctre supeacuterieur agrave (M+1)2 M eacutetant lrsquoordre auquel on souhaite enregistrer)

Le repliement spectral repreacutesente la preacutesence importune dans des composantes

ambisoniques de sources qui de part leur position ne devraient qursquoapparaicirctre avec cette importance que dans les composantes drsquoordre plus eacuteleveacute Il est ducirc agrave lrsquointrusion des directiviteacutes drsquoordres supeacuterieurs dans les composantes harmoniques spheacuteriques estimeacutees Comme on le voit sur la Figure 17 les directiviteacutes ne sont pas des cylindres (au sens matheacutematique du terme la base nrsquoeacutetant pas forceacutement un cercle) mais varient en fonction de la freacutequence pour ressembler davantage dans le haut du spectre aux courbes de directiviteacute de lrsquoordre supeacuterieur Ainsi la directiviteacute de lrsquoordre 1 (2egraveme graphique) qui devrait ecirctre un 8 ressemble davantage au-dessus de 10 000 Hz agrave la figure de directiviteacute de lrsquoordre 4 (8 lobes)

Chapitre 1 Ambisonics 12

Figure 17 - Directiviteacutes theacuteoriques (en transparence) et reconstruites (grille) dans le plan horizontal pour des ondes planes horizontales Lrsquoaxe vertical correspond agrave la freacutequence et

les diffeacuterents graphiques aux ordres 0123 et 4 de gauche agrave droite Agrave lrsquoopposeacute la taille reacuteduite du microphone si elle permet de reacuteduire cet aliasing

spatial empecircche la capture des basses freacutequences aux ordres supeacuterieurs (voir 232) La reacutesolution spatiale des basses freacutequences sera donc moindre ce qui implique que en ajoutant lrsquoeffet du repliement en hautes freacutequences les ordres eacuteleveacutes capteacutes avec le micro HOA ne constituent qursquoune plage du spectre assez peu eacutetendue crsquoest cette seule plage qui pourra se targuer drsquoune excellente preacutecision spatiale

13

Chapitre 2

Analyser un contenu HOA

21 Objectifs La reacuteflexion a tout au long du stage eacuteteacute orienteacutee vers deux objectifs le premier

est dans un contexte de transmission de reconstruire une scegravene spatialiseacutee agrave partir du minimum drsquoinformations le deuxiegraveme appliqueacute agrave des ordres plus eacuteleveacutes est drsquoarriver agrave resyntheacutetiser les composantes de lrsquoordre immeacutediatement supeacuterieur

211 Restitution de la spatialisation agrave partir drsquoun downmix mono La premiegravere approche vise donc agrave reconstruire une scegravene spatialiseacutee agrave partir drsquoun

downmix le plus leacuteger possible Un downmix est une reacuteduction du nombre de canaux par fusion lrsquoexemple le plus simple eacutetant le passage drsquoun signal steacutereacuteo agrave un signal mono construit comme la demi-somme des composantes gauche et droite On tente dans cette approche de se restreindre au plus petit nombre de signaux possible un signal eacutetant tregraves coucircteux agrave transmettre en ajoutant parallegravelement agrave ce signal des informations compleacutementaires aidant agrave la reconstruction

Le cas extrecircme est la reacuteduction du flux agrave un signal mono Dans le cas

drsquoambisonics un signal mono comprenant toutes les sources est deacutejagrave preacutesent il srsquoagit de la composante omnidirectionnelle W Il faut donc extraire de la scegravene encodeacutee agrave un certain ordre M des informations permettant la reconstruction drsquoun ordre Mrsquo apregraves transmission Nous verrons que nous allons chercher agrave trouver les positions des sources gracircce agrave une analyse en composantes principales (ou ACP voir Annexe C) effectueacutee par sous-bandes (voir Annexe D)

212 Ameacutelioration de la preacutecision spatiale La deuxiegraveme piste suivie a pour but de reconstituer un ordre ambisonique non

transmis On pourrait qualifier cette approche drsquoupmix ambisonique car elle vise agrave reconstruire un ordre manquant En effet le format ambisonique eacutetant flexible il est bien

Chapitre 2 Analyser un contenu HOA 14

adapteacute agrave la transmission Ainsi si on souhaite transmettre une scegravene encodeacutee agrave lrsquoordre 2 dans le plan horizontal il faudra un canal drsquoun deacutebit minimum (si lrsquoon prend lrsquohypothegravese de pas vouloir compresser les signaux) de 471 Mos Un canal plus petit (par exemple 34 Mos) ne permettra theacuteoriquement de transmettre qursquoun ordre 1 Mais lrsquoanalyse des signaux peut permettre de deacuteterminer les positions des sources agrave partir desquelles on peut syntheacutetiser des composantes du 2nd ordre approchant les composantes drsquoorigine On pourrait mecircme imaginer pouvoir syntheacutetiser un ordre qui nrsquoavait pas eacuteteacute encodeacute agrave lrsquoorigine

Pour cela il est neacutecessaire de deacuteterminer les positions des sources preacutedominantes

dans le champ sonore pour piloter leur encodage spatial aux ordres supeacuterieurs et arriver agrave la synthegravese drsquoune repreacutesentation de reacutesolution spatiale accrue Il srsquoagit dans le mecircme temps drsquoisoler au mieux les signaux associeacutes agrave ces diffeacuterentes sources avant de leur appliquer lrsquoopeacuteration drsquoencodage on se rapproche donc drsquoun problegraveme de seacuteparation de sources

Pour parvenir agrave trouver ces positions deux meacutethodes ont eacuteteacute testeacutees La premiegravere

consiste comme preacuteceacutedemment agrave appliquer en sous-bandes une analyse en composantes principales La seconde implique la formation de directiviteacutes agrave partir des vecteurs propres de la matrice de correacutelation utiliseacutee dans cette analyse

Lrsquoanalyse en composantes principales ou ACP (voir Annexe C) est donc

largement privileacutegieacutee dans nos approches Elle permet en effet tregraves facilement drsquoextraire des informations preacutecises de signaux correacuteleacutes Pour justifier ce choix une autre meacutethode reacutecente a eacutegalement eacuteteacute testeacutee et compareacutee agrave lrsquoACP (voir 11)

22 Principe de lrsquoextraction drsquoinformation spatiale avec une ACP

221 Information spatiale

Nous avons donc tout drsquoabord testeacute lrsquoanalyse en composantes principales sur des

signaux HOA Nous avons choisi dans un premier temps de limiter lrsquoanalyse aux composantes horizontales du premier ordre W X et Y avant de lrsquoeacutetendre agrave la 3egraveme dimension avec Z

Dans un premier test les signaux HOA sont analyseacutes par une ACP dans leur

inteacutegraliteacute LrsquoACP est appliqueacutee sur les signaux X et Y qui contiennent lrsquoinformation spatiale En effet X et Y correspondent aux signaux qui seraient capteacutes par des microphones agrave figure en 8 placeacutes sur lrsquoaxe avant-arriegravere et gauche-droite respectivement

La Figure 21 montre la correacutelation entre X et Y dans le cas drsquoun bruit blanc capteacute

par le microphone ambisonique Les points ne sont pas exactement aligneacutes du fait des artefacts inheacuterents agrave la prise de son (reacuteflexions sur les parois approximations du microphone etc)

22 Principe de lrsquoextraction drsquoinformation spatiale avec une ACP 15

Figure 21 - Y en fonction de X dans le cas drsquoun bruit blanc enregistreacute placeacute agrave 30deg

On remarque que le nuage est eacutetireacute dans la direction de provenance du son indiqueacutee par la flegraveche en pointilleacutes verts

222 Application de lrsquoanalyse en composantes principales La 1egravere composante issue de lrsquoACP appliqueacutee dans le plan (X Y) pointe dans la

direction dans laquelle X et Y ont la plus grande correacutelation Or comme X contient lrsquoinformation placeacutee sur lrsquoaxe avant-arriegravere et Y lrsquoinformation de lrsquoaxe gauche-droite cette direction est directement la direction de la source Par exemple un son situeacute droit devant dans lrsquoaxe (agrave 0deg) aura une composante Y nulle et par conseacutequent les eacutechantillons seront dans le plan tous disposeacutes sur lrsquoaxe horizontal LrsquoACP prendra donc naturellement cet axe comme 1er vecteur propre et il pointe bien vers la position de la source De mecircme un son situeacute agrave 135deg ( π28

3 times rad) aura la proprieacuteteacute Y = -X Les eacutechantillons seront donc placeacutes sur la 2egraveme bissectrice qui fait avec lrsquoaxe Y=0 un angle de 135deg (voir Figure 22)

Figure 22 - Y en fonction de X dans le cas drsquoun son placeacute artificiellement dans la direction

indiqueacutee par la flegraveche en pointilleacutes verts agrave 0deg (agrave gauche) et 135deg (agrave droite)

Chapitre 2 Analyser un contenu HOA 16

Lrsquoanalyse de X et Y ne permet cependant de deacuteterminer lrsquoangle qursquoagrave π pregraves il reste une indeacutetermination (on deacutetermine la direction drsquoun axe qursquoil reste agrave orienter) Pour lever cette ambiguiumlteacute on integravegre W agrave lrsquoanalyse car cette composante pourtant omnidirectionnelle et donc deacutepourvue drsquoinformation spatiale apporte une reacutefeacuterence pour les phases Ainsi notre son placeacute agrave 135deg veacuterifiait (aux eacuteventuels coefficients de normalisation pregraves) Y = -X = W alors qursquoun son placeacute agrave 135 - 180 = -45deg aurait la proprieacuteteacute Y = -X = -W

Pour prendre en compte W dans lrsquoanalyse on peut comparer directement les

phases de ces 3 canaux Algorithmiquement on ramegravene lrsquoangle trouveacute agrave son modulo π2 puis on deacutetermine le vrai cadran par comparaison des phases de W X et Y crsquoest-agrave-dire en comparant le signe des produits W X et W Y Ainsi W X gt 0 signifie que W et X sont en phase et reacuteciproquement (voir Figure 23)

W X lt 0 W Y gt 0

W X gt 0 W Y gt 0

W X lt 0 W Y lt 0

W X gt 0 W Y lt 0

minusπ2

π

π2

0

Figure 23 - Signes de W X et W Y en fonction du cadran On peut eacutegalement inteacutegrer W agrave lrsquoanalyse en appliquant lACP sur le triplet (X Y

W) Le problegraveme drsquoambiguiumlteacute est ainsi reacutesolu la direction rechercheacutee eacutetant celle du vecteur principal dans le demi-espace W gt 0 projeteacutee sur le plan (X Y) Cette meacutethode srsquoavegravere plus robuste et surtout plus geacuteneacuteralisable agrave des ordres plus eacuteleveacutes

Cette analyse permet donc de deacuteterminer la position drsquoune source unique Pour

pouvoir seacuteparer plusieurs sources nous avons appliqueacute lrsquoACP par sous-bandes en supposant que les sources nrsquoont pas des supports freacutequentiels strictement identiques Le principe de cette analyse en sous-bandes est deacuteveloppeacute en Annexe D

23 Meacutethodologie

231 Construction de scegravenes artificielles Pour tester les algorithmes impleacutementeacutes nous avons ducirc creacuteer des scegravenes sonores

spatialiseacutees au format HOA Plusieurs types de scegravenes ont eacuteteacute utiliseacutes de complexiteacutes diffeacuterentes Les premiegraveres ont eacuteteacute des scegravenes virtuelles syntheacutetiseacutees avec Matlab Les premiegraveres scegravenes simplissimes ne comportait qursquoune sinusoiumlde ou un bruit blanc fixe placeacute dans le plan horizontal Puis pour tester lrsquoanalyse par sous-bandes ont eacuteteacute creacuteeacutes des sons polyphoniques composeacutes de 2 sinusoiumldes tout drsquoabord puis de sons complexes (syntheacutetiseacutes par synthegravese FM) dans des gammes freacutequentielles distinctes ou se

23 Meacutethodologie 17

chevauchant Enfin ces sons ont eacuteteacute rendus mobiles en faisant varier leur position dans le temps

Nous avons pu ainsi constater agrave lrsquoaide des sons fixes et de supports freacutequentiels

distincts la preacutecision de lrsquoanalyse et avec les sons mobiles et mecircleacutes sa robustesse Nous nous sommes limiteacutes sous Matlab agrave la geacuteneacuteration de 2 sons simultaneacutes et du 1er ordre et un autre outil Plogue Bidule a eacuteteacute utiliseacute pour composer des scegravenes plus complexes

Bidule est un studio modulaire virtuel ressemblant agrave MAXMSP Des plugins ont

eacuteteacute deacuteveloppeacutes agrave France Teacuteleacutecom pour permettre de manipuler des signaux HOA Ainsi des scegravenes complexes ont pu facilement ecirctre syntheacutetiseacutees agrave des ordres eacuteleveacutes Des scegravenes agrave 3 et 4 sources fixes ou dont 1 source mobile ont eacuteteacute reacutealiseacutees agrave partir de voix deacutemixeacutees placeacutees dans le plan horizontal ou en 3 dimensions

Ces scegravenes eacutetant artificielles elles sont en un sens ideacuteales ne contiennent aucun

signal reacuteverbeacutereacute (effet de salle) ni diffracteacute (par un micro) lrsquoencodage est fait sans artefacts les ondes sont consideacutereacutees comme planes et ont donc une direction bien deacutefinie Si on est ici bien loin de la vraie vie le gros avantage des scegravenes artificielles est qursquoon connaicirct preacuteciseacutement agrave chaque instant la position des sources et qursquoon peut ainsi veacuterifier le reacutesultat de lrsquoanalyse

Figure 24 - Interface graphique du logiciel Bidule avec agrave droite les controcircles des encodeurs

et deacutecodeurs HOA creacuteeacutes agrave France Teacuteleacutecom

Chapitre 2 Analyser un contenu HOA 18

232 Exploitation drsquoenregistrements naturels Une fois des reacutesultats convaincants obtenus avec des scegravenes virtuelles des

enregistrements naturels ont eacuteteacute analyseacutes Ces scegravenes ont eacuteteacute enregistreacutees gracircce au prototype de micro HOA du 4egraveme ordre deacuteveloppeacute agrave France Teacuteleacutecom (voir Figure 12) Ce processus implique des diffeacuterences notables avec un encodage virtuel

Le prototype de microphone contraint en effet agrave quelques compromis pour

optimiser des critegraveres incompatibles La taille du microphone reacutesulte drsquoun compromis entre la preacutecision drsquoestimation des composantes en basses freacutequences qui neacutecessite une taille eacuteleveacutee et la minimisation de lrsquoaliasing spatial qui ne peut ecirctre eacuteviteacute qursquoavec des capsules tregraves proches les unes des autres Leur disposition est eacutegalement irreacuteguliegravere il nrsquoexiste en fait aucune faccedilon de disposer reacuteguliegraverement plus de 20 points sur une sphegravere La configuration qui avait eacuteteacute retenue par les concepteurs [Moreau 2006] est la ldquomoins irreacuteguliegravere possiblerdquo au sens de la preacuteservation de lrsquoorthonormaliteacute des harmoniques spheacuteriques les 32 capsules sont reacuteparties sur une sphegravere de 35 cm de rayon selon un Pentaki-dodeacutecahegravedre polyegravedre semi-reacutegulier dual de lrsquoicosaegravedre tronqueacute (ballon de football)

Ces artefacts sont donc inheacuterents agrave lrsquoutilisation drsquoun reacuteseau de microphones Mais

le monde reacuteel pose eacutegalement des problegravemes deacutelicats La complexiteacute des modes de rayonnement drsquointeraction avec lrsquoenvironnement reacuteclame lrsquointroduction de modegraveles drsquoencodage beaucoup plus complexes que le cas drsquoune onde plane en champ libre et rend lrsquoinformation spatiale moins limpide et univoque au sein de la scegravene encodeacutee (enregistreacutee) en comparaison avec une scegravene virtuelle Les sources ne sont ainsi plus ponctuelles mais eacutetendues elles ne sont plus agrave lrsquoinfini mais agrave une distance finie du microphone (les ondes reccedilues ne sont donc plus planes) En outre chaque source en se reacutefleacutechissant sur les parois et les diffeacuterents objets de la salle creacutee une multitude de sources secondaires Il est enfin souvent difficile de connaicirctre avec preacutecision la position drsquoune source dans lrsquoespace lors drsquoun enregistrement

Des enregistrements en chambre sourde ont eacuteteacute reacutealiseacutes pour se passer des

reacuteflexions de lrsquoenvironnement Afin de connaicirctre avec preacutecision la position de la source un haut-parleur diffusant un bruit blanc nous avons placeacute le microphone sur une table tournante commandeacutee par un plug-in sous Plogue Bidule

233 Visualisations des reacutesultats Lrsquoobservation des reacutesultats a eacuteteacute effectueacutee de plusieurs maniegraveres visuellement et

par lrsquoeacutecoute Les graphiques eacutetant plus commodes crsquoest par cette voie que les premiers essais eacutetaient conclus Plusieurs types de graphiques ont eacuteteacute produits deacutecrivant des paramegravetres diffeacuterents

Les repreacutesentations temps-freacutequence permettent de repreacutesenter une variable agrave 1

dimension sous Matlab Cette voie a eacuteteacute suivie pour visualiser les paramegravetres extraits de chaque sous-bande de chaque fenecirctre notamment les angles lrsquoeacutenergie et la pertinence Malheureusement Matlab ne permet pas de repreacutesenter sur le mecircme graphique une 4egraveme dimension sous la forme drsquoune 2egraveme dimension colorimeacutetrique (on prend geacuteneacuteralement la

23 Meacutethodologie 19

saturation) Cette dimension suppleacutementaire aurait permis de repreacutesenter simultaneacutement les angles et leur pertinence

Figure 25 - Repreacutesentation

et de lrsquoespace col

Pour repreacutesenter s

drsquoabandonner une dimensipouvoir repreacutesenter danrepreacutesenteacutees soit par le niv

Figure 26 - Repreacutesentationdeacutecrite en 332 (en absciss

est repreacutesenteacutee agrave gauc

234 Diffeacuterents modes La visualisation est

indispensable pour veacuterifiesont possibles de ceux-cainsi reconstitueacutee agrave partir d

1 W+Y+02X pour le c

π 0 minusπ

de la table des couleurs dite HSV de Matlab (lineacuteaire agrave gauche) orimeacutetrique HSL (Hue Saturation Luminance agrave droite)

imultaneacutement angles et pertinence il eacutetait donc neacutecessaire on Crsquoest le deacutecoupage freacutequentiel qui a eacuteteacute mis de cocircteacute pour s un plan temps-angles les pertinences Celles-ci sont eau de gris des points soit par leur taille

de la pertinence des angles de la scegravene agrave 4 sources dont 1 mobile e les trames en ordonneacutees les angles en degreacute) La pertinence he par lrsquointensiteacute du bleu et agrave droite par la taille des points

drsquoeacutecoute

un indice preacutecis de reacutesultat mais lrsquoeacutecoute est tout de mecircme r la qualiteacute globale de la synthegravese Plusieurs modes drsquoeacutecoute i lrsquoeacutecoute au casque est la plus aiseacutee Une pseudo-steacutereacuteo est es signaux du 1er ordre1 pour restituer les scegravenes restreintes au

anal gauche et W-Y+02X pour le canal droit

Chapitre 2 Analyser un contenu HOA 20

plan horizontal Pour plus de preacutecision agrave la restitution ou pour des scegravenes en 3D et sans perdre la faciliteacute drsquoune eacutecoute personnelle au casque on peut appliquer des filtres HRTF (Head-Related Transfert Function) pour une reproduction binaurale

Pour appreacutecier pleinement la spatialisation la diffusion sur un systegraveme multi

haut-parleurs est indispensable Deux systegravemes sont installeacutes dans le laboratoire de France Teacuteleacutecom un systegraveme 51 et un systegraveme circulaire de 48 haut-parleurs Ces systegravemes installeacutes dans des studios insonoriseacutes offrent une grande qualiteacute drsquoeacutecoute qui permet de repeacuterer les deacutefauts mecircme minimes de la synthegravese

21

Chapitre 3

Description des analyses

31 Deacutetermination des directions principales

311 Base des algorithmes Nous avons deacuteveloppeacute plusieurs algorithmes reacutepondant aux diffeacuterents objectifs

deacutecrits plus haut Chacun drsquoeux possegravede des particulariteacutes leur permettant de reacutepondre agrave ces objectifs mais on trouve neacuteanmoins une partie commune Ainsi toutes les analyses reposent sur le mecircme modegravele drsquoapplication drsquoune ACP par sous-bandes dont voici le scheacutema geacuteneacuteral

Figure 31 - Scheacutema geacuteneacuteral drsquoanalyse

Les signaux en entreacutee sont les composantes HOA W X et Y dans la plupart des

cas mais peuvent ecirctre eacutegalement des composantes drsquoordre plus eacuteleveacute (voir 11) Sur le fenecirctrage jouent plusieurs paramegravetres comme la taille de la fenecirctre ou encore le pourcentage de recouvrement entre elles Nous avons choisi une fenecirctre en racine de la fenecirctre de Hanning crsquoest-agrave-dire une arche de sinusoiumlde (voir eacutequation (D7) en Annexe D) avec un recouvrement de 50 ce qui veacuterifie le critegravere de reconstruction parfaite (D6) Le filtrage est pour des raisons de rapiditeacute de calcul reacutealiseacute dans le domaine freacutequentiel par une simple multiplication avant de repasser en temporel pour appliquer lrsquoACP

Le banc de filtre utiliseacute est un banc inspireacute des filtres ERB Les filtres ERB

(Equivalent Regular Bandwidth) sont des filtres imitant le comportement de seacuteparation freacutequentielle de lrsquooreille humaine plus preacutecise en basse freacutequence Les filtres utiliseacutes ici ne sont pas directement des filtres ERB le systegraveme nrsquoa pas drsquointeacuterecirct particulier agrave essayer de copier le fonctionnement de lrsquooreille humaine Ces filtres ont eacuteteacute adapteacutes au problegraveme en

Chapitre 3 Description des analyses 22

srsquoassurant en particulier de la finesse des bandes permettant la meilleure discrimination des diffeacuterentes sources crsquoest-agrave-dire autour des fondamentales usuelles (200-1000 Hz) et des harmoniques Les freacutequences aigueumls sont bien discrimineacutees par les filtres ERB (relativement agrave la gamme crsquoest-agrave-dire en eacutechelle logarithmique) le deacutecoupage a donc surtout eacuteteacute densifieacute entre 200 et 800 Hz par rapport aux bandes ERB

Figure 32 - Filtres utiliseacutes inspireacutes des filtres ERB repreacutesenteacutes lineacuteairement (en haut)

et sur une eacutechelle logarithmique (en bas) Les reacutesultats de lrsquoACP sont donc avec cette meacutethode les angles des sources

trouveacutees dans chaque sous-bande ainsi que pour chacun drsquoeux un critegravere de pertinence calculeacute en fonction de lrsquoeacutenergie de la sous-bande dans une fenecirctre donneacutee et de la norme relative de la premiegravere composante de lrsquoACP (voir 342) Les autres vecteurs propres peuvent ecirctre utiliseacutes pour extraire davantage drsquoinformations et mecircme des signaux deacutecorreacuteleacutes comme on le verra au paragraphe 35 mais lrsquoanalyse semble alors moins robuste Srsquoen tenir aux informations donneacutees par la composante principale est un gage de pertinence suppleacutementaire

Ces reacutesultats concernent donc les sources preacutedominantes ou principales mais

laissent de cocircteacute un certain nombre drsquoeacuteveacutenements sonores agrave consideacuterer

312 Traitement du champ reacutesiduel Le champ reacutesiduel regroupe en quelque sorte tout ce qui nrsquoest pas une source

principale Il inclut donc les reacuteflexions et la reacuteverbeacuteration de la piegravece mais aussi les bruits parasites occasionnels ou continus (ventilation etc) Ces bruits ou eacutechos nrsquoont pas de direction de provenance assez distincte pour pouvoir ecirctre mesureacutee preacuteciseacutement Le champ reacutesiduel est eacutegalement composeacute du champ diffus La notion de champ diffus est couramment utiliseacutee mais rarement preacuteciseacutement deacutefinie On trouve dans la litteacuterature des deacutefinitions diverses lrsquoune drsquoelles preacutecisant qursquoil serait un ensemble drsquoeacuteveacutenements sonores proches en temps et provenant de directions eacutequiprobables

Les algorithmes proposeacutes traitent correctement les sources principales mais le

champ reacutesiduel est laisseacute de cocircteacute Il est pourtant tregraves important pour lrsquoimmersion du sujet dans la scegravene une scegravene deacutepourvue de champ sonore sera perccedilue comme artificielle ce qui nuit agrave la perception drsquoespace On sera par exemple davantage conscients drsquoecirctre au centre drsquoun dispositif expeacuterimental et moins sensibles aux variations de profondeur et de perspectives

31 Deacutetermination des directions principales 23

Neacuteanmoins il faut relativiser lrsquoimportance de ce champ reacutesiduel il nrsquoest pas utile pour la localisation des sources principales et ne caracteacuterise que lrsquoenvironnement drsquoenregistrement En outre le champ reacutesiduel qui provient souvent de directions floues et notre but nrsquoest pas de les preacuteciser artificiellement Il nrsquoest degraves lors geacuteneacuteralement pas utile de le transmettre aux ordres eacuteleveacutes

Ainsi certains auteurs [Merimaa and Pulkki 2005] ont choisi de recreacuteer lors drsquoune

synthegravese un champ diffus artificiel baseacute sur une reacuteponse impulsionnelle de salle calculeacutee agrave lrsquoavance Lrsquoavantage est une immersion un enveloppement complets lrsquoinconveacutenient est que lrsquoambiance ainsi recreacuteeacutee est fictive et arbitraire et en outre complegravetement indeacutependante de lrsquoambiance initiale en laissant notamment de cocircteacute les sources secondaires

Nous proposons dans nos algorithmes de ne pas syntheacutetiser le champ diffus aux

ordres eacuteleveacutes mais de nous contenter de la description du champ reacutesiduel fourni par les ordres transmis (1er ordre dans nos exemples) Nous nous limiterons donc agrave preacuteciser par la synthegravese des ordres supeacuterieurs les positions des sources principales

32 Extension agrave la 3D Nous avons pour le moment eacutevoqueacute le cas de repreacutesentations de champ sonore agrave

2 dimensions crsquoest-agrave-dire issus de sources placeacutees dans le plan horizontal Mais certaines repreacutesentations comportent eacutegalement des composantes verticales Pour analyser ces signaux en 3 dimensions il faut inteacutegrer la composante Z On effectue alors simplement une ACP sur X Y Z et W Le 1er vecteur propre sera alors bien dirigeacute dans lrsquoespace (X Y Z) dans la direction de la source lrsquoambiguiumlteacute de frac12 espace eacutetant leveacutee par W

Lrsquoalgorithme est alors complegravetement similaire agrave celui analysant des signaux en 2

dimensions Des tests ont eacuteteacute reacutealiseacutes agrave partir de signaux syntheacutetiques pour lesquels les positions des sources eacutetaient connues pour des raisons pratiques aucune scegravene sonore reacuteelle en 3 dimensions nrsquoa pu ecirctre enregistreacutee avec une connaissance initiale preacutecise des positions des sources

Les visualisations et les eacutecoutes eacutetant plus deacutelicates en 3D et lrsquoextension agrave la 3D

eacutetant immeacutediate nous avons donc concentreacute nos efforts sur lrsquoanalyse de scegravenes en 2D En outre en lrsquoabsence de dispositif spheacuterique ou heacutemispheacuterique de haut-parleurs le seul moyen agrave notre disposition pour eacutecouter une scegravene 3D est lrsquoeacutecoute binaurale crsquoest-agrave-dire au casque avec des fonctions de transfert de tecircte (HRTF) relativement bien adapteacutees agrave lrsquoauditeur

33 Analyse aux ordres supeacuterieurs

331 Description Afin drsquoameacuteliorer la preacutecision de lrsquoanalyse nous avons essayeacute drsquoappliquer une ACP

sur des signaux ambisoniques drsquoordre plus eacuteleveacute (signaux HOA) dans le plan horizontal Deux meacutethodes ont eacuteteacute essayeacutees

Chapitre 3 Description des analyses 24

La premiegravere consiste agrave appliquer une ACP agrave 3 dimensions successivement sur les composantes X Y W (ordre 1 et 0) puis U V W (ordre 2 et 0) et ainsi de suite crsquoest-agrave-dire (en utilisant la notation geacuteneacuterale) sur les composantes et W (ordre m et 0) Les reacutesultats de ces analyses (les directions des 1

)1(0mY )1(

0minus

mYegraveres composantes) sont ensuite regroupeacutees

lrsquoanalyse de lrsquoordre 1 fournissant des reacutesultats modulo 2π lrsquoanalyse de lrsquoordre 2 des reacutesultats plus preacutecis mais modulo π et plus geacuteneacuteralement lrsquoanalyse de lrsquoordre m permettant de trouver des angles modulo mπ2

La limite de cette approche se perccediloit lors de la fusion des reacutesultats les angles

trouveacutes agrave un ordre eacuteleveacute sont plus preacutecis dans des bandes de freacutequences eacuteleveacutees mais la limitation theacuteorique de ces signaux HOA dans les basses freacutequences font que lrsquoanalyse de lrsquoordre 1 reste la plus pertinente dans les premiegraveres bandes Parvenir agrave deacuteterminer agrave partir de quelle freacutequence on peut faire davantage confiance agrave lrsquoordre n+1 qursquoagrave lrsquoordre n nrsquoest pas aiseacute et cette limite provoque des aberrations dans les angles trouveacutes Une source unique pourra par exemple ecirctre interpreacuteteacutee par lrsquoalgorithme des k-moyennes (voir 341) comme 2 sources une en hautes freacutequences et une en basses freacutequences les 2 eacutetant trouveacutes agrave 2 angles diffeacuterents chaque angle relevant drsquoun ordre analyseacute diffeacuterent

La deuxiegraveme meacutethode consiste pour eacuteviter cette fusion des reacutesultats agrave effectuer

une seule ACP sur les composantes U V X Y et W Cette meacutethode souffre drsquoune tregraves grande complexiteacute algorithmique pour une ameacutelioration de la preacutecision peu sensible En effet si cette meacutethode permet drsquoobtenir des reacutesultats plus preacutecis dans certaines bandes de freacutequences elle est sensible aux deacutefauts et les limites des ordres supeacuterieurs (lrsquoabsence de basses freacutequences entre autres) perturbent lrsquoanalyse en composantes principales

332 Illustration sur une scegravene virtuelle La scegravene preacutesenteacutee ici est une scegravene artificielle crsquoest-agrave-dire composeacutee de sons

placeacutes artificiellement agrave diverses positions Elle a une dureacutee totale de 135 s et comporte 4 sources positionneacutees dans le plan horizontal une guitare placeacutee agrave 45deg une basse agrave -70deg une batterie agrave 110deg et une voix feacuteminine qui effectue continucircment un tour complet dans le sens indirect en partant de lrsquoarriegravere (elle passe donc successivement par les positions 180deg 90deg 0deg -90deg et -180deg) La guitare et la batterie srsquoarrecirctent peu avant la fin de la scegravene (12egraveme seconde au 910egraveme du son approximativement)

Figure 33 - Position des sources de la scegravene de test agrave 4 sources dont 1 mobile

33 Analyse aux ordres supeacuterieurs 25

Figure 34 - Angles drsquoune scegravene virtuelle ayant 1 source mobile et 3 sources fixes

(deacutecrite en 332) trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 Pour chaque trame (en abscisse) 20 angles (1 par bande en ordonneacutee et en degreacutes) sont

reporteacutes le diamegravetre du point correspondant agrave un critegravere de pertinence (voir 342)

Figure 35 - Angles de la mecircme scegravene trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 2 Reacutesultats modulo π reacutepliqueacutes pour faciliter la comparaison avec la figure preacuteceacutedente On remarque que les lignes sont plus nettes qursquoil y a moins drsquoangles aberrants et que

les angles corrects sont plus marqueacutes (ils sont deacutetermineacutes comme plus pertinent)

Chapitre 3 Description des analyses 26

20

0

20

0

20

0

Figure 36 - Angles drsquoune scegravene reacuteelle constitueacutee drsquoun bruit parcourant le cercle trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 (en haut) 0 et 2 (au milieu) et 0 et 4 (en bas) Le

numeacutero de trame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On retrouve qursquoune limitation des ordres HOA supeacuterieurs issus drsquoun enregistrement

microphonique est la restitution des basses freacutequences

34 Traitement des donneacutees

341 Algorithme des k-moyennes Agrave lrsquoissue de lrsquoanalyse en composantes principales on reacutecupegravere avec la premiegravere

des meacutethodes exposeacutees au chapitre preacuteceacutedent des angles correspondants aux positions des sources preacutedominantes agrave raison drsquoune valeur par fenecirctre et par bande de freacutequence Il faut agrave partir de ces donneacutees parvenir agrave isoler les sources crsquoest-agrave-dire agrave deacuteterminer quels sont les angles pertinents et examiner quels sont ceux qui agrave une certaine toleacuterance pregraves sont preacutesents dans plusieurs bandes de freacutequence etou plusieurs fenecirctres temporelles

Pour pouvoir exploiter ces donneacutees spatiales nous avons utiliseacute lrsquoalgorithme des

k-moyennes (ou k-means) [MacQueen 1967] sur les angles pondeacutereacutes par des critegraveres de pertinence Cet algorithme fonctionne de la maniegravere suivante

Initialisation choix de k barycentres (les k moyennes) Reacutepeacuteter Associer chaque eacuteleacutement au barycentre le plus proche Recalculer les positions des barycentres Jusqursquoagrave ce que les barycentres soient stables (ou au bout de t iteacuterations)

34 Traitement des donneacutees 27

Lrsquoavantage de cet algorithme est drsquoecirctre peu glouton puisqursquoil converge en O(tkn) ougrave t est le nombre drsquoiteacuterations k le nombre de centres et n le nombre de points (geacuteneacuteralement on a t k ltlt n) Par contre il est plutocirct sensible aux exceptions un point aberrant tirera agrave lui la moyenne auquel il aura eacuteteacute associeacute Il faut donc faire en sorte que ces points erroneacutes soient aussi rares que possibles Crsquoest pourquoi les angles traiteacutes sont pondeacutereacutes par 2 critegraveres de pertinence

La pondeacuteration des angles fournis en entreacutee de lrsquoalgorithme des k-moyennes se

fait de maniegravere simple en reacutepeacutetant ces angles un nombre de fois (de 0 agrave 10) proportionnel agrave un critegravere Ainsi un angle tregraves pertinent sera dupliqueacute et sera preacutesent plusieurs fois dans la liste des donneacutees traiteacutees attirant ainsi agrave lui la position du barycentre le plus proche Au contraire un angle trop peu pertinent ne sera pas reacutepeacuteteacute voir mecircme sera enleveacute de la liste

Le seul problegraveme de cet algorithme est qursquoil neacutecessite la connaissance de k crsquoest-

agrave-dire du nombre de sources qui composent la scegravene Une deacutetermination automatique se basant sur la reacutepeacutetition de lrsquoalgorithme avec un k croissant a eacuteteacute testeacutee mais le critegravere drsquoarrecirct reposant sur la dispersion des points autour des barycentres nrsquoeacutetant pas assez robuste cette meacutethode a provisoirement eacuteteacute mise de cocircteacute

342 Critegraveres de pertinence Les 2 critegraveres de pondeacuteration choisis sont lrsquoeacutenergie de la sous-bande dans la

fenecirctre donneacutee et le rapport de la norme de la 1egravere composante (la composante principale) de lrsquoACP sur la somme des normes de toutes les composantes

En effet un angle est trouveacute dans chaque sous-bande de chaque fenecirctre mecircme si

le signal y est tregraves faible Lrsquoangle trouveacute sera alors tregraves peu repreacutesentatif de la direction drsquoune source puisqursquoil indiquera la direction drsquoun bruit Lrsquoeacutenergie doit donc ecirctre prise en compte pour ne conserver que les angles trouveacutes dans des bandes comportant un signal suffisant

La norme relative de la 1egravere composante de lrsquoACP rend quant agrave elle compte du

poids relatif de cette composante par rapport aux autres Ainsi si 2 sources sont preacutesentes dans une bande donneacutee la 1egravere composante sera agrave peine plus marqueacutee que la 2egraveme Ceci peut ecirctre calculeacute en prenant simplement le rapport de la 1egravere valeur propre sur la somme des valeurs propres

On peut noter que la norme de la 1egravere composante ne se deacutetache nettement que

lorsqursquoun son est preacutesent dans la bande consideacutereacutee On peut alors se demander si lrsquoeacutenergie doit ecirctre prise en compte ou si lrsquoinformation qursquoelle contient nrsquoest comprise dans le 2egraveme critegravere En fait la norme relative est un critegravere tregraves bruiteacute et consideacuterer lrsquoeacutenergie par ailleurs permet de nuancer ces artefacts et constitue une base solide de pondeacuteration

Chapitre 3 Description des analyses 28

80

40

0

Figure 37 - Repreacutesentation temps-freacutequence des angles du son deacutecrit en 332 Letrame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On peut donc v

par trame et par bande chacun eacutetant le reacutesultat drsquoune ACP crsquoest-agrave-dire la 1egravere

Figure 38 - Eacutenergie de ce mecircme son On peut voir une basse en notes tenues uneet une batterie qui produit des sons secs dans un spectre plus aigu

80

40

0

80

40

0

Figure 39 - Norme relative de la 1egravere composante de ce mecircme son Les impacts de batterie (dans lrsquoaigu) ressortent davantage

π 0 minusπ

numeacutero de oir un angle direction

voix aiguumle

34 Traitement des donneacutees 29

Figure 310 - Pondeacuteration appliqueacutee agrave lrsquoentreacutee des k-moyennes calculeacutee ici comme

le simple produit de lrsquoeacutenergie et de la norme relative

80

40

0

343 Lissages

Pour faire face au bruit ineacutevitable dans les reacutesultats il faut lisser les donneacutees Ces

lissages temporels correspondent agrave des hypothegraveses de stabiliteacute des sources qui sont supposeacutees ecirctre fixes ou mobiles relativement lentement (dans une mesure agrave parameacutetrer)

Un premier lissage peut ecirctre opeacutereacute avant le traitement par lrsquoalgorithme des k-

moyennes Le filtre choisi est un filtre meacutedian de maniegravere agrave eacuteliminer les points aberrants tout en conservant les vraies valeurs des points coheacuterents Ce lissage est appliqueacute sur chaque sous-bande aux angles et ne tient pas compte des critegraveres de pertinence Il est donc utiliseacute avec parcimonie et peut mecircme ecirctre eacuteviteacute en reacuteglant de maniegravere adeacutequate les critegraveres de pondeacuteration agrave lrsquoentreacutee des k-moyennes

Le deuxiegraveme lissage srsquoeffectue agrave lrsquoentreacutee des k-moyennes en mecircme temps que les

critegraveres de pondeacuteration Il consiste agrave appliquer les k-moyennes non pas sur une fenecirctre donneacutee mais sur plusieurs fenecirctres conseacutecutives anteacuterieures et posteacuterieures en donnant plus de poids agrave la fenecirctre courante Dans la pratique les poids donneacutes aux diffeacuterentes fenecirctres sont eacutetablis par une gaussienne centreacutee sur la fenecirctre courante et de largeur agrave deacuteterminer (en fonction notamment de la dureacutee drsquoune fenecirctre et du type de scegravene analyseacute)

35 Exploitation de toutes les composantes de lrsquoACP Les analyses preacutesenteacutees preacuteceacutedemment ont toutes exploiteacute uniquement la

composante principale extraite par lrsquoACP Or cette analyse fournit des informations plus complegravetes par lrsquointermeacutediaire des autres composantes dont on peut tirer parti pour isoler plusieurs sources au sein drsquoune mecircme bande Cette approche est toujours en deacuteveloppement dans ce stage et nrsquoa pas encore donneacute pleine mesure des reacutesultats qursquoelle laisse entrevoir

Les composantes de lrsquoACP indiquent des directions qui correspondent aux

diffeacuterentes sources composant la scegravene sonore Les vecteurs propres de la matrice de correacutelation donnent ainsi les combinaisons lineacuteaires des signaux HOA permettant de

Chapitre 3 Description des analyses 30

seacuteparer de la meilleure faccedilon possible ces sons Ces directions peuvent ecirctre alors utiliseacutees pour former des directiviteacutes isolant au mieux ces sources

aBS sdot= (31)

ougrave la matrice a contient les vecteurs propres de la matrice de correacutelation (voir Annexe C) le vecteur B contient les signaux HOA et le vecteur S contient les sources extraites

⎟⎟⎟

⎜⎜⎜

=⎟⎟⎟

⎜⎜⎜

⎛=

⎥⎥⎥

⎢⎢⎢

⎟⎟⎟

⎜⎜⎜

⎟⎟⎟

⎜⎜⎜

⎛=

10

1001

1

ML

N

B

BB

S

SSuua MML (32)

On obtient ainsi des lobes drsquoautant plus eacutetroits que lrsquoordre est eacuteleveacute chacun

dirigeacute vers une source et permettant de lrsquoisoler le plus possible des contributions des autres sources La Figure 311 preacutesente les directiviteacutes ainsi trouveacutees par une ACP en pleine bande Une analyse en sous-bande permet une plus grande distinction des sources mais une seacuteparation diffeacuterente entre les bandes est dangereuse car elle risque de dissocier spatialement plusieurs parties drsquoun mecircme son

Figure 311 - Directiviteacutes seacuteparant ideacutealement 4 sources placeacutees agrave 17 73 195 et -58deg

pour une scegravene virtuelle encodeacutee agrave lrsquoordre 4 Ce principe se heurte neacuteanmoins aux limites de seacuteparation lieacutees agrave lrsquoordre

drsquoencodage en effet 2 sources ne pourront pas ecirctre seacutepareacutees si elles sont trop proches comme en teacutemoigne la largeur des lobes principaux Les lobes secondaires traduisent eacutegalement un meacutelange des sources isoleacutees La figure ci-dessus montre ainsi que la source placeacutee agrave 17deg (en vert) sera preacutesente de maniegravere non neacutegligeable dans le signal senseacute contenir la source placeacutee agrave -58deg (en bleu) en raison du lobe secondaire bleu important

31

Chapitre 4

Reacutesultats et applications

41 Illustration et critique des reacutesultats obtenus

411 Avant-propos Sans notification particuliegravere les reacutesultats preacutesenteacutes ont eacuteteacute obtenus avec un pas

de 50 ms une analyse en 80 bandes avec une FFT sur 8192 points Une taille de FTT plus grande et un plus grand nombre de bande augmente la qualiteacute de lrsquoanalyse un pas plus petit ameacuteliore sa preacutecision temporelle mais les reacutesultats sont moins fiables et un lissage plus important srsquoimpose alors Ces paramegravetres ont eacuteteacute reacutegleacutes apregraves de multiples essais sur des scegravenes diverses

Les reacutesultats sont preacutesenteacutes ici uniquement sous la forme de graphiques nous ne

pouvons donc repreacutesenter que les angles trouveacutes agrave la sortie de lrsquoalgorithme des k-moyennes

412 Scegravene 2D artificielle agrave 4 sources fixes La premiegravere scegravene est une scegravene artificielle composeacutee de 4 sons fixes placeacutes agrave -70

-10 45 et 110deg Ces sons (une basse une voix une guitare et une batterie) ont eacuteteacute choisis pour leur varieacuteteacute spectrale et leur varieacuteteacute drsquoattaque Elle a en outre le meacuterite drsquoecirctre reacutealiste et de constituer une seacutequence musicale (chaque son nrsquoest pas une meacutelodie indeacutependante)

On voit sur la Figure 41 ci-dessous que les angles trouveacutes sont proches des

angles theacuteoriques Lrsquoun des sons (agrave 45deg) est quasiment nul avant la 100egraveme trame sa position est alors moins facile agrave deacuteterminer plus preacuteciseacutement une position approximative est trouveacutee et correspondrait exactement agrave la position du bruit (45deg) si lrsquoincertitude de mesure tregraves grande pour un son aussi faible ne rendait la deacutetermination si ardue On mesure un eacutecart-type de 22deg sur cet exemple (en excluant le deacutebut du son agrave 45deg)

Chapitre 4 Reacutesultats et applications 32

Figure 41 - Angles theacuteoriques (en pointilleacutes rouge) et calculeacutes (en trait bleu) pour une scegravene

constitueacutee de 4 sons fixes longue de 11s

413 Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile

Figure 42 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) de la scegravene agrave

4 sources dont 1 mobile deacutecrite en 332 Cette scegravene est deacutecrite en 332 On a ici demandeacute aux k-moyennes de renvoyer 5 barycentres par trame alors que

seules 4 sources eacutetaient preacutesentes dans le but de se garantir une marge vis-agrave-vis des erreurs de deacutetection Cette 5egraveme direction nrsquoest pas du tout gecircnante elle indique une direction qui ne contient pas de source et crsquoest donc un son tregraves faible qui est ainsi pointeacute Apregraves une eacuteventuelle extraction le signal ne sera donc pas du tout gecircnant

41 Illustration et critique des reacutesultats obtenus 33

On peut remarquer que quand le son mobile se rapproche drsquoun son fixe la deacutetection est moins bonne il y a une fusion entre les 2 sons Mais encore une fois lors de lrsquoextraction lrsquoisolation drsquoun des sons englobera lrsquoautre son ce qui ne posera pas de problegraveme pour les objectifs fixeacutes aucune source nrsquoeacutetant oublieacutee En effet la seacuteparation de sources nrsquoest pas un objectif ici mais un moyen pour preacuteciser les positions des sources ce qui sera fait correctement mecircme si 2 sources sont pointeacutees par 1 seule direction

414 Scegravene 3D artificielle agrave une source et bruit de fond

La scegravene dont la position drsquoune source a eacuteteacute extraite ci-dessous est une scegravene virtuelle en 3D constitueacute drsquoun son (une voix) qursquoon a fait se deacuteplacer par paliers tout drsquoabord vers le haut de 0deg agrave 45deg et vers la gauche de 0deg agrave 90deg puis redescendre jusqursquoagrave 35deg en continuant son cheminement vers la gauche jusqursquoagrave 120deg et enfin finir la descente de 35deg agrave 0deg en la laissant agrave 120deg Agrave cette source a eacuteteacute superposeacutee une ambiance spatialiseacutee de hall drsquoaeacuteroport initialement enregistreacutee en 2D (au format 51) mais transformeacutee pour contenir des composantes verticales Cette ambiance deacutecorreleacutee de la source avait pour but de tester la robustesse de lrsquoanalyse Elle eacutetait agrave 15 dB en-dessous du niveau de la voix

Figure 43 - Azimut et eacuteleacutevation theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun

son en 3D artificiel de 9s placeacute dans une ambiance bruyante On remarque que lrsquoanalyse est tregraves correcte Il nrsquoy a pas drsquoeacutecart important entre

les angles theacuteoriques et ceux calculeacutes On note toutefois que le lissage agrave lrsquoentreacutee des k-moyennes a pour effet de gommer les creacuteneaux et drsquoaplatir quelque peu la courbe drsquoeacuteleacutevation ceci nrsquoest pas vraiment gecircnant car de tels sauts dans la position drsquoune source ne sont pas du tout reacutealistes (ils peuvent caracteacuteriser des bruits de pas mais de tels impacts sont courts et on peut srsquoattendre agrave ce que la courbe suive leur position aux instants ougrave ils sont eacutemis)

Chapitre 4 Reacutesultats et applications 34

415 Scegravene 2D naturelle agrave une source Les scegravenes naturelles sont on lrsquoa vu plus deacutelicates agrave exploiter car on ne peut pas

garantir la preacutecision de la position theacuteorique agrave retrouver par le calcul et on ne peut donc pas calculer la preacutecision de lrsquoanalyse Seuls les enregistrements utilisant la table tournante (voir 232) permettent une mesure preacutecise de la position de lrsquoangle Ces enregistrements on pu confirmer la validiteacute de lrsquoanalyse pour des scegravenes reacuteelles on trouve ici un eacutecart-type de 25deg

Figure 44 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun bruit blanc

tournant autour du micro enregistreacute en chambre sourde Cette analyse a eacuteteacute reacutealiseacutee par sous-bandes mais sur une eacutetendue freacutequentielle

plus reacuteduite puisqursquoon srsquoest limiteacute aux possibiliteacutes offertes par le microphone La scegravene a donc eacuteteacute analyseacutee de 200 agrave 10 000 Hz

42 Quelques applications

421 Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre 2 agrave partir de lrsquoordre 1

Une fois les positions des sources connues la porte est ouverte agrave de nombreuses

applications La connaissance de ces positions permet en effet de syntheacutetiser artificiellement des composantes manquantes ou non transmises La premiegravere synthegravese deacuteveloppeacutee est celle des signaux U et V composant la partie horizontale de lrsquoordre 2 agrave partir de lrsquoordre 1 et de paramegravetres issus de lrsquoanalyse pour une source en 2D (des angles dans de cas)

42 Quelques applications 35

Figure 45 - Principe de lrsquoameacutelioration de la preacutecision spatiale

Le principe de la synthegravese est drsquoextraire les sources originales agrave partir de W X Y

et des angles (un angle par trame et par sous-bande) Ceci peut ecirctre reacutealiseacute de maniegravere approcheacutee en deacutecodant lrsquoordre 1 dans les directions des sources Ce deacutecodage revient agrave calculer les signaux qui devraient alimenter des haut-parleurs qui seraient placeacutes agrave ces positions dans le cas drsquoune restitution (voir 122) crsquoest-agrave-dire agrave former des directiviteacutes dans les directions des sources Dans la plupart des cas ce deacutecodage qui fait intervenir une pseudo-inversion de Moore-Penrose (111) est imparfait les sources se retrouvant leacutegegraverement meacutelangeacutees On peut comparer cette seacuteparation agrave celle que ferait un ensemble de microphones agrave directiviteacute hypercardioiumlde coiumlncidents

Figure 46 - Directiviteacutes eacutequivalentes agrave la seacuteparation de 4 sources agrave lrsquoordre 1 Ces sources seacutepareacutees vont ensuite constituer toujours placeacutees aux angles

deacutetermineacutes agrave lrsquoanalyse une scegravene virtuelle qursquoon va encoder agrave lrsquoordre 2 De cet encodage on ne conservera que les signaux manquants dans notre exemple les signaux du 2nd ordre U et V Ainsi la scegravene spatialiseacutee sera au final constitueacutee des signaux W X et Y drsquoorigine (transmis) et des signaux U et V syntheacutetiseacutes

Chapitre 4 Reacutesultats et applications 36

422 Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave partir de W Reconstruire une scegravene sonore spatialiseacutee agrave partir drsquoun unique canal mono est

alors difficile et le reacutesultat nrsquoest appreacuteciable que pour des scegravenes simples Il faut pour cela que les diffeacuterentes sources composant cette scegravene aient des supports spectraux aussi distincts que possible Les diffeacuterentes sous-bandes sont alors placeacutees agrave un certain angle transmis en parallegravele et crsquoest cette scegravene reconstitueacutee qui va ecirctre encodeacutee au 1er ordre de maniegravere agrave recreacuteer les signaux X et Y

Figure 47 - Principe de la restitution de lrsquoordre 1 agrave partir du signal mono W Ce scheacutema rappelle une meacutethode deacuteveloppeacutee dans le cas steacutereacuteo appeleacutee BCC

(Binaural Cue Coding) [Faller and Baumgarte 2002] Le principe est drsquoextraire et coder des informations permettant la reconstruction binaurale drsquoun signal agrave savoir les diffeacuterences interaurales drsquointensiteacute et de temps (Interaural LevelTime Difference ILD et ITD) qui correspondent dans le cas drsquoune restitution sur un casque aux diffeacuterences drsquointensiteacute et de temps inter-canal (Inter-Channel LevelTime Difference ICLD et ICTD) qui sont mesureacutees agrave partir drsquoune analyse en sous-bandes Les auteurs y ont plus reacutecemment associeacute un indice de correacutelation interaurale mesureacute agrave partir de la correacutelation inter-canal (ICC) afin de caracteacuteriser la preacutecision spatiale (la ldquolargeurrdquo drsquoune source)

Figure 48 - Scheacutema de principe de la meacutethode BCC [Faller and Baumgarte 2003]

On observe en pratique des deacutefauts lieacutes agrave la brutaliteacute de la proceacutedure une sous-

bande ne peut ecirctre que placeacutee agrave la position indiqueacutee et ne peut pas rester floue diffuse ou encore ecirctre placeacutee agrave plusieurs endroits Pour y remeacutedier nous avons ajouteacute 2 traitements agrave la synthegravese Tour drsquoabord nous avons appliqueacute un leacuteger lissage soulageant les effets deacutesagreacuteables dus au saut du contenu drsquoune sous-bande drsquoun endroit agrave un autre entre de 2 fenecirctres conseacutecutives Les positions varient alors de faccedilon plus souple au sein drsquoune mecircme sous-bande traduisant une hypothegravese de continuiteacute spatiale (pas de deacuteplacement brusque) La contrepartie est que cette hypothegravese est lieacutee agrave une hypothegravese de continuiteacute spectrale

42 Quelques applications 37

La 2egraveme ameacutelioration concerne le positionnement des sources En incluant dans la transmission un critegravere de pertinence on peut savoir srsquoil est raisonnable de placer une sous-bande agrave un angle preacutecis ou bien si lrsquoanalyse eacutetait flou agrave son sujet auquel cas un positionnement impreacutecis serait preacutefeacuterable Le paramegravetre choisi est une combinaison des critegraveres eacutevoqueacutes en 342 il nous permet de placer la sous-bande de maniegravere plus ou moins prononceacutee

43 Comparaison avec une meacutethode existante Certains auteurs ont deacutejagrave essayeacute drsquoanalyser un contenu ambisonique pour

retrouver les positions des sources Ville Pulkki a ainsi deacutecrit dans [Pulkki and Faller 2006] une meacutethode drsquoanalyse du B-format baseacutee sur lrsquoeacutetude des amplitudes des signaux W X Y et Z

Figure 49 - X et Y dans le cas drsquoune sinusoiumlde placeacutee agrave 15deg (agrave gauche) et 120deg (agrave droite)

Les figures ci-dessus montrent les relations drsquoamplitudes (algeacutebriques) qui relient

X et Y agrave lrsquoangle de la source On voit que lrsquoanalyse de ces amplitudes respectives permet de retrouver la position de la source en effet on a pour une source unique les relations de lrsquoeacutequation (11) rappeleacutee ici

⎪⎪

⎪⎪

=

=

=

=

δ

δθ

δθ

sin2

cossin2

coscos2

SZ

SY

SX

SW

(41)

On peut donc theacuteoriquement retrouver les valeurs de θ et δ par relations

trigonomeacutetriques Ainsi on a

⎪⎪⎩

⎪⎪⎨

=

=

2)sin(

)tan(

WZ

XY

δ

θ (42)

Chapitre 4 Reacutesultats et applications 38

On peut donc trouver les angles θ et δ agrave π pregraves Pour lever lrsquoambiguiumlteacute une eacutetude de signe est neacutecessaire Mais dans le cas de θ le signe de X et de Y agrave δ fixeacute deacutepend aussi bien de θ que S Il faut srsquointeacuteresser aux signes de θcos et θsin crsquoest-agrave-dire

aux signes de WX et

WY Dans la pratique on srsquointeacuteressera aux signes de et

pour se preacutevenir des divisions par zeacuteros

XW sdot YW sdot

XW sdot et YW sdot sont proportionnels agrave toujours positif

2S

Les auteurs deacutecrivent eacutegalement dans leur article un critegravere appeleacute diffuseness qui

peut ecirctre compareacute agrave un critegravere de pertinence inverseacute Ce paramegravetre calculeacute par agrave 1 - R ougrave R est un rapport de normes est tregraves proche du critegravere de norme relative deacutecrit en 342 Il peut donc ecirctre utiliseacute de la mecircme faccedilon et permettre ainsi une pleine comparaison

Cette meacutethode a eacuteteacute impleacutementeacutee pour pouvoir ecirctre compareacutee avec la meacutethode

par ACP Tous les paramegravetres ont scrupuleusement eacuteteacute gardeacutes identiques et plusieurs reacuteglages ont eacuteteacute testeacutes Les courbes ci-dessous preacutesentent les reacutesultats des analyses de la scegravene deacutecrite en 332 avec un pas de 50ms un overlap de 50 un NFFT de 2048 et 40 bandes freacutequentielles Nous avons repreacutesenteacute tous les angles trouveacutes crsquoest-agrave-dire un par bande et par trame pour srsquoaffranchir de la seacutelection des k-moyennes

π

0

minusπ

Figure 410 - Angles trouveacutes par lrsquoalgorithme de [Pulkki and Faller 2006] Le diamegravetre du point correspondant agrave la pertinence

43 Comparaison avec une meacutethode existante 39

π

0

minusπ

Figure 411 - Angles trouveacutes par une ACP pour la mecircme scegravene On remarque que les points excentriques sont moins nombreux et plus rarement trouveacutes comme pertinents

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee

441 Position du problegraveme

Une application directe de ces analyses a eacuteteacute deacuteveloppeacutee pour la confeacuterence audio

spatialiseacutee La confeacuterence audio utilise en effet la spatialisation pour permettre une meilleure seacuteparation par lrsquooreille des diffeacuterents locuteurs Ainsi si plusieurs personnes parlent en mecircme temps il sera tregraves difficile de comprendre chacun individuellement si ces voix sont restitueacutees en mono mais on pourra focaliser lrsquoattention sur chacune drsquoentre elles si elles sont seacutepareacutees spatialement (crsquoest lrsquoeffet cocktail party [Cherry 1953])

Lrsquoobjectif eacutetait de veacuterifier qursquoil eacutetait possible de conserver la spatialisation drsquoune

confeacuterence en nrsquoayant transmis qursquoun downmix mono des signaux Ce concept semble se rapprocher de celui deacutecrit en 422 mais une diffeacuterence fondamentale les seacutepare la confeacuterence audio spatialiseacutee nrsquoest pas codeacutee au format ambisonic mais les signaux traiteacutes sont directement les sons provenant des diffeacuterents locuteurs crsquoest-agrave-dire les sources elles-mecircmes Ainsi lrsquoanalyse ne porte plus sur une scegravene spatialiseacutee mais sur des signaux seacutepareacutes Il nrsquoy a ainsi plus drsquoindices spatiaux agrave trouver

Avoir accegraves aux sources permet drsquoobtenir des informations plus preacutecises pour

permettre une seacuteparation apregraves la transmission Comme nous lrsquoavons vu lrsquoanalyse drsquoune scegravene spatialiseacutee ne permet que dans drsquoultimes cas agrave la seacuteparation des sources ce qui est ici notre point de deacutepart et sera en fait notre point drsquoarriveacutee En effet nous tenterons de retrouver les sources seacutepareacutees apregraves la transmission de maniegravere agrave pouvoir par la suite les spatialiser agrave loisir (voir Figure 413)

Chapitre 4 Reacutesultats et applications 40

442 Solution proposeacutee Les paramegravetres extraits ne sont donc plus des positions de sources Nous avons

choisi de mesurer puis transmettre lrsquoeacutenergie de chaque signal dans chaque sous-bande en parallegravele du downmix En effet une bonne seacuteparation sera possible si lrsquoon sait quelle proportion de chaque source compose chaque sous-bande du signal mono

Figure 412 - Scheacutema de principe drsquoune confeacuterence audio spatialiseacutee

Figure 413 - Scheacutema ameacutelioreacute (deacutebit reacuteduit)

en pointilleacutes informations compleacutementaires (eacutenergie) Lrsquoanalyse en sous-bandes a lieu dans le serveur (Figure 414) Celui-ci calcule

lrsquoeacutenergie de chaque signal dans chaque sous-bande sur une trame donneacutee Crsquoest ce paramegravetre qui associeacute au signal mono M permettra la seacuteparation des sources dans le terminal (Figure 415) Ce dernier reacutepartira en effet les diffeacuterentes sous-bandes vers chaque signal reconstitueacute proportionnellement agrave cette information pour reconstruire les 4 sources originales

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee 41

Figure 414 - Analyse principe de lrsquoencodage dans le serveur

Figure 415 - Synthegravese principe du deacutecodage dans le client

Afin de reacuteduire au maximum les informations compleacutementaires agrave transmettre on

peut remarquer qursquoau cours drsquoune confeacuterence audio on a tregraves souvent un seul locuteur les participants ne parlent que tregraves rarement tous en mecircme temps Ceci implique que les signaux en entreacutee sont tregraves souvent tous nuls sauf 1 et appliquer un seuil en entreacutee de lrsquoanalyse permet outre lrsquoallegravegement du traitement drsquoavoir moins de paramegravetres agrave transmettre

Ce scheacutema simplifieacute ne tient pas compte des problegravemes de phase rien nrsquoindique

que les eacutenergies des signaux srsquoajoutent bien dans chaque sous-bande lors du downmix on peut tregraves bien avoir des oppositions de phase La solution est drsquoeffectuer le downmix (la somme) des signaux dans chaque sous-bande en prenant soin drsquoavoir recaleacute les phases au preacutealable Ceci nrsquoa un sens que pour des bandes suffisamment eacutetroites Les deacutecalages temporels appliqueacutes pour le recalage sont alors des paramegravetres suppleacutementaires agrave transmettre et sont pris en compte lors de la synthegravese au niveau du reacutepartiteur qui repositionnera la phase de chaque trame pour chaque signal

Chapitre 4 Reacutesultats et applications 42

443 Bilan Le reacutesultat du deacutecodage a pu ecirctre eacutecouteacute de diffeacuterentes maniegraveres les sources

reconstitueacutees individuellement ensemble en steacutereacuteo drsquoamplitude et sur un systegraveme 51 On note que les sources ont eacuteteacute assez bien seacutepareacutees mais que des artefacts sont audibles en particulier lorsque le nombre de locuteurs simultaneacutes augmentent Ces artefacts sont un meacutelange des voix qui nrsquoest gecircnant que lorsqursquoon les eacutecoute de maniegravere seacutepareacutee En effet lrsquoeacutecoute simultaneacutee de ces signaux syntheacutetiseacutes mecircme placeacutes agrave des positions distinctes sur un systegraveme de diffusion multicanal est tout agrave fait satisfaisante

Ce proceacutedeacute pour pouvoir ecirctre appliqueacute doit fonctionner en temps-reacuteel Cette

contrainte nrsquoa pas du tout eacuteteacute prise en compte lrsquoobjectif eacutetant de valider la faisabiliteacute drsquoune reconstruction Les programmes sous Matlab nrsquoont pas eacuteteacute optimiseacutes et ne respectent pas cette contrainte

43

Conclusion Nous avons preacutesenteacute dans ce rapport le principe et lrsquoapplication de plusieurs

meacutethodes drsquoanalyses spatiales de scegravenes ambisoniques conccedilues et reacutealiseacutee pendant le stage Le format HOA est en effet une repreacutesentation du champ acoustique deacutecomposeacute sur une base drsquoharmoniques spheacuteriques jusqursquoagrave un certain ordre agrave la maniegravere drsquoun deacuteveloppement limiteacute Il contient donc de maniegravere indirecte des indications spatiales qursquoon peut extraire avec des analyses comme lrsquoanalyse en composantes principales

Ces analyses nous permettent de deacuteterminer les positions des sources qui

composent la scegravene sonore Nous avons appliqueacute les reacutesultats de ces analyses agrave 2 types de synthegravese lrsquoune destineacutee aux transmissions bas deacutebit lrsquoautre agrave un traitement de restitution de la preacutecision spatiale dans le cas ougrave des ordres supeacuterieurs dont le but est drsquoaffiner la perception de localisation nrsquoauraient pas pu ecirctre transmis Ces algorithmes par le codage drsquoinformations spatiales qursquoils permettent pourront trouver bien drsquoautres applications dans la transmission et le codage ougrave la description du contenu est de plus en plus utiliseacutee (comme par exemple dans la norme MPEG)

Des ameacuteliorations sont possibles sur plusieurs points tout drsquoabord lrsquoexploitation

de toutes les composantes de lrsquoACP est agrave lrsquoeacutetude et semble pouvoir donner des reacutesultats inteacuteressants Drsquoautre part on a vu que le reacutesultat final est tregraves deacutependant de la bonne convergence de lrsquoalgorithme des k-moyennes utiliseacute pour traiter les donneacutees brutes de lrsquoanalyse en sous-bandes Or cet algorithme neacutecessite des reacuteglages tregraves fins et une connaissance a priori du nombre de sources est presque indispensable Drsquoautres algorithmes plus complexes de suivi de formes pourraient ecirctre avantageusement utiliseacutes pour deacutetecter dans tous les angles trouveacutes lesquels sont susceptibles de former une trajectoire

45

Annexe A

Deacuteveloppement du champ acoustique en harmoniques spheacuteriques

A1 Eacutequation drsquoonde en coordonneacutees spheacuteriques On se place dans lrsquoespace euclidien agrave 3 dimensions muni drsquoun systegraveme de

coordonneacutees spheacuteriques Un point M y est repeacutereacute par son rayon r son azimut θ et son eacuteleacutevation δ tels que repreacutesenteacutes sur la figure ci-dessous

- r est la norme du vecteur position rr crsquoest-agrave-dire la distance OM - [20[ πθ isin est lrsquoangle formeacute par le projeteacute du point sur le plan xOy et lrsquoaxe Ox

- ]2

2

[ ππδ minusisin est lrsquoangle formeacute par le plan xOy et le vecteur position2

Figure A1 - Systegraveme de coordonneacutees spheacuteriques

2 Cet angle diffegravere de lrsquoangle polaire usuel δπϕ minus=

2 habituellement pris entre lrsquoaxe Oz et le

vecteur position

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 46

Les relations entre les coordonneacutees spheacuteriques et les coordonneacutees carteacutesiennes sont

⎪⎩

⎪⎨

===

δδθδθ

sincossincoscos

zryrx

(A1)

On srsquointeacuteresse dans ce repegravere agrave lrsquoeacutequation de propagation des ondes acoustiques

de pression On se place dans les conditions classiques drsquoacoustique lineacuteaire (les variations de p sont petites par rapport agrave la pression atmospheacuterique) en supposant que lrsquoair est un fluide parfait (on y neacutegligera les pheacutenomegravenes dissipatifs) Dans une reacutegion de lrsquoespace ne comprenant pas de sources lrsquoeacutequation drsquoonde srsquoeacutecrit alors

0)(12

2

2 =⎟⎟⎠

⎞⎜⎜⎝

⎛partpart

minus∆ trptc

r (A2)

p eacutetant la pression et c la vitesse de propagation du son dans lrsquoair

Cette eacutequation devient dans le domaine freacutequentiel lrsquoeacutequation de Helmholtz

( ) 0)(2 =+∆ ωrpk r (A3)

ck ω

= eacutetant le nombre drsquoonde

En coordonneacutees spheacuteriques cette eacutequation srsquoeacutecrit

0sin1sin

sin11 2

2

2

222

2 =⎥⎦

⎤⎢⎣

⎡+

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart pk

rrrr

rr δθθθ

θθ (A4)

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques Drsquoapregraves [Bruneau 1983] elle admet des solutions agrave variables seacutepareacutees de la forme

)()()( δθ ΦΘ= rRp (A5) Ces solutions sont respectivement - pour la partie radiale une combinaison des fonctions de Bessel spheacuteriques de

premiegravere et seconde espegravece3 jn et nn

)()()( krBnkrAjrR nn += (A6) 3 Les fonctions de Bessel spheacuteriques de seconde espegravece sont eacutegalement appeleacutees fonctions de

Neumann

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 47

Ces fonctions sont deacutefinies comme suit

(A7)

Figure A2 - Fonctions de Bessel spheacuteriques pour les ordres 0 agrave 5 )(krjm

- pour la partie azimutale les fonctions )(θΘ

)sin()cos()( 21 θθθ ncnc +=Θ (A8) Eacutetant donneacute la deacutefinition de lrsquoangle Θ celui-ci doit neacutecessairement ecirctre de

peacuteriode 2π ))2()(( πθθ +Θ=Θ ce qui impose agrave n drsquoecirctre entier

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 48

- pour la partie polaire les fonctions de Legendre associeacutees )(sinδmnP

nm

nn

mn dPdP

)(sin)(sinsin)(sin

δδ

δδ = pour ⎩⎨⎧

gt=

nmavecnm 321

(A9)

ougrave les )(sinδnP sont les polynocircmes de Legendre de degreacute n en δsin deacutefinis par reacutecurrence

( )

11

22

1

0

sin)12()(sin)1(

1cos321)(sin

sin)(sin0)(sin

minus+ minus+=+

minus=

==

mmm mPPmPmet

P

PP

δδ

ϕδ

δδδ

(A10)

et de formule geacuteneacuterale

mm

m

mm dd

mP )1(sin

)(sin21)(sin 2 minus= δ

δδ (A11)

On peut appliquer aux fonctions )(sinδmnP la semi-normalisation de Schmidt

)(sin)()()(sin~ δεδ mnnmn P

nmnmP

+minus

= ougrave 10 =ε et 2=nε pour 1gen (A12)

En appariant les fonctions polaires et azimutales on deacutefinit les harmoniques

spheacuteriques de degreacute et drsquoordre)1(mnY 0gem 4 mnn lele0 et de degreacute et

drsquoordre (voir Figure A3)

)1(minusmnY 1gem

mnn lele1

)(sin~)sin()(

)(sin~)cos()()1(

)1(

δθδθ

δθδθ

mnmn

mnmn

PnY

PnY

=

=minus

(A13)

4 En geacuteneacuteral lorsque le degreacute et lrsquoordre ne sont pas eacutevoqueacutes conjointement on parle par abus de langage drsquoharmoniques drsquoordre m plutocirct que de degreacute m

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 49

soit

1)(sin

)()()12(2sin)(

)(sin)()()12(2cos)(

1)(sin)1()1()12(cos)(

)1(

)1(

1)1(

1

gt

⎪⎪⎩

⎪⎪⎨

+minus

+=

+minus

+=

=+minus

+=

minus

npourP

nmnmmnY

PnmnmmnY

npourPmmmY

mnmn

mnmn

mm

δθδθ

δθδθ

δθδθ

(A14)

La solution angulaire geacuteneacuterale srsquoeacutecrit alors sous la forme drsquoun deacuteveloppement sur

la base drsquoharmoniques spheacuteriques

( ) ( )sum minus

=minus+=Θ

1

1)1()1()( n

m mnmnmnmnn YBYBθ (A15) La solution geacuteneacuterale est alors la seacuterie de Fourier-Bessel

sum sum sum+infin

= = plusmn=

=0 0 1

)()( )()()(m

m

nmnmnm

m YBkrjikrpσ

σσ δθδθ (A16)

ougrave

intint⎪⎩

⎪⎨⎧

minusisin

isin

plusmnplusmn =

]2

2

[

[20[

)1()1( )()1()(

1

ππδ

πθ

δθδθ

S

mnm

mmn dSYpkrji

B (A17)

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 50

Tableau A1 - Expressions analytiques des harmoniques spheacuteriques pour les ordres 0 agrave 3

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 51

Figure A3 - Repreacutesentation des harmoniques spheacuteriques pour les ordres m = 0 agrave 3 Les

couleurs rouge et bleu indiquent respectivement des valeurs positives et neacutegatives

53

Annexe B

Compleacutements theacuteoriques sur le deacutecodage HOA

B1 Vecteur veacutelociteacute et vecteur eacutenergie Le vecteur veacutelociteacute est un indice de la direction apparente drsquoune source introduit

par Gerzon [Gerzon 1992] Il se calcule comme le rapport de la vitesse particulaire sur la pression acoustique

)()(

)()(1

δθδθ

δθδθ

ρ rprp

ki

rprv

cV nabla

minus=minus=rrr

(B1)

Dans le cas drsquoune onde plane le vecteur veacutelociteacute V

rest ainsi directement un

vecteur unitaire orienteacute vers la direction de provenance de lrsquoonde En geacuteneacuteralisant agrave une superposition drsquoondes planes en phase ou opposition de phase eacutemises par L haut-parleurs agrave eacutequidistance du point drsquoobservation on obtient la formule suivante

VVL

ll

L

lll

urg

ugV r

rr

==

sum

sum

=

=

1

1 (B2)

ougrave deacutesigne la direction du llur egraveme haut-parleur auquel est associeacute le gain gl et Vr Vur correspondent respectivement agrave la norme et agrave la direction du vecteur veacutelociteacute

Le vecteur eacutenergie est un autre indice de direction Il est deacutefinit par

EEL

ll

L

lll

urg

ugE r

rr

==

sum

sum

=

=

1

2

1

2

(B3)

Annexe B Compleacutements theacuteoriques sur le deacutecodage HOA 54

Il peut srsquointerpreacuteter comme une indication de la concentration de lrsquoeacutenergie ( ) et de sa direction moyenne de provenance (

Er

Eur ) On a toujours 1ltEr sauf dans le cas ougrave un seul haut-parleur contribue agrave la reconstruction (dans ce cas ) peut ecirctre consideacutereacute comme un indicateur de preacutecision de la localisation

1=Er Er

B2 Deacutecodages optimiseacutes La restitution la plus confortable drsquoun champ sonore veillera donc agrave maximiser

tout en essayant de garder le plus proche possible de 1 Lrsquooptimisation du deacutecodage consiste alors agrave multiplier chaque coefficient de la matrice de deacutecodage D (voir (111) par des gains calculeacutes drsquoapregraves des critegraveres drsquooptimisation

Er Vr

Ainsi le deacutecodage appeleacute max- maximise la norme du vecteur eacutenergie en

sacrifiant celle du vecteur veacutelociteacute puisqursquoon a dans ce deacutecodage (pour des configurations reacuteguliegraveres de haut-parleurs) Ce deacutecodage est donc avantageux par rapport au deacutecodage basique pour les hautes freacutequences ou dans le cas drsquoun auditoire eacutelargi Le deacutecodage in-phase va encore plus loin en cherchant agrave annuler complegravetement les contributions des haut-parleurs placeacutes agrave lrsquoopposeacute de la direction de provenance de lrsquoonde reproduite Ce critegravere est utile dans le cas drsquoune eacutecoute dans une position tregraves excentreacutee agrave laquelle on pourrait percevoir de faccedilon preacutedominante la contribution en opposition de phase drsquoun tel haut-parleur

Er

EV rr =

Ces diffeacuterents deacutecodages ont chacun des avantages et inconveacutenients Ainsi seul le

deacutecodage basique garantit = 1 le deacutecodage max- permet une preacutecision meilleure notamment en haute freacutequence et le deacutecodage in-phase est plus adapteacute agrave un auditoire plus large Jeacuterocircme Daniel [Daniel 2000] propose ainsi de changer le deacutecodage en fonction de la freacutequence et de lrsquoeacutetendue de la zone drsquoeacutecoute deacutesireacutee

Vr Er

Figure B1 - Deacutecodages les plus approprieacutes par sous-bande et en fonction de lrsquoeacutetendue de la

zone drsquoeacutecoute [Daniel 2000]

55

Annexe C

Analyse en composantes principales

C1 Espace des donneacutees Eacutegalement souvent appeleacutee transformeacutee de Karhunen-Loegraveve5 (TKL) lrsquoanalyse en

composantes principales (ACP) est une technique statistique de repreacutesentation drsquoinformation Introduite sur 2 variables par Pearson [Pearson 1900] elle a eacuteteacute eacutetendue par Hotelling [Hotelling 1933] Elle a pour but de caracteacuteriser des donneacutees drsquoun espace agrave N dimensions dans un sous-espace plus petit en minimisant les pertes drsquoinformation due agrave la projection crsquoest-agrave-dire en maximisant la variance projeteacutee Les donneacutees ainsi reacuteorganiseacutees deviennent indeacutependantes Les variables correacuteleacutees sont remplaceacutees par de nouvelles variables deacutecorreacuteleacutees et de variance maximale combinaisons lineacuteaires des variables initiales

Les donneacutees sont constitueacutees de n variables aleacuteatoires (dans notre cas des canaux)

et p reacutealisations ou individus (des eacutechantillons)

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

pn

p

ji

n

xx

x

xx

M

LLL

MOMNM

MLLM

MNMOM

LLL

1

111

(C1)

Ces donneacutees sont geacuteneacuteralement centreacutees et peuvent aussi ecirctre reacuteduites4 (on note

1x la moyenne de la variable et 1x )( 1xσ sa variance) Reacuteduire ou non le nuage de points (ie les p reacutealisations de la variable aleacuteatoire) est un choix de modegravele

5 Quelques rares sources mentionnent une diffeacuterence entre ACP et TKL en placcedilant celle-ci au

niveau du choix de la reacuteduction des donneacutees dans le cas dune ACP les donneacutees seraient centreacutees et reacuteduites alors qursquoelles seraient uniquement centreacutees pour une TKL

Annexe C Analyse en composantes principales 56

- si on ne reacuteduit pas le nuage une variable agrave forte variance pourrait tirer tout lrsquoeffet de lrsquoACP agrave elle

- si on reacuteduit le nuage une variable qui ne serait qursquoun bruit se retrouverait avec une variance apparente eacutegale agrave une variable informative

M est centreacutee

⎥⎥⎥

⎢⎢⎢

minusminusminus

minusminus=

npn

pi

ji

nn

xxxxxx

xxxxM

K

MM

K

11

11

11

ˆ (C2)

M~ est centreacutee et reacuteduite

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

minusminus

minus

minusminus

=

)()(

)(

)()(~

1

11

1

1

111

n

npn

pi

ij

i

n

nn

xxx

xxx

xxx

xxx

xxx

M

σσ

σ

σσ

K

MM

K

(C3)

On multiplie ensuite la matrice obtenue par sa transposeacutee pour obtenir - La matrice de covariance MMC t

vˆˆ sdot=

- La matrice de correacutelation MMC tr

~~ sdot= Ces matrices sont carreacutees (N x N) symeacutetriques et reacuteelles Elles sont donc

diagonalisables dans une base orthonormeacutee 6 Le principe de lrsquoACP est alors de trouver un axe u issu drsquoune combinaison lineacuteaire

des tel que le critegravere drsquoinertie du nuage autour de cet axe soit maximal Le critegravere drsquoinertie couramment utiliseacute est la variance Il faut donc trouver lrsquoaxe qui porte le maximum de variance crsquoest-agrave-dire lrsquoaxe u tel que la projection du nuage sur cet axe ait une variance maximale

nx

6 Nos donneacutees eacutetant ici des valeurs drsquoeacutechantillons elles sont par nature centreacutees et reacuteduites On

formera donc naturellement la matrice de correacutelation

C2 Diagonalisation 57

C2 Diagonalisation Pour alleacuteger lrsquoeacutecriture de la suite de cette partie nous consideacutererons que les

variables ont eacuteteacute centreacutees et si besoin reacuteduites et nous noterons ces variables

transformeacutees (ainsi

ix ix

iii xxx minuslarr ou bien )( i

iii x

xxxσ

minuslarr ) On fera de mecircme pour M

( ou bien MM ˆlarr MM ~larr ) et C ( vCC larr ou bien rCC larr ) La projection drsquoun eacutechantillon sur un axe u srsquoeacutecrit ix

uMxiu sdot=)(π (C4) La variance empirique de )( iu xπ vaut donc

uMMuxx ttiu

tiu sdotsdotsdot=sdot )()( ππ (C5)

Or on a vu que est diagonalisable dans une base orthonormeacutee donc

on peut noter P le changement de base associeacute et ∆ la matrice diagonale formeacutee de son spectre Ainsi

MMC t=

n

i 1)(λ PPMMC tt ∆==

)()()()( PuPuuPPuxx ttt

iut

iu sdot∆sdot=sdot∆sdot=sdotππ (C6) On pose v = Pu Chercher lrsquoaxe u qui maximise )( iu xπ revient donc agrave chercher le

vecteur v qui maximise ougravevvt ∆ )( 1 ndiag λλ K=∆ avec les iλ rangeacutes par ordre deacutecroissant Ce vecteur est trivialement le premier vecteur unitaire et on a alors

1λ=∆vvt

Ainsi le vecteur qui porte la plus grande part drsquoinertie du nuage est le premier

vecteur propre de C (premier par norme deacutecroissante) De mecircme le deuxiegraveme vecteur qui explique la plus grandelt part de lrsquoinertie restante est le deuxiegraveme vecteur propre de C Finalement la question de lrsquoACP se ramegravene agrave un problegraveme de diagonalisation de la matrice de correacutelation

C3 Code Matlab

function [vep vap] = pca(f N) f donneacutees N nombre de composantes agrave garder cor = f f formation de la matrice de correacutelation [vep vap] = eig(cor) calcul des vecteurs (vep) et valeurs (vap) propres [vap ind] = sort(diag(vap)) tri des valeurs propres par ordre croissant vap = flipud(vap) disposition inverse par ordre drsquoimportance vep = vep( flipud(ind)) classement en conseacutequence des vecteurs propres vep = vep( 1N) on ne garde que les N premiers vecteurs propres

Annexe C Analyse en composantes principales 58

59

Annexe D

Analyse en sous-bandes

D1 La transformeacutee de Fourier agrave court terme (TFCT) Pour affiner lrsquoanalyse les signaux sont donc deacutecoupeacutes en bandes de freacutequence par

TFCT La TFCT consiste agrave effectuer des transformeacutees de Fourier discregravetes sur des portions de signal fenecirctreacutees reacuteguliegraverement espaceacutees

On rappelle que la transformeacutee de Fourier drsquoun signal x(t) est deacutefinie (lorsque

lrsquointeacutegrale existe) par

int+infin

infinminus

minus= dtetxfX ftiπ2)()( (D1)

La transformeacutee de Fourier agrave temps discret (TFTD) drsquoun signal x(t) srsquoeacutecrit

sum+infin

minusinfin=

minus=n

fnienxfX π2)()( (D2)

La transformeacutee de Fourier discregravete (TFD) drsquoun signal discret x(k) est deacutefinie par

sum+infin

minusinfin=

minus=

n

Nkni

enxkXπ2

)()( (D3)

La TFCT discregravete est une TFD observeacutee sur une fenecirctre wa de taille N

summinus

=

minus+=

1

0

2)())(()(

N

n

Nnki

aaa enwtnxkXπ

ττ (D4)

ougrave )(taτ est lrsquoinstant drsquoanalyse

Annexe D Analyse en sous-bandes 60

Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT [Laroche 1995]

D2 Synthegravese par addition-recouvrement Lors de la synthegravese apregraves le deacutecoupage et lrsquoanalyse des fenecirctres on cherche agrave

reconstruire le signal temporel agrave partir de sa repreacutesentation freacutequentielle Pour cela on utilise la meacutethode OLA (overlap and add addition-recouvrement) qui consiste agrave prendre la TFCT inverse des spectres Xt puis agrave additionner les signaux obtenus apregraves les avoir multiplieacutes par une fenecirctre de pondeacuteration en les faisant se recouvrir partiellement

Le reacutesultat est donneacute par

sum=

minusminus=T

tsss tnxtnwnx

s1

))((~))(()(~ ττ τ (D5)

avec )()( tt as ττ = et summinus

=

=1

0

2))((~1)(~ N

k

Nkni

s ektXN

nxs

π

τ τ

Lors de la mise en œuvre de ce traitement il faut srsquoassurer drsquoecirctre en mesure de

reconstruire parfaitement un signal lorsqursquoaucune transformation ne lui est appliqueacutee Le critegravere de reconstruction parfaite condition suffisante est alors

sum=

=minusminusT

tasaa tnwtnw

11))(())(( ττ quelque soit n (D6)

D2 Synthegravese par addition-recouvrement 61

Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add [Laroche 1995]

Plusieurs paramegravetres sont agrave choisir avec soin Le premier drsquoentre eux est le type

de fenecirctre agrave utiliser Les diffeacuterentes options qui se preacutesentent agrave nous sont - la fenecirctre rectangulaire qui preacutesente dans son spectre le lobe principal le plus

eacutetroit mais des lobes secondaires non neacutegligeables - la fenecirctre de Hamming au lobe principal un peu plus large mais pour laquelle le

1er lobe secondaire se situe agrave -43 dB - la fenecirctre de Hann (ou cosinus sureacuteleveacute) qui ressemble agrave la preacuteceacutedente avec un

1er lobe secondaire plus fort mais une pente de 18 dB par octave pour les lobes suivants

- les fenecirctres de Blackman-Harris aux lobes secondaires tregraves bas mais au lobe principal plus large

Fenecirctre Lobe 2aire

(dB) Pente

(dBoct) Bande passante

agrave 6 dB (bins) Rectangulaire -13 -6 121 Triangulaire -27 -12 178

Hann -32 -18 200 Hamming -43 -6 181

Blackman-Harris 4 -92 -6 272

Tableau D1 - Caracteacuteristiques des principales fenecirctres drsquoanalyse [Harris 1978] Le meilleur compromis est donc dans notre contexte la fenecirctre de Hann ou celle

de Hamming

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 2: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

iii

Remerciements Je tiens agrave remercier chaleureusement toute lrsquoeacutequipe son 3D de France Teacuteleacutecom

RampD en particulier mes 2 co-encadrants David et Jeacuterocircme pour leur accueil leur disponibiliteacute et leur gentillesse et pour les geacuteneacutereuses et passionnantes explications Merci eacutegalement agrave Manu drsquoen face Greg et Alex pour leur confiance et Rozenn parce qursquoelle le vaut bien

Merci agrave Stouf et Micheline super doctoranges et collegravegues de bureau fabuleux

pour tous les bons moments en particulier les instants Bobbyhellip Merci agrave tous les theacutesards et stagiaires du labo pour leur accueil en particulier Jean-Claude lrsquoex-strapontiste

Merci enfin agrave tous ceux qui mrsquoont proposeacute de deacutecouvrir leurs terribles seacuteances de

tests drsquoeacutecoute les musiques du corpus de tests MPEG et les bruits blancs de Steph trottent encore dans ma tecirctehellip

v

Table des matiegraveres Preacutesentation de France Teacuteleacutecom RampD1 Introduction2 Chapitre 1 Ambisonics3

11 Principe 3 111 Du B-format agrave HOA3 112 Repreacutesentation de scegravene sonore avec HOA 5

12 Encodage et deacutecodage spatial 7 121 Encodage spatial 7 122 Deacutecodage spatial 8

13 Critique de la technologie HOA 11 131 Bilan 11 132 Limites pratiques11

Chapitre 2 Analyser un contenu HOA 13 21 Objectifs 13

211 Restitution de la spatialisation agrave partir drsquoun downmix mono13 212 Ameacutelioration de la preacutecision spatiale 13

22 Principe de lrsquoextraction drsquoinformation spatiale avec une ACP 14 221 Information spatiale 14 222 Application de lrsquoanalyse en composantes principales 15

23 Meacutethodologie 16 231 Construction de scegravenes artificielles 16 232 Exploitation drsquoenregistrements naturels 18 233 Visualisations des reacutesultats 18 234 Diffeacuterents modes drsquoeacutecoute 19

Chapitre 3 Description des analyses 21 31 Deacutetermination des directions principales 21

311 Base des algorithmes 21 312 Traitement du champ reacutesiduel 22

32 Extension agrave la 3D23 33 Analyse aux ordres supeacuterieurs 23

331 Description 23 332 Illustration sur une scegravene virtuelle24

34 Traitement des donneacutees 26 341 Algorithme des k-moyennes26 342 Critegraveres de pertinence 27

vi

343 Lissages29 35 Exploitation de toutes les composantes de lrsquoACP29

Chapitre 4 Reacutesultats et applications 31 41 Illustration et critique des reacutesultats obtenus31

411 Avant-propos 31 412 Scegravene 2D artificielle agrave 4 sources fixes 31 413 Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile32 414 Scegravene 3D artificielle agrave 1 source et bruit de fond 33 415 Scegravene 2D naturelle agrave 1 source 34

42 Quelques applications34 421 Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre 2 agrave partir

de lrsquoordre 1 34 422 Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave partir

de W 36 43 Comparaison avec une meacutethode existante 37 44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee

39441 Position du problegraveme39 442 Solution proposeacutee40 443 Bilan 42

Conclusion43 Annexe A Deacuteveloppement du champ acoustique en harmoniques

spheacuteriques 45 A1 Eacutequation drsquoonde en coordonneacutees spheacuteriques 45 A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 46

Annexe B Compleacutements theacuteoriques sur le deacutecodage HOA 53 B1 Vecteur veacutelociteacute et vecteur eacutenergie 53 B2 Deacutecodages optimiseacutes 54

Annexe C Analyse en composantes principales55 C1 Espace des donneacutees 55 C2 Diagonalisation 57 C3 Code Matlab 57

Annexe D Analyse en sous-bandes 59 D1 La transformeacutee de Fourier agrave court terme (TFCT)59 D2 Synthegravese par addition-recouvrement60

Bibliographie 63

vii

Table des figures Figure 11 - Scheacutema global du principe de la technologie HOA 4 Figure 12 - Prototype de microphone HOA drsquoordre 45 Figure 13 - Erreur de reconstruction drsquoune onde plane en fonction de lrsquoordre M

et du produit kr6 Figure 14 - Repreacutesentation dans le plan horizontal dans une zone de diamegravetre 1m

de la reconstruction drsquoune onde plane pour plusieurs ordres et freacutequences 6 Figure 15 - Encodage horizontal 8 Figure 16 - Prise de son virtuelle eacutequivalente agrave un encodage au 1er ordre et un

deacutecodage basique sur une disposition en 2D hexagonale 10 Figure 17 - Directiviteacutes theacuteoriques et reconstruites dans le plan horizontal12 Figure 21 - Y en fonction de X dans le cas drsquoun bruit blanc enregistreacute 15 Figure 22 - Y en fonction de X dans le cas drsquoun son placeacute artificiellement 15 Figure 23 - Signes de W X et W Y en fonction du cadran16 Figure 24 - Interface graphique du logiciel Bidule 17 Figure 25 - Repreacutesentation de tables des couleurs19 Figure 26 - Repreacutesentation de la pertinence 19 Figure 31 - Scheacutema geacuteneacuteral drsquoanalyse 21 Figure 32 - Filtres utiliseacutes inspireacutes des filtres ERB 22 Figure 33 - Position des sources de la scegravene de test agrave 4 sources dont 1 mobile24 Figure 34 - Angles drsquoune scegravene virtuelle ayant 1 source mobile et 3 sources fixes

25 Figure 35 - Angles de la mecircme scegravene trouveacutes agrave partir drsquoune ACP sur les ordres 0

et 2 25 Figure 36 - Angles drsquoune scegravene reacuteelle constitueacutee drsquoun bruit parcourant le cercle

trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 0 et 2 et 0 et 426 Figure 37 - Repreacutesentation temps-freacutequence des angles28 Figure 38 - Eacutenergie de ce mecircme son 28 Figure 39 - Norme relative de la 1egravere composante28 Figure 310 - Pondeacuteration appliqueacutee agrave lrsquoentreacutee des k-moyennes 29 Figure 311 - Directiviteacutes seacuteparant ideacutealement 4 sources placeacutees agrave 17 73 195 et -

58deg 30 Figure 41 - Angles theacuteoriques et calculeacutes pour une scegravene constitueacutee de 4 sons

fixes 32 Figure 42 - Angles theacuteoriques et calculeacutes de la scegravene agrave 4 sources dont 1 mobile32

viii

Figure 43 - Azimut et eacuteleacutevation theacuteoriques et calculeacutes drsquoun son en 3D artificiel placeacute dans une ambiance bruyante 33

Figure 44 - Angles theacuteoriques et calculeacutes drsquoun bruit blanc tournant autour du micro enregistreacute en chambre sourde 34

Figure 45 - Principe de lrsquoameacutelioration de la preacutecision spatiale 35 Figure 46 - Directiviteacutes eacutequivalentes agrave la seacuteparation de 4 sources agrave lrsquoordre 135 Figure 47 - Principe de la restitution de lrsquoordre 1 agrave partir du signal mono W 36 Figure 48 - Scheacutema de principe de la meacutethode BCC36 Figure 49 - X et Y dans le cas drsquoune sinusoiumlde placeacutee agrave 15deg et 120deg37 Figure 410 - Angles trouveacutes par lrsquoalgorithme de [Pulkki and Faller 2006] 38 Figure 411 - Angles trouveacutes par une ACP pour la mecircme scegravene 39 Figure 412 - Scheacutema de principe drsquoune confeacuterence audio spatialiseacutee 40 Figure 413 - Scheacutema ameacutelioreacute (deacutebit reacuteduit)40 Figure 414 - Analyse principe de lrsquoencodage dans le serveur 41 Figure 415 - Synthegravese principe du deacutecodage dans le client 41 Figure A1 - Systegraveme de coordonneacutees spheacuteriques 45 Figure A2 - Fonctions de Bessel spheacuteriques )(krjm pour les ordres 0 agrave 5 47 Figure A3 - Repreacutesentation des harmoniques spheacuteriques pour les ordres m = 0 agrave

3 51 Figure B1 - Deacutecodages les plus approprieacutes par sous-bande et en fonction de

lrsquoeacutetendue de la zone drsquoeacutecoute54 Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT60 Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add61

1

Preacutesentation de France Teacuteleacutecom RampD Le groupe France Teacuteleacutecom est lrsquoun des principaux opeacuterateurs de

teacuteleacutecommunications au monde Creacuteeacutee en 1988 apregraves le scindement des PTT (Poste Teacuteleacutegraphe Teacuteleacutephone) en deux groupes France Teacuteleacutecom a longtemps beacuteneacuteficieacute du statut drsquoopeacuterateur historique Depuis 1997 France Teacuteleacutecom fonctionne en tant que socieacuteteacute anonyme

Le CNET Centre National drsquoEacutetude en Teacuteleacutecommunication a eacuteteacute creacuteeacute en 1944

dans le but de reacutetablir un reacuteseau de teacuteleacutecommunication en France En mars 2000 le CNET change de nom et devient France Teacuteleacutecom Recherche amp Deacuteveloppement

Le site France Teacuteleacutecom Division RampD agrave Lannion a eacuteteacute inaugureacute le 28 octobre

1963 Lrsquoeacutequipe son 3D y megravene des recherches sur la prise et la restitution du son la spatialisation sonore ainsi que sur les environnements acoustiques virtuels Elle participe eacutegalement activement agrave la normalisation MPEG-4

De nombreux travaux sont consacreacutes aux technologies de spatialisation binaurale

transaurale (avec la technique du steacutereacuteo-dipocircle) et ambisonique De nombreux brevets et publications deacutecoulent de ces recherches qui trouvent deacutejagrave des applications dans la confeacuterence audio spatialiseacutee et ouvrent des perspectives bien plus vastes

2

Introduction La reproduction sonore semble aujourdrsquohui ecirctre parfaitement maicirctriseacutee Mais

lrsquoest-elle vraiment Rien nrsquoest moins sucircr Reproduire un son signifie ldquoreproduire toutes ses proprieacuteteacutes telles qursquoelles existent dans une situation drsquoeacutecoute reacuteellerdquo (tel que rappeleacute dans [Nicol 1999]) Or le son est un pheacutenomegravene agrave quatre dimensions il eacutevolue dans le temps et dans les 3 dimensions de lrsquoespace Si le problegraveme de la reproduction temporelle peut ecirctre consideacutereacute comme reacutesolu la restitution spatiale est elle toujours agrave lrsquoeacutetude

La restitution drsquoune scegravene sonore (crsquoest-agrave-dire drsquoun ensemble drsquoeacuteveacutenements

sonores placeacutes agrave des positions et des instants preacutecis) passe par la reproduction du champ acoustique dans une zone donneacutee zone au moins assez grande pour qursquoon puisse y placer ses 2 oreilles Lrsquoauditeur pourra alors localiser preacuteciseacutement les sources constituant la scegravene agrave la fois en temps et dans lrsquoespace

Lrsquoobjectif du stage preacutesenteacute ici est de retrouver par le calcul ces informations agrave

partir de lrsquoanalyse de signaux de repreacutesentation du champ sonore 3D en particulier ceux issus de lrsquoencodage spatial de scegravenes sonores reacutealiseacute par la technologie Higher Order Ambisonics (HOA) Il srsquoagit de retrouver dans une scegravene HOA les positions qursquooccupaient les sources agrave chaque instant lors de lrsquoencodage

Cette analyse permet alors drsquoentrevoir des applications pour le codage et la

transmission etou lrsquoameacutelioration de contenu audio 3D la seacuteparation de sources ou bien encore la confeacuterence audio spatialiseacutee En effet une telle description de la scegravene permettrait de caracteacuteriser de maniegravere leacutegegravere une partie de lrsquoinformation transmise par les signaux HOA et ouvrirait mecircme lrsquoopportuniteacute drsquoun deacutemixage

Nous allons ici preacutesenter la technologie ambisonics puis les eacuteleacutements theacuteoriques et

pratiques de lrsquoanalyse des signaux HOA Les eacuteleacutements matheacutematiques sur lesquels repose ambisonics agrave savoir le deacuteveloppement drsquoun champ acoustique en harmoniques spheacuteriques sont deacuteveloppeacutes en Annexe A La lecture preacutealable de cette annexe nrsquoest pas indispensable agrave la compreacutehension du Chapitre 1 mais est vivement conseilleacutee

3

Chapitre 1

Ambisonics

11 Principe

111 Du B-format agrave HOA Lrsquoapproche ambisonique deacuteveloppeacutee dans les anneacutees 1970 par Gerzon [Gerzon

1973] [Gerzon 1985] a pour but de reconstruire au voisinage de la tecircte de lrsquoauditeur le champ sonore et ses caracteacuteristiques de propagation crsquoest-agrave-dire au minimum le champ de pression et son gradient Cette technique est cateacutegoriseacutee dans les techniques de panoramique drsquoamplitude ou agrave microphones coiumlncidents Le format orignal appeleacute B-format peut en fait ecirctre vu comme une restriction au 1er ordre drsquoune deacutecomposition du champ en harmoniques spheacuteriques (voir Annexe A) ou cylindriques (dans le cas drsquoune restriction agrave 2 dimensions) Le format HOA (Higher Order Ambisonics) est une extension de cette deacutecomposition agrave des ordres plus eacuteleveacutes permettant une reconstruction ameacutelioreacutee du champ (une meilleure approximation) dans une zone de restitution eacutelargie

Une grande speacutecificiteacute de lrsquoapproche ambisonique est de contenir directement

lrsquoinformation spatiale en codant le champ acoustique en un point de lrsquoespace indeacutependamment du systegraveme de restitution utiliseacute contrairement aux systegravemes de spatialisations classiques (steacutereacuteo 51hellip) Lrsquoencodage directionnel drsquoune onde plane S drsquoincidence u se traduit par les eacutequations

r

⎪⎪

⎪⎪

=

=

=

=

δ

δθ

δθ

sin2

cossin2

coscos2

SZ

SY

SX

SW

(11)

Le facteur de normalisation 2 a eacuteteacute introduit agrave lrsquoorigine pour srsquoassurer que les

composantes W X et Y aient une eacutenergie moyenne eacutegale dans le cas de lrsquoencodage drsquoun champ diffus horizontal

Chapitre 1 Ambisonics 4

Le B-format peut ecirctre vu comme une troncature au premier ordre de la deacutecomposition en seacuterie de Fourier-Bessel du champ sonore [Daniel 2000] Une troncature agrave un ordre plus eacuteleveacute (Higher Order Ambisonics) apporte alors agrave la reconstruction une meilleure qualiteacute tant en terme de preacutecision de lrsquoimage que de dimensions du sweet spot zone ougrave le champ original est restitueacute avec une toleacuterance donneacutee Cette zone tregraves petite pour lrsquoordre 1 (il faut veiller agrave se placer bien au centre du dispositif) est nous le verrons nettement eacutelargie aux ordres supeacuterieurs On atteint eacutegalement une discrimination angulaire plus fine Ces ordres supeacuterieurs eacutetant les termes suivants de la seacuterie de Fourier-Bessel une repreacutesentation HOA inclut les ordres infeacuterieurs constituant donc une repreacutesentation hieacuterarchique (ou scalable) du champ sonore

La chaicircne de traitement drsquoun systegraveme ambisonique se deacutecompose en plusieurs

eacutetapes (voir Figure 11) - lrsquoencodage spatial reacutealiseacute de maniegravere artificielle pour spatialiser une scegravene

syntheacutetique ou bien agrave partir de signaux naturels issus drsquoune structure multi-microphonique (voir Figure 12)

- une eacuteventuelle transformation des signaux HOA (compression ou

transformations lineacuteaires comme par exemple une rotation) - le deacutecodage spatial matriccedilage des signaux pour une diffusion adapteacutee au

dispositif drsquoeacutecoute

Figure 11 - Scheacutema global du principe de la technologie HOA [Moreau 2006]

11 Principe 5

Figure 12 - Prototype de microphone HOA drsquoordre 4 constitueacute de 32 capteurs omnidirectifs

reacutepartis sur une sphegravere en plastique rigide [Moreau 2006]

112 Repreacutesentation de scegravene sonore avec HOA La seacuterie de Fourier-Bessel (A16) en Annexe A) tronqueacutee agrave lrsquoordre M donne une

approximation de la repreacutesentation du champ sonore

sum sum sum= = plusmn=

=M

m

m

nmnmnm

mM YBkrjikrp

0 0 1)()()(

σ

σσ δθδθ (12)

La repreacutesentation drsquoordre M est composeacutee de signaux HOA en 3D

et

2)1( += MK12 += MK signaux HOA si on se contente du plan horizontal

Pour mesurer lrsquoerreur de reconstruction on peut utiliser le critegravere des moindres

carreacutes normaliseacute (NMSE pour Normalized Mean Square Error)

intint

intint minus=

S

SM

dSkrp

dSkrpkrpkre 2

2

)(

)()()(

δθ

δθδθ (13)

Dans le cas particulier drsquoune onde plane lrsquoerreur de reconstruction est

indeacutependante de lrsquoangle drsquoincidence et ne deacutepend que de lrsquoordre et du produit kr En rappelant que k est le nombre drsquoonde cfck πω 2== on srsquoaperccediloit que lrsquoerreur de reconstruction pour un ordre donneacute augmente quand on srsquoeacuteloigne du centre du systegraveme (r augmente) ou lorsque la freacutequence srsquoeacutelegraveve On remarque qursquoune erreur de 4 (-14 dB) est atteinte approximativement quand M = kr

Chapitre 1 Ambisonics 6

Figure 13 - Erreur de reconstruction drsquoune onde plane en fonction

de lrsquoordre M et du produit kr [Moreau et al 2006]

Figure 14 - Repreacutesentation dans le plan horizontal dans une zone de diamegravetre 1m de la

reconstruction drsquoune onde plane (agrave droite) pour plusieurs ordres et freacutequences Les niveaux de gris repreacutesentent la valeur de la pression acoustique Les courbes eacutetoileacutees indiquent la

limite des zones ougrave lrsquoerreur de reconstruction est infeacuterieure agrave 7 (-115 dB) [Moreau 2006]

12 Encodage et deacutecodage spatial 7

12 Encodage et deacutecodage spatial

121 Encodage spatial Drsquoun point de vue drsquoingeacutenieur du son lrsquoencodage spatial peut ecirctre vu comme un

panoramique drsquoamplitude Un preneur de son lrsquointerpreacutetera comme une capture par un jeu de microphones directifs coiumlncidents Un matheacutematicien verra plutocirct le lien avec la deacutecomposition en harmoniques spheacuteriques deacutecrite en Annexe A

Eacutetudions le cas drsquoune onde plane provenant de la direction )( pp δθ avec une

amplitude S Lrsquoexpression du champ de pression srsquoeacutecrit alors

γδθ cos)( jkrSekrp = (14)

soit encore

)(cos)()12()(0

γδθ mmm

m PkrjjmSkrp suminfin

=

+= (15)

ougrave γ deacutesigne lrsquoangle entre la direction (θ δ ) du point drsquoobservation et la direction

)( pp δθ de provenance de lrsquoonde Il vient ensuite

sum sumsum= plusmn=

infin

=

=m

nmnppmnm

m

m YYkrjjSkrp0 10

)()()()(σ

σσ δθδθδθ (16)

En identifiant cette eacutequation (16) avec la seacuterie de Fourier-Bessel (A16) nous

obtenons finalement lrsquoexpression de la transformeacutee de Fourier spheacuterique drsquoun champ de pression acoustique engendreacute par une onde plane [Moreau 2006]

)( ppmnmn YSB δθσσ = (17)

Les coefficients sont ainsi deacutefinis par la valeur des harmoniques spheacuteriques

dans la direction de provenance de lrsquoonde plane pondeacutereacutee par lrsquoamplitude

σmnB

S du signal transporteacute Ce sont ces coefficients qui constituent le signal ambisonique Des coefficients de normalisation ou de semi-normalisation sont ensuite appliqueacutes pour que les signaux soient drsquoeacutenergie moyenne eacutequivalente entre eux ( ) ou entre les diffeacuterents ordres ( ) (voir Annexe A Tableau A1)

DN 3α DSN 3αDSN 3α

DSN 3α Ces fonctions drsquoencodage peuvent ecirctre simplifieacutees dans le cas drsquoune restriction agrave 2

dimensions (plan horizontal) On ne conserve alors que 2 composantes par ordre celles qui deacutecrivent le plan horizontal crsquoest-agrave-dire veacuterifiant m = n Les coefficients de normalisation sont alors diffeacuterents et lrsquoangle δ est nul Les composantes restantes sont alors

Chapitre 1 Ambisonics 8

ordre notations eacutecriture 0 W 1

00B 1

X 111B θcos2

1 Y 1

11minusB θsin2

U 122B )2cos(2 θ

2 V 1

22minusB )2sin(2 θ

- 1mmB )cos(2 θm

m - 1minus

mmB )sin(2 θm Tableau 11 - Fonctions drsquoencodage ambisonique dans le plan horizontal

avec la convention de normalisation associeacutee (N2D) La figure suivante illustre lrsquoencodage spatial aux ordres 0 1 et 2 de 2 sources

placeacutees aux angles vθ et vθ dans le plan horizontal

ordres 0 et 1 ordre 2

Figure 15 - Encodage horizontal [Moreau et al 2006] Le coefficient (gain) appliqueacute agrave

chaque composante de chacune des 2 sources est donneacute par les intersections des flegraveches et des diagrammes des harmoniques

Comme on peut le voir sur cette figure un encodage au 1er ordre offre une

discrimination angulaire peu appuyeacutee alors que les 2 sources pourtant proches auront des coefficients tregraves diffeacuterents agrave lrsquoordre 2 (les points drsquointersection sont plus eacuteloigneacutes)

122 Deacutecodage spatial Lrsquoobjectif du deacutecodage est de restituer au mieux sur un systegraveme de diffusion

donneacute le champ sonore HOA Il faut ainsi calculer les signaux Sl agrave diffuser sur L haut-parleurs en fonction des composantes ambisoniques Ces σ

mnB L haut-parleurs peuvent ecirctre disposeacutes dans le plan horizontal ou dans un espace tridimensionnel Les deacutecodages les plus courants srsquoeffectuent sur une demi-sphegravere (cas 3D) ou un cercle (cas 2D) de

12 Encodage et deacutecodage spatial 9

haut-parleurs Crsquoest une opeacuteration matricielle qursquoon peut formaliser dans le cas drsquoun deacutecodage dans le plan horizontal par lrsquoeacutequation

BSC =sdot (18)

ougrave la matrice C contient les vecteurs harmoniques spheacuteriques associeacutes agrave chaque direction de haut-parleur et organiseacutes suivant ses lignes le vecteur S contient les signaux eacutemis par les L haut-parleurs et enfin le vecteur B contient les signaux HOA

⎟⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜⎜

=

⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜

=

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

=

10

100

2

1

1011

10

11111

111

10011

100

)()()(

)()()()(

M

mn

LLLMM

llmn

LL

LL

B

B

B

B

S

SS

S

YYY

YYYY

CM

M

M

L

MM

L

L

σσ

δθδθδθ

δθδθδθδθ

(19)

)( ll δθ repeacuterant la position du legraveme haut-parleur

Il faut donc estimer S connaissant B et C Le deacutecodage se reacutesume alors agrave un systegraveme de (M +1)2 (en 3D) ou 2M +1 (en 2D) eacutequations lineacuteaires agrave L inconnues On ne peut trouver de solution exacte que si le nombre de haut-parleurs est au moins eacutegal au nombre de signaux crsquoest-agrave-dire si L gt (M +1)2 (en 3D) ou 2M +1 (en 2D) Crsquoest en outre une condition neacutecessaire pour pouvoir avoir une reproduction homogegravene de la scegravene sonore

La matrice C nrsquoest pas neacutecessairement carreacutee et inversible une solution geacuteneacuterale

consiste agrave calculer lrsquoinverse geacuteneacuteraliseacutee de la matrice C noteacutee D encore appeleacutee pseudo-inverse de Moore-Penrose

BDS sdot= (110)

avec

1pinv( ) ( )t tD C C C C minus= = sdot sdot (111) D est appeleacutee matrice de deacutecodage BDS sdot= reacutesout le systegraveme (18) si les haut-

parleurs sont suffisamment nombreux L gt (M +1)2 (en 3D) ou 2M +1 (en 2D)) Srsquoils sont en outre disposeacutes sur une sphegravere (3D) ou un cercle (2D) de maniegravere eacutequidistante crsquoest-agrave-dire srsquoils sont les sommets drsquoun polyegravedre ou polygone reacutegulier ils preacuteservent alors la proprieacuteteacute drsquoorthonormaliteacute des harmoniques spheacuteriques Ceci se traduit par

Lt ILCC sdot=sdot (112)

ougrave IL est la matrice identiteacute de taille LLtimes On a alors

1pinv( ) tD CL

= = C (113)

Chapitre 1 Ambisonics 10

Cette proprieacuteteacute ne peut pas ecirctre matheacutematiquement veacuterifieacutee en 3D au-delagrave de lrsquoordre 2 autrement dit il nrsquoexiste pas de polyegravedre reacutegulier dont la position des sommets conserve strictement lrsquoorthonormaliteacute des harmoniques spheacuteriques

Visuellement le deacutecodage correspond agrave la reproduction du champ sonore tel qursquoil

aurait eacuteteacute capteacute par un ensemble de N microphones agrave directiviteacutes hyper-cardioiumldes tourneacutes chacun vers lrsquoun des haut-parleurs Leur directiviteacute serait drsquoautant plus preacutecise que lrsquoordre de reproduction est eacuteleveacute

Figure 16 - Prise de son virtuelle eacutequivalente agrave un encodage au 1er ordre et un deacutecodage

basique sur une disposition en 2D hexagonale [Moreau et al 2006] Le gain gl appliqueacute agrave chaque haut-parleur pour une direction de source virtuelle donneacutee

(en vert) est indiqueacute par la longueur des flegraveches et est reporteacutee aux points drsquointersection de la flegraveche verte et des diagrammes de directiviteacute

On peut remarquer que les diagrammes de directiviteacute sont tregraves larges par rapport

agrave lrsquoespacement angulaire des haut-parleurs Le 2nd ordre offrirait des directiviteacutes plus fines et donc une seacutelectiviteacute spatiale accrue Il faudrait alors bien sucircr davantage de haut-parleurs pour ne pas introduire des ldquotrousrdquo entre eux On remarque eacutegalement la preacutesence non neacutegligeable des lobes secondaires utiles pour la reconstruction du champ acoustique (notamment en basses freacutequences) mais qui peuvent ecirctre gecircnants dans certains cas par exemple lorsque lrsquoauditoire est large

Ce deacutecodage est appeleacute deacutecodage basique car il nrsquooptimise pas la restitution en

accord une quelconque hypothegravese et cherche uniquement agrave reproduire fidegravelement le champ acoustique Pour ameacuteliorer la restitution dans des cas critiques comme par exemple en-dehors du sweet spot (centre du dispositif) il faut optimiser le deacutecodage en reacuteduisant par exemple les lobes secondaires Ainsi le deacutecodage max-rE srsquoattache agrave maximiser lrsquoeacutenergie reccedilue de la provenance de la direction souhaiteacutee alors que le deacutecodage in-phase annule complegravetement ces lobes secondaires (voir Annexe B)

13 Critique de la technologie HOA 11

13 Critique de la technologie HOA

131 Bilan On a ainsi vu que la technologie HOA est une repreacutesentation intermeacutediaire du

champ de pression acoustique agrave mi-chemin entre la description directe du champ lui-mecircme et des signaux agrave restituer Cette technologie a de nombreux avantages compareacutee aux autres meacutethodes de reproduction de champ sonore (on trouvera notamment une eacutetude deacutetailleacutee des comparaisons entre HOA et la Wave Field Synthesis (WFS) dans [Daniel et al 2003]) elle permet drsquoeacuteviter le repliement spatial (voir paragraphe suivant) et permet ainsi une reconstruction dans une gamme de freacutequences tregraves large

La qualiteacute de la restitution ambisonique nrsquoest theacuteoriquement limiteacutee que part

lrsquoordre de troncature de la seacuterie de Fourier-Bessel agrave partir du moment ougrave le nombre de haut-parleurs est suffisant Ainsi un ordre tendant vers lrsquoinfini (et un nombre de haut-parleurs au moins aussi grand) permettra une reproduction quasi-parfaite sur lrsquoensemble de la zone drsquoeacutecoute

Mais les principaux avantages de cette technologie sont drsquoune part drsquoecirctre flexible

crsquoest-agrave-dire qursquoon peut agrave loisir adapter le nombre de signaux transmis au canal de transmission Une chute de deacutebit nrsquoentraicircnera pas de coupure de la transmission mais simplement une perte de preacutecision spatiale par lrsquoabandon des composantes drsquoordres les plus eacuteleveacutes Et drsquoautre part elle est indeacutependante du systegraveme de reproduction Ainsi un mecircme signal HOA pourra ecirctre diffuseacute sur toutes les configurations de haut-parleurs il suffira pour cela de calculer la matrice de deacutecodage associeacutee agrave ce systegraveme

132 Limites pratiques Dans la pratique cette technologie a toutefois des limitations Si lrsquoaliasing spectral

est eacuteviteacute on constate aux ordres les plus eacuteleveacutes lrsquoapparition drsquoun repliement spatial lors des enregistrements naturels agrave partir drsquoune freacutequence lieacutee agrave la distance maximale entre 2 capsules du microphone HOA (qui doit ecirctre au plus eacutegale agrave la moitieacute de la plus petite longueur drsquoonde drsquoapregraves Shannon) et au nombre total de capsules (qui doit ecirctre supeacuterieur agrave (M+1)2 M eacutetant lrsquoordre auquel on souhaite enregistrer)

Le repliement spectral repreacutesente la preacutesence importune dans des composantes

ambisoniques de sources qui de part leur position ne devraient qursquoapparaicirctre avec cette importance que dans les composantes drsquoordre plus eacuteleveacute Il est ducirc agrave lrsquointrusion des directiviteacutes drsquoordres supeacuterieurs dans les composantes harmoniques spheacuteriques estimeacutees Comme on le voit sur la Figure 17 les directiviteacutes ne sont pas des cylindres (au sens matheacutematique du terme la base nrsquoeacutetant pas forceacutement un cercle) mais varient en fonction de la freacutequence pour ressembler davantage dans le haut du spectre aux courbes de directiviteacute de lrsquoordre supeacuterieur Ainsi la directiviteacute de lrsquoordre 1 (2egraveme graphique) qui devrait ecirctre un 8 ressemble davantage au-dessus de 10 000 Hz agrave la figure de directiviteacute de lrsquoordre 4 (8 lobes)

Chapitre 1 Ambisonics 12

Figure 17 - Directiviteacutes theacuteoriques (en transparence) et reconstruites (grille) dans le plan horizontal pour des ondes planes horizontales Lrsquoaxe vertical correspond agrave la freacutequence et

les diffeacuterents graphiques aux ordres 0123 et 4 de gauche agrave droite Agrave lrsquoopposeacute la taille reacuteduite du microphone si elle permet de reacuteduire cet aliasing

spatial empecircche la capture des basses freacutequences aux ordres supeacuterieurs (voir 232) La reacutesolution spatiale des basses freacutequences sera donc moindre ce qui implique que en ajoutant lrsquoeffet du repliement en hautes freacutequences les ordres eacuteleveacutes capteacutes avec le micro HOA ne constituent qursquoune plage du spectre assez peu eacutetendue crsquoest cette seule plage qui pourra se targuer drsquoune excellente preacutecision spatiale

13

Chapitre 2

Analyser un contenu HOA

21 Objectifs La reacuteflexion a tout au long du stage eacuteteacute orienteacutee vers deux objectifs le premier

est dans un contexte de transmission de reconstruire une scegravene spatialiseacutee agrave partir du minimum drsquoinformations le deuxiegraveme appliqueacute agrave des ordres plus eacuteleveacutes est drsquoarriver agrave resyntheacutetiser les composantes de lrsquoordre immeacutediatement supeacuterieur

211 Restitution de la spatialisation agrave partir drsquoun downmix mono La premiegravere approche vise donc agrave reconstruire une scegravene spatialiseacutee agrave partir drsquoun

downmix le plus leacuteger possible Un downmix est une reacuteduction du nombre de canaux par fusion lrsquoexemple le plus simple eacutetant le passage drsquoun signal steacutereacuteo agrave un signal mono construit comme la demi-somme des composantes gauche et droite On tente dans cette approche de se restreindre au plus petit nombre de signaux possible un signal eacutetant tregraves coucircteux agrave transmettre en ajoutant parallegravelement agrave ce signal des informations compleacutementaires aidant agrave la reconstruction

Le cas extrecircme est la reacuteduction du flux agrave un signal mono Dans le cas

drsquoambisonics un signal mono comprenant toutes les sources est deacutejagrave preacutesent il srsquoagit de la composante omnidirectionnelle W Il faut donc extraire de la scegravene encodeacutee agrave un certain ordre M des informations permettant la reconstruction drsquoun ordre Mrsquo apregraves transmission Nous verrons que nous allons chercher agrave trouver les positions des sources gracircce agrave une analyse en composantes principales (ou ACP voir Annexe C) effectueacutee par sous-bandes (voir Annexe D)

212 Ameacutelioration de la preacutecision spatiale La deuxiegraveme piste suivie a pour but de reconstituer un ordre ambisonique non

transmis On pourrait qualifier cette approche drsquoupmix ambisonique car elle vise agrave reconstruire un ordre manquant En effet le format ambisonique eacutetant flexible il est bien

Chapitre 2 Analyser un contenu HOA 14

adapteacute agrave la transmission Ainsi si on souhaite transmettre une scegravene encodeacutee agrave lrsquoordre 2 dans le plan horizontal il faudra un canal drsquoun deacutebit minimum (si lrsquoon prend lrsquohypothegravese de pas vouloir compresser les signaux) de 471 Mos Un canal plus petit (par exemple 34 Mos) ne permettra theacuteoriquement de transmettre qursquoun ordre 1 Mais lrsquoanalyse des signaux peut permettre de deacuteterminer les positions des sources agrave partir desquelles on peut syntheacutetiser des composantes du 2nd ordre approchant les composantes drsquoorigine On pourrait mecircme imaginer pouvoir syntheacutetiser un ordre qui nrsquoavait pas eacuteteacute encodeacute agrave lrsquoorigine

Pour cela il est neacutecessaire de deacuteterminer les positions des sources preacutedominantes

dans le champ sonore pour piloter leur encodage spatial aux ordres supeacuterieurs et arriver agrave la synthegravese drsquoune repreacutesentation de reacutesolution spatiale accrue Il srsquoagit dans le mecircme temps drsquoisoler au mieux les signaux associeacutes agrave ces diffeacuterentes sources avant de leur appliquer lrsquoopeacuteration drsquoencodage on se rapproche donc drsquoun problegraveme de seacuteparation de sources

Pour parvenir agrave trouver ces positions deux meacutethodes ont eacuteteacute testeacutees La premiegravere

consiste comme preacuteceacutedemment agrave appliquer en sous-bandes une analyse en composantes principales La seconde implique la formation de directiviteacutes agrave partir des vecteurs propres de la matrice de correacutelation utiliseacutee dans cette analyse

Lrsquoanalyse en composantes principales ou ACP (voir Annexe C) est donc

largement privileacutegieacutee dans nos approches Elle permet en effet tregraves facilement drsquoextraire des informations preacutecises de signaux correacuteleacutes Pour justifier ce choix une autre meacutethode reacutecente a eacutegalement eacuteteacute testeacutee et compareacutee agrave lrsquoACP (voir 11)

22 Principe de lrsquoextraction drsquoinformation spatiale avec une ACP

221 Information spatiale

Nous avons donc tout drsquoabord testeacute lrsquoanalyse en composantes principales sur des

signaux HOA Nous avons choisi dans un premier temps de limiter lrsquoanalyse aux composantes horizontales du premier ordre W X et Y avant de lrsquoeacutetendre agrave la 3egraveme dimension avec Z

Dans un premier test les signaux HOA sont analyseacutes par une ACP dans leur

inteacutegraliteacute LrsquoACP est appliqueacutee sur les signaux X et Y qui contiennent lrsquoinformation spatiale En effet X et Y correspondent aux signaux qui seraient capteacutes par des microphones agrave figure en 8 placeacutes sur lrsquoaxe avant-arriegravere et gauche-droite respectivement

La Figure 21 montre la correacutelation entre X et Y dans le cas drsquoun bruit blanc capteacute

par le microphone ambisonique Les points ne sont pas exactement aligneacutes du fait des artefacts inheacuterents agrave la prise de son (reacuteflexions sur les parois approximations du microphone etc)

22 Principe de lrsquoextraction drsquoinformation spatiale avec une ACP 15

Figure 21 - Y en fonction de X dans le cas drsquoun bruit blanc enregistreacute placeacute agrave 30deg

On remarque que le nuage est eacutetireacute dans la direction de provenance du son indiqueacutee par la flegraveche en pointilleacutes verts

222 Application de lrsquoanalyse en composantes principales La 1egravere composante issue de lrsquoACP appliqueacutee dans le plan (X Y) pointe dans la

direction dans laquelle X et Y ont la plus grande correacutelation Or comme X contient lrsquoinformation placeacutee sur lrsquoaxe avant-arriegravere et Y lrsquoinformation de lrsquoaxe gauche-droite cette direction est directement la direction de la source Par exemple un son situeacute droit devant dans lrsquoaxe (agrave 0deg) aura une composante Y nulle et par conseacutequent les eacutechantillons seront dans le plan tous disposeacutes sur lrsquoaxe horizontal LrsquoACP prendra donc naturellement cet axe comme 1er vecteur propre et il pointe bien vers la position de la source De mecircme un son situeacute agrave 135deg ( π28

3 times rad) aura la proprieacuteteacute Y = -X Les eacutechantillons seront donc placeacutes sur la 2egraveme bissectrice qui fait avec lrsquoaxe Y=0 un angle de 135deg (voir Figure 22)

Figure 22 - Y en fonction de X dans le cas drsquoun son placeacute artificiellement dans la direction

indiqueacutee par la flegraveche en pointilleacutes verts agrave 0deg (agrave gauche) et 135deg (agrave droite)

Chapitre 2 Analyser un contenu HOA 16

Lrsquoanalyse de X et Y ne permet cependant de deacuteterminer lrsquoangle qursquoagrave π pregraves il reste une indeacutetermination (on deacutetermine la direction drsquoun axe qursquoil reste agrave orienter) Pour lever cette ambiguiumlteacute on integravegre W agrave lrsquoanalyse car cette composante pourtant omnidirectionnelle et donc deacutepourvue drsquoinformation spatiale apporte une reacutefeacuterence pour les phases Ainsi notre son placeacute agrave 135deg veacuterifiait (aux eacuteventuels coefficients de normalisation pregraves) Y = -X = W alors qursquoun son placeacute agrave 135 - 180 = -45deg aurait la proprieacuteteacute Y = -X = -W

Pour prendre en compte W dans lrsquoanalyse on peut comparer directement les

phases de ces 3 canaux Algorithmiquement on ramegravene lrsquoangle trouveacute agrave son modulo π2 puis on deacutetermine le vrai cadran par comparaison des phases de W X et Y crsquoest-agrave-dire en comparant le signe des produits W X et W Y Ainsi W X gt 0 signifie que W et X sont en phase et reacuteciproquement (voir Figure 23)

W X lt 0 W Y gt 0

W X gt 0 W Y gt 0

W X lt 0 W Y lt 0

W X gt 0 W Y lt 0

minusπ2

π

π2

0

Figure 23 - Signes de W X et W Y en fonction du cadran On peut eacutegalement inteacutegrer W agrave lrsquoanalyse en appliquant lACP sur le triplet (X Y

W) Le problegraveme drsquoambiguiumlteacute est ainsi reacutesolu la direction rechercheacutee eacutetant celle du vecteur principal dans le demi-espace W gt 0 projeteacutee sur le plan (X Y) Cette meacutethode srsquoavegravere plus robuste et surtout plus geacuteneacuteralisable agrave des ordres plus eacuteleveacutes

Cette analyse permet donc de deacuteterminer la position drsquoune source unique Pour

pouvoir seacuteparer plusieurs sources nous avons appliqueacute lrsquoACP par sous-bandes en supposant que les sources nrsquoont pas des supports freacutequentiels strictement identiques Le principe de cette analyse en sous-bandes est deacuteveloppeacute en Annexe D

23 Meacutethodologie

231 Construction de scegravenes artificielles Pour tester les algorithmes impleacutementeacutes nous avons ducirc creacuteer des scegravenes sonores

spatialiseacutees au format HOA Plusieurs types de scegravenes ont eacuteteacute utiliseacutes de complexiteacutes diffeacuterentes Les premiegraveres ont eacuteteacute des scegravenes virtuelles syntheacutetiseacutees avec Matlab Les premiegraveres scegravenes simplissimes ne comportait qursquoune sinusoiumlde ou un bruit blanc fixe placeacute dans le plan horizontal Puis pour tester lrsquoanalyse par sous-bandes ont eacuteteacute creacuteeacutes des sons polyphoniques composeacutes de 2 sinusoiumldes tout drsquoabord puis de sons complexes (syntheacutetiseacutes par synthegravese FM) dans des gammes freacutequentielles distinctes ou se

23 Meacutethodologie 17

chevauchant Enfin ces sons ont eacuteteacute rendus mobiles en faisant varier leur position dans le temps

Nous avons pu ainsi constater agrave lrsquoaide des sons fixes et de supports freacutequentiels

distincts la preacutecision de lrsquoanalyse et avec les sons mobiles et mecircleacutes sa robustesse Nous nous sommes limiteacutes sous Matlab agrave la geacuteneacuteration de 2 sons simultaneacutes et du 1er ordre et un autre outil Plogue Bidule a eacuteteacute utiliseacute pour composer des scegravenes plus complexes

Bidule est un studio modulaire virtuel ressemblant agrave MAXMSP Des plugins ont

eacuteteacute deacuteveloppeacutes agrave France Teacuteleacutecom pour permettre de manipuler des signaux HOA Ainsi des scegravenes complexes ont pu facilement ecirctre syntheacutetiseacutees agrave des ordres eacuteleveacutes Des scegravenes agrave 3 et 4 sources fixes ou dont 1 source mobile ont eacuteteacute reacutealiseacutees agrave partir de voix deacutemixeacutees placeacutees dans le plan horizontal ou en 3 dimensions

Ces scegravenes eacutetant artificielles elles sont en un sens ideacuteales ne contiennent aucun

signal reacuteverbeacutereacute (effet de salle) ni diffracteacute (par un micro) lrsquoencodage est fait sans artefacts les ondes sont consideacutereacutees comme planes et ont donc une direction bien deacutefinie Si on est ici bien loin de la vraie vie le gros avantage des scegravenes artificielles est qursquoon connaicirct preacuteciseacutement agrave chaque instant la position des sources et qursquoon peut ainsi veacuterifier le reacutesultat de lrsquoanalyse

Figure 24 - Interface graphique du logiciel Bidule avec agrave droite les controcircles des encodeurs

et deacutecodeurs HOA creacuteeacutes agrave France Teacuteleacutecom

Chapitre 2 Analyser un contenu HOA 18

232 Exploitation drsquoenregistrements naturels Une fois des reacutesultats convaincants obtenus avec des scegravenes virtuelles des

enregistrements naturels ont eacuteteacute analyseacutes Ces scegravenes ont eacuteteacute enregistreacutees gracircce au prototype de micro HOA du 4egraveme ordre deacuteveloppeacute agrave France Teacuteleacutecom (voir Figure 12) Ce processus implique des diffeacuterences notables avec un encodage virtuel

Le prototype de microphone contraint en effet agrave quelques compromis pour

optimiser des critegraveres incompatibles La taille du microphone reacutesulte drsquoun compromis entre la preacutecision drsquoestimation des composantes en basses freacutequences qui neacutecessite une taille eacuteleveacutee et la minimisation de lrsquoaliasing spatial qui ne peut ecirctre eacuteviteacute qursquoavec des capsules tregraves proches les unes des autres Leur disposition est eacutegalement irreacuteguliegravere il nrsquoexiste en fait aucune faccedilon de disposer reacuteguliegraverement plus de 20 points sur une sphegravere La configuration qui avait eacuteteacute retenue par les concepteurs [Moreau 2006] est la ldquomoins irreacuteguliegravere possiblerdquo au sens de la preacuteservation de lrsquoorthonormaliteacute des harmoniques spheacuteriques les 32 capsules sont reacuteparties sur une sphegravere de 35 cm de rayon selon un Pentaki-dodeacutecahegravedre polyegravedre semi-reacutegulier dual de lrsquoicosaegravedre tronqueacute (ballon de football)

Ces artefacts sont donc inheacuterents agrave lrsquoutilisation drsquoun reacuteseau de microphones Mais

le monde reacuteel pose eacutegalement des problegravemes deacutelicats La complexiteacute des modes de rayonnement drsquointeraction avec lrsquoenvironnement reacuteclame lrsquointroduction de modegraveles drsquoencodage beaucoup plus complexes que le cas drsquoune onde plane en champ libre et rend lrsquoinformation spatiale moins limpide et univoque au sein de la scegravene encodeacutee (enregistreacutee) en comparaison avec une scegravene virtuelle Les sources ne sont ainsi plus ponctuelles mais eacutetendues elles ne sont plus agrave lrsquoinfini mais agrave une distance finie du microphone (les ondes reccedilues ne sont donc plus planes) En outre chaque source en se reacutefleacutechissant sur les parois et les diffeacuterents objets de la salle creacutee une multitude de sources secondaires Il est enfin souvent difficile de connaicirctre avec preacutecision la position drsquoune source dans lrsquoespace lors drsquoun enregistrement

Des enregistrements en chambre sourde ont eacuteteacute reacutealiseacutes pour se passer des

reacuteflexions de lrsquoenvironnement Afin de connaicirctre avec preacutecision la position de la source un haut-parleur diffusant un bruit blanc nous avons placeacute le microphone sur une table tournante commandeacutee par un plug-in sous Plogue Bidule

233 Visualisations des reacutesultats Lrsquoobservation des reacutesultats a eacuteteacute effectueacutee de plusieurs maniegraveres visuellement et

par lrsquoeacutecoute Les graphiques eacutetant plus commodes crsquoest par cette voie que les premiers essais eacutetaient conclus Plusieurs types de graphiques ont eacuteteacute produits deacutecrivant des paramegravetres diffeacuterents

Les repreacutesentations temps-freacutequence permettent de repreacutesenter une variable agrave 1

dimension sous Matlab Cette voie a eacuteteacute suivie pour visualiser les paramegravetres extraits de chaque sous-bande de chaque fenecirctre notamment les angles lrsquoeacutenergie et la pertinence Malheureusement Matlab ne permet pas de repreacutesenter sur le mecircme graphique une 4egraveme dimension sous la forme drsquoune 2egraveme dimension colorimeacutetrique (on prend geacuteneacuteralement la

23 Meacutethodologie 19

saturation) Cette dimension suppleacutementaire aurait permis de repreacutesenter simultaneacutement les angles et leur pertinence

Figure 25 - Repreacutesentation

et de lrsquoespace col

Pour repreacutesenter s

drsquoabandonner une dimensipouvoir repreacutesenter danrepreacutesenteacutees soit par le niv

Figure 26 - Repreacutesentationdeacutecrite en 332 (en absciss

est repreacutesenteacutee agrave gauc

234 Diffeacuterents modes La visualisation est

indispensable pour veacuterifiesont possibles de ceux-cainsi reconstitueacutee agrave partir d

1 W+Y+02X pour le c

π 0 minusπ

de la table des couleurs dite HSV de Matlab (lineacuteaire agrave gauche) orimeacutetrique HSL (Hue Saturation Luminance agrave droite)

imultaneacutement angles et pertinence il eacutetait donc neacutecessaire on Crsquoest le deacutecoupage freacutequentiel qui a eacuteteacute mis de cocircteacute pour s un plan temps-angles les pertinences Celles-ci sont eau de gris des points soit par leur taille

de la pertinence des angles de la scegravene agrave 4 sources dont 1 mobile e les trames en ordonneacutees les angles en degreacute) La pertinence he par lrsquointensiteacute du bleu et agrave droite par la taille des points

drsquoeacutecoute

un indice preacutecis de reacutesultat mais lrsquoeacutecoute est tout de mecircme r la qualiteacute globale de la synthegravese Plusieurs modes drsquoeacutecoute i lrsquoeacutecoute au casque est la plus aiseacutee Une pseudo-steacutereacuteo est es signaux du 1er ordre1 pour restituer les scegravenes restreintes au

anal gauche et W-Y+02X pour le canal droit

Chapitre 2 Analyser un contenu HOA 20

plan horizontal Pour plus de preacutecision agrave la restitution ou pour des scegravenes en 3D et sans perdre la faciliteacute drsquoune eacutecoute personnelle au casque on peut appliquer des filtres HRTF (Head-Related Transfert Function) pour une reproduction binaurale

Pour appreacutecier pleinement la spatialisation la diffusion sur un systegraveme multi

haut-parleurs est indispensable Deux systegravemes sont installeacutes dans le laboratoire de France Teacuteleacutecom un systegraveme 51 et un systegraveme circulaire de 48 haut-parleurs Ces systegravemes installeacutes dans des studios insonoriseacutes offrent une grande qualiteacute drsquoeacutecoute qui permet de repeacuterer les deacutefauts mecircme minimes de la synthegravese

21

Chapitre 3

Description des analyses

31 Deacutetermination des directions principales

311 Base des algorithmes Nous avons deacuteveloppeacute plusieurs algorithmes reacutepondant aux diffeacuterents objectifs

deacutecrits plus haut Chacun drsquoeux possegravede des particulariteacutes leur permettant de reacutepondre agrave ces objectifs mais on trouve neacuteanmoins une partie commune Ainsi toutes les analyses reposent sur le mecircme modegravele drsquoapplication drsquoune ACP par sous-bandes dont voici le scheacutema geacuteneacuteral

Figure 31 - Scheacutema geacuteneacuteral drsquoanalyse

Les signaux en entreacutee sont les composantes HOA W X et Y dans la plupart des

cas mais peuvent ecirctre eacutegalement des composantes drsquoordre plus eacuteleveacute (voir 11) Sur le fenecirctrage jouent plusieurs paramegravetres comme la taille de la fenecirctre ou encore le pourcentage de recouvrement entre elles Nous avons choisi une fenecirctre en racine de la fenecirctre de Hanning crsquoest-agrave-dire une arche de sinusoiumlde (voir eacutequation (D7) en Annexe D) avec un recouvrement de 50 ce qui veacuterifie le critegravere de reconstruction parfaite (D6) Le filtrage est pour des raisons de rapiditeacute de calcul reacutealiseacute dans le domaine freacutequentiel par une simple multiplication avant de repasser en temporel pour appliquer lrsquoACP

Le banc de filtre utiliseacute est un banc inspireacute des filtres ERB Les filtres ERB

(Equivalent Regular Bandwidth) sont des filtres imitant le comportement de seacuteparation freacutequentielle de lrsquooreille humaine plus preacutecise en basse freacutequence Les filtres utiliseacutes ici ne sont pas directement des filtres ERB le systegraveme nrsquoa pas drsquointeacuterecirct particulier agrave essayer de copier le fonctionnement de lrsquooreille humaine Ces filtres ont eacuteteacute adapteacutes au problegraveme en

Chapitre 3 Description des analyses 22

srsquoassurant en particulier de la finesse des bandes permettant la meilleure discrimination des diffeacuterentes sources crsquoest-agrave-dire autour des fondamentales usuelles (200-1000 Hz) et des harmoniques Les freacutequences aigueumls sont bien discrimineacutees par les filtres ERB (relativement agrave la gamme crsquoest-agrave-dire en eacutechelle logarithmique) le deacutecoupage a donc surtout eacuteteacute densifieacute entre 200 et 800 Hz par rapport aux bandes ERB

Figure 32 - Filtres utiliseacutes inspireacutes des filtres ERB repreacutesenteacutes lineacuteairement (en haut)

et sur une eacutechelle logarithmique (en bas) Les reacutesultats de lrsquoACP sont donc avec cette meacutethode les angles des sources

trouveacutees dans chaque sous-bande ainsi que pour chacun drsquoeux un critegravere de pertinence calculeacute en fonction de lrsquoeacutenergie de la sous-bande dans une fenecirctre donneacutee et de la norme relative de la premiegravere composante de lrsquoACP (voir 342) Les autres vecteurs propres peuvent ecirctre utiliseacutes pour extraire davantage drsquoinformations et mecircme des signaux deacutecorreacuteleacutes comme on le verra au paragraphe 35 mais lrsquoanalyse semble alors moins robuste Srsquoen tenir aux informations donneacutees par la composante principale est un gage de pertinence suppleacutementaire

Ces reacutesultats concernent donc les sources preacutedominantes ou principales mais

laissent de cocircteacute un certain nombre drsquoeacuteveacutenements sonores agrave consideacuterer

312 Traitement du champ reacutesiduel Le champ reacutesiduel regroupe en quelque sorte tout ce qui nrsquoest pas une source

principale Il inclut donc les reacuteflexions et la reacuteverbeacuteration de la piegravece mais aussi les bruits parasites occasionnels ou continus (ventilation etc) Ces bruits ou eacutechos nrsquoont pas de direction de provenance assez distincte pour pouvoir ecirctre mesureacutee preacuteciseacutement Le champ reacutesiduel est eacutegalement composeacute du champ diffus La notion de champ diffus est couramment utiliseacutee mais rarement preacuteciseacutement deacutefinie On trouve dans la litteacuterature des deacutefinitions diverses lrsquoune drsquoelles preacutecisant qursquoil serait un ensemble drsquoeacuteveacutenements sonores proches en temps et provenant de directions eacutequiprobables

Les algorithmes proposeacutes traitent correctement les sources principales mais le

champ reacutesiduel est laisseacute de cocircteacute Il est pourtant tregraves important pour lrsquoimmersion du sujet dans la scegravene une scegravene deacutepourvue de champ sonore sera perccedilue comme artificielle ce qui nuit agrave la perception drsquoespace On sera par exemple davantage conscients drsquoecirctre au centre drsquoun dispositif expeacuterimental et moins sensibles aux variations de profondeur et de perspectives

31 Deacutetermination des directions principales 23

Neacuteanmoins il faut relativiser lrsquoimportance de ce champ reacutesiduel il nrsquoest pas utile pour la localisation des sources principales et ne caracteacuterise que lrsquoenvironnement drsquoenregistrement En outre le champ reacutesiduel qui provient souvent de directions floues et notre but nrsquoest pas de les preacuteciser artificiellement Il nrsquoest degraves lors geacuteneacuteralement pas utile de le transmettre aux ordres eacuteleveacutes

Ainsi certains auteurs [Merimaa and Pulkki 2005] ont choisi de recreacuteer lors drsquoune

synthegravese un champ diffus artificiel baseacute sur une reacuteponse impulsionnelle de salle calculeacutee agrave lrsquoavance Lrsquoavantage est une immersion un enveloppement complets lrsquoinconveacutenient est que lrsquoambiance ainsi recreacuteeacutee est fictive et arbitraire et en outre complegravetement indeacutependante de lrsquoambiance initiale en laissant notamment de cocircteacute les sources secondaires

Nous proposons dans nos algorithmes de ne pas syntheacutetiser le champ diffus aux

ordres eacuteleveacutes mais de nous contenter de la description du champ reacutesiduel fourni par les ordres transmis (1er ordre dans nos exemples) Nous nous limiterons donc agrave preacuteciser par la synthegravese des ordres supeacuterieurs les positions des sources principales

32 Extension agrave la 3D Nous avons pour le moment eacutevoqueacute le cas de repreacutesentations de champ sonore agrave

2 dimensions crsquoest-agrave-dire issus de sources placeacutees dans le plan horizontal Mais certaines repreacutesentations comportent eacutegalement des composantes verticales Pour analyser ces signaux en 3 dimensions il faut inteacutegrer la composante Z On effectue alors simplement une ACP sur X Y Z et W Le 1er vecteur propre sera alors bien dirigeacute dans lrsquoespace (X Y Z) dans la direction de la source lrsquoambiguiumlteacute de frac12 espace eacutetant leveacutee par W

Lrsquoalgorithme est alors complegravetement similaire agrave celui analysant des signaux en 2

dimensions Des tests ont eacuteteacute reacutealiseacutes agrave partir de signaux syntheacutetiques pour lesquels les positions des sources eacutetaient connues pour des raisons pratiques aucune scegravene sonore reacuteelle en 3 dimensions nrsquoa pu ecirctre enregistreacutee avec une connaissance initiale preacutecise des positions des sources

Les visualisations et les eacutecoutes eacutetant plus deacutelicates en 3D et lrsquoextension agrave la 3D

eacutetant immeacutediate nous avons donc concentreacute nos efforts sur lrsquoanalyse de scegravenes en 2D En outre en lrsquoabsence de dispositif spheacuterique ou heacutemispheacuterique de haut-parleurs le seul moyen agrave notre disposition pour eacutecouter une scegravene 3D est lrsquoeacutecoute binaurale crsquoest-agrave-dire au casque avec des fonctions de transfert de tecircte (HRTF) relativement bien adapteacutees agrave lrsquoauditeur

33 Analyse aux ordres supeacuterieurs

331 Description Afin drsquoameacuteliorer la preacutecision de lrsquoanalyse nous avons essayeacute drsquoappliquer une ACP

sur des signaux ambisoniques drsquoordre plus eacuteleveacute (signaux HOA) dans le plan horizontal Deux meacutethodes ont eacuteteacute essayeacutees

Chapitre 3 Description des analyses 24

La premiegravere consiste agrave appliquer une ACP agrave 3 dimensions successivement sur les composantes X Y W (ordre 1 et 0) puis U V W (ordre 2 et 0) et ainsi de suite crsquoest-agrave-dire (en utilisant la notation geacuteneacuterale) sur les composantes et W (ordre m et 0) Les reacutesultats de ces analyses (les directions des 1

)1(0mY )1(

0minus

mYegraveres composantes) sont ensuite regroupeacutees

lrsquoanalyse de lrsquoordre 1 fournissant des reacutesultats modulo 2π lrsquoanalyse de lrsquoordre 2 des reacutesultats plus preacutecis mais modulo π et plus geacuteneacuteralement lrsquoanalyse de lrsquoordre m permettant de trouver des angles modulo mπ2

La limite de cette approche se perccediloit lors de la fusion des reacutesultats les angles

trouveacutes agrave un ordre eacuteleveacute sont plus preacutecis dans des bandes de freacutequences eacuteleveacutees mais la limitation theacuteorique de ces signaux HOA dans les basses freacutequences font que lrsquoanalyse de lrsquoordre 1 reste la plus pertinente dans les premiegraveres bandes Parvenir agrave deacuteterminer agrave partir de quelle freacutequence on peut faire davantage confiance agrave lrsquoordre n+1 qursquoagrave lrsquoordre n nrsquoest pas aiseacute et cette limite provoque des aberrations dans les angles trouveacutes Une source unique pourra par exemple ecirctre interpreacuteteacutee par lrsquoalgorithme des k-moyennes (voir 341) comme 2 sources une en hautes freacutequences et une en basses freacutequences les 2 eacutetant trouveacutes agrave 2 angles diffeacuterents chaque angle relevant drsquoun ordre analyseacute diffeacuterent

La deuxiegraveme meacutethode consiste pour eacuteviter cette fusion des reacutesultats agrave effectuer

une seule ACP sur les composantes U V X Y et W Cette meacutethode souffre drsquoune tregraves grande complexiteacute algorithmique pour une ameacutelioration de la preacutecision peu sensible En effet si cette meacutethode permet drsquoobtenir des reacutesultats plus preacutecis dans certaines bandes de freacutequences elle est sensible aux deacutefauts et les limites des ordres supeacuterieurs (lrsquoabsence de basses freacutequences entre autres) perturbent lrsquoanalyse en composantes principales

332 Illustration sur une scegravene virtuelle La scegravene preacutesenteacutee ici est une scegravene artificielle crsquoest-agrave-dire composeacutee de sons

placeacutes artificiellement agrave diverses positions Elle a une dureacutee totale de 135 s et comporte 4 sources positionneacutees dans le plan horizontal une guitare placeacutee agrave 45deg une basse agrave -70deg une batterie agrave 110deg et une voix feacuteminine qui effectue continucircment un tour complet dans le sens indirect en partant de lrsquoarriegravere (elle passe donc successivement par les positions 180deg 90deg 0deg -90deg et -180deg) La guitare et la batterie srsquoarrecirctent peu avant la fin de la scegravene (12egraveme seconde au 910egraveme du son approximativement)

Figure 33 - Position des sources de la scegravene de test agrave 4 sources dont 1 mobile

33 Analyse aux ordres supeacuterieurs 25

Figure 34 - Angles drsquoune scegravene virtuelle ayant 1 source mobile et 3 sources fixes

(deacutecrite en 332) trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 Pour chaque trame (en abscisse) 20 angles (1 par bande en ordonneacutee et en degreacutes) sont

reporteacutes le diamegravetre du point correspondant agrave un critegravere de pertinence (voir 342)

Figure 35 - Angles de la mecircme scegravene trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 2 Reacutesultats modulo π reacutepliqueacutes pour faciliter la comparaison avec la figure preacuteceacutedente On remarque que les lignes sont plus nettes qursquoil y a moins drsquoangles aberrants et que

les angles corrects sont plus marqueacutes (ils sont deacutetermineacutes comme plus pertinent)

Chapitre 3 Description des analyses 26

20

0

20

0

20

0

Figure 36 - Angles drsquoune scegravene reacuteelle constitueacutee drsquoun bruit parcourant le cercle trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 (en haut) 0 et 2 (au milieu) et 0 et 4 (en bas) Le

numeacutero de trame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On retrouve qursquoune limitation des ordres HOA supeacuterieurs issus drsquoun enregistrement

microphonique est la restitution des basses freacutequences

34 Traitement des donneacutees

341 Algorithme des k-moyennes Agrave lrsquoissue de lrsquoanalyse en composantes principales on reacutecupegravere avec la premiegravere

des meacutethodes exposeacutees au chapitre preacuteceacutedent des angles correspondants aux positions des sources preacutedominantes agrave raison drsquoune valeur par fenecirctre et par bande de freacutequence Il faut agrave partir de ces donneacutees parvenir agrave isoler les sources crsquoest-agrave-dire agrave deacuteterminer quels sont les angles pertinents et examiner quels sont ceux qui agrave une certaine toleacuterance pregraves sont preacutesents dans plusieurs bandes de freacutequence etou plusieurs fenecirctres temporelles

Pour pouvoir exploiter ces donneacutees spatiales nous avons utiliseacute lrsquoalgorithme des

k-moyennes (ou k-means) [MacQueen 1967] sur les angles pondeacutereacutes par des critegraveres de pertinence Cet algorithme fonctionne de la maniegravere suivante

Initialisation choix de k barycentres (les k moyennes) Reacutepeacuteter Associer chaque eacuteleacutement au barycentre le plus proche Recalculer les positions des barycentres Jusqursquoagrave ce que les barycentres soient stables (ou au bout de t iteacuterations)

34 Traitement des donneacutees 27

Lrsquoavantage de cet algorithme est drsquoecirctre peu glouton puisqursquoil converge en O(tkn) ougrave t est le nombre drsquoiteacuterations k le nombre de centres et n le nombre de points (geacuteneacuteralement on a t k ltlt n) Par contre il est plutocirct sensible aux exceptions un point aberrant tirera agrave lui la moyenne auquel il aura eacuteteacute associeacute Il faut donc faire en sorte que ces points erroneacutes soient aussi rares que possibles Crsquoest pourquoi les angles traiteacutes sont pondeacutereacutes par 2 critegraveres de pertinence

La pondeacuteration des angles fournis en entreacutee de lrsquoalgorithme des k-moyennes se

fait de maniegravere simple en reacutepeacutetant ces angles un nombre de fois (de 0 agrave 10) proportionnel agrave un critegravere Ainsi un angle tregraves pertinent sera dupliqueacute et sera preacutesent plusieurs fois dans la liste des donneacutees traiteacutees attirant ainsi agrave lui la position du barycentre le plus proche Au contraire un angle trop peu pertinent ne sera pas reacutepeacuteteacute voir mecircme sera enleveacute de la liste

Le seul problegraveme de cet algorithme est qursquoil neacutecessite la connaissance de k crsquoest-

agrave-dire du nombre de sources qui composent la scegravene Une deacutetermination automatique se basant sur la reacutepeacutetition de lrsquoalgorithme avec un k croissant a eacuteteacute testeacutee mais le critegravere drsquoarrecirct reposant sur la dispersion des points autour des barycentres nrsquoeacutetant pas assez robuste cette meacutethode a provisoirement eacuteteacute mise de cocircteacute

342 Critegraveres de pertinence Les 2 critegraveres de pondeacuteration choisis sont lrsquoeacutenergie de la sous-bande dans la

fenecirctre donneacutee et le rapport de la norme de la 1egravere composante (la composante principale) de lrsquoACP sur la somme des normes de toutes les composantes

En effet un angle est trouveacute dans chaque sous-bande de chaque fenecirctre mecircme si

le signal y est tregraves faible Lrsquoangle trouveacute sera alors tregraves peu repreacutesentatif de la direction drsquoune source puisqursquoil indiquera la direction drsquoun bruit Lrsquoeacutenergie doit donc ecirctre prise en compte pour ne conserver que les angles trouveacutes dans des bandes comportant un signal suffisant

La norme relative de la 1egravere composante de lrsquoACP rend quant agrave elle compte du

poids relatif de cette composante par rapport aux autres Ainsi si 2 sources sont preacutesentes dans une bande donneacutee la 1egravere composante sera agrave peine plus marqueacutee que la 2egraveme Ceci peut ecirctre calculeacute en prenant simplement le rapport de la 1egravere valeur propre sur la somme des valeurs propres

On peut noter que la norme de la 1egravere composante ne se deacutetache nettement que

lorsqursquoun son est preacutesent dans la bande consideacutereacutee On peut alors se demander si lrsquoeacutenergie doit ecirctre prise en compte ou si lrsquoinformation qursquoelle contient nrsquoest comprise dans le 2egraveme critegravere En fait la norme relative est un critegravere tregraves bruiteacute et consideacuterer lrsquoeacutenergie par ailleurs permet de nuancer ces artefacts et constitue une base solide de pondeacuteration

Chapitre 3 Description des analyses 28

80

40

0

Figure 37 - Repreacutesentation temps-freacutequence des angles du son deacutecrit en 332 Letrame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On peut donc v

par trame et par bande chacun eacutetant le reacutesultat drsquoune ACP crsquoest-agrave-dire la 1egravere

Figure 38 - Eacutenergie de ce mecircme son On peut voir une basse en notes tenues uneet une batterie qui produit des sons secs dans un spectre plus aigu

80

40

0

80

40

0

Figure 39 - Norme relative de la 1egravere composante de ce mecircme son Les impacts de batterie (dans lrsquoaigu) ressortent davantage

π 0 minusπ

numeacutero de oir un angle direction

voix aiguumle

34 Traitement des donneacutees 29

Figure 310 - Pondeacuteration appliqueacutee agrave lrsquoentreacutee des k-moyennes calculeacutee ici comme

le simple produit de lrsquoeacutenergie et de la norme relative

80

40

0

343 Lissages

Pour faire face au bruit ineacutevitable dans les reacutesultats il faut lisser les donneacutees Ces

lissages temporels correspondent agrave des hypothegraveses de stabiliteacute des sources qui sont supposeacutees ecirctre fixes ou mobiles relativement lentement (dans une mesure agrave parameacutetrer)

Un premier lissage peut ecirctre opeacutereacute avant le traitement par lrsquoalgorithme des k-

moyennes Le filtre choisi est un filtre meacutedian de maniegravere agrave eacuteliminer les points aberrants tout en conservant les vraies valeurs des points coheacuterents Ce lissage est appliqueacute sur chaque sous-bande aux angles et ne tient pas compte des critegraveres de pertinence Il est donc utiliseacute avec parcimonie et peut mecircme ecirctre eacuteviteacute en reacuteglant de maniegravere adeacutequate les critegraveres de pondeacuteration agrave lrsquoentreacutee des k-moyennes

Le deuxiegraveme lissage srsquoeffectue agrave lrsquoentreacutee des k-moyennes en mecircme temps que les

critegraveres de pondeacuteration Il consiste agrave appliquer les k-moyennes non pas sur une fenecirctre donneacutee mais sur plusieurs fenecirctres conseacutecutives anteacuterieures et posteacuterieures en donnant plus de poids agrave la fenecirctre courante Dans la pratique les poids donneacutes aux diffeacuterentes fenecirctres sont eacutetablis par une gaussienne centreacutee sur la fenecirctre courante et de largeur agrave deacuteterminer (en fonction notamment de la dureacutee drsquoune fenecirctre et du type de scegravene analyseacute)

35 Exploitation de toutes les composantes de lrsquoACP Les analyses preacutesenteacutees preacuteceacutedemment ont toutes exploiteacute uniquement la

composante principale extraite par lrsquoACP Or cette analyse fournit des informations plus complegravetes par lrsquointermeacutediaire des autres composantes dont on peut tirer parti pour isoler plusieurs sources au sein drsquoune mecircme bande Cette approche est toujours en deacuteveloppement dans ce stage et nrsquoa pas encore donneacute pleine mesure des reacutesultats qursquoelle laisse entrevoir

Les composantes de lrsquoACP indiquent des directions qui correspondent aux

diffeacuterentes sources composant la scegravene sonore Les vecteurs propres de la matrice de correacutelation donnent ainsi les combinaisons lineacuteaires des signaux HOA permettant de

Chapitre 3 Description des analyses 30

seacuteparer de la meilleure faccedilon possible ces sons Ces directions peuvent ecirctre alors utiliseacutees pour former des directiviteacutes isolant au mieux ces sources

aBS sdot= (31)

ougrave la matrice a contient les vecteurs propres de la matrice de correacutelation (voir Annexe C) le vecteur B contient les signaux HOA et le vecteur S contient les sources extraites

⎟⎟⎟

⎜⎜⎜

=⎟⎟⎟

⎜⎜⎜

⎛=

⎥⎥⎥

⎢⎢⎢

⎟⎟⎟

⎜⎜⎜

⎟⎟⎟

⎜⎜⎜

⎛=

10

1001

1

ML

N

B

BB

S

SSuua MML (32)

On obtient ainsi des lobes drsquoautant plus eacutetroits que lrsquoordre est eacuteleveacute chacun

dirigeacute vers une source et permettant de lrsquoisoler le plus possible des contributions des autres sources La Figure 311 preacutesente les directiviteacutes ainsi trouveacutees par une ACP en pleine bande Une analyse en sous-bande permet une plus grande distinction des sources mais une seacuteparation diffeacuterente entre les bandes est dangereuse car elle risque de dissocier spatialement plusieurs parties drsquoun mecircme son

Figure 311 - Directiviteacutes seacuteparant ideacutealement 4 sources placeacutees agrave 17 73 195 et -58deg

pour une scegravene virtuelle encodeacutee agrave lrsquoordre 4 Ce principe se heurte neacuteanmoins aux limites de seacuteparation lieacutees agrave lrsquoordre

drsquoencodage en effet 2 sources ne pourront pas ecirctre seacutepareacutees si elles sont trop proches comme en teacutemoigne la largeur des lobes principaux Les lobes secondaires traduisent eacutegalement un meacutelange des sources isoleacutees La figure ci-dessus montre ainsi que la source placeacutee agrave 17deg (en vert) sera preacutesente de maniegravere non neacutegligeable dans le signal senseacute contenir la source placeacutee agrave -58deg (en bleu) en raison du lobe secondaire bleu important

31

Chapitre 4

Reacutesultats et applications

41 Illustration et critique des reacutesultats obtenus

411 Avant-propos Sans notification particuliegravere les reacutesultats preacutesenteacutes ont eacuteteacute obtenus avec un pas

de 50 ms une analyse en 80 bandes avec une FFT sur 8192 points Une taille de FTT plus grande et un plus grand nombre de bande augmente la qualiteacute de lrsquoanalyse un pas plus petit ameacuteliore sa preacutecision temporelle mais les reacutesultats sont moins fiables et un lissage plus important srsquoimpose alors Ces paramegravetres ont eacuteteacute reacutegleacutes apregraves de multiples essais sur des scegravenes diverses

Les reacutesultats sont preacutesenteacutes ici uniquement sous la forme de graphiques nous ne

pouvons donc repreacutesenter que les angles trouveacutes agrave la sortie de lrsquoalgorithme des k-moyennes

412 Scegravene 2D artificielle agrave 4 sources fixes La premiegravere scegravene est une scegravene artificielle composeacutee de 4 sons fixes placeacutes agrave -70

-10 45 et 110deg Ces sons (une basse une voix une guitare et une batterie) ont eacuteteacute choisis pour leur varieacuteteacute spectrale et leur varieacuteteacute drsquoattaque Elle a en outre le meacuterite drsquoecirctre reacutealiste et de constituer une seacutequence musicale (chaque son nrsquoest pas une meacutelodie indeacutependante)

On voit sur la Figure 41 ci-dessous que les angles trouveacutes sont proches des

angles theacuteoriques Lrsquoun des sons (agrave 45deg) est quasiment nul avant la 100egraveme trame sa position est alors moins facile agrave deacuteterminer plus preacuteciseacutement une position approximative est trouveacutee et correspondrait exactement agrave la position du bruit (45deg) si lrsquoincertitude de mesure tregraves grande pour un son aussi faible ne rendait la deacutetermination si ardue On mesure un eacutecart-type de 22deg sur cet exemple (en excluant le deacutebut du son agrave 45deg)

Chapitre 4 Reacutesultats et applications 32

Figure 41 - Angles theacuteoriques (en pointilleacutes rouge) et calculeacutes (en trait bleu) pour une scegravene

constitueacutee de 4 sons fixes longue de 11s

413 Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile

Figure 42 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) de la scegravene agrave

4 sources dont 1 mobile deacutecrite en 332 Cette scegravene est deacutecrite en 332 On a ici demandeacute aux k-moyennes de renvoyer 5 barycentres par trame alors que

seules 4 sources eacutetaient preacutesentes dans le but de se garantir une marge vis-agrave-vis des erreurs de deacutetection Cette 5egraveme direction nrsquoest pas du tout gecircnante elle indique une direction qui ne contient pas de source et crsquoest donc un son tregraves faible qui est ainsi pointeacute Apregraves une eacuteventuelle extraction le signal ne sera donc pas du tout gecircnant

41 Illustration et critique des reacutesultats obtenus 33

On peut remarquer que quand le son mobile se rapproche drsquoun son fixe la deacutetection est moins bonne il y a une fusion entre les 2 sons Mais encore une fois lors de lrsquoextraction lrsquoisolation drsquoun des sons englobera lrsquoautre son ce qui ne posera pas de problegraveme pour les objectifs fixeacutes aucune source nrsquoeacutetant oublieacutee En effet la seacuteparation de sources nrsquoest pas un objectif ici mais un moyen pour preacuteciser les positions des sources ce qui sera fait correctement mecircme si 2 sources sont pointeacutees par 1 seule direction

414 Scegravene 3D artificielle agrave une source et bruit de fond

La scegravene dont la position drsquoune source a eacuteteacute extraite ci-dessous est une scegravene virtuelle en 3D constitueacute drsquoun son (une voix) qursquoon a fait se deacuteplacer par paliers tout drsquoabord vers le haut de 0deg agrave 45deg et vers la gauche de 0deg agrave 90deg puis redescendre jusqursquoagrave 35deg en continuant son cheminement vers la gauche jusqursquoagrave 120deg et enfin finir la descente de 35deg agrave 0deg en la laissant agrave 120deg Agrave cette source a eacuteteacute superposeacutee une ambiance spatialiseacutee de hall drsquoaeacuteroport initialement enregistreacutee en 2D (au format 51) mais transformeacutee pour contenir des composantes verticales Cette ambiance deacutecorreleacutee de la source avait pour but de tester la robustesse de lrsquoanalyse Elle eacutetait agrave 15 dB en-dessous du niveau de la voix

Figure 43 - Azimut et eacuteleacutevation theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun

son en 3D artificiel de 9s placeacute dans une ambiance bruyante On remarque que lrsquoanalyse est tregraves correcte Il nrsquoy a pas drsquoeacutecart important entre

les angles theacuteoriques et ceux calculeacutes On note toutefois que le lissage agrave lrsquoentreacutee des k-moyennes a pour effet de gommer les creacuteneaux et drsquoaplatir quelque peu la courbe drsquoeacuteleacutevation ceci nrsquoest pas vraiment gecircnant car de tels sauts dans la position drsquoune source ne sont pas du tout reacutealistes (ils peuvent caracteacuteriser des bruits de pas mais de tels impacts sont courts et on peut srsquoattendre agrave ce que la courbe suive leur position aux instants ougrave ils sont eacutemis)

Chapitre 4 Reacutesultats et applications 34

415 Scegravene 2D naturelle agrave une source Les scegravenes naturelles sont on lrsquoa vu plus deacutelicates agrave exploiter car on ne peut pas

garantir la preacutecision de la position theacuteorique agrave retrouver par le calcul et on ne peut donc pas calculer la preacutecision de lrsquoanalyse Seuls les enregistrements utilisant la table tournante (voir 232) permettent une mesure preacutecise de la position de lrsquoangle Ces enregistrements on pu confirmer la validiteacute de lrsquoanalyse pour des scegravenes reacuteelles on trouve ici un eacutecart-type de 25deg

Figure 44 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun bruit blanc

tournant autour du micro enregistreacute en chambre sourde Cette analyse a eacuteteacute reacutealiseacutee par sous-bandes mais sur une eacutetendue freacutequentielle

plus reacuteduite puisqursquoon srsquoest limiteacute aux possibiliteacutes offertes par le microphone La scegravene a donc eacuteteacute analyseacutee de 200 agrave 10 000 Hz

42 Quelques applications

421 Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre 2 agrave partir de lrsquoordre 1

Une fois les positions des sources connues la porte est ouverte agrave de nombreuses

applications La connaissance de ces positions permet en effet de syntheacutetiser artificiellement des composantes manquantes ou non transmises La premiegravere synthegravese deacuteveloppeacutee est celle des signaux U et V composant la partie horizontale de lrsquoordre 2 agrave partir de lrsquoordre 1 et de paramegravetres issus de lrsquoanalyse pour une source en 2D (des angles dans de cas)

42 Quelques applications 35

Figure 45 - Principe de lrsquoameacutelioration de la preacutecision spatiale

Le principe de la synthegravese est drsquoextraire les sources originales agrave partir de W X Y

et des angles (un angle par trame et par sous-bande) Ceci peut ecirctre reacutealiseacute de maniegravere approcheacutee en deacutecodant lrsquoordre 1 dans les directions des sources Ce deacutecodage revient agrave calculer les signaux qui devraient alimenter des haut-parleurs qui seraient placeacutes agrave ces positions dans le cas drsquoune restitution (voir 122) crsquoest-agrave-dire agrave former des directiviteacutes dans les directions des sources Dans la plupart des cas ce deacutecodage qui fait intervenir une pseudo-inversion de Moore-Penrose (111) est imparfait les sources se retrouvant leacutegegraverement meacutelangeacutees On peut comparer cette seacuteparation agrave celle que ferait un ensemble de microphones agrave directiviteacute hypercardioiumlde coiumlncidents

Figure 46 - Directiviteacutes eacutequivalentes agrave la seacuteparation de 4 sources agrave lrsquoordre 1 Ces sources seacutepareacutees vont ensuite constituer toujours placeacutees aux angles

deacutetermineacutes agrave lrsquoanalyse une scegravene virtuelle qursquoon va encoder agrave lrsquoordre 2 De cet encodage on ne conservera que les signaux manquants dans notre exemple les signaux du 2nd ordre U et V Ainsi la scegravene spatialiseacutee sera au final constitueacutee des signaux W X et Y drsquoorigine (transmis) et des signaux U et V syntheacutetiseacutes

Chapitre 4 Reacutesultats et applications 36

422 Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave partir de W Reconstruire une scegravene sonore spatialiseacutee agrave partir drsquoun unique canal mono est

alors difficile et le reacutesultat nrsquoest appreacuteciable que pour des scegravenes simples Il faut pour cela que les diffeacuterentes sources composant cette scegravene aient des supports spectraux aussi distincts que possible Les diffeacuterentes sous-bandes sont alors placeacutees agrave un certain angle transmis en parallegravele et crsquoest cette scegravene reconstitueacutee qui va ecirctre encodeacutee au 1er ordre de maniegravere agrave recreacuteer les signaux X et Y

Figure 47 - Principe de la restitution de lrsquoordre 1 agrave partir du signal mono W Ce scheacutema rappelle une meacutethode deacuteveloppeacutee dans le cas steacutereacuteo appeleacutee BCC

(Binaural Cue Coding) [Faller and Baumgarte 2002] Le principe est drsquoextraire et coder des informations permettant la reconstruction binaurale drsquoun signal agrave savoir les diffeacuterences interaurales drsquointensiteacute et de temps (Interaural LevelTime Difference ILD et ITD) qui correspondent dans le cas drsquoune restitution sur un casque aux diffeacuterences drsquointensiteacute et de temps inter-canal (Inter-Channel LevelTime Difference ICLD et ICTD) qui sont mesureacutees agrave partir drsquoune analyse en sous-bandes Les auteurs y ont plus reacutecemment associeacute un indice de correacutelation interaurale mesureacute agrave partir de la correacutelation inter-canal (ICC) afin de caracteacuteriser la preacutecision spatiale (la ldquolargeurrdquo drsquoune source)

Figure 48 - Scheacutema de principe de la meacutethode BCC [Faller and Baumgarte 2003]

On observe en pratique des deacutefauts lieacutes agrave la brutaliteacute de la proceacutedure une sous-

bande ne peut ecirctre que placeacutee agrave la position indiqueacutee et ne peut pas rester floue diffuse ou encore ecirctre placeacutee agrave plusieurs endroits Pour y remeacutedier nous avons ajouteacute 2 traitements agrave la synthegravese Tour drsquoabord nous avons appliqueacute un leacuteger lissage soulageant les effets deacutesagreacuteables dus au saut du contenu drsquoune sous-bande drsquoun endroit agrave un autre entre de 2 fenecirctres conseacutecutives Les positions varient alors de faccedilon plus souple au sein drsquoune mecircme sous-bande traduisant une hypothegravese de continuiteacute spatiale (pas de deacuteplacement brusque) La contrepartie est que cette hypothegravese est lieacutee agrave une hypothegravese de continuiteacute spectrale

42 Quelques applications 37

La 2egraveme ameacutelioration concerne le positionnement des sources En incluant dans la transmission un critegravere de pertinence on peut savoir srsquoil est raisonnable de placer une sous-bande agrave un angle preacutecis ou bien si lrsquoanalyse eacutetait flou agrave son sujet auquel cas un positionnement impreacutecis serait preacutefeacuterable Le paramegravetre choisi est une combinaison des critegraveres eacutevoqueacutes en 342 il nous permet de placer la sous-bande de maniegravere plus ou moins prononceacutee

43 Comparaison avec une meacutethode existante Certains auteurs ont deacutejagrave essayeacute drsquoanalyser un contenu ambisonique pour

retrouver les positions des sources Ville Pulkki a ainsi deacutecrit dans [Pulkki and Faller 2006] une meacutethode drsquoanalyse du B-format baseacutee sur lrsquoeacutetude des amplitudes des signaux W X Y et Z

Figure 49 - X et Y dans le cas drsquoune sinusoiumlde placeacutee agrave 15deg (agrave gauche) et 120deg (agrave droite)

Les figures ci-dessus montrent les relations drsquoamplitudes (algeacutebriques) qui relient

X et Y agrave lrsquoangle de la source On voit que lrsquoanalyse de ces amplitudes respectives permet de retrouver la position de la source en effet on a pour une source unique les relations de lrsquoeacutequation (11) rappeleacutee ici

⎪⎪

⎪⎪

=

=

=

=

δ

δθ

δθ

sin2

cossin2

coscos2

SZ

SY

SX

SW

(41)

On peut donc theacuteoriquement retrouver les valeurs de θ et δ par relations

trigonomeacutetriques Ainsi on a

⎪⎪⎩

⎪⎪⎨

=

=

2)sin(

)tan(

WZ

XY

δ

θ (42)

Chapitre 4 Reacutesultats et applications 38

On peut donc trouver les angles θ et δ agrave π pregraves Pour lever lrsquoambiguiumlteacute une eacutetude de signe est neacutecessaire Mais dans le cas de θ le signe de X et de Y agrave δ fixeacute deacutepend aussi bien de θ que S Il faut srsquointeacuteresser aux signes de θcos et θsin crsquoest-agrave-dire

aux signes de WX et

WY Dans la pratique on srsquointeacuteressera aux signes de et

pour se preacutevenir des divisions par zeacuteros

XW sdot YW sdot

XW sdot et YW sdot sont proportionnels agrave toujours positif

2S

Les auteurs deacutecrivent eacutegalement dans leur article un critegravere appeleacute diffuseness qui

peut ecirctre compareacute agrave un critegravere de pertinence inverseacute Ce paramegravetre calculeacute par agrave 1 - R ougrave R est un rapport de normes est tregraves proche du critegravere de norme relative deacutecrit en 342 Il peut donc ecirctre utiliseacute de la mecircme faccedilon et permettre ainsi une pleine comparaison

Cette meacutethode a eacuteteacute impleacutementeacutee pour pouvoir ecirctre compareacutee avec la meacutethode

par ACP Tous les paramegravetres ont scrupuleusement eacuteteacute gardeacutes identiques et plusieurs reacuteglages ont eacuteteacute testeacutes Les courbes ci-dessous preacutesentent les reacutesultats des analyses de la scegravene deacutecrite en 332 avec un pas de 50ms un overlap de 50 un NFFT de 2048 et 40 bandes freacutequentielles Nous avons repreacutesenteacute tous les angles trouveacutes crsquoest-agrave-dire un par bande et par trame pour srsquoaffranchir de la seacutelection des k-moyennes

π

0

minusπ

Figure 410 - Angles trouveacutes par lrsquoalgorithme de [Pulkki and Faller 2006] Le diamegravetre du point correspondant agrave la pertinence

43 Comparaison avec une meacutethode existante 39

π

0

minusπ

Figure 411 - Angles trouveacutes par une ACP pour la mecircme scegravene On remarque que les points excentriques sont moins nombreux et plus rarement trouveacutes comme pertinents

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee

441 Position du problegraveme

Une application directe de ces analyses a eacuteteacute deacuteveloppeacutee pour la confeacuterence audio

spatialiseacutee La confeacuterence audio utilise en effet la spatialisation pour permettre une meilleure seacuteparation par lrsquooreille des diffeacuterents locuteurs Ainsi si plusieurs personnes parlent en mecircme temps il sera tregraves difficile de comprendre chacun individuellement si ces voix sont restitueacutees en mono mais on pourra focaliser lrsquoattention sur chacune drsquoentre elles si elles sont seacutepareacutees spatialement (crsquoest lrsquoeffet cocktail party [Cherry 1953])

Lrsquoobjectif eacutetait de veacuterifier qursquoil eacutetait possible de conserver la spatialisation drsquoune

confeacuterence en nrsquoayant transmis qursquoun downmix mono des signaux Ce concept semble se rapprocher de celui deacutecrit en 422 mais une diffeacuterence fondamentale les seacutepare la confeacuterence audio spatialiseacutee nrsquoest pas codeacutee au format ambisonic mais les signaux traiteacutes sont directement les sons provenant des diffeacuterents locuteurs crsquoest-agrave-dire les sources elles-mecircmes Ainsi lrsquoanalyse ne porte plus sur une scegravene spatialiseacutee mais sur des signaux seacutepareacutes Il nrsquoy a ainsi plus drsquoindices spatiaux agrave trouver

Avoir accegraves aux sources permet drsquoobtenir des informations plus preacutecises pour

permettre une seacuteparation apregraves la transmission Comme nous lrsquoavons vu lrsquoanalyse drsquoune scegravene spatialiseacutee ne permet que dans drsquoultimes cas agrave la seacuteparation des sources ce qui est ici notre point de deacutepart et sera en fait notre point drsquoarriveacutee En effet nous tenterons de retrouver les sources seacutepareacutees apregraves la transmission de maniegravere agrave pouvoir par la suite les spatialiser agrave loisir (voir Figure 413)

Chapitre 4 Reacutesultats et applications 40

442 Solution proposeacutee Les paramegravetres extraits ne sont donc plus des positions de sources Nous avons

choisi de mesurer puis transmettre lrsquoeacutenergie de chaque signal dans chaque sous-bande en parallegravele du downmix En effet une bonne seacuteparation sera possible si lrsquoon sait quelle proportion de chaque source compose chaque sous-bande du signal mono

Figure 412 - Scheacutema de principe drsquoune confeacuterence audio spatialiseacutee

Figure 413 - Scheacutema ameacutelioreacute (deacutebit reacuteduit)

en pointilleacutes informations compleacutementaires (eacutenergie) Lrsquoanalyse en sous-bandes a lieu dans le serveur (Figure 414) Celui-ci calcule

lrsquoeacutenergie de chaque signal dans chaque sous-bande sur une trame donneacutee Crsquoest ce paramegravetre qui associeacute au signal mono M permettra la seacuteparation des sources dans le terminal (Figure 415) Ce dernier reacutepartira en effet les diffeacuterentes sous-bandes vers chaque signal reconstitueacute proportionnellement agrave cette information pour reconstruire les 4 sources originales

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee 41

Figure 414 - Analyse principe de lrsquoencodage dans le serveur

Figure 415 - Synthegravese principe du deacutecodage dans le client

Afin de reacuteduire au maximum les informations compleacutementaires agrave transmettre on

peut remarquer qursquoau cours drsquoune confeacuterence audio on a tregraves souvent un seul locuteur les participants ne parlent que tregraves rarement tous en mecircme temps Ceci implique que les signaux en entreacutee sont tregraves souvent tous nuls sauf 1 et appliquer un seuil en entreacutee de lrsquoanalyse permet outre lrsquoallegravegement du traitement drsquoavoir moins de paramegravetres agrave transmettre

Ce scheacutema simplifieacute ne tient pas compte des problegravemes de phase rien nrsquoindique

que les eacutenergies des signaux srsquoajoutent bien dans chaque sous-bande lors du downmix on peut tregraves bien avoir des oppositions de phase La solution est drsquoeffectuer le downmix (la somme) des signaux dans chaque sous-bande en prenant soin drsquoavoir recaleacute les phases au preacutealable Ceci nrsquoa un sens que pour des bandes suffisamment eacutetroites Les deacutecalages temporels appliqueacutes pour le recalage sont alors des paramegravetres suppleacutementaires agrave transmettre et sont pris en compte lors de la synthegravese au niveau du reacutepartiteur qui repositionnera la phase de chaque trame pour chaque signal

Chapitre 4 Reacutesultats et applications 42

443 Bilan Le reacutesultat du deacutecodage a pu ecirctre eacutecouteacute de diffeacuterentes maniegraveres les sources

reconstitueacutees individuellement ensemble en steacutereacuteo drsquoamplitude et sur un systegraveme 51 On note que les sources ont eacuteteacute assez bien seacutepareacutees mais que des artefacts sont audibles en particulier lorsque le nombre de locuteurs simultaneacutes augmentent Ces artefacts sont un meacutelange des voix qui nrsquoest gecircnant que lorsqursquoon les eacutecoute de maniegravere seacutepareacutee En effet lrsquoeacutecoute simultaneacutee de ces signaux syntheacutetiseacutes mecircme placeacutes agrave des positions distinctes sur un systegraveme de diffusion multicanal est tout agrave fait satisfaisante

Ce proceacutedeacute pour pouvoir ecirctre appliqueacute doit fonctionner en temps-reacuteel Cette

contrainte nrsquoa pas du tout eacuteteacute prise en compte lrsquoobjectif eacutetant de valider la faisabiliteacute drsquoune reconstruction Les programmes sous Matlab nrsquoont pas eacuteteacute optimiseacutes et ne respectent pas cette contrainte

43

Conclusion Nous avons preacutesenteacute dans ce rapport le principe et lrsquoapplication de plusieurs

meacutethodes drsquoanalyses spatiales de scegravenes ambisoniques conccedilues et reacutealiseacutee pendant le stage Le format HOA est en effet une repreacutesentation du champ acoustique deacutecomposeacute sur une base drsquoharmoniques spheacuteriques jusqursquoagrave un certain ordre agrave la maniegravere drsquoun deacuteveloppement limiteacute Il contient donc de maniegravere indirecte des indications spatiales qursquoon peut extraire avec des analyses comme lrsquoanalyse en composantes principales

Ces analyses nous permettent de deacuteterminer les positions des sources qui

composent la scegravene sonore Nous avons appliqueacute les reacutesultats de ces analyses agrave 2 types de synthegravese lrsquoune destineacutee aux transmissions bas deacutebit lrsquoautre agrave un traitement de restitution de la preacutecision spatiale dans le cas ougrave des ordres supeacuterieurs dont le but est drsquoaffiner la perception de localisation nrsquoauraient pas pu ecirctre transmis Ces algorithmes par le codage drsquoinformations spatiales qursquoils permettent pourront trouver bien drsquoautres applications dans la transmission et le codage ougrave la description du contenu est de plus en plus utiliseacutee (comme par exemple dans la norme MPEG)

Des ameacuteliorations sont possibles sur plusieurs points tout drsquoabord lrsquoexploitation

de toutes les composantes de lrsquoACP est agrave lrsquoeacutetude et semble pouvoir donner des reacutesultats inteacuteressants Drsquoautre part on a vu que le reacutesultat final est tregraves deacutependant de la bonne convergence de lrsquoalgorithme des k-moyennes utiliseacute pour traiter les donneacutees brutes de lrsquoanalyse en sous-bandes Or cet algorithme neacutecessite des reacuteglages tregraves fins et une connaissance a priori du nombre de sources est presque indispensable Drsquoautres algorithmes plus complexes de suivi de formes pourraient ecirctre avantageusement utiliseacutes pour deacutetecter dans tous les angles trouveacutes lesquels sont susceptibles de former une trajectoire

45

Annexe A

Deacuteveloppement du champ acoustique en harmoniques spheacuteriques

A1 Eacutequation drsquoonde en coordonneacutees spheacuteriques On se place dans lrsquoespace euclidien agrave 3 dimensions muni drsquoun systegraveme de

coordonneacutees spheacuteriques Un point M y est repeacutereacute par son rayon r son azimut θ et son eacuteleacutevation δ tels que repreacutesenteacutes sur la figure ci-dessous

- r est la norme du vecteur position rr crsquoest-agrave-dire la distance OM - [20[ πθ isin est lrsquoangle formeacute par le projeteacute du point sur le plan xOy et lrsquoaxe Ox

- ]2

2

[ ππδ minusisin est lrsquoangle formeacute par le plan xOy et le vecteur position2

Figure A1 - Systegraveme de coordonneacutees spheacuteriques

2 Cet angle diffegravere de lrsquoangle polaire usuel δπϕ minus=

2 habituellement pris entre lrsquoaxe Oz et le

vecteur position

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 46

Les relations entre les coordonneacutees spheacuteriques et les coordonneacutees carteacutesiennes sont

⎪⎩

⎪⎨

===

δδθδθ

sincossincoscos

zryrx

(A1)

On srsquointeacuteresse dans ce repegravere agrave lrsquoeacutequation de propagation des ondes acoustiques

de pression On se place dans les conditions classiques drsquoacoustique lineacuteaire (les variations de p sont petites par rapport agrave la pression atmospheacuterique) en supposant que lrsquoair est un fluide parfait (on y neacutegligera les pheacutenomegravenes dissipatifs) Dans une reacutegion de lrsquoespace ne comprenant pas de sources lrsquoeacutequation drsquoonde srsquoeacutecrit alors

0)(12

2

2 =⎟⎟⎠

⎞⎜⎜⎝

⎛partpart

minus∆ trptc

r (A2)

p eacutetant la pression et c la vitesse de propagation du son dans lrsquoair

Cette eacutequation devient dans le domaine freacutequentiel lrsquoeacutequation de Helmholtz

( ) 0)(2 =+∆ ωrpk r (A3)

ck ω

= eacutetant le nombre drsquoonde

En coordonneacutees spheacuteriques cette eacutequation srsquoeacutecrit

0sin1sin

sin11 2

2

2

222

2 =⎥⎦

⎤⎢⎣

⎡+

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart pk

rrrr

rr δθθθ

θθ (A4)

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques Drsquoapregraves [Bruneau 1983] elle admet des solutions agrave variables seacutepareacutees de la forme

)()()( δθ ΦΘ= rRp (A5) Ces solutions sont respectivement - pour la partie radiale une combinaison des fonctions de Bessel spheacuteriques de

premiegravere et seconde espegravece3 jn et nn

)()()( krBnkrAjrR nn += (A6) 3 Les fonctions de Bessel spheacuteriques de seconde espegravece sont eacutegalement appeleacutees fonctions de

Neumann

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 47

Ces fonctions sont deacutefinies comme suit

(A7)

Figure A2 - Fonctions de Bessel spheacuteriques pour les ordres 0 agrave 5 )(krjm

- pour la partie azimutale les fonctions )(θΘ

)sin()cos()( 21 θθθ ncnc +=Θ (A8) Eacutetant donneacute la deacutefinition de lrsquoangle Θ celui-ci doit neacutecessairement ecirctre de

peacuteriode 2π ))2()(( πθθ +Θ=Θ ce qui impose agrave n drsquoecirctre entier

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 48

- pour la partie polaire les fonctions de Legendre associeacutees )(sinδmnP

nm

nn

mn dPdP

)(sin)(sinsin)(sin

δδ

δδ = pour ⎩⎨⎧

gt=

nmavecnm 321

(A9)

ougrave les )(sinδnP sont les polynocircmes de Legendre de degreacute n en δsin deacutefinis par reacutecurrence

( )

11

22

1

0

sin)12()(sin)1(

1cos321)(sin

sin)(sin0)(sin

minus+ minus+=+

minus=

==

mmm mPPmPmet

P

PP

δδ

ϕδ

δδδ

(A10)

et de formule geacuteneacuterale

mm

m

mm dd

mP )1(sin

)(sin21)(sin 2 minus= δ

δδ (A11)

On peut appliquer aux fonctions )(sinδmnP la semi-normalisation de Schmidt

)(sin)()()(sin~ δεδ mnnmn P

nmnmP

+minus

= ougrave 10 =ε et 2=nε pour 1gen (A12)

En appariant les fonctions polaires et azimutales on deacutefinit les harmoniques

spheacuteriques de degreacute et drsquoordre)1(mnY 0gem 4 mnn lele0 et de degreacute et

drsquoordre (voir Figure A3)

)1(minusmnY 1gem

mnn lele1

)(sin~)sin()(

)(sin~)cos()()1(

)1(

δθδθ

δθδθ

mnmn

mnmn

PnY

PnY

=

=minus

(A13)

4 En geacuteneacuteral lorsque le degreacute et lrsquoordre ne sont pas eacutevoqueacutes conjointement on parle par abus de langage drsquoharmoniques drsquoordre m plutocirct que de degreacute m

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 49

soit

1)(sin

)()()12(2sin)(

)(sin)()()12(2cos)(

1)(sin)1()1()12(cos)(

)1(

)1(

1)1(

1

gt

⎪⎪⎩

⎪⎪⎨

+minus

+=

+minus

+=

=+minus

+=

minus

npourP

nmnmmnY

PnmnmmnY

npourPmmmY

mnmn

mnmn

mm

δθδθ

δθδθ

δθδθ

(A14)

La solution angulaire geacuteneacuterale srsquoeacutecrit alors sous la forme drsquoun deacuteveloppement sur

la base drsquoharmoniques spheacuteriques

( ) ( )sum minus

=minus+=Θ

1

1)1()1()( n

m mnmnmnmnn YBYBθ (A15) La solution geacuteneacuterale est alors la seacuterie de Fourier-Bessel

sum sum sum+infin

= = plusmn=

=0 0 1

)()( )()()(m

m

nmnmnm

m YBkrjikrpσ

σσ δθδθ (A16)

ougrave

intint⎪⎩

⎪⎨⎧

minusisin

isin

plusmnplusmn =

]2

2

[

[20[

)1()1( )()1()(

1

ππδ

πθ

δθδθ

S

mnm

mmn dSYpkrji

B (A17)

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 50

Tableau A1 - Expressions analytiques des harmoniques spheacuteriques pour les ordres 0 agrave 3

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 51

Figure A3 - Repreacutesentation des harmoniques spheacuteriques pour les ordres m = 0 agrave 3 Les

couleurs rouge et bleu indiquent respectivement des valeurs positives et neacutegatives

53

Annexe B

Compleacutements theacuteoriques sur le deacutecodage HOA

B1 Vecteur veacutelociteacute et vecteur eacutenergie Le vecteur veacutelociteacute est un indice de la direction apparente drsquoune source introduit

par Gerzon [Gerzon 1992] Il se calcule comme le rapport de la vitesse particulaire sur la pression acoustique

)()(

)()(1

δθδθ

δθδθ

ρ rprp

ki

rprv

cV nabla

minus=minus=rrr

(B1)

Dans le cas drsquoune onde plane le vecteur veacutelociteacute V

rest ainsi directement un

vecteur unitaire orienteacute vers la direction de provenance de lrsquoonde En geacuteneacuteralisant agrave une superposition drsquoondes planes en phase ou opposition de phase eacutemises par L haut-parleurs agrave eacutequidistance du point drsquoobservation on obtient la formule suivante

VVL

ll

L

lll

urg

ugV r

rr

==

sum

sum

=

=

1

1 (B2)

ougrave deacutesigne la direction du llur egraveme haut-parleur auquel est associeacute le gain gl et Vr Vur correspondent respectivement agrave la norme et agrave la direction du vecteur veacutelociteacute

Le vecteur eacutenergie est un autre indice de direction Il est deacutefinit par

EEL

ll

L

lll

urg

ugE r

rr

==

sum

sum

=

=

1

2

1

2

(B3)

Annexe B Compleacutements theacuteoriques sur le deacutecodage HOA 54

Il peut srsquointerpreacuteter comme une indication de la concentration de lrsquoeacutenergie ( ) et de sa direction moyenne de provenance (

Er

Eur ) On a toujours 1ltEr sauf dans le cas ougrave un seul haut-parleur contribue agrave la reconstruction (dans ce cas ) peut ecirctre consideacutereacute comme un indicateur de preacutecision de la localisation

1=Er Er

B2 Deacutecodages optimiseacutes La restitution la plus confortable drsquoun champ sonore veillera donc agrave maximiser

tout en essayant de garder le plus proche possible de 1 Lrsquooptimisation du deacutecodage consiste alors agrave multiplier chaque coefficient de la matrice de deacutecodage D (voir (111) par des gains calculeacutes drsquoapregraves des critegraveres drsquooptimisation

Er Vr

Ainsi le deacutecodage appeleacute max- maximise la norme du vecteur eacutenergie en

sacrifiant celle du vecteur veacutelociteacute puisqursquoon a dans ce deacutecodage (pour des configurations reacuteguliegraveres de haut-parleurs) Ce deacutecodage est donc avantageux par rapport au deacutecodage basique pour les hautes freacutequences ou dans le cas drsquoun auditoire eacutelargi Le deacutecodage in-phase va encore plus loin en cherchant agrave annuler complegravetement les contributions des haut-parleurs placeacutes agrave lrsquoopposeacute de la direction de provenance de lrsquoonde reproduite Ce critegravere est utile dans le cas drsquoune eacutecoute dans une position tregraves excentreacutee agrave laquelle on pourrait percevoir de faccedilon preacutedominante la contribution en opposition de phase drsquoun tel haut-parleur

Er

EV rr =

Ces diffeacuterents deacutecodages ont chacun des avantages et inconveacutenients Ainsi seul le

deacutecodage basique garantit = 1 le deacutecodage max- permet une preacutecision meilleure notamment en haute freacutequence et le deacutecodage in-phase est plus adapteacute agrave un auditoire plus large Jeacuterocircme Daniel [Daniel 2000] propose ainsi de changer le deacutecodage en fonction de la freacutequence et de lrsquoeacutetendue de la zone drsquoeacutecoute deacutesireacutee

Vr Er

Figure B1 - Deacutecodages les plus approprieacutes par sous-bande et en fonction de lrsquoeacutetendue de la

zone drsquoeacutecoute [Daniel 2000]

55

Annexe C

Analyse en composantes principales

C1 Espace des donneacutees Eacutegalement souvent appeleacutee transformeacutee de Karhunen-Loegraveve5 (TKL) lrsquoanalyse en

composantes principales (ACP) est une technique statistique de repreacutesentation drsquoinformation Introduite sur 2 variables par Pearson [Pearson 1900] elle a eacuteteacute eacutetendue par Hotelling [Hotelling 1933] Elle a pour but de caracteacuteriser des donneacutees drsquoun espace agrave N dimensions dans un sous-espace plus petit en minimisant les pertes drsquoinformation due agrave la projection crsquoest-agrave-dire en maximisant la variance projeteacutee Les donneacutees ainsi reacuteorganiseacutees deviennent indeacutependantes Les variables correacuteleacutees sont remplaceacutees par de nouvelles variables deacutecorreacuteleacutees et de variance maximale combinaisons lineacuteaires des variables initiales

Les donneacutees sont constitueacutees de n variables aleacuteatoires (dans notre cas des canaux)

et p reacutealisations ou individus (des eacutechantillons)

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

pn

p

ji

n

xx

x

xx

M

LLL

MOMNM

MLLM

MNMOM

LLL

1

111

(C1)

Ces donneacutees sont geacuteneacuteralement centreacutees et peuvent aussi ecirctre reacuteduites4 (on note

1x la moyenne de la variable et 1x )( 1xσ sa variance) Reacuteduire ou non le nuage de points (ie les p reacutealisations de la variable aleacuteatoire) est un choix de modegravele

5 Quelques rares sources mentionnent une diffeacuterence entre ACP et TKL en placcedilant celle-ci au

niveau du choix de la reacuteduction des donneacutees dans le cas dune ACP les donneacutees seraient centreacutees et reacuteduites alors qursquoelles seraient uniquement centreacutees pour une TKL

Annexe C Analyse en composantes principales 56

- si on ne reacuteduit pas le nuage une variable agrave forte variance pourrait tirer tout lrsquoeffet de lrsquoACP agrave elle

- si on reacuteduit le nuage une variable qui ne serait qursquoun bruit se retrouverait avec une variance apparente eacutegale agrave une variable informative

M est centreacutee

⎥⎥⎥

⎢⎢⎢

minusminusminus

minusminus=

npn

pi

ji

nn

xxxxxx

xxxxM

K

MM

K

11

11

11

ˆ (C2)

M~ est centreacutee et reacuteduite

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

minusminus

minus

minusminus

=

)()(

)(

)()(~

1

11

1

1

111

n

npn

pi

ij

i

n

nn

xxx

xxx

xxx

xxx

xxx

M

σσ

σ

σσ

K

MM

K

(C3)

On multiplie ensuite la matrice obtenue par sa transposeacutee pour obtenir - La matrice de covariance MMC t

vˆˆ sdot=

- La matrice de correacutelation MMC tr

~~ sdot= Ces matrices sont carreacutees (N x N) symeacutetriques et reacuteelles Elles sont donc

diagonalisables dans une base orthonormeacutee 6 Le principe de lrsquoACP est alors de trouver un axe u issu drsquoune combinaison lineacuteaire

des tel que le critegravere drsquoinertie du nuage autour de cet axe soit maximal Le critegravere drsquoinertie couramment utiliseacute est la variance Il faut donc trouver lrsquoaxe qui porte le maximum de variance crsquoest-agrave-dire lrsquoaxe u tel que la projection du nuage sur cet axe ait une variance maximale

nx

6 Nos donneacutees eacutetant ici des valeurs drsquoeacutechantillons elles sont par nature centreacutees et reacuteduites On

formera donc naturellement la matrice de correacutelation

C2 Diagonalisation 57

C2 Diagonalisation Pour alleacuteger lrsquoeacutecriture de la suite de cette partie nous consideacutererons que les

variables ont eacuteteacute centreacutees et si besoin reacuteduites et nous noterons ces variables

transformeacutees (ainsi

ix ix

iii xxx minuslarr ou bien )( i

iii x

xxxσ

minuslarr ) On fera de mecircme pour M

( ou bien MM ˆlarr MM ~larr ) et C ( vCC larr ou bien rCC larr ) La projection drsquoun eacutechantillon sur un axe u srsquoeacutecrit ix

uMxiu sdot=)(π (C4) La variance empirique de )( iu xπ vaut donc

uMMuxx ttiu

tiu sdotsdotsdot=sdot )()( ππ (C5)

Or on a vu que est diagonalisable dans une base orthonormeacutee donc

on peut noter P le changement de base associeacute et ∆ la matrice diagonale formeacutee de son spectre Ainsi

MMC t=

n

i 1)(λ PPMMC tt ∆==

)()()()( PuPuuPPuxx ttt

iut

iu sdot∆sdot=sdot∆sdot=sdotππ (C6) On pose v = Pu Chercher lrsquoaxe u qui maximise )( iu xπ revient donc agrave chercher le

vecteur v qui maximise ougravevvt ∆ )( 1 ndiag λλ K=∆ avec les iλ rangeacutes par ordre deacutecroissant Ce vecteur est trivialement le premier vecteur unitaire et on a alors

1λ=∆vvt

Ainsi le vecteur qui porte la plus grande part drsquoinertie du nuage est le premier

vecteur propre de C (premier par norme deacutecroissante) De mecircme le deuxiegraveme vecteur qui explique la plus grandelt part de lrsquoinertie restante est le deuxiegraveme vecteur propre de C Finalement la question de lrsquoACP se ramegravene agrave un problegraveme de diagonalisation de la matrice de correacutelation

C3 Code Matlab

function [vep vap] = pca(f N) f donneacutees N nombre de composantes agrave garder cor = f f formation de la matrice de correacutelation [vep vap] = eig(cor) calcul des vecteurs (vep) et valeurs (vap) propres [vap ind] = sort(diag(vap)) tri des valeurs propres par ordre croissant vap = flipud(vap) disposition inverse par ordre drsquoimportance vep = vep( flipud(ind)) classement en conseacutequence des vecteurs propres vep = vep( 1N) on ne garde que les N premiers vecteurs propres

Annexe C Analyse en composantes principales 58

59

Annexe D

Analyse en sous-bandes

D1 La transformeacutee de Fourier agrave court terme (TFCT) Pour affiner lrsquoanalyse les signaux sont donc deacutecoupeacutes en bandes de freacutequence par

TFCT La TFCT consiste agrave effectuer des transformeacutees de Fourier discregravetes sur des portions de signal fenecirctreacutees reacuteguliegraverement espaceacutees

On rappelle que la transformeacutee de Fourier drsquoun signal x(t) est deacutefinie (lorsque

lrsquointeacutegrale existe) par

int+infin

infinminus

minus= dtetxfX ftiπ2)()( (D1)

La transformeacutee de Fourier agrave temps discret (TFTD) drsquoun signal x(t) srsquoeacutecrit

sum+infin

minusinfin=

minus=n

fnienxfX π2)()( (D2)

La transformeacutee de Fourier discregravete (TFD) drsquoun signal discret x(k) est deacutefinie par

sum+infin

minusinfin=

minus=

n

Nkni

enxkXπ2

)()( (D3)

La TFCT discregravete est une TFD observeacutee sur une fenecirctre wa de taille N

summinus

=

minus+=

1

0

2)())(()(

N

n

Nnki

aaa enwtnxkXπ

ττ (D4)

ougrave )(taτ est lrsquoinstant drsquoanalyse

Annexe D Analyse en sous-bandes 60

Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT [Laroche 1995]

D2 Synthegravese par addition-recouvrement Lors de la synthegravese apregraves le deacutecoupage et lrsquoanalyse des fenecirctres on cherche agrave

reconstruire le signal temporel agrave partir de sa repreacutesentation freacutequentielle Pour cela on utilise la meacutethode OLA (overlap and add addition-recouvrement) qui consiste agrave prendre la TFCT inverse des spectres Xt puis agrave additionner les signaux obtenus apregraves les avoir multiplieacutes par une fenecirctre de pondeacuteration en les faisant se recouvrir partiellement

Le reacutesultat est donneacute par

sum=

minusminus=T

tsss tnxtnwnx

s1

))((~))(()(~ ττ τ (D5)

avec )()( tt as ττ = et summinus

=

=1

0

2))((~1)(~ N

k

Nkni

s ektXN

nxs

π

τ τ

Lors de la mise en œuvre de ce traitement il faut srsquoassurer drsquoecirctre en mesure de

reconstruire parfaitement un signal lorsqursquoaucune transformation ne lui est appliqueacutee Le critegravere de reconstruction parfaite condition suffisante est alors

sum=

=minusminusT

tasaa tnwtnw

11))(())(( ττ quelque soit n (D6)

D2 Synthegravese par addition-recouvrement 61

Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add [Laroche 1995]

Plusieurs paramegravetres sont agrave choisir avec soin Le premier drsquoentre eux est le type

de fenecirctre agrave utiliser Les diffeacuterentes options qui se preacutesentent agrave nous sont - la fenecirctre rectangulaire qui preacutesente dans son spectre le lobe principal le plus

eacutetroit mais des lobes secondaires non neacutegligeables - la fenecirctre de Hamming au lobe principal un peu plus large mais pour laquelle le

1er lobe secondaire se situe agrave -43 dB - la fenecirctre de Hann (ou cosinus sureacuteleveacute) qui ressemble agrave la preacuteceacutedente avec un

1er lobe secondaire plus fort mais une pente de 18 dB par octave pour les lobes suivants

- les fenecirctres de Blackman-Harris aux lobes secondaires tregraves bas mais au lobe principal plus large

Fenecirctre Lobe 2aire

(dB) Pente

(dBoct) Bande passante

agrave 6 dB (bins) Rectangulaire -13 -6 121 Triangulaire -27 -12 178

Hann -32 -18 200 Hamming -43 -6 181

Blackman-Harris 4 -92 -6 272

Tableau D1 - Caracteacuteristiques des principales fenecirctres drsquoanalyse [Harris 1978] Le meilleur compromis est donc dans notre contexte la fenecirctre de Hann ou celle

de Hamming

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 3: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

v

Table des matiegraveres Preacutesentation de France Teacuteleacutecom RampD1 Introduction2 Chapitre 1 Ambisonics3

11 Principe 3 111 Du B-format agrave HOA3 112 Repreacutesentation de scegravene sonore avec HOA 5

12 Encodage et deacutecodage spatial 7 121 Encodage spatial 7 122 Deacutecodage spatial 8

13 Critique de la technologie HOA 11 131 Bilan 11 132 Limites pratiques11

Chapitre 2 Analyser un contenu HOA 13 21 Objectifs 13

211 Restitution de la spatialisation agrave partir drsquoun downmix mono13 212 Ameacutelioration de la preacutecision spatiale 13

22 Principe de lrsquoextraction drsquoinformation spatiale avec une ACP 14 221 Information spatiale 14 222 Application de lrsquoanalyse en composantes principales 15

23 Meacutethodologie 16 231 Construction de scegravenes artificielles 16 232 Exploitation drsquoenregistrements naturels 18 233 Visualisations des reacutesultats 18 234 Diffeacuterents modes drsquoeacutecoute 19

Chapitre 3 Description des analyses 21 31 Deacutetermination des directions principales 21

311 Base des algorithmes 21 312 Traitement du champ reacutesiduel 22

32 Extension agrave la 3D23 33 Analyse aux ordres supeacuterieurs 23

331 Description 23 332 Illustration sur une scegravene virtuelle24

34 Traitement des donneacutees 26 341 Algorithme des k-moyennes26 342 Critegraveres de pertinence 27

vi

343 Lissages29 35 Exploitation de toutes les composantes de lrsquoACP29

Chapitre 4 Reacutesultats et applications 31 41 Illustration et critique des reacutesultats obtenus31

411 Avant-propos 31 412 Scegravene 2D artificielle agrave 4 sources fixes 31 413 Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile32 414 Scegravene 3D artificielle agrave 1 source et bruit de fond 33 415 Scegravene 2D naturelle agrave 1 source 34

42 Quelques applications34 421 Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre 2 agrave partir

de lrsquoordre 1 34 422 Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave partir

de W 36 43 Comparaison avec une meacutethode existante 37 44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee

39441 Position du problegraveme39 442 Solution proposeacutee40 443 Bilan 42

Conclusion43 Annexe A Deacuteveloppement du champ acoustique en harmoniques

spheacuteriques 45 A1 Eacutequation drsquoonde en coordonneacutees spheacuteriques 45 A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 46

Annexe B Compleacutements theacuteoriques sur le deacutecodage HOA 53 B1 Vecteur veacutelociteacute et vecteur eacutenergie 53 B2 Deacutecodages optimiseacutes 54

Annexe C Analyse en composantes principales55 C1 Espace des donneacutees 55 C2 Diagonalisation 57 C3 Code Matlab 57

Annexe D Analyse en sous-bandes 59 D1 La transformeacutee de Fourier agrave court terme (TFCT)59 D2 Synthegravese par addition-recouvrement60

Bibliographie 63

vii

Table des figures Figure 11 - Scheacutema global du principe de la technologie HOA 4 Figure 12 - Prototype de microphone HOA drsquoordre 45 Figure 13 - Erreur de reconstruction drsquoune onde plane en fonction de lrsquoordre M

et du produit kr6 Figure 14 - Repreacutesentation dans le plan horizontal dans une zone de diamegravetre 1m

de la reconstruction drsquoune onde plane pour plusieurs ordres et freacutequences 6 Figure 15 - Encodage horizontal 8 Figure 16 - Prise de son virtuelle eacutequivalente agrave un encodage au 1er ordre et un

deacutecodage basique sur une disposition en 2D hexagonale 10 Figure 17 - Directiviteacutes theacuteoriques et reconstruites dans le plan horizontal12 Figure 21 - Y en fonction de X dans le cas drsquoun bruit blanc enregistreacute 15 Figure 22 - Y en fonction de X dans le cas drsquoun son placeacute artificiellement 15 Figure 23 - Signes de W X et W Y en fonction du cadran16 Figure 24 - Interface graphique du logiciel Bidule 17 Figure 25 - Repreacutesentation de tables des couleurs19 Figure 26 - Repreacutesentation de la pertinence 19 Figure 31 - Scheacutema geacuteneacuteral drsquoanalyse 21 Figure 32 - Filtres utiliseacutes inspireacutes des filtres ERB 22 Figure 33 - Position des sources de la scegravene de test agrave 4 sources dont 1 mobile24 Figure 34 - Angles drsquoune scegravene virtuelle ayant 1 source mobile et 3 sources fixes

25 Figure 35 - Angles de la mecircme scegravene trouveacutes agrave partir drsquoune ACP sur les ordres 0

et 2 25 Figure 36 - Angles drsquoune scegravene reacuteelle constitueacutee drsquoun bruit parcourant le cercle

trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 0 et 2 et 0 et 426 Figure 37 - Repreacutesentation temps-freacutequence des angles28 Figure 38 - Eacutenergie de ce mecircme son 28 Figure 39 - Norme relative de la 1egravere composante28 Figure 310 - Pondeacuteration appliqueacutee agrave lrsquoentreacutee des k-moyennes 29 Figure 311 - Directiviteacutes seacuteparant ideacutealement 4 sources placeacutees agrave 17 73 195 et -

58deg 30 Figure 41 - Angles theacuteoriques et calculeacutes pour une scegravene constitueacutee de 4 sons

fixes 32 Figure 42 - Angles theacuteoriques et calculeacutes de la scegravene agrave 4 sources dont 1 mobile32

viii

Figure 43 - Azimut et eacuteleacutevation theacuteoriques et calculeacutes drsquoun son en 3D artificiel placeacute dans une ambiance bruyante 33

Figure 44 - Angles theacuteoriques et calculeacutes drsquoun bruit blanc tournant autour du micro enregistreacute en chambre sourde 34

Figure 45 - Principe de lrsquoameacutelioration de la preacutecision spatiale 35 Figure 46 - Directiviteacutes eacutequivalentes agrave la seacuteparation de 4 sources agrave lrsquoordre 135 Figure 47 - Principe de la restitution de lrsquoordre 1 agrave partir du signal mono W 36 Figure 48 - Scheacutema de principe de la meacutethode BCC36 Figure 49 - X et Y dans le cas drsquoune sinusoiumlde placeacutee agrave 15deg et 120deg37 Figure 410 - Angles trouveacutes par lrsquoalgorithme de [Pulkki and Faller 2006] 38 Figure 411 - Angles trouveacutes par une ACP pour la mecircme scegravene 39 Figure 412 - Scheacutema de principe drsquoune confeacuterence audio spatialiseacutee 40 Figure 413 - Scheacutema ameacutelioreacute (deacutebit reacuteduit)40 Figure 414 - Analyse principe de lrsquoencodage dans le serveur 41 Figure 415 - Synthegravese principe du deacutecodage dans le client 41 Figure A1 - Systegraveme de coordonneacutees spheacuteriques 45 Figure A2 - Fonctions de Bessel spheacuteriques )(krjm pour les ordres 0 agrave 5 47 Figure A3 - Repreacutesentation des harmoniques spheacuteriques pour les ordres m = 0 agrave

3 51 Figure B1 - Deacutecodages les plus approprieacutes par sous-bande et en fonction de

lrsquoeacutetendue de la zone drsquoeacutecoute54 Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT60 Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add61

1

Preacutesentation de France Teacuteleacutecom RampD Le groupe France Teacuteleacutecom est lrsquoun des principaux opeacuterateurs de

teacuteleacutecommunications au monde Creacuteeacutee en 1988 apregraves le scindement des PTT (Poste Teacuteleacutegraphe Teacuteleacutephone) en deux groupes France Teacuteleacutecom a longtemps beacuteneacuteficieacute du statut drsquoopeacuterateur historique Depuis 1997 France Teacuteleacutecom fonctionne en tant que socieacuteteacute anonyme

Le CNET Centre National drsquoEacutetude en Teacuteleacutecommunication a eacuteteacute creacuteeacute en 1944

dans le but de reacutetablir un reacuteseau de teacuteleacutecommunication en France En mars 2000 le CNET change de nom et devient France Teacuteleacutecom Recherche amp Deacuteveloppement

Le site France Teacuteleacutecom Division RampD agrave Lannion a eacuteteacute inaugureacute le 28 octobre

1963 Lrsquoeacutequipe son 3D y megravene des recherches sur la prise et la restitution du son la spatialisation sonore ainsi que sur les environnements acoustiques virtuels Elle participe eacutegalement activement agrave la normalisation MPEG-4

De nombreux travaux sont consacreacutes aux technologies de spatialisation binaurale

transaurale (avec la technique du steacutereacuteo-dipocircle) et ambisonique De nombreux brevets et publications deacutecoulent de ces recherches qui trouvent deacutejagrave des applications dans la confeacuterence audio spatialiseacutee et ouvrent des perspectives bien plus vastes

2

Introduction La reproduction sonore semble aujourdrsquohui ecirctre parfaitement maicirctriseacutee Mais

lrsquoest-elle vraiment Rien nrsquoest moins sucircr Reproduire un son signifie ldquoreproduire toutes ses proprieacuteteacutes telles qursquoelles existent dans une situation drsquoeacutecoute reacuteellerdquo (tel que rappeleacute dans [Nicol 1999]) Or le son est un pheacutenomegravene agrave quatre dimensions il eacutevolue dans le temps et dans les 3 dimensions de lrsquoespace Si le problegraveme de la reproduction temporelle peut ecirctre consideacutereacute comme reacutesolu la restitution spatiale est elle toujours agrave lrsquoeacutetude

La restitution drsquoune scegravene sonore (crsquoest-agrave-dire drsquoun ensemble drsquoeacuteveacutenements

sonores placeacutes agrave des positions et des instants preacutecis) passe par la reproduction du champ acoustique dans une zone donneacutee zone au moins assez grande pour qursquoon puisse y placer ses 2 oreilles Lrsquoauditeur pourra alors localiser preacuteciseacutement les sources constituant la scegravene agrave la fois en temps et dans lrsquoespace

Lrsquoobjectif du stage preacutesenteacute ici est de retrouver par le calcul ces informations agrave

partir de lrsquoanalyse de signaux de repreacutesentation du champ sonore 3D en particulier ceux issus de lrsquoencodage spatial de scegravenes sonores reacutealiseacute par la technologie Higher Order Ambisonics (HOA) Il srsquoagit de retrouver dans une scegravene HOA les positions qursquooccupaient les sources agrave chaque instant lors de lrsquoencodage

Cette analyse permet alors drsquoentrevoir des applications pour le codage et la

transmission etou lrsquoameacutelioration de contenu audio 3D la seacuteparation de sources ou bien encore la confeacuterence audio spatialiseacutee En effet une telle description de la scegravene permettrait de caracteacuteriser de maniegravere leacutegegravere une partie de lrsquoinformation transmise par les signaux HOA et ouvrirait mecircme lrsquoopportuniteacute drsquoun deacutemixage

Nous allons ici preacutesenter la technologie ambisonics puis les eacuteleacutements theacuteoriques et

pratiques de lrsquoanalyse des signaux HOA Les eacuteleacutements matheacutematiques sur lesquels repose ambisonics agrave savoir le deacuteveloppement drsquoun champ acoustique en harmoniques spheacuteriques sont deacuteveloppeacutes en Annexe A La lecture preacutealable de cette annexe nrsquoest pas indispensable agrave la compreacutehension du Chapitre 1 mais est vivement conseilleacutee

3

Chapitre 1

Ambisonics

11 Principe

111 Du B-format agrave HOA Lrsquoapproche ambisonique deacuteveloppeacutee dans les anneacutees 1970 par Gerzon [Gerzon

1973] [Gerzon 1985] a pour but de reconstruire au voisinage de la tecircte de lrsquoauditeur le champ sonore et ses caracteacuteristiques de propagation crsquoest-agrave-dire au minimum le champ de pression et son gradient Cette technique est cateacutegoriseacutee dans les techniques de panoramique drsquoamplitude ou agrave microphones coiumlncidents Le format orignal appeleacute B-format peut en fait ecirctre vu comme une restriction au 1er ordre drsquoune deacutecomposition du champ en harmoniques spheacuteriques (voir Annexe A) ou cylindriques (dans le cas drsquoune restriction agrave 2 dimensions) Le format HOA (Higher Order Ambisonics) est une extension de cette deacutecomposition agrave des ordres plus eacuteleveacutes permettant une reconstruction ameacutelioreacutee du champ (une meilleure approximation) dans une zone de restitution eacutelargie

Une grande speacutecificiteacute de lrsquoapproche ambisonique est de contenir directement

lrsquoinformation spatiale en codant le champ acoustique en un point de lrsquoespace indeacutependamment du systegraveme de restitution utiliseacute contrairement aux systegravemes de spatialisations classiques (steacutereacuteo 51hellip) Lrsquoencodage directionnel drsquoune onde plane S drsquoincidence u se traduit par les eacutequations

r

⎪⎪

⎪⎪

=

=

=

=

δ

δθ

δθ

sin2

cossin2

coscos2

SZ

SY

SX

SW

(11)

Le facteur de normalisation 2 a eacuteteacute introduit agrave lrsquoorigine pour srsquoassurer que les

composantes W X et Y aient une eacutenergie moyenne eacutegale dans le cas de lrsquoencodage drsquoun champ diffus horizontal

Chapitre 1 Ambisonics 4

Le B-format peut ecirctre vu comme une troncature au premier ordre de la deacutecomposition en seacuterie de Fourier-Bessel du champ sonore [Daniel 2000] Une troncature agrave un ordre plus eacuteleveacute (Higher Order Ambisonics) apporte alors agrave la reconstruction une meilleure qualiteacute tant en terme de preacutecision de lrsquoimage que de dimensions du sweet spot zone ougrave le champ original est restitueacute avec une toleacuterance donneacutee Cette zone tregraves petite pour lrsquoordre 1 (il faut veiller agrave se placer bien au centre du dispositif) est nous le verrons nettement eacutelargie aux ordres supeacuterieurs On atteint eacutegalement une discrimination angulaire plus fine Ces ordres supeacuterieurs eacutetant les termes suivants de la seacuterie de Fourier-Bessel une repreacutesentation HOA inclut les ordres infeacuterieurs constituant donc une repreacutesentation hieacuterarchique (ou scalable) du champ sonore

La chaicircne de traitement drsquoun systegraveme ambisonique se deacutecompose en plusieurs

eacutetapes (voir Figure 11) - lrsquoencodage spatial reacutealiseacute de maniegravere artificielle pour spatialiser une scegravene

syntheacutetique ou bien agrave partir de signaux naturels issus drsquoune structure multi-microphonique (voir Figure 12)

- une eacuteventuelle transformation des signaux HOA (compression ou

transformations lineacuteaires comme par exemple une rotation) - le deacutecodage spatial matriccedilage des signaux pour une diffusion adapteacutee au

dispositif drsquoeacutecoute

Figure 11 - Scheacutema global du principe de la technologie HOA [Moreau 2006]

11 Principe 5

Figure 12 - Prototype de microphone HOA drsquoordre 4 constitueacute de 32 capteurs omnidirectifs

reacutepartis sur une sphegravere en plastique rigide [Moreau 2006]

112 Repreacutesentation de scegravene sonore avec HOA La seacuterie de Fourier-Bessel (A16) en Annexe A) tronqueacutee agrave lrsquoordre M donne une

approximation de la repreacutesentation du champ sonore

sum sum sum= = plusmn=

=M

m

m

nmnmnm

mM YBkrjikrp

0 0 1)()()(

σ

σσ δθδθ (12)

La repreacutesentation drsquoordre M est composeacutee de signaux HOA en 3D

et

2)1( += MK12 += MK signaux HOA si on se contente du plan horizontal

Pour mesurer lrsquoerreur de reconstruction on peut utiliser le critegravere des moindres

carreacutes normaliseacute (NMSE pour Normalized Mean Square Error)

intint

intint minus=

S

SM

dSkrp

dSkrpkrpkre 2

2

)(

)()()(

δθ

δθδθ (13)

Dans le cas particulier drsquoune onde plane lrsquoerreur de reconstruction est

indeacutependante de lrsquoangle drsquoincidence et ne deacutepend que de lrsquoordre et du produit kr En rappelant que k est le nombre drsquoonde cfck πω 2== on srsquoaperccediloit que lrsquoerreur de reconstruction pour un ordre donneacute augmente quand on srsquoeacuteloigne du centre du systegraveme (r augmente) ou lorsque la freacutequence srsquoeacutelegraveve On remarque qursquoune erreur de 4 (-14 dB) est atteinte approximativement quand M = kr

Chapitre 1 Ambisonics 6

Figure 13 - Erreur de reconstruction drsquoune onde plane en fonction

de lrsquoordre M et du produit kr [Moreau et al 2006]

Figure 14 - Repreacutesentation dans le plan horizontal dans une zone de diamegravetre 1m de la

reconstruction drsquoune onde plane (agrave droite) pour plusieurs ordres et freacutequences Les niveaux de gris repreacutesentent la valeur de la pression acoustique Les courbes eacutetoileacutees indiquent la

limite des zones ougrave lrsquoerreur de reconstruction est infeacuterieure agrave 7 (-115 dB) [Moreau 2006]

12 Encodage et deacutecodage spatial 7

12 Encodage et deacutecodage spatial

121 Encodage spatial Drsquoun point de vue drsquoingeacutenieur du son lrsquoencodage spatial peut ecirctre vu comme un

panoramique drsquoamplitude Un preneur de son lrsquointerpreacutetera comme une capture par un jeu de microphones directifs coiumlncidents Un matheacutematicien verra plutocirct le lien avec la deacutecomposition en harmoniques spheacuteriques deacutecrite en Annexe A

Eacutetudions le cas drsquoune onde plane provenant de la direction )( pp δθ avec une

amplitude S Lrsquoexpression du champ de pression srsquoeacutecrit alors

γδθ cos)( jkrSekrp = (14)

soit encore

)(cos)()12()(0

γδθ mmm

m PkrjjmSkrp suminfin

=

+= (15)

ougrave γ deacutesigne lrsquoangle entre la direction (θ δ ) du point drsquoobservation et la direction

)( pp δθ de provenance de lrsquoonde Il vient ensuite

sum sumsum= plusmn=

infin

=

=m

nmnppmnm

m

m YYkrjjSkrp0 10

)()()()(σ

σσ δθδθδθ (16)

En identifiant cette eacutequation (16) avec la seacuterie de Fourier-Bessel (A16) nous

obtenons finalement lrsquoexpression de la transformeacutee de Fourier spheacuterique drsquoun champ de pression acoustique engendreacute par une onde plane [Moreau 2006]

)( ppmnmn YSB δθσσ = (17)

Les coefficients sont ainsi deacutefinis par la valeur des harmoniques spheacuteriques

dans la direction de provenance de lrsquoonde plane pondeacutereacutee par lrsquoamplitude

σmnB

S du signal transporteacute Ce sont ces coefficients qui constituent le signal ambisonique Des coefficients de normalisation ou de semi-normalisation sont ensuite appliqueacutes pour que les signaux soient drsquoeacutenergie moyenne eacutequivalente entre eux ( ) ou entre les diffeacuterents ordres ( ) (voir Annexe A Tableau A1)

DN 3α DSN 3αDSN 3α

DSN 3α Ces fonctions drsquoencodage peuvent ecirctre simplifieacutees dans le cas drsquoune restriction agrave 2

dimensions (plan horizontal) On ne conserve alors que 2 composantes par ordre celles qui deacutecrivent le plan horizontal crsquoest-agrave-dire veacuterifiant m = n Les coefficients de normalisation sont alors diffeacuterents et lrsquoangle δ est nul Les composantes restantes sont alors

Chapitre 1 Ambisonics 8

ordre notations eacutecriture 0 W 1

00B 1

X 111B θcos2

1 Y 1

11minusB θsin2

U 122B )2cos(2 θ

2 V 1

22minusB )2sin(2 θ

- 1mmB )cos(2 θm

m - 1minus

mmB )sin(2 θm Tableau 11 - Fonctions drsquoencodage ambisonique dans le plan horizontal

avec la convention de normalisation associeacutee (N2D) La figure suivante illustre lrsquoencodage spatial aux ordres 0 1 et 2 de 2 sources

placeacutees aux angles vθ et vθ dans le plan horizontal

ordres 0 et 1 ordre 2

Figure 15 - Encodage horizontal [Moreau et al 2006] Le coefficient (gain) appliqueacute agrave

chaque composante de chacune des 2 sources est donneacute par les intersections des flegraveches et des diagrammes des harmoniques

Comme on peut le voir sur cette figure un encodage au 1er ordre offre une

discrimination angulaire peu appuyeacutee alors que les 2 sources pourtant proches auront des coefficients tregraves diffeacuterents agrave lrsquoordre 2 (les points drsquointersection sont plus eacuteloigneacutes)

122 Deacutecodage spatial Lrsquoobjectif du deacutecodage est de restituer au mieux sur un systegraveme de diffusion

donneacute le champ sonore HOA Il faut ainsi calculer les signaux Sl agrave diffuser sur L haut-parleurs en fonction des composantes ambisoniques Ces σ

mnB L haut-parleurs peuvent ecirctre disposeacutes dans le plan horizontal ou dans un espace tridimensionnel Les deacutecodages les plus courants srsquoeffectuent sur une demi-sphegravere (cas 3D) ou un cercle (cas 2D) de

12 Encodage et deacutecodage spatial 9

haut-parleurs Crsquoest une opeacuteration matricielle qursquoon peut formaliser dans le cas drsquoun deacutecodage dans le plan horizontal par lrsquoeacutequation

BSC =sdot (18)

ougrave la matrice C contient les vecteurs harmoniques spheacuteriques associeacutes agrave chaque direction de haut-parleur et organiseacutes suivant ses lignes le vecteur S contient les signaux eacutemis par les L haut-parleurs et enfin le vecteur B contient les signaux HOA

⎟⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜⎜

=

⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜

=

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

=

10

100

2

1

1011

10

11111

111

10011

100

)()()(

)()()()(

M

mn

LLLMM

llmn

LL

LL

B

B

B

B

S

SS

S

YYY

YYYY

CM

M

M

L

MM

L

L

σσ

δθδθδθ

δθδθδθδθ

(19)

)( ll δθ repeacuterant la position du legraveme haut-parleur

Il faut donc estimer S connaissant B et C Le deacutecodage se reacutesume alors agrave un systegraveme de (M +1)2 (en 3D) ou 2M +1 (en 2D) eacutequations lineacuteaires agrave L inconnues On ne peut trouver de solution exacte que si le nombre de haut-parleurs est au moins eacutegal au nombre de signaux crsquoest-agrave-dire si L gt (M +1)2 (en 3D) ou 2M +1 (en 2D) Crsquoest en outre une condition neacutecessaire pour pouvoir avoir une reproduction homogegravene de la scegravene sonore

La matrice C nrsquoest pas neacutecessairement carreacutee et inversible une solution geacuteneacuterale

consiste agrave calculer lrsquoinverse geacuteneacuteraliseacutee de la matrice C noteacutee D encore appeleacutee pseudo-inverse de Moore-Penrose

BDS sdot= (110)

avec

1pinv( ) ( )t tD C C C C minus= = sdot sdot (111) D est appeleacutee matrice de deacutecodage BDS sdot= reacutesout le systegraveme (18) si les haut-

parleurs sont suffisamment nombreux L gt (M +1)2 (en 3D) ou 2M +1 (en 2D)) Srsquoils sont en outre disposeacutes sur une sphegravere (3D) ou un cercle (2D) de maniegravere eacutequidistante crsquoest-agrave-dire srsquoils sont les sommets drsquoun polyegravedre ou polygone reacutegulier ils preacuteservent alors la proprieacuteteacute drsquoorthonormaliteacute des harmoniques spheacuteriques Ceci se traduit par

Lt ILCC sdot=sdot (112)

ougrave IL est la matrice identiteacute de taille LLtimes On a alors

1pinv( ) tD CL

= = C (113)

Chapitre 1 Ambisonics 10

Cette proprieacuteteacute ne peut pas ecirctre matheacutematiquement veacuterifieacutee en 3D au-delagrave de lrsquoordre 2 autrement dit il nrsquoexiste pas de polyegravedre reacutegulier dont la position des sommets conserve strictement lrsquoorthonormaliteacute des harmoniques spheacuteriques

Visuellement le deacutecodage correspond agrave la reproduction du champ sonore tel qursquoil

aurait eacuteteacute capteacute par un ensemble de N microphones agrave directiviteacutes hyper-cardioiumldes tourneacutes chacun vers lrsquoun des haut-parleurs Leur directiviteacute serait drsquoautant plus preacutecise que lrsquoordre de reproduction est eacuteleveacute

Figure 16 - Prise de son virtuelle eacutequivalente agrave un encodage au 1er ordre et un deacutecodage

basique sur une disposition en 2D hexagonale [Moreau et al 2006] Le gain gl appliqueacute agrave chaque haut-parleur pour une direction de source virtuelle donneacutee

(en vert) est indiqueacute par la longueur des flegraveches et est reporteacutee aux points drsquointersection de la flegraveche verte et des diagrammes de directiviteacute

On peut remarquer que les diagrammes de directiviteacute sont tregraves larges par rapport

agrave lrsquoespacement angulaire des haut-parleurs Le 2nd ordre offrirait des directiviteacutes plus fines et donc une seacutelectiviteacute spatiale accrue Il faudrait alors bien sucircr davantage de haut-parleurs pour ne pas introduire des ldquotrousrdquo entre eux On remarque eacutegalement la preacutesence non neacutegligeable des lobes secondaires utiles pour la reconstruction du champ acoustique (notamment en basses freacutequences) mais qui peuvent ecirctre gecircnants dans certains cas par exemple lorsque lrsquoauditoire est large

Ce deacutecodage est appeleacute deacutecodage basique car il nrsquooptimise pas la restitution en

accord une quelconque hypothegravese et cherche uniquement agrave reproduire fidegravelement le champ acoustique Pour ameacuteliorer la restitution dans des cas critiques comme par exemple en-dehors du sweet spot (centre du dispositif) il faut optimiser le deacutecodage en reacuteduisant par exemple les lobes secondaires Ainsi le deacutecodage max-rE srsquoattache agrave maximiser lrsquoeacutenergie reccedilue de la provenance de la direction souhaiteacutee alors que le deacutecodage in-phase annule complegravetement ces lobes secondaires (voir Annexe B)

13 Critique de la technologie HOA 11

13 Critique de la technologie HOA

131 Bilan On a ainsi vu que la technologie HOA est une repreacutesentation intermeacutediaire du

champ de pression acoustique agrave mi-chemin entre la description directe du champ lui-mecircme et des signaux agrave restituer Cette technologie a de nombreux avantages compareacutee aux autres meacutethodes de reproduction de champ sonore (on trouvera notamment une eacutetude deacutetailleacutee des comparaisons entre HOA et la Wave Field Synthesis (WFS) dans [Daniel et al 2003]) elle permet drsquoeacuteviter le repliement spatial (voir paragraphe suivant) et permet ainsi une reconstruction dans une gamme de freacutequences tregraves large

La qualiteacute de la restitution ambisonique nrsquoest theacuteoriquement limiteacutee que part

lrsquoordre de troncature de la seacuterie de Fourier-Bessel agrave partir du moment ougrave le nombre de haut-parleurs est suffisant Ainsi un ordre tendant vers lrsquoinfini (et un nombre de haut-parleurs au moins aussi grand) permettra une reproduction quasi-parfaite sur lrsquoensemble de la zone drsquoeacutecoute

Mais les principaux avantages de cette technologie sont drsquoune part drsquoecirctre flexible

crsquoest-agrave-dire qursquoon peut agrave loisir adapter le nombre de signaux transmis au canal de transmission Une chute de deacutebit nrsquoentraicircnera pas de coupure de la transmission mais simplement une perte de preacutecision spatiale par lrsquoabandon des composantes drsquoordres les plus eacuteleveacutes Et drsquoautre part elle est indeacutependante du systegraveme de reproduction Ainsi un mecircme signal HOA pourra ecirctre diffuseacute sur toutes les configurations de haut-parleurs il suffira pour cela de calculer la matrice de deacutecodage associeacutee agrave ce systegraveme

132 Limites pratiques Dans la pratique cette technologie a toutefois des limitations Si lrsquoaliasing spectral

est eacuteviteacute on constate aux ordres les plus eacuteleveacutes lrsquoapparition drsquoun repliement spatial lors des enregistrements naturels agrave partir drsquoune freacutequence lieacutee agrave la distance maximale entre 2 capsules du microphone HOA (qui doit ecirctre au plus eacutegale agrave la moitieacute de la plus petite longueur drsquoonde drsquoapregraves Shannon) et au nombre total de capsules (qui doit ecirctre supeacuterieur agrave (M+1)2 M eacutetant lrsquoordre auquel on souhaite enregistrer)

Le repliement spectral repreacutesente la preacutesence importune dans des composantes

ambisoniques de sources qui de part leur position ne devraient qursquoapparaicirctre avec cette importance que dans les composantes drsquoordre plus eacuteleveacute Il est ducirc agrave lrsquointrusion des directiviteacutes drsquoordres supeacuterieurs dans les composantes harmoniques spheacuteriques estimeacutees Comme on le voit sur la Figure 17 les directiviteacutes ne sont pas des cylindres (au sens matheacutematique du terme la base nrsquoeacutetant pas forceacutement un cercle) mais varient en fonction de la freacutequence pour ressembler davantage dans le haut du spectre aux courbes de directiviteacute de lrsquoordre supeacuterieur Ainsi la directiviteacute de lrsquoordre 1 (2egraveme graphique) qui devrait ecirctre un 8 ressemble davantage au-dessus de 10 000 Hz agrave la figure de directiviteacute de lrsquoordre 4 (8 lobes)

Chapitre 1 Ambisonics 12

Figure 17 - Directiviteacutes theacuteoriques (en transparence) et reconstruites (grille) dans le plan horizontal pour des ondes planes horizontales Lrsquoaxe vertical correspond agrave la freacutequence et

les diffeacuterents graphiques aux ordres 0123 et 4 de gauche agrave droite Agrave lrsquoopposeacute la taille reacuteduite du microphone si elle permet de reacuteduire cet aliasing

spatial empecircche la capture des basses freacutequences aux ordres supeacuterieurs (voir 232) La reacutesolution spatiale des basses freacutequences sera donc moindre ce qui implique que en ajoutant lrsquoeffet du repliement en hautes freacutequences les ordres eacuteleveacutes capteacutes avec le micro HOA ne constituent qursquoune plage du spectre assez peu eacutetendue crsquoest cette seule plage qui pourra se targuer drsquoune excellente preacutecision spatiale

13

Chapitre 2

Analyser un contenu HOA

21 Objectifs La reacuteflexion a tout au long du stage eacuteteacute orienteacutee vers deux objectifs le premier

est dans un contexte de transmission de reconstruire une scegravene spatialiseacutee agrave partir du minimum drsquoinformations le deuxiegraveme appliqueacute agrave des ordres plus eacuteleveacutes est drsquoarriver agrave resyntheacutetiser les composantes de lrsquoordre immeacutediatement supeacuterieur

211 Restitution de la spatialisation agrave partir drsquoun downmix mono La premiegravere approche vise donc agrave reconstruire une scegravene spatialiseacutee agrave partir drsquoun

downmix le plus leacuteger possible Un downmix est une reacuteduction du nombre de canaux par fusion lrsquoexemple le plus simple eacutetant le passage drsquoun signal steacutereacuteo agrave un signal mono construit comme la demi-somme des composantes gauche et droite On tente dans cette approche de se restreindre au plus petit nombre de signaux possible un signal eacutetant tregraves coucircteux agrave transmettre en ajoutant parallegravelement agrave ce signal des informations compleacutementaires aidant agrave la reconstruction

Le cas extrecircme est la reacuteduction du flux agrave un signal mono Dans le cas

drsquoambisonics un signal mono comprenant toutes les sources est deacutejagrave preacutesent il srsquoagit de la composante omnidirectionnelle W Il faut donc extraire de la scegravene encodeacutee agrave un certain ordre M des informations permettant la reconstruction drsquoun ordre Mrsquo apregraves transmission Nous verrons que nous allons chercher agrave trouver les positions des sources gracircce agrave une analyse en composantes principales (ou ACP voir Annexe C) effectueacutee par sous-bandes (voir Annexe D)

212 Ameacutelioration de la preacutecision spatiale La deuxiegraveme piste suivie a pour but de reconstituer un ordre ambisonique non

transmis On pourrait qualifier cette approche drsquoupmix ambisonique car elle vise agrave reconstruire un ordre manquant En effet le format ambisonique eacutetant flexible il est bien

Chapitre 2 Analyser un contenu HOA 14

adapteacute agrave la transmission Ainsi si on souhaite transmettre une scegravene encodeacutee agrave lrsquoordre 2 dans le plan horizontal il faudra un canal drsquoun deacutebit minimum (si lrsquoon prend lrsquohypothegravese de pas vouloir compresser les signaux) de 471 Mos Un canal plus petit (par exemple 34 Mos) ne permettra theacuteoriquement de transmettre qursquoun ordre 1 Mais lrsquoanalyse des signaux peut permettre de deacuteterminer les positions des sources agrave partir desquelles on peut syntheacutetiser des composantes du 2nd ordre approchant les composantes drsquoorigine On pourrait mecircme imaginer pouvoir syntheacutetiser un ordre qui nrsquoavait pas eacuteteacute encodeacute agrave lrsquoorigine

Pour cela il est neacutecessaire de deacuteterminer les positions des sources preacutedominantes

dans le champ sonore pour piloter leur encodage spatial aux ordres supeacuterieurs et arriver agrave la synthegravese drsquoune repreacutesentation de reacutesolution spatiale accrue Il srsquoagit dans le mecircme temps drsquoisoler au mieux les signaux associeacutes agrave ces diffeacuterentes sources avant de leur appliquer lrsquoopeacuteration drsquoencodage on se rapproche donc drsquoun problegraveme de seacuteparation de sources

Pour parvenir agrave trouver ces positions deux meacutethodes ont eacuteteacute testeacutees La premiegravere

consiste comme preacuteceacutedemment agrave appliquer en sous-bandes une analyse en composantes principales La seconde implique la formation de directiviteacutes agrave partir des vecteurs propres de la matrice de correacutelation utiliseacutee dans cette analyse

Lrsquoanalyse en composantes principales ou ACP (voir Annexe C) est donc

largement privileacutegieacutee dans nos approches Elle permet en effet tregraves facilement drsquoextraire des informations preacutecises de signaux correacuteleacutes Pour justifier ce choix une autre meacutethode reacutecente a eacutegalement eacuteteacute testeacutee et compareacutee agrave lrsquoACP (voir 11)

22 Principe de lrsquoextraction drsquoinformation spatiale avec une ACP

221 Information spatiale

Nous avons donc tout drsquoabord testeacute lrsquoanalyse en composantes principales sur des

signaux HOA Nous avons choisi dans un premier temps de limiter lrsquoanalyse aux composantes horizontales du premier ordre W X et Y avant de lrsquoeacutetendre agrave la 3egraveme dimension avec Z

Dans un premier test les signaux HOA sont analyseacutes par une ACP dans leur

inteacutegraliteacute LrsquoACP est appliqueacutee sur les signaux X et Y qui contiennent lrsquoinformation spatiale En effet X et Y correspondent aux signaux qui seraient capteacutes par des microphones agrave figure en 8 placeacutes sur lrsquoaxe avant-arriegravere et gauche-droite respectivement

La Figure 21 montre la correacutelation entre X et Y dans le cas drsquoun bruit blanc capteacute

par le microphone ambisonique Les points ne sont pas exactement aligneacutes du fait des artefacts inheacuterents agrave la prise de son (reacuteflexions sur les parois approximations du microphone etc)

22 Principe de lrsquoextraction drsquoinformation spatiale avec une ACP 15

Figure 21 - Y en fonction de X dans le cas drsquoun bruit blanc enregistreacute placeacute agrave 30deg

On remarque que le nuage est eacutetireacute dans la direction de provenance du son indiqueacutee par la flegraveche en pointilleacutes verts

222 Application de lrsquoanalyse en composantes principales La 1egravere composante issue de lrsquoACP appliqueacutee dans le plan (X Y) pointe dans la

direction dans laquelle X et Y ont la plus grande correacutelation Or comme X contient lrsquoinformation placeacutee sur lrsquoaxe avant-arriegravere et Y lrsquoinformation de lrsquoaxe gauche-droite cette direction est directement la direction de la source Par exemple un son situeacute droit devant dans lrsquoaxe (agrave 0deg) aura une composante Y nulle et par conseacutequent les eacutechantillons seront dans le plan tous disposeacutes sur lrsquoaxe horizontal LrsquoACP prendra donc naturellement cet axe comme 1er vecteur propre et il pointe bien vers la position de la source De mecircme un son situeacute agrave 135deg ( π28

3 times rad) aura la proprieacuteteacute Y = -X Les eacutechantillons seront donc placeacutes sur la 2egraveme bissectrice qui fait avec lrsquoaxe Y=0 un angle de 135deg (voir Figure 22)

Figure 22 - Y en fonction de X dans le cas drsquoun son placeacute artificiellement dans la direction

indiqueacutee par la flegraveche en pointilleacutes verts agrave 0deg (agrave gauche) et 135deg (agrave droite)

Chapitre 2 Analyser un contenu HOA 16

Lrsquoanalyse de X et Y ne permet cependant de deacuteterminer lrsquoangle qursquoagrave π pregraves il reste une indeacutetermination (on deacutetermine la direction drsquoun axe qursquoil reste agrave orienter) Pour lever cette ambiguiumlteacute on integravegre W agrave lrsquoanalyse car cette composante pourtant omnidirectionnelle et donc deacutepourvue drsquoinformation spatiale apporte une reacutefeacuterence pour les phases Ainsi notre son placeacute agrave 135deg veacuterifiait (aux eacuteventuels coefficients de normalisation pregraves) Y = -X = W alors qursquoun son placeacute agrave 135 - 180 = -45deg aurait la proprieacuteteacute Y = -X = -W

Pour prendre en compte W dans lrsquoanalyse on peut comparer directement les

phases de ces 3 canaux Algorithmiquement on ramegravene lrsquoangle trouveacute agrave son modulo π2 puis on deacutetermine le vrai cadran par comparaison des phases de W X et Y crsquoest-agrave-dire en comparant le signe des produits W X et W Y Ainsi W X gt 0 signifie que W et X sont en phase et reacuteciproquement (voir Figure 23)

W X lt 0 W Y gt 0

W X gt 0 W Y gt 0

W X lt 0 W Y lt 0

W X gt 0 W Y lt 0

minusπ2

π

π2

0

Figure 23 - Signes de W X et W Y en fonction du cadran On peut eacutegalement inteacutegrer W agrave lrsquoanalyse en appliquant lACP sur le triplet (X Y

W) Le problegraveme drsquoambiguiumlteacute est ainsi reacutesolu la direction rechercheacutee eacutetant celle du vecteur principal dans le demi-espace W gt 0 projeteacutee sur le plan (X Y) Cette meacutethode srsquoavegravere plus robuste et surtout plus geacuteneacuteralisable agrave des ordres plus eacuteleveacutes

Cette analyse permet donc de deacuteterminer la position drsquoune source unique Pour

pouvoir seacuteparer plusieurs sources nous avons appliqueacute lrsquoACP par sous-bandes en supposant que les sources nrsquoont pas des supports freacutequentiels strictement identiques Le principe de cette analyse en sous-bandes est deacuteveloppeacute en Annexe D

23 Meacutethodologie

231 Construction de scegravenes artificielles Pour tester les algorithmes impleacutementeacutes nous avons ducirc creacuteer des scegravenes sonores

spatialiseacutees au format HOA Plusieurs types de scegravenes ont eacuteteacute utiliseacutes de complexiteacutes diffeacuterentes Les premiegraveres ont eacuteteacute des scegravenes virtuelles syntheacutetiseacutees avec Matlab Les premiegraveres scegravenes simplissimes ne comportait qursquoune sinusoiumlde ou un bruit blanc fixe placeacute dans le plan horizontal Puis pour tester lrsquoanalyse par sous-bandes ont eacuteteacute creacuteeacutes des sons polyphoniques composeacutes de 2 sinusoiumldes tout drsquoabord puis de sons complexes (syntheacutetiseacutes par synthegravese FM) dans des gammes freacutequentielles distinctes ou se

23 Meacutethodologie 17

chevauchant Enfin ces sons ont eacuteteacute rendus mobiles en faisant varier leur position dans le temps

Nous avons pu ainsi constater agrave lrsquoaide des sons fixes et de supports freacutequentiels

distincts la preacutecision de lrsquoanalyse et avec les sons mobiles et mecircleacutes sa robustesse Nous nous sommes limiteacutes sous Matlab agrave la geacuteneacuteration de 2 sons simultaneacutes et du 1er ordre et un autre outil Plogue Bidule a eacuteteacute utiliseacute pour composer des scegravenes plus complexes

Bidule est un studio modulaire virtuel ressemblant agrave MAXMSP Des plugins ont

eacuteteacute deacuteveloppeacutes agrave France Teacuteleacutecom pour permettre de manipuler des signaux HOA Ainsi des scegravenes complexes ont pu facilement ecirctre syntheacutetiseacutees agrave des ordres eacuteleveacutes Des scegravenes agrave 3 et 4 sources fixes ou dont 1 source mobile ont eacuteteacute reacutealiseacutees agrave partir de voix deacutemixeacutees placeacutees dans le plan horizontal ou en 3 dimensions

Ces scegravenes eacutetant artificielles elles sont en un sens ideacuteales ne contiennent aucun

signal reacuteverbeacutereacute (effet de salle) ni diffracteacute (par un micro) lrsquoencodage est fait sans artefacts les ondes sont consideacutereacutees comme planes et ont donc une direction bien deacutefinie Si on est ici bien loin de la vraie vie le gros avantage des scegravenes artificielles est qursquoon connaicirct preacuteciseacutement agrave chaque instant la position des sources et qursquoon peut ainsi veacuterifier le reacutesultat de lrsquoanalyse

Figure 24 - Interface graphique du logiciel Bidule avec agrave droite les controcircles des encodeurs

et deacutecodeurs HOA creacuteeacutes agrave France Teacuteleacutecom

Chapitre 2 Analyser un contenu HOA 18

232 Exploitation drsquoenregistrements naturels Une fois des reacutesultats convaincants obtenus avec des scegravenes virtuelles des

enregistrements naturels ont eacuteteacute analyseacutes Ces scegravenes ont eacuteteacute enregistreacutees gracircce au prototype de micro HOA du 4egraveme ordre deacuteveloppeacute agrave France Teacuteleacutecom (voir Figure 12) Ce processus implique des diffeacuterences notables avec un encodage virtuel

Le prototype de microphone contraint en effet agrave quelques compromis pour

optimiser des critegraveres incompatibles La taille du microphone reacutesulte drsquoun compromis entre la preacutecision drsquoestimation des composantes en basses freacutequences qui neacutecessite une taille eacuteleveacutee et la minimisation de lrsquoaliasing spatial qui ne peut ecirctre eacuteviteacute qursquoavec des capsules tregraves proches les unes des autres Leur disposition est eacutegalement irreacuteguliegravere il nrsquoexiste en fait aucune faccedilon de disposer reacuteguliegraverement plus de 20 points sur une sphegravere La configuration qui avait eacuteteacute retenue par les concepteurs [Moreau 2006] est la ldquomoins irreacuteguliegravere possiblerdquo au sens de la preacuteservation de lrsquoorthonormaliteacute des harmoniques spheacuteriques les 32 capsules sont reacuteparties sur une sphegravere de 35 cm de rayon selon un Pentaki-dodeacutecahegravedre polyegravedre semi-reacutegulier dual de lrsquoicosaegravedre tronqueacute (ballon de football)

Ces artefacts sont donc inheacuterents agrave lrsquoutilisation drsquoun reacuteseau de microphones Mais

le monde reacuteel pose eacutegalement des problegravemes deacutelicats La complexiteacute des modes de rayonnement drsquointeraction avec lrsquoenvironnement reacuteclame lrsquointroduction de modegraveles drsquoencodage beaucoup plus complexes que le cas drsquoune onde plane en champ libre et rend lrsquoinformation spatiale moins limpide et univoque au sein de la scegravene encodeacutee (enregistreacutee) en comparaison avec une scegravene virtuelle Les sources ne sont ainsi plus ponctuelles mais eacutetendues elles ne sont plus agrave lrsquoinfini mais agrave une distance finie du microphone (les ondes reccedilues ne sont donc plus planes) En outre chaque source en se reacutefleacutechissant sur les parois et les diffeacuterents objets de la salle creacutee une multitude de sources secondaires Il est enfin souvent difficile de connaicirctre avec preacutecision la position drsquoune source dans lrsquoespace lors drsquoun enregistrement

Des enregistrements en chambre sourde ont eacuteteacute reacutealiseacutes pour se passer des

reacuteflexions de lrsquoenvironnement Afin de connaicirctre avec preacutecision la position de la source un haut-parleur diffusant un bruit blanc nous avons placeacute le microphone sur une table tournante commandeacutee par un plug-in sous Plogue Bidule

233 Visualisations des reacutesultats Lrsquoobservation des reacutesultats a eacuteteacute effectueacutee de plusieurs maniegraveres visuellement et

par lrsquoeacutecoute Les graphiques eacutetant plus commodes crsquoest par cette voie que les premiers essais eacutetaient conclus Plusieurs types de graphiques ont eacuteteacute produits deacutecrivant des paramegravetres diffeacuterents

Les repreacutesentations temps-freacutequence permettent de repreacutesenter une variable agrave 1

dimension sous Matlab Cette voie a eacuteteacute suivie pour visualiser les paramegravetres extraits de chaque sous-bande de chaque fenecirctre notamment les angles lrsquoeacutenergie et la pertinence Malheureusement Matlab ne permet pas de repreacutesenter sur le mecircme graphique une 4egraveme dimension sous la forme drsquoune 2egraveme dimension colorimeacutetrique (on prend geacuteneacuteralement la

23 Meacutethodologie 19

saturation) Cette dimension suppleacutementaire aurait permis de repreacutesenter simultaneacutement les angles et leur pertinence

Figure 25 - Repreacutesentation

et de lrsquoespace col

Pour repreacutesenter s

drsquoabandonner une dimensipouvoir repreacutesenter danrepreacutesenteacutees soit par le niv

Figure 26 - Repreacutesentationdeacutecrite en 332 (en absciss

est repreacutesenteacutee agrave gauc

234 Diffeacuterents modes La visualisation est

indispensable pour veacuterifiesont possibles de ceux-cainsi reconstitueacutee agrave partir d

1 W+Y+02X pour le c

π 0 minusπ

de la table des couleurs dite HSV de Matlab (lineacuteaire agrave gauche) orimeacutetrique HSL (Hue Saturation Luminance agrave droite)

imultaneacutement angles et pertinence il eacutetait donc neacutecessaire on Crsquoest le deacutecoupage freacutequentiel qui a eacuteteacute mis de cocircteacute pour s un plan temps-angles les pertinences Celles-ci sont eau de gris des points soit par leur taille

de la pertinence des angles de la scegravene agrave 4 sources dont 1 mobile e les trames en ordonneacutees les angles en degreacute) La pertinence he par lrsquointensiteacute du bleu et agrave droite par la taille des points

drsquoeacutecoute

un indice preacutecis de reacutesultat mais lrsquoeacutecoute est tout de mecircme r la qualiteacute globale de la synthegravese Plusieurs modes drsquoeacutecoute i lrsquoeacutecoute au casque est la plus aiseacutee Une pseudo-steacutereacuteo est es signaux du 1er ordre1 pour restituer les scegravenes restreintes au

anal gauche et W-Y+02X pour le canal droit

Chapitre 2 Analyser un contenu HOA 20

plan horizontal Pour plus de preacutecision agrave la restitution ou pour des scegravenes en 3D et sans perdre la faciliteacute drsquoune eacutecoute personnelle au casque on peut appliquer des filtres HRTF (Head-Related Transfert Function) pour une reproduction binaurale

Pour appreacutecier pleinement la spatialisation la diffusion sur un systegraveme multi

haut-parleurs est indispensable Deux systegravemes sont installeacutes dans le laboratoire de France Teacuteleacutecom un systegraveme 51 et un systegraveme circulaire de 48 haut-parleurs Ces systegravemes installeacutes dans des studios insonoriseacutes offrent une grande qualiteacute drsquoeacutecoute qui permet de repeacuterer les deacutefauts mecircme minimes de la synthegravese

21

Chapitre 3

Description des analyses

31 Deacutetermination des directions principales

311 Base des algorithmes Nous avons deacuteveloppeacute plusieurs algorithmes reacutepondant aux diffeacuterents objectifs

deacutecrits plus haut Chacun drsquoeux possegravede des particulariteacutes leur permettant de reacutepondre agrave ces objectifs mais on trouve neacuteanmoins une partie commune Ainsi toutes les analyses reposent sur le mecircme modegravele drsquoapplication drsquoune ACP par sous-bandes dont voici le scheacutema geacuteneacuteral

Figure 31 - Scheacutema geacuteneacuteral drsquoanalyse

Les signaux en entreacutee sont les composantes HOA W X et Y dans la plupart des

cas mais peuvent ecirctre eacutegalement des composantes drsquoordre plus eacuteleveacute (voir 11) Sur le fenecirctrage jouent plusieurs paramegravetres comme la taille de la fenecirctre ou encore le pourcentage de recouvrement entre elles Nous avons choisi une fenecirctre en racine de la fenecirctre de Hanning crsquoest-agrave-dire une arche de sinusoiumlde (voir eacutequation (D7) en Annexe D) avec un recouvrement de 50 ce qui veacuterifie le critegravere de reconstruction parfaite (D6) Le filtrage est pour des raisons de rapiditeacute de calcul reacutealiseacute dans le domaine freacutequentiel par une simple multiplication avant de repasser en temporel pour appliquer lrsquoACP

Le banc de filtre utiliseacute est un banc inspireacute des filtres ERB Les filtres ERB

(Equivalent Regular Bandwidth) sont des filtres imitant le comportement de seacuteparation freacutequentielle de lrsquooreille humaine plus preacutecise en basse freacutequence Les filtres utiliseacutes ici ne sont pas directement des filtres ERB le systegraveme nrsquoa pas drsquointeacuterecirct particulier agrave essayer de copier le fonctionnement de lrsquooreille humaine Ces filtres ont eacuteteacute adapteacutes au problegraveme en

Chapitre 3 Description des analyses 22

srsquoassurant en particulier de la finesse des bandes permettant la meilleure discrimination des diffeacuterentes sources crsquoest-agrave-dire autour des fondamentales usuelles (200-1000 Hz) et des harmoniques Les freacutequences aigueumls sont bien discrimineacutees par les filtres ERB (relativement agrave la gamme crsquoest-agrave-dire en eacutechelle logarithmique) le deacutecoupage a donc surtout eacuteteacute densifieacute entre 200 et 800 Hz par rapport aux bandes ERB

Figure 32 - Filtres utiliseacutes inspireacutes des filtres ERB repreacutesenteacutes lineacuteairement (en haut)

et sur une eacutechelle logarithmique (en bas) Les reacutesultats de lrsquoACP sont donc avec cette meacutethode les angles des sources

trouveacutees dans chaque sous-bande ainsi que pour chacun drsquoeux un critegravere de pertinence calculeacute en fonction de lrsquoeacutenergie de la sous-bande dans une fenecirctre donneacutee et de la norme relative de la premiegravere composante de lrsquoACP (voir 342) Les autres vecteurs propres peuvent ecirctre utiliseacutes pour extraire davantage drsquoinformations et mecircme des signaux deacutecorreacuteleacutes comme on le verra au paragraphe 35 mais lrsquoanalyse semble alors moins robuste Srsquoen tenir aux informations donneacutees par la composante principale est un gage de pertinence suppleacutementaire

Ces reacutesultats concernent donc les sources preacutedominantes ou principales mais

laissent de cocircteacute un certain nombre drsquoeacuteveacutenements sonores agrave consideacuterer

312 Traitement du champ reacutesiduel Le champ reacutesiduel regroupe en quelque sorte tout ce qui nrsquoest pas une source

principale Il inclut donc les reacuteflexions et la reacuteverbeacuteration de la piegravece mais aussi les bruits parasites occasionnels ou continus (ventilation etc) Ces bruits ou eacutechos nrsquoont pas de direction de provenance assez distincte pour pouvoir ecirctre mesureacutee preacuteciseacutement Le champ reacutesiduel est eacutegalement composeacute du champ diffus La notion de champ diffus est couramment utiliseacutee mais rarement preacuteciseacutement deacutefinie On trouve dans la litteacuterature des deacutefinitions diverses lrsquoune drsquoelles preacutecisant qursquoil serait un ensemble drsquoeacuteveacutenements sonores proches en temps et provenant de directions eacutequiprobables

Les algorithmes proposeacutes traitent correctement les sources principales mais le

champ reacutesiduel est laisseacute de cocircteacute Il est pourtant tregraves important pour lrsquoimmersion du sujet dans la scegravene une scegravene deacutepourvue de champ sonore sera perccedilue comme artificielle ce qui nuit agrave la perception drsquoespace On sera par exemple davantage conscients drsquoecirctre au centre drsquoun dispositif expeacuterimental et moins sensibles aux variations de profondeur et de perspectives

31 Deacutetermination des directions principales 23

Neacuteanmoins il faut relativiser lrsquoimportance de ce champ reacutesiduel il nrsquoest pas utile pour la localisation des sources principales et ne caracteacuterise que lrsquoenvironnement drsquoenregistrement En outre le champ reacutesiduel qui provient souvent de directions floues et notre but nrsquoest pas de les preacuteciser artificiellement Il nrsquoest degraves lors geacuteneacuteralement pas utile de le transmettre aux ordres eacuteleveacutes

Ainsi certains auteurs [Merimaa and Pulkki 2005] ont choisi de recreacuteer lors drsquoune

synthegravese un champ diffus artificiel baseacute sur une reacuteponse impulsionnelle de salle calculeacutee agrave lrsquoavance Lrsquoavantage est une immersion un enveloppement complets lrsquoinconveacutenient est que lrsquoambiance ainsi recreacuteeacutee est fictive et arbitraire et en outre complegravetement indeacutependante de lrsquoambiance initiale en laissant notamment de cocircteacute les sources secondaires

Nous proposons dans nos algorithmes de ne pas syntheacutetiser le champ diffus aux

ordres eacuteleveacutes mais de nous contenter de la description du champ reacutesiduel fourni par les ordres transmis (1er ordre dans nos exemples) Nous nous limiterons donc agrave preacuteciser par la synthegravese des ordres supeacuterieurs les positions des sources principales

32 Extension agrave la 3D Nous avons pour le moment eacutevoqueacute le cas de repreacutesentations de champ sonore agrave

2 dimensions crsquoest-agrave-dire issus de sources placeacutees dans le plan horizontal Mais certaines repreacutesentations comportent eacutegalement des composantes verticales Pour analyser ces signaux en 3 dimensions il faut inteacutegrer la composante Z On effectue alors simplement une ACP sur X Y Z et W Le 1er vecteur propre sera alors bien dirigeacute dans lrsquoespace (X Y Z) dans la direction de la source lrsquoambiguiumlteacute de frac12 espace eacutetant leveacutee par W

Lrsquoalgorithme est alors complegravetement similaire agrave celui analysant des signaux en 2

dimensions Des tests ont eacuteteacute reacutealiseacutes agrave partir de signaux syntheacutetiques pour lesquels les positions des sources eacutetaient connues pour des raisons pratiques aucune scegravene sonore reacuteelle en 3 dimensions nrsquoa pu ecirctre enregistreacutee avec une connaissance initiale preacutecise des positions des sources

Les visualisations et les eacutecoutes eacutetant plus deacutelicates en 3D et lrsquoextension agrave la 3D

eacutetant immeacutediate nous avons donc concentreacute nos efforts sur lrsquoanalyse de scegravenes en 2D En outre en lrsquoabsence de dispositif spheacuterique ou heacutemispheacuterique de haut-parleurs le seul moyen agrave notre disposition pour eacutecouter une scegravene 3D est lrsquoeacutecoute binaurale crsquoest-agrave-dire au casque avec des fonctions de transfert de tecircte (HRTF) relativement bien adapteacutees agrave lrsquoauditeur

33 Analyse aux ordres supeacuterieurs

331 Description Afin drsquoameacuteliorer la preacutecision de lrsquoanalyse nous avons essayeacute drsquoappliquer une ACP

sur des signaux ambisoniques drsquoordre plus eacuteleveacute (signaux HOA) dans le plan horizontal Deux meacutethodes ont eacuteteacute essayeacutees

Chapitre 3 Description des analyses 24

La premiegravere consiste agrave appliquer une ACP agrave 3 dimensions successivement sur les composantes X Y W (ordre 1 et 0) puis U V W (ordre 2 et 0) et ainsi de suite crsquoest-agrave-dire (en utilisant la notation geacuteneacuterale) sur les composantes et W (ordre m et 0) Les reacutesultats de ces analyses (les directions des 1

)1(0mY )1(

0minus

mYegraveres composantes) sont ensuite regroupeacutees

lrsquoanalyse de lrsquoordre 1 fournissant des reacutesultats modulo 2π lrsquoanalyse de lrsquoordre 2 des reacutesultats plus preacutecis mais modulo π et plus geacuteneacuteralement lrsquoanalyse de lrsquoordre m permettant de trouver des angles modulo mπ2

La limite de cette approche se perccediloit lors de la fusion des reacutesultats les angles

trouveacutes agrave un ordre eacuteleveacute sont plus preacutecis dans des bandes de freacutequences eacuteleveacutees mais la limitation theacuteorique de ces signaux HOA dans les basses freacutequences font que lrsquoanalyse de lrsquoordre 1 reste la plus pertinente dans les premiegraveres bandes Parvenir agrave deacuteterminer agrave partir de quelle freacutequence on peut faire davantage confiance agrave lrsquoordre n+1 qursquoagrave lrsquoordre n nrsquoest pas aiseacute et cette limite provoque des aberrations dans les angles trouveacutes Une source unique pourra par exemple ecirctre interpreacuteteacutee par lrsquoalgorithme des k-moyennes (voir 341) comme 2 sources une en hautes freacutequences et une en basses freacutequences les 2 eacutetant trouveacutes agrave 2 angles diffeacuterents chaque angle relevant drsquoun ordre analyseacute diffeacuterent

La deuxiegraveme meacutethode consiste pour eacuteviter cette fusion des reacutesultats agrave effectuer

une seule ACP sur les composantes U V X Y et W Cette meacutethode souffre drsquoune tregraves grande complexiteacute algorithmique pour une ameacutelioration de la preacutecision peu sensible En effet si cette meacutethode permet drsquoobtenir des reacutesultats plus preacutecis dans certaines bandes de freacutequences elle est sensible aux deacutefauts et les limites des ordres supeacuterieurs (lrsquoabsence de basses freacutequences entre autres) perturbent lrsquoanalyse en composantes principales

332 Illustration sur une scegravene virtuelle La scegravene preacutesenteacutee ici est une scegravene artificielle crsquoest-agrave-dire composeacutee de sons

placeacutes artificiellement agrave diverses positions Elle a une dureacutee totale de 135 s et comporte 4 sources positionneacutees dans le plan horizontal une guitare placeacutee agrave 45deg une basse agrave -70deg une batterie agrave 110deg et une voix feacuteminine qui effectue continucircment un tour complet dans le sens indirect en partant de lrsquoarriegravere (elle passe donc successivement par les positions 180deg 90deg 0deg -90deg et -180deg) La guitare et la batterie srsquoarrecirctent peu avant la fin de la scegravene (12egraveme seconde au 910egraveme du son approximativement)

Figure 33 - Position des sources de la scegravene de test agrave 4 sources dont 1 mobile

33 Analyse aux ordres supeacuterieurs 25

Figure 34 - Angles drsquoune scegravene virtuelle ayant 1 source mobile et 3 sources fixes

(deacutecrite en 332) trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 Pour chaque trame (en abscisse) 20 angles (1 par bande en ordonneacutee et en degreacutes) sont

reporteacutes le diamegravetre du point correspondant agrave un critegravere de pertinence (voir 342)

Figure 35 - Angles de la mecircme scegravene trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 2 Reacutesultats modulo π reacutepliqueacutes pour faciliter la comparaison avec la figure preacuteceacutedente On remarque que les lignes sont plus nettes qursquoil y a moins drsquoangles aberrants et que

les angles corrects sont plus marqueacutes (ils sont deacutetermineacutes comme plus pertinent)

Chapitre 3 Description des analyses 26

20

0

20

0

20

0

Figure 36 - Angles drsquoune scegravene reacuteelle constitueacutee drsquoun bruit parcourant le cercle trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 (en haut) 0 et 2 (au milieu) et 0 et 4 (en bas) Le

numeacutero de trame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On retrouve qursquoune limitation des ordres HOA supeacuterieurs issus drsquoun enregistrement

microphonique est la restitution des basses freacutequences

34 Traitement des donneacutees

341 Algorithme des k-moyennes Agrave lrsquoissue de lrsquoanalyse en composantes principales on reacutecupegravere avec la premiegravere

des meacutethodes exposeacutees au chapitre preacuteceacutedent des angles correspondants aux positions des sources preacutedominantes agrave raison drsquoune valeur par fenecirctre et par bande de freacutequence Il faut agrave partir de ces donneacutees parvenir agrave isoler les sources crsquoest-agrave-dire agrave deacuteterminer quels sont les angles pertinents et examiner quels sont ceux qui agrave une certaine toleacuterance pregraves sont preacutesents dans plusieurs bandes de freacutequence etou plusieurs fenecirctres temporelles

Pour pouvoir exploiter ces donneacutees spatiales nous avons utiliseacute lrsquoalgorithme des

k-moyennes (ou k-means) [MacQueen 1967] sur les angles pondeacutereacutes par des critegraveres de pertinence Cet algorithme fonctionne de la maniegravere suivante

Initialisation choix de k barycentres (les k moyennes) Reacutepeacuteter Associer chaque eacuteleacutement au barycentre le plus proche Recalculer les positions des barycentres Jusqursquoagrave ce que les barycentres soient stables (ou au bout de t iteacuterations)

34 Traitement des donneacutees 27

Lrsquoavantage de cet algorithme est drsquoecirctre peu glouton puisqursquoil converge en O(tkn) ougrave t est le nombre drsquoiteacuterations k le nombre de centres et n le nombre de points (geacuteneacuteralement on a t k ltlt n) Par contre il est plutocirct sensible aux exceptions un point aberrant tirera agrave lui la moyenne auquel il aura eacuteteacute associeacute Il faut donc faire en sorte que ces points erroneacutes soient aussi rares que possibles Crsquoest pourquoi les angles traiteacutes sont pondeacutereacutes par 2 critegraveres de pertinence

La pondeacuteration des angles fournis en entreacutee de lrsquoalgorithme des k-moyennes se

fait de maniegravere simple en reacutepeacutetant ces angles un nombre de fois (de 0 agrave 10) proportionnel agrave un critegravere Ainsi un angle tregraves pertinent sera dupliqueacute et sera preacutesent plusieurs fois dans la liste des donneacutees traiteacutees attirant ainsi agrave lui la position du barycentre le plus proche Au contraire un angle trop peu pertinent ne sera pas reacutepeacuteteacute voir mecircme sera enleveacute de la liste

Le seul problegraveme de cet algorithme est qursquoil neacutecessite la connaissance de k crsquoest-

agrave-dire du nombre de sources qui composent la scegravene Une deacutetermination automatique se basant sur la reacutepeacutetition de lrsquoalgorithme avec un k croissant a eacuteteacute testeacutee mais le critegravere drsquoarrecirct reposant sur la dispersion des points autour des barycentres nrsquoeacutetant pas assez robuste cette meacutethode a provisoirement eacuteteacute mise de cocircteacute

342 Critegraveres de pertinence Les 2 critegraveres de pondeacuteration choisis sont lrsquoeacutenergie de la sous-bande dans la

fenecirctre donneacutee et le rapport de la norme de la 1egravere composante (la composante principale) de lrsquoACP sur la somme des normes de toutes les composantes

En effet un angle est trouveacute dans chaque sous-bande de chaque fenecirctre mecircme si

le signal y est tregraves faible Lrsquoangle trouveacute sera alors tregraves peu repreacutesentatif de la direction drsquoune source puisqursquoil indiquera la direction drsquoun bruit Lrsquoeacutenergie doit donc ecirctre prise en compte pour ne conserver que les angles trouveacutes dans des bandes comportant un signal suffisant

La norme relative de la 1egravere composante de lrsquoACP rend quant agrave elle compte du

poids relatif de cette composante par rapport aux autres Ainsi si 2 sources sont preacutesentes dans une bande donneacutee la 1egravere composante sera agrave peine plus marqueacutee que la 2egraveme Ceci peut ecirctre calculeacute en prenant simplement le rapport de la 1egravere valeur propre sur la somme des valeurs propres

On peut noter que la norme de la 1egravere composante ne se deacutetache nettement que

lorsqursquoun son est preacutesent dans la bande consideacutereacutee On peut alors se demander si lrsquoeacutenergie doit ecirctre prise en compte ou si lrsquoinformation qursquoelle contient nrsquoest comprise dans le 2egraveme critegravere En fait la norme relative est un critegravere tregraves bruiteacute et consideacuterer lrsquoeacutenergie par ailleurs permet de nuancer ces artefacts et constitue une base solide de pondeacuteration

Chapitre 3 Description des analyses 28

80

40

0

Figure 37 - Repreacutesentation temps-freacutequence des angles du son deacutecrit en 332 Letrame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On peut donc v

par trame et par bande chacun eacutetant le reacutesultat drsquoune ACP crsquoest-agrave-dire la 1egravere

Figure 38 - Eacutenergie de ce mecircme son On peut voir une basse en notes tenues uneet une batterie qui produit des sons secs dans un spectre plus aigu

80

40

0

80

40

0

Figure 39 - Norme relative de la 1egravere composante de ce mecircme son Les impacts de batterie (dans lrsquoaigu) ressortent davantage

π 0 minusπ

numeacutero de oir un angle direction

voix aiguumle

34 Traitement des donneacutees 29

Figure 310 - Pondeacuteration appliqueacutee agrave lrsquoentreacutee des k-moyennes calculeacutee ici comme

le simple produit de lrsquoeacutenergie et de la norme relative

80

40

0

343 Lissages

Pour faire face au bruit ineacutevitable dans les reacutesultats il faut lisser les donneacutees Ces

lissages temporels correspondent agrave des hypothegraveses de stabiliteacute des sources qui sont supposeacutees ecirctre fixes ou mobiles relativement lentement (dans une mesure agrave parameacutetrer)

Un premier lissage peut ecirctre opeacutereacute avant le traitement par lrsquoalgorithme des k-

moyennes Le filtre choisi est un filtre meacutedian de maniegravere agrave eacuteliminer les points aberrants tout en conservant les vraies valeurs des points coheacuterents Ce lissage est appliqueacute sur chaque sous-bande aux angles et ne tient pas compte des critegraveres de pertinence Il est donc utiliseacute avec parcimonie et peut mecircme ecirctre eacuteviteacute en reacuteglant de maniegravere adeacutequate les critegraveres de pondeacuteration agrave lrsquoentreacutee des k-moyennes

Le deuxiegraveme lissage srsquoeffectue agrave lrsquoentreacutee des k-moyennes en mecircme temps que les

critegraveres de pondeacuteration Il consiste agrave appliquer les k-moyennes non pas sur une fenecirctre donneacutee mais sur plusieurs fenecirctres conseacutecutives anteacuterieures et posteacuterieures en donnant plus de poids agrave la fenecirctre courante Dans la pratique les poids donneacutes aux diffeacuterentes fenecirctres sont eacutetablis par une gaussienne centreacutee sur la fenecirctre courante et de largeur agrave deacuteterminer (en fonction notamment de la dureacutee drsquoune fenecirctre et du type de scegravene analyseacute)

35 Exploitation de toutes les composantes de lrsquoACP Les analyses preacutesenteacutees preacuteceacutedemment ont toutes exploiteacute uniquement la

composante principale extraite par lrsquoACP Or cette analyse fournit des informations plus complegravetes par lrsquointermeacutediaire des autres composantes dont on peut tirer parti pour isoler plusieurs sources au sein drsquoune mecircme bande Cette approche est toujours en deacuteveloppement dans ce stage et nrsquoa pas encore donneacute pleine mesure des reacutesultats qursquoelle laisse entrevoir

Les composantes de lrsquoACP indiquent des directions qui correspondent aux

diffeacuterentes sources composant la scegravene sonore Les vecteurs propres de la matrice de correacutelation donnent ainsi les combinaisons lineacuteaires des signaux HOA permettant de

Chapitre 3 Description des analyses 30

seacuteparer de la meilleure faccedilon possible ces sons Ces directions peuvent ecirctre alors utiliseacutees pour former des directiviteacutes isolant au mieux ces sources

aBS sdot= (31)

ougrave la matrice a contient les vecteurs propres de la matrice de correacutelation (voir Annexe C) le vecteur B contient les signaux HOA et le vecteur S contient les sources extraites

⎟⎟⎟

⎜⎜⎜

=⎟⎟⎟

⎜⎜⎜

⎛=

⎥⎥⎥

⎢⎢⎢

⎟⎟⎟

⎜⎜⎜

⎟⎟⎟

⎜⎜⎜

⎛=

10

1001

1

ML

N

B

BB

S

SSuua MML (32)

On obtient ainsi des lobes drsquoautant plus eacutetroits que lrsquoordre est eacuteleveacute chacun

dirigeacute vers une source et permettant de lrsquoisoler le plus possible des contributions des autres sources La Figure 311 preacutesente les directiviteacutes ainsi trouveacutees par une ACP en pleine bande Une analyse en sous-bande permet une plus grande distinction des sources mais une seacuteparation diffeacuterente entre les bandes est dangereuse car elle risque de dissocier spatialement plusieurs parties drsquoun mecircme son

Figure 311 - Directiviteacutes seacuteparant ideacutealement 4 sources placeacutees agrave 17 73 195 et -58deg

pour une scegravene virtuelle encodeacutee agrave lrsquoordre 4 Ce principe se heurte neacuteanmoins aux limites de seacuteparation lieacutees agrave lrsquoordre

drsquoencodage en effet 2 sources ne pourront pas ecirctre seacutepareacutees si elles sont trop proches comme en teacutemoigne la largeur des lobes principaux Les lobes secondaires traduisent eacutegalement un meacutelange des sources isoleacutees La figure ci-dessus montre ainsi que la source placeacutee agrave 17deg (en vert) sera preacutesente de maniegravere non neacutegligeable dans le signal senseacute contenir la source placeacutee agrave -58deg (en bleu) en raison du lobe secondaire bleu important

31

Chapitre 4

Reacutesultats et applications

41 Illustration et critique des reacutesultats obtenus

411 Avant-propos Sans notification particuliegravere les reacutesultats preacutesenteacutes ont eacuteteacute obtenus avec un pas

de 50 ms une analyse en 80 bandes avec une FFT sur 8192 points Une taille de FTT plus grande et un plus grand nombre de bande augmente la qualiteacute de lrsquoanalyse un pas plus petit ameacuteliore sa preacutecision temporelle mais les reacutesultats sont moins fiables et un lissage plus important srsquoimpose alors Ces paramegravetres ont eacuteteacute reacutegleacutes apregraves de multiples essais sur des scegravenes diverses

Les reacutesultats sont preacutesenteacutes ici uniquement sous la forme de graphiques nous ne

pouvons donc repreacutesenter que les angles trouveacutes agrave la sortie de lrsquoalgorithme des k-moyennes

412 Scegravene 2D artificielle agrave 4 sources fixes La premiegravere scegravene est une scegravene artificielle composeacutee de 4 sons fixes placeacutes agrave -70

-10 45 et 110deg Ces sons (une basse une voix une guitare et une batterie) ont eacuteteacute choisis pour leur varieacuteteacute spectrale et leur varieacuteteacute drsquoattaque Elle a en outre le meacuterite drsquoecirctre reacutealiste et de constituer une seacutequence musicale (chaque son nrsquoest pas une meacutelodie indeacutependante)

On voit sur la Figure 41 ci-dessous que les angles trouveacutes sont proches des

angles theacuteoriques Lrsquoun des sons (agrave 45deg) est quasiment nul avant la 100egraveme trame sa position est alors moins facile agrave deacuteterminer plus preacuteciseacutement une position approximative est trouveacutee et correspondrait exactement agrave la position du bruit (45deg) si lrsquoincertitude de mesure tregraves grande pour un son aussi faible ne rendait la deacutetermination si ardue On mesure un eacutecart-type de 22deg sur cet exemple (en excluant le deacutebut du son agrave 45deg)

Chapitre 4 Reacutesultats et applications 32

Figure 41 - Angles theacuteoriques (en pointilleacutes rouge) et calculeacutes (en trait bleu) pour une scegravene

constitueacutee de 4 sons fixes longue de 11s

413 Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile

Figure 42 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) de la scegravene agrave

4 sources dont 1 mobile deacutecrite en 332 Cette scegravene est deacutecrite en 332 On a ici demandeacute aux k-moyennes de renvoyer 5 barycentres par trame alors que

seules 4 sources eacutetaient preacutesentes dans le but de se garantir une marge vis-agrave-vis des erreurs de deacutetection Cette 5egraveme direction nrsquoest pas du tout gecircnante elle indique une direction qui ne contient pas de source et crsquoest donc un son tregraves faible qui est ainsi pointeacute Apregraves une eacuteventuelle extraction le signal ne sera donc pas du tout gecircnant

41 Illustration et critique des reacutesultats obtenus 33

On peut remarquer que quand le son mobile se rapproche drsquoun son fixe la deacutetection est moins bonne il y a une fusion entre les 2 sons Mais encore une fois lors de lrsquoextraction lrsquoisolation drsquoun des sons englobera lrsquoautre son ce qui ne posera pas de problegraveme pour les objectifs fixeacutes aucune source nrsquoeacutetant oublieacutee En effet la seacuteparation de sources nrsquoest pas un objectif ici mais un moyen pour preacuteciser les positions des sources ce qui sera fait correctement mecircme si 2 sources sont pointeacutees par 1 seule direction

414 Scegravene 3D artificielle agrave une source et bruit de fond

La scegravene dont la position drsquoune source a eacuteteacute extraite ci-dessous est une scegravene virtuelle en 3D constitueacute drsquoun son (une voix) qursquoon a fait se deacuteplacer par paliers tout drsquoabord vers le haut de 0deg agrave 45deg et vers la gauche de 0deg agrave 90deg puis redescendre jusqursquoagrave 35deg en continuant son cheminement vers la gauche jusqursquoagrave 120deg et enfin finir la descente de 35deg agrave 0deg en la laissant agrave 120deg Agrave cette source a eacuteteacute superposeacutee une ambiance spatialiseacutee de hall drsquoaeacuteroport initialement enregistreacutee en 2D (au format 51) mais transformeacutee pour contenir des composantes verticales Cette ambiance deacutecorreleacutee de la source avait pour but de tester la robustesse de lrsquoanalyse Elle eacutetait agrave 15 dB en-dessous du niveau de la voix

Figure 43 - Azimut et eacuteleacutevation theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun

son en 3D artificiel de 9s placeacute dans une ambiance bruyante On remarque que lrsquoanalyse est tregraves correcte Il nrsquoy a pas drsquoeacutecart important entre

les angles theacuteoriques et ceux calculeacutes On note toutefois que le lissage agrave lrsquoentreacutee des k-moyennes a pour effet de gommer les creacuteneaux et drsquoaplatir quelque peu la courbe drsquoeacuteleacutevation ceci nrsquoest pas vraiment gecircnant car de tels sauts dans la position drsquoune source ne sont pas du tout reacutealistes (ils peuvent caracteacuteriser des bruits de pas mais de tels impacts sont courts et on peut srsquoattendre agrave ce que la courbe suive leur position aux instants ougrave ils sont eacutemis)

Chapitre 4 Reacutesultats et applications 34

415 Scegravene 2D naturelle agrave une source Les scegravenes naturelles sont on lrsquoa vu plus deacutelicates agrave exploiter car on ne peut pas

garantir la preacutecision de la position theacuteorique agrave retrouver par le calcul et on ne peut donc pas calculer la preacutecision de lrsquoanalyse Seuls les enregistrements utilisant la table tournante (voir 232) permettent une mesure preacutecise de la position de lrsquoangle Ces enregistrements on pu confirmer la validiteacute de lrsquoanalyse pour des scegravenes reacuteelles on trouve ici un eacutecart-type de 25deg

Figure 44 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun bruit blanc

tournant autour du micro enregistreacute en chambre sourde Cette analyse a eacuteteacute reacutealiseacutee par sous-bandes mais sur une eacutetendue freacutequentielle

plus reacuteduite puisqursquoon srsquoest limiteacute aux possibiliteacutes offertes par le microphone La scegravene a donc eacuteteacute analyseacutee de 200 agrave 10 000 Hz

42 Quelques applications

421 Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre 2 agrave partir de lrsquoordre 1

Une fois les positions des sources connues la porte est ouverte agrave de nombreuses

applications La connaissance de ces positions permet en effet de syntheacutetiser artificiellement des composantes manquantes ou non transmises La premiegravere synthegravese deacuteveloppeacutee est celle des signaux U et V composant la partie horizontale de lrsquoordre 2 agrave partir de lrsquoordre 1 et de paramegravetres issus de lrsquoanalyse pour une source en 2D (des angles dans de cas)

42 Quelques applications 35

Figure 45 - Principe de lrsquoameacutelioration de la preacutecision spatiale

Le principe de la synthegravese est drsquoextraire les sources originales agrave partir de W X Y

et des angles (un angle par trame et par sous-bande) Ceci peut ecirctre reacutealiseacute de maniegravere approcheacutee en deacutecodant lrsquoordre 1 dans les directions des sources Ce deacutecodage revient agrave calculer les signaux qui devraient alimenter des haut-parleurs qui seraient placeacutes agrave ces positions dans le cas drsquoune restitution (voir 122) crsquoest-agrave-dire agrave former des directiviteacutes dans les directions des sources Dans la plupart des cas ce deacutecodage qui fait intervenir une pseudo-inversion de Moore-Penrose (111) est imparfait les sources se retrouvant leacutegegraverement meacutelangeacutees On peut comparer cette seacuteparation agrave celle que ferait un ensemble de microphones agrave directiviteacute hypercardioiumlde coiumlncidents

Figure 46 - Directiviteacutes eacutequivalentes agrave la seacuteparation de 4 sources agrave lrsquoordre 1 Ces sources seacutepareacutees vont ensuite constituer toujours placeacutees aux angles

deacutetermineacutes agrave lrsquoanalyse une scegravene virtuelle qursquoon va encoder agrave lrsquoordre 2 De cet encodage on ne conservera que les signaux manquants dans notre exemple les signaux du 2nd ordre U et V Ainsi la scegravene spatialiseacutee sera au final constitueacutee des signaux W X et Y drsquoorigine (transmis) et des signaux U et V syntheacutetiseacutes

Chapitre 4 Reacutesultats et applications 36

422 Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave partir de W Reconstruire une scegravene sonore spatialiseacutee agrave partir drsquoun unique canal mono est

alors difficile et le reacutesultat nrsquoest appreacuteciable que pour des scegravenes simples Il faut pour cela que les diffeacuterentes sources composant cette scegravene aient des supports spectraux aussi distincts que possible Les diffeacuterentes sous-bandes sont alors placeacutees agrave un certain angle transmis en parallegravele et crsquoest cette scegravene reconstitueacutee qui va ecirctre encodeacutee au 1er ordre de maniegravere agrave recreacuteer les signaux X et Y

Figure 47 - Principe de la restitution de lrsquoordre 1 agrave partir du signal mono W Ce scheacutema rappelle une meacutethode deacuteveloppeacutee dans le cas steacutereacuteo appeleacutee BCC

(Binaural Cue Coding) [Faller and Baumgarte 2002] Le principe est drsquoextraire et coder des informations permettant la reconstruction binaurale drsquoun signal agrave savoir les diffeacuterences interaurales drsquointensiteacute et de temps (Interaural LevelTime Difference ILD et ITD) qui correspondent dans le cas drsquoune restitution sur un casque aux diffeacuterences drsquointensiteacute et de temps inter-canal (Inter-Channel LevelTime Difference ICLD et ICTD) qui sont mesureacutees agrave partir drsquoune analyse en sous-bandes Les auteurs y ont plus reacutecemment associeacute un indice de correacutelation interaurale mesureacute agrave partir de la correacutelation inter-canal (ICC) afin de caracteacuteriser la preacutecision spatiale (la ldquolargeurrdquo drsquoune source)

Figure 48 - Scheacutema de principe de la meacutethode BCC [Faller and Baumgarte 2003]

On observe en pratique des deacutefauts lieacutes agrave la brutaliteacute de la proceacutedure une sous-

bande ne peut ecirctre que placeacutee agrave la position indiqueacutee et ne peut pas rester floue diffuse ou encore ecirctre placeacutee agrave plusieurs endroits Pour y remeacutedier nous avons ajouteacute 2 traitements agrave la synthegravese Tour drsquoabord nous avons appliqueacute un leacuteger lissage soulageant les effets deacutesagreacuteables dus au saut du contenu drsquoune sous-bande drsquoun endroit agrave un autre entre de 2 fenecirctres conseacutecutives Les positions varient alors de faccedilon plus souple au sein drsquoune mecircme sous-bande traduisant une hypothegravese de continuiteacute spatiale (pas de deacuteplacement brusque) La contrepartie est que cette hypothegravese est lieacutee agrave une hypothegravese de continuiteacute spectrale

42 Quelques applications 37

La 2egraveme ameacutelioration concerne le positionnement des sources En incluant dans la transmission un critegravere de pertinence on peut savoir srsquoil est raisonnable de placer une sous-bande agrave un angle preacutecis ou bien si lrsquoanalyse eacutetait flou agrave son sujet auquel cas un positionnement impreacutecis serait preacutefeacuterable Le paramegravetre choisi est une combinaison des critegraveres eacutevoqueacutes en 342 il nous permet de placer la sous-bande de maniegravere plus ou moins prononceacutee

43 Comparaison avec une meacutethode existante Certains auteurs ont deacutejagrave essayeacute drsquoanalyser un contenu ambisonique pour

retrouver les positions des sources Ville Pulkki a ainsi deacutecrit dans [Pulkki and Faller 2006] une meacutethode drsquoanalyse du B-format baseacutee sur lrsquoeacutetude des amplitudes des signaux W X Y et Z

Figure 49 - X et Y dans le cas drsquoune sinusoiumlde placeacutee agrave 15deg (agrave gauche) et 120deg (agrave droite)

Les figures ci-dessus montrent les relations drsquoamplitudes (algeacutebriques) qui relient

X et Y agrave lrsquoangle de la source On voit que lrsquoanalyse de ces amplitudes respectives permet de retrouver la position de la source en effet on a pour une source unique les relations de lrsquoeacutequation (11) rappeleacutee ici

⎪⎪

⎪⎪

=

=

=

=

δ

δθ

δθ

sin2

cossin2

coscos2

SZ

SY

SX

SW

(41)

On peut donc theacuteoriquement retrouver les valeurs de θ et δ par relations

trigonomeacutetriques Ainsi on a

⎪⎪⎩

⎪⎪⎨

=

=

2)sin(

)tan(

WZ

XY

δ

θ (42)

Chapitre 4 Reacutesultats et applications 38

On peut donc trouver les angles θ et δ agrave π pregraves Pour lever lrsquoambiguiumlteacute une eacutetude de signe est neacutecessaire Mais dans le cas de θ le signe de X et de Y agrave δ fixeacute deacutepend aussi bien de θ que S Il faut srsquointeacuteresser aux signes de θcos et θsin crsquoest-agrave-dire

aux signes de WX et

WY Dans la pratique on srsquointeacuteressera aux signes de et

pour se preacutevenir des divisions par zeacuteros

XW sdot YW sdot

XW sdot et YW sdot sont proportionnels agrave toujours positif

2S

Les auteurs deacutecrivent eacutegalement dans leur article un critegravere appeleacute diffuseness qui

peut ecirctre compareacute agrave un critegravere de pertinence inverseacute Ce paramegravetre calculeacute par agrave 1 - R ougrave R est un rapport de normes est tregraves proche du critegravere de norme relative deacutecrit en 342 Il peut donc ecirctre utiliseacute de la mecircme faccedilon et permettre ainsi une pleine comparaison

Cette meacutethode a eacuteteacute impleacutementeacutee pour pouvoir ecirctre compareacutee avec la meacutethode

par ACP Tous les paramegravetres ont scrupuleusement eacuteteacute gardeacutes identiques et plusieurs reacuteglages ont eacuteteacute testeacutes Les courbes ci-dessous preacutesentent les reacutesultats des analyses de la scegravene deacutecrite en 332 avec un pas de 50ms un overlap de 50 un NFFT de 2048 et 40 bandes freacutequentielles Nous avons repreacutesenteacute tous les angles trouveacutes crsquoest-agrave-dire un par bande et par trame pour srsquoaffranchir de la seacutelection des k-moyennes

π

0

minusπ

Figure 410 - Angles trouveacutes par lrsquoalgorithme de [Pulkki and Faller 2006] Le diamegravetre du point correspondant agrave la pertinence

43 Comparaison avec une meacutethode existante 39

π

0

minusπ

Figure 411 - Angles trouveacutes par une ACP pour la mecircme scegravene On remarque que les points excentriques sont moins nombreux et plus rarement trouveacutes comme pertinents

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee

441 Position du problegraveme

Une application directe de ces analyses a eacuteteacute deacuteveloppeacutee pour la confeacuterence audio

spatialiseacutee La confeacuterence audio utilise en effet la spatialisation pour permettre une meilleure seacuteparation par lrsquooreille des diffeacuterents locuteurs Ainsi si plusieurs personnes parlent en mecircme temps il sera tregraves difficile de comprendre chacun individuellement si ces voix sont restitueacutees en mono mais on pourra focaliser lrsquoattention sur chacune drsquoentre elles si elles sont seacutepareacutees spatialement (crsquoest lrsquoeffet cocktail party [Cherry 1953])

Lrsquoobjectif eacutetait de veacuterifier qursquoil eacutetait possible de conserver la spatialisation drsquoune

confeacuterence en nrsquoayant transmis qursquoun downmix mono des signaux Ce concept semble se rapprocher de celui deacutecrit en 422 mais une diffeacuterence fondamentale les seacutepare la confeacuterence audio spatialiseacutee nrsquoest pas codeacutee au format ambisonic mais les signaux traiteacutes sont directement les sons provenant des diffeacuterents locuteurs crsquoest-agrave-dire les sources elles-mecircmes Ainsi lrsquoanalyse ne porte plus sur une scegravene spatialiseacutee mais sur des signaux seacutepareacutes Il nrsquoy a ainsi plus drsquoindices spatiaux agrave trouver

Avoir accegraves aux sources permet drsquoobtenir des informations plus preacutecises pour

permettre une seacuteparation apregraves la transmission Comme nous lrsquoavons vu lrsquoanalyse drsquoune scegravene spatialiseacutee ne permet que dans drsquoultimes cas agrave la seacuteparation des sources ce qui est ici notre point de deacutepart et sera en fait notre point drsquoarriveacutee En effet nous tenterons de retrouver les sources seacutepareacutees apregraves la transmission de maniegravere agrave pouvoir par la suite les spatialiser agrave loisir (voir Figure 413)

Chapitre 4 Reacutesultats et applications 40

442 Solution proposeacutee Les paramegravetres extraits ne sont donc plus des positions de sources Nous avons

choisi de mesurer puis transmettre lrsquoeacutenergie de chaque signal dans chaque sous-bande en parallegravele du downmix En effet une bonne seacuteparation sera possible si lrsquoon sait quelle proportion de chaque source compose chaque sous-bande du signal mono

Figure 412 - Scheacutema de principe drsquoune confeacuterence audio spatialiseacutee

Figure 413 - Scheacutema ameacutelioreacute (deacutebit reacuteduit)

en pointilleacutes informations compleacutementaires (eacutenergie) Lrsquoanalyse en sous-bandes a lieu dans le serveur (Figure 414) Celui-ci calcule

lrsquoeacutenergie de chaque signal dans chaque sous-bande sur une trame donneacutee Crsquoest ce paramegravetre qui associeacute au signal mono M permettra la seacuteparation des sources dans le terminal (Figure 415) Ce dernier reacutepartira en effet les diffeacuterentes sous-bandes vers chaque signal reconstitueacute proportionnellement agrave cette information pour reconstruire les 4 sources originales

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee 41

Figure 414 - Analyse principe de lrsquoencodage dans le serveur

Figure 415 - Synthegravese principe du deacutecodage dans le client

Afin de reacuteduire au maximum les informations compleacutementaires agrave transmettre on

peut remarquer qursquoau cours drsquoune confeacuterence audio on a tregraves souvent un seul locuteur les participants ne parlent que tregraves rarement tous en mecircme temps Ceci implique que les signaux en entreacutee sont tregraves souvent tous nuls sauf 1 et appliquer un seuil en entreacutee de lrsquoanalyse permet outre lrsquoallegravegement du traitement drsquoavoir moins de paramegravetres agrave transmettre

Ce scheacutema simplifieacute ne tient pas compte des problegravemes de phase rien nrsquoindique

que les eacutenergies des signaux srsquoajoutent bien dans chaque sous-bande lors du downmix on peut tregraves bien avoir des oppositions de phase La solution est drsquoeffectuer le downmix (la somme) des signaux dans chaque sous-bande en prenant soin drsquoavoir recaleacute les phases au preacutealable Ceci nrsquoa un sens que pour des bandes suffisamment eacutetroites Les deacutecalages temporels appliqueacutes pour le recalage sont alors des paramegravetres suppleacutementaires agrave transmettre et sont pris en compte lors de la synthegravese au niveau du reacutepartiteur qui repositionnera la phase de chaque trame pour chaque signal

Chapitre 4 Reacutesultats et applications 42

443 Bilan Le reacutesultat du deacutecodage a pu ecirctre eacutecouteacute de diffeacuterentes maniegraveres les sources

reconstitueacutees individuellement ensemble en steacutereacuteo drsquoamplitude et sur un systegraveme 51 On note que les sources ont eacuteteacute assez bien seacutepareacutees mais que des artefacts sont audibles en particulier lorsque le nombre de locuteurs simultaneacutes augmentent Ces artefacts sont un meacutelange des voix qui nrsquoest gecircnant que lorsqursquoon les eacutecoute de maniegravere seacutepareacutee En effet lrsquoeacutecoute simultaneacutee de ces signaux syntheacutetiseacutes mecircme placeacutes agrave des positions distinctes sur un systegraveme de diffusion multicanal est tout agrave fait satisfaisante

Ce proceacutedeacute pour pouvoir ecirctre appliqueacute doit fonctionner en temps-reacuteel Cette

contrainte nrsquoa pas du tout eacuteteacute prise en compte lrsquoobjectif eacutetant de valider la faisabiliteacute drsquoune reconstruction Les programmes sous Matlab nrsquoont pas eacuteteacute optimiseacutes et ne respectent pas cette contrainte

43

Conclusion Nous avons preacutesenteacute dans ce rapport le principe et lrsquoapplication de plusieurs

meacutethodes drsquoanalyses spatiales de scegravenes ambisoniques conccedilues et reacutealiseacutee pendant le stage Le format HOA est en effet une repreacutesentation du champ acoustique deacutecomposeacute sur une base drsquoharmoniques spheacuteriques jusqursquoagrave un certain ordre agrave la maniegravere drsquoun deacuteveloppement limiteacute Il contient donc de maniegravere indirecte des indications spatiales qursquoon peut extraire avec des analyses comme lrsquoanalyse en composantes principales

Ces analyses nous permettent de deacuteterminer les positions des sources qui

composent la scegravene sonore Nous avons appliqueacute les reacutesultats de ces analyses agrave 2 types de synthegravese lrsquoune destineacutee aux transmissions bas deacutebit lrsquoautre agrave un traitement de restitution de la preacutecision spatiale dans le cas ougrave des ordres supeacuterieurs dont le but est drsquoaffiner la perception de localisation nrsquoauraient pas pu ecirctre transmis Ces algorithmes par le codage drsquoinformations spatiales qursquoils permettent pourront trouver bien drsquoautres applications dans la transmission et le codage ougrave la description du contenu est de plus en plus utiliseacutee (comme par exemple dans la norme MPEG)

Des ameacuteliorations sont possibles sur plusieurs points tout drsquoabord lrsquoexploitation

de toutes les composantes de lrsquoACP est agrave lrsquoeacutetude et semble pouvoir donner des reacutesultats inteacuteressants Drsquoautre part on a vu que le reacutesultat final est tregraves deacutependant de la bonne convergence de lrsquoalgorithme des k-moyennes utiliseacute pour traiter les donneacutees brutes de lrsquoanalyse en sous-bandes Or cet algorithme neacutecessite des reacuteglages tregraves fins et une connaissance a priori du nombre de sources est presque indispensable Drsquoautres algorithmes plus complexes de suivi de formes pourraient ecirctre avantageusement utiliseacutes pour deacutetecter dans tous les angles trouveacutes lesquels sont susceptibles de former une trajectoire

45

Annexe A

Deacuteveloppement du champ acoustique en harmoniques spheacuteriques

A1 Eacutequation drsquoonde en coordonneacutees spheacuteriques On se place dans lrsquoespace euclidien agrave 3 dimensions muni drsquoun systegraveme de

coordonneacutees spheacuteriques Un point M y est repeacutereacute par son rayon r son azimut θ et son eacuteleacutevation δ tels que repreacutesenteacutes sur la figure ci-dessous

- r est la norme du vecteur position rr crsquoest-agrave-dire la distance OM - [20[ πθ isin est lrsquoangle formeacute par le projeteacute du point sur le plan xOy et lrsquoaxe Ox

- ]2

2

[ ππδ minusisin est lrsquoangle formeacute par le plan xOy et le vecteur position2

Figure A1 - Systegraveme de coordonneacutees spheacuteriques

2 Cet angle diffegravere de lrsquoangle polaire usuel δπϕ minus=

2 habituellement pris entre lrsquoaxe Oz et le

vecteur position

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 46

Les relations entre les coordonneacutees spheacuteriques et les coordonneacutees carteacutesiennes sont

⎪⎩

⎪⎨

===

δδθδθ

sincossincoscos

zryrx

(A1)

On srsquointeacuteresse dans ce repegravere agrave lrsquoeacutequation de propagation des ondes acoustiques

de pression On se place dans les conditions classiques drsquoacoustique lineacuteaire (les variations de p sont petites par rapport agrave la pression atmospheacuterique) en supposant que lrsquoair est un fluide parfait (on y neacutegligera les pheacutenomegravenes dissipatifs) Dans une reacutegion de lrsquoespace ne comprenant pas de sources lrsquoeacutequation drsquoonde srsquoeacutecrit alors

0)(12

2

2 =⎟⎟⎠

⎞⎜⎜⎝

⎛partpart

minus∆ trptc

r (A2)

p eacutetant la pression et c la vitesse de propagation du son dans lrsquoair

Cette eacutequation devient dans le domaine freacutequentiel lrsquoeacutequation de Helmholtz

( ) 0)(2 =+∆ ωrpk r (A3)

ck ω

= eacutetant le nombre drsquoonde

En coordonneacutees spheacuteriques cette eacutequation srsquoeacutecrit

0sin1sin

sin11 2

2

2

222

2 =⎥⎦

⎤⎢⎣

⎡+

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart pk

rrrr

rr δθθθ

θθ (A4)

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques Drsquoapregraves [Bruneau 1983] elle admet des solutions agrave variables seacutepareacutees de la forme

)()()( δθ ΦΘ= rRp (A5) Ces solutions sont respectivement - pour la partie radiale une combinaison des fonctions de Bessel spheacuteriques de

premiegravere et seconde espegravece3 jn et nn

)()()( krBnkrAjrR nn += (A6) 3 Les fonctions de Bessel spheacuteriques de seconde espegravece sont eacutegalement appeleacutees fonctions de

Neumann

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 47

Ces fonctions sont deacutefinies comme suit

(A7)

Figure A2 - Fonctions de Bessel spheacuteriques pour les ordres 0 agrave 5 )(krjm

- pour la partie azimutale les fonctions )(θΘ

)sin()cos()( 21 θθθ ncnc +=Θ (A8) Eacutetant donneacute la deacutefinition de lrsquoangle Θ celui-ci doit neacutecessairement ecirctre de

peacuteriode 2π ))2()(( πθθ +Θ=Θ ce qui impose agrave n drsquoecirctre entier

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 48

- pour la partie polaire les fonctions de Legendre associeacutees )(sinδmnP

nm

nn

mn dPdP

)(sin)(sinsin)(sin

δδ

δδ = pour ⎩⎨⎧

gt=

nmavecnm 321

(A9)

ougrave les )(sinδnP sont les polynocircmes de Legendre de degreacute n en δsin deacutefinis par reacutecurrence

( )

11

22

1

0

sin)12()(sin)1(

1cos321)(sin

sin)(sin0)(sin

minus+ minus+=+

minus=

==

mmm mPPmPmet

P

PP

δδ

ϕδ

δδδ

(A10)

et de formule geacuteneacuterale

mm

m

mm dd

mP )1(sin

)(sin21)(sin 2 minus= δ

δδ (A11)

On peut appliquer aux fonctions )(sinδmnP la semi-normalisation de Schmidt

)(sin)()()(sin~ δεδ mnnmn P

nmnmP

+minus

= ougrave 10 =ε et 2=nε pour 1gen (A12)

En appariant les fonctions polaires et azimutales on deacutefinit les harmoniques

spheacuteriques de degreacute et drsquoordre)1(mnY 0gem 4 mnn lele0 et de degreacute et

drsquoordre (voir Figure A3)

)1(minusmnY 1gem

mnn lele1

)(sin~)sin()(

)(sin~)cos()()1(

)1(

δθδθ

δθδθ

mnmn

mnmn

PnY

PnY

=

=minus

(A13)

4 En geacuteneacuteral lorsque le degreacute et lrsquoordre ne sont pas eacutevoqueacutes conjointement on parle par abus de langage drsquoharmoniques drsquoordre m plutocirct que de degreacute m

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 49

soit

1)(sin

)()()12(2sin)(

)(sin)()()12(2cos)(

1)(sin)1()1()12(cos)(

)1(

)1(

1)1(

1

gt

⎪⎪⎩

⎪⎪⎨

+minus

+=

+minus

+=

=+minus

+=

minus

npourP

nmnmmnY

PnmnmmnY

npourPmmmY

mnmn

mnmn

mm

δθδθ

δθδθ

δθδθ

(A14)

La solution angulaire geacuteneacuterale srsquoeacutecrit alors sous la forme drsquoun deacuteveloppement sur

la base drsquoharmoniques spheacuteriques

( ) ( )sum minus

=minus+=Θ

1

1)1()1()( n

m mnmnmnmnn YBYBθ (A15) La solution geacuteneacuterale est alors la seacuterie de Fourier-Bessel

sum sum sum+infin

= = plusmn=

=0 0 1

)()( )()()(m

m

nmnmnm

m YBkrjikrpσ

σσ δθδθ (A16)

ougrave

intint⎪⎩

⎪⎨⎧

minusisin

isin

plusmnplusmn =

]2

2

[

[20[

)1()1( )()1()(

1

ππδ

πθ

δθδθ

S

mnm

mmn dSYpkrji

B (A17)

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 50

Tableau A1 - Expressions analytiques des harmoniques spheacuteriques pour les ordres 0 agrave 3

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 51

Figure A3 - Repreacutesentation des harmoniques spheacuteriques pour les ordres m = 0 agrave 3 Les

couleurs rouge et bleu indiquent respectivement des valeurs positives et neacutegatives

53

Annexe B

Compleacutements theacuteoriques sur le deacutecodage HOA

B1 Vecteur veacutelociteacute et vecteur eacutenergie Le vecteur veacutelociteacute est un indice de la direction apparente drsquoune source introduit

par Gerzon [Gerzon 1992] Il se calcule comme le rapport de la vitesse particulaire sur la pression acoustique

)()(

)()(1

δθδθ

δθδθ

ρ rprp

ki

rprv

cV nabla

minus=minus=rrr

(B1)

Dans le cas drsquoune onde plane le vecteur veacutelociteacute V

rest ainsi directement un

vecteur unitaire orienteacute vers la direction de provenance de lrsquoonde En geacuteneacuteralisant agrave une superposition drsquoondes planes en phase ou opposition de phase eacutemises par L haut-parleurs agrave eacutequidistance du point drsquoobservation on obtient la formule suivante

VVL

ll

L

lll

urg

ugV r

rr

==

sum

sum

=

=

1

1 (B2)

ougrave deacutesigne la direction du llur egraveme haut-parleur auquel est associeacute le gain gl et Vr Vur correspondent respectivement agrave la norme et agrave la direction du vecteur veacutelociteacute

Le vecteur eacutenergie est un autre indice de direction Il est deacutefinit par

EEL

ll

L

lll

urg

ugE r

rr

==

sum

sum

=

=

1

2

1

2

(B3)

Annexe B Compleacutements theacuteoriques sur le deacutecodage HOA 54

Il peut srsquointerpreacuteter comme une indication de la concentration de lrsquoeacutenergie ( ) et de sa direction moyenne de provenance (

Er

Eur ) On a toujours 1ltEr sauf dans le cas ougrave un seul haut-parleur contribue agrave la reconstruction (dans ce cas ) peut ecirctre consideacutereacute comme un indicateur de preacutecision de la localisation

1=Er Er

B2 Deacutecodages optimiseacutes La restitution la plus confortable drsquoun champ sonore veillera donc agrave maximiser

tout en essayant de garder le plus proche possible de 1 Lrsquooptimisation du deacutecodage consiste alors agrave multiplier chaque coefficient de la matrice de deacutecodage D (voir (111) par des gains calculeacutes drsquoapregraves des critegraveres drsquooptimisation

Er Vr

Ainsi le deacutecodage appeleacute max- maximise la norme du vecteur eacutenergie en

sacrifiant celle du vecteur veacutelociteacute puisqursquoon a dans ce deacutecodage (pour des configurations reacuteguliegraveres de haut-parleurs) Ce deacutecodage est donc avantageux par rapport au deacutecodage basique pour les hautes freacutequences ou dans le cas drsquoun auditoire eacutelargi Le deacutecodage in-phase va encore plus loin en cherchant agrave annuler complegravetement les contributions des haut-parleurs placeacutes agrave lrsquoopposeacute de la direction de provenance de lrsquoonde reproduite Ce critegravere est utile dans le cas drsquoune eacutecoute dans une position tregraves excentreacutee agrave laquelle on pourrait percevoir de faccedilon preacutedominante la contribution en opposition de phase drsquoun tel haut-parleur

Er

EV rr =

Ces diffeacuterents deacutecodages ont chacun des avantages et inconveacutenients Ainsi seul le

deacutecodage basique garantit = 1 le deacutecodage max- permet une preacutecision meilleure notamment en haute freacutequence et le deacutecodage in-phase est plus adapteacute agrave un auditoire plus large Jeacuterocircme Daniel [Daniel 2000] propose ainsi de changer le deacutecodage en fonction de la freacutequence et de lrsquoeacutetendue de la zone drsquoeacutecoute deacutesireacutee

Vr Er

Figure B1 - Deacutecodages les plus approprieacutes par sous-bande et en fonction de lrsquoeacutetendue de la

zone drsquoeacutecoute [Daniel 2000]

55

Annexe C

Analyse en composantes principales

C1 Espace des donneacutees Eacutegalement souvent appeleacutee transformeacutee de Karhunen-Loegraveve5 (TKL) lrsquoanalyse en

composantes principales (ACP) est une technique statistique de repreacutesentation drsquoinformation Introduite sur 2 variables par Pearson [Pearson 1900] elle a eacuteteacute eacutetendue par Hotelling [Hotelling 1933] Elle a pour but de caracteacuteriser des donneacutees drsquoun espace agrave N dimensions dans un sous-espace plus petit en minimisant les pertes drsquoinformation due agrave la projection crsquoest-agrave-dire en maximisant la variance projeteacutee Les donneacutees ainsi reacuteorganiseacutees deviennent indeacutependantes Les variables correacuteleacutees sont remplaceacutees par de nouvelles variables deacutecorreacuteleacutees et de variance maximale combinaisons lineacuteaires des variables initiales

Les donneacutees sont constitueacutees de n variables aleacuteatoires (dans notre cas des canaux)

et p reacutealisations ou individus (des eacutechantillons)

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

pn

p

ji

n

xx

x

xx

M

LLL

MOMNM

MLLM

MNMOM

LLL

1

111

(C1)

Ces donneacutees sont geacuteneacuteralement centreacutees et peuvent aussi ecirctre reacuteduites4 (on note

1x la moyenne de la variable et 1x )( 1xσ sa variance) Reacuteduire ou non le nuage de points (ie les p reacutealisations de la variable aleacuteatoire) est un choix de modegravele

5 Quelques rares sources mentionnent une diffeacuterence entre ACP et TKL en placcedilant celle-ci au

niveau du choix de la reacuteduction des donneacutees dans le cas dune ACP les donneacutees seraient centreacutees et reacuteduites alors qursquoelles seraient uniquement centreacutees pour une TKL

Annexe C Analyse en composantes principales 56

- si on ne reacuteduit pas le nuage une variable agrave forte variance pourrait tirer tout lrsquoeffet de lrsquoACP agrave elle

- si on reacuteduit le nuage une variable qui ne serait qursquoun bruit se retrouverait avec une variance apparente eacutegale agrave une variable informative

M est centreacutee

⎥⎥⎥

⎢⎢⎢

minusminusminus

minusminus=

npn

pi

ji

nn

xxxxxx

xxxxM

K

MM

K

11

11

11

ˆ (C2)

M~ est centreacutee et reacuteduite

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

minusminus

minus

minusminus

=

)()(

)(

)()(~

1

11

1

1

111

n

npn

pi

ij

i

n

nn

xxx

xxx

xxx

xxx

xxx

M

σσ

σ

σσ

K

MM

K

(C3)

On multiplie ensuite la matrice obtenue par sa transposeacutee pour obtenir - La matrice de covariance MMC t

vˆˆ sdot=

- La matrice de correacutelation MMC tr

~~ sdot= Ces matrices sont carreacutees (N x N) symeacutetriques et reacuteelles Elles sont donc

diagonalisables dans une base orthonormeacutee 6 Le principe de lrsquoACP est alors de trouver un axe u issu drsquoune combinaison lineacuteaire

des tel que le critegravere drsquoinertie du nuage autour de cet axe soit maximal Le critegravere drsquoinertie couramment utiliseacute est la variance Il faut donc trouver lrsquoaxe qui porte le maximum de variance crsquoest-agrave-dire lrsquoaxe u tel que la projection du nuage sur cet axe ait une variance maximale

nx

6 Nos donneacutees eacutetant ici des valeurs drsquoeacutechantillons elles sont par nature centreacutees et reacuteduites On

formera donc naturellement la matrice de correacutelation

C2 Diagonalisation 57

C2 Diagonalisation Pour alleacuteger lrsquoeacutecriture de la suite de cette partie nous consideacutererons que les

variables ont eacuteteacute centreacutees et si besoin reacuteduites et nous noterons ces variables

transformeacutees (ainsi

ix ix

iii xxx minuslarr ou bien )( i

iii x

xxxσ

minuslarr ) On fera de mecircme pour M

( ou bien MM ˆlarr MM ~larr ) et C ( vCC larr ou bien rCC larr ) La projection drsquoun eacutechantillon sur un axe u srsquoeacutecrit ix

uMxiu sdot=)(π (C4) La variance empirique de )( iu xπ vaut donc

uMMuxx ttiu

tiu sdotsdotsdot=sdot )()( ππ (C5)

Or on a vu que est diagonalisable dans une base orthonormeacutee donc

on peut noter P le changement de base associeacute et ∆ la matrice diagonale formeacutee de son spectre Ainsi

MMC t=

n

i 1)(λ PPMMC tt ∆==

)()()()( PuPuuPPuxx ttt

iut

iu sdot∆sdot=sdot∆sdot=sdotππ (C6) On pose v = Pu Chercher lrsquoaxe u qui maximise )( iu xπ revient donc agrave chercher le

vecteur v qui maximise ougravevvt ∆ )( 1 ndiag λλ K=∆ avec les iλ rangeacutes par ordre deacutecroissant Ce vecteur est trivialement le premier vecteur unitaire et on a alors

1λ=∆vvt

Ainsi le vecteur qui porte la plus grande part drsquoinertie du nuage est le premier

vecteur propre de C (premier par norme deacutecroissante) De mecircme le deuxiegraveme vecteur qui explique la plus grandelt part de lrsquoinertie restante est le deuxiegraveme vecteur propre de C Finalement la question de lrsquoACP se ramegravene agrave un problegraveme de diagonalisation de la matrice de correacutelation

C3 Code Matlab

function [vep vap] = pca(f N) f donneacutees N nombre de composantes agrave garder cor = f f formation de la matrice de correacutelation [vep vap] = eig(cor) calcul des vecteurs (vep) et valeurs (vap) propres [vap ind] = sort(diag(vap)) tri des valeurs propres par ordre croissant vap = flipud(vap) disposition inverse par ordre drsquoimportance vep = vep( flipud(ind)) classement en conseacutequence des vecteurs propres vep = vep( 1N) on ne garde que les N premiers vecteurs propres

Annexe C Analyse en composantes principales 58

59

Annexe D

Analyse en sous-bandes

D1 La transformeacutee de Fourier agrave court terme (TFCT) Pour affiner lrsquoanalyse les signaux sont donc deacutecoupeacutes en bandes de freacutequence par

TFCT La TFCT consiste agrave effectuer des transformeacutees de Fourier discregravetes sur des portions de signal fenecirctreacutees reacuteguliegraverement espaceacutees

On rappelle que la transformeacutee de Fourier drsquoun signal x(t) est deacutefinie (lorsque

lrsquointeacutegrale existe) par

int+infin

infinminus

minus= dtetxfX ftiπ2)()( (D1)

La transformeacutee de Fourier agrave temps discret (TFTD) drsquoun signal x(t) srsquoeacutecrit

sum+infin

minusinfin=

minus=n

fnienxfX π2)()( (D2)

La transformeacutee de Fourier discregravete (TFD) drsquoun signal discret x(k) est deacutefinie par

sum+infin

minusinfin=

minus=

n

Nkni

enxkXπ2

)()( (D3)

La TFCT discregravete est une TFD observeacutee sur une fenecirctre wa de taille N

summinus

=

minus+=

1

0

2)())(()(

N

n

Nnki

aaa enwtnxkXπ

ττ (D4)

ougrave )(taτ est lrsquoinstant drsquoanalyse

Annexe D Analyse en sous-bandes 60

Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT [Laroche 1995]

D2 Synthegravese par addition-recouvrement Lors de la synthegravese apregraves le deacutecoupage et lrsquoanalyse des fenecirctres on cherche agrave

reconstruire le signal temporel agrave partir de sa repreacutesentation freacutequentielle Pour cela on utilise la meacutethode OLA (overlap and add addition-recouvrement) qui consiste agrave prendre la TFCT inverse des spectres Xt puis agrave additionner les signaux obtenus apregraves les avoir multiplieacutes par une fenecirctre de pondeacuteration en les faisant se recouvrir partiellement

Le reacutesultat est donneacute par

sum=

minusminus=T

tsss tnxtnwnx

s1

))((~))(()(~ ττ τ (D5)

avec )()( tt as ττ = et summinus

=

=1

0

2))((~1)(~ N

k

Nkni

s ektXN

nxs

π

τ τ

Lors de la mise en œuvre de ce traitement il faut srsquoassurer drsquoecirctre en mesure de

reconstruire parfaitement un signal lorsqursquoaucune transformation ne lui est appliqueacutee Le critegravere de reconstruction parfaite condition suffisante est alors

sum=

=minusminusT

tasaa tnwtnw

11))(())(( ττ quelque soit n (D6)

D2 Synthegravese par addition-recouvrement 61

Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add [Laroche 1995]

Plusieurs paramegravetres sont agrave choisir avec soin Le premier drsquoentre eux est le type

de fenecirctre agrave utiliser Les diffeacuterentes options qui se preacutesentent agrave nous sont - la fenecirctre rectangulaire qui preacutesente dans son spectre le lobe principal le plus

eacutetroit mais des lobes secondaires non neacutegligeables - la fenecirctre de Hamming au lobe principal un peu plus large mais pour laquelle le

1er lobe secondaire se situe agrave -43 dB - la fenecirctre de Hann (ou cosinus sureacuteleveacute) qui ressemble agrave la preacuteceacutedente avec un

1er lobe secondaire plus fort mais une pente de 18 dB par octave pour les lobes suivants

- les fenecirctres de Blackman-Harris aux lobes secondaires tregraves bas mais au lobe principal plus large

Fenecirctre Lobe 2aire

(dB) Pente

(dBoct) Bande passante

agrave 6 dB (bins) Rectangulaire -13 -6 121 Triangulaire -27 -12 178

Hann -32 -18 200 Hamming -43 -6 181

Blackman-Harris 4 -92 -6 272

Tableau D1 - Caracteacuteristiques des principales fenecirctres drsquoanalyse [Harris 1978] Le meilleur compromis est donc dans notre contexte la fenecirctre de Hann ou celle

de Hamming

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 4: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

vi

343 Lissages29 35 Exploitation de toutes les composantes de lrsquoACP29

Chapitre 4 Reacutesultats et applications 31 41 Illustration et critique des reacutesultats obtenus31

411 Avant-propos 31 412 Scegravene 2D artificielle agrave 4 sources fixes 31 413 Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile32 414 Scegravene 3D artificielle agrave 1 source et bruit de fond 33 415 Scegravene 2D naturelle agrave 1 source 34

42 Quelques applications34 421 Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre 2 agrave partir

de lrsquoordre 1 34 422 Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave partir

de W 36 43 Comparaison avec une meacutethode existante 37 44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee

39441 Position du problegraveme39 442 Solution proposeacutee40 443 Bilan 42

Conclusion43 Annexe A Deacuteveloppement du champ acoustique en harmoniques

spheacuteriques 45 A1 Eacutequation drsquoonde en coordonneacutees spheacuteriques 45 A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 46

Annexe B Compleacutements theacuteoriques sur le deacutecodage HOA 53 B1 Vecteur veacutelociteacute et vecteur eacutenergie 53 B2 Deacutecodages optimiseacutes 54

Annexe C Analyse en composantes principales55 C1 Espace des donneacutees 55 C2 Diagonalisation 57 C3 Code Matlab 57

Annexe D Analyse en sous-bandes 59 D1 La transformeacutee de Fourier agrave court terme (TFCT)59 D2 Synthegravese par addition-recouvrement60

Bibliographie 63

vii

Table des figures Figure 11 - Scheacutema global du principe de la technologie HOA 4 Figure 12 - Prototype de microphone HOA drsquoordre 45 Figure 13 - Erreur de reconstruction drsquoune onde plane en fonction de lrsquoordre M

et du produit kr6 Figure 14 - Repreacutesentation dans le plan horizontal dans une zone de diamegravetre 1m

de la reconstruction drsquoune onde plane pour plusieurs ordres et freacutequences 6 Figure 15 - Encodage horizontal 8 Figure 16 - Prise de son virtuelle eacutequivalente agrave un encodage au 1er ordre et un

deacutecodage basique sur une disposition en 2D hexagonale 10 Figure 17 - Directiviteacutes theacuteoriques et reconstruites dans le plan horizontal12 Figure 21 - Y en fonction de X dans le cas drsquoun bruit blanc enregistreacute 15 Figure 22 - Y en fonction de X dans le cas drsquoun son placeacute artificiellement 15 Figure 23 - Signes de W X et W Y en fonction du cadran16 Figure 24 - Interface graphique du logiciel Bidule 17 Figure 25 - Repreacutesentation de tables des couleurs19 Figure 26 - Repreacutesentation de la pertinence 19 Figure 31 - Scheacutema geacuteneacuteral drsquoanalyse 21 Figure 32 - Filtres utiliseacutes inspireacutes des filtres ERB 22 Figure 33 - Position des sources de la scegravene de test agrave 4 sources dont 1 mobile24 Figure 34 - Angles drsquoune scegravene virtuelle ayant 1 source mobile et 3 sources fixes

25 Figure 35 - Angles de la mecircme scegravene trouveacutes agrave partir drsquoune ACP sur les ordres 0

et 2 25 Figure 36 - Angles drsquoune scegravene reacuteelle constitueacutee drsquoun bruit parcourant le cercle

trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 0 et 2 et 0 et 426 Figure 37 - Repreacutesentation temps-freacutequence des angles28 Figure 38 - Eacutenergie de ce mecircme son 28 Figure 39 - Norme relative de la 1egravere composante28 Figure 310 - Pondeacuteration appliqueacutee agrave lrsquoentreacutee des k-moyennes 29 Figure 311 - Directiviteacutes seacuteparant ideacutealement 4 sources placeacutees agrave 17 73 195 et -

58deg 30 Figure 41 - Angles theacuteoriques et calculeacutes pour une scegravene constitueacutee de 4 sons

fixes 32 Figure 42 - Angles theacuteoriques et calculeacutes de la scegravene agrave 4 sources dont 1 mobile32

viii

Figure 43 - Azimut et eacuteleacutevation theacuteoriques et calculeacutes drsquoun son en 3D artificiel placeacute dans une ambiance bruyante 33

Figure 44 - Angles theacuteoriques et calculeacutes drsquoun bruit blanc tournant autour du micro enregistreacute en chambre sourde 34

Figure 45 - Principe de lrsquoameacutelioration de la preacutecision spatiale 35 Figure 46 - Directiviteacutes eacutequivalentes agrave la seacuteparation de 4 sources agrave lrsquoordre 135 Figure 47 - Principe de la restitution de lrsquoordre 1 agrave partir du signal mono W 36 Figure 48 - Scheacutema de principe de la meacutethode BCC36 Figure 49 - X et Y dans le cas drsquoune sinusoiumlde placeacutee agrave 15deg et 120deg37 Figure 410 - Angles trouveacutes par lrsquoalgorithme de [Pulkki and Faller 2006] 38 Figure 411 - Angles trouveacutes par une ACP pour la mecircme scegravene 39 Figure 412 - Scheacutema de principe drsquoune confeacuterence audio spatialiseacutee 40 Figure 413 - Scheacutema ameacutelioreacute (deacutebit reacuteduit)40 Figure 414 - Analyse principe de lrsquoencodage dans le serveur 41 Figure 415 - Synthegravese principe du deacutecodage dans le client 41 Figure A1 - Systegraveme de coordonneacutees spheacuteriques 45 Figure A2 - Fonctions de Bessel spheacuteriques )(krjm pour les ordres 0 agrave 5 47 Figure A3 - Repreacutesentation des harmoniques spheacuteriques pour les ordres m = 0 agrave

3 51 Figure B1 - Deacutecodages les plus approprieacutes par sous-bande et en fonction de

lrsquoeacutetendue de la zone drsquoeacutecoute54 Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT60 Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add61

1

Preacutesentation de France Teacuteleacutecom RampD Le groupe France Teacuteleacutecom est lrsquoun des principaux opeacuterateurs de

teacuteleacutecommunications au monde Creacuteeacutee en 1988 apregraves le scindement des PTT (Poste Teacuteleacutegraphe Teacuteleacutephone) en deux groupes France Teacuteleacutecom a longtemps beacuteneacuteficieacute du statut drsquoopeacuterateur historique Depuis 1997 France Teacuteleacutecom fonctionne en tant que socieacuteteacute anonyme

Le CNET Centre National drsquoEacutetude en Teacuteleacutecommunication a eacuteteacute creacuteeacute en 1944

dans le but de reacutetablir un reacuteseau de teacuteleacutecommunication en France En mars 2000 le CNET change de nom et devient France Teacuteleacutecom Recherche amp Deacuteveloppement

Le site France Teacuteleacutecom Division RampD agrave Lannion a eacuteteacute inaugureacute le 28 octobre

1963 Lrsquoeacutequipe son 3D y megravene des recherches sur la prise et la restitution du son la spatialisation sonore ainsi que sur les environnements acoustiques virtuels Elle participe eacutegalement activement agrave la normalisation MPEG-4

De nombreux travaux sont consacreacutes aux technologies de spatialisation binaurale

transaurale (avec la technique du steacutereacuteo-dipocircle) et ambisonique De nombreux brevets et publications deacutecoulent de ces recherches qui trouvent deacutejagrave des applications dans la confeacuterence audio spatialiseacutee et ouvrent des perspectives bien plus vastes

2

Introduction La reproduction sonore semble aujourdrsquohui ecirctre parfaitement maicirctriseacutee Mais

lrsquoest-elle vraiment Rien nrsquoest moins sucircr Reproduire un son signifie ldquoreproduire toutes ses proprieacuteteacutes telles qursquoelles existent dans une situation drsquoeacutecoute reacuteellerdquo (tel que rappeleacute dans [Nicol 1999]) Or le son est un pheacutenomegravene agrave quatre dimensions il eacutevolue dans le temps et dans les 3 dimensions de lrsquoespace Si le problegraveme de la reproduction temporelle peut ecirctre consideacutereacute comme reacutesolu la restitution spatiale est elle toujours agrave lrsquoeacutetude

La restitution drsquoune scegravene sonore (crsquoest-agrave-dire drsquoun ensemble drsquoeacuteveacutenements

sonores placeacutes agrave des positions et des instants preacutecis) passe par la reproduction du champ acoustique dans une zone donneacutee zone au moins assez grande pour qursquoon puisse y placer ses 2 oreilles Lrsquoauditeur pourra alors localiser preacuteciseacutement les sources constituant la scegravene agrave la fois en temps et dans lrsquoespace

Lrsquoobjectif du stage preacutesenteacute ici est de retrouver par le calcul ces informations agrave

partir de lrsquoanalyse de signaux de repreacutesentation du champ sonore 3D en particulier ceux issus de lrsquoencodage spatial de scegravenes sonores reacutealiseacute par la technologie Higher Order Ambisonics (HOA) Il srsquoagit de retrouver dans une scegravene HOA les positions qursquooccupaient les sources agrave chaque instant lors de lrsquoencodage

Cette analyse permet alors drsquoentrevoir des applications pour le codage et la

transmission etou lrsquoameacutelioration de contenu audio 3D la seacuteparation de sources ou bien encore la confeacuterence audio spatialiseacutee En effet une telle description de la scegravene permettrait de caracteacuteriser de maniegravere leacutegegravere une partie de lrsquoinformation transmise par les signaux HOA et ouvrirait mecircme lrsquoopportuniteacute drsquoun deacutemixage

Nous allons ici preacutesenter la technologie ambisonics puis les eacuteleacutements theacuteoriques et

pratiques de lrsquoanalyse des signaux HOA Les eacuteleacutements matheacutematiques sur lesquels repose ambisonics agrave savoir le deacuteveloppement drsquoun champ acoustique en harmoniques spheacuteriques sont deacuteveloppeacutes en Annexe A La lecture preacutealable de cette annexe nrsquoest pas indispensable agrave la compreacutehension du Chapitre 1 mais est vivement conseilleacutee

3

Chapitre 1

Ambisonics

11 Principe

111 Du B-format agrave HOA Lrsquoapproche ambisonique deacuteveloppeacutee dans les anneacutees 1970 par Gerzon [Gerzon

1973] [Gerzon 1985] a pour but de reconstruire au voisinage de la tecircte de lrsquoauditeur le champ sonore et ses caracteacuteristiques de propagation crsquoest-agrave-dire au minimum le champ de pression et son gradient Cette technique est cateacutegoriseacutee dans les techniques de panoramique drsquoamplitude ou agrave microphones coiumlncidents Le format orignal appeleacute B-format peut en fait ecirctre vu comme une restriction au 1er ordre drsquoune deacutecomposition du champ en harmoniques spheacuteriques (voir Annexe A) ou cylindriques (dans le cas drsquoune restriction agrave 2 dimensions) Le format HOA (Higher Order Ambisonics) est une extension de cette deacutecomposition agrave des ordres plus eacuteleveacutes permettant une reconstruction ameacutelioreacutee du champ (une meilleure approximation) dans une zone de restitution eacutelargie

Une grande speacutecificiteacute de lrsquoapproche ambisonique est de contenir directement

lrsquoinformation spatiale en codant le champ acoustique en un point de lrsquoespace indeacutependamment du systegraveme de restitution utiliseacute contrairement aux systegravemes de spatialisations classiques (steacutereacuteo 51hellip) Lrsquoencodage directionnel drsquoune onde plane S drsquoincidence u se traduit par les eacutequations

r

⎪⎪

⎪⎪

=

=

=

=

δ

δθ

δθ

sin2

cossin2

coscos2

SZ

SY

SX

SW

(11)

Le facteur de normalisation 2 a eacuteteacute introduit agrave lrsquoorigine pour srsquoassurer que les

composantes W X et Y aient une eacutenergie moyenne eacutegale dans le cas de lrsquoencodage drsquoun champ diffus horizontal

Chapitre 1 Ambisonics 4

Le B-format peut ecirctre vu comme une troncature au premier ordre de la deacutecomposition en seacuterie de Fourier-Bessel du champ sonore [Daniel 2000] Une troncature agrave un ordre plus eacuteleveacute (Higher Order Ambisonics) apporte alors agrave la reconstruction une meilleure qualiteacute tant en terme de preacutecision de lrsquoimage que de dimensions du sweet spot zone ougrave le champ original est restitueacute avec une toleacuterance donneacutee Cette zone tregraves petite pour lrsquoordre 1 (il faut veiller agrave se placer bien au centre du dispositif) est nous le verrons nettement eacutelargie aux ordres supeacuterieurs On atteint eacutegalement une discrimination angulaire plus fine Ces ordres supeacuterieurs eacutetant les termes suivants de la seacuterie de Fourier-Bessel une repreacutesentation HOA inclut les ordres infeacuterieurs constituant donc une repreacutesentation hieacuterarchique (ou scalable) du champ sonore

La chaicircne de traitement drsquoun systegraveme ambisonique se deacutecompose en plusieurs

eacutetapes (voir Figure 11) - lrsquoencodage spatial reacutealiseacute de maniegravere artificielle pour spatialiser une scegravene

syntheacutetique ou bien agrave partir de signaux naturels issus drsquoune structure multi-microphonique (voir Figure 12)

- une eacuteventuelle transformation des signaux HOA (compression ou

transformations lineacuteaires comme par exemple une rotation) - le deacutecodage spatial matriccedilage des signaux pour une diffusion adapteacutee au

dispositif drsquoeacutecoute

Figure 11 - Scheacutema global du principe de la technologie HOA [Moreau 2006]

11 Principe 5

Figure 12 - Prototype de microphone HOA drsquoordre 4 constitueacute de 32 capteurs omnidirectifs

reacutepartis sur une sphegravere en plastique rigide [Moreau 2006]

112 Repreacutesentation de scegravene sonore avec HOA La seacuterie de Fourier-Bessel (A16) en Annexe A) tronqueacutee agrave lrsquoordre M donne une

approximation de la repreacutesentation du champ sonore

sum sum sum= = plusmn=

=M

m

m

nmnmnm

mM YBkrjikrp

0 0 1)()()(

σ

σσ δθδθ (12)

La repreacutesentation drsquoordre M est composeacutee de signaux HOA en 3D

et

2)1( += MK12 += MK signaux HOA si on se contente du plan horizontal

Pour mesurer lrsquoerreur de reconstruction on peut utiliser le critegravere des moindres

carreacutes normaliseacute (NMSE pour Normalized Mean Square Error)

intint

intint minus=

S

SM

dSkrp

dSkrpkrpkre 2

2

)(

)()()(

δθ

δθδθ (13)

Dans le cas particulier drsquoune onde plane lrsquoerreur de reconstruction est

indeacutependante de lrsquoangle drsquoincidence et ne deacutepend que de lrsquoordre et du produit kr En rappelant que k est le nombre drsquoonde cfck πω 2== on srsquoaperccediloit que lrsquoerreur de reconstruction pour un ordre donneacute augmente quand on srsquoeacuteloigne du centre du systegraveme (r augmente) ou lorsque la freacutequence srsquoeacutelegraveve On remarque qursquoune erreur de 4 (-14 dB) est atteinte approximativement quand M = kr

Chapitre 1 Ambisonics 6

Figure 13 - Erreur de reconstruction drsquoune onde plane en fonction

de lrsquoordre M et du produit kr [Moreau et al 2006]

Figure 14 - Repreacutesentation dans le plan horizontal dans une zone de diamegravetre 1m de la

reconstruction drsquoune onde plane (agrave droite) pour plusieurs ordres et freacutequences Les niveaux de gris repreacutesentent la valeur de la pression acoustique Les courbes eacutetoileacutees indiquent la

limite des zones ougrave lrsquoerreur de reconstruction est infeacuterieure agrave 7 (-115 dB) [Moreau 2006]

12 Encodage et deacutecodage spatial 7

12 Encodage et deacutecodage spatial

121 Encodage spatial Drsquoun point de vue drsquoingeacutenieur du son lrsquoencodage spatial peut ecirctre vu comme un

panoramique drsquoamplitude Un preneur de son lrsquointerpreacutetera comme une capture par un jeu de microphones directifs coiumlncidents Un matheacutematicien verra plutocirct le lien avec la deacutecomposition en harmoniques spheacuteriques deacutecrite en Annexe A

Eacutetudions le cas drsquoune onde plane provenant de la direction )( pp δθ avec une

amplitude S Lrsquoexpression du champ de pression srsquoeacutecrit alors

γδθ cos)( jkrSekrp = (14)

soit encore

)(cos)()12()(0

γδθ mmm

m PkrjjmSkrp suminfin

=

+= (15)

ougrave γ deacutesigne lrsquoangle entre la direction (θ δ ) du point drsquoobservation et la direction

)( pp δθ de provenance de lrsquoonde Il vient ensuite

sum sumsum= plusmn=

infin

=

=m

nmnppmnm

m

m YYkrjjSkrp0 10

)()()()(σ

σσ δθδθδθ (16)

En identifiant cette eacutequation (16) avec la seacuterie de Fourier-Bessel (A16) nous

obtenons finalement lrsquoexpression de la transformeacutee de Fourier spheacuterique drsquoun champ de pression acoustique engendreacute par une onde plane [Moreau 2006]

)( ppmnmn YSB δθσσ = (17)

Les coefficients sont ainsi deacutefinis par la valeur des harmoniques spheacuteriques

dans la direction de provenance de lrsquoonde plane pondeacutereacutee par lrsquoamplitude

σmnB

S du signal transporteacute Ce sont ces coefficients qui constituent le signal ambisonique Des coefficients de normalisation ou de semi-normalisation sont ensuite appliqueacutes pour que les signaux soient drsquoeacutenergie moyenne eacutequivalente entre eux ( ) ou entre les diffeacuterents ordres ( ) (voir Annexe A Tableau A1)

DN 3α DSN 3αDSN 3α

DSN 3α Ces fonctions drsquoencodage peuvent ecirctre simplifieacutees dans le cas drsquoune restriction agrave 2

dimensions (plan horizontal) On ne conserve alors que 2 composantes par ordre celles qui deacutecrivent le plan horizontal crsquoest-agrave-dire veacuterifiant m = n Les coefficients de normalisation sont alors diffeacuterents et lrsquoangle δ est nul Les composantes restantes sont alors

Chapitre 1 Ambisonics 8

ordre notations eacutecriture 0 W 1

00B 1

X 111B θcos2

1 Y 1

11minusB θsin2

U 122B )2cos(2 θ

2 V 1

22minusB )2sin(2 θ

- 1mmB )cos(2 θm

m - 1minus

mmB )sin(2 θm Tableau 11 - Fonctions drsquoencodage ambisonique dans le plan horizontal

avec la convention de normalisation associeacutee (N2D) La figure suivante illustre lrsquoencodage spatial aux ordres 0 1 et 2 de 2 sources

placeacutees aux angles vθ et vθ dans le plan horizontal

ordres 0 et 1 ordre 2

Figure 15 - Encodage horizontal [Moreau et al 2006] Le coefficient (gain) appliqueacute agrave

chaque composante de chacune des 2 sources est donneacute par les intersections des flegraveches et des diagrammes des harmoniques

Comme on peut le voir sur cette figure un encodage au 1er ordre offre une

discrimination angulaire peu appuyeacutee alors que les 2 sources pourtant proches auront des coefficients tregraves diffeacuterents agrave lrsquoordre 2 (les points drsquointersection sont plus eacuteloigneacutes)

122 Deacutecodage spatial Lrsquoobjectif du deacutecodage est de restituer au mieux sur un systegraveme de diffusion

donneacute le champ sonore HOA Il faut ainsi calculer les signaux Sl agrave diffuser sur L haut-parleurs en fonction des composantes ambisoniques Ces σ

mnB L haut-parleurs peuvent ecirctre disposeacutes dans le plan horizontal ou dans un espace tridimensionnel Les deacutecodages les plus courants srsquoeffectuent sur une demi-sphegravere (cas 3D) ou un cercle (cas 2D) de

12 Encodage et deacutecodage spatial 9

haut-parleurs Crsquoest une opeacuteration matricielle qursquoon peut formaliser dans le cas drsquoun deacutecodage dans le plan horizontal par lrsquoeacutequation

BSC =sdot (18)

ougrave la matrice C contient les vecteurs harmoniques spheacuteriques associeacutes agrave chaque direction de haut-parleur et organiseacutes suivant ses lignes le vecteur S contient les signaux eacutemis par les L haut-parleurs et enfin le vecteur B contient les signaux HOA

⎟⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜⎜

=

⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜

=

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

=

10

100

2

1

1011

10

11111

111

10011

100

)()()(

)()()()(

M

mn

LLLMM

llmn

LL

LL

B

B

B

B

S

SS

S

YYY

YYYY

CM

M

M

L

MM

L

L

σσ

δθδθδθ

δθδθδθδθ

(19)

)( ll δθ repeacuterant la position du legraveme haut-parleur

Il faut donc estimer S connaissant B et C Le deacutecodage se reacutesume alors agrave un systegraveme de (M +1)2 (en 3D) ou 2M +1 (en 2D) eacutequations lineacuteaires agrave L inconnues On ne peut trouver de solution exacte que si le nombre de haut-parleurs est au moins eacutegal au nombre de signaux crsquoest-agrave-dire si L gt (M +1)2 (en 3D) ou 2M +1 (en 2D) Crsquoest en outre une condition neacutecessaire pour pouvoir avoir une reproduction homogegravene de la scegravene sonore

La matrice C nrsquoest pas neacutecessairement carreacutee et inversible une solution geacuteneacuterale

consiste agrave calculer lrsquoinverse geacuteneacuteraliseacutee de la matrice C noteacutee D encore appeleacutee pseudo-inverse de Moore-Penrose

BDS sdot= (110)

avec

1pinv( ) ( )t tD C C C C minus= = sdot sdot (111) D est appeleacutee matrice de deacutecodage BDS sdot= reacutesout le systegraveme (18) si les haut-

parleurs sont suffisamment nombreux L gt (M +1)2 (en 3D) ou 2M +1 (en 2D)) Srsquoils sont en outre disposeacutes sur une sphegravere (3D) ou un cercle (2D) de maniegravere eacutequidistante crsquoest-agrave-dire srsquoils sont les sommets drsquoun polyegravedre ou polygone reacutegulier ils preacuteservent alors la proprieacuteteacute drsquoorthonormaliteacute des harmoniques spheacuteriques Ceci se traduit par

Lt ILCC sdot=sdot (112)

ougrave IL est la matrice identiteacute de taille LLtimes On a alors

1pinv( ) tD CL

= = C (113)

Chapitre 1 Ambisonics 10

Cette proprieacuteteacute ne peut pas ecirctre matheacutematiquement veacuterifieacutee en 3D au-delagrave de lrsquoordre 2 autrement dit il nrsquoexiste pas de polyegravedre reacutegulier dont la position des sommets conserve strictement lrsquoorthonormaliteacute des harmoniques spheacuteriques

Visuellement le deacutecodage correspond agrave la reproduction du champ sonore tel qursquoil

aurait eacuteteacute capteacute par un ensemble de N microphones agrave directiviteacutes hyper-cardioiumldes tourneacutes chacun vers lrsquoun des haut-parleurs Leur directiviteacute serait drsquoautant plus preacutecise que lrsquoordre de reproduction est eacuteleveacute

Figure 16 - Prise de son virtuelle eacutequivalente agrave un encodage au 1er ordre et un deacutecodage

basique sur une disposition en 2D hexagonale [Moreau et al 2006] Le gain gl appliqueacute agrave chaque haut-parleur pour une direction de source virtuelle donneacutee

(en vert) est indiqueacute par la longueur des flegraveches et est reporteacutee aux points drsquointersection de la flegraveche verte et des diagrammes de directiviteacute

On peut remarquer que les diagrammes de directiviteacute sont tregraves larges par rapport

agrave lrsquoespacement angulaire des haut-parleurs Le 2nd ordre offrirait des directiviteacutes plus fines et donc une seacutelectiviteacute spatiale accrue Il faudrait alors bien sucircr davantage de haut-parleurs pour ne pas introduire des ldquotrousrdquo entre eux On remarque eacutegalement la preacutesence non neacutegligeable des lobes secondaires utiles pour la reconstruction du champ acoustique (notamment en basses freacutequences) mais qui peuvent ecirctre gecircnants dans certains cas par exemple lorsque lrsquoauditoire est large

Ce deacutecodage est appeleacute deacutecodage basique car il nrsquooptimise pas la restitution en

accord une quelconque hypothegravese et cherche uniquement agrave reproduire fidegravelement le champ acoustique Pour ameacuteliorer la restitution dans des cas critiques comme par exemple en-dehors du sweet spot (centre du dispositif) il faut optimiser le deacutecodage en reacuteduisant par exemple les lobes secondaires Ainsi le deacutecodage max-rE srsquoattache agrave maximiser lrsquoeacutenergie reccedilue de la provenance de la direction souhaiteacutee alors que le deacutecodage in-phase annule complegravetement ces lobes secondaires (voir Annexe B)

13 Critique de la technologie HOA 11

13 Critique de la technologie HOA

131 Bilan On a ainsi vu que la technologie HOA est une repreacutesentation intermeacutediaire du

champ de pression acoustique agrave mi-chemin entre la description directe du champ lui-mecircme et des signaux agrave restituer Cette technologie a de nombreux avantages compareacutee aux autres meacutethodes de reproduction de champ sonore (on trouvera notamment une eacutetude deacutetailleacutee des comparaisons entre HOA et la Wave Field Synthesis (WFS) dans [Daniel et al 2003]) elle permet drsquoeacuteviter le repliement spatial (voir paragraphe suivant) et permet ainsi une reconstruction dans une gamme de freacutequences tregraves large

La qualiteacute de la restitution ambisonique nrsquoest theacuteoriquement limiteacutee que part

lrsquoordre de troncature de la seacuterie de Fourier-Bessel agrave partir du moment ougrave le nombre de haut-parleurs est suffisant Ainsi un ordre tendant vers lrsquoinfini (et un nombre de haut-parleurs au moins aussi grand) permettra une reproduction quasi-parfaite sur lrsquoensemble de la zone drsquoeacutecoute

Mais les principaux avantages de cette technologie sont drsquoune part drsquoecirctre flexible

crsquoest-agrave-dire qursquoon peut agrave loisir adapter le nombre de signaux transmis au canal de transmission Une chute de deacutebit nrsquoentraicircnera pas de coupure de la transmission mais simplement une perte de preacutecision spatiale par lrsquoabandon des composantes drsquoordres les plus eacuteleveacutes Et drsquoautre part elle est indeacutependante du systegraveme de reproduction Ainsi un mecircme signal HOA pourra ecirctre diffuseacute sur toutes les configurations de haut-parleurs il suffira pour cela de calculer la matrice de deacutecodage associeacutee agrave ce systegraveme

132 Limites pratiques Dans la pratique cette technologie a toutefois des limitations Si lrsquoaliasing spectral

est eacuteviteacute on constate aux ordres les plus eacuteleveacutes lrsquoapparition drsquoun repliement spatial lors des enregistrements naturels agrave partir drsquoune freacutequence lieacutee agrave la distance maximale entre 2 capsules du microphone HOA (qui doit ecirctre au plus eacutegale agrave la moitieacute de la plus petite longueur drsquoonde drsquoapregraves Shannon) et au nombre total de capsules (qui doit ecirctre supeacuterieur agrave (M+1)2 M eacutetant lrsquoordre auquel on souhaite enregistrer)

Le repliement spectral repreacutesente la preacutesence importune dans des composantes

ambisoniques de sources qui de part leur position ne devraient qursquoapparaicirctre avec cette importance que dans les composantes drsquoordre plus eacuteleveacute Il est ducirc agrave lrsquointrusion des directiviteacutes drsquoordres supeacuterieurs dans les composantes harmoniques spheacuteriques estimeacutees Comme on le voit sur la Figure 17 les directiviteacutes ne sont pas des cylindres (au sens matheacutematique du terme la base nrsquoeacutetant pas forceacutement un cercle) mais varient en fonction de la freacutequence pour ressembler davantage dans le haut du spectre aux courbes de directiviteacute de lrsquoordre supeacuterieur Ainsi la directiviteacute de lrsquoordre 1 (2egraveme graphique) qui devrait ecirctre un 8 ressemble davantage au-dessus de 10 000 Hz agrave la figure de directiviteacute de lrsquoordre 4 (8 lobes)

Chapitre 1 Ambisonics 12

Figure 17 - Directiviteacutes theacuteoriques (en transparence) et reconstruites (grille) dans le plan horizontal pour des ondes planes horizontales Lrsquoaxe vertical correspond agrave la freacutequence et

les diffeacuterents graphiques aux ordres 0123 et 4 de gauche agrave droite Agrave lrsquoopposeacute la taille reacuteduite du microphone si elle permet de reacuteduire cet aliasing

spatial empecircche la capture des basses freacutequences aux ordres supeacuterieurs (voir 232) La reacutesolution spatiale des basses freacutequences sera donc moindre ce qui implique que en ajoutant lrsquoeffet du repliement en hautes freacutequences les ordres eacuteleveacutes capteacutes avec le micro HOA ne constituent qursquoune plage du spectre assez peu eacutetendue crsquoest cette seule plage qui pourra se targuer drsquoune excellente preacutecision spatiale

13

Chapitre 2

Analyser un contenu HOA

21 Objectifs La reacuteflexion a tout au long du stage eacuteteacute orienteacutee vers deux objectifs le premier

est dans un contexte de transmission de reconstruire une scegravene spatialiseacutee agrave partir du minimum drsquoinformations le deuxiegraveme appliqueacute agrave des ordres plus eacuteleveacutes est drsquoarriver agrave resyntheacutetiser les composantes de lrsquoordre immeacutediatement supeacuterieur

211 Restitution de la spatialisation agrave partir drsquoun downmix mono La premiegravere approche vise donc agrave reconstruire une scegravene spatialiseacutee agrave partir drsquoun

downmix le plus leacuteger possible Un downmix est une reacuteduction du nombre de canaux par fusion lrsquoexemple le plus simple eacutetant le passage drsquoun signal steacutereacuteo agrave un signal mono construit comme la demi-somme des composantes gauche et droite On tente dans cette approche de se restreindre au plus petit nombre de signaux possible un signal eacutetant tregraves coucircteux agrave transmettre en ajoutant parallegravelement agrave ce signal des informations compleacutementaires aidant agrave la reconstruction

Le cas extrecircme est la reacuteduction du flux agrave un signal mono Dans le cas

drsquoambisonics un signal mono comprenant toutes les sources est deacutejagrave preacutesent il srsquoagit de la composante omnidirectionnelle W Il faut donc extraire de la scegravene encodeacutee agrave un certain ordre M des informations permettant la reconstruction drsquoun ordre Mrsquo apregraves transmission Nous verrons que nous allons chercher agrave trouver les positions des sources gracircce agrave une analyse en composantes principales (ou ACP voir Annexe C) effectueacutee par sous-bandes (voir Annexe D)

212 Ameacutelioration de la preacutecision spatiale La deuxiegraveme piste suivie a pour but de reconstituer un ordre ambisonique non

transmis On pourrait qualifier cette approche drsquoupmix ambisonique car elle vise agrave reconstruire un ordre manquant En effet le format ambisonique eacutetant flexible il est bien

Chapitre 2 Analyser un contenu HOA 14

adapteacute agrave la transmission Ainsi si on souhaite transmettre une scegravene encodeacutee agrave lrsquoordre 2 dans le plan horizontal il faudra un canal drsquoun deacutebit minimum (si lrsquoon prend lrsquohypothegravese de pas vouloir compresser les signaux) de 471 Mos Un canal plus petit (par exemple 34 Mos) ne permettra theacuteoriquement de transmettre qursquoun ordre 1 Mais lrsquoanalyse des signaux peut permettre de deacuteterminer les positions des sources agrave partir desquelles on peut syntheacutetiser des composantes du 2nd ordre approchant les composantes drsquoorigine On pourrait mecircme imaginer pouvoir syntheacutetiser un ordre qui nrsquoavait pas eacuteteacute encodeacute agrave lrsquoorigine

Pour cela il est neacutecessaire de deacuteterminer les positions des sources preacutedominantes

dans le champ sonore pour piloter leur encodage spatial aux ordres supeacuterieurs et arriver agrave la synthegravese drsquoune repreacutesentation de reacutesolution spatiale accrue Il srsquoagit dans le mecircme temps drsquoisoler au mieux les signaux associeacutes agrave ces diffeacuterentes sources avant de leur appliquer lrsquoopeacuteration drsquoencodage on se rapproche donc drsquoun problegraveme de seacuteparation de sources

Pour parvenir agrave trouver ces positions deux meacutethodes ont eacuteteacute testeacutees La premiegravere

consiste comme preacuteceacutedemment agrave appliquer en sous-bandes une analyse en composantes principales La seconde implique la formation de directiviteacutes agrave partir des vecteurs propres de la matrice de correacutelation utiliseacutee dans cette analyse

Lrsquoanalyse en composantes principales ou ACP (voir Annexe C) est donc

largement privileacutegieacutee dans nos approches Elle permet en effet tregraves facilement drsquoextraire des informations preacutecises de signaux correacuteleacutes Pour justifier ce choix une autre meacutethode reacutecente a eacutegalement eacuteteacute testeacutee et compareacutee agrave lrsquoACP (voir 11)

22 Principe de lrsquoextraction drsquoinformation spatiale avec une ACP

221 Information spatiale

Nous avons donc tout drsquoabord testeacute lrsquoanalyse en composantes principales sur des

signaux HOA Nous avons choisi dans un premier temps de limiter lrsquoanalyse aux composantes horizontales du premier ordre W X et Y avant de lrsquoeacutetendre agrave la 3egraveme dimension avec Z

Dans un premier test les signaux HOA sont analyseacutes par une ACP dans leur

inteacutegraliteacute LrsquoACP est appliqueacutee sur les signaux X et Y qui contiennent lrsquoinformation spatiale En effet X et Y correspondent aux signaux qui seraient capteacutes par des microphones agrave figure en 8 placeacutes sur lrsquoaxe avant-arriegravere et gauche-droite respectivement

La Figure 21 montre la correacutelation entre X et Y dans le cas drsquoun bruit blanc capteacute

par le microphone ambisonique Les points ne sont pas exactement aligneacutes du fait des artefacts inheacuterents agrave la prise de son (reacuteflexions sur les parois approximations du microphone etc)

22 Principe de lrsquoextraction drsquoinformation spatiale avec une ACP 15

Figure 21 - Y en fonction de X dans le cas drsquoun bruit blanc enregistreacute placeacute agrave 30deg

On remarque que le nuage est eacutetireacute dans la direction de provenance du son indiqueacutee par la flegraveche en pointilleacutes verts

222 Application de lrsquoanalyse en composantes principales La 1egravere composante issue de lrsquoACP appliqueacutee dans le plan (X Y) pointe dans la

direction dans laquelle X et Y ont la plus grande correacutelation Or comme X contient lrsquoinformation placeacutee sur lrsquoaxe avant-arriegravere et Y lrsquoinformation de lrsquoaxe gauche-droite cette direction est directement la direction de la source Par exemple un son situeacute droit devant dans lrsquoaxe (agrave 0deg) aura une composante Y nulle et par conseacutequent les eacutechantillons seront dans le plan tous disposeacutes sur lrsquoaxe horizontal LrsquoACP prendra donc naturellement cet axe comme 1er vecteur propre et il pointe bien vers la position de la source De mecircme un son situeacute agrave 135deg ( π28

3 times rad) aura la proprieacuteteacute Y = -X Les eacutechantillons seront donc placeacutes sur la 2egraveme bissectrice qui fait avec lrsquoaxe Y=0 un angle de 135deg (voir Figure 22)

Figure 22 - Y en fonction de X dans le cas drsquoun son placeacute artificiellement dans la direction

indiqueacutee par la flegraveche en pointilleacutes verts agrave 0deg (agrave gauche) et 135deg (agrave droite)

Chapitre 2 Analyser un contenu HOA 16

Lrsquoanalyse de X et Y ne permet cependant de deacuteterminer lrsquoangle qursquoagrave π pregraves il reste une indeacutetermination (on deacutetermine la direction drsquoun axe qursquoil reste agrave orienter) Pour lever cette ambiguiumlteacute on integravegre W agrave lrsquoanalyse car cette composante pourtant omnidirectionnelle et donc deacutepourvue drsquoinformation spatiale apporte une reacutefeacuterence pour les phases Ainsi notre son placeacute agrave 135deg veacuterifiait (aux eacuteventuels coefficients de normalisation pregraves) Y = -X = W alors qursquoun son placeacute agrave 135 - 180 = -45deg aurait la proprieacuteteacute Y = -X = -W

Pour prendre en compte W dans lrsquoanalyse on peut comparer directement les

phases de ces 3 canaux Algorithmiquement on ramegravene lrsquoangle trouveacute agrave son modulo π2 puis on deacutetermine le vrai cadran par comparaison des phases de W X et Y crsquoest-agrave-dire en comparant le signe des produits W X et W Y Ainsi W X gt 0 signifie que W et X sont en phase et reacuteciproquement (voir Figure 23)

W X lt 0 W Y gt 0

W X gt 0 W Y gt 0

W X lt 0 W Y lt 0

W X gt 0 W Y lt 0

minusπ2

π

π2

0

Figure 23 - Signes de W X et W Y en fonction du cadran On peut eacutegalement inteacutegrer W agrave lrsquoanalyse en appliquant lACP sur le triplet (X Y

W) Le problegraveme drsquoambiguiumlteacute est ainsi reacutesolu la direction rechercheacutee eacutetant celle du vecteur principal dans le demi-espace W gt 0 projeteacutee sur le plan (X Y) Cette meacutethode srsquoavegravere plus robuste et surtout plus geacuteneacuteralisable agrave des ordres plus eacuteleveacutes

Cette analyse permet donc de deacuteterminer la position drsquoune source unique Pour

pouvoir seacuteparer plusieurs sources nous avons appliqueacute lrsquoACP par sous-bandes en supposant que les sources nrsquoont pas des supports freacutequentiels strictement identiques Le principe de cette analyse en sous-bandes est deacuteveloppeacute en Annexe D

23 Meacutethodologie

231 Construction de scegravenes artificielles Pour tester les algorithmes impleacutementeacutes nous avons ducirc creacuteer des scegravenes sonores

spatialiseacutees au format HOA Plusieurs types de scegravenes ont eacuteteacute utiliseacutes de complexiteacutes diffeacuterentes Les premiegraveres ont eacuteteacute des scegravenes virtuelles syntheacutetiseacutees avec Matlab Les premiegraveres scegravenes simplissimes ne comportait qursquoune sinusoiumlde ou un bruit blanc fixe placeacute dans le plan horizontal Puis pour tester lrsquoanalyse par sous-bandes ont eacuteteacute creacuteeacutes des sons polyphoniques composeacutes de 2 sinusoiumldes tout drsquoabord puis de sons complexes (syntheacutetiseacutes par synthegravese FM) dans des gammes freacutequentielles distinctes ou se

23 Meacutethodologie 17

chevauchant Enfin ces sons ont eacuteteacute rendus mobiles en faisant varier leur position dans le temps

Nous avons pu ainsi constater agrave lrsquoaide des sons fixes et de supports freacutequentiels

distincts la preacutecision de lrsquoanalyse et avec les sons mobiles et mecircleacutes sa robustesse Nous nous sommes limiteacutes sous Matlab agrave la geacuteneacuteration de 2 sons simultaneacutes et du 1er ordre et un autre outil Plogue Bidule a eacuteteacute utiliseacute pour composer des scegravenes plus complexes

Bidule est un studio modulaire virtuel ressemblant agrave MAXMSP Des plugins ont

eacuteteacute deacuteveloppeacutes agrave France Teacuteleacutecom pour permettre de manipuler des signaux HOA Ainsi des scegravenes complexes ont pu facilement ecirctre syntheacutetiseacutees agrave des ordres eacuteleveacutes Des scegravenes agrave 3 et 4 sources fixes ou dont 1 source mobile ont eacuteteacute reacutealiseacutees agrave partir de voix deacutemixeacutees placeacutees dans le plan horizontal ou en 3 dimensions

Ces scegravenes eacutetant artificielles elles sont en un sens ideacuteales ne contiennent aucun

signal reacuteverbeacutereacute (effet de salle) ni diffracteacute (par un micro) lrsquoencodage est fait sans artefacts les ondes sont consideacutereacutees comme planes et ont donc une direction bien deacutefinie Si on est ici bien loin de la vraie vie le gros avantage des scegravenes artificielles est qursquoon connaicirct preacuteciseacutement agrave chaque instant la position des sources et qursquoon peut ainsi veacuterifier le reacutesultat de lrsquoanalyse

Figure 24 - Interface graphique du logiciel Bidule avec agrave droite les controcircles des encodeurs

et deacutecodeurs HOA creacuteeacutes agrave France Teacuteleacutecom

Chapitre 2 Analyser un contenu HOA 18

232 Exploitation drsquoenregistrements naturels Une fois des reacutesultats convaincants obtenus avec des scegravenes virtuelles des

enregistrements naturels ont eacuteteacute analyseacutes Ces scegravenes ont eacuteteacute enregistreacutees gracircce au prototype de micro HOA du 4egraveme ordre deacuteveloppeacute agrave France Teacuteleacutecom (voir Figure 12) Ce processus implique des diffeacuterences notables avec un encodage virtuel

Le prototype de microphone contraint en effet agrave quelques compromis pour

optimiser des critegraveres incompatibles La taille du microphone reacutesulte drsquoun compromis entre la preacutecision drsquoestimation des composantes en basses freacutequences qui neacutecessite une taille eacuteleveacutee et la minimisation de lrsquoaliasing spatial qui ne peut ecirctre eacuteviteacute qursquoavec des capsules tregraves proches les unes des autres Leur disposition est eacutegalement irreacuteguliegravere il nrsquoexiste en fait aucune faccedilon de disposer reacuteguliegraverement plus de 20 points sur une sphegravere La configuration qui avait eacuteteacute retenue par les concepteurs [Moreau 2006] est la ldquomoins irreacuteguliegravere possiblerdquo au sens de la preacuteservation de lrsquoorthonormaliteacute des harmoniques spheacuteriques les 32 capsules sont reacuteparties sur une sphegravere de 35 cm de rayon selon un Pentaki-dodeacutecahegravedre polyegravedre semi-reacutegulier dual de lrsquoicosaegravedre tronqueacute (ballon de football)

Ces artefacts sont donc inheacuterents agrave lrsquoutilisation drsquoun reacuteseau de microphones Mais

le monde reacuteel pose eacutegalement des problegravemes deacutelicats La complexiteacute des modes de rayonnement drsquointeraction avec lrsquoenvironnement reacuteclame lrsquointroduction de modegraveles drsquoencodage beaucoup plus complexes que le cas drsquoune onde plane en champ libre et rend lrsquoinformation spatiale moins limpide et univoque au sein de la scegravene encodeacutee (enregistreacutee) en comparaison avec une scegravene virtuelle Les sources ne sont ainsi plus ponctuelles mais eacutetendues elles ne sont plus agrave lrsquoinfini mais agrave une distance finie du microphone (les ondes reccedilues ne sont donc plus planes) En outre chaque source en se reacutefleacutechissant sur les parois et les diffeacuterents objets de la salle creacutee une multitude de sources secondaires Il est enfin souvent difficile de connaicirctre avec preacutecision la position drsquoune source dans lrsquoespace lors drsquoun enregistrement

Des enregistrements en chambre sourde ont eacuteteacute reacutealiseacutes pour se passer des

reacuteflexions de lrsquoenvironnement Afin de connaicirctre avec preacutecision la position de la source un haut-parleur diffusant un bruit blanc nous avons placeacute le microphone sur une table tournante commandeacutee par un plug-in sous Plogue Bidule

233 Visualisations des reacutesultats Lrsquoobservation des reacutesultats a eacuteteacute effectueacutee de plusieurs maniegraveres visuellement et

par lrsquoeacutecoute Les graphiques eacutetant plus commodes crsquoest par cette voie que les premiers essais eacutetaient conclus Plusieurs types de graphiques ont eacuteteacute produits deacutecrivant des paramegravetres diffeacuterents

Les repreacutesentations temps-freacutequence permettent de repreacutesenter une variable agrave 1

dimension sous Matlab Cette voie a eacuteteacute suivie pour visualiser les paramegravetres extraits de chaque sous-bande de chaque fenecirctre notamment les angles lrsquoeacutenergie et la pertinence Malheureusement Matlab ne permet pas de repreacutesenter sur le mecircme graphique une 4egraveme dimension sous la forme drsquoune 2egraveme dimension colorimeacutetrique (on prend geacuteneacuteralement la

23 Meacutethodologie 19

saturation) Cette dimension suppleacutementaire aurait permis de repreacutesenter simultaneacutement les angles et leur pertinence

Figure 25 - Repreacutesentation

et de lrsquoespace col

Pour repreacutesenter s

drsquoabandonner une dimensipouvoir repreacutesenter danrepreacutesenteacutees soit par le niv

Figure 26 - Repreacutesentationdeacutecrite en 332 (en absciss

est repreacutesenteacutee agrave gauc

234 Diffeacuterents modes La visualisation est

indispensable pour veacuterifiesont possibles de ceux-cainsi reconstitueacutee agrave partir d

1 W+Y+02X pour le c

π 0 minusπ

de la table des couleurs dite HSV de Matlab (lineacuteaire agrave gauche) orimeacutetrique HSL (Hue Saturation Luminance agrave droite)

imultaneacutement angles et pertinence il eacutetait donc neacutecessaire on Crsquoest le deacutecoupage freacutequentiel qui a eacuteteacute mis de cocircteacute pour s un plan temps-angles les pertinences Celles-ci sont eau de gris des points soit par leur taille

de la pertinence des angles de la scegravene agrave 4 sources dont 1 mobile e les trames en ordonneacutees les angles en degreacute) La pertinence he par lrsquointensiteacute du bleu et agrave droite par la taille des points

drsquoeacutecoute

un indice preacutecis de reacutesultat mais lrsquoeacutecoute est tout de mecircme r la qualiteacute globale de la synthegravese Plusieurs modes drsquoeacutecoute i lrsquoeacutecoute au casque est la plus aiseacutee Une pseudo-steacutereacuteo est es signaux du 1er ordre1 pour restituer les scegravenes restreintes au

anal gauche et W-Y+02X pour le canal droit

Chapitre 2 Analyser un contenu HOA 20

plan horizontal Pour plus de preacutecision agrave la restitution ou pour des scegravenes en 3D et sans perdre la faciliteacute drsquoune eacutecoute personnelle au casque on peut appliquer des filtres HRTF (Head-Related Transfert Function) pour une reproduction binaurale

Pour appreacutecier pleinement la spatialisation la diffusion sur un systegraveme multi

haut-parleurs est indispensable Deux systegravemes sont installeacutes dans le laboratoire de France Teacuteleacutecom un systegraveme 51 et un systegraveme circulaire de 48 haut-parleurs Ces systegravemes installeacutes dans des studios insonoriseacutes offrent une grande qualiteacute drsquoeacutecoute qui permet de repeacuterer les deacutefauts mecircme minimes de la synthegravese

21

Chapitre 3

Description des analyses

31 Deacutetermination des directions principales

311 Base des algorithmes Nous avons deacuteveloppeacute plusieurs algorithmes reacutepondant aux diffeacuterents objectifs

deacutecrits plus haut Chacun drsquoeux possegravede des particulariteacutes leur permettant de reacutepondre agrave ces objectifs mais on trouve neacuteanmoins une partie commune Ainsi toutes les analyses reposent sur le mecircme modegravele drsquoapplication drsquoune ACP par sous-bandes dont voici le scheacutema geacuteneacuteral

Figure 31 - Scheacutema geacuteneacuteral drsquoanalyse

Les signaux en entreacutee sont les composantes HOA W X et Y dans la plupart des

cas mais peuvent ecirctre eacutegalement des composantes drsquoordre plus eacuteleveacute (voir 11) Sur le fenecirctrage jouent plusieurs paramegravetres comme la taille de la fenecirctre ou encore le pourcentage de recouvrement entre elles Nous avons choisi une fenecirctre en racine de la fenecirctre de Hanning crsquoest-agrave-dire une arche de sinusoiumlde (voir eacutequation (D7) en Annexe D) avec un recouvrement de 50 ce qui veacuterifie le critegravere de reconstruction parfaite (D6) Le filtrage est pour des raisons de rapiditeacute de calcul reacutealiseacute dans le domaine freacutequentiel par une simple multiplication avant de repasser en temporel pour appliquer lrsquoACP

Le banc de filtre utiliseacute est un banc inspireacute des filtres ERB Les filtres ERB

(Equivalent Regular Bandwidth) sont des filtres imitant le comportement de seacuteparation freacutequentielle de lrsquooreille humaine plus preacutecise en basse freacutequence Les filtres utiliseacutes ici ne sont pas directement des filtres ERB le systegraveme nrsquoa pas drsquointeacuterecirct particulier agrave essayer de copier le fonctionnement de lrsquooreille humaine Ces filtres ont eacuteteacute adapteacutes au problegraveme en

Chapitre 3 Description des analyses 22

srsquoassurant en particulier de la finesse des bandes permettant la meilleure discrimination des diffeacuterentes sources crsquoest-agrave-dire autour des fondamentales usuelles (200-1000 Hz) et des harmoniques Les freacutequences aigueumls sont bien discrimineacutees par les filtres ERB (relativement agrave la gamme crsquoest-agrave-dire en eacutechelle logarithmique) le deacutecoupage a donc surtout eacuteteacute densifieacute entre 200 et 800 Hz par rapport aux bandes ERB

Figure 32 - Filtres utiliseacutes inspireacutes des filtres ERB repreacutesenteacutes lineacuteairement (en haut)

et sur une eacutechelle logarithmique (en bas) Les reacutesultats de lrsquoACP sont donc avec cette meacutethode les angles des sources

trouveacutees dans chaque sous-bande ainsi que pour chacun drsquoeux un critegravere de pertinence calculeacute en fonction de lrsquoeacutenergie de la sous-bande dans une fenecirctre donneacutee et de la norme relative de la premiegravere composante de lrsquoACP (voir 342) Les autres vecteurs propres peuvent ecirctre utiliseacutes pour extraire davantage drsquoinformations et mecircme des signaux deacutecorreacuteleacutes comme on le verra au paragraphe 35 mais lrsquoanalyse semble alors moins robuste Srsquoen tenir aux informations donneacutees par la composante principale est un gage de pertinence suppleacutementaire

Ces reacutesultats concernent donc les sources preacutedominantes ou principales mais

laissent de cocircteacute un certain nombre drsquoeacuteveacutenements sonores agrave consideacuterer

312 Traitement du champ reacutesiduel Le champ reacutesiduel regroupe en quelque sorte tout ce qui nrsquoest pas une source

principale Il inclut donc les reacuteflexions et la reacuteverbeacuteration de la piegravece mais aussi les bruits parasites occasionnels ou continus (ventilation etc) Ces bruits ou eacutechos nrsquoont pas de direction de provenance assez distincte pour pouvoir ecirctre mesureacutee preacuteciseacutement Le champ reacutesiduel est eacutegalement composeacute du champ diffus La notion de champ diffus est couramment utiliseacutee mais rarement preacuteciseacutement deacutefinie On trouve dans la litteacuterature des deacutefinitions diverses lrsquoune drsquoelles preacutecisant qursquoil serait un ensemble drsquoeacuteveacutenements sonores proches en temps et provenant de directions eacutequiprobables

Les algorithmes proposeacutes traitent correctement les sources principales mais le

champ reacutesiduel est laisseacute de cocircteacute Il est pourtant tregraves important pour lrsquoimmersion du sujet dans la scegravene une scegravene deacutepourvue de champ sonore sera perccedilue comme artificielle ce qui nuit agrave la perception drsquoespace On sera par exemple davantage conscients drsquoecirctre au centre drsquoun dispositif expeacuterimental et moins sensibles aux variations de profondeur et de perspectives

31 Deacutetermination des directions principales 23

Neacuteanmoins il faut relativiser lrsquoimportance de ce champ reacutesiduel il nrsquoest pas utile pour la localisation des sources principales et ne caracteacuterise que lrsquoenvironnement drsquoenregistrement En outre le champ reacutesiduel qui provient souvent de directions floues et notre but nrsquoest pas de les preacuteciser artificiellement Il nrsquoest degraves lors geacuteneacuteralement pas utile de le transmettre aux ordres eacuteleveacutes

Ainsi certains auteurs [Merimaa and Pulkki 2005] ont choisi de recreacuteer lors drsquoune

synthegravese un champ diffus artificiel baseacute sur une reacuteponse impulsionnelle de salle calculeacutee agrave lrsquoavance Lrsquoavantage est une immersion un enveloppement complets lrsquoinconveacutenient est que lrsquoambiance ainsi recreacuteeacutee est fictive et arbitraire et en outre complegravetement indeacutependante de lrsquoambiance initiale en laissant notamment de cocircteacute les sources secondaires

Nous proposons dans nos algorithmes de ne pas syntheacutetiser le champ diffus aux

ordres eacuteleveacutes mais de nous contenter de la description du champ reacutesiduel fourni par les ordres transmis (1er ordre dans nos exemples) Nous nous limiterons donc agrave preacuteciser par la synthegravese des ordres supeacuterieurs les positions des sources principales

32 Extension agrave la 3D Nous avons pour le moment eacutevoqueacute le cas de repreacutesentations de champ sonore agrave

2 dimensions crsquoest-agrave-dire issus de sources placeacutees dans le plan horizontal Mais certaines repreacutesentations comportent eacutegalement des composantes verticales Pour analyser ces signaux en 3 dimensions il faut inteacutegrer la composante Z On effectue alors simplement une ACP sur X Y Z et W Le 1er vecteur propre sera alors bien dirigeacute dans lrsquoespace (X Y Z) dans la direction de la source lrsquoambiguiumlteacute de frac12 espace eacutetant leveacutee par W

Lrsquoalgorithme est alors complegravetement similaire agrave celui analysant des signaux en 2

dimensions Des tests ont eacuteteacute reacutealiseacutes agrave partir de signaux syntheacutetiques pour lesquels les positions des sources eacutetaient connues pour des raisons pratiques aucune scegravene sonore reacuteelle en 3 dimensions nrsquoa pu ecirctre enregistreacutee avec une connaissance initiale preacutecise des positions des sources

Les visualisations et les eacutecoutes eacutetant plus deacutelicates en 3D et lrsquoextension agrave la 3D

eacutetant immeacutediate nous avons donc concentreacute nos efforts sur lrsquoanalyse de scegravenes en 2D En outre en lrsquoabsence de dispositif spheacuterique ou heacutemispheacuterique de haut-parleurs le seul moyen agrave notre disposition pour eacutecouter une scegravene 3D est lrsquoeacutecoute binaurale crsquoest-agrave-dire au casque avec des fonctions de transfert de tecircte (HRTF) relativement bien adapteacutees agrave lrsquoauditeur

33 Analyse aux ordres supeacuterieurs

331 Description Afin drsquoameacuteliorer la preacutecision de lrsquoanalyse nous avons essayeacute drsquoappliquer une ACP

sur des signaux ambisoniques drsquoordre plus eacuteleveacute (signaux HOA) dans le plan horizontal Deux meacutethodes ont eacuteteacute essayeacutees

Chapitre 3 Description des analyses 24

La premiegravere consiste agrave appliquer une ACP agrave 3 dimensions successivement sur les composantes X Y W (ordre 1 et 0) puis U V W (ordre 2 et 0) et ainsi de suite crsquoest-agrave-dire (en utilisant la notation geacuteneacuterale) sur les composantes et W (ordre m et 0) Les reacutesultats de ces analyses (les directions des 1

)1(0mY )1(

0minus

mYegraveres composantes) sont ensuite regroupeacutees

lrsquoanalyse de lrsquoordre 1 fournissant des reacutesultats modulo 2π lrsquoanalyse de lrsquoordre 2 des reacutesultats plus preacutecis mais modulo π et plus geacuteneacuteralement lrsquoanalyse de lrsquoordre m permettant de trouver des angles modulo mπ2

La limite de cette approche se perccediloit lors de la fusion des reacutesultats les angles

trouveacutes agrave un ordre eacuteleveacute sont plus preacutecis dans des bandes de freacutequences eacuteleveacutees mais la limitation theacuteorique de ces signaux HOA dans les basses freacutequences font que lrsquoanalyse de lrsquoordre 1 reste la plus pertinente dans les premiegraveres bandes Parvenir agrave deacuteterminer agrave partir de quelle freacutequence on peut faire davantage confiance agrave lrsquoordre n+1 qursquoagrave lrsquoordre n nrsquoest pas aiseacute et cette limite provoque des aberrations dans les angles trouveacutes Une source unique pourra par exemple ecirctre interpreacuteteacutee par lrsquoalgorithme des k-moyennes (voir 341) comme 2 sources une en hautes freacutequences et une en basses freacutequences les 2 eacutetant trouveacutes agrave 2 angles diffeacuterents chaque angle relevant drsquoun ordre analyseacute diffeacuterent

La deuxiegraveme meacutethode consiste pour eacuteviter cette fusion des reacutesultats agrave effectuer

une seule ACP sur les composantes U V X Y et W Cette meacutethode souffre drsquoune tregraves grande complexiteacute algorithmique pour une ameacutelioration de la preacutecision peu sensible En effet si cette meacutethode permet drsquoobtenir des reacutesultats plus preacutecis dans certaines bandes de freacutequences elle est sensible aux deacutefauts et les limites des ordres supeacuterieurs (lrsquoabsence de basses freacutequences entre autres) perturbent lrsquoanalyse en composantes principales

332 Illustration sur une scegravene virtuelle La scegravene preacutesenteacutee ici est une scegravene artificielle crsquoest-agrave-dire composeacutee de sons

placeacutes artificiellement agrave diverses positions Elle a une dureacutee totale de 135 s et comporte 4 sources positionneacutees dans le plan horizontal une guitare placeacutee agrave 45deg une basse agrave -70deg une batterie agrave 110deg et une voix feacuteminine qui effectue continucircment un tour complet dans le sens indirect en partant de lrsquoarriegravere (elle passe donc successivement par les positions 180deg 90deg 0deg -90deg et -180deg) La guitare et la batterie srsquoarrecirctent peu avant la fin de la scegravene (12egraveme seconde au 910egraveme du son approximativement)

Figure 33 - Position des sources de la scegravene de test agrave 4 sources dont 1 mobile

33 Analyse aux ordres supeacuterieurs 25

Figure 34 - Angles drsquoune scegravene virtuelle ayant 1 source mobile et 3 sources fixes

(deacutecrite en 332) trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 Pour chaque trame (en abscisse) 20 angles (1 par bande en ordonneacutee et en degreacutes) sont

reporteacutes le diamegravetre du point correspondant agrave un critegravere de pertinence (voir 342)

Figure 35 - Angles de la mecircme scegravene trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 2 Reacutesultats modulo π reacutepliqueacutes pour faciliter la comparaison avec la figure preacuteceacutedente On remarque que les lignes sont plus nettes qursquoil y a moins drsquoangles aberrants et que

les angles corrects sont plus marqueacutes (ils sont deacutetermineacutes comme plus pertinent)

Chapitre 3 Description des analyses 26

20

0

20

0

20

0

Figure 36 - Angles drsquoune scegravene reacuteelle constitueacutee drsquoun bruit parcourant le cercle trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 (en haut) 0 et 2 (au milieu) et 0 et 4 (en bas) Le

numeacutero de trame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On retrouve qursquoune limitation des ordres HOA supeacuterieurs issus drsquoun enregistrement

microphonique est la restitution des basses freacutequences

34 Traitement des donneacutees

341 Algorithme des k-moyennes Agrave lrsquoissue de lrsquoanalyse en composantes principales on reacutecupegravere avec la premiegravere

des meacutethodes exposeacutees au chapitre preacuteceacutedent des angles correspondants aux positions des sources preacutedominantes agrave raison drsquoune valeur par fenecirctre et par bande de freacutequence Il faut agrave partir de ces donneacutees parvenir agrave isoler les sources crsquoest-agrave-dire agrave deacuteterminer quels sont les angles pertinents et examiner quels sont ceux qui agrave une certaine toleacuterance pregraves sont preacutesents dans plusieurs bandes de freacutequence etou plusieurs fenecirctres temporelles

Pour pouvoir exploiter ces donneacutees spatiales nous avons utiliseacute lrsquoalgorithme des

k-moyennes (ou k-means) [MacQueen 1967] sur les angles pondeacutereacutes par des critegraveres de pertinence Cet algorithme fonctionne de la maniegravere suivante

Initialisation choix de k barycentres (les k moyennes) Reacutepeacuteter Associer chaque eacuteleacutement au barycentre le plus proche Recalculer les positions des barycentres Jusqursquoagrave ce que les barycentres soient stables (ou au bout de t iteacuterations)

34 Traitement des donneacutees 27

Lrsquoavantage de cet algorithme est drsquoecirctre peu glouton puisqursquoil converge en O(tkn) ougrave t est le nombre drsquoiteacuterations k le nombre de centres et n le nombre de points (geacuteneacuteralement on a t k ltlt n) Par contre il est plutocirct sensible aux exceptions un point aberrant tirera agrave lui la moyenne auquel il aura eacuteteacute associeacute Il faut donc faire en sorte que ces points erroneacutes soient aussi rares que possibles Crsquoest pourquoi les angles traiteacutes sont pondeacutereacutes par 2 critegraveres de pertinence

La pondeacuteration des angles fournis en entreacutee de lrsquoalgorithme des k-moyennes se

fait de maniegravere simple en reacutepeacutetant ces angles un nombre de fois (de 0 agrave 10) proportionnel agrave un critegravere Ainsi un angle tregraves pertinent sera dupliqueacute et sera preacutesent plusieurs fois dans la liste des donneacutees traiteacutees attirant ainsi agrave lui la position du barycentre le plus proche Au contraire un angle trop peu pertinent ne sera pas reacutepeacuteteacute voir mecircme sera enleveacute de la liste

Le seul problegraveme de cet algorithme est qursquoil neacutecessite la connaissance de k crsquoest-

agrave-dire du nombre de sources qui composent la scegravene Une deacutetermination automatique se basant sur la reacutepeacutetition de lrsquoalgorithme avec un k croissant a eacuteteacute testeacutee mais le critegravere drsquoarrecirct reposant sur la dispersion des points autour des barycentres nrsquoeacutetant pas assez robuste cette meacutethode a provisoirement eacuteteacute mise de cocircteacute

342 Critegraveres de pertinence Les 2 critegraveres de pondeacuteration choisis sont lrsquoeacutenergie de la sous-bande dans la

fenecirctre donneacutee et le rapport de la norme de la 1egravere composante (la composante principale) de lrsquoACP sur la somme des normes de toutes les composantes

En effet un angle est trouveacute dans chaque sous-bande de chaque fenecirctre mecircme si

le signal y est tregraves faible Lrsquoangle trouveacute sera alors tregraves peu repreacutesentatif de la direction drsquoune source puisqursquoil indiquera la direction drsquoun bruit Lrsquoeacutenergie doit donc ecirctre prise en compte pour ne conserver que les angles trouveacutes dans des bandes comportant un signal suffisant

La norme relative de la 1egravere composante de lrsquoACP rend quant agrave elle compte du

poids relatif de cette composante par rapport aux autres Ainsi si 2 sources sont preacutesentes dans une bande donneacutee la 1egravere composante sera agrave peine plus marqueacutee que la 2egraveme Ceci peut ecirctre calculeacute en prenant simplement le rapport de la 1egravere valeur propre sur la somme des valeurs propres

On peut noter que la norme de la 1egravere composante ne se deacutetache nettement que

lorsqursquoun son est preacutesent dans la bande consideacutereacutee On peut alors se demander si lrsquoeacutenergie doit ecirctre prise en compte ou si lrsquoinformation qursquoelle contient nrsquoest comprise dans le 2egraveme critegravere En fait la norme relative est un critegravere tregraves bruiteacute et consideacuterer lrsquoeacutenergie par ailleurs permet de nuancer ces artefacts et constitue une base solide de pondeacuteration

Chapitre 3 Description des analyses 28

80

40

0

Figure 37 - Repreacutesentation temps-freacutequence des angles du son deacutecrit en 332 Letrame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On peut donc v

par trame et par bande chacun eacutetant le reacutesultat drsquoune ACP crsquoest-agrave-dire la 1egravere

Figure 38 - Eacutenergie de ce mecircme son On peut voir une basse en notes tenues uneet une batterie qui produit des sons secs dans un spectre plus aigu

80

40

0

80

40

0

Figure 39 - Norme relative de la 1egravere composante de ce mecircme son Les impacts de batterie (dans lrsquoaigu) ressortent davantage

π 0 minusπ

numeacutero de oir un angle direction

voix aiguumle

34 Traitement des donneacutees 29

Figure 310 - Pondeacuteration appliqueacutee agrave lrsquoentreacutee des k-moyennes calculeacutee ici comme

le simple produit de lrsquoeacutenergie et de la norme relative

80

40

0

343 Lissages

Pour faire face au bruit ineacutevitable dans les reacutesultats il faut lisser les donneacutees Ces

lissages temporels correspondent agrave des hypothegraveses de stabiliteacute des sources qui sont supposeacutees ecirctre fixes ou mobiles relativement lentement (dans une mesure agrave parameacutetrer)

Un premier lissage peut ecirctre opeacutereacute avant le traitement par lrsquoalgorithme des k-

moyennes Le filtre choisi est un filtre meacutedian de maniegravere agrave eacuteliminer les points aberrants tout en conservant les vraies valeurs des points coheacuterents Ce lissage est appliqueacute sur chaque sous-bande aux angles et ne tient pas compte des critegraveres de pertinence Il est donc utiliseacute avec parcimonie et peut mecircme ecirctre eacuteviteacute en reacuteglant de maniegravere adeacutequate les critegraveres de pondeacuteration agrave lrsquoentreacutee des k-moyennes

Le deuxiegraveme lissage srsquoeffectue agrave lrsquoentreacutee des k-moyennes en mecircme temps que les

critegraveres de pondeacuteration Il consiste agrave appliquer les k-moyennes non pas sur une fenecirctre donneacutee mais sur plusieurs fenecirctres conseacutecutives anteacuterieures et posteacuterieures en donnant plus de poids agrave la fenecirctre courante Dans la pratique les poids donneacutes aux diffeacuterentes fenecirctres sont eacutetablis par une gaussienne centreacutee sur la fenecirctre courante et de largeur agrave deacuteterminer (en fonction notamment de la dureacutee drsquoune fenecirctre et du type de scegravene analyseacute)

35 Exploitation de toutes les composantes de lrsquoACP Les analyses preacutesenteacutees preacuteceacutedemment ont toutes exploiteacute uniquement la

composante principale extraite par lrsquoACP Or cette analyse fournit des informations plus complegravetes par lrsquointermeacutediaire des autres composantes dont on peut tirer parti pour isoler plusieurs sources au sein drsquoune mecircme bande Cette approche est toujours en deacuteveloppement dans ce stage et nrsquoa pas encore donneacute pleine mesure des reacutesultats qursquoelle laisse entrevoir

Les composantes de lrsquoACP indiquent des directions qui correspondent aux

diffeacuterentes sources composant la scegravene sonore Les vecteurs propres de la matrice de correacutelation donnent ainsi les combinaisons lineacuteaires des signaux HOA permettant de

Chapitre 3 Description des analyses 30

seacuteparer de la meilleure faccedilon possible ces sons Ces directions peuvent ecirctre alors utiliseacutees pour former des directiviteacutes isolant au mieux ces sources

aBS sdot= (31)

ougrave la matrice a contient les vecteurs propres de la matrice de correacutelation (voir Annexe C) le vecteur B contient les signaux HOA et le vecteur S contient les sources extraites

⎟⎟⎟

⎜⎜⎜

=⎟⎟⎟

⎜⎜⎜

⎛=

⎥⎥⎥

⎢⎢⎢

⎟⎟⎟

⎜⎜⎜

⎟⎟⎟

⎜⎜⎜

⎛=

10

1001

1

ML

N

B

BB

S

SSuua MML (32)

On obtient ainsi des lobes drsquoautant plus eacutetroits que lrsquoordre est eacuteleveacute chacun

dirigeacute vers une source et permettant de lrsquoisoler le plus possible des contributions des autres sources La Figure 311 preacutesente les directiviteacutes ainsi trouveacutees par une ACP en pleine bande Une analyse en sous-bande permet une plus grande distinction des sources mais une seacuteparation diffeacuterente entre les bandes est dangereuse car elle risque de dissocier spatialement plusieurs parties drsquoun mecircme son

Figure 311 - Directiviteacutes seacuteparant ideacutealement 4 sources placeacutees agrave 17 73 195 et -58deg

pour une scegravene virtuelle encodeacutee agrave lrsquoordre 4 Ce principe se heurte neacuteanmoins aux limites de seacuteparation lieacutees agrave lrsquoordre

drsquoencodage en effet 2 sources ne pourront pas ecirctre seacutepareacutees si elles sont trop proches comme en teacutemoigne la largeur des lobes principaux Les lobes secondaires traduisent eacutegalement un meacutelange des sources isoleacutees La figure ci-dessus montre ainsi que la source placeacutee agrave 17deg (en vert) sera preacutesente de maniegravere non neacutegligeable dans le signal senseacute contenir la source placeacutee agrave -58deg (en bleu) en raison du lobe secondaire bleu important

31

Chapitre 4

Reacutesultats et applications

41 Illustration et critique des reacutesultats obtenus

411 Avant-propos Sans notification particuliegravere les reacutesultats preacutesenteacutes ont eacuteteacute obtenus avec un pas

de 50 ms une analyse en 80 bandes avec une FFT sur 8192 points Une taille de FTT plus grande et un plus grand nombre de bande augmente la qualiteacute de lrsquoanalyse un pas plus petit ameacuteliore sa preacutecision temporelle mais les reacutesultats sont moins fiables et un lissage plus important srsquoimpose alors Ces paramegravetres ont eacuteteacute reacutegleacutes apregraves de multiples essais sur des scegravenes diverses

Les reacutesultats sont preacutesenteacutes ici uniquement sous la forme de graphiques nous ne

pouvons donc repreacutesenter que les angles trouveacutes agrave la sortie de lrsquoalgorithme des k-moyennes

412 Scegravene 2D artificielle agrave 4 sources fixes La premiegravere scegravene est une scegravene artificielle composeacutee de 4 sons fixes placeacutes agrave -70

-10 45 et 110deg Ces sons (une basse une voix une guitare et une batterie) ont eacuteteacute choisis pour leur varieacuteteacute spectrale et leur varieacuteteacute drsquoattaque Elle a en outre le meacuterite drsquoecirctre reacutealiste et de constituer une seacutequence musicale (chaque son nrsquoest pas une meacutelodie indeacutependante)

On voit sur la Figure 41 ci-dessous que les angles trouveacutes sont proches des

angles theacuteoriques Lrsquoun des sons (agrave 45deg) est quasiment nul avant la 100egraveme trame sa position est alors moins facile agrave deacuteterminer plus preacuteciseacutement une position approximative est trouveacutee et correspondrait exactement agrave la position du bruit (45deg) si lrsquoincertitude de mesure tregraves grande pour un son aussi faible ne rendait la deacutetermination si ardue On mesure un eacutecart-type de 22deg sur cet exemple (en excluant le deacutebut du son agrave 45deg)

Chapitre 4 Reacutesultats et applications 32

Figure 41 - Angles theacuteoriques (en pointilleacutes rouge) et calculeacutes (en trait bleu) pour une scegravene

constitueacutee de 4 sons fixes longue de 11s

413 Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile

Figure 42 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) de la scegravene agrave

4 sources dont 1 mobile deacutecrite en 332 Cette scegravene est deacutecrite en 332 On a ici demandeacute aux k-moyennes de renvoyer 5 barycentres par trame alors que

seules 4 sources eacutetaient preacutesentes dans le but de se garantir une marge vis-agrave-vis des erreurs de deacutetection Cette 5egraveme direction nrsquoest pas du tout gecircnante elle indique une direction qui ne contient pas de source et crsquoest donc un son tregraves faible qui est ainsi pointeacute Apregraves une eacuteventuelle extraction le signal ne sera donc pas du tout gecircnant

41 Illustration et critique des reacutesultats obtenus 33

On peut remarquer que quand le son mobile se rapproche drsquoun son fixe la deacutetection est moins bonne il y a une fusion entre les 2 sons Mais encore une fois lors de lrsquoextraction lrsquoisolation drsquoun des sons englobera lrsquoautre son ce qui ne posera pas de problegraveme pour les objectifs fixeacutes aucune source nrsquoeacutetant oublieacutee En effet la seacuteparation de sources nrsquoest pas un objectif ici mais un moyen pour preacuteciser les positions des sources ce qui sera fait correctement mecircme si 2 sources sont pointeacutees par 1 seule direction

414 Scegravene 3D artificielle agrave une source et bruit de fond

La scegravene dont la position drsquoune source a eacuteteacute extraite ci-dessous est une scegravene virtuelle en 3D constitueacute drsquoun son (une voix) qursquoon a fait se deacuteplacer par paliers tout drsquoabord vers le haut de 0deg agrave 45deg et vers la gauche de 0deg agrave 90deg puis redescendre jusqursquoagrave 35deg en continuant son cheminement vers la gauche jusqursquoagrave 120deg et enfin finir la descente de 35deg agrave 0deg en la laissant agrave 120deg Agrave cette source a eacuteteacute superposeacutee une ambiance spatialiseacutee de hall drsquoaeacuteroport initialement enregistreacutee en 2D (au format 51) mais transformeacutee pour contenir des composantes verticales Cette ambiance deacutecorreleacutee de la source avait pour but de tester la robustesse de lrsquoanalyse Elle eacutetait agrave 15 dB en-dessous du niveau de la voix

Figure 43 - Azimut et eacuteleacutevation theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun

son en 3D artificiel de 9s placeacute dans une ambiance bruyante On remarque que lrsquoanalyse est tregraves correcte Il nrsquoy a pas drsquoeacutecart important entre

les angles theacuteoriques et ceux calculeacutes On note toutefois que le lissage agrave lrsquoentreacutee des k-moyennes a pour effet de gommer les creacuteneaux et drsquoaplatir quelque peu la courbe drsquoeacuteleacutevation ceci nrsquoest pas vraiment gecircnant car de tels sauts dans la position drsquoune source ne sont pas du tout reacutealistes (ils peuvent caracteacuteriser des bruits de pas mais de tels impacts sont courts et on peut srsquoattendre agrave ce que la courbe suive leur position aux instants ougrave ils sont eacutemis)

Chapitre 4 Reacutesultats et applications 34

415 Scegravene 2D naturelle agrave une source Les scegravenes naturelles sont on lrsquoa vu plus deacutelicates agrave exploiter car on ne peut pas

garantir la preacutecision de la position theacuteorique agrave retrouver par le calcul et on ne peut donc pas calculer la preacutecision de lrsquoanalyse Seuls les enregistrements utilisant la table tournante (voir 232) permettent une mesure preacutecise de la position de lrsquoangle Ces enregistrements on pu confirmer la validiteacute de lrsquoanalyse pour des scegravenes reacuteelles on trouve ici un eacutecart-type de 25deg

Figure 44 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun bruit blanc

tournant autour du micro enregistreacute en chambre sourde Cette analyse a eacuteteacute reacutealiseacutee par sous-bandes mais sur une eacutetendue freacutequentielle

plus reacuteduite puisqursquoon srsquoest limiteacute aux possibiliteacutes offertes par le microphone La scegravene a donc eacuteteacute analyseacutee de 200 agrave 10 000 Hz

42 Quelques applications

421 Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre 2 agrave partir de lrsquoordre 1

Une fois les positions des sources connues la porte est ouverte agrave de nombreuses

applications La connaissance de ces positions permet en effet de syntheacutetiser artificiellement des composantes manquantes ou non transmises La premiegravere synthegravese deacuteveloppeacutee est celle des signaux U et V composant la partie horizontale de lrsquoordre 2 agrave partir de lrsquoordre 1 et de paramegravetres issus de lrsquoanalyse pour une source en 2D (des angles dans de cas)

42 Quelques applications 35

Figure 45 - Principe de lrsquoameacutelioration de la preacutecision spatiale

Le principe de la synthegravese est drsquoextraire les sources originales agrave partir de W X Y

et des angles (un angle par trame et par sous-bande) Ceci peut ecirctre reacutealiseacute de maniegravere approcheacutee en deacutecodant lrsquoordre 1 dans les directions des sources Ce deacutecodage revient agrave calculer les signaux qui devraient alimenter des haut-parleurs qui seraient placeacutes agrave ces positions dans le cas drsquoune restitution (voir 122) crsquoest-agrave-dire agrave former des directiviteacutes dans les directions des sources Dans la plupart des cas ce deacutecodage qui fait intervenir une pseudo-inversion de Moore-Penrose (111) est imparfait les sources se retrouvant leacutegegraverement meacutelangeacutees On peut comparer cette seacuteparation agrave celle que ferait un ensemble de microphones agrave directiviteacute hypercardioiumlde coiumlncidents

Figure 46 - Directiviteacutes eacutequivalentes agrave la seacuteparation de 4 sources agrave lrsquoordre 1 Ces sources seacutepareacutees vont ensuite constituer toujours placeacutees aux angles

deacutetermineacutes agrave lrsquoanalyse une scegravene virtuelle qursquoon va encoder agrave lrsquoordre 2 De cet encodage on ne conservera que les signaux manquants dans notre exemple les signaux du 2nd ordre U et V Ainsi la scegravene spatialiseacutee sera au final constitueacutee des signaux W X et Y drsquoorigine (transmis) et des signaux U et V syntheacutetiseacutes

Chapitre 4 Reacutesultats et applications 36

422 Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave partir de W Reconstruire une scegravene sonore spatialiseacutee agrave partir drsquoun unique canal mono est

alors difficile et le reacutesultat nrsquoest appreacuteciable que pour des scegravenes simples Il faut pour cela que les diffeacuterentes sources composant cette scegravene aient des supports spectraux aussi distincts que possible Les diffeacuterentes sous-bandes sont alors placeacutees agrave un certain angle transmis en parallegravele et crsquoest cette scegravene reconstitueacutee qui va ecirctre encodeacutee au 1er ordre de maniegravere agrave recreacuteer les signaux X et Y

Figure 47 - Principe de la restitution de lrsquoordre 1 agrave partir du signal mono W Ce scheacutema rappelle une meacutethode deacuteveloppeacutee dans le cas steacutereacuteo appeleacutee BCC

(Binaural Cue Coding) [Faller and Baumgarte 2002] Le principe est drsquoextraire et coder des informations permettant la reconstruction binaurale drsquoun signal agrave savoir les diffeacuterences interaurales drsquointensiteacute et de temps (Interaural LevelTime Difference ILD et ITD) qui correspondent dans le cas drsquoune restitution sur un casque aux diffeacuterences drsquointensiteacute et de temps inter-canal (Inter-Channel LevelTime Difference ICLD et ICTD) qui sont mesureacutees agrave partir drsquoune analyse en sous-bandes Les auteurs y ont plus reacutecemment associeacute un indice de correacutelation interaurale mesureacute agrave partir de la correacutelation inter-canal (ICC) afin de caracteacuteriser la preacutecision spatiale (la ldquolargeurrdquo drsquoune source)

Figure 48 - Scheacutema de principe de la meacutethode BCC [Faller and Baumgarte 2003]

On observe en pratique des deacutefauts lieacutes agrave la brutaliteacute de la proceacutedure une sous-

bande ne peut ecirctre que placeacutee agrave la position indiqueacutee et ne peut pas rester floue diffuse ou encore ecirctre placeacutee agrave plusieurs endroits Pour y remeacutedier nous avons ajouteacute 2 traitements agrave la synthegravese Tour drsquoabord nous avons appliqueacute un leacuteger lissage soulageant les effets deacutesagreacuteables dus au saut du contenu drsquoune sous-bande drsquoun endroit agrave un autre entre de 2 fenecirctres conseacutecutives Les positions varient alors de faccedilon plus souple au sein drsquoune mecircme sous-bande traduisant une hypothegravese de continuiteacute spatiale (pas de deacuteplacement brusque) La contrepartie est que cette hypothegravese est lieacutee agrave une hypothegravese de continuiteacute spectrale

42 Quelques applications 37

La 2egraveme ameacutelioration concerne le positionnement des sources En incluant dans la transmission un critegravere de pertinence on peut savoir srsquoil est raisonnable de placer une sous-bande agrave un angle preacutecis ou bien si lrsquoanalyse eacutetait flou agrave son sujet auquel cas un positionnement impreacutecis serait preacutefeacuterable Le paramegravetre choisi est une combinaison des critegraveres eacutevoqueacutes en 342 il nous permet de placer la sous-bande de maniegravere plus ou moins prononceacutee

43 Comparaison avec une meacutethode existante Certains auteurs ont deacutejagrave essayeacute drsquoanalyser un contenu ambisonique pour

retrouver les positions des sources Ville Pulkki a ainsi deacutecrit dans [Pulkki and Faller 2006] une meacutethode drsquoanalyse du B-format baseacutee sur lrsquoeacutetude des amplitudes des signaux W X Y et Z

Figure 49 - X et Y dans le cas drsquoune sinusoiumlde placeacutee agrave 15deg (agrave gauche) et 120deg (agrave droite)

Les figures ci-dessus montrent les relations drsquoamplitudes (algeacutebriques) qui relient

X et Y agrave lrsquoangle de la source On voit que lrsquoanalyse de ces amplitudes respectives permet de retrouver la position de la source en effet on a pour une source unique les relations de lrsquoeacutequation (11) rappeleacutee ici

⎪⎪

⎪⎪

=

=

=

=

δ

δθ

δθ

sin2

cossin2

coscos2

SZ

SY

SX

SW

(41)

On peut donc theacuteoriquement retrouver les valeurs de θ et δ par relations

trigonomeacutetriques Ainsi on a

⎪⎪⎩

⎪⎪⎨

=

=

2)sin(

)tan(

WZ

XY

δ

θ (42)

Chapitre 4 Reacutesultats et applications 38

On peut donc trouver les angles θ et δ agrave π pregraves Pour lever lrsquoambiguiumlteacute une eacutetude de signe est neacutecessaire Mais dans le cas de θ le signe de X et de Y agrave δ fixeacute deacutepend aussi bien de θ que S Il faut srsquointeacuteresser aux signes de θcos et θsin crsquoest-agrave-dire

aux signes de WX et

WY Dans la pratique on srsquointeacuteressera aux signes de et

pour se preacutevenir des divisions par zeacuteros

XW sdot YW sdot

XW sdot et YW sdot sont proportionnels agrave toujours positif

2S

Les auteurs deacutecrivent eacutegalement dans leur article un critegravere appeleacute diffuseness qui

peut ecirctre compareacute agrave un critegravere de pertinence inverseacute Ce paramegravetre calculeacute par agrave 1 - R ougrave R est un rapport de normes est tregraves proche du critegravere de norme relative deacutecrit en 342 Il peut donc ecirctre utiliseacute de la mecircme faccedilon et permettre ainsi une pleine comparaison

Cette meacutethode a eacuteteacute impleacutementeacutee pour pouvoir ecirctre compareacutee avec la meacutethode

par ACP Tous les paramegravetres ont scrupuleusement eacuteteacute gardeacutes identiques et plusieurs reacuteglages ont eacuteteacute testeacutes Les courbes ci-dessous preacutesentent les reacutesultats des analyses de la scegravene deacutecrite en 332 avec un pas de 50ms un overlap de 50 un NFFT de 2048 et 40 bandes freacutequentielles Nous avons repreacutesenteacute tous les angles trouveacutes crsquoest-agrave-dire un par bande et par trame pour srsquoaffranchir de la seacutelection des k-moyennes

π

0

minusπ

Figure 410 - Angles trouveacutes par lrsquoalgorithme de [Pulkki and Faller 2006] Le diamegravetre du point correspondant agrave la pertinence

43 Comparaison avec une meacutethode existante 39

π

0

minusπ

Figure 411 - Angles trouveacutes par une ACP pour la mecircme scegravene On remarque que les points excentriques sont moins nombreux et plus rarement trouveacutes comme pertinents

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee

441 Position du problegraveme

Une application directe de ces analyses a eacuteteacute deacuteveloppeacutee pour la confeacuterence audio

spatialiseacutee La confeacuterence audio utilise en effet la spatialisation pour permettre une meilleure seacuteparation par lrsquooreille des diffeacuterents locuteurs Ainsi si plusieurs personnes parlent en mecircme temps il sera tregraves difficile de comprendre chacun individuellement si ces voix sont restitueacutees en mono mais on pourra focaliser lrsquoattention sur chacune drsquoentre elles si elles sont seacutepareacutees spatialement (crsquoest lrsquoeffet cocktail party [Cherry 1953])

Lrsquoobjectif eacutetait de veacuterifier qursquoil eacutetait possible de conserver la spatialisation drsquoune

confeacuterence en nrsquoayant transmis qursquoun downmix mono des signaux Ce concept semble se rapprocher de celui deacutecrit en 422 mais une diffeacuterence fondamentale les seacutepare la confeacuterence audio spatialiseacutee nrsquoest pas codeacutee au format ambisonic mais les signaux traiteacutes sont directement les sons provenant des diffeacuterents locuteurs crsquoest-agrave-dire les sources elles-mecircmes Ainsi lrsquoanalyse ne porte plus sur une scegravene spatialiseacutee mais sur des signaux seacutepareacutes Il nrsquoy a ainsi plus drsquoindices spatiaux agrave trouver

Avoir accegraves aux sources permet drsquoobtenir des informations plus preacutecises pour

permettre une seacuteparation apregraves la transmission Comme nous lrsquoavons vu lrsquoanalyse drsquoune scegravene spatialiseacutee ne permet que dans drsquoultimes cas agrave la seacuteparation des sources ce qui est ici notre point de deacutepart et sera en fait notre point drsquoarriveacutee En effet nous tenterons de retrouver les sources seacutepareacutees apregraves la transmission de maniegravere agrave pouvoir par la suite les spatialiser agrave loisir (voir Figure 413)

Chapitre 4 Reacutesultats et applications 40

442 Solution proposeacutee Les paramegravetres extraits ne sont donc plus des positions de sources Nous avons

choisi de mesurer puis transmettre lrsquoeacutenergie de chaque signal dans chaque sous-bande en parallegravele du downmix En effet une bonne seacuteparation sera possible si lrsquoon sait quelle proportion de chaque source compose chaque sous-bande du signal mono

Figure 412 - Scheacutema de principe drsquoune confeacuterence audio spatialiseacutee

Figure 413 - Scheacutema ameacutelioreacute (deacutebit reacuteduit)

en pointilleacutes informations compleacutementaires (eacutenergie) Lrsquoanalyse en sous-bandes a lieu dans le serveur (Figure 414) Celui-ci calcule

lrsquoeacutenergie de chaque signal dans chaque sous-bande sur une trame donneacutee Crsquoest ce paramegravetre qui associeacute au signal mono M permettra la seacuteparation des sources dans le terminal (Figure 415) Ce dernier reacutepartira en effet les diffeacuterentes sous-bandes vers chaque signal reconstitueacute proportionnellement agrave cette information pour reconstruire les 4 sources originales

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee 41

Figure 414 - Analyse principe de lrsquoencodage dans le serveur

Figure 415 - Synthegravese principe du deacutecodage dans le client

Afin de reacuteduire au maximum les informations compleacutementaires agrave transmettre on

peut remarquer qursquoau cours drsquoune confeacuterence audio on a tregraves souvent un seul locuteur les participants ne parlent que tregraves rarement tous en mecircme temps Ceci implique que les signaux en entreacutee sont tregraves souvent tous nuls sauf 1 et appliquer un seuil en entreacutee de lrsquoanalyse permet outre lrsquoallegravegement du traitement drsquoavoir moins de paramegravetres agrave transmettre

Ce scheacutema simplifieacute ne tient pas compte des problegravemes de phase rien nrsquoindique

que les eacutenergies des signaux srsquoajoutent bien dans chaque sous-bande lors du downmix on peut tregraves bien avoir des oppositions de phase La solution est drsquoeffectuer le downmix (la somme) des signaux dans chaque sous-bande en prenant soin drsquoavoir recaleacute les phases au preacutealable Ceci nrsquoa un sens que pour des bandes suffisamment eacutetroites Les deacutecalages temporels appliqueacutes pour le recalage sont alors des paramegravetres suppleacutementaires agrave transmettre et sont pris en compte lors de la synthegravese au niveau du reacutepartiteur qui repositionnera la phase de chaque trame pour chaque signal

Chapitre 4 Reacutesultats et applications 42

443 Bilan Le reacutesultat du deacutecodage a pu ecirctre eacutecouteacute de diffeacuterentes maniegraveres les sources

reconstitueacutees individuellement ensemble en steacutereacuteo drsquoamplitude et sur un systegraveme 51 On note que les sources ont eacuteteacute assez bien seacutepareacutees mais que des artefacts sont audibles en particulier lorsque le nombre de locuteurs simultaneacutes augmentent Ces artefacts sont un meacutelange des voix qui nrsquoest gecircnant que lorsqursquoon les eacutecoute de maniegravere seacutepareacutee En effet lrsquoeacutecoute simultaneacutee de ces signaux syntheacutetiseacutes mecircme placeacutes agrave des positions distinctes sur un systegraveme de diffusion multicanal est tout agrave fait satisfaisante

Ce proceacutedeacute pour pouvoir ecirctre appliqueacute doit fonctionner en temps-reacuteel Cette

contrainte nrsquoa pas du tout eacuteteacute prise en compte lrsquoobjectif eacutetant de valider la faisabiliteacute drsquoune reconstruction Les programmes sous Matlab nrsquoont pas eacuteteacute optimiseacutes et ne respectent pas cette contrainte

43

Conclusion Nous avons preacutesenteacute dans ce rapport le principe et lrsquoapplication de plusieurs

meacutethodes drsquoanalyses spatiales de scegravenes ambisoniques conccedilues et reacutealiseacutee pendant le stage Le format HOA est en effet une repreacutesentation du champ acoustique deacutecomposeacute sur une base drsquoharmoniques spheacuteriques jusqursquoagrave un certain ordre agrave la maniegravere drsquoun deacuteveloppement limiteacute Il contient donc de maniegravere indirecte des indications spatiales qursquoon peut extraire avec des analyses comme lrsquoanalyse en composantes principales

Ces analyses nous permettent de deacuteterminer les positions des sources qui

composent la scegravene sonore Nous avons appliqueacute les reacutesultats de ces analyses agrave 2 types de synthegravese lrsquoune destineacutee aux transmissions bas deacutebit lrsquoautre agrave un traitement de restitution de la preacutecision spatiale dans le cas ougrave des ordres supeacuterieurs dont le but est drsquoaffiner la perception de localisation nrsquoauraient pas pu ecirctre transmis Ces algorithmes par le codage drsquoinformations spatiales qursquoils permettent pourront trouver bien drsquoautres applications dans la transmission et le codage ougrave la description du contenu est de plus en plus utiliseacutee (comme par exemple dans la norme MPEG)

Des ameacuteliorations sont possibles sur plusieurs points tout drsquoabord lrsquoexploitation

de toutes les composantes de lrsquoACP est agrave lrsquoeacutetude et semble pouvoir donner des reacutesultats inteacuteressants Drsquoautre part on a vu que le reacutesultat final est tregraves deacutependant de la bonne convergence de lrsquoalgorithme des k-moyennes utiliseacute pour traiter les donneacutees brutes de lrsquoanalyse en sous-bandes Or cet algorithme neacutecessite des reacuteglages tregraves fins et une connaissance a priori du nombre de sources est presque indispensable Drsquoautres algorithmes plus complexes de suivi de formes pourraient ecirctre avantageusement utiliseacutes pour deacutetecter dans tous les angles trouveacutes lesquels sont susceptibles de former une trajectoire

45

Annexe A

Deacuteveloppement du champ acoustique en harmoniques spheacuteriques

A1 Eacutequation drsquoonde en coordonneacutees spheacuteriques On se place dans lrsquoespace euclidien agrave 3 dimensions muni drsquoun systegraveme de

coordonneacutees spheacuteriques Un point M y est repeacutereacute par son rayon r son azimut θ et son eacuteleacutevation δ tels que repreacutesenteacutes sur la figure ci-dessous

- r est la norme du vecteur position rr crsquoest-agrave-dire la distance OM - [20[ πθ isin est lrsquoangle formeacute par le projeteacute du point sur le plan xOy et lrsquoaxe Ox

- ]2

2

[ ππδ minusisin est lrsquoangle formeacute par le plan xOy et le vecteur position2

Figure A1 - Systegraveme de coordonneacutees spheacuteriques

2 Cet angle diffegravere de lrsquoangle polaire usuel δπϕ minus=

2 habituellement pris entre lrsquoaxe Oz et le

vecteur position

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 46

Les relations entre les coordonneacutees spheacuteriques et les coordonneacutees carteacutesiennes sont

⎪⎩

⎪⎨

===

δδθδθ

sincossincoscos

zryrx

(A1)

On srsquointeacuteresse dans ce repegravere agrave lrsquoeacutequation de propagation des ondes acoustiques

de pression On se place dans les conditions classiques drsquoacoustique lineacuteaire (les variations de p sont petites par rapport agrave la pression atmospheacuterique) en supposant que lrsquoair est un fluide parfait (on y neacutegligera les pheacutenomegravenes dissipatifs) Dans une reacutegion de lrsquoespace ne comprenant pas de sources lrsquoeacutequation drsquoonde srsquoeacutecrit alors

0)(12

2

2 =⎟⎟⎠

⎞⎜⎜⎝

⎛partpart

minus∆ trptc

r (A2)

p eacutetant la pression et c la vitesse de propagation du son dans lrsquoair

Cette eacutequation devient dans le domaine freacutequentiel lrsquoeacutequation de Helmholtz

( ) 0)(2 =+∆ ωrpk r (A3)

ck ω

= eacutetant le nombre drsquoonde

En coordonneacutees spheacuteriques cette eacutequation srsquoeacutecrit

0sin1sin

sin11 2

2

2

222

2 =⎥⎦

⎤⎢⎣

⎡+

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart pk

rrrr

rr δθθθ

θθ (A4)

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques Drsquoapregraves [Bruneau 1983] elle admet des solutions agrave variables seacutepareacutees de la forme

)()()( δθ ΦΘ= rRp (A5) Ces solutions sont respectivement - pour la partie radiale une combinaison des fonctions de Bessel spheacuteriques de

premiegravere et seconde espegravece3 jn et nn

)()()( krBnkrAjrR nn += (A6) 3 Les fonctions de Bessel spheacuteriques de seconde espegravece sont eacutegalement appeleacutees fonctions de

Neumann

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 47

Ces fonctions sont deacutefinies comme suit

(A7)

Figure A2 - Fonctions de Bessel spheacuteriques pour les ordres 0 agrave 5 )(krjm

- pour la partie azimutale les fonctions )(θΘ

)sin()cos()( 21 θθθ ncnc +=Θ (A8) Eacutetant donneacute la deacutefinition de lrsquoangle Θ celui-ci doit neacutecessairement ecirctre de

peacuteriode 2π ))2()(( πθθ +Θ=Θ ce qui impose agrave n drsquoecirctre entier

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 48

- pour la partie polaire les fonctions de Legendre associeacutees )(sinδmnP

nm

nn

mn dPdP

)(sin)(sinsin)(sin

δδ

δδ = pour ⎩⎨⎧

gt=

nmavecnm 321

(A9)

ougrave les )(sinδnP sont les polynocircmes de Legendre de degreacute n en δsin deacutefinis par reacutecurrence

( )

11

22

1

0

sin)12()(sin)1(

1cos321)(sin

sin)(sin0)(sin

minus+ minus+=+

minus=

==

mmm mPPmPmet

P

PP

δδ

ϕδ

δδδ

(A10)

et de formule geacuteneacuterale

mm

m

mm dd

mP )1(sin

)(sin21)(sin 2 minus= δ

δδ (A11)

On peut appliquer aux fonctions )(sinδmnP la semi-normalisation de Schmidt

)(sin)()()(sin~ δεδ mnnmn P

nmnmP

+minus

= ougrave 10 =ε et 2=nε pour 1gen (A12)

En appariant les fonctions polaires et azimutales on deacutefinit les harmoniques

spheacuteriques de degreacute et drsquoordre)1(mnY 0gem 4 mnn lele0 et de degreacute et

drsquoordre (voir Figure A3)

)1(minusmnY 1gem

mnn lele1

)(sin~)sin()(

)(sin~)cos()()1(

)1(

δθδθ

δθδθ

mnmn

mnmn

PnY

PnY

=

=minus

(A13)

4 En geacuteneacuteral lorsque le degreacute et lrsquoordre ne sont pas eacutevoqueacutes conjointement on parle par abus de langage drsquoharmoniques drsquoordre m plutocirct que de degreacute m

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 49

soit

1)(sin

)()()12(2sin)(

)(sin)()()12(2cos)(

1)(sin)1()1()12(cos)(

)1(

)1(

1)1(

1

gt

⎪⎪⎩

⎪⎪⎨

+minus

+=

+minus

+=

=+minus

+=

minus

npourP

nmnmmnY

PnmnmmnY

npourPmmmY

mnmn

mnmn

mm

δθδθ

δθδθ

δθδθ

(A14)

La solution angulaire geacuteneacuterale srsquoeacutecrit alors sous la forme drsquoun deacuteveloppement sur

la base drsquoharmoniques spheacuteriques

( ) ( )sum minus

=minus+=Θ

1

1)1()1()( n

m mnmnmnmnn YBYBθ (A15) La solution geacuteneacuterale est alors la seacuterie de Fourier-Bessel

sum sum sum+infin

= = plusmn=

=0 0 1

)()( )()()(m

m

nmnmnm

m YBkrjikrpσ

σσ δθδθ (A16)

ougrave

intint⎪⎩

⎪⎨⎧

minusisin

isin

plusmnplusmn =

]2

2

[

[20[

)1()1( )()1()(

1

ππδ

πθ

δθδθ

S

mnm

mmn dSYpkrji

B (A17)

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 50

Tableau A1 - Expressions analytiques des harmoniques spheacuteriques pour les ordres 0 agrave 3

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 51

Figure A3 - Repreacutesentation des harmoniques spheacuteriques pour les ordres m = 0 agrave 3 Les

couleurs rouge et bleu indiquent respectivement des valeurs positives et neacutegatives

53

Annexe B

Compleacutements theacuteoriques sur le deacutecodage HOA

B1 Vecteur veacutelociteacute et vecteur eacutenergie Le vecteur veacutelociteacute est un indice de la direction apparente drsquoune source introduit

par Gerzon [Gerzon 1992] Il se calcule comme le rapport de la vitesse particulaire sur la pression acoustique

)()(

)()(1

δθδθ

δθδθ

ρ rprp

ki

rprv

cV nabla

minus=minus=rrr

(B1)

Dans le cas drsquoune onde plane le vecteur veacutelociteacute V

rest ainsi directement un

vecteur unitaire orienteacute vers la direction de provenance de lrsquoonde En geacuteneacuteralisant agrave une superposition drsquoondes planes en phase ou opposition de phase eacutemises par L haut-parleurs agrave eacutequidistance du point drsquoobservation on obtient la formule suivante

VVL

ll

L

lll

urg

ugV r

rr

==

sum

sum

=

=

1

1 (B2)

ougrave deacutesigne la direction du llur egraveme haut-parleur auquel est associeacute le gain gl et Vr Vur correspondent respectivement agrave la norme et agrave la direction du vecteur veacutelociteacute

Le vecteur eacutenergie est un autre indice de direction Il est deacutefinit par

EEL

ll

L

lll

urg

ugE r

rr

==

sum

sum

=

=

1

2

1

2

(B3)

Annexe B Compleacutements theacuteoriques sur le deacutecodage HOA 54

Il peut srsquointerpreacuteter comme une indication de la concentration de lrsquoeacutenergie ( ) et de sa direction moyenne de provenance (

Er

Eur ) On a toujours 1ltEr sauf dans le cas ougrave un seul haut-parleur contribue agrave la reconstruction (dans ce cas ) peut ecirctre consideacutereacute comme un indicateur de preacutecision de la localisation

1=Er Er

B2 Deacutecodages optimiseacutes La restitution la plus confortable drsquoun champ sonore veillera donc agrave maximiser

tout en essayant de garder le plus proche possible de 1 Lrsquooptimisation du deacutecodage consiste alors agrave multiplier chaque coefficient de la matrice de deacutecodage D (voir (111) par des gains calculeacutes drsquoapregraves des critegraveres drsquooptimisation

Er Vr

Ainsi le deacutecodage appeleacute max- maximise la norme du vecteur eacutenergie en

sacrifiant celle du vecteur veacutelociteacute puisqursquoon a dans ce deacutecodage (pour des configurations reacuteguliegraveres de haut-parleurs) Ce deacutecodage est donc avantageux par rapport au deacutecodage basique pour les hautes freacutequences ou dans le cas drsquoun auditoire eacutelargi Le deacutecodage in-phase va encore plus loin en cherchant agrave annuler complegravetement les contributions des haut-parleurs placeacutes agrave lrsquoopposeacute de la direction de provenance de lrsquoonde reproduite Ce critegravere est utile dans le cas drsquoune eacutecoute dans une position tregraves excentreacutee agrave laquelle on pourrait percevoir de faccedilon preacutedominante la contribution en opposition de phase drsquoun tel haut-parleur

Er

EV rr =

Ces diffeacuterents deacutecodages ont chacun des avantages et inconveacutenients Ainsi seul le

deacutecodage basique garantit = 1 le deacutecodage max- permet une preacutecision meilleure notamment en haute freacutequence et le deacutecodage in-phase est plus adapteacute agrave un auditoire plus large Jeacuterocircme Daniel [Daniel 2000] propose ainsi de changer le deacutecodage en fonction de la freacutequence et de lrsquoeacutetendue de la zone drsquoeacutecoute deacutesireacutee

Vr Er

Figure B1 - Deacutecodages les plus approprieacutes par sous-bande et en fonction de lrsquoeacutetendue de la

zone drsquoeacutecoute [Daniel 2000]

55

Annexe C

Analyse en composantes principales

C1 Espace des donneacutees Eacutegalement souvent appeleacutee transformeacutee de Karhunen-Loegraveve5 (TKL) lrsquoanalyse en

composantes principales (ACP) est une technique statistique de repreacutesentation drsquoinformation Introduite sur 2 variables par Pearson [Pearson 1900] elle a eacuteteacute eacutetendue par Hotelling [Hotelling 1933] Elle a pour but de caracteacuteriser des donneacutees drsquoun espace agrave N dimensions dans un sous-espace plus petit en minimisant les pertes drsquoinformation due agrave la projection crsquoest-agrave-dire en maximisant la variance projeteacutee Les donneacutees ainsi reacuteorganiseacutees deviennent indeacutependantes Les variables correacuteleacutees sont remplaceacutees par de nouvelles variables deacutecorreacuteleacutees et de variance maximale combinaisons lineacuteaires des variables initiales

Les donneacutees sont constitueacutees de n variables aleacuteatoires (dans notre cas des canaux)

et p reacutealisations ou individus (des eacutechantillons)

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

pn

p

ji

n

xx

x

xx

M

LLL

MOMNM

MLLM

MNMOM

LLL

1

111

(C1)

Ces donneacutees sont geacuteneacuteralement centreacutees et peuvent aussi ecirctre reacuteduites4 (on note

1x la moyenne de la variable et 1x )( 1xσ sa variance) Reacuteduire ou non le nuage de points (ie les p reacutealisations de la variable aleacuteatoire) est un choix de modegravele

5 Quelques rares sources mentionnent une diffeacuterence entre ACP et TKL en placcedilant celle-ci au

niveau du choix de la reacuteduction des donneacutees dans le cas dune ACP les donneacutees seraient centreacutees et reacuteduites alors qursquoelles seraient uniquement centreacutees pour une TKL

Annexe C Analyse en composantes principales 56

- si on ne reacuteduit pas le nuage une variable agrave forte variance pourrait tirer tout lrsquoeffet de lrsquoACP agrave elle

- si on reacuteduit le nuage une variable qui ne serait qursquoun bruit se retrouverait avec une variance apparente eacutegale agrave une variable informative

M est centreacutee

⎥⎥⎥

⎢⎢⎢

minusminusminus

minusminus=

npn

pi

ji

nn

xxxxxx

xxxxM

K

MM

K

11

11

11

ˆ (C2)

M~ est centreacutee et reacuteduite

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

minusminus

minus

minusminus

=

)()(

)(

)()(~

1

11

1

1

111

n

npn

pi

ij

i

n

nn

xxx

xxx

xxx

xxx

xxx

M

σσ

σ

σσ

K

MM

K

(C3)

On multiplie ensuite la matrice obtenue par sa transposeacutee pour obtenir - La matrice de covariance MMC t

vˆˆ sdot=

- La matrice de correacutelation MMC tr

~~ sdot= Ces matrices sont carreacutees (N x N) symeacutetriques et reacuteelles Elles sont donc

diagonalisables dans une base orthonormeacutee 6 Le principe de lrsquoACP est alors de trouver un axe u issu drsquoune combinaison lineacuteaire

des tel que le critegravere drsquoinertie du nuage autour de cet axe soit maximal Le critegravere drsquoinertie couramment utiliseacute est la variance Il faut donc trouver lrsquoaxe qui porte le maximum de variance crsquoest-agrave-dire lrsquoaxe u tel que la projection du nuage sur cet axe ait une variance maximale

nx

6 Nos donneacutees eacutetant ici des valeurs drsquoeacutechantillons elles sont par nature centreacutees et reacuteduites On

formera donc naturellement la matrice de correacutelation

C2 Diagonalisation 57

C2 Diagonalisation Pour alleacuteger lrsquoeacutecriture de la suite de cette partie nous consideacutererons que les

variables ont eacuteteacute centreacutees et si besoin reacuteduites et nous noterons ces variables

transformeacutees (ainsi

ix ix

iii xxx minuslarr ou bien )( i

iii x

xxxσ

minuslarr ) On fera de mecircme pour M

( ou bien MM ˆlarr MM ~larr ) et C ( vCC larr ou bien rCC larr ) La projection drsquoun eacutechantillon sur un axe u srsquoeacutecrit ix

uMxiu sdot=)(π (C4) La variance empirique de )( iu xπ vaut donc

uMMuxx ttiu

tiu sdotsdotsdot=sdot )()( ππ (C5)

Or on a vu que est diagonalisable dans une base orthonormeacutee donc

on peut noter P le changement de base associeacute et ∆ la matrice diagonale formeacutee de son spectre Ainsi

MMC t=

n

i 1)(λ PPMMC tt ∆==

)()()()( PuPuuPPuxx ttt

iut

iu sdot∆sdot=sdot∆sdot=sdotππ (C6) On pose v = Pu Chercher lrsquoaxe u qui maximise )( iu xπ revient donc agrave chercher le

vecteur v qui maximise ougravevvt ∆ )( 1 ndiag λλ K=∆ avec les iλ rangeacutes par ordre deacutecroissant Ce vecteur est trivialement le premier vecteur unitaire et on a alors

1λ=∆vvt

Ainsi le vecteur qui porte la plus grande part drsquoinertie du nuage est le premier

vecteur propre de C (premier par norme deacutecroissante) De mecircme le deuxiegraveme vecteur qui explique la plus grandelt part de lrsquoinertie restante est le deuxiegraveme vecteur propre de C Finalement la question de lrsquoACP se ramegravene agrave un problegraveme de diagonalisation de la matrice de correacutelation

C3 Code Matlab

function [vep vap] = pca(f N) f donneacutees N nombre de composantes agrave garder cor = f f formation de la matrice de correacutelation [vep vap] = eig(cor) calcul des vecteurs (vep) et valeurs (vap) propres [vap ind] = sort(diag(vap)) tri des valeurs propres par ordre croissant vap = flipud(vap) disposition inverse par ordre drsquoimportance vep = vep( flipud(ind)) classement en conseacutequence des vecteurs propres vep = vep( 1N) on ne garde que les N premiers vecteurs propres

Annexe C Analyse en composantes principales 58

59

Annexe D

Analyse en sous-bandes

D1 La transformeacutee de Fourier agrave court terme (TFCT) Pour affiner lrsquoanalyse les signaux sont donc deacutecoupeacutes en bandes de freacutequence par

TFCT La TFCT consiste agrave effectuer des transformeacutees de Fourier discregravetes sur des portions de signal fenecirctreacutees reacuteguliegraverement espaceacutees

On rappelle que la transformeacutee de Fourier drsquoun signal x(t) est deacutefinie (lorsque

lrsquointeacutegrale existe) par

int+infin

infinminus

minus= dtetxfX ftiπ2)()( (D1)

La transformeacutee de Fourier agrave temps discret (TFTD) drsquoun signal x(t) srsquoeacutecrit

sum+infin

minusinfin=

minus=n

fnienxfX π2)()( (D2)

La transformeacutee de Fourier discregravete (TFD) drsquoun signal discret x(k) est deacutefinie par

sum+infin

minusinfin=

minus=

n

Nkni

enxkXπ2

)()( (D3)

La TFCT discregravete est une TFD observeacutee sur une fenecirctre wa de taille N

summinus

=

minus+=

1

0

2)())(()(

N

n

Nnki

aaa enwtnxkXπ

ττ (D4)

ougrave )(taτ est lrsquoinstant drsquoanalyse

Annexe D Analyse en sous-bandes 60

Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT [Laroche 1995]

D2 Synthegravese par addition-recouvrement Lors de la synthegravese apregraves le deacutecoupage et lrsquoanalyse des fenecirctres on cherche agrave

reconstruire le signal temporel agrave partir de sa repreacutesentation freacutequentielle Pour cela on utilise la meacutethode OLA (overlap and add addition-recouvrement) qui consiste agrave prendre la TFCT inverse des spectres Xt puis agrave additionner les signaux obtenus apregraves les avoir multiplieacutes par une fenecirctre de pondeacuteration en les faisant se recouvrir partiellement

Le reacutesultat est donneacute par

sum=

minusminus=T

tsss tnxtnwnx

s1

))((~))(()(~ ττ τ (D5)

avec )()( tt as ττ = et summinus

=

=1

0

2))((~1)(~ N

k

Nkni

s ektXN

nxs

π

τ τ

Lors de la mise en œuvre de ce traitement il faut srsquoassurer drsquoecirctre en mesure de

reconstruire parfaitement un signal lorsqursquoaucune transformation ne lui est appliqueacutee Le critegravere de reconstruction parfaite condition suffisante est alors

sum=

=minusminusT

tasaa tnwtnw

11))(())(( ττ quelque soit n (D6)

D2 Synthegravese par addition-recouvrement 61

Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add [Laroche 1995]

Plusieurs paramegravetres sont agrave choisir avec soin Le premier drsquoentre eux est le type

de fenecirctre agrave utiliser Les diffeacuterentes options qui se preacutesentent agrave nous sont - la fenecirctre rectangulaire qui preacutesente dans son spectre le lobe principal le plus

eacutetroit mais des lobes secondaires non neacutegligeables - la fenecirctre de Hamming au lobe principal un peu plus large mais pour laquelle le

1er lobe secondaire se situe agrave -43 dB - la fenecirctre de Hann (ou cosinus sureacuteleveacute) qui ressemble agrave la preacuteceacutedente avec un

1er lobe secondaire plus fort mais une pente de 18 dB par octave pour les lobes suivants

- les fenecirctres de Blackman-Harris aux lobes secondaires tregraves bas mais au lobe principal plus large

Fenecirctre Lobe 2aire

(dB) Pente

(dBoct) Bande passante

agrave 6 dB (bins) Rectangulaire -13 -6 121 Triangulaire -27 -12 178

Hann -32 -18 200 Hamming -43 -6 181

Blackman-Harris 4 -92 -6 272

Tableau D1 - Caracteacuteristiques des principales fenecirctres drsquoanalyse [Harris 1978] Le meilleur compromis est donc dans notre contexte la fenecirctre de Hann ou celle

de Hamming

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 5: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

vii

Table des figures Figure 11 - Scheacutema global du principe de la technologie HOA 4 Figure 12 - Prototype de microphone HOA drsquoordre 45 Figure 13 - Erreur de reconstruction drsquoune onde plane en fonction de lrsquoordre M

et du produit kr6 Figure 14 - Repreacutesentation dans le plan horizontal dans une zone de diamegravetre 1m

de la reconstruction drsquoune onde plane pour plusieurs ordres et freacutequences 6 Figure 15 - Encodage horizontal 8 Figure 16 - Prise de son virtuelle eacutequivalente agrave un encodage au 1er ordre et un

deacutecodage basique sur une disposition en 2D hexagonale 10 Figure 17 - Directiviteacutes theacuteoriques et reconstruites dans le plan horizontal12 Figure 21 - Y en fonction de X dans le cas drsquoun bruit blanc enregistreacute 15 Figure 22 - Y en fonction de X dans le cas drsquoun son placeacute artificiellement 15 Figure 23 - Signes de W X et W Y en fonction du cadran16 Figure 24 - Interface graphique du logiciel Bidule 17 Figure 25 - Repreacutesentation de tables des couleurs19 Figure 26 - Repreacutesentation de la pertinence 19 Figure 31 - Scheacutema geacuteneacuteral drsquoanalyse 21 Figure 32 - Filtres utiliseacutes inspireacutes des filtres ERB 22 Figure 33 - Position des sources de la scegravene de test agrave 4 sources dont 1 mobile24 Figure 34 - Angles drsquoune scegravene virtuelle ayant 1 source mobile et 3 sources fixes

25 Figure 35 - Angles de la mecircme scegravene trouveacutes agrave partir drsquoune ACP sur les ordres 0

et 2 25 Figure 36 - Angles drsquoune scegravene reacuteelle constitueacutee drsquoun bruit parcourant le cercle

trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 0 et 2 et 0 et 426 Figure 37 - Repreacutesentation temps-freacutequence des angles28 Figure 38 - Eacutenergie de ce mecircme son 28 Figure 39 - Norme relative de la 1egravere composante28 Figure 310 - Pondeacuteration appliqueacutee agrave lrsquoentreacutee des k-moyennes 29 Figure 311 - Directiviteacutes seacuteparant ideacutealement 4 sources placeacutees agrave 17 73 195 et -

58deg 30 Figure 41 - Angles theacuteoriques et calculeacutes pour une scegravene constitueacutee de 4 sons

fixes 32 Figure 42 - Angles theacuteoriques et calculeacutes de la scegravene agrave 4 sources dont 1 mobile32

viii

Figure 43 - Azimut et eacuteleacutevation theacuteoriques et calculeacutes drsquoun son en 3D artificiel placeacute dans une ambiance bruyante 33

Figure 44 - Angles theacuteoriques et calculeacutes drsquoun bruit blanc tournant autour du micro enregistreacute en chambre sourde 34

Figure 45 - Principe de lrsquoameacutelioration de la preacutecision spatiale 35 Figure 46 - Directiviteacutes eacutequivalentes agrave la seacuteparation de 4 sources agrave lrsquoordre 135 Figure 47 - Principe de la restitution de lrsquoordre 1 agrave partir du signal mono W 36 Figure 48 - Scheacutema de principe de la meacutethode BCC36 Figure 49 - X et Y dans le cas drsquoune sinusoiumlde placeacutee agrave 15deg et 120deg37 Figure 410 - Angles trouveacutes par lrsquoalgorithme de [Pulkki and Faller 2006] 38 Figure 411 - Angles trouveacutes par une ACP pour la mecircme scegravene 39 Figure 412 - Scheacutema de principe drsquoune confeacuterence audio spatialiseacutee 40 Figure 413 - Scheacutema ameacutelioreacute (deacutebit reacuteduit)40 Figure 414 - Analyse principe de lrsquoencodage dans le serveur 41 Figure 415 - Synthegravese principe du deacutecodage dans le client 41 Figure A1 - Systegraveme de coordonneacutees spheacuteriques 45 Figure A2 - Fonctions de Bessel spheacuteriques )(krjm pour les ordres 0 agrave 5 47 Figure A3 - Repreacutesentation des harmoniques spheacuteriques pour les ordres m = 0 agrave

3 51 Figure B1 - Deacutecodages les plus approprieacutes par sous-bande et en fonction de

lrsquoeacutetendue de la zone drsquoeacutecoute54 Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT60 Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add61

1

Preacutesentation de France Teacuteleacutecom RampD Le groupe France Teacuteleacutecom est lrsquoun des principaux opeacuterateurs de

teacuteleacutecommunications au monde Creacuteeacutee en 1988 apregraves le scindement des PTT (Poste Teacuteleacutegraphe Teacuteleacutephone) en deux groupes France Teacuteleacutecom a longtemps beacuteneacuteficieacute du statut drsquoopeacuterateur historique Depuis 1997 France Teacuteleacutecom fonctionne en tant que socieacuteteacute anonyme

Le CNET Centre National drsquoEacutetude en Teacuteleacutecommunication a eacuteteacute creacuteeacute en 1944

dans le but de reacutetablir un reacuteseau de teacuteleacutecommunication en France En mars 2000 le CNET change de nom et devient France Teacuteleacutecom Recherche amp Deacuteveloppement

Le site France Teacuteleacutecom Division RampD agrave Lannion a eacuteteacute inaugureacute le 28 octobre

1963 Lrsquoeacutequipe son 3D y megravene des recherches sur la prise et la restitution du son la spatialisation sonore ainsi que sur les environnements acoustiques virtuels Elle participe eacutegalement activement agrave la normalisation MPEG-4

De nombreux travaux sont consacreacutes aux technologies de spatialisation binaurale

transaurale (avec la technique du steacutereacuteo-dipocircle) et ambisonique De nombreux brevets et publications deacutecoulent de ces recherches qui trouvent deacutejagrave des applications dans la confeacuterence audio spatialiseacutee et ouvrent des perspectives bien plus vastes

2

Introduction La reproduction sonore semble aujourdrsquohui ecirctre parfaitement maicirctriseacutee Mais

lrsquoest-elle vraiment Rien nrsquoest moins sucircr Reproduire un son signifie ldquoreproduire toutes ses proprieacuteteacutes telles qursquoelles existent dans une situation drsquoeacutecoute reacuteellerdquo (tel que rappeleacute dans [Nicol 1999]) Or le son est un pheacutenomegravene agrave quatre dimensions il eacutevolue dans le temps et dans les 3 dimensions de lrsquoespace Si le problegraveme de la reproduction temporelle peut ecirctre consideacutereacute comme reacutesolu la restitution spatiale est elle toujours agrave lrsquoeacutetude

La restitution drsquoune scegravene sonore (crsquoest-agrave-dire drsquoun ensemble drsquoeacuteveacutenements

sonores placeacutes agrave des positions et des instants preacutecis) passe par la reproduction du champ acoustique dans une zone donneacutee zone au moins assez grande pour qursquoon puisse y placer ses 2 oreilles Lrsquoauditeur pourra alors localiser preacuteciseacutement les sources constituant la scegravene agrave la fois en temps et dans lrsquoespace

Lrsquoobjectif du stage preacutesenteacute ici est de retrouver par le calcul ces informations agrave

partir de lrsquoanalyse de signaux de repreacutesentation du champ sonore 3D en particulier ceux issus de lrsquoencodage spatial de scegravenes sonores reacutealiseacute par la technologie Higher Order Ambisonics (HOA) Il srsquoagit de retrouver dans une scegravene HOA les positions qursquooccupaient les sources agrave chaque instant lors de lrsquoencodage

Cette analyse permet alors drsquoentrevoir des applications pour le codage et la

transmission etou lrsquoameacutelioration de contenu audio 3D la seacuteparation de sources ou bien encore la confeacuterence audio spatialiseacutee En effet une telle description de la scegravene permettrait de caracteacuteriser de maniegravere leacutegegravere une partie de lrsquoinformation transmise par les signaux HOA et ouvrirait mecircme lrsquoopportuniteacute drsquoun deacutemixage

Nous allons ici preacutesenter la technologie ambisonics puis les eacuteleacutements theacuteoriques et

pratiques de lrsquoanalyse des signaux HOA Les eacuteleacutements matheacutematiques sur lesquels repose ambisonics agrave savoir le deacuteveloppement drsquoun champ acoustique en harmoniques spheacuteriques sont deacuteveloppeacutes en Annexe A La lecture preacutealable de cette annexe nrsquoest pas indispensable agrave la compreacutehension du Chapitre 1 mais est vivement conseilleacutee

3

Chapitre 1

Ambisonics

11 Principe

111 Du B-format agrave HOA Lrsquoapproche ambisonique deacuteveloppeacutee dans les anneacutees 1970 par Gerzon [Gerzon

1973] [Gerzon 1985] a pour but de reconstruire au voisinage de la tecircte de lrsquoauditeur le champ sonore et ses caracteacuteristiques de propagation crsquoest-agrave-dire au minimum le champ de pression et son gradient Cette technique est cateacutegoriseacutee dans les techniques de panoramique drsquoamplitude ou agrave microphones coiumlncidents Le format orignal appeleacute B-format peut en fait ecirctre vu comme une restriction au 1er ordre drsquoune deacutecomposition du champ en harmoniques spheacuteriques (voir Annexe A) ou cylindriques (dans le cas drsquoune restriction agrave 2 dimensions) Le format HOA (Higher Order Ambisonics) est une extension de cette deacutecomposition agrave des ordres plus eacuteleveacutes permettant une reconstruction ameacutelioreacutee du champ (une meilleure approximation) dans une zone de restitution eacutelargie

Une grande speacutecificiteacute de lrsquoapproche ambisonique est de contenir directement

lrsquoinformation spatiale en codant le champ acoustique en un point de lrsquoespace indeacutependamment du systegraveme de restitution utiliseacute contrairement aux systegravemes de spatialisations classiques (steacutereacuteo 51hellip) Lrsquoencodage directionnel drsquoune onde plane S drsquoincidence u se traduit par les eacutequations

r

⎪⎪

⎪⎪

=

=

=

=

δ

δθ

δθ

sin2

cossin2

coscos2

SZ

SY

SX

SW

(11)

Le facteur de normalisation 2 a eacuteteacute introduit agrave lrsquoorigine pour srsquoassurer que les

composantes W X et Y aient une eacutenergie moyenne eacutegale dans le cas de lrsquoencodage drsquoun champ diffus horizontal

Chapitre 1 Ambisonics 4

Le B-format peut ecirctre vu comme une troncature au premier ordre de la deacutecomposition en seacuterie de Fourier-Bessel du champ sonore [Daniel 2000] Une troncature agrave un ordre plus eacuteleveacute (Higher Order Ambisonics) apporte alors agrave la reconstruction une meilleure qualiteacute tant en terme de preacutecision de lrsquoimage que de dimensions du sweet spot zone ougrave le champ original est restitueacute avec une toleacuterance donneacutee Cette zone tregraves petite pour lrsquoordre 1 (il faut veiller agrave se placer bien au centre du dispositif) est nous le verrons nettement eacutelargie aux ordres supeacuterieurs On atteint eacutegalement une discrimination angulaire plus fine Ces ordres supeacuterieurs eacutetant les termes suivants de la seacuterie de Fourier-Bessel une repreacutesentation HOA inclut les ordres infeacuterieurs constituant donc une repreacutesentation hieacuterarchique (ou scalable) du champ sonore

La chaicircne de traitement drsquoun systegraveme ambisonique se deacutecompose en plusieurs

eacutetapes (voir Figure 11) - lrsquoencodage spatial reacutealiseacute de maniegravere artificielle pour spatialiser une scegravene

syntheacutetique ou bien agrave partir de signaux naturels issus drsquoune structure multi-microphonique (voir Figure 12)

- une eacuteventuelle transformation des signaux HOA (compression ou

transformations lineacuteaires comme par exemple une rotation) - le deacutecodage spatial matriccedilage des signaux pour une diffusion adapteacutee au

dispositif drsquoeacutecoute

Figure 11 - Scheacutema global du principe de la technologie HOA [Moreau 2006]

11 Principe 5

Figure 12 - Prototype de microphone HOA drsquoordre 4 constitueacute de 32 capteurs omnidirectifs

reacutepartis sur une sphegravere en plastique rigide [Moreau 2006]

112 Repreacutesentation de scegravene sonore avec HOA La seacuterie de Fourier-Bessel (A16) en Annexe A) tronqueacutee agrave lrsquoordre M donne une

approximation de la repreacutesentation du champ sonore

sum sum sum= = plusmn=

=M

m

m

nmnmnm

mM YBkrjikrp

0 0 1)()()(

σ

σσ δθδθ (12)

La repreacutesentation drsquoordre M est composeacutee de signaux HOA en 3D

et

2)1( += MK12 += MK signaux HOA si on se contente du plan horizontal

Pour mesurer lrsquoerreur de reconstruction on peut utiliser le critegravere des moindres

carreacutes normaliseacute (NMSE pour Normalized Mean Square Error)

intint

intint minus=

S

SM

dSkrp

dSkrpkrpkre 2

2

)(

)()()(

δθ

δθδθ (13)

Dans le cas particulier drsquoune onde plane lrsquoerreur de reconstruction est

indeacutependante de lrsquoangle drsquoincidence et ne deacutepend que de lrsquoordre et du produit kr En rappelant que k est le nombre drsquoonde cfck πω 2== on srsquoaperccediloit que lrsquoerreur de reconstruction pour un ordre donneacute augmente quand on srsquoeacuteloigne du centre du systegraveme (r augmente) ou lorsque la freacutequence srsquoeacutelegraveve On remarque qursquoune erreur de 4 (-14 dB) est atteinte approximativement quand M = kr

Chapitre 1 Ambisonics 6

Figure 13 - Erreur de reconstruction drsquoune onde plane en fonction

de lrsquoordre M et du produit kr [Moreau et al 2006]

Figure 14 - Repreacutesentation dans le plan horizontal dans une zone de diamegravetre 1m de la

reconstruction drsquoune onde plane (agrave droite) pour plusieurs ordres et freacutequences Les niveaux de gris repreacutesentent la valeur de la pression acoustique Les courbes eacutetoileacutees indiquent la

limite des zones ougrave lrsquoerreur de reconstruction est infeacuterieure agrave 7 (-115 dB) [Moreau 2006]

12 Encodage et deacutecodage spatial 7

12 Encodage et deacutecodage spatial

121 Encodage spatial Drsquoun point de vue drsquoingeacutenieur du son lrsquoencodage spatial peut ecirctre vu comme un

panoramique drsquoamplitude Un preneur de son lrsquointerpreacutetera comme une capture par un jeu de microphones directifs coiumlncidents Un matheacutematicien verra plutocirct le lien avec la deacutecomposition en harmoniques spheacuteriques deacutecrite en Annexe A

Eacutetudions le cas drsquoune onde plane provenant de la direction )( pp δθ avec une

amplitude S Lrsquoexpression du champ de pression srsquoeacutecrit alors

γδθ cos)( jkrSekrp = (14)

soit encore

)(cos)()12()(0

γδθ mmm

m PkrjjmSkrp suminfin

=

+= (15)

ougrave γ deacutesigne lrsquoangle entre la direction (θ δ ) du point drsquoobservation et la direction

)( pp δθ de provenance de lrsquoonde Il vient ensuite

sum sumsum= plusmn=

infin

=

=m

nmnppmnm

m

m YYkrjjSkrp0 10

)()()()(σ

σσ δθδθδθ (16)

En identifiant cette eacutequation (16) avec la seacuterie de Fourier-Bessel (A16) nous

obtenons finalement lrsquoexpression de la transformeacutee de Fourier spheacuterique drsquoun champ de pression acoustique engendreacute par une onde plane [Moreau 2006]

)( ppmnmn YSB δθσσ = (17)

Les coefficients sont ainsi deacutefinis par la valeur des harmoniques spheacuteriques

dans la direction de provenance de lrsquoonde plane pondeacutereacutee par lrsquoamplitude

σmnB

S du signal transporteacute Ce sont ces coefficients qui constituent le signal ambisonique Des coefficients de normalisation ou de semi-normalisation sont ensuite appliqueacutes pour que les signaux soient drsquoeacutenergie moyenne eacutequivalente entre eux ( ) ou entre les diffeacuterents ordres ( ) (voir Annexe A Tableau A1)

DN 3α DSN 3αDSN 3α

DSN 3α Ces fonctions drsquoencodage peuvent ecirctre simplifieacutees dans le cas drsquoune restriction agrave 2

dimensions (plan horizontal) On ne conserve alors que 2 composantes par ordre celles qui deacutecrivent le plan horizontal crsquoest-agrave-dire veacuterifiant m = n Les coefficients de normalisation sont alors diffeacuterents et lrsquoangle δ est nul Les composantes restantes sont alors

Chapitre 1 Ambisonics 8

ordre notations eacutecriture 0 W 1

00B 1

X 111B θcos2

1 Y 1

11minusB θsin2

U 122B )2cos(2 θ

2 V 1

22minusB )2sin(2 θ

- 1mmB )cos(2 θm

m - 1minus

mmB )sin(2 θm Tableau 11 - Fonctions drsquoencodage ambisonique dans le plan horizontal

avec la convention de normalisation associeacutee (N2D) La figure suivante illustre lrsquoencodage spatial aux ordres 0 1 et 2 de 2 sources

placeacutees aux angles vθ et vθ dans le plan horizontal

ordres 0 et 1 ordre 2

Figure 15 - Encodage horizontal [Moreau et al 2006] Le coefficient (gain) appliqueacute agrave

chaque composante de chacune des 2 sources est donneacute par les intersections des flegraveches et des diagrammes des harmoniques

Comme on peut le voir sur cette figure un encodage au 1er ordre offre une

discrimination angulaire peu appuyeacutee alors que les 2 sources pourtant proches auront des coefficients tregraves diffeacuterents agrave lrsquoordre 2 (les points drsquointersection sont plus eacuteloigneacutes)

122 Deacutecodage spatial Lrsquoobjectif du deacutecodage est de restituer au mieux sur un systegraveme de diffusion

donneacute le champ sonore HOA Il faut ainsi calculer les signaux Sl agrave diffuser sur L haut-parleurs en fonction des composantes ambisoniques Ces σ

mnB L haut-parleurs peuvent ecirctre disposeacutes dans le plan horizontal ou dans un espace tridimensionnel Les deacutecodages les plus courants srsquoeffectuent sur une demi-sphegravere (cas 3D) ou un cercle (cas 2D) de

12 Encodage et deacutecodage spatial 9

haut-parleurs Crsquoest une opeacuteration matricielle qursquoon peut formaliser dans le cas drsquoun deacutecodage dans le plan horizontal par lrsquoeacutequation

BSC =sdot (18)

ougrave la matrice C contient les vecteurs harmoniques spheacuteriques associeacutes agrave chaque direction de haut-parleur et organiseacutes suivant ses lignes le vecteur S contient les signaux eacutemis par les L haut-parleurs et enfin le vecteur B contient les signaux HOA

⎟⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜⎜

=

⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜

=

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

=

10

100

2

1

1011

10

11111

111

10011

100

)()()(

)()()()(

M

mn

LLLMM

llmn

LL

LL

B

B

B

B

S

SS

S

YYY

YYYY

CM

M

M

L

MM

L

L

σσ

δθδθδθ

δθδθδθδθ

(19)

)( ll δθ repeacuterant la position du legraveme haut-parleur

Il faut donc estimer S connaissant B et C Le deacutecodage se reacutesume alors agrave un systegraveme de (M +1)2 (en 3D) ou 2M +1 (en 2D) eacutequations lineacuteaires agrave L inconnues On ne peut trouver de solution exacte que si le nombre de haut-parleurs est au moins eacutegal au nombre de signaux crsquoest-agrave-dire si L gt (M +1)2 (en 3D) ou 2M +1 (en 2D) Crsquoest en outre une condition neacutecessaire pour pouvoir avoir une reproduction homogegravene de la scegravene sonore

La matrice C nrsquoest pas neacutecessairement carreacutee et inversible une solution geacuteneacuterale

consiste agrave calculer lrsquoinverse geacuteneacuteraliseacutee de la matrice C noteacutee D encore appeleacutee pseudo-inverse de Moore-Penrose

BDS sdot= (110)

avec

1pinv( ) ( )t tD C C C C minus= = sdot sdot (111) D est appeleacutee matrice de deacutecodage BDS sdot= reacutesout le systegraveme (18) si les haut-

parleurs sont suffisamment nombreux L gt (M +1)2 (en 3D) ou 2M +1 (en 2D)) Srsquoils sont en outre disposeacutes sur une sphegravere (3D) ou un cercle (2D) de maniegravere eacutequidistante crsquoest-agrave-dire srsquoils sont les sommets drsquoun polyegravedre ou polygone reacutegulier ils preacuteservent alors la proprieacuteteacute drsquoorthonormaliteacute des harmoniques spheacuteriques Ceci se traduit par

Lt ILCC sdot=sdot (112)

ougrave IL est la matrice identiteacute de taille LLtimes On a alors

1pinv( ) tD CL

= = C (113)

Chapitre 1 Ambisonics 10

Cette proprieacuteteacute ne peut pas ecirctre matheacutematiquement veacuterifieacutee en 3D au-delagrave de lrsquoordre 2 autrement dit il nrsquoexiste pas de polyegravedre reacutegulier dont la position des sommets conserve strictement lrsquoorthonormaliteacute des harmoniques spheacuteriques

Visuellement le deacutecodage correspond agrave la reproduction du champ sonore tel qursquoil

aurait eacuteteacute capteacute par un ensemble de N microphones agrave directiviteacutes hyper-cardioiumldes tourneacutes chacun vers lrsquoun des haut-parleurs Leur directiviteacute serait drsquoautant plus preacutecise que lrsquoordre de reproduction est eacuteleveacute

Figure 16 - Prise de son virtuelle eacutequivalente agrave un encodage au 1er ordre et un deacutecodage

basique sur une disposition en 2D hexagonale [Moreau et al 2006] Le gain gl appliqueacute agrave chaque haut-parleur pour une direction de source virtuelle donneacutee

(en vert) est indiqueacute par la longueur des flegraveches et est reporteacutee aux points drsquointersection de la flegraveche verte et des diagrammes de directiviteacute

On peut remarquer que les diagrammes de directiviteacute sont tregraves larges par rapport

agrave lrsquoespacement angulaire des haut-parleurs Le 2nd ordre offrirait des directiviteacutes plus fines et donc une seacutelectiviteacute spatiale accrue Il faudrait alors bien sucircr davantage de haut-parleurs pour ne pas introduire des ldquotrousrdquo entre eux On remarque eacutegalement la preacutesence non neacutegligeable des lobes secondaires utiles pour la reconstruction du champ acoustique (notamment en basses freacutequences) mais qui peuvent ecirctre gecircnants dans certains cas par exemple lorsque lrsquoauditoire est large

Ce deacutecodage est appeleacute deacutecodage basique car il nrsquooptimise pas la restitution en

accord une quelconque hypothegravese et cherche uniquement agrave reproduire fidegravelement le champ acoustique Pour ameacuteliorer la restitution dans des cas critiques comme par exemple en-dehors du sweet spot (centre du dispositif) il faut optimiser le deacutecodage en reacuteduisant par exemple les lobes secondaires Ainsi le deacutecodage max-rE srsquoattache agrave maximiser lrsquoeacutenergie reccedilue de la provenance de la direction souhaiteacutee alors que le deacutecodage in-phase annule complegravetement ces lobes secondaires (voir Annexe B)

13 Critique de la technologie HOA 11

13 Critique de la technologie HOA

131 Bilan On a ainsi vu que la technologie HOA est une repreacutesentation intermeacutediaire du

champ de pression acoustique agrave mi-chemin entre la description directe du champ lui-mecircme et des signaux agrave restituer Cette technologie a de nombreux avantages compareacutee aux autres meacutethodes de reproduction de champ sonore (on trouvera notamment une eacutetude deacutetailleacutee des comparaisons entre HOA et la Wave Field Synthesis (WFS) dans [Daniel et al 2003]) elle permet drsquoeacuteviter le repliement spatial (voir paragraphe suivant) et permet ainsi une reconstruction dans une gamme de freacutequences tregraves large

La qualiteacute de la restitution ambisonique nrsquoest theacuteoriquement limiteacutee que part

lrsquoordre de troncature de la seacuterie de Fourier-Bessel agrave partir du moment ougrave le nombre de haut-parleurs est suffisant Ainsi un ordre tendant vers lrsquoinfini (et un nombre de haut-parleurs au moins aussi grand) permettra une reproduction quasi-parfaite sur lrsquoensemble de la zone drsquoeacutecoute

Mais les principaux avantages de cette technologie sont drsquoune part drsquoecirctre flexible

crsquoest-agrave-dire qursquoon peut agrave loisir adapter le nombre de signaux transmis au canal de transmission Une chute de deacutebit nrsquoentraicircnera pas de coupure de la transmission mais simplement une perte de preacutecision spatiale par lrsquoabandon des composantes drsquoordres les plus eacuteleveacutes Et drsquoautre part elle est indeacutependante du systegraveme de reproduction Ainsi un mecircme signal HOA pourra ecirctre diffuseacute sur toutes les configurations de haut-parleurs il suffira pour cela de calculer la matrice de deacutecodage associeacutee agrave ce systegraveme

132 Limites pratiques Dans la pratique cette technologie a toutefois des limitations Si lrsquoaliasing spectral

est eacuteviteacute on constate aux ordres les plus eacuteleveacutes lrsquoapparition drsquoun repliement spatial lors des enregistrements naturels agrave partir drsquoune freacutequence lieacutee agrave la distance maximale entre 2 capsules du microphone HOA (qui doit ecirctre au plus eacutegale agrave la moitieacute de la plus petite longueur drsquoonde drsquoapregraves Shannon) et au nombre total de capsules (qui doit ecirctre supeacuterieur agrave (M+1)2 M eacutetant lrsquoordre auquel on souhaite enregistrer)

Le repliement spectral repreacutesente la preacutesence importune dans des composantes

ambisoniques de sources qui de part leur position ne devraient qursquoapparaicirctre avec cette importance que dans les composantes drsquoordre plus eacuteleveacute Il est ducirc agrave lrsquointrusion des directiviteacutes drsquoordres supeacuterieurs dans les composantes harmoniques spheacuteriques estimeacutees Comme on le voit sur la Figure 17 les directiviteacutes ne sont pas des cylindres (au sens matheacutematique du terme la base nrsquoeacutetant pas forceacutement un cercle) mais varient en fonction de la freacutequence pour ressembler davantage dans le haut du spectre aux courbes de directiviteacute de lrsquoordre supeacuterieur Ainsi la directiviteacute de lrsquoordre 1 (2egraveme graphique) qui devrait ecirctre un 8 ressemble davantage au-dessus de 10 000 Hz agrave la figure de directiviteacute de lrsquoordre 4 (8 lobes)

Chapitre 1 Ambisonics 12

Figure 17 - Directiviteacutes theacuteoriques (en transparence) et reconstruites (grille) dans le plan horizontal pour des ondes planes horizontales Lrsquoaxe vertical correspond agrave la freacutequence et

les diffeacuterents graphiques aux ordres 0123 et 4 de gauche agrave droite Agrave lrsquoopposeacute la taille reacuteduite du microphone si elle permet de reacuteduire cet aliasing

spatial empecircche la capture des basses freacutequences aux ordres supeacuterieurs (voir 232) La reacutesolution spatiale des basses freacutequences sera donc moindre ce qui implique que en ajoutant lrsquoeffet du repliement en hautes freacutequences les ordres eacuteleveacutes capteacutes avec le micro HOA ne constituent qursquoune plage du spectre assez peu eacutetendue crsquoest cette seule plage qui pourra se targuer drsquoune excellente preacutecision spatiale

13

Chapitre 2

Analyser un contenu HOA

21 Objectifs La reacuteflexion a tout au long du stage eacuteteacute orienteacutee vers deux objectifs le premier

est dans un contexte de transmission de reconstruire une scegravene spatialiseacutee agrave partir du minimum drsquoinformations le deuxiegraveme appliqueacute agrave des ordres plus eacuteleveacutes est drsquoarriver agrave resyntheacutetiser les composantes de lrsquoordre immeacutediatement supeacuterieur

211 Restitution de la spatialisation agrave partir drsquoun downmix mono La premiegravere approche vise donc agrave reconstruire une scegravene spatialiseacutee agrave partir drsquoun

downmix le plus leacuteger possible Un downmix est une reacuteduction du nombre de canaux par fusion lrsquoexemple le plus simple eacutetant le passage drsquoun signal steacutereacuteo agrave un signal mono construit comme la demi-somme des composantes gauche et droite On tente dans cette approche de se restreindre au plus petit nombre de signaux possible un signal eacutetant tregraves coucircteux agrave transmettre en ajoutant parallegravelement agrave ce signal des informations compleacutementaires aidant agrave la reconstruction

Le cas extrecircme est la reacuteduction du flux agrave un signal mono Dans le cas

drsquoambisonics un signal mono comprenant toutes les sources est deacutejagrave preacutesent il srsquoagit de la composante omnidirectionnelle W Il faut donc extraire de la scegravene encodeacutee agrave un certain ordre M des informations permettant la reconstruction drsquoun ordre Mrsquo apregraves transmission Nous verrons que nous allons chercher agrave trouver les positions des sources gracircce agrave une analyse en composantes principales (ou ACP voir Annexe C) effectueacutee par sous-bandes (voir Annexe D)

212 Ameacutelioration de la preacutecision spatiale La deuxiegraveme piste suivie a pour but de reconstituer un ordre ambisonique non

transmis On pourrait qualifier cette approche drsquoupmix ambisonique car elle vise agrave reconstruire un ordre manquant En effet le format ambisonique eacutetant flexible il est bien

Chapitre 2 Analyser un contenu HOA 14

adapteacute agrave la transmission Ainsi si on souhaite transmettre une scegravene encodeacutee agrave lrsquoordre 2 dans le plan horizontal il faudra un canal drsquoun deacutebit minimum (si lrsquoon prend lrsquohypothegravese de pas vouloir compresser les signaux) de 471 Mos Un canal plus petit (par exemple 34 Mos) ne permettra theacuteoriquement de transmettre qursquoun ordre 1 Mais lrsquoanalyse des signaux peut permettre de deacuteterminer les positions des sources agrave partir desquelles on peut syntheacutetiser des composantes du 2nd ordre approchant les composantes drsquoorigine On pourrait mecircme imaginer pouvoir syntheacutetiser un ordre qui nrsquoavait pas eacuteteacute encodeacute agrave lrsquoorigine

Pour cela il est neacutecessaire de deacuteterminer les positions des sources preacutedominantes

dans le champ sonore pour piloter leur encodage spatial aux ordres supeacuterieurs et arriver agrave la synthegravese drsquoune repreacutesentation de reacutesolution spatiale accrue Il srsquoagit dans le mecircme temps drsquoisoler au mieux les signaux associeacutes agrave ces diffeacuterentes sources avant de leur appliquer lrsquoopeacuteration drsquoencodage on se rapproche donc drsquoun problegraveme de seacuteparation de sources

Pour parvenir agrave trouver ces positions deux meacutethodes ont eacuteteacute testeacutees La premiegravere

consiste comme preacuteceacutedemment agrave appliquer en sous-bandes une analyse en composantes principales La seconde implique la formation de directiviteacutes agrave partir des vecteurs propres de la matrice de correacutelation utiliseacutee dans cette analyse

Lrsquoanalyse en composantes principales ou ACP (voir Annexe C) est donc

largement privileacutegieacutee dans nos approches Elle permet en effet tregraves facilement drsquoextraire des informations preacutecises de signaux correacuteleacutes Pour justifier ce choix une autre meacutethode reacutecente a eacutegalement eacuteteacute testeacutee et compareacutee agrave lrsquoACP (voir 11)

22 Principe de lrsquoextraction drsquoinformation spatiale avec une ACP

221 Information spatiale

Nous avons donc tout drsquoabord testeacute lrsquoanalyse en composantes principales sur des

signaux HOA Nous avons choisi dans un premier temps de limiter lrsquoanalyse aux composantes horizontales du premier ordre W X et Y avant de lrsquoeacutetendre agrave la 3egraveme dimension avec Z

Dans un premier test les signaux HOA sont analyseacutes par une ACP dans leur

inteacutegraliteacute LrsquoACP est appliqueacutee sur les signaux X et Y qui contiennent lrsquoinformation spatiale En effet X et Y correspondent aux signaux qui seraient capteacutes par des microphones agrave figure en 8 placeacutes sur lrsquoaxe avant-arriegravere et gauche-droite respectivement

La Figure 21 montre la correacutelation entre X et Y dans le cas drsquoun bruit blanc capteacute

par le microphone ambisonique Les points ne sont pas exactement aligneacutes du fait des artefacts inheacuterents agrave la prise de son (reacuteflexions sur les parois approximations du microphone etc)

22 Principe de lrsquoextraction drsquoinformation spatiale avec une ACP 15

Figure 21 - Y en fonction de X dans le cas drsquoun bruit blanc enregistreacute placeacute agrave 30deg

On remarque que le nuage est eacutetireacute dans la direction de provenance du son indiqueacutee par la flegraveche en pointilleacutes verts

222 Application de lrsquoanalyse en composantes principales La 1egravere composante issue de lrsquoACP appliqueacutee dans le plan (X Y) pointe dans la

direction dans laquelle X et Y ont la plus grande correacutelation Or comme X contient lrsquoinformation placeacutee sur lrsquoaxe avant-arriegravere et Y lrsquoinformation de lrsquoaxe gauche-droite cette direction est directement la direction de la source Par exemple un son situeacute droit devant dans lrsquoaxe (agrave 0deg) aura une composante Y nulle et par conseacutequent les eacutechantillons seront dans le plan tous disposeacutes sur lrsquoaxe horizontal LrsquoACP prendra donc naturellement cet axe comme 1er vecteur propre et il pointe bien vers la position de la source De mecircme un son situeacute agrave 135deg ( π28

3 times rad) aura la proprieacuteteacute Y = -X Les eacutechantillons seront donc placeacutes sur la 2egraveme bissectrice qui fait avec lrsquoaxe Y=0 un angle de 135deg (voir Figure 22)

Figure 22 - Y en fonction de X dans le cas drsquoun son placeacute artificiellement dans la direction

indiqueacutee par la flegraveche en pointilleacutes verts agrave 0deg (agrave gauche) et 135deg (agrave droite)

Chapitre 2 Analyser un contenu HOA 16

Lrsquoanalyse de X et Y ne permet cependant de deacuteterminer lrsquoangle qursquoagrave π pregraves il reste une indeacutetermination (on deacutetermine la direction drsquoun axe qursquoil reste agrave orienter) Pour lever cette ambiguiumlteacute on integravegre W agrave lrsquoanalyse car cette composante pourtant omnidirectionnelle et donc deacutepourvue drsquoinformation spatiale apporte une reacutefeacuterence pour les phases Ainsi notre son placeacute agrave 135deg veacuterifiait (aux eacuteventuels coefficients de normalisation pregraves) Y = -X = W alors qursquoun son placeacute agrave 135 - 180 = -45deg aurait la proprieacuteteacute Y = -X = -W

Pour prendre en compte W dans lrsquoanalyse on peut comparer directement les

phases de ces 3 canaux Algorithmiquement on ramegravene lrsquoangle trouveacute agrave son modulo π2 puis on deacutetermine le vrai cadran par comparaison des phases de W X et Y crsquoest-agrave-dire en comparant le signe des produits W X et W Y Ainsi W X gt 0 signifie que W et X sont en phase et reacuteciproquement (voir Figure 23)

W X lt 0 W Y gt 0

W X gt 0 W Y gt 0

W X lt 0 W Y lt 0

W X gt 0 W Y lt 0

minusπ2

π

π2

0

Figure 23 - Signes de W X et W Y en fonction du cadran On peut eacutegalement inteacutegrer W agrave lrsquoanalyse en appliquant lACP sur le triplet (X Y

W) Le problegraveme drsquoambiguiumlteacute est ainsi reacutesolu la direction rechercheacutee eacutetant celle du vecteur principal dans le demi-espace W gt 0 projeteacutee sur le plan (X Y) Cette meacutethode srsquoavegravere plus robuste et surtout plus geacuteneacuteralisable agrave des ordres plus eacuteleveacutes

Cette analyse permet donc de deacuteterminer la position drsquoune source unique Pour

pouvoir seacuteparer plusieurs sources nous avons appliqueacute lrsquoACP par sous-bandes en supposant que les sources nrsquoont pas des supports freacutequentiels strictement identiques Le principe de cette analyse en sous-bandes est deacuteveloppeacute en Annexe D

23 Meacutethodologie

231 Construction de scegravenes artificielles Pour tester les algorithmes impleacutementeacutes nous avons ducirc creacuteer des scegravenes sonores

spatialiseacutees au format HOA Plusieurs types de scegravenes ont eacuteteacute utiliseacutes de complexiteacutes diffeacuterentes Les premiegraveres ont eacuteteacute des scegravenes virtuelles syntheacutetiseacutees avec Matlab Les premiegraveres scegravenes simplissimes ne comportait qursquoune sinusoiumlde ou un bruit blanc fixe placeacute dans le plan horizontal Puis pour tester lrsquoanalyse par sous-bandes ont eacuteteacute creacuteeacutes des sons polyphoniques composeacutes de 2 sinusoiumldes tout drsquoabord puis de sons complexes (syntheacutetiseacutes par synthegravese FM) dans des gammes freacutequentielles distinctes ou se

23 Meacutethodologie 17

chevauchant Enfin ces sons ont eacuteteacute rendus mobiles en faisant varier leur position dans le temps

Nous avons pu ainsi constater agrave lrsquoaide des sons fixes et de supports freacutequentiels

distincts la preacutecision de lrsquoanalyse et avec les sons mobiles et mecircleacutes sa robustesse Nous nous sommes limiteacutes sous Matlab agrave la geacuteneacuteration de 2 sons simultaneacutes et du 1er ordre et un autre outil Plogue Bidule a eacuteteacute utiliseacute pour composer des scegravenes plus complexes

Bidule est un studio modulaire virtuel ressemblant agrave MAXMSP Des plugins ont

eacuteteacute deacuteveloppeacutes agrave France Teacuteleacutecom pour permettre de manipuler des signaux HOA Ainsi des scegravenes complexes ont pu facilement ecirctre syntheacutetiseacutees agrave des ordres eacuteleveacutes Des scegravenes agrave 3 et 4 sources fixes ou dont 1 source mobile ont eacuteteacute reacutealiseacutees agrave partir de voix deacutemixeacutees placeacutees dans le plan horizontal ou en 3 dimensions

Ces scegravenes eacutetant artificielles elles sont en un sens ideacuteales ne contiennent aucun

signal reacuteverbeacutereacute (effet de salle) ni diffracteacute (par un micro) lrsquoencodage est fait sans artefacts les ondes sont consideacutereacutees comme planes et ont donc une direction bien deacutefinie Si on est ici bien loin de la vraie vie le gros avantage des scegravenes artificielles est qursquoon connaicirct preacuteciseacutement agrave chaque instant la position des sources et qursquoon peut ainsi veacuterifier le reacutesultat de lrsquoanalyse

Figure 24 - Interface graphique du logiciel Bidule avec agrave droite les controcircles des encodeurs

et deacutecodeurs HOA creacuteeacutes agrave France Teacuteleacutecom

Chapitre 2 Analyser un contenu HOA 18

232 Exploitation drsquoenregistrements naturels Une fois des reacutesultats convaincants obtenus avec des scegravenes virtuelles des

enregistrements naturels ont eacuteteacute analyseacutes Ces scegravenes ont eacuteteacute enregistreacutees gracircce au prototype de micro HOA du 4egraveme ordre deacuteveloppeacute agrave France Teacuteleacutecom (voir Figure 12) Ce processus implique des diffeacuterences notables avec un encodage virtuel

Le prototype de microphone contraint en effet agrave quelques compromis pour

optimiser des critegraveres incompatibles La taille du microphone reacutesulte drsquoun compromis entre la preacutecision drsquoestimation des composantes en basses freacutequences qui neacutecessite une taille eacuteleveacutee et la minimisation de lrsquoaliasing spatial qui ne peut ecirctre eacuteviteacute qursquoavec des capsules tregraves proches les unes des autres Leur disposition est eacutegalement irreacuteguliegravere il nrsquoexiste en fait aucune faccedilon de disposer reacuteguliegraverement plus de 20 points sur une sphegravere La configuration qui avait eacuteteacute retenue par les concepteurs [Moreau 2006] est la ldquomoins irreacuteguliegravere possiblerdquo au sens de la preacuteservation de lrsquoorthonormaliteacute des harmoniques spheacuteriques les 32 capsules sont reacuteparties sur une sphegravere de 35 cm de rayon selon un Pentaki-dodeacutecahegravedre polyegravedre semi-reacutegulier dual de lrsquoicosaegravedre tronqueacute (ballon de football)

Ces artefacts sont donc inheacuterents agrave lrsquoutilisation drsquoun reacuteseau de microphones Mais

le monde reacuteel pose eacutegalement des problegravemes deacutelicats La complexiteacute des modes de rayonnement drsquointeraction avec lrsquoenvironnement reacuteclame lrsquointroduction de modegraveles drsquoencodage beaucoup plus complexes que le cas drsquoune onde plane en champ libre et rend lrsquoinformation spatiale moins limpide et univoque au sein de la scegravene encodeacutee (enregistreacutee) en comparaison avec une scegravene virtuelle Les sources ne sont ainsi plus ponctuelles mais eacutetendues elles ne sont plus agrave lrsquoinfini mais agrave une distance finie du microphone (les ondes reccedilues ne sont donc plus planes) En outre chaque source en se reacutefleacutechissant sur les parois et les diffeacuterents objets de la salle creacutee une multitude de sources secondaires Il est enfin souvent difficile de connaicirctre avec preacutecision la position drsquoune source dans lrsquoespace lors drsquoun enregistrement

Des enregistrements en chambre sourde ont eacuteteacute reacutealiseacutes pour se passer des

reacuteflexions de lrsquoenvironnement Afin de connaicirctre avec preacutecision la position de la source un haut-parleur diffusant un bruit blanc nous avons placeacute le microphone sur une table tournante commandeacutee par un plug-in sous Plogue Bidule

233 Visualisations des reacutesultats Lrsquoobservation des reacutesultats a eacuteteacute effectueacutee de plusieurs maniegraveres visuellement et

par lrsquoeacutecoute Les graphiques eacutetant plus commodes crsquoest par cette voie que les premiers essais eacutetaient conclus Plusieurs types de graphiques ont eacuteteacute produits deacutecrivant des paramegravetres diffeacuterents

Les repreacutesentations temps-freacutequence permettent de repreacutesenter une variable agrave 1

dimension sous Matlab Cette voie a eacuteteacute suivie pour visualiser les paramegravetres extraits de chaque sous-bande de chaque fenecirctre notamment les angles lrsquoeacutenergie et la pertinence Malheureusement Matlab ne permet pas de repreacutesenter sur le mecircme graphique une 4egraveme dimension sous la forme drsquoune 2egraveme dimension colorimeacutetrique (on prend geacuteneacuteralement la

23 Meacutethodologie 19

saturation) Cette dimension suppleacutementaire aurait permis de repreacutesenter simultaneacutement les angles et leur pertinence

Figure 25 - Repreacutesentation

et de lrsquoespace col

Pour repreacutesenter s

drsquoabandonner une dimensipouvoir repreacutesenter danrepreacutesenteacutees soit par le niv

Figure 26 - Repreacutesentationdeacutecrite en 332 (en absciss

est repreacutesenteacutee agrave gauc

234 Diffeacuterents modes La visualisation est

indispensable pour veacuterifiesont possibles de ceux-cainsi reconstitueacutee agrave partir d

1 W+Y+02X pour le c

π 0 minusπ

de la table des couleurs dite HSV de Matlab (lineacuteaire agrave gauche) orimeacutetrique HSL (Hue Saturation Luminance agrave droite)

imultaneacutement angles et pertinence il eacutetait donc neacutecessaire on Crsquoest le deacutecoupage freacutequentiel qui a eacuteteacute mis de cocircteacute pour s un plan temps-angles les pertinences Celles-ci sont eau de gris des points soit par leur taille

de la pertinence des angles de la scegravene agrave 4 sources dont 1 mobile e les trames en ordonneacutees les angles en degreacute) La pertinence he par lrsquointensiteacute du bleu et agrave droite par la taille des points

drsquoeacutecoute

un indice preacutecis de reacutesultat mais lrsquoeacutecoute est tout de mecircme r la qualiteacute globale de la synthegravese Plusieurs modes drsquoeacutecoute i lrsquoeacutecoute au casque est la plus aiseacutee Une pseudo-steacutereacuteo est es signaux du 1er ordre1 pour restituer les scegravenes restreintes au

anal gauche et W-Y+02X pour le canal droit

Chapitre 2 Analyser un contenu HOA 20

plan horizontal Pour plus de preacutecision agrave la restitution ou pour des scegravenes en 3D et sans perdre la faciliteacute drsquoune eacutecoute personnelle au casque on peut appliquer des filtres HRTF (Head-Related Transfert Function) pour une reproduction binaurale

Pour appreacutecier pleinement la spatialisation la diffusion sur un systegraveme multi

haut-parleurs est indispensable Deux systegravemes sont installeacutes dans le laboratoire de France Teacuteleacutecom un systegraveme 51 et un systegraveme circulaire de 48 haut-parleurs Ces systegravemes installeacutes dans des studios insonoriseacutes offrent une grande qualiteacute drsquoeacutecoute qui permet de repeacuterer les deacutefauts mecircme minimes de la synthegravese

21

Chapitre 3

Description des analyses

31 Deacutetermination des directions principales

311 Base des algorithmes Nous avons deacuteveloppeacute plusieurs algorithmes reacutepondant aux diffeacuterents objectifs

deacutecrits plus haut Chacun drsquoeux possegravede des particulariteacutes leur permettant de reacutepondre agrave ces objectifs mais on trouve neacuteanmoins une partie commune Ainsi toutes les analyses reposent sur le mecircme modegravele drsquoapplication drsquoune ACP par sous-bandes dont voici le scheacutema geacuteneacuteral

Figure 31 - Scheacutema geacuteneacuteral drsquoanalyse

Les signaux en entreacutee sont les composantes HOA W X et Y dans la plupart des

cas mais peuvent ecirctre eacutegalement des composantes drsquoordre plus eacuteleveacute (voir 11) Sur le fenecirctrage jouent plusieurs paramegravetres comme la taille de la fenecirctre ou encore le pourcentage de recouvrement entre elles Nous avons choisi une fenecirctre en racine de la fenecirctre de Hanning crsquoest-agrave-dire une arche de sinusoiumlde (voir eacutequation (D7) en Annexe D) avec un recouvrement de 50 ce qui veacuterifie le critegravere de reconstruction parfaite (D6) Le filtrage est pour des raisons de rapiditeacute de calcul reacutealiseacute dans le domaine freacutequentiel par une simple multiplication avant de repasser en temporel pour appliquer lrsquoACP

Le banc de filtre utiliseacute est un banc inspireacute des filtres ERB Les filtres ERB

(Equivalent Regular Bandwidth) sont des filtres imitant le comportement de seacuteparation freacutequentielle de lrsquooreille humaine plus preacutecise en basse freacutequence Les filtres utiliseacutes ici ne sont pas directement des filtres ERB le systegraveme nrsquoa pas drsquointeacuterecirct particulier agrave essayer de copier le fonctionnement de lrsquooreille humaine Ces filtres ont eacuteteacute adapteacutes au problegraveme en

Chapitre 3 Description des analyses 22

srsquoassurant en particulier de la finesse des bandes permettant la meilleure discrimination des diffeacuterentes sources crsquoest-agrave-dire autour des fondamentales usuelles (200-1000 Hz) et des harmoniques Les freacutequences aigueumls sont bien discrimineacutees par les filtres ERB (relativement agrave la gamme crsquoest-agrave-dire en eacutechelle logarithmique) le deacutecoupage a donc surtout eacuteteacute densifieacute entre 200 et 800 Hz par rapport aux bandes ERB

Figure 32 - Filtres utiliseacutes inspireacutes des filtres ERB repreacutesenteacutes lineacuteairement (en haut)

et sur une eacutechelle logarithmique (en bas) Les reacutesultats de lrsquoACP sont donc avec cette meacutethode les angles des sources

trouveacutees dans chaque sous-bande ainsi que pour chacun drsquoeux un critegravere de pertinence calculeacute en fonction de lrsquoeacutenergie de la sous-bande dans une fenecirctre donneacutee et de la norme relative de la premiegravere composante de lrsquoACP (voir 342) Les autres vecteurs propres peuvent ecirctre utiliseacutes pour extraire davantage drsquoinformations et mecircme des signaux deacutecorreacuteleacutes comme on le verra au paragraphe 35 mais lrsquoanalyse semble alors moins robuste Srsquoen tenir aux informations donneacutees par la composante principale est un gage de pertinence suppleacutementaire

Ces reacutesultats concernent donc les sources preacutedominantes ou principales mais

laissent de cocircteacute un certain nombre drsquoeacuteveacutenements sonores agrave consideacuterer

312 Traitement du champ reacutesiduel Le champ reacutesiduel regroupe en quelque sorte tout ce qui nrsquoest pas une source

principale Il inclut donc les reacuteflexions et la reacuteverbeacuteration de la piegravece mais aussi les bruits parasites occasionnels ou continus (ventilation etc) Ces bruits ou eacutechos nrsquoont pas de direction de provenance assez distincte pour pouvoir ecirctre mesureacutee preacuteciseacutement Le champ reacutesiduel est eacutegalement composeacute du champ diffus La notion de champ diffus est couramment utiliseacutee mais rarement preacuteciseacutement deacutefinie On trouve dans la litteacuterature des deacutefinitions diverses lrsquoune drsquoelles preacutecisant qursquoil serait un ensemble drsquoeacuteveacutenements sonores proches en temps et provenant de directions eacutequiprobables

Les algorithmes proposeacutes traitent correctement les sources principales mais le

champ reacutesiduel est laisseacute de cocircteacute Il est pourtant tregraves important pour lrsquoimmersion du sujet dans la scegravene une scegravene deacutepourvue de champ sonore sera perccedilue comme artificielle ce qui nuit agrave la perception drsquoespace On sera par exemple davantage conscients drsquoecirctre au centre drsquoun dispositif expeacuterimental et moins sensibles aux variations de profondeur et de perspectives

31 Deacutetermination des directions principales 23

Neacuteanmoins il faut relativiser lrsquoimportance de ce champ reacutesiduel il nrsquoest pas utile pour la localisation des sources principales et ne caracteacuterise que lrsquoenvironnement drsquoenregistrement En outre le champ reacutesiduel qui provient souvent de directions floues et notre but nrsquoest pas de les preacuteciser artificiellement Il nrsquoest degraves lors geacuteneacuteralement pas utile de le transmettre aux ordres eacuteleveacutes

Ainsi certains auteurs [Merimaa and Pulkki 2005] ont choisi de recreacuteer lors drsquoune

synthegravese un champ diffus artificiel baseacute sur une reacuteponse impulsionnelle de salle calculeacutee agrave lrsquoavance Lrsquoavantage est une immersion un enveloppement complets lrsquoinconveacutenient est que lrsquoambiance ainsi recreacuteeacutee est fictive et arbitraire et en outre complegravetement indeacutependante de lrsquoambiance initiale en laissant notamment de cocircteacute les sources secondaires

Nous proposons dans nos algorithmes de ne pas syntheacutetiser le champ diffus aux

ordres eacuteleveacutes mais de nous contenter de la description du champ reacutesiduel fourni par les ordres transmis (1er ordre dans nos exemples) Nous nous limiterons donc agrave preacuteciser par la synthegravese des ordres supeacuterieurs les positions des sources principales

32 Extension agrave la 3D Nous avons pour le moment eacutevoqueacute le cas de repreacutesentations de champ sonore agrave

2 dimensions crsquoest-agrave-dire issus de sources placeacutees dans le plan horizontal Mais certaines repreacutesentations comportent eacutegalement des composantes verticales Pour analyser ces signaux en 3 dimensions il faut inteacutegrer la composante Z On effectue alors simplement une ACP sur X Y Z et W Le 1er vecteur propre sera alors bien dirigeacute dans lrsquoespace (X Y Z) dans la direction de la source lrsquoambiguiumlteacute de frac12 espace eacutetant leveacutee par W

Lrsquoalgorithme est alors complegravetement similaire agrave celui analysant des signaux en 2

dimensions Des tests ont eacuteteacute reacutealiseacutes agrave partir de signaux syntheacutetiques pour lesquels les positions des sources eacutetaient connues pour des raisons pratiques aucune scegravene sonore reacuteelle en 3 dimensions nrsquoa pu ecirctre enregistreacutee avec une connaissance initiale preacutecise des positions des sources

Les visualisations et les eacutecoutes eacutetant plus deacutelicates en 3D et lrsquoextension agrave la 3D

eacutetant immeacutediate nous avons donc concentreacute nos efforts sur lrsquoanalyse de scegravenes en 2D En outre en lrsquoabsence de dispositif spheacuterique ou heacutemispheacuterique de haut-parleurs le seul moyen agrave notre disposition pour eacutecouter une scegravene 3D est lrsquoeacutecoute binaurale crsquoest-agrave-dire au casque avec des fonctions de transfert de tecircte (HRTF) relativement bien adapteacutees agrave lrsquoauditeur

33 Analyse aux ordres supeacuterieurs

331 Description Afin drsquoameacuteliorer la preacutecision de lrsquoanalyse nous avons essayeacute drsquoappliquer une ACP

sur des signaux ambisoniques drsquoordre plus eacuteleveacute (signaux HOA) dans le plan horizontal Deux meacutethodes ont eacuteteacute essayeacutees

Chapitre 3 Description des analyses 24

La premiegravere consiste agrave appliquer une ACP agrave 3 dimensions successivement sur les composantes X Y W (ordre 1 et 0) puis U V W (ordre 2 et 0) et ainsi de suite crsquoest-agrave-dire (en utilisant la notation geacuteneacuterale) sur les composantes et W (ordre m et 0) Les reacutesultats de ces analyses (les directions des 1

)1(0mY )1(

0minus

mYegraveres composantes) sont ensuite regroupeacutees

lrsquoanalyse de lrsquoordre 1 fournissant des reacutesultats modulo 2π lrsquoanalyse de lrsquoordre 2 des reacutesultats plus preacutecis mais modulo π et plus geacuteneacuteralement lrsquoanalyse de lrsquoordre m permettant de trouver des angles modulo mπ2

La limite de cette approche se perccediloit lors de la fusion des reacutesultats les angles

trouveacutes agrave un ordre eacuteleveacute sont plus preacutecis dans des bandes de freacutequences eacuteleveacutees mais la limitation theacuteorique de ces signaux HOA dans les basses freacutequences font que lrsquoanalyse de lrsquoordre 1 reste la plus pertinente dans les premiegraveres bandes Parvenir agrave deacuteterminer agrave partir de quelle freacutequence on peut faire davantage confiance agrave lrsquoordre n+1 qursquoagrave lrsquoordre n nrsquoest pas aiseacute et cette limite provoque des aberrations dans les angles trouveacutes Une source unique pourra par exemple ecirctre interpreacuteteacutee par lrsquoalgorithme des k-moyennes (voir 341) comme 2 sources une en hautes freacutequences et une en basses freacutequences les 2 eacutetant trouveacutes agrave 2 angles diffeacuterents chaque angle relevant drsquoun ordre analyseacute diffeacuterent

La deuxiegraveme meacutethode consiste pour eacuteviter cette fusion des reacutesultats agrave effectuer

une seule ACP sur les composantes U V X Y et W Cette meacutethode souffre drsquoune tregraves grande complexiteacute algorithmique pour une ameacutelioration de la preacutecision peu sensible En effet si cette meacutethode permet drsquoobtenir des reacutesultats plus preacutecis dans certaines bandes de freacutequences elle est sensible aux deacutefauts et les limites des ordres supeacuterieurs (lrsquoabsence de basses freacutequences entre autres) perturbent lrsquoanalyse en composantes principales

332 Illustration sur une scegravene virtuelle La scegravene preacutesenteacutee ici est une scegravene artificielle crsquoest-agrave-dire composeacutee de sons

placeacutes artificiellement agrave diverses positions Elle a une dureacutee totale de 135 s et comporte 4 sources positionneacutees dans le plan horizontal une guitare placeacutee agrave 45deg une basse agrave -70deg une batterie agrave 110deg et une voix feacuteminine qui effectue continucircment un tour complet dans le sens indirect en partant de lrsquoarriegravere (elle passe donc successivement par les positions 180deg 90deg 0deg -90deg et -180deg) La guitare et la batterie srsquoarrecirctent peu avant la fin de la scegravene (12egraveme seconde au 910egraveme du son approximativement)

Figure 33 - Position des sources de la scegravene de test agrave 4 sources dont 1 mobile

33 Analyse aux ordres supeacuterieurs 25

Figure 34 - Angles drsquoune scegravene virtuelle ayant 1 source mobile et 3 sources fixes

(deacutecrite en 332) trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 Pour chaque trame (en abscisse) 20 angles (1 par bande en ordonneacutee et en degreacutes) sont

reporteacutes le diamegravetre du point correspondant agrave un critegravere de pertinence (voir 342)

Figure 35 - Angles de la mecircme scegravene trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 2 Reacutesultats modulo π reacutepliqueacutes pour faciliter la comparaison avec la figure preacuteceacutedente On remarque que les lignes sont plus nettes qursquoil y a moins drsquoangles aberrants et que

les angles corrects sont plus marqueacutes (ils sont deacutetermineacutes comme plus pertinent)

Chapitre 3 Description des analyses 26

20

0

20

0

20

0

Figure 36 - Angles drsquoune scegravene reacuteelle constitueacutee drsquoun bruit parcourant le cercle trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 (en haut) 0 et 2 (au milieu) et 0 et 4 (en bas) Le

numeacutero de trame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On retrouve qursquoune limitation des ordres HOA supeacuterieurs issus drsquoun enregistrement

microphonique est la restitution des basses freacutequences

34 Traitement des donneacutees

341 Algorithme des k-moyennes Agrave lrsquoissue de lrsquoanalyse en composantes principales on reacutecupegravere avec la premiegravere

des meacutethodes exposeacutees au chapitre preacuteceacutedent des angles correspondants aux positions des sources preacutedominantes agrave raison drsquoune valeur par fenecirctre et par bande de freacutequence Il faut agrave partir de ces donneacutees parvenir agrave isoler les sources crsquoest-agrave-dire agrave deacuteterminer quels sont les angles pertinents et examiner quels sont ceux qui agrave une certaine toleacuterance pregraves sont preacutesents dans plusieurs bandes de freacutequence etou plusieurs fenecirctres temporelles

Pour pouvoir exploiter ces donneacutees spatiales nous avons utiliseacute lrsquoalgorithme des

k-moyennes (ou k-means) [MacQueen 1967] sur les angles pondeacutereacutes par des critegraveres de pertinence Cet algorithme fonctionne de la maniegravere suivante

Initialisation choix de k barycentres (les k moyennes) Reacutepeacuteter Associer chaque eacuteleacutement au barycentre le plus proche Recalculer les positions des barycentres Jusqursquoagrave ce que les barycentres soient stables (ou au bout de t iteacuterations)

34 Traitement des donneacutees 27

Lrsquoavantage de cet algorithme est drsquoecirctre peu glouton puisqursquoil converge en O(tkn) ougrave t est le nombre drsquoiteacuterations k le nombre de centres et n le nombre de points (geacuteneacuteralement on a t k ltlt n) Par contre il est plutocirct sensible aux exceptions un point aberrant tirera agrave lui la moyenne auquel il aura eacuteteacute associeacute Il faut donc faire en sorte que ces points erroneacutes soient aussi rares que possibles Crsquoest pourquoi les angles traiteacutes sont pondeacutereacutes par 2 critegraveres de pertinence

La pondeacuteration des angles fournis en entreacutee de lrsquoalgorithme des k-moyennes se

fait de maniegravere simple en reacutepeacutetant ces angles un nombre de fois (de 0 agrave 10) proportionnel agrave un critegravere Ainsi un angle tregraves pertinent sera dupliqueacute et sera preacutesent plusieurs fois dans la liste des donneacutees traiteacutees attirant ainsi agrave lui la position du barycentre le plus proche Au contraire un angle trop peu pertinent ne sera pas reacutepeacuteteacute voir mecircme sera enleveacute de la liste

Le seul problegraveme de cet algorithme est qursquoil neacutecessite la connaissance de k crsquoest-

agrave-dire du nombre de sources qui composent la scegravene Une deacutetermination automatique se basant sur la reacutepeacutetition de lrsquoalgorithme avec un k croissant a eacuteteacute testeacutee mais le critegravere drsquoarrecirct reposant sur la dispersion des points autour des barycentres nrsquoeacutetant pas assez robuste cette meacutethode a provisoirement eacuteteacute mise de cocircteacute

342 Critegraveres de pertinence Les 2 critegraveres de pondeacuteration choisis sont lrsquoeacutenergie de la sous-bande dans la

fenecirctre donneacutee et le rapport de la norme de la 1egravere composante (la composante principale) de lrsquoACP sur la somme des normes de toutes les composantes

En effet un angle est trouveacute dans chaque sous-bande de chaque fenecirctre mecircme si

le signal y est tregraves faible Lrsquoangle trouveacute sera alors tregraves peu repreacutesentatif de la direction drsquoune source puisqursquoil indiquera la direction drsquoun bruit Lrsquoeacutenergie doit donc ecirctre prise en compte pour ne conserver que les angles trouveacutes dans des bandes comportant un signal suffisant

La norme relative de la 1egravere composante de lrsquoACP rend quant agrave elle compte du

poids relatif de cette composante par rapport aux autres Ainsi si 2 sources sont preacutesentes dans une bande donneacutee la 1egravere composante sera agrave peine plus marqueacutee que la 2egraveme Ceci peut ecirctre calculeacute en prenant simplement le rapport de la 1egravere valeur propre sur la somme des valeurs propres

On peut noter que la norme de la 1egravere composante ne se deacutetache nettement que

lorsqursquoun son est preacutesent dans la bande consideacutereacutee On peut alors se demander si lrsquoeacutenergie doit ecirctre prise en compte ou si lrsquoinformation qursquoelle contient nrsquoest comprise dans le 2egraveme critegravere En fait la norme relative est un critegravere tregraves bruiteacute et consideacuterer lrsquoeacutenergie par ailleurs permet de nuancer ces artefacts et constitue une base solide de pondeacuteration

Chapitre 3 Description des analyses 28

80

40

0

Figure 37 - Repreacutesentation temps-freacutequence des angles du son deacutecrit en 332 Letrame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On peut donc v

par trame et par bande chacun eacutetant le reacutesultat drsquoune ACP crsquoest-agrave-dire la 1egravere

Figure 38 - Eacutenergie de ce mecircme son On peut voir une basse en notes tenues uneet une batterie qui produit des sons secs dans un spectre plus aigu

80

40

0

80

40

0

Figure 39 - Norme relative de la 1egravere composante de ce mecircme son Les impacts de batterie (dans lrsquoaigu) ressortent davantage

π 0 minusπ

numeacutero de oir un angle direction

voix aiguumle

34 Traitement des donneacutees 29

Figure 310 - Pondeacuteration appliqueacutee agrave lrsquoentreacutee des k-moyennes calculeacutee ici comme

le simple produit de lrsquoeacutenergie et de la norme relative

80

40

0

343 Lissages

Pour faire face au bruit ineacutevitable dans les reacutesultats il faut lisser les donneacutees Ces

lissages temporels correspondent agrave des hypothegraveses de stabiliteacute des sources qui sont supposeacutees ecirctre fixes ou mobiles relativement lentement (dans une mesure agrave parameacutetrer)

Un premier lissage peut ecirctre opeacutereacute avant le traitement par lrsquoalgorithme des k-

moyennes Le filtre choisi est un filtre meacutedian de maniegravere agrave eacuteliminer les points aberrants tout en conservant les vraies valeurs des points coheacuterents Ce lissage est appliqueacute sur chaque sous-bande aux angles et ne tient pas compte des critegraveres de pertinence Il est donc utiliseacute avec parcimonie et peut mecircme ecirctre eacuteviteacute en reacuteglant de maniegravere adeacutequate les critegraveres de pondeacuteration agrave lrsquoentreacutee des k-moyennes

Le deuxiegraveme lissage srsquoeffectue agrave lrsquoentreacutee des k-moyennes en mecircme temps que les

critegraveres de pondeacuteration Il consiste agrave appliquer les k-moyennes non pas sur une fenecirctre donneacutee mais sur plusieurs fenecirctres conseacutecutives anteacuterieures et posteacuterieures en donnant plus de poids agrave la fenecirctre courante Dans la pratique les poids donneacutes aux diffeacuterentes fenecirctres sont eacutetablis par une gaussienne centreacutee sur la fenecirctre courante et de largeur agrave deacuteterminer (en fonction notamment de la dureacutee drsquoune fenecirctre et du type de scegravene analyseacute)

35 Exploitation de toutes les composantes de lrsquoACP Les analyses preacutesenteacutees preacuteceacutedemment ont toutes exploiteacute uniquement la

composante principale extraite par lrsquoACP Or cette analyse fournit des informations plus complegravetes par lrsquointermeacutediaire des autres composantes dont on peut tirer parti pour isoler plusieurs sources au sein drsquoune mecircme bande Cette approche est toujours en deacuteveloppement dans ce stage et nrsquoa pas encore donneacute pleine mesure des reacutesultats qursquoelle laisse entrevoir

Les composantes de lrsquoACP indiquent des directions qui correspondent aux

diffeacuterentes sources composant la scegravene sonore Les vecteurs propres de la matrice de correacutelation donnent ainsi les combinaisons lineacuteaires des signaux HOA permettant de

Chapitre 3 Description des analyses 30

seacuteparer de la meilleure faccedilon possible ces sons Ces directions peuvent ecirctre alors utiliseacutees pour former des directiviteacutes isolant au mieux ces sources

aBS sdot= (31)

ougrave la matrice a contient les vecteurs propres de la matrice de correacutelation (voir Annexe C) le vecteur B contient les signaux HOA et le vecteur S contient les sources extraites

⎟⎟⎟

⎜⎜⎜

=⎟⎟⎟

⎜⎜⎜

⎛=

⎥⎥⎥

⎢⎢⎢

⎟⎟⎟

⎜⎜⎜

⎟⎟⎟

⎜⎜⎜

⎛=

10

1001

1

ML

N

B

BB

S

SSuua MML (32)

On obtient ainsi des lobes drsquoautant plus eacutetroits que lrsquoordre est eacuteleveacute chacun

dirigeacute vers une source et permettant de lrsquoisoler le plus possible des contributions des autres sources La Figure 311 preacutesente les directiviteacutes ainsi trouveacutees par une ACP en pleine bande Une analyse en sous-bande permet une plus grande distinction des sources mais une seacuteparation diffeacuterente entre les bandes est dangereuse car elle risque de dissocier spatialement plusieurs parties drsquoun mecircme son

Figure 311 - Directiviteacutes seacuteparant ideacutealement 4 sources placeacutees agrave 17 73 195 et -58deg

pour une scegravene virtuelle encodeacutee agrave lrsquoordre 4 Ce principe se heurte neacuteanmoins aux limites de seacuteparation lieacutees agrave lrsquoordre

drsquoencodage en effet 2 sources ne pourront pas ecirctre seacutepareacutees si elles sont trop proches comme en teacutemoigne la largeur des lobes principaux Les lobes secondaires traduisent eacutegalement un meacutelange des sources isoleacutees La figure ci-dessus montre ainsi que la source placeacutee agrave 17deg (en vert) sera preacutesente de maniegravere non neacutegligeable dans le signal senseacute contenir la source placeacutee agrave -58deg (en bleu) en raison du lobe secondaire bleu important

31

Chapitre 4

Reacutesultats et applications

41 Illustration et critique des reacutesultats obtenus

411 Avant-propos Sans notification particuliegravere les reacutesultats preacutesenteacutes ont eacuteteacute obtenus avec un pas

de 50 ms une analyse en 80 bandes avec une FFT sur 8192 points Une taille de FTT plus grande et un plus grand nombre de bande augmente la qualiteacute de lrsquoanalyse un pas plus petit ameacuteliore sa preacutecision temporelle mais les reacutesultats sont moins fiables et un lissage plus important srsquoimpose alors Ces paramegravetres ont eacuteteacute reacutegleacutes apregraves de multiples essais sur des scegravenes diverses

Les reacutesultats sont preacutesenteacutes ici uniquement sous la forme de graphiques nous ne

pouvons donc repreacutesenter que les angles trouveacutes agrave la sortie de lrsquoalgorithme des k-moyennes

412 Scegravene 2D artificielle agrave 4 sources fixes La premiegravere scegravene est une scegravene artificielle composeacutee de 4 sons fixes placeacutes agrave -70

-10 45 et 110deg Ces sons (une basse une voix une guitare et une batterie) ont eacuteteacute choisis pour leur varieacuteteacute spectrale et leur varieacuteteacute drsquoattaque Elle a en outre le meacuterite drsquoecirctre reacutealiste et de constituer une seacutequence musicale (chaque son nrsquoest pas une meacutelodie indeacutependante)

On voit sur la Figure 41 ci-dessous que les angles trouveacutes sont proches des

angles theacuteoriques Lrsquoun des sons (agrave 45deg) est quasiment nul avant la 100egraveme trame sa position est alors moins facile agrave deacuteterminer plus preacuteciseacutement une position approximative est trouveacutee et correspondrait exactement agrave la position du bruit (45deg) si lrsquoincertitude de mesure tregraves grande pour un son aussi faible ne rendait la deacutetermination si ardue On mesure un eacutecart-type de 22deg sur cet exemple (en excluant le deacutebut du son agrave 45deg)

Chapitre 4 Reacutesultats et applications 32

Figure 41 - Angles theacuteoriques (en pointilleacutes rouge) et calculeacutes (en trait bleu) pour une scegravene

constitueacutee de 4 sons fixes longue de 11s

413 Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile

Figure 42 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) de la scegravene agrave

4 sources dont 1 mobile deacutecrite en 332 Cette scegravene est deacutecrite en 332 On a ici demandeacute aux k-moyennes de renvoyer 5 barycentres par trame alors que

seules 4 sources eacutetaient preacutesentes dans le but de se garantir une marge vis-agrave-vis des erreurs de deacutetection Cette 5egraveme direction nrsquoest pas du tout gecircnante elle indique une direction qui ne contient pas de source et crsquoest donc un son tregraves faible qui est ainsi pointeacute Apregraves une eacuteventuelle extraction le signal ne sera donc pas du tout gecircnant

41 Illustration et critique des reacutesultats obtenus 33

On peut remarquer que quand le son mobile se rapproche drsquoun son fixe la deacutetection est moins bonne il y a une fusion entre les 2 sons Mais encore une fois lors de lrsquoextraction lrsquoisolation drsquoun des sons englobera lrsquoautre son ce qui ne posera pas de problegraveme pour les objectifs fixeacutes aucune source nrsquoeacutetant oublieacutee En effet la seacuteparation de sources nrsquoest pas un objectif ici mais un moyen pour preacuteciser les positions des sources ce qui sera fait correctement mecircme si 2 sources sont pointeacutees par 1 seule direction

414 Scegravene 3D artificielle agrave une source et bruit de fond

La scegravene dont la position drsquoune source a eacuteteacute extraite ci-dessous est une scegravene virtuelle en 3D constitueacute drsquoun son (une voix) qursquoon a fait se deacuteplacer par paliers tout drsquoabord vers le haut de 0deg agrave 45deg et vers la gauche de 0deg agrave 90deg puis redescendre jusqursquoagrave 35deg en continuant son cheminement vers la gauche jusqursquoagrave 120deg et enfin finir la descente de 35deg agrave 0deg en la laissant agrave 120deg Agrave cette source a eacuteteacute superposeacutee une ambiance spatialiseacutee de hall drsquoaeacuteroport initialement enregistreacutee en 2D (au format 51) mais transformeacutee pour contenir des composantes verticales Cette ambiance deacutecorreleacutee de la source avait pour but de tester la robustesse de lrsquoanalyse Elle eacutetait agrave 15 dB en-dessous du niveau de la voix

Figure 43 - Azimut et eacuteleacutevation theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun

son en 3D artificiel de 9s placeacute dans une ambiance bruyante On remarque que lrsquoanalyse est tregraves correcte Il nrsquoy a pas drsquoeacutecart important entre

les angles theacuteoriques et ceux calculeacutes On note toutefois que le lissage agrave lrsquoentreacutee des k-moyennes a pour effet de gommer les creacuteneaux et drsquoaplatir quelque peu la courbe drsquoeacuteleacutevation ceci nrsquoest pas vraiment gecircnant car de tels sauts dans la position drsquoune source ne sont pas du tout reacutealistes (ils peuvent caracteacuteriser des bruits de pas mais de tels impacts sont courts et on peut srsquoattendre agrave ce que la courbe suive leur position aux instants ougrave ils sont eacutemis)

Chapitre 4 Reacutesultats et applications 34

415 Scegravene 2D naturelle agrave une source Les scegravenes naturelles sont on lrsquoa vu plus deacutelicates agrave exploiter car on ne peut pas

garantir la preacutecision de la position theacuteorique agrave retrouver par le calcul et on ne peut donc pas calculer la preacutecision de lrsquoanalyse Seuls les enregistrements utilisant la table tournante (voir 232) permettent une mesure preacutecise de la position de lrsquoangle Ces enregistrements on pu confirmer la validiteacute de lrsquoanalyse pour des scegravenes reacuteelles on trouve ici un eacutecart-type de 25deg

Figure 44 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun bruit blanc

tournant autour du micro enregistreacute en chambre sourde Cette analyse a eacuteteacute reacutealiseacutee par sous-bandes mais sur une eacutetendue freacutequentielle

plus reacuteduite puisqursquoon srsquoest limiteacute aux possibiliteacutes offertes par le microphone La scegravene a donc eacuteteacute analyseacutee de 200 agrave 10 000 Hz

42 Quelques applications

421 Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre 2 agrave partir de lrsquoordre 1

Une fois les positions des sources connues la porte est ouverte agrave de nombreuses

applications La connaissance de ces positions permet en effet de syntheacutetiser artificiellement des composantes manquantes ou non transmises La premiegravere synthegravese deacuteveloppeacutee est celle des signaux U et V composant la partie horizontale de lrsquoordre 2 agrave partir de lrsquoordre 1 et de paramegravetres issus de lrsquoanalyse pour une source en 2D (des angles dans de cas)

42 Quelques applications 35

Figure 45 - Principe de lrsquoameacutelioration de la preacutecision spatiale

Le principe de la synthegravese est drsquoextraire les sources originales agrave partir de W X Y

et des angles (un angle par trame et par sous-bande) Ceci peut ecirctre reacutealiseacute de maniegravere approcheacutee en deacutecodant lrsquoordre 1 dans les directions des sources Ce deacutecodage revient agrave calculer les signaux qui devraient alimenter des haut-parleurs qui seraient placeacutes agrave ces positions dans le cas drsquoune restitution (voir 122) crsquoest-agrave-dire agrave former des directiviteacutes dans les directions des sources Dans la plupart des cas ce deacutecodage qui fait intervenir une pseudo-inversion de Moore-Penrose (111) est imparfait les sources se retrouvant leacutegegraverement meacutelangeacutees On peut comparer cette seacuteparation agrave celle que ferait un ensemble de microphones agrave directiviteacute hypercardioiumlde coiumlncidents

Figure 46 - Directiviteacutes eacutequivalentes agrave la seacuteparation de 4 sources agrave lrsquoordre 1 Ces sources seacutepareacutees vont ensuite constituer toujours placeacutees aux angles

deacutetermineacutes agrave lrsquoanalyse une scegravene virtuelle qursquoon va encoder agrave lrsquoordre 2 De cet encodage on ne conservera que les signaux manquants dans notre exemple les signaux du 2nd ordre U et V Ainsi la scegravene spatialiseacutee sera au final constitueacutee des signaux W X et Y drsquoorigine (transmis) et des signaux U et V syntheacutetiseacutes

Chapitre 4 Reacutesultats et applications 36

422 Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave partir de W Reconstruire une scegravene sonore spatialiseacutee agrave partir drsquoun unique canal mono est

alors difficile et le reacutesultat nrsquoest appreacuteciable que pour des scegravenes simples Il faut pour cela que les diffeacuterentes sources composant cette scegravene aient des supports spectraux aussi distincts que possible Les diffeacuterentes sous-bandes sont alors placeacutees agrave un certain angle transmis en parallegravele et crsquoest cette scegravene reconstitueacutee qui va ecirctre encodeacutee au 1er ordre de maniegravere agrave recreacuteer les signaux X et Y

Figure 47 - Principe de la restitution de lrsquoordre 1 agrave partir du signal mono W Ce scheacutema rappelle une meacutethode deacuteveloppeacutee dans le cas steacutereacuteo appeleacutee BCC

(Binaural Cue Coding) [Faller and Baumgarte 2002] Le principe est drsquoextraire et coder des informations permettant la reconstruction binaurale drsquoun signal agrave savoir les diffeacuterences interaurales drsquointensiteacute et de temps (Interaural LevelTime Difference ILD et ITD) qui correspondent dans le cas drsquoune restitution sur un casque aux diffeacuterences drsquointensiteacute et de temps inter-canal (Inter-Channel LevelTime Difference ICLD et ICTD) qui sont mesureacutees agrave partir drsquoune analyse en sous-bandes Les auteurs y ont plus reacutecemment associeacute un indice de correacutelation interaurale mesureacute agrave partir de la correacutelation inter-canal (ICC) afin de caracteacuteriser la preacutecision spatiale (la ldquolargeurrdquo drsquoune source)

Figure 48 - Scheacutema de principe de la meacutethode BCC [Faller and Baumgarte 2003]

On observe en pratique des deacutefauts lieacutes agrave la brutaliteacute de la proceacutedure une sous-

bande ne peut ecirctre que placeacutee agrave la position indiqueacutee et ne peut pas rester floue diffuse ou encore ecirctre placeacutee agrave plusieurs endroits Pour y remeacutedier nous avons ajouteacute 2 traitements agrave la synthegravese Tour drsquoabord nous avons appliqueacute un leacuteger lissage soulageant les effets deacutesagreacuteables dus au saut du contenu drsquoune sous-bande drsquoun endroit agrave un autre entre de 2 fenecirctres conseacutecutives Les positions varient alors de faccedilon plus souple au sein drsquoune mecircme sous-bande traduisant une hypothegravese de continuiteacute spatiale (pas de deacuteplacement brusque) La contrepartie est que cette hypothegravese est lieacutee agrave une hypothegravese de continuiteacute spectrale

42 Quelques applications 37

La 2egraveme ameacutelioration concerne le positionnement des sources En incluant dans la transmission un critegravere de pertinence on peut savoir srsquoil est raisonnable de placer une sous-bande agrave un angle preacutecis ou bien si lrsquoanalyse eacutetait flou agrave son sujet auquel cas un positionnement impreacutecis serait preacutefeacuterable Le paramegravetre choisi est une combinaison des critegraveres eacutevoqueacutes en 342 il nous permet de placer la sous-bande de maniegravere plus ou moins prononceacutee

43 Comparaison avec une meacutethode existante Certains auteurs ont deacutejagrave essayeacute drsquoanalyser un contenu ambisonique pour

retrouver les positions des sources Ville Pulkki a ainsi deacutecrit dans [Pulkki and Faller 2006] une meacutethode drsquoanalyse du B-format baseacutee sur lrsquoeacutetude des amplitudes des signaux W X Y et Z

Figure 49 - X et Y dans le cas drsquoune sinusoiumlde placeacutee agrave 15deg (agrave gauche) et 120deg (agrave droite)

Les figures ci-dessus montrent les relations drsquoamplitudes (algeacutebriques) qui relient

X et Y agrave lrsquoangle de la source On voit que lrsquoanalyse de ces amplitudes respectives permet de retrouver la position de la source en effet on a pour une source unique les relations de lrsquoeacutequation (11) rappeleacutee ici

⎪⎪

⎪⎪

=

=

=

=

δ

δθ

δθ

sin2

cossin2

coscos2

SZ

SY

SX

SW

(41)

On peut donc theacuteoriquement retrouver les valeurs de θ et δ par relations

trigonomeacutetriques Ainsi on a

⎪⎪⎩

⎪⎪⎨

=

=

2)sin(

)tan(

WZ

XY

δ

θ (42)

Chapitre 4 Reacutesultats et applications 38

On peut donc trouver les angles θ et δ agrave π pregraves Pour lever lrsquoambiguiumlteacute une eacutetude de signe est neacutecessaire Mais dans le cas de θ le signe de X et de Y agrave δ fixeacute deacutepend aussi bien de θ que S Il faut srsquointeacuteresser aux signes de θcos et θsin crsquoest-agrave-dire

aux signes de WX et

WY Dans la pratique on srsquointeacuteressera aux signes de et

pour se preacutevenir des divisions par zeacuteros

XW sdot YW sdot

XW sdot et YW sdot sont proportionnels agrave toujours positif

2S

Les auteurs deacutecrivent eacutegalement dans leur article un critegravere appeleacute diffuseness qui

peut ecirctre compareacute agrave un critegravere de pertinence inverseacute Ce paramegravetre calculeacute par agrave 1 - R ougrave R est un rapport de normes est tregraves proche du critegravere de norme relative deacutecrit en 342 Il peut donc ecirctre utiliseacute de la mecircme faccedilon et permettre ainsi une pleine comparaison

Cette meacutethode a eacuteteacute impleacutementeacutee pour pouvoir ecirctre compareacutee avec la meacutethode

par ACP Tous les paramegravetres ont scrupuleusement eacuteteacute gardeacutes identiques et plusieurs reacuteglages ont eacuteteacute testeacutes Les courbes ci-dessous preacutesentent les reacutesultats des analyses de la scegravene deacutecrite en 332 avec un pas de 50ms un overlap de 50 un NFFT de 2048 et 40 bandes freacutequentielles Nous avons repreacutesenteacute tous les angles trouveacutes crsquoest-agrave-dire un par bande et par trame pour srsquoaffranchir de la seacutelection des k-moyennes

π

0

minusπ

Figure 410 - Angles trouveacutes par lrsquoalgorithme de [Pulkki and Faller 2006] Le diamegravetre du point correspondant agrave la pertinence

43 Comparaison avec une meacutethode existante 39

π

0

minusπ

Figure 411 - Angles trouveacutes par une ACP pour la mecircme scegravene On remarque que les points excentriques sont moins nombreux et plus rarement trouveacutes comme pertinents

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee

441 Position du problegraveme

Une application directe de ces analyses a eacuteteacute deacuteveloppeacutee pour la confeacuterence audio

spatialiseacutee La confeacuterence audio utilise en effet la spatialisation pour permettre une meilleure seacuteparation par lrsquooreille des diffeacuterents locuteurs Ainsi si plusieurs personnes parlent en mecircme temps il sera tregraves difficile de comprendre chacun individuellement si ces voix sont restitueacutees en mono mais on pourra focaliser lrsquoattention sur chacune drsquoentre elles si elles sont seacutepareacutees spatialement (crsquoest lrsquoeffet cocktail party [Cherry 1953])

Lrsquoobjectif eacutetait de veacuterifier qursquoil eacutetait possible de conserver la spatialisation drsquoune

confeacuterence en nrsquoayant transmis qursquoun downmix mono des signaux Ce concept semble se rapprocher de celui deacutecrit en 422 mais une diffeacuterence fondamentale les seacutepare la confeacuterence audio spatialiseacutee nrsquoest pas codeacutee au format ambisonic mais les signaux traiteacutes sont directement les sons provenant des diffeacuterents locuteurs crsquoest-agrave-dire les sources elles-mecircmes Ainsi lrsquoanalyse ne porte plus sur une scegravene spatialiseacutee mais sur des signaux seacutepareacutes Il nrsquoy a ainsi plus drsquoindices spatiaux agrave trouver

Avoir accegraves aux sources permet drsquoobtenir des informations plus preacutecises pour

permettre une seacuteparation apregraves la transmission Comme nous lrsquoavons vu lrsquoanalyse drsquoune scegravene spatialiseacutee ne permet que dans drsquoultimes cas agrave la seacuteparation des sources ce qui est ici notre point de deacutepart et sera en fait notre point drsquoarriveacutee En effet nous tenterons de retrouver les sources seacutepareacutees apregraves la transmission de maniegravere agrave pouvoir par la suite les spatialiser agrave loisir (voir Figure 413)

Chapitre 4 Reacutesultats et applications 40

442 Solution proposeacutee Les paramegravetres extraits ne sont donc plus des positions de sources Nous avons

choisi de mesurer puis transmettre lrsquoeacutenergie de chaque signal dans chaque sous-bande en parallegravele du downmix En effet une bonne seacuteparation sera possible si lrsquoon sait quelle proportion de chaque source compose chaque sous-bande du signal mono

Figure 412 - Scheacutema de principe drsquoune confeacuterence audio spatialiseacutee

Figure 413 - Scheacutema ameacutelioreacute (deacutebit reacuteduit)

en pointilleacutes informations compleacutementaires (eacutenergie) Lrsquoanalyse en sous-bandes a lieu dans le serveur (Figure 414) Celui-ci calcule

lrsquoeacutenergie de chaque signal dans chaque sous-bande sur une trame donneacutee Crsquoest ce paramegravetre qui associeacute au signal mono M permettra la seacuteparation des sources dans le terminal (Figure 415) Ce dernier reacutepartira en effet les diffeacuterentes sous-bandes vers chaque signal reconstitueacute proportionnellement agrave cette information pour reconstruire les 4 sources originales

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee 41

Figure 414 - Analyse principe de lrsquoencodage dans le serveur

Figure 415 - Synthegravese principe du deacutecodage dans le client

Afin de reacuteduire au maximum les informations compleacutementaires agrave transmettre on

peut remarquer qursquoau cours drsquoune confeacuterence audio on a tregraves souvent un seul locuteur les participants ne parlent que tregraves rarement tous en mecircme temps Ceci implique que les signaux en entreacutee sont tregraves souvent tous nuls sauf 1 et appliquer un seuil en entreacutee de lrsquoanalyse permet outre lrsquoallegravegement du traitement drsquoavoir moins de paramegravetres agrave transmettre

Ce scheacutema simplifieacute ne tient pas compte des problegravemes de phase rien nrsquoindique

que les eacutenergies des signaux srsquoajoutent bien dans chaque sous-bande lors du downmix on peut tregraves bien avoir des oppositions de phase La solution est drsquoeffectuer le downmix (la somme) des signaux dans chaque sous-bande en prenant soin drsquoavoir recaleacute les phases au preacutealable Ceci nrsquoa un sens que pour des bandes suffisamment eacutetroites Les deacutecalages temporels appliqueacutes pour le recalage sont alors des paramegravetres suppleacutementaires agrave transmettre et sont pris en compte lors de la synthegravese au niveau du reacutepartiteur qui repositionnera la phase de chaque trame pour chaque signal

Chapitre 4 Reacutesultats et applications 42

443 Bilan Le reacutesultat du deacutecodage a pu ecirctre eacutecouteacute de diffeacuterentes maniegraveres les sources

reconstitueacutees individuellement ensemble en steacutereacuteo drsquoamplitude et sur un systegraveme 51 On note que les sources ont eacuteteacute assez bien seacutepareacutees mais que des artefacts sont audibles en particulier lorsque le nombre de locuteurs simultaneacutes augmentent Ces artefacts sont un meacutelange des voix qui nrsquoest gecircnant que lorsqursquoon les eacutecoute de maniegravere seacutepareacutee En effet lrsquoeacutecoute simultaneacutee de ces signaux syntheacutetiseacutes mecircme placeacutes agrave des positions distinctes sur un systegraveme de diffusion multicanal est tout agrave fait satisfaisante

Ce proceacutedeacute pour pouvoir ecirctre appliqueacute doit fonctionner en temps-reacuteel Cette

contrainte nrsquoa pas du tout eacuteteacute prise en compte lrsquoobjectif eacutetant de valider la faisabiliteacute drsquoune reconstruction Les programmes sous Matlab nrsquoont pas eacuteteacute optimiseacutes et ne respectent pas cette contrainte

43

Conclusion Nous avons preacutesenteacute dans ce rapport le principe et lrsquoapplication de plusieurs

meacutethodes drsquoanalyses spatiales de scegravenes ambisoniques conccedilues et reacutealiseacutee pendant le stage Le format HOA est en effet une repreacutesentation du champ acoustique deacutecomposeacute sur une base drsquoharmoniques spheacuteriques jusqursquoagrave un certain ordre agrave la maniegravere drsquoun deacuteveloppement limiteacute Il contient donc de maniegravere indirecte des indications spatiales qursquoon peut extraire avec des analyses comme lrsquoanalyse en composantes principales

Ces analyses nous permettent de deacuteterminer les positions des sources qui

composent la scegravene sonore Nous avons appliqueacute les reacutesultats de ces analyses agrave 2 types de synthegravese lrsquoune destineacutee aux transmissions bas deacutebit lrsquoautre agrave un traitement de restitution de la preacutecision spatiale dans le cas ougrave des ordres supeacuterieurs dont le but est drsquoaffiner la perception de localisation nrsquoauraient pas pu ecirctre transmis Ces algorithmes par le codage drsquoinformations spatiales qursquoils permettent pourront trouver bien drsquoautres applications dans la transmission et le codage ougrave la description du contenu est de plus en plus utiliseacutee (comme par exemple dans la norme MPEG)

Des ameacuteliorations sont possibles sur plusieurs points tout drsquoabord lrsquoexploitation

de toutes les composantes de lrsquoACP est agrave lrsquoeacutetude et semble pouvoir donner des reacutesultats inteacuteressants Drsquoautre part on a vu que le reacutesultat final est tregraves deacutependant de la bonne convergence de lrsquoalgorithme des k-moyennes utiliseacute pour traiter les donneacutees brutes de lrsquoanalyse en sous-bandes Or cet algorithme neacutecessite des reacuteglages tregraves fins et une connaissance a priori du nombre de sources est presque indispensable Drsquoautres algorithmes plus complexes de suivi de formes pourraient ecirctre avantageusement utiliseacutes pour deacutetecter dans tous les angles trouveacutes lesquels sont susceptibles de former une trajectoire

45

Annexe A

Deacuteveloppement du champ acoustique en harmoniques spheacuteriques

A1 Eacutequation drsquoonde en coordonneacutees spheacuteriques On se place dans lrsquoespace euclidien agrave 3 dimensions muni drsquoun systegraveme de

coordonneacutees spheacuteriques Un point M y est repeacutereacute par son rayon r son azimut θ et son eacuteleacutevation δ tels que repreacutesenteacutes sur la figure ci-dessous

- r est la norme du vecteur position rr crsquoest-agrave-dire la distance OM - [20[ πθ isin est lrsquoangle formeacute par le projeteacute du point sur le plan xOy et lrsquoaxe Ox

- ]2

2

[ ππδ minusisin est lrsquoangle formeacute par le plan xOy et le vecteur position2

Figure A1 - Systegraveme de coordonneacutees spheacuteriques

2 Cet angle diffegravere de lrsquoangle polaire usuel δπϕ minus=

2 habituellement pris entre lrsquoaxe Oz et le

vecteur position

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 46

Les relations entre les coordonneacutees spheacuteriques et les coordonneacutees carteacutesiennes sont

⎪⎩

⎪⎨

===

δδθδθ

sincossincoscos

zryrx

(A1)

On srsquointeacuteresse dans ce repegravere agrave lrsquoeacutequation de propagation des ondes acoustiques

de pression On se place dans les conditions classiques drsquoacoustique lineacuteaire (les variations de p sont petites par rapport agrave la pression atmospheacuterique) en supposant que lrsquoair est un fluide parfait (on y neacutegligera les pheacutenomegravenes dissipatifs) Dans une reacutegion de lrsquoespace ne comprenant pas de sources lrsquoeacutequation drsquoonde srsquoeacutecrit alors

0)(12

2

2 =⎟⎟⎠

⎞⎜⎜⎝

⎛partpart

minus∆ trptc

r (A2)

p eacutetant la pression et c la vitesse de propagation du son dans lrsquoair

Cette eacutequation devient dans le domaine freacutequentiel lrsquoeacutequation de Helmholtz

( ) 0)(2 =+∆ ωrpk r (A3)

ck ω

= eacutetant le nombre drsquoonde

En coordonneacutees spheacuteriques cette eacutequation srsquoeacutecrit

0sin1sin

sin11 2

2

2

222

2 =⎥⎦

⎤⎢⎣

⎡+

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart pk

rrrr

rr δθθθ

θθ (A4)

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques Drsquoapregraves [Bruneau 1983] elle admet des solutions agrave variables seacutepareacutees de la forme

)()()( δθ ΦΘ= rRp (A5) Ces solutions sont respectivement - pour la partie radiale une combinaison des fonctions de Bessel spheacuteriques de

premiegravere et seconde espegravece3 jn et nn

)()()( krBnkrAjrR nn += (A6) 3 Les fonctions de Bessel spheacuteriques de seconde espegravece sont eacutegalement appeleacutees fonctions de

Neumann

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 47

Ces fonctions sont deacutefinies comme suit

(A7)

Figure A2 - Fonctions de Bessel spheacuteriques pour les ordres 0 agrave 5 )(krjm

- pour la partie azimutale les fonctions )(θΘ

)sin()cos()( 21 θθθ ncnc +=Θ (A8) Eacutetant donneacute la deacutefinition de lrsquoangle Θ celui-ci doit neacutecessairement ecirctre de

peacuteriode 2π ))2()(( πθθ +Θ=Θ ce qui impose agrave n drsquoecirctre entier

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 48

- pour la partie polaire les fonctions de Legendre associeacutees )(sinδmnP

nm

nn

mn dPdP

)(sin)(sinsin)(sin

δδ

δδ = pour ⎩⎨⎧

gt=

nmavecnm 321

(A9)

ougrave les )(sinδnP sont les polynocircmes de Legendre de degreacute n en δsin deacutefinis par reacutecurrence

( )

11

22

1

0

sin)12()(sin)1(

1cos321)(sin

sin)(sin0)(sin

minus+ minus+=+

minus=

==

mmm mPPmPmet

P

PP

δδ

ϕδ

δδδ

(A10)

et de formule geacuteneacuterale

mm

m

mm dd

mP )1(sin

)(sin21)(sin 2 minus= δ

δδ (A11)

On peut appliquer aux fonctions )(sinδmnP la semi-normalisation de Schmidt

)(sin)()()(sin~ δεδ mnnmn P

nmnmP

+minus

= ougrave 10 =ε et 2=nε pour 1gen (A12)

En appariant les fonctions polaires et azimutales on deacutefinit les harmoniques

spheacuteriques de degreacute et drsquoordre)1(mnY 0gem 4 mnn lele0 et de degreacute et

drsquoordre (voir Figure A3)

)1(minusmnY 1gem

mnn lele1

)(sin~)sin()(

)(sin~)cos()()1(

)1(

δθδθ

δθδθ

mnmn

mnmn

PnY

PnY

=

=minus

(A13)

4 En geacuteneacuteral lorsque le degreacute et lrsquoordre ne sont pas eacutevoqueacutes conjointement on parle par abus de langage drsquoharmoniques drsquoordre m plutocirct que de degreacute m

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 49

soit

1)(sin

)()()12(2sin)(

)(sin)()()12(2cos)(

1)(sin)1()1()12(cos)(

)1(

)1(

1)1(

1

gt

⎪⎪⎩

⎪⎪⎨

+minus

+=

+minus

+=

=+minus

+=

minus

npourP

nmnmmnY

PnmnmmnY

npourPmmmY

mnmn

mnmn

mm

δθδθ

δθδθ

δθδθ

(A14)

La solution angulaire geacuteneacuterale srsquoeacutecrit alors sous la forme drsquoun deacuteveloppement sur

la base drsquoharmoniques spheacuteriques

( ) ( )sum minus

=minus+=Θ

1

1)1()1()( n

m mnmnmnmnn YBYBθ (A15) La solution geacuteneacuterale est alors la seacuterie de Fourier-Bessel

sum sum sum+infin

= = plusmn=

=0 0 1

)()( )()()(m

m

nmnmnm

m YBkrjikrpσ

σσ δθδθ (A16)

ougrave

intint⎪⎩

⎪⎨⎧

minusisin

isin

plusmnplusmn =

]2

2

[

[20[

)1()1( )()1()(

1

ππδ

πθ

δθδθ

S

mnm

mmn dSYpkrji

B (A17)

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 50

Tableau A1 - Expressions analytiques des harmoniques spheacuteriques pour les ordres 0 agrave 3

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 51

Figure A3 - Repreacutesentation des harmoniques spheacuteriques pour les ordres m = 0 agrave 3 Les

couleurs rouge et bleu indiquent respectivement des valeurs positives et neacutegatives

53

Annexe B

Compleacutements theacuteoriques sur le deacutecodage HOA

B1 Vecteur veacutelociteacute et vecteur eacutenergie Le vecteur veacutelociteacute est un indice de la direction apparente drsquoune source introduit

par Gerzon [Gerzon 1992] Il se calcule comme le rapport de la vitesse particulaire sur la pression acoustique

)()(

)()(1

δθδθ

δθδθ

ρ rprp

ki

rprv

cV nabla

minus=minus=rrr

(B1)

Dans le cas drsquoune onde plane le vecteur veacutelociteacute V

rest ainsi directement un

vecteur unitaire orienteacute vers la direction de provenance de lrsquoonde En geacuteneacuteralisant agrave une superposition drsquoondes planes en phase ou opposition de phase eacutemises par L haut-parleurs agrave eacutequidistance du point drsquoobservation on obtient la formule suivante

VVL

ll

L

lll

urg

ugV r

rr

==

sum

sum

=

=

1

1 (B2)

ougrave deacutesigne la direction du llur egraveme haut-parleur auquel est associeacute le gain gl et Vr Vur correspondent respectivement agrave la norme et agrave la direction du vecteur veacutelociteacute

Le vecteur eacutenergie est un autre indice de direction Il est deacutefinit par

EEL

ll

L

lll

urg

ugE r

rr

==

sum

sum

=

=

1

2

1

2

(B3)

Annexe B Compleacutements theacuteoriques sur le deacutecodage HOA 54

Il peut srsquointerpreacuteter comme une indication de la concentration de lrsquoeacutenergie ( ) et de sa direction moyenne de provenance (

Er

Eur ) On a toujours 1ltEr sauf dans le cas ougrave un seul haut-parleur contribue agrave la reconstruction (dans ce cas ) peut ecirctre consideacutereacute comme un indicateur de preacutecision de la localisation

1=Er Er

B2 Deacutecodages optimiseacutes La restitution la plus confortable drsquoun champ sonore veillera donc agrave maximiser

tout en essayant de garder le plus proche possible de 1 Lrsquooptimisation du deacutecodage consiste alors agrave multiplier chaque coefficient de la matrice de deacutecodage D (voir (111) par des gains calculeacutes drsquoapregraves des critegraveres drsquooptimisation

Er Vr

Ainsi le deacutecodage appeleacute max- maximise la norme du vecteur eacutenergie en

sacrifiant celle du vecteur veacutelociteacute puisqursquoon a dans ce deacutecodage (pour des configurations reacuteguliegraveres de haut-parleurs) Ce deacutecodage est donc avantageux par rapport au deacutecodage basique pour les hautes freacutequences ou dans le cas drsquoun auditoire eacutelargi Le deacutecodage in-phase va encore plus loin en cherchant agrave annuler complegravetement les contributions des haut-parleurs placeacutes agrave lrsquoopposeacute de la direction de provenance de lrsquoonde reproduite Ce critegravere est utile dans le cas drsquoune eacutecoute dans une position tregraves excentreacutee agrave laquelle on pourrait percevoir de faccedilon preacutedominante la contribution en opposition de phase drsquoun tel haut-parleur

Er

EV rr =

Ces diffeacuterents deacutecodages ont chacun des avantages et inconveacutenients Ainsi seul le

deacutecodage basique garantit = 1 le deacutecodage max- permet une preacutecision meilleure notamment en haute freacutequence et le deacutecodage in-phase est plus adapteacute agrave un auditoire plus large Jeacuterocircme Daniel [Daniel 2000] propose ainsi de changer le deacutecodage en fonction de la freacutequence et de lrsquoeacutetendue de la zone drsquoeacutecoute deacutesireacutee

Vr Er

Figure B1 - Deacutecodages les plus approprieacutes par sous-bande et en fonction de lrsquoeacutetendue de la

zone drsquoeacutecoute [Daniel 2000]

55

Annexe C

Analyse en composantes principales

C1 Espace des donneacutees Eacutegalement souvent appeleacutee transformeacutee de Karhunen-Loegraveve5 (TKL) lrsquoanalyse en

composantes principales (ACP) est une technique statistique de repreacutesentation drsquoinformation Introduite sur 2 variables par Pearson [Pearson 1900] elle a eacuteteacute eacutetendue par Hotelling [Hotelling 1933] Elle a pour but de caracteacuteriser des donneacutees drsquoun espace agrave N dimensions dans un sous-espace plus petit en minimisant les pertes drsquoinformation due agrave la projection crsquoest-agrave-dire en maximisant la variance projeteacutee Les donneacutees ainsi reacuteorganiseacutees deviennent indeacutependantes Les variables correacuteleacutees sont remplaceacutees par de nouvelles variables deacutecorreacuteleacutees et de variance maximale combinaisons lineacuteaires des variables initiales

Les donneacutees sont constitueacutees de n variables aleacuteatoires (dans notre cas des canaux)

et p reacutealisations ou individus (des eacutechantillons)

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

pn

p

ji

n

xx

x

xx

M

LLL

MOMNM

MLLM

MNMOM

LLL

1

111

(C1)

Ces donneacutees sont geacuteneacuteralement centreacutees et peuvent aussi ecirctre reacuteduites4 (on note

1x la moyenne de la variable et 1x )( 1xσ sa variance) Reacuteduire ou non le nuage de points (ie les p reacutealisations de la variable aleacuteatoire) est un choix de modegravele

5 Quelques rares sources mentionnent une diffeacuterence entre ACP et TKL en placcedilant celle-ci au

niveau du choix de la reacuteduction des donneacutees dans le cas dune ACP les donneacutees seraient centreacutees et reacuteduites alors qursquoelles seraient uniquement centreacutees pour une TKL

Annexe C Analyse en composantes principales 56

- si on ne reacuteduit pas le nuage une variable agrave forte variance pourrait tirer tout lrsquoeffet de lrsquoACP agrave elle

- si on reacuteduit le nuage une variable qui ne serait qursquoun bruit se retrouverait avec une variance apparente eacutegale agrave une variable informative

M est centreacutee

⎥⎥⎥

⎢⎢⎢

minusminusminus

minusminus=

npn

pi

ji

nn

xxxxxx

xxxxM

K

MM

K

11

11

11

ˆ (C2)

M~ est centreacutee et reacuteduite

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

minusminus

minus

minusminus

=

)()(

)(

)()(~

1

11

1

1

111

n

npn

pi

ij

i

n

nn

xxx

xxx

xxx

xxx

xxx

M

σσ

σ

σσ

K

MM

K

(C3)

On multiplie ensuite la matrice obtenue par sa transposeacutee pour obtenir - La matrice de covariance MMC t

vˆˆ sdot=

- La matrice de correacutelation MMC tr

~~ sdot= Ces matrices sont carreacutees (N x N) symeacutetriques et reacuteelles Elles sont donc

diagonalisables dans une base orthonormeacutee 6 Le principe de lrsquoACP est alors de trouver un axe u issu drsquoune combinaison lineacuteaire

des tel que le critegravere drsquoinertie du nuage autour de cet axe soit maximal Le critegravere drsquoinertie couramment utiliseacute est la variance Il faut donc trouver lrsquoaxe qui porte le maximum de variance crsquoest-agrave-dire lrsquoaxe u tel que la projection du nuage sur cet axe ait une variance maximale

nx

6 Nos donneacutees eacutetant ici des valeurs drsquoeacutechantillons elles sont par nature centreacutees et reacuteduites On

formera donc naturellement la matrice de correacutelation

C2 Diagonalisation 57

C2 Diagonalisation Pour alleacuteger lrsquoeacutecriture de la suite de cette partie nous consideacutererons que les

variables ont eacuteteacute centreacutees et si besoin reacuteduites et nous noterons ces variables

transformeacutees (ainsi

ix ix

iii xxx minuslarr ou bien )( i

iii x

xxxσ

minuslarr ) On fera de mecircme pour M

( ou bien MM ˆlarr MM ~larr ) et C ( vCC larr ou bien rCC larr ) La projection drsquoun eacutechantillon sur un axe u srsquoeacutecrit ix

uMxiu sdot=)(π (C4) La variance empirique de )( iu xπ vaut donc

uMMuxx ttiu

tiu sdotsdotsdot=sdot )()( ππ (C5)

Or on a vu que est diagonalisable dans une base orthonormeacutee donc

on peut noter P le changement de base associeacute et ∆ la matrice diagonale formeacutee de son spectre Ainsi

MMC t=

n

i 1)(λ PPMMC tt ∆==

)()()()( PuPuuPPuxx ttt

iut

iu sdot∆sdot=sdot∆sdot=sdotππ (C6) On pose v = Pu Chercher lrsquoaxe u qui maximise )( iu xπ revient donc agrave chercher le

vecteur v qui maximise ougravevvt ∆ )( 1 ndiag λλ K=∆ avec les iλ rangeacutes par ordre deacutecroissant Ce vecteur est trivialement le premier vecteur unitaire et on a alors

1λ=∆vvt

Ainsi le vecteur qui porte la plus grande part drsquoinertie du nuage est le premier

vecteur propre de C (premier par norme deacutecroissante) De mecircme le deuxiegraveme vecteur qui explique la plus grandelt part de lrsquoinertie restante est le deuxiegraveme vecteur propre de C Finalement la question de lrsquoACP se ramegravene agrave un problegraveme de diagonalisation de la matrice de correacutelation

C3 Code Matlab

function [vep vap] = pca(f N) f donneacutees N nombre de composantes agrave garder cor = f f formation de la matrice de correacutelation [vep vap] = eig(cor) calcul des vecteurs (vep) et valeurs (vap) propres [vap ind] = sort(diag(vap)) tri des valeurs propres par ordre croissant vap = flipud(vap) disposition inverse par ordre drsquoimportance vep = vep( flipud(ind)) classement en conseacutequence des vecteurs propres vep = vep( 1N) on ne garde que les N premiers vecteurs propres

Annexe C Analyse en composantes principales 58

59

Annexe D

Analyse en sous-bandes

D1 La transformeacutee de Fourier agrave court terme (TFCT) Pour affiner lrsquoanalyse les signaux sont donc deacutecoupeacutes en bandes de freacutequence par

TFCT La TFCT consiste agrave effectuer des transformeacutees de Fourier discregravetes sur des portions de signal fenecirctreacutees reacuteguliegraverement espaceacutees

On rappelle que la transformeacutee de Fourier drsquoun signal x(t) est deacutefinie (lorsque

lrsquointeacutegrale existe) par

int+infin

infinminus

minus= dtetxfX ftiπ2)()( (D1)

La transformeacutee de Fourier agrave temps discret (TFTD) drsquoun signal x(t) srsquoeacutecrit

sum+infin

minusinfin=

minus=n

fnienxfX π2)()( (D2)

La transformeacutee de Fourier discregravete (TFD) drsquoun signal discret x(k) est deacutefinie par

sum+infin

minusinfin=

minus=

n

Nkni

enxkXπ2

)()( (D3)

La TFCT discregravete est une TFD observeacutee sur une fenecirctre wa de taille N

summinus

=

minus+=

1

0

2)())(()(

N

n

Nnki

aaa enwtnxkXπ

ττ (D4)

ougrave )(taτ est lrsquoinstant drsquoanalyse

Annexe D Analyse en sous-bandes 60

Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT [Laroche 1995]

D2 Synthegravese par addition-recouvrement Lors de la synthegravese apregraves le deacutecoupage et lrsquoanalyse des fenecirctres on cherche agrave

reconstruire le signal temporel agrave partir de sa repreacutesentation freacutequentielle Pour cela on utilise la meacutethode OLA (overlap and add addition-recouvrement) qui consiste agrave prendre la TFCT inverse des spectres Xt puis agrave additionner les signaux obtenus apregraves les avoir multiplieacutes par une fenecirctre de pondeacuteration en les faisant se recouvrir partiellement

Le reacutesultat est donneacute par

sum=

minusminus=T

tsss tnxtnwnx

s1

))((~))(()(~ ττ τ (D5)

avec )()( tt as ττ = et summinus

=

=1

0

2))((~1)(~ N

k

Nkni

s ektXN

nxs

π

τ τ

Lors de la mise en œuvre de ce traitement il faut srsquoassurer drsquoecirctre en mesure de

reconstruire parfaitement un signal lorsqursquoaucune transformation ne lui est appliqueacutee Le critegravere de reconstruction parfaite condition suffisante est alors

sum=

=minusminusT

tasaa tnwtnw

11))(())(( ττ quelque soit n (D6)

D2 Synthegravese par addition-recouvrement 61

Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add [Laroche 1995]

Plusieurs paramegravetres sont agrave choisir avec soin Le premier drsquoentre eux est le type

de fenecirctre agrave utiliser Les diffeacuterentes options qui se preacutesentent agrave nous sont - la fenecirctre rectangulaire qui preacutesente dans son spectre le lobe principal le plus

eacutetroit mais des lobes secondaires non neacutegligeables - la fenecirctre de Hamming au lobe principal un peu plus large mais pour laquelle le

1er lobe secondaire se situe agrave -43 dB - la fenecirctre de Hann (ou cosinus sureacuteleveacute) qui ressemble agrave la preacuteceacutedente avec un

1er lobe secondaire plus fort mais une pente de 18 dB par octave pour les lobes suivants

- les fenecirctres de Blackman-Harris aux lobes secondaires tregraves bas mais au lobe principal plus large

Fenecirctre Lobe 2aire

(dB) Pente

(dBoct) Bande passante

agrave 6 dB (bins) Rectangulaire -13 -6 121 Triangulaire -27 -12 178

Hann -32 -18 200 Hamming -43 -6 181

Blackman-Harris 4 -92 -6 272

Tableau D1 - Caracteacuteristiques des principales fenecirctres drsquoanalyse [Harris 1978] Le meilleur compromis est donc dans notre contexte la fenecirctre de Hann ou celle

de Hamming

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 6: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

viii

Figure 43 - Azimut et eacuteleacutevation theacuteoriques et calculeacutes drsquoun son en 3D artificiel placeacute dans une ambiance bruyante 33

Figure 44 - Angles theacuteoriques et calculeacutes drsquoun bruit blanc tournant autour du micro enregistreacute en chambre sourde 34

Figure 45 - Principe de lrsquoameacutelioration de la preacutecision spatiale 35 Figure 46 - Directiviteacutes eacutequivalentes agrave la seacuteparation de 4 sources agrave lrsquoordre 135 Figure 47 - Principe de la restitution de lrsquoordre 1 agrave partir du signal mono W 36 Figure 48 - Scheacutema de principe de la meacutethode BCC36 Figure 49 - X et Y dans le cas drsquoune sinusoiumlde placeacutee agrave 15deg et 120deg37 Figure 410 - Angles trouveacutes par lrsquoalgorithme de [Pulkki and Faller 2006] 38 Figure 411 - Angles trouveacutes par une ACP pour la mecircme scegravene 39 Figure 412 - Scheacutema de principe drsquoune confeacuterence audio spatialiseacutee 40 Figure 413 - Scheacutema ameacutelioreacute (deacutebit reacuteduit)40 Figure 414 - Analyse principe de lrsquoencodage dans le serveur 41 Figure 415 - Synthegravese principe du deacutecodage dans le client 41 Figure A1 - Systegraveme de coordonneacutees spheacuteriques 45 Figure A2 - Fonctions de Bessel spheacuteriques )(krjm pour les ordres 0 agrave 5 47 Figure A3 - Repreacutesentation des harmoniques spheacuteriques pour les ordres m = 0 agrave

3 51 Figure B1 - Deacutecodages les plus approprieacutes par sous-bande et en fonction de

lrsquoeacutetendue de la zone drsquoeacutecoute54 Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT60 Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add61

1

Preacutesentation de France Teacuteleacutecom RampD Le groupe France Teacuteleacutecom est lrsquoun des principaux opeacuterateurs de

teacuteleacutecommunications au monde Creacuteeacutee en 1988 apregraves le scindement des PTT (Poste Teacuteleacutegraphe Teacuteleacutephone) en deux groupes France Teacuteleacutecom a longtemps beacuteneacuteficieacute du statut drsquoopeacuterateur historique Depuis 1997 France Teacuteleacutecom fonctionne en tant que socieacuteteacute anonyme

Le CNET Centre National drsquoEacutetude en Teacuteleacutecommunication a eacuteteacute creacuteeacute en 1944

dans le but de reacutetablir un reacuteseau de teacuteleacutecommunication en France En mars 2000 le CNET change de nom et devient France Teacuteleacutecom Recherche amp Deacuteveloppement

Le site France Teacuteleacutecom Division RampD agrave Lannion a eacuteteacute inaugureacute le 28 octobre

1963 Lrsquoeacutequipe son 3D y megravene des recherches sur la prise et la restitution du son la spatialisation sonore ainsi que sur les environnements acoustiques virtuels Elle participe eacutegalement activement agrave la normalisation MPEG-4

De nombreux travaux sont consacreacutes aux technologies de spatialisation binaurale

transaurale (avec la technique du steacutereacuteo-dipocircle) et ambisonique De nombreux brevets et publications deacutecoulent de ces recherches qui trouvent deacutejagrave des applications dans la confeacuterence audio spatialiseacutee et ouvrent des perspectives bien plus vastes

2

Introduction La reproduction sonore semble aujourdrsquohui ecirctre parfaitement maicirctriseacutee Mais

lrsquoest-elle vraiment Rien nrsquoest moins sucircr Reproduire un son signifie ldquoreproduire toutes ses proprieacuteteacutes telles qursquoelles existent dans une situation drsquoeacutecoute reacuteellerdquo (tel que rappeleacute dans [Nicol 1999]) Or le son est un pheacutenomegravene agrave quatre dimensions il eacutevolue dans le temps et dans les 3 dimensions de lrsquoespace Si le problegraveme de la reproduction temporelle peut ecirctre consideacutereacute comme reacutesolu la restitution spatiale est elle toujours agrave lrsquoeacutetude

La restitution drsquoune scegravene sonore (crsquoest-agrave-dire drsquoun ensemble drsquoeacuteveacutenements

sonores placeacutes agrave des positions et des instants preacutecis) passe par la reproduction du champ acoustique dans une zone donneacutee zone au moins assez grande pour qursquoon puisse y placer ses 2 oreilles Lrsquoauditeur pourra alors localiser preacuteciseacutement les sources constituant la scegravene agrave la fois en temps et dans lrsquoespace

Lrsquoobjectif du stage preacutesenteacute ici est de retrouver par le calcul ces informations agrave

partir de lrsquoanalyse de signaux de repreacutesentation du champ sonore 3D en particulier ceux issus de lrsquoencodage spatial de scegravenes sonores reacutealiseacute par la technologie Higher Order Ambisonics (HOA) Il srsquoagit de retrouver dans une scegravene HOA les positions qursquooccupaient les sources agrave chaque instant lors de lrsquoencodage

Cette analyse permet alors drsquoentrevoir des applications pour le codage et la

transmission etou lrsquoameacutelioration de contenu audio 3D la seacuteparation de sources ou bien encore la confeacuterence audio spatialiseacutee En effet une telle description de la scegravene permettrait de caracteacuteriser de maniegravere leacutegegravere une partie de lrsquoinformation transmise par les signaux HOA et ouvrirait mecircme lrsquoopportuniteacute drsquoun deacutemixage

Nous allons ici preacutesenter la technologie ambisonics puis les eacuteleacutements theacuteoriques et

pratiques de lrsquoanalyse des signaux HOA Les eacuteleacutements matheacutematiques sur lesquels repose ambisonics agrave savoir le deacuteveloppement drsquoun champ acoustique en harmoniques spheacuteriques sont deacuteveloppeacutes en Annexe A La lecture preacutealable de cette annexe nrsquoest pas indispensable agrave la compreacutehension du Chapitre 1 mais est vivement conseilleacutee

3

Chapitre 1

Ambisonics

11 Principe

111 Du B-format agrave HOA Lrsquoapproche ambisonique deacuteveloppeacutee dans les anneacutees 1970 par Gerzon [Gerzon

1973] [Gerzon 1985] a pour but de reconstruire au voisinage de la tecircte de lrsquoauditeur le champ sonore et ses caracteacuteristiques de propagation crsquoest-agrave-dire au minimum le champ de pression et son gradient Cette technique est cateacutegoriseacutee dans les techniques de panoramique drsquoamplitude ou agrave microphones coiumlncidents Le format orignal appeleacute B-format peut en fait ecirctre vu comme une restriction au 1er ordre drsquoune deacutecomposition du champ en harmoniques spheacuteriques (voir Annexe A) ou cylindriques (dans le cas drsquoune restriction agrave 2 dimensions) Le format HOA (Higher Order Ambisonics) est une extension de cette deacutecomposition agrave des ordres plus eacuteleveacutes permettant une reconstruction ameacutelioreacutee du champ (une meilleure approximation) dans une zone de restitution eacutelargie

Une grande speacutecificiteacute de lrsquoapproche ambisonique est de contenir directement

lrsquoinformation spatiale en codant le champ acoustique en un point de lrsquoespace indeacutependamment du systegraveme de restitution utiliseacute contrairement aux systegravemes de spatialisations classiques (steacutereacuteo 51hellip) Lrsquoencodage directionnel drsquoune onde plane S drsquoincidence u se traduit par les eacutequations

r

⎪⎪

⎪⎪

=

=

=

=

δ

δθ

δθ

sin2

cossin2

coscos2

SZ

SY

SX

SW

(11)

Le facteur de normalisation 2 a eacuteteacute introduit agrave lrsquoorigine pour srsquoassurer que les

composantes W X et Y aient une eacutenergie moyenne eacutegale dans le cas de lrsquoencodage drsquoun champ diffus horizontal

Chapitre 1 Ambisonics 4

Le B-format peut ecirctre vu comme une troncature au premier ordre de la deacutecomposition en seacuterie de Fourier-Bessel du champ sonore [Daniel 2000] Une troncature agrave un ordre plus eacuteleveacute (Higher Order Ambisonics) apporte alors agrave la reconstruction une meilleure qualiteacute tant en terme de preacutecision de lrsquoimage que de dimensions du sweet spot zone ougrave le champ original est restitueacute avec une toleacuterance donneacutee Cette zone tregraves petite pour lrsquoordre 1 (il faut veiller agrave se placer bien au centre du dispositif) est nous le verrons nettement eacutelargie aux ordres supeacuterieurs On atteint eacutegalement une discrimination angulaire plus fine Ces ordres supeacuterieurs eacutetant les termes suivants de la seacuterie de Fourier-Bessel une repreacutesentation HOA inclut les ordres infeacuterieurs constituant donc une repreacutesentation hieacuterarchique (ou scalable) du champ sonore

La chaicircne de traitement drsquoun systegraveme ambisonique se deacutecompose en plusieurs

eacutetapes (voir Figure 11) - lrsquoencodage spatial reacutealiseacute de maniegravere artificielle pour spatialiser une scegravene

syntheacutetique ou bien agrave partir de signaux naturels issus drsquoune structure multi-microphonique (voir Figure 12)

- une eacuteventuelle transformation des signaux HOA (compression ou

transformations lineacuteaires comme par exemple une rotation) - le deacutecodage spatial matriccedilage des signaux pour une diffusion adapteacutee au

dispositif drsquoeacutecoute

Figure 11 - Scheacutema global du principe de la technologie HOA [Moreau 2006]

11 Principe 5

Figure 12 - Prototype de microphone HOA drsquoordre 4 constitueacute de 32 capteurs omnidirectifs

reacutepartis sur une sphegravere en plastique rigide [Moreau 2006]

112 Repreacutesentation de scegravene sonore avec HOA La seacuterie de Fourier-Bessel (A16) en Annexe A) tronqueacutee agrave lrsquoordre M donne une

approximation de la repreacutesentation du champ sonore

sum sum sum= = plusmn=

=M

m

m

nmnmnm

mM YBkrjikrp

0 0 1)()()(

σ

σσ δθδθ (12)

La repreacutesentation drsquoordre M est composeacutee de signaux HOA en 3D

et

2)1( += MK12 += MK signaux HOA si on se contente du plan horizontal

Pour mesurer lrsquoerreur de reconstruction on peut utiliser le critegravere des moindres

carreacutes normaliseacute (NMSE pour Normalized Mean Square Error)

intint

intint minus=

S

SM

dSkrp

dSkrpkrpkre 2

2

)(

)()()(

δθ

δθδθ (13)

Dans le cas particulier drsquoune onde plane lrsquoerreur de reconstruction est

indeacutependante de lrsquoangle drsquoincidence et ne deacutepend que de lrsquoordre et du produit kr En rappelant que k est le nombre drsquoonde cfck πω 2== on srsquoaperccediloit que lrsquoerreur de reconstruction pour un ordre donneacute augmente quand on srsquoeacuteloigne du centre du systegraveme (r augmente) ou lorsque la freacutequence srsquoeacutelegraveve On remarque qursquoune erreur de 4 (-14 dB) est atteinte approximativement quand M = kr

Chapitre 1 Ambisonics 6

Figure 13 - Erreur de reconstruction drsquoune onde plane en fonction

de lrsquoordre M et du produit kr [Moreau et al 2006]

Figure 14 - Repreacutesentation dans le plan horizontal dans une zone de diamegravetre 1m de la

reconstruction drsquoune onde plane (agrave droite) pour plusieurs ordres et freacutequences Les niveaux de gris repreacutesentent la valeur de la pression acoustique Les courbes eacutetoileacutees indiquent la

limite des zones ougrave lrsquoerreur de reconstruction est infeacuterieure agrave 7 (-115 dB) [Moreau 2006]

12 Encodage et deacutecodage spatial 7

12 Encodage et deacutecodage spatial

121 Encodage spatial Drsquoun point de vue drsquoingeacutenieur du son lrsquoencodage spatial peut ecirctre vu comme un

panoramique drsquoamplitude Un preneur de son lrsquointerpreacutetera comme une capture par un jeu de microphones directifs coiumlncidents Un matheacutematicien verra plutocirct le lien avec la deacutecomposition en harmoniques spheacuteriques deacutecrite en Annexe A

Eacutetudions le cas drsquoune onde plane provenant de la direction )( pp δθ avec une

amplitude S Lrsquoexpression du champ de pression srsquoeacutecrit alors

γδθ cos)( jkrSekrp = (14)

soit encore

)(cos)()12()(0

γδθ mmm

m PkrjjmSkrp suminfin

=

+= (15)

ougrave γ deacutesigne lrsquoangle entre la direction (θ δ ) du point drsquoobservation et la direction

)( pp δθ de provenance de lrsquoonde Il vient ensuite

sum sumsum= plusmn=

infin

=

=m

nmnppmnm

m

m YYkrjjSkrp0 10

)()()()(σ

σσ δθδθδθ (16)

En identifiant cette eacutequation (16) avec la seacuterie de Fourier-Bessel (A16) nous

obtenons finalement lrsquoexpression de la transformeacutee de Fourier spheacuterique drsquoun champ de pression acoustique engendreacute par une onde plane [Moreau 2006]

)( ppmnmn YSB δθσσ = (17)

Les coefficients sont ainsi deacutefinis par la valeur des harmoniques spheacuteriques

dans la direction de provenance de lrsquoonde plane pondeacutereacutee par lrsquoamplitude

σmnB

S du signal transporteacute Ce sont ces coefficients qui constituent le signal ambisonique Des coefficients de normalisation ou de semi-normalisation sont ensuite appliqueacutes pour que les signaux soient drsquoeacutenergie moyenne eacutequivalente entre eux ( ) ou entre les diffeacuterents ordres ( ) (voir Annexe A Tableau A1)

DN 3α DSN 3αDSN 3α

DSN 3α Ces fonctions drsquoencodage peuvent ecirctre simplifieacutees dans le cas drsquoune restriction agrave 2

dimensions (plan horizontal) On ne conserve alors que 2 composantes par ordre celles qui deacutecrivent le plan horizontal crsquoest-agrave-dire veacuterifiant m = n Les coefficients de normalisation sont alors diffeacuterents et lrsquoangle δ est nul Les composantes restantes sont alors

Chapitre 1 Ambisonics 8

ordre notations eacutecriture 0 W 1

00B 1

X 111B θcos2

1 Y 1

11minusB θsin2

U 122B )2cos(2 θ

2 V 1

22minusB )2sin(2 θ

- 1mmB )cos(2 θm

m - 1minus

mmB )sin(2 θm Tableau 11 - Fonctions drsquoencodage ambisonique dans le plan horizontal

avec la convention de normalisation associeacutee (N2D) La figure suivante illustre lrsquoencodage spatial aux ordres 0 1 et 2 de 2 sources

placeacutees aux angles vθ et vθ dans le plan horizontal

ordres 0 et 1 ordre 2

Figure 15 - Encodage horizontal [Moreau et al 2006] Le coefficient (gain) appliqueacute agrave

chaque composante de chacune des 2 sources est donneacute par les intersections des flegraveches et des diagrammes des harmoniques

Comme on peut le voir sur cette figure un encodage au 1er ordre offre une

discrimination angulaire peu appuyeacutee alors que les 2 sources pourtant proches auront des coefficients tregraves diffeacuterents agrave lrsquoordre 2 (les points drsquointersection sont plus eacuteloigneacutes)

122 Deacutecodage spatial Lrsquoobjectif du deacutecodage est de restituer au mieux sur un systegraveme de diffusion

donneacute le champ sonore HOA Il faut ainsi calculer les signaux Sl agrave diffuser sur L haut-parleurs en fonction des composantes ambisoniques Ces σ

mnB L haut-parleurs peuvent ecirctre disposeacutes dans le plan horizontal ou dans un espace tridimensionnel Les deacutecodages les plus courants srsquoeffectuent sur une demi-sphegravere (cas 3D) ou un cercle (cas 2D) de

12 Encodage et deacutecodage spatial 9

haut-parleurs Crsquoest une opeacuteration matricielle qursquoon peut formaliser dans le cas drsquoun deacutecodage dans le plan horizontal par lrsquoeacutequation

BSC =sdot (18)

ougrave la matrice C contient les vecteurs harmoniques spheacuteriques associeacutes agrave chaque direction de haut-parleur et organiseacutes suivant ses lignes le vecteur S contient les signaux eacutemis par les L haut-parleurs et enfin le vecteur B contient les signaux HOA

⎟⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜⎜

=

⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜

=

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

=

10

100

2

1

1011

10

11111

111

10011

100

)()()(

)()()()(

M

mn

LLLMM

llmn

LL

LL

B

B

B

B

S

SS

S

YYY

YYYY

CM

M

M

L

MM

L

L

σσ

δθδθδθ

δθδθδθδθ

(19)

)( ll δθ repeacuterant la position du legraveme haut-parleur

Il faut donc estimer S connaissant B et C Le deacutecodage se reacutesume alors agrave un systegraveme de (M +1)2 (en 3D) ou 2M +1 (en 2D) eacutequations lineacuteaires agrave L inconnues On ne peut trouver de solution exacte que si le nombre de haut-parleurs est au moins eacutegal au nombre de signaux crsquoest-agrave-dire si L gt (M +1)2 (en 3D) ou 2M +1 (en 2D) Crsquoest en outre une condition neacutecessaire pour pouvoir avoir une reproduction homogegravene de la scegravene sonore

La matrice C nrsquoest pas neacutecessairement carreacutee et inversible une solution geacuteneacuterale

consiste agrave calculer lrsquoinverse geacuteneacuteraliseacutee de la matrice C noteacutee D encore appeleacutee pseudo-inverse de Moore-Penrose

BDS sdot= (110)

avec

1pinv( ) ( )t tD C C C C minus= = sdot sdot (111) D est appeleacutee matrice de deacutecodage BDS sdot= reacutesout le systegraveme (18) si les haut-

parleurs sont suffisamment nombreux L gt (M +1)2 (en 3D) ou 2M +1 (en 2D)) Srsquoils sont en outre disposeacutes sur une sphegravere (3D) ou un cercle (2D) de maniegravere eacutequidistante crsquoest-agrave-dire srsquoils sont les sommets drsquoun polyegravedre ou polygone reacutegulier ils preacuteservent alors la proprieacuteteacute drsquoorthonormaliteacute des harmoniques spheacuteriques Ceci se traduit par

Lt ILCC sdot=sdot (112)

ougrave IL est la matrice identiteacute de taille LLtimes On a alors

1pinv( ) tD CL

= = C (113)

Chapitre 1 Ambisonics 10

Cette proprieacuteteacute ne peut pas ecirctre matheacutematiquement veacuterifieacutee en 3D au-delagrave de lrsquoordre 2 autrement dit il nrsquoexiste pas de polyegravedre reacutegulier dont la position des sommets conserve strictement lrsquoorthonormaliteacute des harmoniques spheacuteriques

Visuellement le deacutecodage correspond agrave la reproduction du champ sonore tel qursquoil

aurait eacuteteacute capteacute par un ensemble de N microphones agrave directiviteacutes hyper-cardioiumldes tourneacutes chacun vers lrsquoun des haut-parleurs Leur directiviteacute serait drsquoautant plus preacutecise que lrsquoordre de reproduction est eacuteleveacute

Figure 16 - Prise de son virtuelle eacutequivalente agrave un encodage au 1er ordre et un deacutecodage

basique sur une disposition en 2D hexagonale [Moreau et al 2006] Le gain gl appliqueacute agrave chaque haut-parleur pour une direction de source virtuelle donneacutee

(en vert) est indiqueacute par la longueur des flegraveches et est reporteacutee aux points drsquointersection de la flegraveche verte et des diagrammes de directiviteacute

On peut remarquer que les diagrammes de directiviteacute sont tregraves larges par rapport

agrave lrsquoespacement angulaire des haut-parleurs Le 2nd ordre offrirait des directiviteacutes plus fines et donc une seacutelectiviteacute spatiale accrue Il faudrait alors bien sucircr davantage de haut-parleurs pour ne pas introduire des ldquotrousrdquo entre eux On remarque eacutegalement la preacutesence non neacutegligeable des lobes secondaires utiles pour la reconstruction du champ acoustique (notamment en basses freacutequences) mais qui peuvent ecirctre gecircnants dans certains cas par exemple lorsque lrsquoauditoire est large

Ce deacutecodage est appeleacute deacutecodage basique car il nrsquooptimise pas la restitution en

accord une quelconque hypothegravese et cherche uniquement agrave reproduire fidegravelement le champ acoustique Pour ameacuteliorer la restitution dans des cas critiques comme par exemple en-dehors du sweet spot (centre du dispositif) il faut optimiser le deacutecodage en reacuteduisant par exemple les lobes secondaires Ainsi le deacutecodage max-rE srsquoattache agrave maximiser lrsquoeacutenergie reccedilue de la provenance de la direction souhaiteacutee alors que le deacutecodage in-phase annule complegravetement ces lobes secondaires (voir Annexe B)

13 Critique de la technologie HOA 11

13 Critique de la technologie HOA

131 Bilan On a ainsi vu que la technologie HOA est une repreacutesentation intermeacutediaire du

champ de pression acoustique agrave mi-chemin entre la description directe du champ lui-mecircme et des signaux agrave restituer Cette technologie a de nombreux avantages compareacutee aux autres meacutethodes de reproduction de champ sonore (on trouvera notamment une eacutetude deacutetailleacutee des comparaisons entre HOA et la Wave Field Synthesis (WFS) dans [Daniel et al 2003]) elle permet drsquoeacuteviter le repliement spatial (voir paragraphe suivant) et permet ainsi une reconstruction dans une gamme de freacutequences tregraves large

La qualiteacute de la restitution ambisonique nrsquoest theacuteoriquement limiteacutee que part

lrsquoordre de troncature de la seacuterie de Fourier-Bessel agrave partir du moment ougrave le nombre de haut-parleurs est suffisant Ainsi un ordre tendant vers lrsquoinfini (et un nombre de haut-parleurs au moins aussi grand) permettra une reproduction quasi-parfaite sur lrsquoensemble de la zone drsquoeacutecoute

Mais les principaux avantages de cette technologie sont drsquoune part drsquoecirctre flexible

crsquoest-agrave-dire qursquoon peut agrave loisir adapter le nombre de signaux transmis au canal de transmission Une chute de deacutebit nrsquoentraicircnera pas de coupure de la transmission mais simplement une perte de preacutecision spatiale par lrsquoabandon des composantes drsquoordres les plus eacuteleveacutes Et drsquoautre part elle est indeacutependante du systegraveme de reproduction Ainsi un mecircme signal HOA pourra ecirctre diffuseacute sur toutes les configurations de haut-parleurs il suffira pour cela de calculer la matrice de deacutecodage associeacutee agrave ce systegraveme

132 Limites pratiques Dans la pratique cette technologie a toutefois des limitations Si lrsquoaliasing spectral

est eacuteviteacute on constate aux ordres les plus eacuteleveacutes lrsquoapparition drsquoun repliement spatial lors des enregistrements naturels agrave partir drsquoune freacutequence lieacutee agrave la distance maximale entre 2 capsules du microphone HOA (qui doit ecirctre au plus eacutegale agrave la moitieacute de la plus petite longueur drsquoonde drsquoapregraves Shannon) et au nombre total de capsules (qui doit ecirctre supeacuterieur agrave (M+1)2 M eacutetant lrsquoordre auquel on souhaite enregistrer)

Le repliement spectral repreacutesente la preacutesence importune dans des composantes

ambisoniques de sources qui de part leur position ne devraient qursquoapparaicirctre avec cette importance que dans les composantes drsquoordre plus eacuteleveacute Il est ducirc agrave lrsquointrusion des directiviteacutes drsquoordres supeacuterieurs dans les composantes harmoniques spheacuteriques estimeacutees Comme on le voit sur la Figure 17 les directiviteacutes ne sont pas des cylindres (au sens matheacutematique du terme la base nrsquoeacutetant pas forceacutement un cercle) mais varient en fonction de la freacutequence pour ressembler davantage dans le haut du spectre aux courbes de directiviteacute de lrsquoordre supeacuterieur Ainsi la directiviteacute de lrsquoordre 1 (2egraveme graphique) qui devrait ecirctre un 8 ressemble davantage au-dessus de 10 000 Hz agrave la figure de directiviteacute de lrsquoordre 4 (8 lobes)

Chapitre 1 Ambisonics 12

Figure 17 - Directiviteacutes theacuteoriques (en transparence) et reconstruites (grille) dans le plan horizontal pour des ondes planes horizontales Lrsquoaxe vertical correspond agrave la freacutequence et

les diffeacuterents graphiques aux ordres 0123 et 4 de gauche agrave droite Agrave lrsquoopposeacute la taille reacuteduite du microphone si elle permet de reacuteduire cet aliasing

spatial empecircche la capture des basses freacutequences aux ordres supeacuterieurs (voir 232) La reacutesolution spatiale des basses freacutequences sera donc moindre ce qui implique que en ajoutant lrsquoeffet du repliement en hautes freacutequences les ordres eacuteleveacutes capteacutes avec le micro HOA ne constituent qursquoune plage du spectre assez peu eacutetendue crsquoest cette seule plage qui pourra se targuer drsquoune excellente preacutecision spatiale

13

Chapitre 2

Analyser un contenu HOA

21 Objectifs La reacuteflexion a tout au long du stage eacuteteacute orienteacutee vers deux objectifs le premier

est dans un contexte de transmission de reconstruire une scegravene spatialiseacutee agrave partir du minimum drsquoinformations le deuxiegraveme appliqueacute agrave des ordres plus eacuteleveacutes est drsquoarriver agrave resyntheacutetiser les composantes de lrsquoordre immeacutediatement supeacuterieur

211 Restitution de la spatialisation agrave partir drsquoun downmix mono La premiegravere approche vise donc agrave reconstruire une scegravene spatialiseacutee agrave partir drsquoun

downmix le plus leacuteger possible Un downmix est une reacuteduction du nombre de canaux par fusion lrsquoexemple le plus simple eacutetant le passage drsquoun signal steacutereacuteo agrave un signal mono construit comme la demi-somme des composantes gauche et droite On tente dans cette approche de se restreindre au plus petit nombre de signaux possible un signal eacutetant tregraves coucircteux agrave transmettre en ajoutant parallegravelement agrave ce signal des informations compleacutementaires aidant agrave la reconstruction

Le cas extrecircme est la reacuteduction du flux agrave un signal mono Dans le cas

drsquoambisonics un signal mono comprenant toutes les sources est deacutejagrave preacutesent il srsquoagit de la composante omnidirectionnelle W Il faut donc extraire de la scegravene encodeacutee agrave un certain ordre M des informations permettant la reconstruction drsquoun ordre Mrsquo apregraves transmission Nous verrons que nous allons chercher agrave trouver les positions des sources gracircce agrave une analyse en composantes principales (ou ACP voir Annexe C) effectueacutee par sous-bandes (voir Annexe D)

212 Ameacutelioration de la preacutecision spatiale La deuxiegraveme piste suivie a pour but de reconstituer un ordre ambisonique non

transmis On pourrait qualifier cette approche drsquoupmix ambisonique car elle vise agrave reconstruire un ordre manquant En effet le format ambisonique eacutetant flexible il est bien

Chapitre 2 Analyser un contenu HOA 14

adapteacute agrave la transmission Ainsi si on souhaite transmettre une scegravene encodeacutee agrave lrsquoordre 2 dans le plan horizontal il faudra un canal drsquoun deacutebit minimum (si lrsquoon prend lrsquohypothegravese de pas vouloir compresser les signaux) de 471 Mos Un canal plus petit (par exemple 34 Mos) ne permettra theacuteoriquement de transmettre qursquoun ordre 1 Mais lrsquoanalyse des signaux peut permettre de deacuteterminer les positions des sources agrave partir desquelles on peut syntheacutetiser des composantes du 2nd ordre approchant les composantes drsquoorigine On pourrait mecircme imaginer pouvoir syntheacutetiser un ordre qui nrsquoavait pas eacuteteacute encodeacute agrave lrsquoorigine

Pour cela il est neacutecessaire de deacuteterminer les positions des sources preacutedominantes

dans le champ sonore pour piloter leur encodage spatial aux ordres supeacuterieurs et arriver agrave la synthegravese drsquoune repreacutesentation de reacutesolution spatiale accrue Il srsquoagit dans le mecircme temps drsquoisoler au mieux les signaux associeacutes agrave ces diffeacuterentes sources avant de leur appliquer lrsquoopeacuteration drsquoencodage on se rapproche donc drsquoun problegraveme de seacuteparation de sources

Pour parvenir agrave trouver ces positions deux meacutethodes ont eacuteteacute testeacutees La premiegravere

consiste comme preacuteceacutedemment agrave appliquer en sous-bandes une analyse en composantes principales La seconde implique la formation de directiviteacutes agrave partir des vecteurs propres de la matrice de correacutelation utiliseacutee dans cette analyse

Lrsquoanalyse en composantes principales ou ACP (voir Annexe C) est donc

largement privileacutegieacutee dans nos approches Elle permet en effet tregraves facilement drsquoextraire des informations preacutecises de signaux correacuteleacutes Pour justifier ce choix une autre meacutethode reacutecente a eacutegalement eacuteteacute testeacutee et compareacutee agrave lrsquoACP (voir 11)

22 Principe de lrsquoextraction drsquoinformation spatiale avec une ACP

221 Information spatiale

Nous avons donc tout drsquoabord testeacute lrsquoanalyse en composantes principales sur des

signaux HOA Nous avons choisi dans un premier temps de limiter lrsquoanalyse aux composantes horizontales du premier ordre W X et Y avant de lrsquoeacutetendre agrave la 3egraveme dimension avec Z

Dans un premier test les signaux HOA sont analyseacutes par une ACP dans leur

inteacutegraliteacute LrsquoACP est appliqueacutee sur les signaux X et Y qui contiennent lrsquoinformation spatiale En effet X et Y correspondent aux signaux qui seraient capteacutes par des microphones agrave figure en 8 placeacutes sur lrsquoaxe avant-arriegravere et gauche-droite respectivement

La Figure 21 montre la correacutelation entre X et Y dans le cas drsquoun bruit blanc capteacute

par le microphone ambisonique Les points ne sont pas exactement aligneacutes du fait des artefacts inheacuterents agrave la prise de son (reacuteflexions sur les parois approximations du microphone etc)

22 Principe de lrsquoextraction drsquoinformation spatiale avec une ACP 15

Figure 21 - Y en fonction de X dans le cas drsquoun bruit blanc enregistreacute placeacute agrave 30deg

On remarque que le nuage est eacutetireacute dans la direction de provenance du son indiqueacutee par la flegraveche en pointilleacutes verts

222 Application de lrsquoanalyse en composantes principales La 1egravere composante issue de lrsquoACP appliqueacutee dans le plan (X Y) pointe dans la

direction dans laquelle X et Y ont la plus grande correacutelation Or comme X contient lrsquoinformation placeacutee sur lrsquoaxe avant-arriegravere et Y lrsquoinformation de lrsquoaxe gauche-droite cette direction est directement la direction de la source Par exemple un son situeacute droit devant dans lrsquoaxe (agrave 0deg) aura une composante Y nulle et par conseacutequent les eacutechantillons seront dans le plan tous disposeacutes sur lrsquoaxe horizontal LrsquoACP prendra donc naturellement cet axe comme 1er vecteur propre et il pointe bien vers la position de la source De mecircme un son situeacute agrave 135deg ( π28

3 times rad) aura la proprieacuteteacute Y = -X Les eacutechantillons seront donc placeacutes sur la 2egraveme bissectrice qui fait avec lrsquoaxe Y=0 un angle de 135deg (voir Figure 22)

Figure 22 - Y en fonction de X dans le cas drsquoun son placeacute artificiellement dans la direction

indiqueacutee par la flegraveche en pointilleacutes verts agrave 0deg (agrave gauche) et 135deg (agrave droite)

Chapitre 2 Analyser un contenu HOA 16

Lrsquoanalyse de X et Y ne permet cependant de deacuteterminer lrsquoangle qursquoagrave π pregraves il reste une indeacutetermination (on deacutetermine la direction drsquoun axe qursquoil reste agrave orienter) Pour lever cette ambiguiumlteacute on integravegre W agrave lrsquoanalyse car cette composante pourtant omnidirectionnelle et donc deacutepourvue drsquoinformation spatiale apporte une reacutefeacuterence pour les phases Ainsi notre son placeacute agrave 135deg veacuterifiait (aux eacuteventuels coefficients de normalisation pregraves) Y = -X = W alors qursquoun son placeacute agrave 135 - 180 = -45deg aurait la proprieacuteteacute Y = -X = -W

Pour prendre en compte W dans lrsquoanalyse on peut comparer directement les

phases de ces 3 canaux Algorithmiquement on ramegravene lrsquoangle trouveacute agrave son modulo π2 puis on deacutetermine le vrai cadran par comparaison des phases de W X et Y crsquoest-agrave-dire en comparant le signe des produits W X et W Y Ainsi W X gt 0 signifie que W et X sont en phase et reacuteciproquement (voir Figure 23)

W X lt 0 W Y gt 0

W X gt 0 W Y gt 0

W X lt 0 W Y lt 0

W X gt 0 W Y lt 0

minusπ2

π

π2

0

Figure 23 - Signes de W X et W Y en fonction du cadran On peut eacutegalement inteacutegrer W agrave lrsquoanalyse en appliquant lACP sur le triplet (X Y

W) Le problegraveme drsquoambiguiumlteacute est ainsi reacutesolu la direction rechercheacutee eacutetant celle du vecteur principal dans le demi-espace W gt 0 projeteacutee sur le plan (X Y) Cette meacutethode srsquoavegravere plus robuste et surtout plus geacuteneacuteralisable agrave des ordres plus eacuteleveacutes

Cette analyse permet donc de deacuteterminer la position drsquoune source unique Pour

pouvoir seacuteparer plusieurs sources nous avons appliqueacute lrsquoACP par sous-bandes en supposant que les sources nrsquoont pas des supports freacutequentiels strictement identiques Le principe de cette analyse en sous-bandes est deacuteveloppeacute en Annexe D

23 Meacutethodologie

231 Construction de scegravenes artificielles Pour tester les algorithmes impleacutementeacutes nous avons ducirc creacuteer des scegravenes sonores

spatialiseacutees au format HOA Plusieurs types de scegravenes ont eacuteteacute utiliseacutes de complexiteacutes diffeacuterentes Les premiegraveres ont eacuteteacute des scegravenes virtuelles syntheacutetiseacutees avec Matlab Les premiegraveres scegravenes simplissimes ne comportait qursquoune sinusoiumlde ou un bruit blanc fixe placeacute dans le plan horizontal Puis pour tester lrsquoanalyse par sous-bandes ont eacuteteacute creacuteeacutes des sons polyphoniques composeacutes de 2 sinusoiumldes tout drsquoabord puis de sons complexes (syntheacutetiseacutes par synthegravese FM) dans des gammes freacutequentielles distinctes ou se

23 Meacutethodologie 17

chevauchant Enfin ces sons ont eacuteteacute rendus mobiles en faisant varier leur position dans le temps

Nous avons pu ainsi constater agrave lrsquoaide des sons fixes et de supports freacutequentiels

distincts la preacutecision de lrsquoanalyse et avec les sons mobiles et mecircleacutes sa robustesse Nous nous sommes limiteacutes sous Matlab agrave la geacuteneacuteration de 2 sons simultaneacutes et du 1er ordre et un autre outil Plogue Bidule a eacuteteacute utiliseacute pour composer des scegravenes plus complexes

Bidule est un studio modulaire virtuel ressemblant agrave MAXMSP Des plugins ont

eacuteteacute deacuteveloppeacutes agrave France Teacuteleacutecom pour permettre de manipuler des signaux HOA Ainsi des scegravenes complexes ont pu facilement ecirctre syntheacutetiseacutees agrave des ordres eacuteleveacutes Des scegravenes agrave 3 et 4 sources fixes ou dont 1 source mobile ont eacuteteacute reacutealiseacutees agrave partir de voix deacutemixeacutees placeacutees dans le plan horizontal ou en 3 dimensions

Ces scegravenes eacutetant artificielles elles sont en un sens ideacuteales ne contiennent aucun

signal reacuteverbeacutereacute (effet de salle) ni diffracteacute (par un micro) lrsquoencodage est fait sans artefacts les ondes sont consideacutereacutees comme planes et ont donc une direction bien deacutefinie Si on est ici bien loin de la vraie vie le gros avantage des scegravenes artificielles est qursquoon connaicirct preacuteciseacutement agrave chaque instant la position des sources et qursquoon peut ainsi veacuterifier le reacutesultat de lrsquoanalyse

Figure 24 - Interface graphique du logiciel Bidule avec agrave droite les controcircles des encodeurs

et deacutecodeurs HOA creacuteeacutes agrave France Teacuteleacutecom

Chapitre 2 Analyser un contenu HOA 18

232 Exploitation drsquoenregistrements naturels Une fois des reacutesultats convaincants obtenus avec des scegravenes virtuelles des

enregistrements naturels ont eacuteteacute analyseacutes Ces scegravenes ont eacuteteacute enregistreacutees gracircce au prototype de micro HOA du 4egraveme ordre deacuteveloppeacute agrave France Teacuteleacutecom (voir Figure 12) Ce processus implique des diffeacuterences notables avec un encodage virtuel

Le prototype de microphone contraint en effet agrave quelques compromis pour

optimiser des critegraveres incompatibles La taille du microphone reacutesulte drsquoun compromis entre la preacutecision drsquoestimation des composantes en basses freacutequences qui neacutecessite une taille eacuteleveacutee et la minimisation de lrsquoaliasing spatial qui ne peut ecirctre eacuteviteacute qursquoavec des capsules tregraves proches les unes des autres Leur disposition est eacutegalement irreacuteguliegravere il nrsquoexiste en fait aucune faccedilon de disposer reacuteguliegraverement plus de 20 points sur une sphegravere La configuration qui avait eacuteteacute retenue par les concepteurs [Moreau 2006] est la ldquomoins irreacuteguliegravere possiblerdquo au sens de la preacuteservation de lrsquoorthonormaliteacute des harmoniques spheacuteriques les 32 capsules sont reacuteparties sur une sphegravere de 35 cm de rayon selon un Pentaki-dodeacutecahegravedre polyegravedre semi-reacutegulier dual de lrsquoicosaegravedre tronqueacute (ballon de football)

Ces artefacts sont donc inheacuterents agrave lrsquoutilisation drsquoun reacuteseau de microphones Mais

le monde reacuteel pose eacutegalement des problegravemes deacutelicats La complexiteacute des modes de rayonnement drsquointeraction avec lrsquoenvironnement reacuteclame lrsquointroduction de modegraveles drsquoencodage beaucoup plus complexes que le cas drsquoune onde plane en champ libre et rend lrsquoinformation spatiale moins limpide et univoque au sein de la scegravene encodeacutee (enregistreacutee) en comparaison avec une scegravene virtuelle Les sources ne sont ainsi plus ponctuelles mais eacutetendues elles ne sont plus agrave lrsquoinfini mais agrave une distance finie du microphone (les ondes reccedilues ne sont donc plus planes) En outre chaque source en se reacutefleacutechissant sur les parois et les diffeacuterents objets de la salle creacutee une multitude de sources secondaires Il est enfin souvent difficile de connaicirctre avec preacutecision la position drsquoune source dans lrsquoespace lors drsquoun enregistrement

Des enregistrements en chambre sourde ont eacuteteacute reacutealiseacutes pour se passer des

reacuteflexions de lrsquoenvironnement Afin de connaicirctre avec preacutecision la position de la source un haut-parleur diffusant un bruit blanc nous avons placeacute le microphone sur une table tournante commandeacutee par un plug-in sous Plogue Bidule

233 Visualisations des reacutesultats Lrsquoobservation des reacutesultats a eacuteteacute effectueacutee de plusieurs maniegraveres visuellement et

par lrsquoeacutecoute Les graphiques eacutetant plus commodes crsquoest par cette voie que les premiers essais eacutetaient conclus Plusieurs types de graphiques ont eacuteteacute produits deacutecrivant des paramegravetres diffeacuterents

Les repreacutesentations temps-freacutequence permettent de repreacutesenter une variable agrave 1

dimension sous Matlab Cette voie a eacuteteacute suivie pour visualiser les paramegravetres extraits de chaque sous-bande de chaque fenecirctre notamment les angles lrsquoeacutenergie et la pertinence Malheureusement Matlab ne permet pas de repreacutesenter sur le mecircme graphique une 4egraveme dimension sous la forme drsquoune 2egraveme dimension colorimeacutetrique (on prend geacuteneacuteralement la

23 Meacutethodologie 19

saturation) Cette dimension suppleacutementaire aurait permis de repreacutesenter simultaneacutement les angles et leur pertinence

Figure 25 - Repreacutesentation

et de lrsquoespace col

Pour repreacutesenter s

drsquoabandonner une dimensipouvoir repreacutesenter danrepreacutesenteacutees soit par le niv

Figure 26 - Repreacutesentationdeacutecrite en 332 (en absciss

est repreacutesenteacutee agrave gauc

234 Diffeacuterents modes La visualisation est

indispensable pour veacuterifiesont possibles de ceux-cainsi reconstitueacutee agrave partir d

1 W+Y+02X pour le c

π 0 minusπ

de la table des couleurs dite HSV de Matlab (lineacuteaire agrave gauche) orimeacutetrique HSL (Hue Saturation Luminance agrave droite)

imultaneacutement angles et pertinence il eacutetait donc neacutecessaire on Crsquoest le deacutecoupage freacutequentiel qui a eacuteteacute mis de cocircteacute pour s un plan temps-angles les pertinences Celles-ci sont eau de gris des points soit par leur taille

de la pertinence des angles de la scegravene agrave 4 sources dont 1 mobile e les trames en ordonneacutees les angles en degreacute) La pertinence he par lrsquointensiteacute du bleu et agrave droite par la taille des points

drsquoeacutecoute

un indice preacutecis de reacutesultat mais lrsquoeacutecoute est tout de mecircme r la qualiteacute globale de la synthegravese Plusieurs modes drsquoeacutecoute i lrsquoeacutecoute au casque est la plus aiseacutee Une pseudo-steacutereacuteo est es signaux du 1er ordre1 pour restituer les scegravenes restreintes au

anal gauche et W-Y+02X pour le canal droit

Chapitre 2 Analyser un contenu HOA 20

plan horizontal Pour plus de preacutecision agrave la restitution ou pour des scegravenes en 3D et sans perdre la faciliteacute drsquoune eacutecoute personnelle au casque on peut appliquer des filtres HRTF (Head-Related Transfert Function) pour une reproduction binaurale

Pour appreacutecier pleinement la spatialisation la diffusion sur un systegraveme multi

haut-parleurs est indispensable Deux systegravemes sont installeacutes dans le laboratoire de France Teacuteleacutecom un systegraveme 51 et un systegraveme circulaire de 48 haut-parleurs Ces systegravemes installeacutes dans des studios insonoriseacutes offrent une grande qualiteacute drsquoeacutecoute qui permet de repeacuterer les deacutefauts mecircme minimes de la synthegravese

21

Chapitre 3

Description des analyses

31 Deacutetermination des directions principales

311 Base des algorithmes Nous avons deacuteveloppeacute plusieurs algorithmes reacutepondant aux diffeacuterents objectifs

deacutecrits plus haut Chacun drsquoeux possegravede des particulariteacutes leur permettant de reacutepondre agrave ces objectifs mais on trouve neacuteanmoins une partie commune Ainsi toutes les analyses reposent sur le mecircme modegravele drsquoapplication drsquoune ACP par sous-bandes dont voici le scheacutema geacuteneacuteral

Figure 31 - Scheacutema geacuteneacuteral drsquoanalyse

Les signaux en entreacutee sont les composantes HOA W X et Y dans la plupart des

cas mais peuvent ecirctre eacutegalement des composantes drsquoordre plus eacuteleveacute (voir 11) Sur le fenecirctrage jouent plusieurs paramegravetres comme la taille de la fenecirctre ou encore le pourcentage de recouvrement entre elles Nous avons choisi une fenecirctre en racine de la fenecirctre de Hanning crsquoest-agrave-dire une arche de sinusoiumlde (voir eacutequation (D7) en Annexe D) avec un recouvrement de 50 ce qui veacuterifie le critegravere de reconstruction parfaite (D6) Le filtrage est pour des raisons de rapiditeacute de calcul reacutealiseacute dans le domaine freacutequentiel par une simple multiplication avant de repasser en temporel pour appliquer lrsquoACP

Le banc de filtre utiliseacute est un banc inspireacute des filtres ERB Les filtres ERB

(Equivalent Regular Bandwidth) sont des filtres imitant le comportement de seacuteparation freacutequentielle de lrsquooreille humaine plus preacutecise en basse freacutequence Les filtres utiliseacutes ici ne sont pas directement des filtres ERB le systegraveme nrsquoa pas drsquointeacuterecirct particulier agrave essayer de copier le fonctionnement de lrsquooreille humaine Ces filtres ont eacuteteacute adapteacutes au problegraveme en

Chapitre 3 Description des analyses 22

srsquoassurant en particulier de la finesse des bandes permettant la meilleure discrimination des diffeacuterentes sources crsquoest-agrave-dire autour des fondamentales usuelles (200-1000 Hz) et des harmoniques Les freacutequences aigueumls sont bien discrimineacutees par les filtres ERB (relativement agrave la gamme crsquoest-agrave-dire en eacutechelle logarithmique) le deacutecoupage a donc surtout eacuteteacute densifieacute entre 200 et 800 Hz par rapport aux bandes ERB

Figure 32 - Filtres utiliseacutes inspireacutes des filtres ERB repreacutesenteacutes lineacuteairement (en haut)

et sur une eacutechelle logarithmique (en bas) Les reacutesultats de lrsquoACP sont donc avec cette meacutethode les angles des sources

trouveacutees dans chaque sous-bande ainsi que pour chacun drsquoeux un critegravere de pertinence calculeacute en fonction de lrsquoeacutenergie de la sous-bande dans une fenecirctre donneacutee et de la norme relative de la premiegravere composante de lrsquoACP (voir 342) Les autres vecteurs propres peuvent ecirctre utiliseacutes pour extraire davantage drsquoinformations et mecircme des signaux deacutecorreacuteleacutes comme on le verra au paragraphe 35 mais lrsquoanalyse semble alors moins robuste Srsquoen tenir aux informations donneacutees par la composante principale est un gage de pertinence suppleacutementaire

Ces reacutesultats concernent donc les sources preacutedominantes ou principales mais

laissent de cocircteacute un certain nombre drsquoeacuteveacutenements sonores agrave consideacuterer

312 Traitement du champ reacutesiduel Le champ reacutesiduel regroupe en quelque sorte tout ce qui nrsquoest pas une source

principale Il inclut donc les reacuteflexions et la reacuteverbeacuteration de la piegravece mais aussi les bruits parasites occasionnels ou continus (ventilation etc) Ces bruits ou eacutechos nrsquoont pas de direction de provenance assez distincte pour pouvoir ecirctre mesureacutee preacuteciseacutement Le champ reacutesiduel est eacutegalement composeacute du champ diffus La notion de champ diffus est couramment utiliseacutee mais rarement preacuteciseacutement deacutefinie On trouve dans la litteacuterature des deacutefinitions diverses lrsquoune drsquoelles preacutecisant qursquoil serait un ensemble drsquoeacuteveacutenements sonores proches en temps et provenant de directions eacutequiprobables

Les algorithmes proposeacutes traitent correctement les sources principales mais le

champ reacutesiduel est laisseacute de cocircteacute Il est pourtant tregraves important pour lrsquoimmersion du sujet dans la scegravene une scegravene deacutepourvue de champ sonore sera perccedilue comme artificielle ce qui nuit agrave la perception drsquoespace On sera par exemple davantage conscients drsquoecirctre au centre drsquoun dispositif expeacuterimental et moins sensibles aux variations de profondeur et de perspectives

31 Deacutetermination des directions principales 23

Neacuteanmoins il faut relativiser lrsquoimportance de ce champ reacutesiduel il nrsquoest pas utile pour la localisation des sources principales et ne caracteacuterise que lrsquoenvironnement drsquoenregistrement En outre le champ reacutesiduel qui provient souvent de directions floues et notre but nrsquoest pas de les preacuteciser artificiellement Il nrsquoest degraves lors geacuteneacuteralement pas utile de le transmettre aux ordres eacuteleveacutes

Ainsi certains auteurs [Merimaa and Pulkki 2005] ont choisi de recreacuteer lors drsquoune

synthegravese un champ diffus artificiel baseacute sur une reacuteponse impulsionnelle de salle calculeacutee agrave lrsquoavance Lrsquoavantage est une immersion un enveloppement complets lrsquoinconveacutenient est que lrsquoambiance ainsi recreacuteeacutee est fictive et arbitraire et en outre complegravetement indeacutependante de lrsquoambiance initiale en laissant notamment de cocircteacute les sources secondaires

Nous proposons dans nos algorithmes de ne pas syntheacutetiser le champ diffus aux

ordres eacuteleveacutes mais de nous contenter de la description du champ reacutesiduel fourni par les ordres transmis (1er ordre dans nos exemples) Nous nous limiterons donc agrave preacuteciser par la synthegravese des ordres supeacuterieurs les positions des sources principales

32 Extension agrave la 3D Nous avons pour le moment eacutevoqueacute le cas de repreacutesentations de champ sonore agrave

2 dimensions crsquoest-agrave-dire issus de sources placeacutees dans le plan horizontal Mais certaines repreacutesentations comportent eacutegalement des composantes verticales Pour analyser ces signaux en 3 dimensions il faut inteacutegrer la composante Z On effectue alors simplement une ACP sur X Y Z et W Le 1er vecteur propre sera alors bien dirigeacute dans lrsquoespace (X Y Z) dans la direction de la source lrsquoambiguiumlteacute de frac12 espace eacutetant leveacutee par W

Lrsquoalgorithme est alors complegravetement similaire agrave celui analysant des signaux en 2

dimensions Des tests ont eacuteteacute reacutealiseacutes agrave partir de signaux syntheacutetiques pour lesquels les positions des sources eacutetaient connues pour des raisons pratiques aucune scegravene sonore reacuteelle en 3 dimensions nrsquoa pu ecirctre enregistreacutee avec une connaissance initiale preacutecise des positions des sources

Les visualisations et les eacutecoutes eacutetant plus deacutelicates en 3D et lrsquoextension agrave la 3D

eacutetant immeacutediate nous avons donc concentreacute nos efforts sur lrsquoanalyse de scegravenes en 2D En outre en lrsquoabsence de dispositif spheacuterique ou heacutemispheacuterique de haut-parleurs le seul moyen agrave notre disposition pour eacutecouter une scegravene 3D est lrsquoeacutecoute binaurale crsquoest-agrave-dire au casque avec des fonctions de transfert de tecircte (HRTF) relativement bien adapteacutees agrave lrsquoauditeur

33 Analyse aux ordres supeacuterieurs

331 Description Afin drsquoameacuteliorer la preacutecision de lrsquoanalyse nous avons essayeacute drsquoappliquer une ACP

sur des signaux ambisoniques drsquoordre plus eacuteleveacute (signaux HOA) dans le plan horizontal Deux meacutethodes ont eacuteteacute essayeacutees

Chapitre 3 Description des analyses 24

La premiegravere consiste agrave appliquer une ACP agrave 3 dimensions successivement sur les composantes X Y W (ordre 1 et 0) puis U V W (ordre 2 et 0) et ainsi de suite crsquoest-agrave-dire (en utilisant la notation geacuteneacuterale) sur les composantes et W (ordre m et 0) Les reacutesultats de ces analyses (les directions des 1

)1(0mY )1(

0minus

mYegraveres composantes) sont ensuite regroupeacutees

lrsquoanalyse de lrsquoordre 1 fournissant des reacutesultats modulo 2π lrsquoanalyse de lrsquoordre 2 des reacutesultats plus preacutecis mais modulo π et plus geacuteneacuteralement lrsquoanalyse de lrsquoordre m permettant de trouver des angles modulo mπ2

La limite de cette approche se perccediloit lors de la fusion des reacutesultats les angles

trouveacutes agrave un ordre eacuteleveacute sont plus preacutecis dans des bandes de freacutequences eacuteleveacutees mais la limitation theacuteorique de ces signaux HOA dans les basses freacutequences font que lrsquoanalyse de lrsquoordre 1 reste la plus pertinente dans les premiegraveres bandes Parvenir agrave deacuteterminer agrave partir de quelle freacutequence on peut faire davantage confiance agrave lrsquoordre n+1 qursquoagrave lrsquoordre n nrsquoest pas aiseacute et cette limite provoque des aberrations dans les angles trouveacutes Une source unique pourra par exemple ecirctre interpreacuteteacutee par lrsquoalgorithme des k-moyennes (voir 341) comme 2 sources une en hautes freacutequences et une en basses freacutequences les 2 eacutetant trouveacutes agrave 2 angles diffeacuterents chaque angle relevant drsquoun ordre analyseacute diffeacuterent

La deuxiegraveme meacutethode consiste pour eacuteviter cette fusion des reacutesultats agrave effectuer

une seule ACP sur les composantes U V X Y et W Cette meacutethode souffre drsquoune tregraves grande complexiteacute algorithmique pour une ameacutelioration de la preacutecision peu sensible En effet si cette meacutethode permet drsquoobtenir des reacutesultats plus preacutecis dans certaines bandes de freacutequences elle est sensible aux deacutefauts et les limites des ordres supeacuterieurs (lrsquoabsence de basses freacutequences entre autres) perturbent lrsquoanalyse en composantes principales

332 Illustration sur une scegravene virtuelle La scegravene preacutesenteacutee ici est une scegravene artificielle crsquoest-agrave-dire composeacutee de sons

placeacutes artificiellement agrave diverses positions Elle a une dureacutee totale de 135 s et comporte 4 sources positionneacutees dans le plan horizontal une guitare placeacutee agrave 45deg une basse agrave -70deg une batterie agrave 110deg et une voix feacuteminine qui effectue continucircment un tour complet dans le sens indirect en partant de lrsquoarriegravere (elle passe donc successivement par les positions 180deg 90deg 0deg -90deg et -180deg) La guitare et la batterie srsquoarrecirctent peu avant la fin de la scegravene (12egraveme seconde au 910egraveme du son approximativement)

Figure 33 - Position des sources de la scegravene de test agrave 4 sources dont 1 mobile

33 Analyse aux ordres supeacuterieurs 25

Figure 34 - Angles drsquoune scegravene virtuelle ayant 1 source mobile et 3 sources fixes

(deacutecrite en 332) trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 Pour chaque trame (en abscisse) 20 angles (1 par bande en ordonneacutee et en degreacutes) sont

reporteacutes le diamegravetre du point correspondant agrave un critegravere de pertinence (voir 342)

Figure 35 - Angles de la mecircme scegravene trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 2 Reacutesultats modulo π reacutepliqueacutes pour faciliter la comparaison avec la figure preacuteceacutedente On remarque que les lignes sont plus nettes qursquoil y a moins drsquoangles aberrants et que

les angles corrects sont plus marqueacutes (ils sont deacutetermineacutes comme plus pertinent)

Chapitre 3 Description des analyses 26

20

0

20

0

20

0

Figure 36 - Angles drsquoune scegravene reacuteelle constitueacutee drsquoun bruit parcourant le cercle trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 (en haut) 0 et 2 (au milieu) et 0 et 4 (en bas) Le

numeacutero de trame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On retrouve qursquoune limitation des ordres HOA supeacuterieurs issus drsquoun enregistrement

microphonique est la restitution des basses freacutequences

34 Traitement des donneacutees

341 Algorithme des k-moyennes Agrave lrsquoissue de lrsquoanalyse en composantes principales on reacutecupegravere avec la premiegravere

des meacutethodes exposeacutees au chapitre preacuteceacutedent des angles correspondants aux positions des sources preacutedominantes agrave raison drsquoune valeur par fenecirctre et par bande de freacutequence Il faut agrave partir de ces donneacutees parvenir agrave isoler les sources crsquoest-agrave-dire agrave deacuteterminer quels sont les angles pertinents et examiner quels sont ceux qui agrave une certaine toleacuterance pregraves sont preacutesents dans plusieurs bandes de freacutequence etou plusieurs fenecirctres temporelles

Pour pouvoir exploiter ces donneacutees spatiales nous avons utiliseacute lrsquoalgorithme des

k-moyennes (ou k-means) [MacQueen 1967] sur les angles pondeacutereacutes par des critegraveres de pertinence Cet algorithme fonctionne de la maniegravere suivante

Initialisation choix de k barycentres (les k moyennes) Reacutepeacuteter Associer chaque eacuteleacutement au barycentre le plus proche Recalculer les positions des barycentres Jusqursquoagrave ce que les barycentres soient stables (ou au bout de t iteacuterations)

34 Traitement des donneacutees 27

Lrsquoavantage de cet algorithme est drsquoecirctre peu glouton puisqursquoil converge en O(tkn) ougrave t est le nombre drsquoiteacuterations k le nombre de centres et n le nombre de points (geacuteneacuteralement on a t k ltlt n) Par contre il est plutocirct sensible aux exceptions un point aberrant tirera agrave lui la moyenne auquel il aura eacuteteacute associeacute Il faut donc faire en sorte que ces points erroneacutes soient aussi rares que possibles Crsquoest pourquoi les angles traiteacutes sont pondeacutereacutes par 2 critegraveres de pertinence

La pondeacuteration des angles fournis en entreacutee de lrsquoalgorithme des k-moyennes se

fait de maniegravere simple en reacutepeacutetant ces angles un nombre de fois (de 0 agrave 10) proportionnel agrave un critegravere Ainsi un angle tregraves pertinent sera dupliqueacute et sera preacutesent plusieurs fois dans la liste des donneacutees traiteacutees attirant ainsi agrave lui la position du barycentre le plus proche Au contraire un angle trop peu pertinent ne sera pas reacutepeacuteteacute voir mecircme sera enleveacute de la liste

Le seul problegraveme de cet algorithme est qursquoil neacutecessite la connaissance de k crsquoest-

agrave-dire du nombre de sources qui composent la scegravene Une deacutetermination automatique se basant sur la reacutepeacutetition de lrsquoalgorithme avec un k croissant a eacuteteacute testeacutee mais le critegravere drsquoarrecirct reposant sur la dispersion des points autour des barycentres nrsquoeacutetant pas assez robuste cette meacutethode a provisoirement eacuteteacute mise de cocircteacute

342 Critegraveres de pertinence Les 2 critegraveres de pondeacuteration choisis sont lrsquoeacutenergie de la sous-bande dans la

fenecirctre donneacutee et le rapport de la norme de la 1egravere composante (la composante principale) de lrsquoACP sur la somme des normes de toutes les composantes

En effet un angle est trouveacute dans chaque sous-bande de chaque fenecirctre mecircme si

le signal y est tregraves faible Lrsquoangle trouveacute sera alors tregraves peu repreacutesentatif de la direction drsquoune source puisqursquoil indiquera la direction drsquoun bruit Lrsquoeacutenergie doit donc ecirctre prise en compte pour ne conserver que les angles trouveacutes dans des bandes comportant un signal suffisant

La norme relative de la 1egravere composante de lrsquoACP rend quant agrave elle compte du

poids relatif de cette composante par rapport aux autres Ainsi si 2 sources sont preacutesentes dans une bande donneacutee la 1egravere composante sera agrave peine plus marqueacutee que la 2egraveme Ceci peut ecirctre calculeacute en prenant simplement le rapport de la 1egravere valeur propre sur la somme des valeurs propres

On peut noter que la norme de la 1egravere composante ne se deacutetache nettement que

lorsqursquoun son est preacutesent dans la bande consideacutereacutee On peut alors se demander si lrsquoeacutenergie doit ecirctre prise en compte ou si lrsquoinformation qursquoelle contient nrsquoest comprise dans le 2egraveme critegravere En fait la norme relative est un critegravere tregraves bruiteacute et consideacuterer lrsquoeacutenergie par ailleurs permet de nuancer ces artefacts et constitue une base solide de pondeacuteration

Chapitre 3 Description des analyses 28

80

40

0

Figure 37 - Repreacutesentation temps-freacutequence des angles du son deacutecrit en 332 Letrame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On peut donc v

par trame et par bande chacun eacutetant le reacutesultat drsquoune ACP crsquoest-agrave-dire la 1egravere

Figure 38 - Eacutenergie de ce mecircme son On peut voir une basse en notes tenues uneet une batterie qui produit des sons secs dans un spectre plus aigu

80

40

0

80

40

0

Figure 39 - Norme relative de la 1egravere composante de ce mecircme son Les impacts de batterie (dans lrsquoaigu) ressortent davantage

π 0 minusπ

numeacutero de oir un angle direction

voix aiguumle

34 Traitement des donneacutees 29

Figure 310 - Pondeacuteration appliqueacutee agrave lrsquoentreacutee des k-moyennes calculeacutee ici comme

le simple produit de lrsquoeacutenergie et de la norme relative

80

40

0

343 Lissages

Pour faire face au bruit ineacutevitable dans les reacutesultats il faut lisser les donneacutees Ces

lissages temporels correspondent agrave des hypothegraveses de stabiliteacute des sources qui sont supposeacutees ecirctre fixes ou mobiles relativement lentement (dans une mesure agrave parameacutetrer)

Un premier lissage peut ecirctre opeacutereacute avant le traitement par lrsquoalgorithme des k-

moyennes Le filtre choisi est un filtre meacutedian de maniegravere agrave eacuteliminer les points aberrants tout en conservant les vraies valeurs des points coheacuterents Ce lissage est appliqueacute sur chaque sous-bande aux angles et ne tient pas compte des critegraveres de pertinence Il est donc utiliseacute avec parcimonie et peut mecircme ecirctre eacuteviteacute en reacuteglant de maniegravere adeacutequate les critegraveres de pondeacuteration agrave lrsquoentreacutee des k-moyennes

Le deuxiegraveme lissage srsquoeffectue agrave lrsquoentreacutee des k-moyennes en mecircme temps que les

critegraveres de pondeacuteration Il consiste agrave appliquer les k-moyennes non pas sur une fenecirctre donneacutee mais sur plusieurs fenecirctres conseacutecutives anteacuterieures et posteacuterieures en donnant plus de poids agrave la fenecirctre courante Dans la pratique les poids donneacutes aux diffeacuterentes fenecirctres sont eacutetablis par une gaussienne centreacutee sur la fenecirctre courante et de largeur agrave deacuteterminer (en fonction notamment de la dureacutee drsquoune fenecirctre et du type de scegravene analyseacute)

35 Exploitation de toutes les composantes de lrsquoACP Les analyses preacutesenteacutees preacuteceacutedemment ont toutes exploiteacute uniquement la

composante principale extraite par lrsquoACP Or cette analyse fournit des informations plus complegravetes par lrsquointermeacutediaire des autres composantes dont on peut tirer parti pour isoler plusieurs sources au sein drsquoune mecircme bande Cette approche est toujours en deacuteveloppement dans ce stage et nrsquoa pas encore donneacute pleine mesure des reacutesultats qursquoelle laisse entrevoir

Les composantes de lrsquoACP indiquent des directions qui correspondent aux

diffeacuterentes sources composant la scegravene sonore Les vecteurs propres de la matrice de correacutelation donnent ainsi les combinaisons lineacuteaires des signaux HOA permettant de

Chapitre 3 Description des analyses 30

seacuteparer de la meilleure faccedilon possible ces sons Ces directions peuvent ecirctre alors utiliseacutees pour former des directiviteacutes isolant au mieux ces sources

aBS sdot= (31)

ougrave la matrice a contient les vecteurs propres de la matrice de correacutelation (voir Annexe C) le vecteur B contient les signaux HOA et le vecteur S contient les sources extraites

⎟⎟⎟

⎜⎜⎜

=⎟⎟⎟

⎜⎜⎜

⎛=

⎥⎥⎥

⎢⎢⎢

⎟⎟⎟

⎜⎜⎜

⎟⎟⎟

⎜⎜⎜

⎛=

10

1001

1

ML

N

B

BB

S

SSuua MML (32)

On obtient ainsi des lobes drsquoautant plus eacutetroits que lrsquoordre est eacuteleveacute chacun

dirigeacute vers une source et permettant de lrsquoisoler le plus possible des contributions des autres sources La Figure 311 preacutesente les directiviteacutes ainsi trouveacutees par une ACP en pleine bande Une analyse en sous-bande permet une plus grande distinction des sources mais une seacuteparation diffeacuterente entre les bandes est dangereuse car elle risque de dissocier spatialement plusieurs parties drsquoun mecircme son

Figure 311 - Directiviteacutes seacuteparant ideacutealement 4 sources placeacutees agrave 17 73 195 et -58deg

pour une scegravene virtuelle encodeacutee agrave lrsquoordre 4 Ce principe se heurte neacuteanmoins aux limites de seacuteparation lieacutees agrave lrsquoordre

drsquoencodage en effet 2 sources ne pourront pas ecirctre seacutepareacutees si elles sont trop proches comme en teacutemoigne la largeur des lobes principaux Les lobes secondaires traduisent eacutegalement un meacutelange des sources isoleacutees La figure ci-dessus montre ainsi que la source placeacutee agrave 17deg (en vert) sera preacutesente de maniegravere non neacutegligeable dans le signal senseacute contenir la source placeacutee agrave -58deg (en bleu) en raison du lobe secondaire bleu important

31

Chapitre 4

Reacutesultats et applications

41 Illustration et critique des reacutesultats obtenus

411 Avant-propos Sans notification particuliegravere les reacutesultats preacutesenteacutes ont eacuteteacute obtenus avec un pas

de 50 ms une analyse en 80 bandes avec une FFT sur 8192 points Une taille de FTT plus grande et un plus grand nombre de bande augmente la qualiteacute de lrsquoanalyse un pas plus petit ameacuteliore sa preacutecision temporelle mais les reacutesultats sont moins fiables et un lissage plus important srsquoimpose alors Ces paramegravetres ont eacuteteacute reacutegleacutes apregraves de multiples essais sur des scegravenes diverses

Les reacutesultats sont preacutesenteacutes ici uniquement sous la forme de graphiques nous ne

pouvons donc repreacutesenter que les angles trouveacutes agrave la sortie de lrsquoalgorithme des k-moyennes

412 Scegravene 2D artificielle agrave 4 sources fixes La premiegravere scegravene est une scegravene artificielle composeacutee de 4 sons fixes placeacutes agrave -70

-10 45 et 110deg Ces sons (une basse une voix une guitare et une batterie) ont eacuteteacute choisis pour leur varieacuteteacute spectrale et leur varieacuteteacute drsquoattaque Elle a en outre le meacuterite drsquoecirctre reacutealiste et de constituer une seacutequence musicale (chaque son nrsquoest pas une meacutelodie indeacutependante)

On voit sur la Figure 41 ci-dessous que les angles trouveacutes sont proches des

angles theacuteoriques Lrsquoun des sons (agrave 45deg) est quasiment nul avant la 100egraveme trame sa position est alors moins facile agrave deacuteterminer plus preacuteciseacutement une position approximative est trouveacutee et correspondrait exactement agrave la position du bruit (45deg) si lrsquoincertitude de mesure tregraves grande pour un son aussi faible ne rendait la deacutetermination si ardue On mesure un eacutecart-type de 22deg sur cet exemple (en excluant le deacutebut du son agrave 45deg)

Chapitre 4 Reacutesultats et applications 32

Figure 41 - Angles theacuteoriques (en pointilleacutes rouge) et calculeacutes (en trait bleu) pour une scegravene

constitueacutee de 4 sons fixes longue de 11s

413 Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile

Figure 42 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) de la scegravene agrave

4 sources dont 1 mobile deacutecrite en 332 Cette scegravene est deacutecrite en 332 On a ici demandeacute aux k-moyennes de renvoyer 5 barycentres par trame alors que

seules 4 sources eacutetaient preacutesentes dans le but de se garantir une marge vis-agrave-vis des erreurs de deacutetection Cette 5egraveme direction nrsquoest pas du tout gecircnante elle indique une direction qui ne contient pas de source et crsquoest donc un son tregraves faible qui est ainsi pointeacute Apregraves une eacuteventuelle extraction le signal ne sera donc pas du tout gecircnant

41 Illustration et critique des reacutesultats obtenus 33

On peut remarquer que quand le son mobile se rapproche drsquoun son fixe la deacutetection est moins bonne il y a une fusion entre les 2 sons Mais encore une fois lors de lrsquoextraction lrsquoisolation drsquoun des sons englobera lrsquoautre son ce qui ne posera pas de problegraveme pour les objectifs fixeacutes aucune source nrsquoeacutetant oublieacutee En effet la seacuteparation de sources nrsquoest pas un objectif ici mais un moyen pour preacuteciser les positions des sources ce qui sera fait correctement mecircme si 2 sources sont pointeacutees par 1 seule direction

414 Scegravene 3D artificielle agrave une source et bruit de fond

La scegravene dont la position drsquoune source a eacuteteacute extraite ci-dessous est une scegravene virtuelle en 3D constitueacute drsquoun son (une voix) qursquoon a fait se deacuteplacer par paliers tout drsquoabord vers le haut de 0deg agrave 45deg et vers la gauche de 0deg agrave 90deg puis redescendre jusqursquoagrave 35deg en continuant son cheminement vers la gauche jusqursquoagrave 120deg et enfin finir la descente de 35deg agrave 0deg en la laissant agrave 120deg Agrave cette source a eacuteteacute superposeacutee une ambiance spatialiseacutee de hall drsquoaeacuteroport initialement enregistreacutee en 2D (au format 51) mais transformeacutee pour contenir des composantes verticales Cette ambiance deacutecorreleacutee de la source avait pour but de tester la robustesse de lrsquoanalyse Elle eacutetait agrave 15 dB en-dessous du niveau de la voix

Figure 43 - Azimut et eacuteleacutevation theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun

son en 3D artificiel de 9s placeacute dans une ambiance bruyante On remarque que lrsquoanalyse est tregraves correcte Il nrsquoy a pas drsquoeacutecart important entre

les angles theacuteoriques et ceux calculeacutes On note toutefois que le lissage agrave lrsquoentreacutee des k-moyennes a pour effet de gommer les creacuteneaux et drsquoaplatir quelque peu la courbe drsquoeacuteleacutevation ceci nrsquoest pas vraiment gecircnant car de tels sauts dans la position drsquoune source ne sont pas du tout reacutealistes (ils peuvent caracteacuteriser des bruits de pas mais de tels impacts sont courts et on peut srsquoattendre agrave ce que la courbe suive leur position aux instants ougrave ils sont eacutemis)

Chapitre 4 Reacutesultats et applications 34

415 Scegravene 2D naturelle agrave une source Les scegravenes naturelles sont on lrsquoa vu plus deacutelicates agrave exploiter car on ne peut pas

garantir la preacutecision de la position theacuteorique agrave retrouver par le calcul et on ne peut donc pas calculer la preacutecision de lrsquoanalyse Seuls les enregistrements utilisant la table tournante (voir 232) permettent une mesure preacutecise de la position de lrsquoangle Ces enregistrements on pu confirmer la validiteacute de lrsquoanalyse pour des scegravenes reacuteelles on trouve ici un eacutecart-type de 25deg

Figure 44 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun bruit blanc

tournant autour du micro enregistreacute en chambre sourde Cette analyse a eacuteteacute reacutealiseacutee par sous-bandes mais sur une eacutetendue freacutequentielle

plus reacuteduite puisqursquoon srsquoest limiteacute aux possibiliteacutes offertes par le microphone La scegravene a donc eacuteteacute analyseacutee de 200 agrave 10 000 Hz

42 Quelques applications

421 Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre 2 agrave partir de lrsquoordre 1

Une fois les positions des sources connues la porte est ouverte agrave de nombreuses

applications La connaissance de ces positions permet en effet de syntheacutetiser artificiellement des composantes manquantes ou non transmises La premiegravere synthegravese deacuteveloppeacutee est celle des signaux U et V composant la partie horizontale de lrsquoordre 2 agrave partir de lrsquoordre 1 et de paramegravetres issus de lrsquoanalyse pour une source en 2D (des angles dans de cas)

42 Quelques applications 35

Figure 45 - Principe de lrsquoameacutelioration de la preacutecision spatiale

Le principe de la synthegravese est drsquoextraire les sources originales agrave partir de W X Y

et des angles (un angle par trame et par sous-bande) Ceci peut ecirctre reacutealiseacute de maniegravere approcheacutee en deacutecodant lrsquoordre 1 dans les directions des sources Ce deacutecodage revient agrave calculer les signaux qui devraient alimenter des haut-parleurs qui seraient placeacutes agrave ces positions dans le cas drsquoune restitution (voir 122) crsquoest-agrave-dire agrave former des directiviteacutes dans les directions des sources Dans la plupart des cas ce deacutecodage qui fait intervenir une pseudo-inversion de Moore-Penrose (111) est imparfait les sources se retrouvant leacutegegraverement meacutelangeacutees On peut comparer cette seacuteparation agrave celle que ferait un ensemble de microphones agrave directiviteacute hypercardioiumlde coiumlncidents

Figure 46 - Directiviteacutes eacutequivalentes agrave la seacuteparation de 4 sources agrave lrsquoordre 1 Ces sources seacutepareacutees vont ensuite constituer toujours placeacutees aux angles

deacutetermineacutes agrave lrsquoanalyse une scegravene virtuelle qursquoon va encoder agrave lrsquoordre 2 De cet encodage on ne conservera que les signaux manquants dans notre exemple les signaux du 2nd ordre U et V Ainsi la scegravene spatialiseacutee sera au final constitueacutee des signaux W X et Y drsquoorigine (transmis) et des signaux U et V syntheacutetiseacutes

Chapitre 4 Reacutesultats et applications 36

422 Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave partir de W Reconstruire une scegravene sonore spatialiseacutee agrave partir drsquoun unique canal mono est

alors difficile et le reacutesultat nrsquoest appreacuteciable que pour des scegravenes simples Il faut pour cela que les diffeacuterentes sources composant cette scegravene aient des supports spectraux aussi distincts que possible Les diffeacuterentes sous-bandes sont alors placeacutees agrave un certain angle transmis en parallegravele et crsquoest cette scegravene reconstitueacutee qui va ecirctre encodeacutee au 1er ordre de maniegravere agrave recreacuteer les signaux X et Y

Figure 47 - Principe de la restitution de lrsquoordre 1 agrave partir du signal mono W Ce scheacutema rappelle une meacutethode deacuteveloppeacutee dans le cas steacutereacuteo appeleacutee BCC

(Binaural Cue Coding) [Faller and Baumgarte 2002] Le principe est drsquoextraire et coder des informations permettant la reconstruction binaurale drsquoun signal agrave savoir les diffeacuterences interaurales drsquointensiteacute et de temps (Interaural LevelTime Difference ILD et ITD) qui correspondent dans le cas drsquoune restitution sur un casque aux diffeacuterences drsquointensiteacute et de temps inter-canal (Inter-Channel LevelTime Difference ICLD et ICTD) qui sont mesureacutees agrave partir drsquoune analyse en sous-bandes Les auteurs y ont plus reacutecemment associeacute un indice de correacutelation interaurale mesureacute agrave partir de la correacutelation inter-canal (ICC) afin de caracteacuteriser la preacutecision spatiale (la ldquolargeurrdquo drsquoune source)

Figure 48 - Scheacutema de principe de la meacutethode BCC [Faller and Baumgarte 2003]

On observe en pratique des deacutefauts lieacutes agrave la brutaliteacute de la proceacutedure une sous-

bande ne peut ecirctre que placeacutee agrave la position indiqueacutee et ne peut pas rester floue diffuse ou encore ecirctre placeacutee agrave plusieurs endroits Pour y remeacutedier nous avons ajouteacute 2 traitements agrave la synthegravese Tour drsquoabord nous avons appliqueacute un leacuteger lissage soulageant les effets deacutesagreacuteables dus au saut du contenu drsquoune sous-bande drsquoun endroit agrave un autre entre de 2 fenecirctres conseacutecutives Les positions varient alors de faccedilon plus souple au sein drsquoune mecircme sous-bande traduisant une hypothegravese de continuiteacute spatiale (pas de deacuteplacement brusque) La contrepartie est que cette hypothegravese est lieacutee agrave une hypothegravese de continuiteacute spectrale

42 Quelques applications 37

La 2egraveme ameacutelioration concerne le positionnement des sources En incluant dans la transmission un critegravere de pertinence on peut savoir srsquoil est raisonnable de placer une sous-bande agrave un angle preacutecis ou bien si lrsquoanalyse eacutetait flou agrave son sujet auquel cas un positionnement impreacutecis serait preacutefeacuterable Le paramegravetre choisi est une combinaison des critegraveres eacutevoqueacutes en 342 il nous permet de placer la sous-bande de maniegravere plus ou moins prononceacutee

43 Comparaison avec une meacutethode existante Certains auteurs ont deacutejagrave essayeacute drsquoanalyser un contenu ambisonique pour

retrouver les positions des sources Ville Pulkki a ainsi deacutecrit dans [Pulkki and Faller 2006] une meacutethode drsquoanalyse du B-format baseacutee sur lrsquoeacutetude des amplitudes des signaux W X Y et Z

Figure 49 - X et Y dans le cas drsquoune sinusoiumlde placeacutee agrave 15deg (agrave gauche) et 120deg (agrave droite)

Les figures ci-dessus montrent les relations drsquoamplitudes (algeacutebriques) qui relient

X et Y agrave lrsquoangle de la source On voit que lrsquoanalyse de ces amplitudes respectives permet de retrouver la position de la source en effet on a pour une source unique les relations de lrsquoeacutequation (11) rappeleacutee ici

⎪⎪

⎪⎪

=

=

=

=

δ

δθ

δθ

sin2

cossin2

coscos2

SZ

SY

SX

SW

(41)

On peut donc theacuteoriquement retrouver les valeurs de θ et δ par relations

trigonomeacutetriques Ainsi on a

⎪⎪⎩

⎪⎪⎨

=

=

2)sin(

)tan(

WZ

XY

δ

θ (42)

Chapitre 4 Reacutesultats et applications 38

On peut donc trouver les angles θ et δ agrave π pregraves Pour lever lrsquoambiguiumlteacute une eacutetude de signe est neacutecessaire Mais dans le cas de θ le signe de X et de Y agrave δ fixeacute deacutepend aussi bien de θ que S Il faut srsquointeacuteresser aux signes de θcos et θsin crsquoest-agrave-dire

aux signes de WX et

WY Dans la pratique on srsquointeacuteressera aux signes de et

pour se preacutevenir des divisions par zeacuteros

XW sdot YW sdot

XW sdot et YW sdot sont proportionnels agrave toujours positif

2S

Les auteurs deacutecrivent eacutegalement dans leur article un critegravere appeleacute diffuseness qui

peut ecirctre compareacute agrave un critegravere de pertinence inverseacute Ce paramegravetre calculeacute par agrave 1 - R ougrave R est un rapport de normes est tregraves proche du critegravere de norme relative deacutecrit en 342 Il peut donc ecirctre utiliseacute de la mecircme faccedilon et permettre ainsi une pleine comparaison

Cette meacutethode a eacuteteacute impleacutementeacutee pour pouvoir ecirctre compareacutee avec la meacutethode

par ACP Tous les paramegravetres ont scrupuleusement eacuteteacute gardeacutes identiques et plusieurs reacuteglages ont eacuteteacute testeacutes Les courbes ci-dessous preacutesentent les reacutesultats des analyses de la scegravene deacutecrite en 332 avec un pas de 50ms un overlap de 50 un NFFT de 2048 et 40 bandes freacutequentielles Nous avons repreacutesenteacute tous les angles trouveacutes crsquoest-agrave-dire un par bande et par trame pour srsquoaffranchir de la seacutelection des k-moyennes

π

0

minusπ

Figure 410 - Angles trouveacutes par lrsquoalgorithme de [Pulkki and Faller 2006] Le diamegravetre du point correspondant agrave la pertinence

43 Comparaison avec une meacutethode existante 39

π

0

minusπ

Figure 411 - Angles trouveacutes par une ACP pour la mecircme scegravene On remarque que les points excentriques sont moins nombreux et plus rarement trouveacutes comme pertinents

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee

441 Position du problegraveme

Une application directe de ces analyses a eacuteteacute deacuteveloppeacutee pour la confeacuterence audio

spatialiseacutee La confeacuterence audio utilise en effet la spatialisation pour permettre une meilleure seacuteparation par lrsquooreille des diffeacuterents locuteurs Ainsi si plusieurs personnes parlent en mecircme temps il sera tregraves difficile de comprendre chacun individuellement si ces voix sont restitueacutees en mono mais on pourra focaliser lrsquoattention sur chacune drsquoentre elles si elles sont seacutepareacutees spatialement (crsquoest lrsquoeffet cocktail party [Cherry 1953])

Lrsquoobjectif eacutetait de veacuterifier qursquoil eacutetait possible de conserver la spatialisation drsquoune

confeacuterence en nrsquoayant transmis qursquoun downmix mono des signaux Ce concept semble se rapprocher de celui deacutecrit en 422 mais une diffeacuterence fondamentale les seacutepare la confeacuterence audio spatialiseacutee nrsquoest pas codeacutee au format ambisonic mais les signaux traiteacutes sont directement les sons provenant des diffeacuterents locuteurs crsquoest-agrave-dire les sources elles-mecircmes Ainsi lrsquoanalyse ne porte plus sur une scegravene spatialiseacutee mais sur des signaux seacutepareacutes Il nrsquoy a ainsi plus drsquoindices spatiaux agrave trouver

Avoir accegraves aux sources permet drsquoobtenir des informations plus preacutecises pour

permettre une seacuteparation apregraves la transmission Comme nous lrsquoavons vu lrsquoanalyse drsquoune scegravene spatialiseacutee ne permet que dans drsquoultimes cas agrave la seacuteparation des sources ce qui est ici notre point de deacutepart et sera en fait notre point drsquoarriveacutee En effet nous tenterons de retrouver les sources seacutepareacutees apregraves la transmission de maniegravere agrave pouvoir par la suite les spatialiser agrave loisir (voir Figure 413)

Chapitre 4 Reacutesultats et applications 40

442 Solution proposeacutee Les paramegravetres extraits ne sont donc plus des positions de sources Nous avons

choisi de mesurer puis transmettre lrsquoeacutenergie de chaque signal dans chaque sous-bande en parallegravele du downmix En effet une bonne seacuteparation sera possible si lrsquoon sait quelle proportion de chaque source compose chaque sous-bande du signal mono

Figure 412 - Scheacutema de principe drsquoune confeacuterence audio spatialiseacutee

Figure 413 - Scheacutema ameacutelioreacute (deacutebit reacuteduit)

en pointilleacutes informations compleacutementaires (eacutenergie) Lrsquoanalyse en sous-bandes a lieu dans le serveur (Figure 414) Celui-ci calcule

lrsquoeacutenergie de chaque signal dans chaque sous-bande sur une trame donneacutee Crsquoest ce paramegravetre qui associeacute au signal mono M permettra la seacuteparation des sources dans le terminal (Figure 415) Ce dernier reacutepartira en effet les diffeacuterentes sous-bandes vers chaque signal reconstitueacute proportionnellement agrave cette information pour reconstruire les 4 sources originales

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee 41

Figure 414 - Analyse principe de lrsquoencodage dans le serveur

Figure 415 - Synthegravese principe du deacutecodage dans le client

Afin de reacuteduire au maximum les informations compleacutementaires agrave transmettre on

peut remarquer qursquoau cours drsquoune confeacuterence audio on a tregraves souvent un seul locuteur les participants ne parlent que tregraves rarement tous en mecircme temps Ceci implique que les signaux en entreacutee sont tregraves souvent tous nuls sauf 1 et appliquer un seuil en entreacutee de lrsquoanalyse permet outre lrsquoallegravegement du traitement drsquoavoir moins de paramegravetres agrave transmettre

Ce scheacutema simplifieacute ne tient pas compte des problegravemes de phase rien nrsquoindique

que les eacutenergies des signaux srsquoajoutent bien dans chaque sous-bande lors du downmix on peut tregraves bien avoir des oppositions de phase La solution est drsquoeffectuer le downmix (la somme) des signaux dans chaque sous-bande en prenant soin drsquoavoir recaleacute les phases au preacutealable Ceci nrsquoa un sens que pour des bandes suffisamment eacutetroites Les deacutecalages temporels appliqueacutes pour le recalage sont alors des paramegravetres suppleacutementaires agrave transmettre et sont pris en compte lors de la synthegravese au niveau du reacutepartiteur qui repositionnera la phase de chaque trame pour chaque signal

Chapitre 4 Reacutesultats et applications 42

443 Bilan Le reacutesultat du deacutecodage a pu ecirctre eacutecouteacute de diffeacuterentes maniegraveres les sources

reconstitueacutees individuellement ensemble en steacutereacuteo drsquoamplitude et sur un systegraveme 51 On note que les sources ont eacuteteacute assez bien seacutepareacutees mais que des artefacts sont audibles en particulier lorsque le nombre de locuteurs simultaneacutes augmentent Ces artefacts sont un meacutelange des voix qui nrsquoest gecircnant que lorsqursquoon les eacutecoute de maniegravere seacutepareacutee En effet lrsquoeacutecoute simultaneacutee de ces signaux syntheacutetiseacutes mecircme placeacutes agrave des positions distinctes sur un systegraveme de diffusion multicanal est tout agrave fait satisfaisante

Ce proceacutedeacute pour pouvoir ecirctre appliqueacute doit fonctionner en temps-reacuteel Cette

contrainte nrsquoa pas du tout eacuteteacute prise en compte lrsquoobjectif eacutetant de valider la faisabiliteacute drsquoune reconstruction Les programmes sous Matlab nrsquoont pas eacuteteacute optimiseacutes et ne respectent pas cette contrainte

43

Conclusion Nous avons preacutesenteacute dans ce rapport le principe et lrsquoapplication de plusieurs

meacutethodes drsquoanalyses spatiales de scegravenes ambisoniques conccedilues et reacutealiseacutee pendant le stage Le format HOA est en effet une repreacutesentation du champ acoustique deacutecomposeacute sur une base drsquoharmoniques spheacuteriques jusqursquoagrave un certain ordre agrave la maniegravere drsquoun deacuteveloppement limiteacute Il contient donc de maniegravere indirecte des indications spatiales qursquoon peut extraire avec des analyses comme lrsquoanalyse en composantes principales

Ces analyses nous permettent de deacuteterminer les positions des sources qui

composent la scegravene sonore Nous avons appliqueacute les reacutesultats de ces analyses agrave 2 types de synthegravese lrsquoune destineacutee aux transmissions bas deacutebit lrsquoautre agrave un traitement de restitution de la preacutecision spatiale dans le cas ougrave des ordres supeacuterieurs dont le but est drsquoaffiner la perception de localisation nrsquoauraient pas pu ecirctre transmis Ces algorithmes par le codage drsquoinformations spatiales qursquoils permettent pourront trouver bien drsquoautres applications dans la transmission et le codage ougrave la description du contenu est de plus en plus utiliseacutee (comme par exemple dans la norme MPEG)

Des ameacuteliorations sont possibles sur plusieurs points tout drsquoabord lrsquoexploitation

de toutes les composantes de lrsquoACP est agrave lrsquoeacutetude et semble pouvoir donner des reacutesultats inteacuteressants Drsquoautre part on a vu que le reacutesultat final est tregraves deacutependant de la bonne convergence de lrsquoalgorithme des k-moyennes utiliseacute pour traiter les donneacutees brutes de lrsquoanalyse en sous-bandes Or cet algorithme neacutecessite des reacuteglages tregraves fins et une connaissance a priori du nombre de sources est presque indispensable Drsquoautres algorithmes plus complexes de suivi de formes pourraient ecirctre avantageusement utiliseacutes pour deacutetecter dans tous les angles trouveacutes lesquels sont susceptibles de former une trajectoire

45

Annexe A

Deacuteveloppement du champ acoustique en harmoniques spheacuteriques

A1 Eacutequation drsquoonde en coordonneacutees spheacuteriques On se place dans lrsquoespace euclidien agrave 3 dimensions muni drsquoun systegraveme de

coordonneacutees spheacuteriques Un point M y est repeacutereacute par son rayon r son azimut θ et son eacuteleacutevation δ tels que repreacutesenteacutes sur la figure ci-dessous

- r est la norme du vecteur position rr crsquoest-agrave-dire la distance OM - [20[ πθ isin est lrsquoangle formeacute par le projeteacute du point sur le plan xOy et lrsquoaxe Ox

- ]2

2

[ ππδ minusisin est lrsquoangle formeacute par le plan xOy et le vecteur position2

Figure A1 - Systegraveme de coordonneacutees spheacuteriques

2 Cet angle diffegravere de lrsquoangle polaire usuel δπϕ minus=

2 habituellement pris entre lrsquoaxe Oz et le

vecteur position

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 46

Les relations entre les coordonneacutees spheacuteriques et les coordonneacutees carteacutesiennes sont

⎪⎩

⎪⎨

===

δδθδθ

sincossincoscos

zryrx

(A1)

On srsquointeacuteresse dans ce repegravere agrave lrsquoeacutequation de propagation des ondes acoustiques

de pression On se place dans les conditions classiques drsquoacoustique lineacuteaire (les variations de p sont petites par rapport agrave la pression atmospheacuterique) en supposant que lrsquoair est un fluide parfait (on y neacutegligera les pheacutenomegravenes dissipatifs) Dans une reacutegion de lrsquoespace ne comprenant pas de sources lrsquoeacutequation drsquoonde srsquoeacutecrit alors

0)(12

2

2 =⎟⎟⎠

⎞⎜⎜⎝

⎛partpart

minus∆ trptc

r (A2)

p eacutetant la pression et c la vitesse de propagation du son dans lrsquoair

Cette eacutequation devient dans le domaine freacutequentiel lrsquoeacutequation de Helmholtz

( ) 0)(2 =+∆ ωrpk r (A3)

ck ω

= eacutetant le nombre drsquoonde

En coordonneacutees spheacuteriques cette eacutequation srsquoeacutecrit

0sin1sin

sin11 2

2

2

222

2 =⎥⎦

⎤⎢⎣

⎡+

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart pk

rrrr

rr δθθθ

θθ (A4)

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques Drsquoapregraves [Bruneau 1983] elle admet des solutions agrave variables seacutepareacutees de la forme

)()()( δθ ΦΘ= rRp (A5) Ces solutions sont respectivement - pour la partie radiale une combinaison des fonctions de Bessel spheacuteriques de

premiegravere et seconde espegravece3 jn et nn

)()()( krBnkrAjrR nn += (A6) 3 Les fonctions de Bessel spheacuteriques de seconde espegravece sont eacutegalement appeleacutees fonctions de

Neumann

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 47

Ces fonctions sont deacutefinies comme suit

(A7)

Figure A2 - Fonctions de Bessel spheacuteriques pour les ordres 0 agrave 5 )(krjm

- pour la partie azimutale les fonctions )(θΘ

)sin()cos()( 21 θθθ ncnc +=Θ (A8) Eacutetant donneacute la deacutefinition de lrsquoangle Θ celui-ci doit neacutecessairement ecirctre de

peacuteriode 2π ))2()(( πθθ +Θ=Θ ce qui impose agrave n drsquoecirctre entier

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 48

- pour la partie polaire les fonctions de Legendre associeacutees )(sinδmnP

nm

nn

mn dPdP

)(sin)(sinsin)(sin

δδ

δδ = pour ⎩⎨⎧

gt=

nmavecnm 321

(A9)

ougrave les )(sinδnP sont les polynocircmes de Legendre de degreacute n en δsin deacutefinis par reacutecurrence

( )

11

22

1

0

sin)12()(sin)1(

1cos321)(sin

sin)(sin0)(sin

minus+ minus+=+

minus=

==

mmm mPPmPmet

P

PP

δδ

ϕδ

δδδ

(A10)

et de formule geacuteneacuterale

mm

m

mm dd

mP )1(sin

)(sin21)(sin 2 minus= δ

δδ (A11)

On peut appliquer aux fonctions )(sinδmnP la semi-normalisation de Schmidt

)(sin)()()(sin~ δεδ mnnmn P

nmnmP

+minus

= ougrave 10 =ε et 2=nε pour 1gen (A12)

En appariant les fonctions polaires et azimutales on deacutefinit les harmoniques

spheacuteriques de degreacute et drsquoordre)1(mnY 0gem 4 mnn lele0 et de degreacute et

drsquoordre (voir Figure A3)

)1(minusmnY 1gem

mnn lele1

)(sin~)sin()(

)(sin~)cos()()1(

)1(

δθδθ

δθδθ

mnmn

mnmn

PnY

PnY

=

=minus

(A13)

4 En geacuteneacuteral lorsque le degreacute et lrsquoordre ne sont pas eacutevoqueacutes conjointement on parle par abus de langage drsquoharmoniques drsquoordre m plutocirct que de degreacute m

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 49

soit

1)(sin

)()()12(2sin)(

)(sin)()()12(2cos)(

1)(sin)1()1()12(cos)(

)1(

)1(

1)1(

1

gt

⎪⎪⎩

⎪⎪⎨

+minus

+=

+minus

+=

=+minus

+=

minus

npourP

nmnmmnY

PnmnmmnY

npourPmmmY

mnmn

mnmn

mm

δθδθ

δθδθ

δθδθ

(A14)

La solution angulaire geacuteneacuterale srsquoeacutecrit alors sous la forme drsquoun deacuteveloppement sur

la base drsquoharmoniques spheacuteriques

( ) ( )sum minus

=minus+=Θ

1

1)1()1()( n

m mnmnmnmnn YBYBθ (A15) La solution geacuteneacuterale est alors la seacuterie de Fourier-Bessel

sum sum sum+infin

= = plusmn=

=0 0 1

)()( )()()(m

m

nmnmnm

m YBkrjikrpσ

σσ δθδθ (A16)

ougrave

intint⎪⎩

⎪⎨⎧

minusisin

isin

plusmnplusmn =

]2

2

[

[20[

)1()1( )()1()(

1

ππδ

πθ

δθδθ

S

mnm

mmn dSYpkrji

B (A17)

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 50

Tableau A1 - Expressions analytiques des harmoniques spheacuteriques pour les ordres 0 agrave 3

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 51

Figure A3 - Repreacutesentation des harmoniques spheacuteriques pour les ordres m = 0 agrave 3 Les

couleurs rouge et bleu indiquent respectivement des valeurs positives et neacutegatives

53

Annexe B

Compleacutements theacuteoriques sur le deacutecodage HOA

B1 Vecteur veacutelociteacute et vecteur eacutenergie Le vecteur veacutelociteacute est un indice de la direction apparente drsquoune source introduit

par Gerzon [Gerzon 1992] Il se calcule comme le rapport de la vitesse particulaire sur la pression acoustique

)()(

)()(1

δθδθ

δθδθ

ρ rprp

ki

rprv

cV nabla

minus=minus=rrr

(B1)

Dans le cas drsquoune onde plane le vecteur veacutelociteacute V

rest ainsi directement un

vecteur unitaire orienteacute vers la direction de provenance de lrsquoonde En geacuteneacuteralisant agrave une superposition drsquoondes planes en phase ou opposition de phase eacutemises par L haut-parleurs agrave eacutequidistance du point drsquoobservation on obtient la formule suivante

VVL

ll

L

lll

urg

ugV r

rr

==

sum

sum

=

=

1

1 (B2)

ougrave deacutesigne la direction du llur egraveme haut-parleur auquel est associeacute le gain gl et Vr Vur correspondent respectivement agrave la norme et agrave la direction du vecteur veacutelociteacute

Le vecteur eacutenergie est un autre indice de direction Il est deacutefinit par

EEL

ll

L

lll

urg

ugE r

rr

==

sum

sum

=

=

1

2

1

2

(B3)

Annexe B Compleacutements theacuteoriques sur le deacutecodage HOA 54

Il peut srsquointerpreacuteter comme une indication de la concentration de lrsquoeacutenergie ( ) et de sa direction moyenne de provenance (

Er

Eur ) On a toujours 1ltEr sauf dans le cas ougrave un seul haut-parleur contribue agrave la reconstruction (dans ce cas ) peut ecirctre consideacutereacute comme un indicateur de preacutecision de la localisation

1=Er Er

B2 Deacutecodages optimiseacutes La restitution la plus confortable drsquoun champ sonore veillera donc agrave maximiser

tout en essayant de garder le plus proche possible de 1 Lrsquooptimisation du deacutecodage consiste alors agrave multiplier chaque coefficient de la matrice de deacutecodage D (voir (111) par des gains calculeacutes drsquoapregraves des critegraveres drsquooptimisation

Er Vr

Ainsi le deacutecodage appeleacute max- maximise la norme du vecteur eacutenergie en

sacrifiant celle du vecteur veacutelociteacute puisqursquoon a dans ce deacutecodage (pour des configurations reacuteguliegraveres de haut-parleurs) Ce deacutecodage est donc avantageux par rapport au deacutecodage basique pour les hautes freacutequences ou dans le cas drsquoun auditoire eacutelargi Le deacutecodage in-phase va encore plus loin en cherchant agrave annuler complegravetement les contributions des haut-parleurs placeacutes agrave lrsquoopposeacute de la direction de provenance de lrsquoonde reproduite Ce critegravere est utile dans le cas drsquoune eacutecoute dans une position tregraves excentreacutee agrave laquelle on pourrait percevoir de faccedilon preacutedominante la contribution en opposition de phase drsquoun tel haut-parleur

Er

EV rr =

Ces diffeacuterents deacutecodages ont chacun des avantages et inconveacutenients Ainsi seul le

deacutecodage basique garantit = 1 le deacutecodage max- permet une preacutecision meilleure notamment en haute freacutequence et le deacutecodage in-phase est plus adapteacute agrave un auditoire plus large Jeacuterocircme Daniel [Daniel 2000] propose ainsi de changer le deacutecodage en fonction de la freacutequence et de lrsquoeacutetendue de la zone drsquoeacutecoute deacutesireacutee

Vr Er

Figure B1 - Deacutecodages les plus approprieacutes par sous-bande et en fonction de lrsquoeacutetendue de la

zone drsquoeacutecoute [Daniel 2000]

55

Annexe C

Analyse en composantes principales

C1 Espace des donneacutees Eacutegalement souvent appeleacutee transformeacutee de Karhunen-Loegraveve5 (TKL) lrsquoanalyse en

composantes principales (ACP) est une technique statistique de repreacutesentation drsquoinformation Introduite sur 2 variables par Pearson [Pearson 1900] elle a eacuteteacute eacutetendue par Hotelling [Hotelling 1933] Elle a pour but de caracteacuteriser des donneacutees drsquoun espace agrave N dimensions dans un sous-espace plus petit en minimisant les pertes drsquoinformation due agrave la projection crsquoest-agrave-dire en maximisant la variance projeteacutee Les donneacutees ainsi reacuteorganiseacutees deviennent indeacutependantes Les variables correacuteleacutees sont remplaceacutees par de nouvelles variables deacutecorreacuteleacutees et de variance maximale combinaisons lineacuteaires des variables initiales

Les donneacutees sont constitueacutees de n variables aleacuteatoires (dans notre cas des canaux)

et p reacutealisations ou individus (des eacutechantillons)

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

pn

p

ji

n

xx

x

xx

M

LLL

MOMNM

MLLM

MNMOM

LLL

1

111

(C1)

Ces donneacutees sont geacuteneacuteralement centreacutees et peuvent aussi ecirctre reacuteduites4 (on note

1x la moyenne de la variable et 1x )( 1xσ sa variance) Reacuteduire ou non le nuage de points (ie les p reacutealisations de la variable aleacuteatoire) est un choix de modegravele

5 Quelques rares sources mentionnent une diffeacuterence entre ACP et TKL en placcedilant celle-ci au

niveau du choix de la reacuteduction des donneacutees dans le cas dune ACP les donneacutees seraient centreacutees et reacuteduites alors qursquoelles seraient uniquement centreacutees pour une TKL

Annexe C Analyse en composantes principales 56

- si on ne reacuteduit pas le nuage une variable agrave forte variance pourrait tirer tout lrsquoeffet de lrsquoACP agrave elle

- si on reacuteduit le nuage une variable qui ne serait qursquoun bruit se retrouverait avec une variance apparente eacutegale agrave une variable informative

M est centreacutee

⎥⎥⎥

⎢⎢⎢

minusminusminus

minusminus=

npn

pi

ji

nn

xxxxxx

xxxxM

K

MM

K

11

11

11

ˆ (C2)

M~ est centreacutee et reacuteduite

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

minusminus

minus

minusminus

=

)()(

)(

)()(~

1

11

1

1

111

n

npn

pi

ij

i

n

nn

xxx

xxx

xxx

xxx

xxx

M

σσ

σ

σσ

K

MM

K

(C3)

On multiplie ensuite la matrice obtenue par sa transposeacutee pour obtenir - La matrice de covariance MMC t

vˆˆ sdot=

- La matrice de correacutelation MMC tr

~~ sdot= Ces matrices sont carreacutees (N x N) symeacutetriques et reacuteelles Elles sont donc

diagonalisables dans une base orthonormeacutee 6 Le principe de lrsquoACP est alors de trouver un axe u issu drsquoune combinaison lineacuteaire

des tel que le critegravere drsquoinertie du nuage autour de cet axe soit maximal Le critegravere drsquoinertie couramment utiliseacute est la variance Il faut donc trouver lrsquoaxe qui porte le maximum de variance crsquoest-agrave-dire lrsquoaxe u tel que la projection du nuage sur cet axe ait une variance maximale

nx

6 Nos donneacutees eacutetant ici des valeurs drsquoeacutechantillons elles sont par nature centreacutees et reacuteduites On

formera donc naturellement la matrice de correacutelation

C2 Diagonalisation 57

C2 Diagonalisation Pour alleacuteger lrsquoeacutecriture de la suite de cette partie nous consideacutererons que les

variables ont eacuteteacute centreacutees et si besoin reacuteduites et nous noterons ces variables

transformeacutees (ainsi

ix ix

iii xxx minuslarr ou bien )( i

iii x

xxxσ

minuslarr ) On fera de mecircme pour M

( ou bien MM ˆlarr MM ~larr ) et C ( vCC larr ou bien rCC larr ) La projection drsquoun eacutechantillon sur un axe u srsquoeacutecrit ix

uMxiu sdot=)(π (C4) La variance empirique de )( iu xπ vaut donc

uMMuxx ttiu

tiu sdotsdotsdot=sdot )()( ππ (C5)

Or on a vu que est diagonalisable dans une base orthonormeacutee donc

on peut noter P le changement de base associeacute et ∆ la matrice diagonale formeacutee de son spectre Ainsi

MMC t=

n

i 1)(λ PPMMC tt ∆==

)()()()( PuPuuPPuxx ttt

iut

iu sdot∆sdot=sdot∆sdot=sdotππ (C6) On pose v = Pu Chercher lrsquoaxe u qui maximise )( iu xπ revient donc agrave chercher le

vecteur v qui maximise ougravevvt ∆ )( 1 ndiag λλ K=∆ avec les iλ rangeacutes par ordre deacutecroissant Ce vecteur est trivialement le premier vecteur unitaire et on a alors

1λ=∆vvt

Ainsi le vecteur qui porte la plus grande part drsquoinertie du nuage est le premier

vecteur propre de C (premier par norme deacutecroissante) De mecircme le deuxiegraveme vecteur qui explique la plus grandelt part de lrsquoinertie restante est le deuxiegraveme vecteur propre de C Finalement la question de lrsquoACP se ramegravene agrave un problegraveme de diagonalisation de la matrice de correacutelation

C3 Code Matlab

function [vep vap] = pca(f N) f donneacutees N nombre de composantes agrave garder cor = f f formation de la matrice de correacutelation [vep vap] = eig(cor) calcul des vecteurs (vep) et valeurs (vap) propres [vap ind] = sort(diag(vap)) tri des valeurs propres par ordre croissant vap = flipud(vap) disposition inverse par ordre drsquoimportance vep = vep( flipud(ind)) classement en conseacutequence des vecteurs propres vep = vep( 1N) on ne garde que les N premiers vecteurs propres

Annexe C Analyse en composantes principales 58

59

Annexe D

Analyse en sous-bandes

D1 La transformeacutee de Fourier agrave court terme (TFCT) Pour affiner lrsquoanalyse les signaux sont donc deacutecoupeacutes en bandes de freacutequence par

TFCT La TFCT consiste agrave effectuer des transformeacutees de Fourier discregravetes sur des portions de signal fenecirctreacutees reacuteguliegraverement espaceacutees

On rappelle que la transformeacutee de Fourier drsquoun signal x(t) est deacutefinie (lorsque

lrsquointeacutegrale existe) par

int+infin

infinminus

minus= dtetxfX ftiπ2)()( (D1)

La transformeacutee de Fourier agrave temps discret (TFTD) drsquoun signal x(t) srsquoeacutecrit

sum+infin

minusinfin=

minus=n

fnienxfX π2)()( (D2)

La transformeacutee de Fourier discregravete (TFD) drsquoun signal discret x(k) est deacutefinie par

sum+infin

minusinfin=

minus=

n

Nkni

enxkXπ2

)()( (D3)

La TFCT discregravete est une TFD observeacutee sur une fenecirctre wa de taille N

summinus

=

minus+=

1

0

2)())(()(

N

n

Nnki

aaa enwtnxkXπ

ττ (D4)

ougrave )(taτ est lrsquoinstant drsquoanalyse

Annexe D Analyse en sous-bandes 60

Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT [Laroche 1995]

D2 Synthegravese par addition-recouvrement Lors de la synthegravese apregraves le deacutecoupage et lrsquoanalyse des fenecirctres on cherche agrave

reconstruire le signal temporel agrave partir de sa repreacutesentation freacutequentielle Pour cela on utilise la meacutethode OLA (overlap and add addition-recouvrement) qui consiste agrave prendre la TFCT inverse des spectres Xt puis agrave additionner les signaux obtenus apregraves les avoir multiplieacutes par une fenecirctre de pondeacuteration en les faisant se recouvrir partiellement

Le reacutesultat est donneacute par

sum=

minusminus=T

tsss tnxtnwnx

s1

))((~))(()(~ ττ τ (D5)

avec )()( tt as ττ = et summinus

=

=1

0

2))((~1)(~ N

k

Nkni

s ektXN

nxs

π

τ τ

Lors de la mise en œuvre de ce traitement il faut srsquoassurer drsquoecirctre en mesure de

reconstruire parfaitement un signal lorsqursquoaucune transformation ne lui est appliqueacutee Le critegravere de reconstruction parfaite condition suffisante est alors

sum=

=minusminusT

tasaa tnwtnw

11))(())(( ττ quelque soit n (D6)

D2 Synthegravese par addition-recouvrement 61

Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add [Laroche 1995]

Plusieurs paramegravetres sont agrave choisir avec soin Le premier drsquoentre eux est le type

de fenecirctre agrave utiliser Les diffeacuterentes options qui se preacutesentent agrave nous sont - la fenecirctre rectangulaire qui preacutesente dans son spectre le lobe principal le plus

eacutetroit mais des lobes secondaires non neacutegligeables - la fenecirctre de Hamming au lobe principal un peu plus large mais pour laquelle le

1er lobe secondaire se situe agrave -43 dB - la fenecirctre de Hann (ou cosinus sureacuteleveacute) qui ressemble agrave la preacuteceacutedente avec un

1er lobe secondaire plus fort mais une pente de 18 dB par octave pour les lobes suivants

- les fenecirctres de Blackman-Harris aux lobes secondaires tregraves bas mais au lobe principal plus large

Fenecirctre Lobe 2aire

(dB) Pente

(dBoct) Bande passante

agrave 6 dB (bins) Rectangulaire -13 -6 121 Triangulaire -27 -12 178

Hann -32 -18 200 Hamming -43 -6 181

Blackman-Harris 4 -92 -6 272

Tableau D1 - Caracteacuteristiques des principales fenecirctres drsquoanalyse [Harris 1978] Le meilleur compromis est donc dans notre contexte la fenecirctre de Hann ou celle

de Hamming

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 7: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

1

Preacutesentation de France Teacuteleacutecom RampD Le groupe France Teacuteleacutecom est lrsquoun des principaux opeacuterateurs de

teacuteleacutecommunications au monde Creacuteeacutee en 1988 apregraves le scindement des PTT (Poste Teacuteleacutegraphe Teacuteleacutephone) en deux groupes France Teacuteleacutecom a longtemps beacuteneacuteficieacute du statut drsquoopeacuterateur historique Depuis 1997 France Teacuteleacutecom fonctionne en tant que socieacuteteacute anonyme

Le CNET Centre National drsquoEacutetude en Teacuteleacutecommunication a eacuteteacute creacuteeacute en 1944

dans le but de reacutetablir un reacuteseau de teacuteleacutecommunication en France En mars 2000 le CNET change de nom et devient France Teacuteleacutecom Recherche amp Deacuteveloppement

Le site France Teacuteleacutecom Division RampD agrave Lannion a eacuteteacute inaugureacute le 28 octobre

1963 Lrsquoeacutequipe son 3D y megravene des recherches sur la prise et la restitution du son la spatialisation sonore ainsi que sur les environnements acoustiques virtuels Elle participe eacutegalement activement agrave la normalisation MPEG-4

De nombreux travaux sont consacreacutes aux technologies de spatialisation binaurale

transaurale (avec la technique du steacutereacuteo-dipocircle) et ambisonique De nombreux brevets et publications deacutecoulent de ces recherches qui trouvent deacutejagrave des applications dans la confeacuterence audio spatialiseacutee et ouvrent des perspectives bien plus vastes

2

Introduction La reproduction sonore semble aujourdrsquohui ecirctre parfaitement maicirctriseacutee Mais

lrsquoest-elle vraiment Rien nrsquoest moins sucircr Reproduire un son signifie ldquoreproduire toutes ses proprieacuteteacutes telles qursquoelles existent dans une situation drsquoeacutecoute reacuteellerdquo (tel que rappeleacute dans [Nicol 1999]) Or le son est un pheacutenomegravene agrave quatre dimensions il eacutevolue dans le temps et dans les 3 dimensions de lrsquoespace Si le problegraveme de la reproduction temporelle peut ecirctre consideacutereacute comme reacutesolu la restitution spatiale est elle toujours agrave lrsquoeacutetude

La restitution drsquoune scegravene sonore (crsquoest-agrave-dire drsquoun ensemble drsquoeacuteveacutenements

sonores placeacutes agrave des positions et des instants preacutecis) passe par la reproduction du champ acoustique dans une zone donneacutee zone au moins assez grande pour qursquoon puisse y placer ses 2 oreilles Lrsquoauditeur pourra alors localiser preacuteciseacutement les sources constituant la scegravene agrave la fois en temps et dans lrsquoespace

Lrsquoobjectif du stage preacutesenteacute ici est de retrouver par le calcul ces informations agrave

partir de lrsquoanalyse de signaux de repreacutesentation du champ sonore 3D en particulier ceux issus de lrsquoencodage spatial de scegravenes sonores reacutealiseacute par la technologie Higher Order Ambisonics (HOA) Il srsquoagit de retrouver dans une scegravene HOA les positions qursquooccupaient les sources agrave chaque instant lors de lrsquoencodage

Cette analyse permet alors drsquoentrevoir des applications pour le codage et la

transmission etou lrsquoameacutelioration de contenu audio 3D la seacuteparation de sources ou bien encore la confeacuterence audio spatialiseacutee En effet une telle description de la scegravene permettrait de caracteacuteriser de maniegravere leacutegegravere une partie de lrsquoinformation transmise par les signaux HOA et ouvrirait mecircme lrsquoopportuniteacute drsquoun deacutemixage

Nous allons ici preacutesenter la technologie ambisonics puis les eacuteleacutements theacuteoriques et

pratiques de lrsquoanalyse des signaux HOA Les eacuteleacutements matheacutematiques sur lesquels repose ambisonics agrave savoir le deacuteveloppement drsquoun champ acoustique en harmoniques spheacuteriques sont deacuteveloppeacutes en Annexe A La lecture preacutealable de cette annexe nrsquoest pas indispensable agrave la compreacutehension du Chapitre 1 mais est vivement conseilleacutee

3

Chapitre 1

Ambisonics

11 Principe

111 Du B-format agrave HOA Lrsquoapproche ambisonique deacuteveloppeacutee dans les anneacutees 1970 par Gerzon [Gerzon

1973] [Gerzon 1985] a pour but de reconstruire au voisinage de la tecircte de lrsquoauditeur le champ sonore et ses caracteacuteristiques de propagation crsquoest-agrave-dire au minimum le champ de pression et son gradient Cette technique est cateacutegoriseacutee dans les techniques de panoramique drsquoamplitude ou agrave microphones coiumlncidents Le format orignal appeleacute B-format peut en fait ecirctre vu comme une restriction au 1er ordre drsquoune deacutecomposition du champ en harmoniques spheacuteriques (voir Annexe A) ou cylindriques (dans le cas drsquoune restriction agrave 2 dimensions) Le format HOA (Higher Order Ambisonics) est une extension de cette deacutecomposition agrave des ordres plus eacuteleveacutes permettant une reconstruction ameacutelioreacutee du champ (une meilleure approximation) dans une zone de restitution eacutelargie

Une grande speacutecificiteacute de lrsquoapproche ambisonique est de contenir directement

lrsquoinformation spatiale en codant le champ acoustique en un point de lrsquoespace indeacutependamment du systegraveme de restitution utiliseacute contrairement aux systegravemes de spatialisations classiques (steacutereacuteo 51hellip) Lrsquoencodage directionnel drsquoune onde plane S drsquoincidence u se traduit par les eacutequations

r

⎪⎪

⎪⎪

=

=

=

=

δ

δθ

δθ

sin2

cossin2

coscos2

SZ

SY

SX

SW

(11)

Le facteur de normalisation 2 a eacuteteacute introduit agrave lrsquoorigine pour srsquoassurer que les

composantes W X et Y aient une eacutenergie moyenne eacutegale dans le cas de lrsquoencodage drsquoun champ diffus horizontal

Chapitre 1 Ambisonics 4

Le B-format peut ecirctre vu comme une troncature au premier ordre de la deacutecomposition en seacuterie de Fourier-Bessel du champ sonore [Daniel 2000] Une troncature agrave un ordre plus eacuteleveacute (Higher Order Ambisonics) apporte alors agrave la reconstruction une meilleure qualiteacute tant en terme de preacutecision de lrsquoimage que de dimensions du sweet spot zone ougrave le champ original est restitueacute avec une toleacuterance donneacutee Cette zone tregraves petite pour lrsquoordre 1 (il faut veiller agrave se placer bien au centre du dispositif) est nous le verrons nettement eacutelargie aux ordres supeacuterieurs On atteint eacutegalement une discrimination angulaire plus fine Ces ordres supeacuterieurs eacutetant les termes suivants de la seacuterie de Fourier-Bessel une repreacutesentation HOA inclut les ordres infeacuterieurs constituant donc une repreacutesentation hieacuterarchique (ou scalable) du champ sonore

La chaicircne de traitement drsquoun systegraveme ambisonique se deacutecompose en plusieurs

eacutetapes (voir Figure 11) - lrsquoencodage spatial reacutealiseacute de maniegravere artificielle pour spatialiser une scegravene

syntheacutetique ou bien agrave partir de signaux naturels issus drsquoune structure multi-microphonique (voir Figure 12)

- une eacuteventuelle transformation des signaux HOA (compression ou

transformations lineacuteaires comme par exemple une rotation) - le deacutecodage spatial matriccedilage des signaux pour une diffusion adapteacutee au

dispositif drsquoeacutecoute

Figure 11 - Scheacutema global du principe de la technologie HOA [Moreau 2006]

11 Principe 5

Figure 12 - Prototype de microphone HOA drsquoordre 4 constitueacute de 32 capteurs omnidirectifs

reacutepartis sur une sphegravere en plastique rigide [Moreau 2006]

112 Repreacutesentation de scegravene sonore avec HOA La seacuterie de Fourier-Bessel (A16) en Annexe A) tronqueacutee agrave lrsquoordre M donne une

approximation de la repreacutesentation du champ sonore

sum sum sum= = plusmn=

=M

m

m

nmnmnm

mM YBkrjikrp

0 0 1)()()(

σ

σσ δθδθ (12)

La repreacutesentation drsquoordre M est composeacutee de signaux HOA en 3D

et

2)1( += MK12 += MK signaux HOA si on se contente du plan horizontal

Pour mesurer lrsquoerreur de reconstruction on peut utiliser le critegravere des moindres

carreacutes normaliseacute (NMSE pour Normalized Mean Square Error)

intint

intint minus=

S

SM

dSkrp

dSkrpkrpkre 2

2

)(

)()()(

δθ

δθδθ (13)

Dans le cas particulier drsquoune onde plane lrsquoerreur de reconstruction est

indeacutependante de lrsquoangle drsquoincidence et ne deacutepend que de lrsquoordre et du produit kr En rappelant que k est le nombre drsquoonde cfck πω 2== on srsquoaperccediloit que lrsquoerreur de reconstruction pour un ordre donneacute augmente quand on srsquoeacuteloigne du centre du systegraveme (r augmente) ou lorsque la freacutequence srsquoeacutelegraveve On remarque qursquoune erreur de 4 (-14 dB) est atteinte approximativement quand M = kr

Chapitre 1 Ambisonics 6

Figure 13 - Erreur de reconstruction drsquoune onde plane en fonction

de lrsquoordre M et du produit kr [Moreau et al 2006]

Figure 14 - Repreacutesentation dans le plan horizontal dans une zone de diamegravetre 1m de la

reconstruction drsquoune onde plane (agrave droite) pour plusieurs ordres et freacutequences Les niveaux de gris repreacutesentent la valeur de la pression acoustique Les courbes eacutetoileacutees indiquent la

limite des zones ougrave lrsquoerreur de reconstruction est infeacuterieure agrave 7 (-115 dB) [Moreau 2006]

12 Encodage et deacutecodage spatial 7

12 Encodage et deacutecodage spatial

121 Encodage spatial Drsquoun point de vue drsquoingeacutenieur du son lrsquoencodage spatial peut ecirctre vu comme un

panoramique drsquoamplitude Un preneur de son lrsquointerpreacutetera comme une capture par un jeu de microphones directifs coiumlncidents Un matheacutematicien verra plutocirct le lien avec la deacutecomposition en harmoniques spheacuteriques deacutecrite en Annexe A

Eacutetudions le cas drsquoune onde plane provenant de la direction )( pp δθ avec une

amplitude S Lrsquoexpression du champ de pression srsquoeacutecrit alors

γδθ cos)( jkrSekrp = (14)

soit encore

)(cos)()12()(0

γδθ mmm

m PkrjjmSkrp suminfin

=

+= (15)

ougrave γ deacutesigne lrsquoangle entre la direction (θ δ ) du point drsquoobservation et la direction

)( pp δθ de provenance de lrsquoonde Il vient ensuite

sum sumsum= plusmn=

infin

=

=m

nmnppmnm

m

m YYkrjjSkrp0 10

)()()()(σ

σσ δθδθδθ (16)

En identifiant cette eacutequation (16) avec la seacuterie de Fourier-Bessel (A16) nous

obtenons finalement lrsquoexpression de la transformeacutee de Fourier spheacuterique drsquoun champ de pression acoustique engendreacute par une onde plane [Moreau 2006]

)( ppmnmn YSB δθσσ = (17)

Les coefficients sont ainsi deacutefinis par la valeur des harmoniques spheacuteriques

dans la direction de provenance de lrsquoonde plane pondeacutereacutee par lrsquoamplitude

σmnB

S du signal transporteacute Ce sont ces coefficients qui constituent le signal ambisonique Des coefficients de normalisation ou de semi-normalisation sont ensuite appliqueacutes pour que les signaux soient drsquoeacutenergie moyenne eacutequivalente entre eux ( ) ou entre les diffeacuterents ordres ( ) (voir Annexe A Tableau A1)

DN 3α DSN 3αDSN 3α

DSN 3α Ces fonctions drsquoencodage peuvent ecirctre simplifieacutees dans le cas drsquoune restriction agrave 2

dimensions (plan horizontal) On ne conserve alors que 2 composantes par ordre celles qui deacutecrivent le plan horizontal crsquoest-agrave-dire veacuterifiant m = n Les coefficients de normalisation sont alors diffeacuterents et lrsquoangle δ est nul Les composantes restantes sont alors

Chapitre 1 Ambisonics 8

ordre notations eacutecriture 0 W 1

00B 1

X 111B θcos2

1 Y 1

11minusB θsin2

U 122B )2cos(2 θ

2 V 1

22minusB )2sin(2 θ

- 1mmB )cos(2 θm

m - 1minus

mmB )sin(2 θm Tableau 11 - Fonctions drsquoencodage ambisonique dans le plan horizontal

avec la convention de normalisation associeacutee (N2D) La figure suivante illustre lrsquoencodage spatial aux ordres 0 1 et 2 de 2 sources

placeacutees aux angles vθ et vθ dans le plan horizontal

ordres 0 et 1 ordre 2

Figure 15 - Encodage horizontal [Moreau et al 2006] Le coefficient (gain) appliqueacute agrave

chaque composante de chacune des 2 sources est donneacute par les intersections des flegraveches et des diagrammes des harmoniques

Comme on peut le voir sur cette figure un encodage au 1er ordre offre une

discrimination angulaire peu appuyeacutee alors que les 2 sources pourtant proches auront des coefficients tregraves diffeacuterents agrave lrsquoordre 2 (les points drsquointersection sont plus eacuteloigneacutes)

122 Deacutecodage spatial Lrsquoobjectif du deacutecodage est de restituer au mieux sur un systegraveme de diffusion

donneacute le champ sonore HOA Il faut ainsi calculer les signaux Sl agrave diffuser sur L haut-parleurs en fonction des composantes ambisoniques Ces σ

mnB L haut-parleurs peuvent ecirctre disposeacutes dans le plan horizontal ou dans un espace tridimensionnel Les deacutecodages les plus courants srsquoeffectuent sur une demi-sphegravere (cas 3D) ou un cercle (cas 2D) de

12 Encodage et deacutecodage spatial 9

haut-parleurs Crsquoest une opeacuteration matricielle qursquoon peut formaliser dans le cas drsquoun deacutecodage dans le plan horizontal par lrsquoeacutequation

BSC =sdot (18)

ougrave la matrice C contient les vecteurs harmoniques spheacuteriques associeacutes agrave chaque direction de haut-parleur et organiseacutes suivant ses lignes le vecteur S contient les signaux eacutemis par les L haut-parleurs et enfin le vecteur B contient les signaux HOA

⎟⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜⎜

=

⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜

=

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

=

10

100

2

1

1011

10

11111

111

10011

100

)()()(

)()()()(

M

mn

LLLMM

llmn

LL

LL

B

B

B

B

S

SS

S

YYY

YYYY

CM

M

M

L

MM

L

L

σσ

δθδθδθ

δθδθδθδθ

(19)

)( ll δθ repeacuterant la position du legraveme haut-parleur

Il faut donc estimer S connaissant B et C Le deacutecodage se reacutesume alors agrave un systegraveme de (M +1)2 (en 3D) ou 2M +1 (en 2D) eacutequations lineacuteaires agrave L inconnues On ne peut trouver de solution exacte que si le nombre de haut-parleurs est au moins eacutegal au nombre de signaux crsquoest-agrave-dire si L gt (M +1)2 (en 3D) ou 2M +1 (en 2D) Crsquoest en outre une condition neacutecessaire pour pouvoir avoir une reproduction homogegravene de la scegravene sonore

La matrice C nrsquoest pas neacutecessairement carreacutee et inversible une solution geacuteneacuterale

consiste agrave calculer lrsquoinverse geacuteneacuteraliseacutee de la matrice C noteacutee D encore appeleacutee pseudo-inverse de Moore-Penrose

BDS sdot= (110)

avec

1pinv( ) ( )t tD C C C C minus= = sdot sdot (111) D est appeleacutee matrice de deacutecodage BDS sdot= reacutesout le systegraveme (18) si les haut-

parleurs sont suffisamment nombreux L gt (M +1)2 (en 3D) ou 2M +1 (en 2D)) Srsquoils sont en outre disposeacutes sur une sphegravere (3D) ou un cercle (2D) de maniegravere eacutequidistante crsquoest-agrave-dire srsquoils sont les sommets drsquoun polyegravedre ou polygone reacutegulier ils preacuteservent alors la proprieacuteteacute drsquoorthonormaliteacute des harmoniques spheacuteriques Ceci se traduit par

Lt ILCC sdot=sdot (112)

ougrave IL est la matrice identiteacute de taille LLtimes On a alors

1pinv( ) tD CL

= = C (113)

Chapitre 1 Ambisonics 10

Cette proprieacuteteacute ne peut pas ecirctre matheacutematiquement veacuterifieacutee en 3D au-delagrave de lrsquoordre 2 autrement dit il nrsquoexiste pas de polyegravedre reacutegulier dont la position des sommets conserve strictement lrsquoorthonormaliteacute des harmoniques spheacuteriques

Visuellement le deacutecodage correspond agrave la reproduction du champ sonore tel qursquoil

aurait eacuteteacute capteacute par un ensemble de N microphones agrave directiviteacutes hyper-cardioiumldes tourneacutes chacun vers lrsquoun des haut-parleurs Leur directiviteacute serait drsquoautant plus preacutecise que lrsquoordre de reproduction est eacuteleveacute

Figure 16 - Prise de son virtuelle eacutequivalente agrave un encodage au 1er ordre et un deacutecodage

basique sur une disposition en 2D hexagonale [Moreau et al 2006] Le gain gl appliqueacute agrave chaque haut-parleur pour une direction de source virtuelle donneacutee

(en vert) est indiqueacute par la longueur des flegraveches et est reporteacutee aux points drsquointersection de la flegraveche verte et des diagrammes de directiviteacute

On peut remarquer que les diagrammes de directiviteacute sont tregraves larges par rapport

agrave lrsquoespacement angulaire des haut-parleurs Le 2nd ordre offrirait des directiviteacutes plus fines et donc une seacutelectiviteacute spatiale accrue Il faudrait alors bien sucircr davantage de haut-parleurs pour ne pas introduire des ldquotrousrdquo entre eux On remarque eacutegalement la preacutesence non neacutegligeable des lobes secondaires utiles pour la reconstruction du champ acoustique (notamment en basses freacutequences) mais qui peuvent ecirctre gecircnants dans certains cas par exemple lorsque lrsquoauditoire est large

Ce deacutecodage est appeleacute deacutecodage basique car il nrsquooptimise pas la restitution en

accord une quelconque hypothegravese et cherche uniquement agrave reproduire fidegravelement le champ acoustique Pour ameacuteliorer la restitution dans des cas critiques comme par exemple en-dehors du sweet spot (centre du dispositif) il faut optimiser le deacutecodage en reacuteduisant par exemple les lobes secondaires Ainsi le deacutecodage max-rE srsquoattache agrave maximiser lrsquoeacutenergie reccedilue de la provenance de la direction souhaiteacutee alors que le deacutecodage in-phase annule complegravetement ces lobes secondaires (voir Annexe B)

13 Critique de la technologie HOA 11

13 Critique de la technologie HOA

131 Bilan On a ainsi vu que la technologie HOA est une repreacutesentation intermeacutediaire du

champ de pression acoustique agrave mi-chemin entre la description directe du champ lui-mecircme et des signaux agrave restituer Cette technologie a de nombreux avantages compareacutee aux autres meacutethodes de reproduction de champ sonore (on trouvera notamment une eacutetude deacutetailleacutee des comparaisons entre HOA et la Wave Field Synthesis (WFS) dans [Daniel et al 2003]) elle permet drsquoeacuteviter le repliement spatial (voir paragraphe suivant) et permet ainsi une reconstruction dans une gamme de freacutequences tregraves large

La qualiteacute de la restitution ambisonique nrsquoest theacuteoriquement limiteacutee que part

lrsquoordre de troncature de la seacuterie de Fourier-Bessel agrave partir du moment ougrave le nombre de haut-parleurs est suffisant Ainsi un ordre tendant vers lrsquoinfini (et un nombre de haut-parleurs au moins aussi grand) permettra une reproduction quasi-parfaite sur lrsquoensemble de la zone drsquoeacutecoute

Mais les principaux avantages de cette technologie sont drsquoune part drsquoecirctre flexible

crsquoest-agrave-dire qursquoon peut agrave loisir adapter le nombre de signaux transmis au canal de transmission Une chute de deacutebit nrsquoentraicircnera pas de coupure de la transmission mais simplement une perte de preacutecision spatiale par lrsquoabandon des composantes drsquoordres les plus eacuteleveacutes Et drsquoautre part elle est indeacutependante du systegraveme de reproduction Ainsi un mecircme signal HOA pourra ecirctre diffuseacute sur toutes les configurations de haut-parleurs il suffira pour cela de calculer la matrice de deacutecodage associeacutee agrave ce systegraveme

132 Limites pratiques Dans la pratique cette technologie a toutefois des limitations Si lrsquoaliasing spectral

est eacuteviteacute on constate aux ordres les plus eacuteleveacutes lrsquoapparition drsquoun repliement spatial lors des enregistrements naturels agrave partir drsquoune freacutequence lieacutee agrave la distance maximale entre 2 capsules du microphone HOA (qui doit ecirctre au plus eacutegale agrave la moitieacute de la plus petite longueur drsquoonde drsquoapregraves Shannon) et au nombre total de capsules (qui doit ecirctre supeacuterieur agrave (M+1)2 M eacutetant lrsquoordre auquel on souhaite enregistrer)

Le repliement spectral repreacutesente la preacutesence importune dans des composantes

ambisoniques de sources qui de part leur position ne devraient qursquoapparaicirctre avec cette importance que dans les composantes drsquoordre plus eacuteleveacute Il est ducirc agrave lrsquointrusion des directiviteacutes drsquoordres supeacuterieurs dans les composantes harmoniques spheacuteriques estimeacutees Comme on le voit sur la Figure 17 les directiviteacutes ne sont pas des cylindres (au sens matheacutematique du terme la base nrsquoeacutetant pas forceacutement un cercle) mais varient en fonction de la freacutequence pour ressembler davantage dans le haut du spectre aux courbes de directiviteacute de lrsquoordre supeacuterieur Ainsi la directiviteacute de lrsquoordre 1 (2egraveme graphique) qui devrait ecirctre un 8 ressemble davantage au-dessus de 10 000 Hz agrave la figure de directiviteacute de lrsquoordre 4 (8 lobes)

Chapitre 1 Ambisonics 12

Figure 17 - Directiviteacutes theacuteoriques (en transparence) et reconstruites (grille) dans le plan horizontal pour des ondes planes horizontales Lrsquoaxe vertical correspond agrave la freacutequence et

les diffeacuterents graphiques aux ordres 0123 et 4 de gauche agrave droite Agrave lrsquoopposeacute la taille reacuteduite du microphone si elle permet de reacuteduire cet aliasing

spatial empecircche la capture des basses freacutequences aux ordres supeacuterieurs (voir 232) La reacutesolution spatiale des basses freacutequences sera donc moindre ce qui implique que en ajoutant lrsquoeffet du repliement en hautes freacutequences les ordres eacuteleveacutes capteacutes avec le micro HOA ne constituent qursquoune plage du spectre assez peu eacutetendue crsquoest cette seule plage qui pourra se targuer drsquoune excellente preacutecision spatiale

13

Chapitre 2

Analyser un contenu HOA

21 Objectifs La reacuteflexion a tout au long du stage eacuteteacute orienteacutee vers deux objectifs le premier

est dans un contexte de transmission de reconstruire une scegravene spatialiseacutee agrave partir du minimum drsquoinformations le deuxiegraveme appliqueacute agrave des ordres plus eacuteleveacutes est drsquoarriver agrave resyntheacutetiser les composantes de lrsquoordre immeacutediatement supeacuterieur

211 Restitution de la spatialisation agrave partir drsquoun downmix mono La premiegravere approche vise donc agrave reconstruire une scegravene spatialiseacutee agrave partir drsquoun

downmix le plus leacuteger possible Un downmix est une reacuteduction du nombre de canaux par fusion lrsquoexemple le plus simple eacutetant le passage drsquoun signal steacutereacuteo agrave un signal mono construit comme la demi-somme des composantes gauche et droite On tente dans cette approche de se restreindre au plus petit nombre de signaux possible un signal eacutetant tregraves coucircteux agrave transmettre en ajoutant parallegravelement agrave ce signal des informations compleacutementaires aidant agrave la reconstruction

Le cas extrecircme est la reacuteduction du flux agrave un signal mono Dans le cas

drsquoambisonics un signal mono comprenant toutes les sources est deacutejagrave preacutesent il srsquoagit de la composante omnidirectionnelle W Il faut donc extraire de la scegravene encodeacutee agrave un certain ordre M des informations permettant la reconstruction drsquoun ordre Mrsquo apregraves transmission Nous verrons que nous allons chercher agrave trouver les positions des sources gracircce agrave une analyse en composantes principales (ou ACP voir Annexe C) effectueacutee par sous-bandes (voir Annexe D)

212 Ameacutelioration de la preacutecision spatiale La deuxiegraveme piste suivie a pour but de reconstituer un ordre ambisonique non

transmis On pourrait qualifier cette approche drsquoupmix ambisonique car elle vise agrave reconstruire un ordre manquant En effet le format ambisonique eacutetant flexible il est bien

Chapitre 2 Analyser un contenu HOA 14

adapteacute agrave la transmission Ainsi si on souhaite transmettre une scegravene encodeacutee agrave lrsquoordre 2 dans le plan horizontal il faudra un canal drsquoun deacutebit minimum (si lrsquoon prend lrsquohypothegravese de pas vouloir compresser les signaux) de 471 Mos Un canal plus petit (par exemple 34 Mos) ne permettra theacuteoriquement de transmettre qursquoun ordre 1 Mais lrsquoanalyse des signaux peut permettre de deacuteterminer les positions des sources agrave partir desquelles on peut syntheacutetiser des composantes du 2nd ordre approchant les composantes drsquoorigine On pourrait mecircme imaginer pouvoir syntheacutetiser un ordre qui nrsquoavait pas eacuteteacute encodeacute agrave lrsquoorigine

Pour cela il est neacutecessaire de deacuteterminer les positions des sources preacutedominantes

dans le champ sonore pour piloter leur encodage spatial aux ordres supeacuterieurs et arriver agrave la synthegravese drsquoune repreacutesentation de reacutesolution spatiale accrue Il srsquoagit dans le mecircme temps drsquoisoler au mieux les signaux associeacutes agrave ces diffeacuterentes sources avant de leur appliquer lrsquoopeacuteration drsquoencodage on se rapproche donc drsquoun problegraveme de seacuteparation de sources

Pour parvenir agrave trouver ces positions deux meacutethodes ont eacuteteacute testeacutees La premiegravere

consiste comme preacuteceacutedemment agrave appliquer en sous-bandes une analyse en composantes principales La seconde implique la formation de directiviteacutes agrave partir des vecteurs propres de la matrice de correacutelation utiliseacutee dans cette analyse

Lrsquoanalyse en composantes principales ou ACP (voir Annexe C) est donc

largement privileacutegieacutee dans nos approches Elle permet en effet tregraves facilement drsquoextraire des informations preacutecises de signaux correacuteleacutes Pour justifier ce choix une autre meacutethode reacutecente a eacutegalement eacuteteacute testeacutee et compareacutee agrave lrsquoACP (voir 11)

22 Principe de lrsquoextraction drsquoinformation spatiale avec une ACP

221 Information spatiale

Nous avons donc tout drsquoabord testeacute lrsquoanalyse en composantes principales sur des

signaux HOA Nous avons choisi dans un premier temps de limiter lrsquoanalyse aux composantes horizontales du premier ordre W X et Y avant de lrsquoeacutetendre agrave la 3egraveme dimension avec Z

Dans un premier test les signaux HOA sont analyseacutes par une ACP dans leur

inteacutegraliteacute LrsquoACP est appliqueacutee sur les signaux X et Y qui contiennent lrsquoinformation spatiale En effet X et Y correspondent aux signaux qui seraient capteacutes par des microphones agrave figure en 8 placeacutes sur lrsquoaxe avant-arriegravere et gauche-droite respectivement

La Figure 21 montre la correacutelation entre X et Y dans le cas drsquoun bruit blanc capteacute

par le microphone ambisonique Les points ne sont pas exactement aligneacutes du fait des artefacts inheacuterents agrave la prise de son (reacuteflexions sur les parois approximations du microphone etc)

22 Principe de lrsquoextraction drsquoinformation spatiale avec une ACP 15

Figure 21 - Y en fonction de X dans le cas drsquoun bruit blanc enregistreacute placeacute agrave 30deg

On remarque que le nuage est eacutetireacute dans la direction de provenance du son indiqueacutee par la flegraveche en pointilleacutes verts

222 Application de lrsquoanalyse en composantes principales La 1egravere composante issue de lrsquoACP appliqueacutee dans le plan (X Y) pointe dans la

direction dans laquelle X et Y ont la plus grande correacutelation Or comme X contient lrsquoinformation placeacutee sur lrsquoaxe avant-arriegravere et Y lrsquoinformation de lrsquoaxe gauche-droite cette direction est directement la direction de la source Par exemple un son situeacute droit devant dans lrsquoaxe (agrave 0deg) aura une composante Y nulle et par conseacutequent les eacutechantillons seront dans le plan tous disposeacutes sur lrsquoaxe horizontal LrsquoACP prendra donc naturellement cet axe comme 1er vecteur propre et il pointe bien vers la position de la source De mecircme un son situeacute agrave 135deg ( π28

3 times rad) aura la proprieacuteteacute Y = -X Les eacutechantillons seront donc placeacutes sur la 2egraveme bissectrice qui fait avec lrsquoaxe Y=0 un angle de 135deg (voir Figure 22)

Figure 22 - Y en fonction de X dans le cas drsquoun son placeacute artificiellement dans la direction

indiqueacutee par la flegraveche en pointilleacutes verts agrave 0deg (agrave gauche) et 135deg (agrave droite)

Chapitre 2 Analyser un contenu HOA 16

Lrsquoanalyse de X et Y ne permet cependant de deacuteterminer lrsquoangle qursquoagrave π pregraves il reste une indeacutetermination (on deacutetermine la direction drsquoun axe qursquoil reste agrave orienter) Pour lever cette ambiguiumlteacute on integravegre W agrave lrsquoanalyse car cette composante pourtant omnidirectionnelle et donc deacutepourvue drsquoinformation spatiale apporte une reacutefeacuterence pour les phases Ainsi notre son placeacute agrave 135deg veacuterifiait (aux eacuteventuels coefficients de normalisation pregraves) Y = -X = W alors qursquoun son placeacute agrave 135 - 180 = -45deg aurait la proprieacuteteacute Y = -X = -W

Pour prendre en compte W dans lrsquoanalyse on peut comparer directement les

phases de ces 3 canaux Algorithmiquement on ramegravene lrsquoangle trouveacute agrave son modulo π2 puis on deacutetermine le vrai cadran par comparaison des phases de W X et Y crsquoest-agrave-dire en comparant le signe des produits W X et W Y Ainsi W X gt 0 signifie que W et X sont en phase et reacuteciproquement (voir Figure 23)

W X lt 0 W Y gt 0

W X gt 0 W Y gt 0

W X lt 0 W Y lt 0

W X gt 0 W Y lt 0

minusπ2

π

π2

0

Figure 23 - Signes de W X et W Y en fonction du cadran On peut eacutegalement inteacutegrer W agrave lrsquoanalyse en appliquant lACP sur le triplet (X Y

W) Le problegraveme drsquoambiguiumlteacute est ainsi reacutesolu la direction rechercheacutee eacutetant celle du vecteur principal dans le demi-espace W gt 0 projeteacutee sur le plan (X Y) Cette meacutethode srsquoavegravere plus robuste et surtout plus geacuteneacuteralisable agrave des ordres plus eacuteleveacutes

Cette analyse permet donc de deacuteterminer la position drsquoune source unique Pour

pouvoir seacuteparer plusieurs sources nous avons appliqueacute lrsquoACP par sous-bandes en supposant que les sources nrsquoont pas des supports freacutequentiels strictement identiques Le principe de cette analyse en sous-bandes est deacuteveloppeacute en Annexe D

23 Meacutethodologie

231 Construction de scegravenes artificielles Pour tester les algorithmes impleacutementeacutes nous avons ducirc creacuteer des scegravenes sonores

spatialiseacutees au format HOA Plusieurs types de scegravenes ont eacuteteacute utiliseacutes de complexiteacutes diffeacuterentes Les premiegraveres ont eacuteteacute des scegravenes virtuelles syntheacutetiseacutees avec Matlab Les premiegraveres scegravenes simplissimes ne comportait qursquoune sinusoiumlde ou un bruit blanc fixe placeacute dans le plan horizontal Puis pour tester lrsquoanalyse par sous-bandes ont eacuteteacute creacuteeacutes des sons polyphoniques composeacutes de 2 sinusoiumldes tout drsquoabord puis de sons complexes (syntheacutetiseacutes par synthegravese FM) dans des gammes freacutequentielles distinctes ou se

23 Meacutethodologie 17

chevauchant Enfin ces sons ont eacuteteacute rendus mobiles en faisant varier leur position dans le temps

Nous avons pu ainsi constater agrave lrsquoaide des sons fixes et de supports freacutequentiels

distincts la preacutecision de lrsquoanalyse et avec les sons mobiles et mecircleacutes sa robustesse Nous nous sommes limiteacutes sous Matlab agrave la geacuteneacuteration de 2 sons simultaneacutes et du 1er ordre et un autre outil Plogue Bidule a eacuteteacute utiliseacute pour composer des scegravenes plus complexes

Bidule est un studio modulaire virtuel ressemblant agrave MAXMSP Des plugins ont

eacuteteacute deacuteveloppeacutes agrave France Teacuteleacutecom pour permettre de manipuler des signaux HOA Ainsi des scegravenes complexes ont pu facilement ecirctre syntheacutetiseacutees agrave des ordres eacuteleveacutes Des scegravenes agrave 3 et 4 sources fixes ou dont 1 source mobile ont eacuteteacute reacutealiseacutees agrave partir de voix deacutemixeacutees placeacutees dans le plan horizontal ou en 3 dimensions

Ces scegravenes eacutetant artificielles elles sont en un sens ideacuteales ne contiennent aucun

signal reacuteverbeacutereacute (effet de salle) ni diffracteacute (par un micro) lrsquoencodage est fait sans artefacts les ondes sont consideacutereacutees comme planes et ont donc une direction bien deacutefinie Si on est ici bien loin de la vraie vie le gros avantage des scegravenes artificielles est qursquoon connaicirct preacuteciseacutement agrave chaque instant la position des sources et qursquoon peut ainsi veacuterifier le reacutesultat de lrsquoanalyse

Figure 24 - Interface graphique du logiciel Bidule avec agrave droite les controcircles des encodeurs

et deacutecodeurs HOA creacuteeacutes agrave France Teacuteleacutecom

Chapitre 2 Analyser un contenu HOA 18

232 Exploitation drsquoenregistrements naturels Une fois des reacutesultats convaincants obtenus avec des scegravenes virtuelles des

enregistrements naturels ont eacuteteacute analyseacutes Ces scegravenes ont eacuteteacute enregistreacutees gracircce au prototype de micro HOA du 4egraveme ordre deacuteveloppeacute agrave France Teacuteleacutecom (voir Figure 12) Ce processus implique des diffeacuterences notables avec un encodage virtuel

Le prototype de microphone contraint en effet agrave quelques compromis pour

optimiser des critegraveres incompatibles La taille du microphone reacutesulte drsquoun compromis entre la preacutecision drsquoestimation des composantes en basses freacutequences qui neacutecessite une taille eacuteleveacutee et la minimisation de lrsquoaliasing spatial qui ne peut ecirctre eacuteviteacute qursquoavec des capsules tregraves proches les unes des autres Leur disposition est eacutegalement irreacuteguliegravere il nrsquoexiste en fait aucune faccedilon de disposer reacuteguliegraverement plus de 20 points sur une sphegravere La configuration qui avait eacuteteacute retenue par les concepteurs [Moreau 2006] est la ldquomoins irreacuteguliegravere possiblerdquo au sens de la preacuteservation de lrsquoorthonormaliteacute des harmoniques spheacuteriques les 32 capsules sont reacuteparties sur une sphegravere de 35 cm de rayon selon un Pentaki-dodeacutecahegravedre polyegravedre semi-reacutegulier dual de lrsquoicosaegravedre tronqueacute (ballon de football)

Ces artefacts sont donc inheacuterents agrave lrsquoutilisation drsquoun reacuteseau de microphones Mais

le monde reacuteel pose eacutegalement des problegravemes deacutelicats La complexiteacute des modes de rayonnement drsquointeraction avec lrsquoenvironnement reacuteclame lrsquointroduction de modegraveles drsquoencodage beaucoup plus complexes que le cas drsquoune onde plane en champ libre et rend lrsquoinformation spatiale moins limpide et univoque au sein de la scegravene encodeacutee (enregistreacutee) en comparaison avec une scegravene virtuelle Les sources ne sont ainsi plus ponctuelles mais eacutetendues elles ne sont plus agrave lrsquoinfini mais agrave une distance finie du microphone (les ondes reccedilues ne sont donc plus planes) En outre chaque source en se reacutefleacutechissant sur les parois et les diffeacuterents objets de la salle creacutee une multitude de sources secondaires Il est enfin souvent difficile de connaicirctre avec preacutecision la position drsquoune source dans lrsquoespace lors drsquoun enregistrement

Des enregistrements en chambre sourde ont eacuteteacute reacutealiseacutes pour se passer des

reacuteflexions de lrsquoenvironnement Afin de connaicirctre avec preacutecision la position de la source un haut-parleur diffusant un bruit blanc nous avons placeacute le microphone sur une table tournante commandeacutee par un plug-in sous Plogue Bidule

233 Visualisations des reacutesultats Lrsquoobservation des reacutesultats a eacuteteacute effectueacutee de plusieurs maniegraveres visuellement et

par lrsquoeacutecoute Les graphiques eacutetant plus commodes crsquoest par cette voie que les premiers essais eacutetaient conclus Plusieurs types de graphiques ont eacuteteacute produits deacutecrivant des paramegravetres diffeacuterents

Les repreacutesentations temps-freacutequence permettent de repreacutesenter une variable agrave 1

dimension sous Matlab Cette voie a eacuteteacute suivie pour visualiser les paramegravetres extraits de chaque sous-bande de chaque fenecirctre notamment les angles lrsquoeacutenergie et la pertinence Malheureusement Matlab ne permet pas de repreacutesenter sur le mecircme graphique une 4egraveme dimension sous la forme drsquoune 2egraveme dimension colorimeacutetrique (on prend geacuteneacuteralement la

23 Meacutethodologie 19

saturation) Cette dimension suppleacutementaire aurait permis de repreacutesenter simultaneacutement les angles et leur pertinence

Figure 25 - Repreacutesentation

et de lrsquoespace col

Pour repreacutesenter s

drsquoabandonner une dimensipouvoir repreacutesenter danrepreacutesenteacutees soit par le niv

Figure 26 - Repreacutesentationdeacutecrite en 332 (en absciss

est repreacutesenteacutee agrave gauc

234 Diffeacuterents modes La visualisation est

indispensable pour veacuterifiesont possibles de ceux-cainsi reconstitueacutee agrave partir d

1 W+Y+02X pour le c

π 0 minusπ

de la table des couleurs dite HSV de Matlab (lineacuteaire agrave gauche) orimeacutetrique HSL (Hue Saturation Luminance agrave droite)

imultaneacutement angles et pertinence il eacutetait donc neacutecessaire on Crsquoest le deacutecoupage freacutequentiel qui a eacuteteacute mis de cocircteacute pour s un plan temps-angles les pertinences Celles-ci sont eau de gris des points soit par leur taille

de la pertinence des angles de la scegravene agrave 4 sources dont 1 mobile e les trames en ordonneacutees les angles en degreacute) La pertinence he par lrsquointensiteacute du bleu et agrave droite par la taille des points

drsquoeacutecoute

un indice preacutecis de reacutesultat mais lrsquoeacutecoute est tout de mecircme r la qualiteacute globale de la synthegravese Plusieurs modes drsquoeacutecoute i lrsquoeacutecoute au casque est la plus aiseacutee Une pseudo-steacutereacuteo est es signaux du 1er ordre1 pour restituer les scegravenes restreintes au

anal gauche et W-Y+02X pour le canal droit

Chapitre 2 Analyser un contenu HOA 20

plan horizontal Pour plus de preacutecision agrave la restitution ou pour des scegravenes en 3D et sans perdre la faciliteacute drsquoune eacutecoute personnelle au casque on peut appliquer des filtres HRTF (Head-Related Transfert Function) pour une reproduction binaurale

Pour appreacutecier pleinement la spatialisation la diffusion sur un systegraveme multi

haut-parleurs est indispensable Deux systegravemes sont installeacutes dans le laboratoire de France Teacuteleacutecom un systegraveme 51 et un systegraveme circulaire de 48 haut-parleurs Ces systegravemes installeacutes dans des studios insonoriseacutes offrent une grande qualiteacute drsquoeacutecoute qui permet de repeacuterer les deacutefauts mecircme minimes de la synthegravese

21

Chapitre 3

Description des analyses

31 Deacutetermination des directions principales

311 Base des algorithmes Nous avons deacuteveloppeacute plusieurs algorithmes reacutepondant aux diffeacuterents objectifs

deacutecrits plus haut Chacun drsquoeux possegravede des particulariteacutes leur permettant de reacutepondre agrave ces objectifs mais on trouve neacuteanmoins une partie commune Ainsi toutes les analyses reposent sur le mecircme modegravele drsquoapplication drsquoune ACP par sous-bandes dont voici le scheacutema geacuteneacuteral

Figure 31 - Scheacutema geacuteneacuteral drsquoanalyse

Les signaux en entreacutee sont les composantes HOA W X et Y dans la plupart des

cas mais peuvent ecirctre eacutegalement des composantes drsquoordre plus eacuteleveacute (voir 11) Sur le fenecirctrage jouent plusieurs paramegravetres comme la taille de la fenecirctre ou encore le pourcentage de recouvrement entre elles Nous avons choisi une fenecirctre en racine de la fenecirctre de Hanning crsquoest-agrave-dire une arche de sinusoiumlde (voir eacutequation (D7) en Annexe D) avec un recouvrement de 50 ce qui veacuterifie le critegravere de reconstruction parfaite (D6) Le filtrage est pour des raisons de rapiditeacute de calcul reacutealiseacute dans le domaine freacutequentiel par une simple multiplication avant de repasser en temporel pour appliquer lrsquoACP

Le banc de filtre utiliseacute est un banc inspireacute des filtres ERB Les filtres ERB

(Equivalent Regular Bandwidth) sont des filtres imitant le comportement de seacuteparation freacutequentielle de lrsquooreille humaine plus preacutecise en basse freacutequence Les filtres utiliseacutes ici ne sont pas directement des filtres ERB le systegraveme nrsquoa pas drsquointeacuterecirct particulier agrave essayer de copier le fonctionnement de lrsquooreille humaine Ces filtres ont eacuteteacute adapteacutes au problegraveme en

Chapitre 3 Description des analyses 22

srsquoassurant en particulier de la finesse des bandes permettant la meilleure discrimination des diffeacuterentes sources crsquoest-agrave-dire autour des fondamentales usuelles (200-1000 Hz) et des harmoniques Les freacutequences aigueumls sont bien discrimineacutees par les filtres ERB (relativement agrave la gamme crsquoest-agrave-dire en eacutechelle logarithmique) le deacutecoupage a donc surtout eacuteteacute densifieacute entre 200 et 800 Hz par rapport aux bandes ERB

Figure 32 - Filtres utiliseacutes inspireacutes des filtres ERB repreacutesenteacutes lineacuteairement (en haut)

et sur une eacutechelle logarithmique (en bas) Les reacutesultats de lrsquoACP sont donc avec cette meacutethode les angles des sources

trouveacutees dans chaque sous-bande ainsi que pour chacun drsquoeux un critegravere de pertinence calculeacute en fonction de lrsquoeacutenergie de la sous-bande dans une fenecirctre donneacutee et de la norme relative de la premiegravere composante de lrsquoACP (voir 342) Les autres vecteurs propres peuvent ecirctre utiliseacutes pour extraire davantage drsquoinformations et mecircme des signaux deacutecorreacuteleacutes comme on le verra au paragraphe 35 mais lrsquoanalyse semble alors moins robuste Srsquoen tenir aux informations donneacutees par la composante principale est un gage de pertinence suppleacutementaire

Ces reacutesultats concernent donc les sources preacutedominantes ou principales mais

laissent de cocircteacute un certain nombre drsquoeacuteveacutenements sonores agrave consideacuterer

312 Traitement du champ reacutesiduel Le champ reacutesiduel regroupe en quelque sorte tout ce qui nrsquoest pas une source

principale Il inclut donc les reacuteflexions et la reacuteverbeacuteration de la piegravece mais aussi les bruits parasites occasionnels ou continus (ventilation etc) Ces bruits ou eacutechos nrsquoont pas de direction de provenance assez distincte pour pouvoir ecirctre mesureacutee preacuteciseacutement Le champ reacutesiduel est eacutegalement composeacute du champ diffus La notion de champ diffus est couramment utiliseacutee mais rarement preacuteciseacutement deacutefinie On trouve dans la litteacuterature des deacutefinitions diverses lrsquoune drsquoelles preacutecisant qursquoil serait un ensemble drsquoeacuteveacutenements sonores proches en temps et provenant de directions eacutequiprobables

Les algorithmes proposeacutes traitent correctement les sources principales mais le

champ reacutesiduel est laisseacute de cocircteacute Il est pourtant tregraves important pour lrsquoimmersion du sujet dans la scegravene une scegravene deacutepourvue de champ sonore sera perccedilue comme artificielle ce qui nuit agrave la perception drsquoespace On sera par exemple davantage conscients drsquoecirctre au centre drsquoun dispositif expeacuterimental et moins sensibles aux variations de profondeur et de perspectives

31 Deacutetermination des directions principales 23

Neacuteanmoins il faut relativiser lrsquoimportance de ce champ reacutesiduel il nrsquoest pas utile pour la localisation des sources principales et ne caracteacuterise que lrsquoenvironnement drsquoenregistrement En outre le champ reacutesiduel qui provient souvent de directions floues et notre but nrsquoest pas de les preacuteciser artificiellement Il nrsquoest degraves lors geacuteneacuteralement pas utile de le transmettre aux ordres eacuteleveacutes

Ainsi certains auteurs [Merimaa and Pulkki 2005] ont choisi de recreacuteer lors drsquoune

synthegravese un champ diffus artificiel baseacute sur une reacuteponse impulsionnelle de salle calculeacutee agrave lrsquoavance Lrsquoavantage est une immersion un enveloppement complets lrsquoinconveacutenient est que lrsquoambiance ainsi recreacuteeacutee est fictive et arbitraire et en outre complegravetement indeacutependante de lrsquoambiance initiale en laissant notamment de cocircteacute les sources secondaires

Nous proposons dans nos algorithmes de ne pas syntheacutetiser le champ diffus aux

ordres eacuteleveacutes mais de nous contenter de la description du champ reacutesiduel fourni par les ordres transmis (1er ordre dans nos exemples) Nous nous limiterons donc agrave preacuteciser par la synthegravese des ordres supeacuterieurs les positions des sources principales

32 Extension agrave la 3D Nous avons pour le moment eacutevoqueacute le cas de repreacutesentations de champ sonore agrave

2 dimensions crsquoest-agrave-dire issus de sources placeacutees dans le plan horizontal Mais certaines repreacutesentations comportent eacutegalement des composantes verticales Pour analyser ces signaux en 3 dimensions il faut inteacutegrer la composante Z On effectue alors simplement une ACP sur X Y Z et W Le 1er vecteur propre sera alors bien dirigeacute dans lrsquoespace (X Y Z) dans la direction de la source lrsquoambiguiumlteacute de frac12 espace eacutetant leveacutee par W

Lrsquoalgorithme est alors complegravetement similaire agrave celui analysant des signaux en 2

dimensions Des tests ont eacuteteacute reacutealiseacutes agrave partir de signaux syntheacutetiques pour lesquels les positions des sources eacutetaient connues pour des raisons pratiques aucune scegravene sonore reacuteelle en 3 dimensions nrsquoa pu ecirctre enregistreacutee avec une connaissance initiale preacutecise des positions des sources

Les visualisations et les eacutecoutes eacutetant plus deacutelicates en 3D et lrsquoextension agrave la 3D

eacutetant immeacutediate nous avons donc concentreacute nos efforts sur lrsquoanalyse de scegravenes en 2D En outre en lrsquoabsence de dispositif spheacuterique ou heacutemispheacuterique de haut-parleurs le seul moyen agrave notre disposition pour eacutecouter une scegravene 3D est lrsquoeacutecoute binaurale crsquoest-agrave-dire au casque avec des fonctions de transfert de tecircte (HRTF) relativement bien adapteacutees agrave lrsquoauditeur

33 Analyse aux ordres supeacuterieurs

331 Description Afin drsquoameacuteliorer la preacutecision de lrsquoanalyse nous avons essayeacute drsquoappliquer une ACP

sur des signaux ambisoniques drsquoordre plus eacuteleveacute (signaux HOA) dans le plan horizontal Deux meacutethodes ont eacuteteacute essayeacutees

Chapitre 3 Description des analyses 24

La premiegravere consiste agrave appliquer une ACP agrave 3 dimensions successivement sur les composantes X Y W (ordre 1 et 0) puis U V W (ordre 2 et 0) et ainsi de suite crsquoest-agrave-dire (en utilisant la notation geacuteneacuterale) sur les composantes et W (ordre m et 0) Les reacutesultats de ces analyses (les directions des 1

)1(0mY )1(

0minus

mYegraveres composantes) sont ensuite regroupeacutees

lrsquoanalyse de lrsquoordre 1 fournissant des reacutesultats modulo 2π lrsquoanalyse de lrsquoordre 2 des reacutesultats plus preacutecis mais modulo π et plus geacuteneacuteralement lrsquoanalyse de lrsquoordre m permettant de trouver des angles modulo mπ2

La limite de cette approche se perccediloit lors de la fusion des reacutesultats les angles

trouveacutes agrave un ordre eacuteleveacute sont plus preacutecis dans des bandes de freacutequences eacuteleveacutees mais la limitation theacuteorique de ces signaux HOA dans les basses freacutequences font que lrsquoanalyse de lrsquoordre 1 reste la plus pertinente dans les premiegraveres bandes Parvenir agrave deacuteterminer agrave partir de quelle freacutequence on peut faire davantage confiance agrave lrsquoordre n+1 qursquoagrave lrsquoordre n nrsquoest pas aiseacute et cette limite provoque des aberrations dans les angles trouveacutes Une source unique pourra par exemple ecirctre interpreacuteteacutee par lrsquoalgorithme des k-moyennes (voir 341) comme 2 sources une en hautes freacutequences et une en basses freacutequences les 2 eacutetant trouveacutes agrave 2 angles diffeacuterents chaque angle relevant drsquoun ordre analyseacute diffeacuterent

La deuxiegraveme meacutethode consiste pour eacuteviter cette fusion des reacutesultats agrave effectuer

une seule ACP sur les composantes U V X Y et W Cette meacutethode souffre drsquoune tregraves grande complexiteacute algorithmique pour une ameacutelioration de la preacutecision peu sensible En effet si cette meacutethode permet drsquoobtenir des reacutesultats plus preacutecis dans certaines bandes de freacutequences elle est sensible aux deacutefauts et les limites des ordres supeacuterieurs (lrsquoabsence de basses freacutequences entre autres) perturbent lrsquoanalyse en composantes principales

332 Illustration sur une scegravene virtuelle La scegravene preacutesenteacutee ici est une scegravene artificielle crsquoest-agrave-dire composeacutee de sons

placeacutes artificiellement agrave diverses positions Elle a une dureacutee totale de 135 s et comporte 4 sources positionneacutees dans le plan horizontal une guitare placeacutee agrave 45deg une basse agrave -70deg une batterie agrave 110deg et une voix feacuteminine qui effectue continucircment un tour complet dans le sens indirect en partant de lrsquoarriegravere (elle passe donc successivement par les positions 180deg 90deg 0deg -90deg et -180deg) La guitare et la batterie srsquoarrecirctent peu avant la fin de la scegravene (12egraveme seconde au 910egraveme du son approximativement)

Figure 33 - Position des sources de la scegravene de test agrave 4 sources dont 1 mobile

33 Analyse aux ordres supeacuterieurs 25

Figure 34 - Angles drsquoune scegravene virtuelle ayant 1 source mobile et 3 sources fixes

(deacutecrite en 332) trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 Pour chaque trame (en abscisse) 20 angles (1 par bande en ordonneacutee et en degreacutes) sont

reporteacutes le diamegravetre du point correspondant agrave un critegravere de pertinence (voir 342)

Figure 35 - Angles de la mecircme scegravene trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 2 Reacutesultats modulo π reacutepliqueacutes pour faciliter la comparaison avec la figure preacuteceacutedente On remarque que les lignes sont plus nettes qursquoil y a moins drsquoangles aberrants et que

les angles corrects sont plus marqueacutes (ils sont deacutetermineacutes comme plus pertinent)

Chapitre 3 Description des analyses 26

20

0

20

0

20

0

Figure 36 - Angles drsquoune scegravene reacuteelle constitueacutee drsquoun bruit parcourant le cercle trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 (en haut) 0 et 2 (au milieu) et 0 et 4 (en bas) Le

numeacutero de trame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On retrouve qursquoune limitation des ordres HOA supeacuterieurs issus drsquoun enregistrement

microphonique est la restitution des basses freacutequences

34 Traitement des donneacutees

341 Algorithme des k-moyennes Agrave lrsquoissue de lrsquoanalyse en composantes principales on reacutecupegravere avec la premiegravere

des meacutethodes exposeacutees au chapitre preacuteceacutedent des angles correspondants aux positions des sources preacutedominantes agrave raison drsquoune valeur par fenecirctre et par bande de freacutequence Il faut agrave partir de ces donneacutees parvenir agrave isoler les sources crsquoest-agrave-dire agrave deacuteterminer quels sont les angles pertinents et examiner quels sont ceux qui agrave une certaine toleacuterance pregraves sont preacutesents dans plusieurs bandes de freacutequence etou plusieurs fenecirctres temporelles

Pour pouvoir exploiter ces donneacutees spatiales nous avons utiliseacute lrsquoalgorithme des

k-moyennes (ou k-means) [MacQueen 1967] sur les angles pondeacutereacutes par des critegraveres de pertinence Cet algorithme fonctionne de la maniegravere suivante

Initialisation choix de k barycentres (les k moyennes) Reacutepeacuteter Associer chaque eacuteleacutement au barycentre le plus proche Recalculer les positions des barycentres Jusqursquoagrave ce que les barycentres soient stables (ou au bout de t iteacuterations)

34 Traitement des donneacutees 27

Lrsquoavantage de cet algorithme est drsquoecirctre peu glouton puisqursquoil converge en O(tkn) ougrave t est le nombre drsquoiteacuterations k le nombre de centres et n le nombre de points (geacuteneacuteralement on a t k ltlt n) Par contre il est plutocirct sensible aux exceptions un point aberrant tirera agrave lui la moyenne auquel il aura eacuteteacute associeacute Il faut donc faire en sorte que ces points erroneacutes soient aussi rares que possibles Crsquoest pourquoi les angles traiteacutes sont pondeacutereacutes par 2 critegraveres de pertinence

La pondeacuteration des angles fournis en entreacutee de lrsquoalgorithme des k-moyennes se

fait de maniegravere simple en reacutepeacutetant ces angles un nombre de fois (de 0 agrave 10) proportionnel agrave un critegravere Ainsi un angle tregraves pertinent sera dupliqueacute et sera preacutesent plusieurs fois dans la liste des donneacutees traiteacutees attirant ainsi agrave lui la position du barycentre le plus proche Au contraire un angle trop peu pertinent ne sera pas reacutepeacuteteacute voir mecircme sera enleveacute de la liste

Le seul problegraveme de cet algorithme est qursquoil neacutecessite la connaissance de k crsquoest-

agrave-dire du nombre de sources qui composent la scegravene Une deacutetermination automatique se basant sur la reacutepeacutetition de lrsquoalgorithme avec un k croissant a eacuteteacute testeacutee mais le critegravere drsquoarrecirct reposant sur la dispersion des points autour des barycentres nrsquoeacutetant pas assez robuste cette meacutethode a provisoirement eacuteteacute mise de cocircteacute

342 Critegraveres de pertinence Les 2 critegraveres de pondeacuteration choisis sont lrsquoeacutenergie de la sous-bande dans la

fenecirctre donneacutee et le rapport de la norme de la 1egravere composante (la composante principale) de lrsquoACP sur la somme des normes de toutes les composantes

En effet un angle est trouveacute dans chaque sous-bande de chaque fenecirctre mecircme si

le signal y est tregraves faible Lrsquoangle trouveacute sera alors tregraves peu repreacutesentatif de la direction drsquoune source puisqursquoil indiquera la direction drsquoun bruit Lrsquoeacutenergie doit donc ecirctre prise en compte pour ne conserver que les angles trouveacutes dans des bandes comportant un signal suffisant

La norme relative de la 1egravere composante de lrsquoACP rend quant agrave elle compte du

poids relatif de cette composante par rapport aux autres Ainsi si 2 sources sont preacutesentes dans une bande donneacutee la 1egravere composante sera agrave peine plus marqueacutee que la 2egraveme Ceci peut ecirctre calculeacute en prenant simplement le rapport de la 1egravere valeur propre sur la somme des valeurs propres

On peut noter que la norme de la 1egravere composante ne se deacutetache nettement que

lorsqursquoun son est preacutesent dans la bande consideacutereacutee On peut alors se demander si lrsquoeacutenergie doit ecirctre prise en compte ou si lrsquoinformation qursquoelle contient nrsquoest comprise dans le 2egraveme critegravere En fait la norme relative est un critegravere tregraves bruiteacute et consideacuterer lrsquoeacutenergie par ailleurs permet de nuancer ces artefacts et constitue une base solide de pondeacuteration

Chapitre 3 Description des analyses 28

80

40

0

Figure 37 - Repreacutesentation temps-freacutequence des angles du son deacutecrit en 332 Letrame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On peut donc v

par trame et par bande chacun eacutetant le reacutesultat drsquoune ACP crsquoest-agrave-dire la 1egravere

Figure 38 - Eacutenergie de ce mecircme son On peut voir une basse en notes tenues uneet une batterie qui produit des sons secs dans un spectre plus aigu

80

40

0

80

40

0

Figure 39 - Norme relative de la 1egravere composante de ce mecircme son Les impacts de batterie (dans lrsquoaigu) ressortent davantage

π 0 minusπ

numeacutero de oir un angle direction

voix aiguumle

34 Traitement des donneacutees 29

Figure 310 - Pondeacuteration appliqueacutee agrave lrsquoentreacutee des k-moyennes calculeacutee ici comme

le simple produit de lrsquoeacutenergie et de la norme relative

80

40

0

343 Lissages

Pour faire face au bruit ineacutevitable dans les reacutesultats il faut lisser les donneacutees Ces

lissages temporels correspondent agrave des hypothegraveses de stabiliteacute des sources qui sont supposeacutees ecirctre fixes ou mobiles relativement lentement (dans une mesure agrave parameacutetrer)

Un premier lissage peut ecirctre opeacutereacute avant le traitement par lrsquoalgorithme des k-

moyennes Le filtre choisi est un filtre meacutedian de maniegravere agrave eacuteliminer les points aberrants tout en conservant les vraies valeurs des points coheacuterents Ce lissage est appliqueacute sur chaque sous-bande aux angles et ne tient pas compte des critegraveres de pertinence Il est donc utiliseacute avec parcimonie et peut mecircme ecirctre eacuteviteacute en reacuteglant de maniegravere adeacutequate les critegraveres de pondeacuteration agrave lrsquoentreacutee des k-moyennes

Le deuxiegraveme lissage srsquoeffectue agrave lrsquoentreacutee des k-moyennes en mecircme temps que les

critegraveres de pondeacuteration Il consiste agrave appliquer les k-moyennes non pas sur une fenecirctre donneacutee mais sur plusieurs fenecirctres conseacutecutives anteacuterieures et posteacuterieures en donnant plus de poids agrave la fenecirctre courante Dans la pratique les poids donneacutes aux diffeacuterentes fenecirctres sont eacutetablis par une gaussienne centreacutee sur la fenecirctre courante et de largeur agrave deacuteterminer (en fonction notamment de la dureacutee drsquoune fenecirctre et du type de scegravene analyseacute)

35 Exploitation de toutes les composantes de lrsquoACP Les analyses preacutesenteacutees preacuteceacutedemment ont toutes exploiteacute uniquement la

composante principale extraite par lrsquoACP Or cette analyse fournit des informations plus complegravetes par lrsquointermeacutediaire des autres composantes dont on peut tirer parti pour isoler plusieurs sources au sein drsquoune mecircme bande Cette approche est toujours en deacuteveloppement dans ce stage et nrsquoa pas encore donneacute pleine mesure des reacutesultats qursquoelle laisse entrevoir

Les composantes de lrsquoACP indiquent des directions qui correspondent aux

diffeacuterentes sources composant la scegravene sonore Les vecteurs propres de la matrice de correacutelation donnent ainsi les combinaisons lineacuteaires des signaux HOA permettant de

Chapitre 3 Description des analyses 30

seacuteparer de la meilleure faccedilon possible ces sons Ces directions peuvent ecirctre alors utiliseacutees pour former des directiviteacutes isolant au mieux ces sources

aBS sdot= (31)

ougrave la matrice a contient les vecteurs propres de la matrice de correacutelation (voir Annexe C) le vecteur B contient les signaux HOA et le vecteur S contient les sources extraites

⎟⎟⎟

⎜⎜⎜

=⎟⎟⎟

⎜⎜⎜

⎛=

⎥⎥⎥

⎢⎢⎢

⎟⎟⎟

⎜⎜⎜

⎟⎟⎟

⎜⎜⎜

⎛=

10

1001

1

ML

N

B

BB

S

SSuua MML (32)

On obtient ainsi des lobes drsquoautant plus eacutetroits que lrsquoordre est eacuteleveacute chacun

dirigeacute vers une source et permettant de lrsquoisoler le plus possible des contributions des autres sources La Figure 311 preacutesente les directiviteacutes ainsi trouveacutees par une ACP en pleine bande Une analyse en sous-bande permet une plus grande distinction des sources mais une seacuteparation diffeacuterente entre les bandes est dangereuse car elle risque de dissocier spatialement plusieurs parties drsquoun mecircme son

Figure 311 - Directiviteacutes seacuteparant ideacutealement 4 sources placeacutees agrave 17 73 195 et -58deg

pour une scegravene virtuelle encodeacutee agrave lrsquoordre 4 Ce principe se heurte neacuteanmoins aux limites de seacuteparation lieacutees agrave lrsquoordre

drsquoencodage en effet 2 sources ne pourront pas ecirctre seacutepareacutees si elles sont trop proches comme en teacutemoigne la largeur des lobes principaux Les lobes secondaires traduisent eacutegalement un meacutelange des sources isoleacutees La figure ci-dessus montre ainsi que la source placeacutee agrave 17deg (en vert) sera preacutesente de maniegravere non neacutegligeable dans le signal senseacute contenir la source placeacutee agrave -58deg (en bleu) en raison du lobe secondaire bleu important

31

Chapitre 4

Reacutesultats et applications

41 Illustration et critique des reacutesultats obtenus

411 Avant-propos Sans notification particuliegravere les reacutesultats preacutesenteacutes ont eacuteteacute obtenus avec un pas

de 50 ms une analyse en 80 bandes avec une FFT sur 8192 points Une taille de FTT plus grande et un plus grand nombre de bande augmente la qualiteacute de lrsquoanalyse un pas plus petit ameacuteliore sa preacutecision temporelle mais les reacutesultats sont moins fiables et un lissage plus important srsquoimpose alors Ces paramegravetres ont eacuteteacute reacutegleacutes apregraves de multiples essais sur des scegravenes diverses

Les reacutesultats sont preacutesenteacutes ici uniquement sous la forme de graphiques nous ne

pouvons donc repreacutesenter que les angles trouveacutes agrave la sortie de lrsquoalgorithme des k-moyennes

412 Scegravene 2D artificielle agrave 4 sources fixes La premiegravere scegravene est une scegravene artificielle composeacutee de 4 sons fixes placeacutes agrave -70

-10 45 et 110deg Ces sons (une basse une voix une guitare et une batterie) ont eacuteteacute choisis pour leur varieacuteteacute spectrale et leur varieacuteteacute drsquoattaque Elle a en outre le meacuterite drsquoecirctre reacutealiste et de constituer une seacutequence musicale (chaque son nrsquoest pas une meacutelodie indeacutependante)

On voit sur la Figure 41 ci-dessous que les angles trouveacutes sont proches des

angles theacuteoriques Lrsquoun des sons (agrave 45deg) est quasiment nul avant la 100egraveme trame sa position est alors moins facile agrave deacuteterminer plus preacuteciseacutement une position approximative est trouveacutee et correspondrait exactement agrave la position du bruit (45deg) si lrsquoincertitude de mesure tregraves grande pour un son aussi faible ne rendait la deacutetermination si ardue On mesure un eacutecart-type de 22deg sur cet exemple (en excluant le deacutebut du son agrave 45deg)

Chapitre 4 Reacutesultats et applications 32

Figure 41 - Angles theacuteoriques (en pointilleacutes rouge) et calculeacutes (en trait bleu) pour une scegravene

constitueacutee de 4 sons fixes longue de 11s

413 Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile

Figure 42 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) de la scegravene agrave

4 sources dont 1 mobile deacutecrite en 332 Cette scegravene est deacutecrite en 332 On a ici demandeacute aux k-moyennes de renvoyer 5 barycentres par trame alors que

seules 4 sources eacutetaient preacutesentes dans le but de se garantir une marge vis-agrave-vis des erreurs de deacutetection Cette 5egraveme direction nrsquoest pas du tout gecircnante elle indique une direction qui ne contient pas de source et crsquoest donc un son tregraves faible qui est ainsi pointeacute Apregraves une eacuteventuelle extraction le signal ne sera donc pas du tout gecircnant

41 Illustration et critique des reacutesultats obtenus 33

On peut remarquer que quand le son mobile se rapproche drsquoun son fixe la deacutetection est moins bonne il y a une fusion entre les 2 sons Mais encore une fois lors de lrsquoextraction lrsquoisolation drsquoun des sons englobera lrsquoautre son ce qui ne posera pas de problegraveme pour les objectifs fixeacutes aucune source nrsquoeacutetant oublieacutee En effet la seacuteparation de sources nrsquoest pas un objectif ici mais un moyen pour preacuteciser les positions des sources ce qui sera fait correctement mecircme si 2 sources sont pointeacutees par 1 seule direction

414 Scegravene 3D artificielle agrave une source et bruit de fond

La scegravene dont la position drsquoune source a eacuteteacute extraite ci-dessous est une scegravene virtuelle en 3D constitueacute drsquoun son (une voix) qursquoon a fait se deacuteplacer par paliers tout drsquoabord vers le haut de 0deg agrave 45deg et vers la gauche de 0deg agrave 90deg puis redescendre jusqursquoagrave 35deg en continuant son cheminement vers la gauche jusqursquoagrave 120deg et enfin finir la descente de 35deg agrave 0deg en la laissant agrave 120deg Agrave cette source a eacuteteacute superposeacutee une ambiance spatialiseacutee de hall drsquoaeacuteroport initialement enregistreacutee en 2D (au format 51) mais transformeacutee pour contenir des composantes verticales Cette ambiance deacutecorreleacutee de la source avait pour but de tester la robustesse de lrsquoanalyse Elle eacutetait agrave 15 dB en-dessous du niveau de la voix

Figure 43 - Azimut et eacuteleacutevation theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun

son en 3D artificiel de 9s placeacute dans une ambiance bruyante On remarque que lrsquoanalyse est tregraves correcte Il nrsquoy a pas drsquoeacutecart important entre

les angles theacuteoriques et ceux calculeacutes On note toutefois que le lissage agrave lrsquoentreacutee des k-moyennes a pour effet de gommer les creacuteneaux et drsquoaplatir quelque peu la courbe drsquoeacuteleacutevation ceci nrsquoest pas vraiment gecircnant car de tels sauts dans la position drsquoune source ne sont pas du tout reacutealistes (ils peuvent caracteacuteriser des bruits de pas mais de tels impacts sont courts et on peut srsquoattendre agrave ce que la courbe suive leur position aux instants ougrave ils sont eacutemis)

Chapitre 4 Reacutesultats et applications 34

415 Scegravene 2D naturelle agrave une source Les scegravenes naturelles sont on lrsquoa vu plus deacutelicates agrave exploiter car on ne peut pas

garantir la preacutecision de la position theacuteorique agrave retrouver par le calcul et on ne peut donc pas calculer la preacutecision de lrsquoanalyse Seuls les enregistrements utilisant la table tournante (voir 232) permettent une mesure preacutecise de la position de lrsquoangle Ces enregistrements on pu confirmer la validiteacute de lrsquoanalyse pour des scegravenes reacuteelles on trouve ici un eacutecart-type de 25deg

Figure 44 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun bruit blanc

tournant autour du micro enregistreacute en chambre sourde Cette analyse a eacuteteacute reacutealiseacutee par sous-bandes mais sur une eacutetendue freacutequentielle

plus reacuteduite puisqursquoon srsquoest limiteacute aux possibiliteacutes offertes par le microphone La scegravene a donc eacuteteacute analyseacutee de 200 agrave 10 000 Hz

42 Quelques applications

421 Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre 2 agrave partir de lrsquoordre 1

Une fois les positions des sources connues la porte est ouverte agrave de nombreuses

applications La connaissance de ces positions permet en effet de syntheacutetiser artificiellement des composantes manquantes ou non transmises La premiegravere synthegravese deacuteveloppeacutee est celle des signaux U et V composant la partie horizontale de lrsquoordre 2 agrave partir de lrsquoordre 1 et de paramegravetres issus de lrsquoanalyse pour une source en 2D (des angles dans de cas)

42 Quelques applications 35

Figure 45 - Principe de lrsquoameacutelioration de la preacutecision spatiale

Le principe de la synthegravese est drsquoextraire les sources originales agrave partir de W X Y

et des angles (un angle par trame et par sous-bande) Ceci peut ecirctre reacutealiseacute de maniegravere approcheacutee en deacutecodant lrsquoordre 1 dans les directions des sources Ce deacutecodage revient agrave calculer les signaux qui devraient alimenter des haut-parleurs qui seraient placeacutes agrave ces positions dans le cas drsquoune restitution (voir 122) crsquoest-agrave-dire agrave former des directiviteacutes dans les directions des sources Dans la plupart des cas ce deacutecodage qui fait intervenir une pseudo-inversion de Moore-Penrose (111) est imparfait les sources se retrouvant leacutegegraverement meacutelangeacutees On peut comparer cette seacuteparation agrave celle que ferait un ensemble de microphones agrave directiviteacute hypercardioiumlde coiumlncidents

Figure 46 - Directiviteacutes eacutequivalentes agrave la seacuteparation de 4 sources agrave lrsquoordre 1 Ces sources seacutepareacutees vont ensuite constituer toujours placeacutees aux angles

deacutetermineacutes agrave lrsquoanalyse une scegravene virtuelle qursquoon va encoder agrave lrsquoordre 2 De cet encodage on ne conservera que les signaux manquants dans notre exemple les signaux du 2nd ordre U et V Ainsi la scegravene spatialiseacutee sera au final constitueacutee des signaux W X et Y drsquoorigine (transmis) et des signaux U et V syntheacutetiseacutes

Chapitre 4 Reacutesultats et applications 36

422 Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave partir de W Reconstruire une scegravene sonore spatialiseacutee agrave partir drsquoun unique canal mono est

alors difficile et le reacutesultat nrsquoest appreacuteciable que pour des scegravenes simples Il faut pour cela que les diffeacuterentes sources composant cette scegravene aient des supports spectraux aussi distincts que possible Les diffeacuterentes sous-bandes sont alors placeacutees agrave un certain angle transmis en parallegravele et crsquoest cette scegravene reconstitueacutee qui va ecirctre encodeacutee au 1er ordre de maniegravere agrave recreacuteer les signaux X et Y

Figure 47 - Principe de la restitution de lrsquoordre 1 agrave partir du signal mono W Ce scheacutema rappelle une meacutethode deacuteveloppeacutee dans le cas steacutereacuteo appeleacutee BCC

(Binaural Cue Coding) [Faller and Baumgarte 2002] Le principe est drsquoextraire et coder des informations permettant la reconstruction binaurale drsquoun signal agrave savoir les diffeacuterences interaurales drsquointensiteacute et de temps (Interaural LevelTime Difference ILD et ITD) qui correspondent dans le cas drsquoune restitution sur un casque aux diffeacuterences drsquointensiteacute et de temps inter-canal (Inter-Channel LevelTime Difference ICLD et ICTD) qui sont mesureacutees agrave partir drsquoune analyse en sous-bandes Les auteurs y ont plus reacutecemment associeacute un indice de correacutelation interaurale mesureacute agrave partir de la correacutelation inter-canal (ICC) afin de caracteacuteriser la preacutecision spatiale (la ldquolargeurrdquo drsquoune source)

Figure 48 - Scheacutema de principe de la meacutethode BCC [Faller and Baumgarte 2003]

On observe en pratique des deacutefauts lieacutes agrave la brutaliteacute de la proceacutedure une sous-

bande ne peut ecirctre que placeacutee agrave la position indiqueacutee et ne peut pas rester floue diffuse ou encore ecirctre placeacutee agrave plusieurs endroits Pour y remeacutedier nous avons ajouteacute 2 traitements agrave la synthegravese Tour drsquoabord nous avons appliqueacute un leacuteger lissage soulageant les effets deacutesagreacuteables dus au saut du contenu drsquoune sous-bande drsquoun endroit agrave un autre entre de 2 fenecirctres conseacutecutives Les positions varient alors de faccedilon plus souple au sein drsquoune mecircme sous-bande traduisant une hypothegravese de continuiteacute spatiale (pas de deacuteplacement brusque) La contrepartie est que cette hypothegravese est lieacutee agrave une hypothegravese de continuiteacute spectrale

42 Quelques applications 37

La 2egraveme ameacutelioration concerne le positionnement des sources En incluant dans la transmission un critegravere de pertinence on peut savoir srsquoil est raisonnable de placer une sous-bande agrave un angle preacutecis ou bien si lrsquoanalyse eacutetait flou agrave son sujet auquel cas un positionnement impreacutecis serait preacutefeacuterable Le paramegravetre choisi est une combinaison des critegraveres eacutevoqueacutes en 342 il nous permet de placer la sous-bande de maniegravere plus ou moins prononceacutee

43 Comparaison avec une meacutethode existante Certains auteurs ont deacutejagrave essayeacute drsquoanalyser un contenu ambisonique pour

retrouver les positions des sources Ville Pulkki a ainsi deacutecrit dans [Pulkki and Faller 2006] une meacutethode drsquoanalyse du B-format baseacutee sur lrsquoeacutetude des amplitudes des signaux W X Y et Z

Figure 49 - X et Y dans le cas drsquoune sinusoiumlde placeacutee agrave 15deg (agrave gauche) et 120deg (agrave droite)

Les figures ci-dessus montrent les relations drsquoamplitudes (algeacutebriques) qui relient

X et Y agrave lrsquoangle de la source On voit que lrsquoanalyse de ces amplitudes respectives permet de retrouver la position de la source en effet on a pour une source unique les relations de lrsquoeacutequation (11) rappeleacutee ici

⎪⎪

⎪⎪

=

=

=

=

δ

δθ

δθ

sin2

cossin2

coscos2

SZ

SY

SX

SW

(41)

On peut donc theacuteoriquement retrouver les valeurs de θ et δ par relations

trigonomeacutetriques Ainsi on a

⎪⎪⎩

⎪⎪⎨

=

=

2)sin(

)tan(

WZ

XY

δ

θ (42)

Chapitre 4 Reacutesultats et applications 38

On peut donc trouver les angles θ et δ agrave π pregraves Pour lever lrsquoambiguiumlteacute une eacutetude de signe est neacutecessaire Mais dans le cas de θ le signe de X et de Y agrave δ fixeacute deacutepend aussi bien de θ que S Il faut srsquointeacuteresser aux signes de θcos et θsin crsquoest-agrave-dire

aux signes de WX et

WY Dans la pratique on srsquointeacuteressera aux signes de et

pour se preacutevenir des divisions par zeacuteros

XW sdot YW sdot

XW sdot et YW sdot sont proportionnels agrave toujours positif

2S

Les auteurs deacutecrivent eacutegalement dans leur article un critegravere appeleacute diffuseness qui

peut ecirctre compareacute agrave un critegravere de pertinence inverseacute Ce paramegravetre calculeacute par agrave 1 - R ougrave R est un rapport de normes est tregraves proche du critegravere de norme relative deacutecrit en 342 Il peut donc ecirctre utiliseacute de la mecircme faccedilon et permettre ainsi une pleine comparaison

Cette meacutethode a eacuteteacute impleacutementeacutee pour pouvoir ecirctre compareacutee avec la meacutethode

par ACP Tous les paramegravetres ont scrupuleusement eacuteteacute gardeacutes identiques et plusieurs reacuteglages ont eacuteteacute testeacutes Les courbes ci-dessous preacutesentent les reacutesultats des analyses de la scegravene deacutecrite en 332 avec un pas de 50ms un overlap de 50 un NFFT de 2048 et 40 bandes freacutequentielles Nous avons repreacutesenteacute tous les angles trouveacutes crsquoest-agrave-dire un par bande et par trame pour srsquoaffranchir de la seacutelection des k-moyennes

π

0

minusπ

Figure 410 - Angles trouveacutes par lrsquoalgorithme de [Pulkki and Faller 2006] Le diamegravetre du point correspondant agrave la pertinence

43 Comparaison avec une meacutethode existante 39

π

0

minusπ

Figure 411 - Angles trouveacutes par une ACP pour la mecircme scegravene On remarque que les points excentriques sont moins nombreux et plus rarement trouveacutes comme pertinents

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee

441 Position du problegraveme

Une application directe de ces analyses a eacuteteacute deacuteveloppeacutee pour la confeacuterence audio

spatialiseacutee La confeacuterence audio utilise en effet la spatialisation pour permettre une meilleure seacuteparation par lrsquooreille des diffeacuterents locuteurs Ainsi si plusieurs personnes parlent en mecircme temps il sera tregraves difficile de comprendre chacun individuellement si ces voix sont restitueacutees en mono mais on pourra focaliser lrsquoattention sur chacune drsquoentre elles si elles sont seacutepareacutees spatialement (crsquoest lrsquoeffet cocktail party [Cherry 1953])

Lrsquoobjectif eacutetait de veacuterifier qursquoil eacutetait possible de conserver la spatialisation drsquoune

confeacuterence en nrsquoayant transmis qursquoun downmix mono des signaux Ce concept semble se rapprocher de celui deacutecrit en 422 mais une diffeacuterence fondamentale les seacutepare la confeacuterence audio spatialiseacutee nrsquoest pas codeacutee au format ambisonic mais les signaux traiteacutes sont directement les sons provenant des diffeacuterents locuteurs crsquoest-agrave-dire les sources elles-mecircmes Ainsi lrsquoanalyse ne porte plus sur une scegravene spatialiseacutee mais sur des signaux seacutepareacutes Il nrsquoy a ainsi plus drsquoindices spatiaux agrave trouver

Avoir accegraves aux sources permet drsquoobtenir des informations plus preacutecises pour

permettre une seacuteparation apregraves la transmission Comme nous lrsquoavons vu lrsquoanalyse drsquoune scegravene spatialiseacutee ne permet que dans drsquoultimes cas agrave la seacuteparation des sources ce qui est ici notre point de deacutepart et sera en fait notre point drsquoarriveacutee En effet nous tenterons de retrouver les sources seacutepareacutees apregraves la transmission de maniegravere agrave pouvoir par la suite les spatialiser agrave loisir (voir Figure 413)

Chapitre 4 Reacutesultats et applications 40

442 Solution proposeacutee Les paramegravetres extraits ne sont donc plus des positions de sources Nous avons

choisi de mesurer puis transmettre lrsquoeacutenergie de chaque signal dans chaque sous-bande en parallegravele du downmix En effet une bonne seacuteparation sera possible si lrsquoon sait quelle proportion de chaque source compose chaque sous-bande du signal mono

Figure 412 - Scheacutema de principe drsquoune confeacuterence audio spatialiseacutee

Figure 413 - Scheacutema ameacutelioreacute (deacutebit reacuteduit)

en pointilleacutes informations compleacutementaires (eacutenergie) Lrsquoanalyse en sous-bandes a lieu dans le serveur (Figure 414) Celui-ci calcule

lrsquoeacutenergie de chaque signal dans chaque sous-bande sur une trame donneacutee Crsquoest ce paramegravetre qui associeacute au signal mono M permettra la seacuteparation des sources dans le terminal (Figure 415) Ce dernier reacutepartira en effet les diffeacuterentes sous-bandes vers chaque signal reconstitueacute proportionnellement agrave cette information pour reconstruire les 4 sources originales

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee 41

Figure 414 - Analyse principe de lrsquoencodage dans le serveur

Figure 415 - Synthegravese principe du deacutecodage dans le client

Afin de reacuteduire au maximum les informations compleacutementaires agrave transmettre on

peut remarquer qursquoau cours drsquoune confeacuterence audio on a tregraves souvent un seul locuteur les participants ne parlent que tregraves rarement tous en mecircme temps Ceci implique que les signaux en entreacutee sont tregraves souvent tous nuls sauf 1 et appliquer un seuil en entreacutee de lrsquoanalyse permet outre lrsquoallegravegement du traitement drsquoavoir moins de paramegravetres agrave transmettre

Ce scheacutema simplifieacute ne tient pas compte des problegravemes de phase rien nrsquoindique

que les eacutenergies des signaux srsquoajoutent bien dans chaque sous-bande lors du downmix on peut tregraves bien avoir des oppositions de phase La solution est drsquoeffectuer le downmix (la somme) des signaux dans chaque sous-bande en prenant soin drsquoavoir recaleacute les phases au preacutealable Ceci nrsquoa un sens que pour des bandes suffisamment eacutetroites Les deacutecalages temporels appliqueacutes pour le recalage sont alors des paramegravetres suppleacutementaires agrave transmettre et sont pris en compte lors de la synthegravese au niveau du reacutepartiteur qui repositionnera la phase de chaque trame pour chaque signal

Chapitre 4 Reacutesultats et applications 42

443 Bilan Le reacutesultat du deacutecodage a pu ecirctre eacutecouteacute de diffeacuterentes maniegraveres les sources

reconstitueacutees individuellement ensemble en steacutereacuteo drsquoamplitude et sur un systegraveme 51 On note que les sources ont eacuteteacute assez bien seacutepareacutees mais que des artefacts sont audibles en particulier lorsque le nombre de locuteurs simultaneacutes augmentent Ces artefacts sont un meacutelange des voix qui nrsquoest gecircnant que lorsqursquoon les eacutecoute de maniegravere seacutepareacutee En effet lrsquoeacutecoute simultaneacutee de ces signaux syntheacutetiseacutes mecircme placeacutes agrave des positions distinctes sur un systegraveme de diffusion multicanal est tout agrave fait satisfaisante

Ce proceacutedeacute pour pouvoir ecirctre appliqueacute doit fonctionner en temps-reacuteel Cette

contrainte nrsquoa pas du tout eacuteteacute prise en compte lrsquoobjectif eacutetant de valider la faisabiliteacute drsquoune reconstruction Les programmes sous Matlab nrsquoont pas eacuteteacute optimiseacutes et ne respectent pas cette contrainte

43

Conclusion Nous avons preacutesenteacute dans ce rapport le principe et lrsquoapplication de plusieurs

meacutethodes drsquoanalyses spatiales de scegravenes ambisoniques conccedilues et reacutealiseacutee pendant le stage Le format HOA est en effet une repreacutesentation du champ acoustique deacutecomposeacute sur une base drsquoharmoniques spheacuteriques jusqursquoagrave un certain ordre agrave la maniegravere drsquoun deacuteveloppement limiteacute Il contient donc de maniegravere indirecte des indications spatiales qursquoon peut extraire avec des analyses comme lrsquoanalyse en composantes principales

Ces analyses nous permettent de deacuteterminer les positions des sources qui

composent la scegravene sonore Nous avons appliqueacute les reacutesultats de ces analyses agrave 2 types de synthegravese lrsquoune destineacutee aux transmissions bas deacutebit lrsquoautre agrave un traitement de restitution de la preacutecision spatiale dans le cas ougrave des ordres supeacuterieurs dont le but est drsquoaffiner la perception de localisation nrsquoauraient pas pu ecirctre transmis Ces algorithmes par le codage drsquoinformations spatiales qursquoils permettent pourront trouver bien drsquoautres applications dans la transmission et le codage ougrave la description du contenu est de plus en plus utiliseacutee (comme par exemple dans la norme MPEG)

Des ameacuteliorations sont possibles sur plusieurs points tout drsquoabord lrsquoexploitation

de toutes les composantes de lrsquoACP est agrave lrsquoeacutetude et semble pouvoir donner des reacutesultats inteacuteressants Drsquoautre part on a vu que le reacutesultat final est tregraves deacutependant de la bonne convergence de lrsquoalgorithme des k-moyennes utiliseacute pour traiter les donneacutees brutes de lrsquoanalyse en sous-bandes Or cet algorithme neacutecessite des reacuteglages tregraves fins et une connaissance a priori du nombre de sources est presque indispensable Drsquoautres algorithmes plus complexes de suivi de formes pourraient ecirctre avantageusement utiliseacutes pour deacutetecter dans tous les angles trouveacutes lesquels sont susceptibles de former une trajectoire

45

Annexe A

Deacuteveloppement du champ acoustique en harmoniques spheacuteriques

A1 Eacutequation drsquoonde en coordonneacutees spheacuteriques On se place dans lrsquoespace euclidien agrave 3 dimensions muni drsquoun systegraveme de

coordonneacutees spheacuteriques Un point M y est repeacutereacute par son rayon r son azimut θ et son eacuteleacutevation δ tels que repreacutesenteacutes sur la figure ci-dessous

- r est la norme du vecteur position rr crsquoest-agrave-dire la distance OM - [20[ πθ isin est lrsquoangle formeacute par le projeteacute du point sur le plan xOy et lrsquoaxe Ox

- ]2

2

[ ππδ minusisin est lrsquoangle formeacute par le plan xOy et le vecteur position2

Figure A1 - Systegraveme de coordonneacutees spheacuteriques

2 Cet angle diffegravere de lrsquoangle polaire usuel δπϕ minus=

2 habituellement pris entre lrsquoaxe Oz et le

vecteur position

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 46

Les relations entre les coordonneacutees spheacuteriques et les coordonneacutees carteacutesiennes sont

⎪⎩

⎪⎨

===

δδθδθ

sincossincoscos

zryrx

(A1)

On srsquointeacuteresse dans ce repegravere agrave lrsquoeacutequation de propagation des ondes acoustiques

de pression On se place dans les conditions classiques drsquoacoustique lineacuteaire (les variations de p sont petites par rapport agrave la pression atmospheacuterique) en supposant que lrsquoair est un fluide parfait (on y neacutegligera les pheacutenomegravenes dissipatifs) Dans une reacutegion de lrsquoespace ne comprenant pas de sources lrsquoeacutequation drsquoonde srsquoeacutecrit alors

0)(12

2

2 =⎟⎟⎠

⎞⎜⎜⎝

⎛partpart

minus∆ trptc

r (A2)

p eacutetant la pression et c la vitesse de propagation du son dans lrsquoair

Cette eacutequation devient dans le domaine freacutequentiel lrsquoeacutequation de Helmholtz

( ) 0)(2 =+∆ ωrpk r (A3)

ck ω

= eacutetant le nombre drsquoonde

En coordonneacutees spheacuteriques cette eacutequation srsquoeacutecrit

0sin1sin

sin11 2

2

2

222

2 =⎥⎦

⎤⎢⎣

⎡+

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart pk

rrrr

rr δθθθ

θθ (A4)

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques Drsquoapregraves [Bruneau 1983] elle admet des solutions agrave variables seacutepareacutees de la forme

)()()( δθ ΦΘ= rRp (A5) Ces solutions sont respectivement - pour la partie radiale une combinaison des fonctions de Bessel spheacuteriques de

premiegravere et seconde espegravece3 jn et nn

)()()( krBnkrAjrR nn += (A6) 3 Les fonctions de Bessel spheacuteriques de seconde espegravece sont eacutegalement appeleacutees fonctions de

Neumann

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 47

Ces fonctions sont deacutefinies comme suit

(A7)

Figure A2 - Fonctions de Bessel spheacuteriques pour les ordres 0 agrave 5 )(krjm

- pour la partie azimutale les fonctions )(θΘ

)sin()cos()( 21 θθθ ncnc +=Θ (A8) Eacutetant donneacute la deacutefinition de lrsquoangle Θ celui-ci doit neacutecessairement ecirctre de

peacuteriode 2π ))2()(( πθθ +Θ=Θ ce qui impose agrave n drsquoecirctre entier

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 48

- pour la partie polaire les fonctions de Legendre associeacutees )(sinδmnP

nm

nn

mn dPdP

)(sin)(sinsin)(sin

δδ

δδ = pour ⎩⎨⎧

gt=

nmavecnm 321

(A9)

ougrave les )(sinδnP sont les polynocircmes de Legendre de degreacute n en δsin deacutefinis par reacutecurrence

( )

11

22

1

0

sin)12()(sin)1(

1cos321)(sin

sin)(sin0)(sin

minus+ minus+=+

minus=

==

mmm mPPmPmet

P

PP

δδ

ϕδ

δδδ

(A10)

et de formule geacuteneacuterale

mm

m

mm dd

mP )1(sin

)(sin21)(sin 2 minus= δ

δδ (A11)

On peut appliquer aux fonctions )(sinδmnP la semi-normalisation de Schmidt

)(sin)()()(sin~ δεδ mnnmn P

nmnmP

+minus

= ougrave 10 =ε et 2=nε pour 1gen (A12)

En appariant les fonctions polaires et azimutales on deacutefinit les harmoniques

spheacuteriques de degreacute et drsquoordre)1(mnY 0gem 4 mnn lele0 et de degreacute et

drsquoordre (voir Figure A3)

)1(minusmnY 1gem

mnn lele1

)(sin~)sin()(

)(sin~)cos()()1(

)1(

δθδθ

δθδθ

mnmn

mnmn

PnY

PnY

=

=minus

(A13)

4 En geacuteneacuteral lorsque le degreacute et lrsquoordre ne sont pas eacutevoqueacutes conjointement on parle par abus de langage drsquoharmoniques drsquoordre m plutocirct que de degreacute m

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 49

soit

1)(sin

)()()12(2sin)(

)(sin)()()12(2cos)(

1)(sin)1()1()12(cos)(

)1(

)1(

1)1(

1

gt

⎪⎪⎩

⎪⎪⎨

+minus

+=

+minus

+=

=+minus

+=

minus

npourP

nmnmmnY

PnmnmmnY

npourPmmmY

mnmn

mnmn

mm

δθδθ

δθδθ

δθδθ

(A14)

La solution angulaire geacuteneacuterale srsquoeacutecrit alors sous la forme drsquoun deacuteveloppement sur

la base drsquoharmoniques spheacuteriques

( ) ( )sum minus

=minus+=Θ

1

1)1()1()( n

m mnmnmnmnn YBYBθ (A15) La solution geacuteneacuterale est alors la seacuterie de Fourier-Bessel

sum sum sum+infin

= = plusmn=

=0 0 1

)()( )()()(m

m

nmnmnm

m YBkrjikrpσ

σσ δθδθ (A16)

ougrave

intint⎪⎩

⎪⎨⎧

minusisin

isin

plusmnplusmn =

]2

2

[

[20[

)1()1( )()1()(

1

ππδ

πθ

δθδθ

S

mnm

mmn dSYpkrji

B (A17)

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 50

Tableau A1 - Expressions analytiques des harmoniques spheacuteriques pour les ordres 0 agrave 3

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 51

Figure A3 - Repreacutesentation des harmoniques spheacuteriques pour les ordres m = 0 agrave 3 Les

couleurs rouge et bleu indiquent respectivement des valeurs positives et neacutegatives

53

Annexe B

Compleacutements theacuteoriques sur le deacutecodage HOA

B1 Vecteur veacutelociteacute et vecteur eacutenergie Le vecteur veacutelociteacute est un indice de la direction apparente drsquoune source introduit

par Gerzon [Gerzon 1992] Il se calcule comme le rapport de la vitesse particulaire sur la pression acoustique

)()(

)()(1

δθδθ

δθδθ

ρ rprp

ki

rprv

cV nabla

minus=minus=rrr

(B1)

Dans le cas drsquoune onde plane le vecteur veacutelociteacute V

rest ainsi directement un

vecteur unitaire orienteacute vers la direction de provenance de lrsquoonde En geacuteneacuteralisant agrave une superposition drsquoondes planes en phase ou opposition de phase eacutemises par L haut-parleurs agrave eacutequidistance du point drsquoobservation on obtient la formule suivante

VVL

ll

L

lll

urg

ugV r

rr

==

sum

sum

=

=

1

1 (B2)

ougrave deacutesigne la direction du llur egraveme haut-parleur auquel est associeacute le gain gl et Vr Vur correspondent respectivement agrave la norme et agrave la direction du vecteur veacutelociteacute

Le vecteur eacutenergie est un autre indice de direction Il est deacutefinit par

EEL

ll

L

lll

urg

ugE r

rr

==

sum

sum

=

=

1

2

1

2

(B3)

Annexe B Compleacutements theacuteoriques sur le deacutecodage HOA 54

Il peut srsquointerpreacuteter comme une indication de la concentration de lrsquoeacutenergie ( ) et de sa direction moyenne de provenance (

Er

Eur ) On a toujours 1ltEr sauf dans le cas ougrave un seul haut-parleur contribue agrave la reconstruction (dans ce cas ) peut ecirctre consideacutereacute comme un indicateur de preacutecision de la localisation

1=Er Er

B2 Deacutecodages optimiseacutes La restitution la plus confortable drsquoun champ sonore veillera donc agrave maximiser

tout en essayant de garder le plus proche possible de 1 Lrsquooptimisation du deacutecodage consiste alors agrave multiplier chaque coefficient de la matrice de deacutecodage D (voir (111) par des gains calculeacutes drsquoapregraves des critegraveres drsquooptimisation

Er Vr

Ainsi le deacutecodage appeleacute max- maximise la norme du vecteur eacutenergie en

sacrifiant celle du vecteur veacutelociteacute puisqursquoon a dans ce deacutecodage (pour des configurations reacuteguliegraveres de haut-parleurs) Ce deacutecodage est donc avantageux par rapport au deacutecodage basique pour les hautes freacutequences ou dans le cas drsquoun auditoire eacutelargi Le deacutecodage in-phase va encore plus loin en cherchant agrave annuler complegravetement les contributions des haut-parleurs placeacutes agrave lrsquoopposeacute de la direction de provenance de lrsquoonde reproduite Ce critegravere est utile dans le cas drsquoune eacutecoute dans une position tregraves excentreacutee agrave laquelle on pourrait percevoir de faccedilon preacutedominante la contribution en opposition de phase drsquoun tel haut-parleur

Er

EV rr =

Ces diffeacuterents deacutecodages ont chacun des avantages et inconveacutenients Ainsi seul le

deacutecodage basique garantit = 1 le deacutecodage max- permet une preacutecision meilleure notamment en haute freacutequence et le deacutecodage in-phase est plus adapteacute agrave un auditoire plus large Jeacuterocircme Daniel [Daniel 2000] propose ainsi de changer le deacutecodage en fonction de la freacutequence et de lrsquoeacutetendue de la zone drsquoeacutecoute deacutesireacutee

Vr Er

Figure B1 - Deacutecodages les plus approprieacutes par sous-bande et en fonction de lrsquoeacutetendue de la

zone drsquoeacutecoute [Daniel 2000]

55

Annexe C

Analyse en composantes principales

C1 Espace des donneacutees Eacutegalement souvent appeleacutee transformeacutee de Karhunen-Loegraveve5 (TKL) lrsquoanalyse en

composantes principales (ACP) est une technique statistique de repreacutesentation drsquoinformation Introduite sur 2 variables par Pearson [Pearson 1900] elle a eacuteteacute eacutetendue par Hotelling [Hotelling 1933] Elle a pour but de caracteacuteriser des donneacutees drsquoun espace agrave N dimensions dans un sous-espace plus petit en minimisant les pertes drsquoinformation due agrave la projection crsquoest-agrave-dire en maximisant la variance projeteacutee Les donneacutees ainsi reacuteorganiseacutees deviennent indeacutependantes Les variables correacuteleacutees sont remplaceacutees par de nouvelles variables deacutecorreacuteleacutees et de variance maximale combinaisons lineacuteaires des variables initiales

Les donneacutees sont constitueacutees de n variables aleacuteatoires (dans notre cas des canaux)

et p reacutealisations ou individus (des eacutechantillons)

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

pn

p

ji

n

xx

x

xx

M

LLL

MOMNM

MLLM

MNMOM

LLL

1

111

(C1)

Ces donneacutees sont geacuteneacuteralement centreacutees et peuvent aussi ecirctre reacuteduites4 (on note

1x la moyenne de la variable et 1x )( 1xσ sa variance) Reacuteduire ou non le nuage de points (ie les p reacutealisations de la variable aleacuteatoire) est un choix de modegravele

5 Quelques rares sources mentionnent une diffeacuterence entre ACP et TKL en placcedilant celle-ci au

niveau du choix de la reacuteduction des donneacutees dans le cas dune ACP les donneacutees seraient centreacutees et reacuteduites alors qursquoelles seraient uniquement centreacutees pour une TKL

Annexe C Analyse en composantes principales 56

- si on ne reacuteduit pas le nuage une variable agrave forte variance pourrait tirer tout lrsquoeffet de lrsquoACP agrave elle

- si on reacuteduit le nuage une variable qui ne serait qursquoun bruit se retrouverait avec une variance apparente eacutegale agrave une variable informative

M est centreacutee

⎥⎥⎥

⎢⎢⎢

minusminusminus

minusminus=

npn

pi

ji

nn

xxxxxx

xxxxM

K

MM

K

11

11

11

ˆ (C2)

M~ est centreacutee et reacuteduite

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

minusminus

minus

minusminus

=

)()(

)(

)()(~

1

11

1

1

111

n

npn

pi

ij

i

n

nn

xxx

xxx

xxx

xxx

xxx

M

σσ

σ

σσ

K

MM

K

(C3)

On multiplie ensuite la matrice obtenue par sa transposeacutee pour obtenir - La matrice de covariance MMC t

vˆˆ sdot=

- La matrice de correacutelation MMC tr

~~ sdot= Ces matrices sont carreacutees (N x N) symeacutetriques et reacuteelles Elles sont donc

diagonalisables dans une base orthonormeacutee 6 Le principe de lrsquoACP est alors de trouver un axe u issu drsquoune combinaison lineacuteaire

des tel que le critegravere drsquoinertie du nuage autour de cet axe soit maximal Le critegravere drsquoinertie couramment utiliseacute est la variance Il faut donc trouver lrsquoaxe qui porte le maximum de variance crsquoest-agrave-dire lrsquoaxe u tel que la projection du nuage sur cet axe ait une variance maximale

nx

6 Nos donneacutees eacutetant ici des valeurs drsquoeacutechantillons elles sont par nature centreacutees et reacuteduites On

formera donc naturellement la matrice de correacutelation

C2 Diagonalisation 57

C2 Diagonalisation Pour alleacuteger lrsquoeacutecriture de la suite de cette partie nous consideacutererons que les

variables ont eacuteteacute centreacutees et si besoin reacuteduites et nous noterons ces variables

transformeacutees (ainsi

ix ix

iii xxx minuslarr ou bien )( i

iii x

xxxσ

minuslarr ) On fera de mecircme pour M

( ou bien MM ˆlarr MM ~larr ) et C ( vCC larr ou bien rCC larr ) La projection drsquoun eacutechantillon sur un axe u srsquoeacutecrit ix

uMxiu sdot=)(π (C4) La variance empirique de )( iu xπ vaut donc

uMMuxx ttiu

tiu sdotsdotsdot=sdot )()( ππ (C5)

Or on a vu que est diagonalisable dans une base orthonormeacutee donc

on peut noter P le changement de base associeacute et ∆ la matrice diagonale formeacutee de son spectre Ainsi

MMC t=

n

i 1)(λ PPMMC tt ∆==

)()()()( PuPuuPPuxx ttt

iut

iu sdot∆sdot=sdot∆sdot=sdotππ (C6) On pose v = Pu Chercher lrsquoaxe u qui maximise )( iu xπ revient donc agrave chercher le

vecteur v qui maximise ougravevvt ∆ )( 1 ndiag λλ K=∆ avec les iλ rangeacutes par ordre deacutecroissant Ce vecteur est trivialement le premier vecteur unitaire et on a alors

1λ=∆vvt

Ainsi le vecteur qui porte la plus grande part drsquoinertie du nuage est le premier

vecteur propre de C (premier par norme deacutecroissante) De mecircme le deuxiegraveme vecteur qui explique la plus grandelt part de lrsquoinertie restante est le deuxiegraveme vecteur propre de C Finalement la question de lrsquoACP se ramegravene agrave un problegraveme de diagonalisation de la matrice de correacutelation

C3 Code Matlab

function [vep vap] = pca(f N) f donneacutees N nombre de composantes agrave garder cor = f f formation de la matrice de correacutelation [vep vap] = eig(cor) calcul des vecteurs (vep) et valeurs (vap) propres [vap ind] = sort(diag(vap)) tri des valeurs propres par ordre croissant vap = flipud(vap) disposition inverse par ordre drsquoimportance vep = vep( flipud(ind)) classement en conseacutequence des vecteurs propres vep = vep( 1N) on ne garde que les N premiers vecteurs propres

Annexe C Analyse en composantes principales 58

59

Annexe D

Analyse en sous-bandes

D1 La transformeacutee de Fourier agrave court terme (TFCT) Pour affiner lrsquoanalyse les signaux sont donc deacutecoupeacutes en bandes de freacutequence par

TFCT La TFCT consiste agrave effectuer des transformeacutees de Fourier discregravetes sur des portions de signal fenecirctreacutees reacuteguliegraverement espaceacutees

On rappelle que la transformeacutee de Fourier drsquoun signal x(t) est deacutefinie (lorsque

lrsquointeacutegrale existe) par

int+infin

infinminus

minus= dtetxfX ftiπ2)()( (D1)

La transformeacutee de Fourier agrave temps discret (TFTD) drsquoun signal x(t) srsquoeacutecrit

sum+infin

minusinfin=

minus=n

fnienxfX π2)()( (D2)

La transformeacutee de Fourier discregravete (TFD) drsquoun signal discret x(k) est deacutefinie par

sum+infin

minusinfin=

minus=

n

Nkni

enxkXπ2

)()( (D3)

La TFCT discregravete est une TFD observeacutee sur une fenecirctre wa de taille N

summinus

=

minus+=

1

0

2)())(()(

N

n

Nnki

aaa enwtnxkXπ

ττ (D4)

ougrave )(taτ est lrsquoinstant drsquoanalyse

Annexe D Analyse en sous-bandes 60

Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT [Laroche 1995]

D2 Synthegravese par addition-recouvrement Lors de la synthegravese apregraves le deacutecoupage et lrsquoanalyse des fenecirctres on cherche agrave

reconstruire le signal temporel agrave partir de sa repreacutesentation freacutequentielle Pour cela on utilise la meacutethode OLA (overlap and add addition-recouvrement) qui consiste agrave prendre la TFCT inverse des spectres Xt puis agrave additionner les signaux obtenus apregraves les avoir multiplieacutes par une fenecirctre de pondeacuteration en les faisant se recouvrir partiellement

Le reacutesultat est donneacute par

sum=

minusminus=T

tsss tnxtnwnx

s1

))((~))(()(~ ττ τ (D5)

avec )()( tt as ττ = et summinus

=

=1

0

2))((~1)(~ N

k

Nkni

s ektXN

nxs

π

τ τ

Lors de la mise en œuvre de ce traitement il faut srsquoassurer drsquoecirctre en mesure de

reconstruire parfaitement un signal lorsqursquoaucune transformation ne lui est appliqueacutee Le critegravere de reconstruction parfaite condition suffisante est alors

sum=

=minusminusT

tasaa tnwtnw

11))(())(( ττ quelque soit n (D6)

D2 Synthegravese par addition-recouvrement 61

Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add [Laroche 1995]

Plusieurs paramegravetres sont agrave choisir avec soin Le premier drsquoentre eux est le type

de fenecirctre agrave utiliser Les diffeacuterentes options qui se preacutesentent agrave nous sont - la fenecirctre rectangulaire qui preacutesente dans son spectre le lobe principal le plus

eacutetroit mais des lobes secondaires non neacutegligeables - la fenecirctre de Hamming au lobe principal un peu plus large mais pour laquelle le

1er lobe secondaire se situe agrave -43 dB - la fenecirctre de Hann (ou cosinus sureacuteleveacute) qui ressemble agrave la preacuteceacutedente avec un

1er lobe secondaire plus fort mais une pente de 18 dB par octave pour les lobes suivants

- les fenecirctres de Blackman-Harris aux lobes secondaires tregraves bas mais au lobe principal plus large

Fenecirctre Lobe 2aire

(dB) Pente

(dBoct) Bande passante

agrave 6 dB (bins) Rectangulaire -13 -6 121 Triangulaire -27 -12 178

Hann -32 -18 200 Hamming -43 -6 181

Blackman-Harris 4 -92 -6 272

Tableau D1 - Caracteacuteristiques des principales fenecirctres drsquoanalyse [Harris 1978] Le meilleur compromis est donc dans notre contexte la fenecirctre de Hann ou celle

de Hamming

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 8: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

2

Introduction La reproduction sonore semble aujourdrsquohui ecirctre parfaitement maicirctriseacutee Mais

lrsquoest-elle vraiment Rien nrsquoest moins sucircr Reproduire un son signifie ldquoreproduire toutes ses proprieacuteteacutes telles qursquoelles existent dans une situation drsquoeacutecoute reacuteellerdquo (tel que rappeleacute dans [Nicol 1999]) Or le son est un pheacutenomegravene agrave quatre dimensions il eacutevolue dans le temps et dans les 3 dimensions de lrsquoespace Si le problegraveme de la reproduction temporelle peut ecirctre consideacutereacute comme reacutesolu la restitution spatiale est elle toujours agrave lrsquoeacutetude

La restitution drsquoune scegravene sonore (crsquoest-agrave-dire drsquoun ensemble drsquoeacuteveacutenements

sonores placeacutes agrave des positions et des instants preacutecis) passe par la reproduction du champ acoustique dans une zone donneacutee zone au moins assez grande pour qursquoon puisse y placer ses 2 oreilles Lrsquoauditeur pourra alors localiser preacuteciseacutement les sources constituant la scegravene agrave la fois en temps et dans lrsquoespace

Lrsquoobjectif du stage preacutesenteacute ici est de retrouver par le calcul ces informations agrave

partir de lrsquoanalyse de signaux de repreacutesentation du champ sonore 3D en particulier ceux issus de lrsquoencodage spatial de scegravenes sonores reacutealiseacute par la technologie Higher Order Ambisonics (HOA) Il srsquoagit de retrouver dans une scegravene HOA les positions qursquooccupaient les sources agrave chaque instant lors de lrsquoencodage

Cette analyse permet alors drsquoentrevoir des applications pour le codage et la

transmission etou lrsquoameacutelioration de contenu audio 3D la seacuteparation de sources ou bien encore la confeacuterence audio spatialiseacutee En effet une telle description de la scegravene permettrait de caracteacuteriser de maniegravere leacutegegravere une partie de lrsquoinformation transmise par les signaux HOA et ouvrirait mecircme lrsquoopportuniteacute drsquoun deacutemixage

Nous allons ici preacutesenter la technologie ambisonics puis les eacuteleacutements theacuteoriques et

pratiques de lrsquoanalyse des signaux HOA Les eacuteleacutements matheacutematiques sur lesquels repose ambisonics agrave savoir le deacuteveloppement drsquoun champ acoustique en harmoniques spheacuteriques sont deacuteveloppeacutes en Annexe A La lecture preacutealable de cette annexe nrsquoest pas indispensable agrave la compreacutehension du Chapitre 1 mais est vivement conseilleacutee

3

Chapitre 1

Ambisonics

11 Principe

111 Du B-format agrave HOA Lrsquoapproche ambisonique deacuteveloppeacutee dans les anneacutees 1970 par Gerzon [Gerzon

1973] [Gerzon 1985] a pour but de reconstruire au voisinage de la tecircte de lrsquoauditeur le champ sonore et ses caracteacuteristiques de propagation crsquoest-agrave-dire au minimum le champ de pression et son gradient Cette technique est cateacutegoriseacutee dans les techniques de panoramique drsquoamplitude ou agrave microphones coiumlncidents Le format orignal appeleacute B-format peut en fait ecirctre vu comme une restriction au 1er ordre drsquoune deacutecomposition du champ en harmoniques spheacuteriques (voir Annexe A) ou cylindriques (dans le cas drsquoune restriction agrave 2 dimensions) Le format HOA (Higher Order Ambisonics) est une extension de cette deacutecomposition agrave des ordres plus eacuteleveacutes permettant une reconstruction ameacutelioreacutee du champ (une meilleure approximation) dans une zone de restitution eacutelargie

Une grande speacutecificiteacute de lrsquoapproche ambisonique est de contenir directement

lrsquoinformation spatiale en codant le champ acoustique en un point de lrsquoespace indeacutependamment du systegraveme de restitution utiliseacute contrairement aux systegravemes de spatialisations classiques (steacutereacuteo 51hellip) Lrsquoencodage directionnel drsquoune onde plane S drsquoincidence u se traduit par les eacutequations

r

⎪⎪

⎪⎪

=

=

=

=

δ

δθ

δθ

sin2

cossin2

coscos2

SZ

SY

SX

SW

(11)

Le facteur de normalisation 2 a eacuteteacute introduit agrave lrsquoorigine pour srsquoassurer que les

composantes W X et Y aient une eacutenergie moyenne eacutegale dans le cas de lrsquoencodage drsquoun champ diffus horizontal

Chapitre 1 Ambisonics 4

Le B-format peut ecirctre vu comme une troncature au premier ordre de la deacutecomposition en seacuterie de Fourier-Bessel du champ sonore [Daniel 2000] Une troncature agrave un ordre plus eacuteleveacute (Higher Order Ambisonics) apporte alors agrave la reconstruction une meilleure qualiteacute tant en terme de preacutecision de lrsquoimage que de dimensions du sweet spot zone ougrave le champ original est restitueacute avec une toleacuterance donneacutee Cette zone tregraves petite pour lrsquoordre 1 (il faut veiller agrave se placer bien au centre du dispositif) est nous le verrons nettement eacutelargie aux ordres supeacuterieurs On atteint eacutegalement une discrimination angulaire plus fine Ces ordres supeacuterieurs eacutetant les termes suivants de la seacuterie de Fourier-Bessel une repreacutesentation HOA inclut les ordres infeacuterieurs constituant donc une repreacutesentation hieacuterarchique (ou scalable) du champ sonore

La chaicircne de traitement drsquoun systegraveme ambisonique se deacutecompose en plusieurs

eacutetapes (voir Figure 11) - lrsquoencodage spatial reacutealiseacute de maniegravere artificielle pour spatialiser une scegravene

syntheacutetique ou bien agrave partir de signaux naturels issus drsquoune structure multi-microphonique (voir Figure 12)

- une eacuteventuelle transformation des signaux HOA (compression ou

transformations lineacuteaires comme par exemple une rotation) - le deacutecodage spatial matriccedilage des signaux pour une diffusion adapteacutee au

dispositif drsquoeacutecoute

Figure 11 - Scheacutema global du principe de la technologie HOA [Moreau 2006]

11 Principe 5

Figure 12 - Prototype de microphone HOA drsquoordre 4 constitueacute de 32 capteurs omnidirectifs

reacutepartis sur une sphegravere en plastique rigide [Moreau 2006]

112 Repreacutesentation de scegravene sonore avec HOA La seacuterie de Fourier-Bessel (A16) en Annexe A) tronqueacutee agrave lrsquoordre M donne une

approximation de la repreacutesentation du champ sonore

sum sum sum= = plusmn=

=M

m

m

nmnmnm

mM YBkrjikrp

0 0 1)()()(

σ

σσ δθδθ (12)

La repreacutesentation drsquoordre M est composeacutee de signaux HOA en 3D

et

2)1( += MK12 += MK signaux HOA si on se contente du plan horizontal

Pour mesurer lrsquoerreur de reconstruction on peut utiliser le critegravere des moindres

carreacutes normaliseacute (NMSE pour Normalized Mean Square Error)

intint

intint minus=

S

SM

dSkrp

dSkrpkrpkre 2

2

)(

)()()(

δθ

δθδθ (13)

Dans le cas particulier drsquoune onde plane lrsquoerreur de reconstruction est

indeacutependante de lrsquoangle drsquoincidence et ne deacutepend que de lrsquoordre et du produit kr En rappelant que k est le nombre drsquoonde cfck πω 2== on srsquoaperccediloit que lrsquoerreur de reconstruction pour un ordre donneacute augmente quand on srsquoeacuteloigne du centre du systegraveme (r augmente) ou lorsque la freacutequence srsquoeacutelegraveve On remarque qursquoune erreur de 4 (-14 dB) est atteinte approximativement quand M = kr

Chapitre 1 Ambisonics 6

Figure 13 - Erreur de reconstruction drsquoune onde plane en fonction

de lrsquoordre M et du produit kr [Moreau et al 2006]

Figure 14 - Repreacutesentation dans le plan horizontal dans une zone de diamegravetre 1m de la

reconstruction drsquoune onde plane (agrave droite) pour plusieurs ordres et freacutequences Les niveaux de gris repreacutesentent la valeur de la pression acoustique Les courbes eacutetoileacutees indiquent la

limite des zones ougrave lrsquoerreur de reconstruction est infeacuterieure agrave 7 (-115 dB) [Moreau 2006]

12 Encodage et deacutecodage spatial 7

12 Encodage et deacutecodage spatial

121 Encodage spatial Drsquoun point de vue drsquoingeacutenieur du son lrsquoencodage spatial peut ecirctre vu comme un

panoramique drsquoamplitude Un preneur de son lrsquointerpreacutetera comme une capture par un jeu de microphones directifs coiumlncidents Un matheacutematicien verra plutocirct le lien avec la deacutecomposition en harmoniques spheacuteriques deacutecrite en Annexe A

Eacutetudions le cas drsquoune onde plane provenant de la direction )( pp δθ avec une

amplitude S Lrsquoexpression du champ de pression srsquoeacutecrit alors

γδθ cos)( jkrSekrp = (14)

soit encore

)(cos)()12()(0

γδθ mmm

m PkrjjmSkrp suminfin

=

+= (15)

ougrave γ deacutesigne lrsquoangle entre la direction (θ δ ) du point drsquoobservation et la direction

)( pp δθ de provenance de lrsquoonde Il vient ensuite

sum sumsum= plusmn=

infin

=

=m

nmnppmnm

m

m YYkrjjSkrp0 10

)()()()(σ

σσ δθδθδθ (16)

En identifiant cette eacutequation (16) avec la seacuterie de Fourier-Bessel (A16) nous

obtenons finalement lrsquoexpression de la transformeacutee de Fourier spheacuterique drsquoun champ de pression acoustique engendreacute par une onde plane [Moreau 2006]

)( ppmnmn YSB δθσσ = (17)

Les coefficients sont ainsi deacutefinis par la valeur des harmoniques spheacuteriques

dans la direction de provenance de lrsquoonde plane pondeacutereacutee par lrsquoamplitude

σmnB

S du signal transporteacute Ce sont ces coefficients qui constituent le signal ambisonique Des coefficients de normalisation ou de semi-normalisation sont ensuite appliqueacutes pour que les signaux soient drsquoeacutenergie moyenne eacutequivalente entre eux ( ) ou entre les diffeacuterents ordres ( ) (voir Annexe A Tableau A1)

DN 3α DSN 3αDSN 3α

DSN 3α Ces fonctions drsquoencodage peuvent ecirctre simplifieacutees dans le cas drsquoune restriction agrave 2

dimensions (plan horizontal) On ne conserve alors que 2 composantes par ordre celles qui deacutecrivent le plan horizontal crsquoest-agrave-dire veacuterifiant m = n Les coefficients de normalisation sont alors diffeacuterents et lrsquoangle δ est nul Les composantes restantes sont alors

Chapitre 1 Ambisonics 8

ordre notations eacutecriture 0 W 1

00B 1

X 111B θcos2

1 Y 1

11minusB θsin2

U 122B )2cos(2 θ

2 V 1

22minusB )2sin(2 θ

- 1mmB )cos(2 θm

m - 1minus

mmB )sin(2 θm Tableau 11 - Fonctions drsquoencodage ambisonique dans le plan horizontal

avec la convention de normalisation associeacutee (N2D) La figure suivante illustre lrsquoencodage spatial aux ordres 0 1 et 2 de 2 sources

placeacutees aux angles vθ et vθ dans le plan horizontal

ordres 0 et 1 ordre 2

Figure 15 - Encodage horizontal [Moreau et al 2006] Le coefficient (gain) appliqueacute agrave

chaque composante de chacune des 2 sources est donneacute par les intersections des flegraveches et des diagrammes des harmoniques

Comme on peut le voir sur cette figure un encodage au 1er ordre offre une

discrimination angulaire peu appuyeacutee alors que les 2 sources pourtant proches auront des coefficients tregraves diffeacuterents agrave lrsquoordre 2 (les points drsquointersection sont plus eacuteloigneacutes)

122 Deacutecodage spatial Lrsquoobjectif du deacutecodage est de restituer au mieux sur un systegraveme de diffusion

donneacute le champ sonore HOA Il faut ainsi calculer les signaux Sl agrave diffuser sur L haut-parleurs en fonction des composantes ambisoniques Ces σ

mnB L haut-parleurs peuvent ecirctre disposeacutes dans le plan horizontal ou dans un espace tridimensionnel Les deacutecodages les plus courants srsquoeffectuent sur une demi-sphegravere (cas 3D) ou un cercle (cas 2D) de

12 Encodage et deacutecodage spatial 9

haut-parleurs Crsquoest une opeacuteration matricielle qursquoon peut formaliser dans le cas drsquoun deacutecodage dans le plan horizontal par lrsquoeacutequation

BSC =sdot (18)

ougrave la matrice C contient les vecteurs harmoniques spheacuteriques associeacutes agrave chaque direction de haut-parleur et organiseacutes suivant ses lignes le vecteur S contient les signaux eacutemis par les L haut-parleurs et enfin le vecteur B contient les signaux HOA

⎟⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜⎜

=

⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜

=

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

=

10

100

2

1

1011

10

11111

111

10011

100

)()()(

)()()()(

M

mn

LLLMM

llmn

LL

LL

B

B

B

B

S

SS

S

YYY

YYYY

CM

M

M

L

MM

L

L

σσ

δθδθδθ

δθδθδθδθ

(19)

)( ll δθ repeacuterant la position du legraveme haut-parleur

Il faut donc estimer S connaissant B et C Le deacutecodage se reacutesume alors agrave un systegraveme de (M +1)2 (en 3D) ou 2M +1 (en 2D) eacutequations lineacuteaires agrave L inconnues On ne peut trouver de solution exacte que si le nombre de haut-parleurs est au moins eacutegal au nombre de signaux crsquoest-agrave-dire si L gt (M +1)2 (en 3D) ou 2M +1 (en 2D) Crsquoest en outre une condition neacutecessaire pour pouvoir avoir une reproduction homogegravene de la scegravene sonore

La matrice C nrsquoest pas neacutecessairement carreacutee et inversible une solution geacuteneacuterale

consiste agrave calculer lrsquoinverse geacuteneacuteraliseacutee de la matrice C noteacutee D encore appeleacutee pseudo-inverse de Moore-Penrose

BDS sdot= (110)

avec

1pinv( ) ( )t tD C C C C minus= = sdot sdot (111) D est appeleacutee matrice de deacutecodage BDS sdot= reacutesout le systegraveme (18) si les haut-

parleurs sont suffisamment nombreux L gt (M +1)2 (en 3D) ou 2M +1 (en 2D)) Srsquoils sont en outre disposeacutes sur une sphegravere (3D) ou un cercle (2D) de maniegravere eacutequidistante crsquoest-agrave-dire srsquoils sont les sommets drsquoun polyegravedre ou polygone reacutegulier ils preacuteservent alors la proprieacuteteacute drsquoorthonormaliteacute des harmoniques spheacuteriques Ceci se traduit par

Lt ILCC sdot=sdot (112)

ougrave IL est la matrice identiteacute de taille LLtimes On a alors

1pinv( ) tD CL

= = C (113)

Chapitre 1 Ambisonics 10

Cette proprieacuteteacute ne peut pas ecirctre matheacutematiquement veacuterifieacutee en 3D au-delagrave de lrsquoordre 2 autrement dit il nrsquoexiste pas de polyegravedre reacutegulier dont la position des sommets conserve strictement lrsquoorthonormaliteacute des harmoniques spheacuteriques

Visuellement le deacutecodage correspond agrave la reproduction du champ sonore tel qursquoil

aurait eacuteteacute capteacute par un ensemble de N microphones agrave directiviteacutes hyper-cardioiumldes tourneacutes chacun vers lrsquoun des haut-parleurs Leur directiviteacute serait drsquoautant plus preacutecise que lrsquoordre de reproduction est eacuteleveacute

Figure 16 - Prise de son virtuelle eacutequivalente agrave un encodage au 1er ordre et un deacutecodage

basique sur une disposition en 2D hexagonale [Moreau et al 2006] Le gain gl appliqueacute agrave chaque haut-parleur pour une direction de source virtuelle donneacutee

(en vert) est indiqueacute par la longueur des flegraveches et est reporteacutee aux points drsquointersection de la flegraveche verte et des diagrammes de directiviteacute

On peut remarquer que les diagrammes de directiviteacute sont tregraves larges par rapport

agrave lrsquoespacement angulaire des haut-parleurs Le 2nd ordre offrirait des directiviteacutes plus fines et donc une seacutelectiviteacute spatiale accrue Il faudrait alors bien sucircr davantage de haut-parleurs pour ne pas introduire des ldquotrousrdquo entre eux On remarque eacutegalement la preacutesence non neacutegligeable des lobes secondaires utiles pour la reconstruction du champ acoustique (notamment en basses freacutequences) mais qui peuvent ecirctre gecircnants dans certains cas par exemple lorsque lrsquoauditoire est large

Ce deacutecodage est appeleacute deacutecodage basique car il nrsquooptimise pas la restitution en

accord une quelconque hypothegravese et cherche uniquement agrave reproduire fidegravelement le champ acoustique Pour ameacuteliorer la restitution dans des cas critiques comme par exemple en-dehors du sweet spot (centre du dispositif) il faut optimiser le deacutecodage en reacuteduisant par exemple les lobes secondaires Ainsi le deacutecodage max-rE srsquoattache agrave maximiser lrsquoeacutenergie reccedilue de la provenance de la direction souhaiteacutee alors que le deacutecodage in-phase annule complegravetement ces lobes secondaires (voir Annexe B)

13 Critique de la technologie HOA 11

13 Critique de la technologie HOA

131 Bilan On a ainsi vu que la technologie HOA est une repreacutesentation intermeacutediaire du

champ de pression acoustique agrave mi-chemin entre la description directe du champ lui-mecircme et des signaux agrave restituer Cette technologie a de nombreux avantages compareacutee aux autres meacutethodes de reproduction de champ sonore (on trouvera notamment une eacutetude deacutetailleacutee des comparaisons entre HOA et la Wave Field Synthesis (WFS) dans [Daniel et al 2003]) elle permet drsquoeacuteviter le repliement spatial (voir paragraphe suivant) et permet ainsi une reconstruction dans une gamme de freacutequences tregraves large

La qualiteacute de la restitution ambisonique nrsquoest theacuteoriquement limiteacutee que part

lrsquoordre de troncature de la seacuterie de Fourier-Bessel agrave partir du moment ougrave le nombre de haut-parleurs est suffisant Ainsi un ordre tendant vers lrsquoinfini (et un nombre de haut-parleurs au moins aussi grand) permettra une reproduction quasi-parfaite sur lrsquoensemble de la zone drsquoeacutecoute

Mais les principaux avantages de cette technologie sont drsquoune part drsquoecirctre flexible

crsquoest-agrave-dire qursquoon peut agrave loisir adapter le nombre de signaux transmis au canal de transmission Une chute de deacutebit nrsquoentraicircnera pas de coupure de la transmission mais simplement une perte de preacutecision spatiale par lrsquoabandon des composantes drsquoordres les plus eacuteleveacutes Et drsquoautre part elle est indeacutependante du systegraveme de reproduction Ainsi un mecircme signal HOA pourra ecirctre diffuseacute sur toutes les configurations de haut-parleurs il suffira pour cela de calculer la matrice de deacutecodage associeacutee agrave ce systegraveme

132 Limites pratiques Dans la pratique cette technologie a toutefois des limitations Si lrsquoaliasing spectral

est eacuteviteacute on constate aux ordres les plus eacuteleveacutes lrsquoapparition drsquoun repliement spatial lors des enregistrements naturels agrave partir drsquoune freacutequence lieacutee agrave la distance maximale entre 2 capsules du microphone HOA (qui doit ecirctre au plus eacutegale agrave la moitieacute de la plus petite longueur drsquoonde drsquoapregraves Shannon) et au nombre total de capsules (qui doit ecirctre supeacuterieur agrave (M+1)2 M eacutetant lrsquoordre auquel on souhaite enregistrer)

Le repliement spectral repreacutesente la preacutesence importune dans des composantes

ambisoniques de sources qui de part leur position ne devraient qursquoapparaicirctre avec cette importance que dans les composantes drsquoordre plus eacuteleveacute Il est ducirc agrave lrsquointrusion des directiviteacutes drsquoordres supeacuterieurs dans les composantes harmoniques spheacuteriques estimeacutees Comme on le voit sur la Figure 17 les directiviteacutes ne sont pas des cylindres (au sens matheacutematique du terme la base nrsquoeacutetant pas forceacutement un cercle) mais varient en fonction de la freacutequence pour ressembler davantage dans le haut du spectre aux courbes de directiviteacute de lrsquoordre supeacuterieur Ainsi la directiviteacute de lrsquoordre 1 (2egraveme graphique) qui devrait ecirctre un 8 ressemble davantage au-dessus de 10 000 Hz agrave la figure de directiviteacute de lrsquoordre 4 (8 lobes)

Chapitre 1 Ambisonics 12

Figure 17 - Directiviteacutes theacuteoriques (en transparence) et reconstruites (grille) dans le plan horizontal pour des ondes planes horizontales Lrsquoaxe vertical correspond agrave la freacutequence et

les diffeacuterents graphiques aux ordres 0123 et 4 de gauche agrave droite Agrave lrsquoopposeacute la taille reacuteduite du microphone si elle permet de reacuteduire cet aliasing

spatial empecircche la capture des basses freacutequences aux ordres supeacuterieurs (voir 232) La reacutesolution spatiale des basses freacutequences sera donc moindre ce qui implique que en ajoutant lrsquoeffet du repliement en hautes freacutequences les ordres eacuteleveacutes capteacutes avec le micro HOA ne constituent qursquoune plage du spectre assez peu eacutetendue crsquoest cette seule plage qui pourra se targuer drsquoune excellente preacutecision spatiale

13

Chapitre 2

Analyser un contenu HOA

21 Objectifs La reacuteflexion a tout au long du stage eacuteteacute orienteacutee vers deux objectifs le premier

est dans un contexte de transmission de reconstruire une scegravene spatialiseacutee agrave partir du minimum drsquoinformations le deuxiegraveme appliqueacute agrave des ordres plus eacuteleveacutes est drsquoarriver agrave resyntheacutetiser les composantes de lrsquoordre immeacutediatement supeacuterieur

211 Restitution de la spatialisation agrave partir drsquoun downmix mono La premiegravere approche vise donc agrave reconstruire une scegravene spatialiseacutee agrave partir drsquoun

downmix le plus leacuteger possible Un downmix est une reacuteduction du nombre de canaux par fusion lrsquoexemple le plus simple eacutetant le passage drsquoun signal steacutereacuteo agrave un signal mono construit comme la demi-somme des composantes gauche et droite On tente dans cette approche de se restreindre au plus petit nombre de signaux possible un signal eacutetant tregraves coucircteux agrave transmettre en ajoutant parallegravelement agrave ce signal des informations compleacutementaires aidant agrave la reconstruction

Le cas extrecircme est la reacuteduction du flux agrave un signal mono Dans le cas

drsquoambisonics un signal mono comprenant toutes les sources est deacutejagrave preacutesent il srsquoagit de la composante omnidirectionnelle W Il faut donc extraire de la scegravene encodeacutee agrave un certain ordre M des informations permettant la reconstruction drsquoun ordre Mrsquo apregraves transmission Nous verrons que nous allons chercher agrave trouver les positions des sources gracircce agrave une analyse en composantes principales (ou ACP voir Annexe C) effectueacutee par sous-bandes (voir Annexe D)

212 Ameacutelioration de la preacutecision spatiale La deuxiegraveme piste suivie a pour but de reconstituer un ordre ambisonique non

transmis On pourrait qualifier cette approche drsquoupmix ambisonique car elle vise agrave reconstruire un ordre manquant En effet le format ambisonique eacutetant flexible il est bien

Chapitre 2 Analyser un contenu HOA 14

adapteacute agrave la transmission Ainsi si on souhaite transmettre une scegravene encodeacutee agrave lrsquoordre 2 dans le plan horizontal il faudra un canal drsquoun deacutebit minimum (si lrsquoon prend lrsquohypothegravese de pas vouloir compresser les signaux) de 471 Mos Un canal plus petit (par exemple 34 Mos) ne permettra theacuteoriquement de transmettre qursquoun ordre 1 Mais lrsquoanalyse des signaux peut permettre de deacuteterminer les positions des sources agrave partir desquelles on peut syntheacutetiser des composantes du 2nd ordre approchant les composantes drsquoorigine On pourrait mecircme imaginer pouvoir syntheacutetiser un ordre qui nrsquoavait pas eacuteteacute encodeacute agrave lrsquoorigine

Pour cela il est neacutecessaire de deacuteterminer les positions des sources preacutedominantes

dans le champ sonore pour piloter leur encodage spatial aux ordres supeacuterieurs et arriver agrave la synthegravese drsquoune repreacutesentation de reacutesolution spatiale accrue Il srsquoagit dans le mecircme temps drsquoisoler au mieux les signaux associeacutes agrave ces diffeacuterentes sources avant de leur appliquer lrsquoopeacuteration drsquoencodage on se rapproche donc drsquoun problegraveme de seacuteparation de sources

Pour parvenir agrave trouver ces positions deux meacutethodes ont eacuteteacute testeacutees La premiegravere

consiste comme preacuteceacutedemment agrave appliquer en sous-bandes une analyse en composantes principales La seconde implique la formation de directiviteacutes agrave partir des vecteurs propres de la matrice de correacutelation utiliseacutee dans cette analyse

Lrsquoanalyse en composantes principales ou ACP (voir Annexe C) est donc

largement privileacutegieacutee dans nos approches Elle permet en effet tregraves facilement drsquoextraire des informations preacutecises de signaux correacuteleacutes Pour justifier ce choix une autre meacutethode reacutecente a eacutegalement eacuteteacute testeacutee et compareacutee agrave lrsquoACP (voir 11)

22 Principe de lrsquoextraction drsquoinformation spatiale avec une ACP

221 Information spatiale

Nous avons donc tout drsquoabord testeacute lrsquoanalyse en composantes principales sur des

signaux HOA Nous avons choisi dans un premier temps de limiter lrsquoanalyse aux composantes horizontales du premier ordre W X et Y avant de lrsquoeacutetendre agrave la 3egraveme dimension avec Z

Dans un premier test les signaux HOA sont analyseacutes par une ACP dans leur

inteacutegraliteacute LrsquoACP est appliqueacutee sur les signaux X et Y qui contiennent lrsquoinformation spatiale En effet X et Y correspondent aux signaux qui seraient capteacutes par des microphones agrave figure en 8 placeacutes sur lrsquoaxe avant-arriegravere et gauche-droite respectivement

La Figure 21 montre la correacutelation entre X et Y dans le cas drsquoun bruit blanc capteacute

par le microphone ambisonique Les points ne sont pas exactement aligneacutes du fait des artefacts inheacuterents agrave la prise de son (reacuteflexions sur les parois approximations du microphone etc)

22 Principe de lrsquoextraction drsquoinformation spatiale avec une ACP 15

Figure 21 - Y en fonction de X dans le cas drsquoun bruit blanc enregistreacute placeacute agrave 30deg

On remarque que le nuage est eacutetireacute dans la direction de provenance du son indiqueacutee par la flegraveche en pointilleacutes verts

222 Application de lrsquoanalyse en composantes principales La 1egravere composante issue de lrsquoACP appliqueacutee dans le plan (X Y) pointe dans la

direction dans laquelle X et Y ont la plus grande correacutelation Or comme X contient lrsquoinformation placeacutee sur lrsquoaxe avant-arriegravere et Y lrsquoinformation de lrsquoaxe gauche-droite cette direction est directement la direction de la source Par exemple un son situeacute droit devant dans lrsquoaxe (agrave 0deg) aura une composante Y nulle et par conseacutequent les eacutechantillons seront dans le plan tous disposeacutes sur lrsquoaxe horizontal LrsquoACP prendra donc naturellement cet axe comme 1er vecteur propre et il pointe bien vers la position de la source De mecircme un son situeacute agrave 135deg ( π28

3 times rad) aura la proprieacuteteacute Y = -X Les eacutechantillons seront donc placeacutes sur la 2egraveme bissectrice qui fait avec lrsquoaxe Y=0 un angle de 135deg (voir Figure 22)

Figure 22 - Y en fonction de X dans le cas drsquoun son placeacute artificiellement dans la direction

indiqueacutee par la flegraveche en pointilleacutes verts agrave 0deg (agrave gauche) et 135deg (agrave droite)

Chapitre 2 Analyser un contenu HOA 16

Lrsquoanalyse de X et Y ne permet cependant de deacuteterminer lrsquoangle qursquoagrave π pregraves il reste une indeacutetermination (on deacutetermine la direction drsquoun axe qursquoil reste agrave orienter) Pour lever cette ambiguiumlteacute on integravegre W agrave lrsquoanalyse car cette composante pourtant omnidirectionnelle et donc deacutepourvue drsquoinformation spatiale apporte une reacutefeacuterence pour les phases Ainsi notre son placeacute agrave 135deg veacuterifiait (aux eacuteventuels coefficients de normalisation pregraves) Y = -X = W alors qursquoun son placeacute agrave 135 - 180 = -45deg aurait la proprieacuteteacute Y = -X = -W

Pour prendre en compte W dans lrsquoanalyse on peut comparer directement les

phases de ces 3 canaux Algorithmiquement on ramegravene lrsquoangle trouveacute agrave son modulo π2 puis on deacutetermine le vrai cadran par comparaison des phases de W X et Y crsquoest-agrave-dire en comparant le signe des produits W X et W Y Ainsi W X gt 0 signifie que W et X sont en phase et reacuteciproquement (voir Figure 23)

W X lt 0 W Y gt 0

W X gt 0 W Y gt 0

W X lt 0 W Y lt 0

W X gt 0 W Y lt 0

minusπ2

π

π2

0

Figure 23 - Signes de W X et W Y en fonction du cadran On peut eacutegalement inteacutegrer W agrave lrsquoanalyse en appliquant lACP sur le triplet (X Y

W) Le problegraveme drsquoambiguiumlteacute est ainsi reacutesolu la direction rechercheacutee eacutetant celle du vecteur principal dans le demi-espace W gt 0 projeteacutee sur le plan (X Y) Cette meacutethode srsquoavegravere plus robuste et surtout plus geacuteneacuteralisable agrave des ordres plus eacuteleveacutes

Cette analyse permet donc de deacuteterminer la position drsquoune source unique Pour

pouvoir seacuteparer plusieurs sources nous avons appliqueacute lrsquoACP par sous-bandes en supposant que les sources nrsquoont pas des supports freacutequentiels strictement identiques Le principe de cette analyse en sous-bandes est deacuteveloppeacute en Annexe D

23 Meacutethodologie

231 Construction de scegravenes artificielles Pour tester les algorithmes impleacutementeacutes nous avons ducirc creacuteer des scegravenes sonores

spatialiseacutees au format HOA Plusieurs types de scegravenes ont eacuteteacute utiliseacutes de complexiteacutes diffeacuterentes Les premiegraveres ont eacuteteacute des scegravenes virtuelles syntheacutetiseacutees avec Matlab Les premiegraveres scegravenes simplissimes ne comportait qursquoune sinusoiumlde ou un bruit blanc fixe placeacute dans le plan horizontal Puis pour tester lrsquoanalyse par sous-bandes ont eacuteteacute creacuteeacutes des sons polyphoniques composeacutes de 2 sinusoiumldes tout drsquoabord puis de sons complexes (syntheacutetiseacutes par synthegravese FM) dans des gammes freacutequentielles distinctes ou se

23 Meacutethodologie 17

chevauchant Enfin ces sons ont eacuteteacute rendus mobiles en faisant varier leur position dans le temps

Nous avons pu ainsi constater agrave lrsquoaide des sons fixes et de supports freacutequentiels

distincts la preacutecision de lrsquoanalyse et avec les sons mobiles et mecircleacutes sa robustesse Nous nous sommes limiteacutes sous Matlab agrave la geacuteneacuteration de 2 sons simultaneacutes et du 1er ordre et un autre outil Plogue Bidule a eacuteteacute utiliseacute pour composer des scegravenes plus complexes

Bidule est un studio modulaire virtuel ressemblant agrave MAXMSP Des plugins ont

eacuteteacute deacuteveloppeacutes agrave France Teacuteleacutecom pour permettre de manipuler des signaux HOA Ainsi des scegravenes complexes ont pu facilement ecirctre syntheacutetiseacutees agrave des ordres eacuteleveacutes Des scegravenes agrave 3 et 4 sources fixes ou dont 1 source mobile ont eacuteteacute reacutealiseacutees agrave partir de voix deacutemixeacutees placeacutees dans le plan horizontal ou en 3 dimensions

Ces scegravenes eacutetant artificielles elles sont en un sens ideacuteales ne contiennent aucun

signal reacuteverbeacutereacute (effet de salle) ni diffracteacute (par un micro) lrsquoencodage est fait sans artefacts les ondes sont consideacutereacutees comme planes et ont donc une direction bien deacutefinie Si on est ici bien loin de la vraie vie le gros avantage des scegravenes artificielles est qursquoon connaicirct preacuteciseacutement agrave chaque instant la position des sources et qursquoon peut ainsi veacuterifier le reacutesultat de lrsquoanalyse

Figure 24 - Interface graphique du logiciel Bidule avec agrave droite les controcircles des encodeurs

et deacutecodeurs HOA creacuteeacutes agrave France Teacuteleacutecom

Chapitre 2 Analyser un contenu HOA 18

232 Exploitation drsquoenregistrements naturels Une fois des reacutesultats convaincants obtenus avec des scegravenes virtuelles des

enregistrements naturels ont eacuteteacute analyseacutes Ces scegravenes ont eacuteteacute enregistreacutees gracircce au prototype de micro HOA du 4egraveme ordre deacuteveloppeacute agrave France Teacuteleacutecom (voir Figure 12) Ce processus implique des diffeacuterences notables avec un encodage virtuel

Le prototype de microphone contraint en effet agrave quelques compromis pour

optimiser des critegraveres incompatibles La taille du microphone reacutesulte drsquoun compromis entre la preacutecision drsquoestimation des composantes en basses freacutequences qui neacutecessite une taille eacuteleveacutee et la minimisation de lrsquoaliasing spatial qui ne peut ecirctre eacuteviteacute qursquoavec des capsules tregraves proches les unes des autres Leur disposition est eacutegalement irreacuteguliegravere il nrsquoexiste en fait aucune faccedilon de disposer reacuteguliegraverement plus de 20 points sur une sphegravere La configuration qui avait eacuteteacute retenue par les concepteurs [Moreau 2006] est la ldquomoins irreacuteguliegravere possiblerdquo au sens de la preacuteservation de lrsquoorthonormaliteacute des harmoniques spheacuteriques les 32 capsules sont reacuteparties sur une sphegravere de 35 cm de rayon selon un Pentaki-dodeacutecahegravedre polyegravedre semi-reacutegulier dual de lrsquoicosaegravedre tronqueacute (ballon de football)

Ces artefacts sont donc inheacuterents agrave lrsquoutilisation drsquoun reacuteseau de microphones Mais

le monde reacuteel pose eacutegalement des problegravemes deacutelicats La complexiteacute des modes de rayonnement drsquointeraction avec lrsquoenvironnement reacuteclame lrsquointroduction de modegraveles drsquoencodage beaucoup plus complexes que le cas drsquoune onde plane en champ libre et rend lrsquoinformation spatiale moins limpide et univoque au sein de la scegravene encodeacutee (enregistreacutee) en comparaison avec une scegravene virtuelle Les sources ne sont ainsi plus ponctuelles mais eacutetendues elles ne sont plus agrave lrsquoinfini mais agrave une distance finie du microphone (les ondes reccedilues ne sont donc plus planes) En outre chaque source en se reacutefleacutechissant sur les parois et les diffeacuterents objets de la salle creacutee une multitude de sources secondaires Il est enfin souvent difficile de connaicirctre avec preacutecision la position drsquoune source dans lrsquoespace lors drsquoun enregistrement

Des enregistrements en chambre sourde ont eacuteteacute reacutealiseacutes pour se passer des

reacuteflexions de lrsquoenvironnement Afin de connaicirctre avec preacutecision la position de la source un haut-parleur diffusant un bruit blanc nous avons placeacute le microphone sur une table tournante commandeacutee par un plug-in sous Plogue Bidule

233 Visualisations des reacutesultats Lrsquoobservation des reacutesultats a eacuteteacute effectueacutee de plusieurs maniegraveres visuellement et

par lrsquoeacutecoute Les graphiques eacutetant plus commodes crsquoest par cette voie que les premiers essais eacutetaient conclus Plusieurs types de graphiques ont eacuteteacute produits deacutecrivant des paramegravetres diffeacuterents

Les repreacutesentations temps-freacutequence permettent de repreacutesenter une variable agrave 1

dimension sous Matlab Cette voie a eacuteteacute suivie pour visualiser les paramegravetres extraits de chaque sous-bande de chaque fenecirctre notamment les angles lrsquoeacutenergie et la pertinence Malheureusement Matlab ne permet pas de repreacutesenter sur le mecircme graphique une 4egraveme dimension sous la forme drsquoune 2egraveme dimension colorimeacutetrique (on prend geacuteneacuteralement la

23 Meacutethodologie 19

saturation) Cette dimension suppleacutementaire aurait permis de repreacutesenter simultaneacutement les angles et leur pertinence

Figure 25 - Repreacutesentation

et de lrsquoespace col

Pour repreacutesenter s

drsquoabandonner une dimensipouvoir repreacutesenter danrepreacutesenteacutees soit par le niv

Figure 26 - Repreacutesentationdeacutecrite en 332 (en absciss

est repreacutesenteacutee agrave gauc

234 Diffeacuterents modes La visualisation est

indispensable pour veacuterifiesont possibles de ceux-cainsi reconstitueacutee agrave partir d

1 W+Y+02X pour le c

π 0 minusπ

de la table des couleurs dite HSV de Matlab (lineacuteaire agrave gauche) orimeacutetrique HSL (Hue Saturation Luminance agrave droite)

imultaneacutement angles et pertinence il eacutetait donc neacutecessaire on Crsquoest le deacutecoupage freacutequentiel qui a eacuteteacute mis de cocircteacute pour s un plan temps-angles les pertinences Celles-ci sont eau de gris des points soit par leur taille

de la pertinence des angles de la scegravene agrave 4 sources dont 1 mobile e les trames en ordonneacutees les angles en degreacute) La pertinence he par lrsquointensiteacute du bleu et agrave droite par la taille des points

drsquoeacutecoute

un indice preacutecis de reacutesultat mais lrsquoeacutecoute est tout de mecircme r la qualiteacute globale de la synthegravese Plusieurs modes drsquoeacutecoute i lrsquoeacutecoute au casque est la plus aiseacutee Une pseudo-steacutereacuteo est es signaux du 1er ordre1 pour restituer les scegravenes restreintes au

anal gauche et W-Y+02X pour le canal droit

Chapitre 2 Analyser un contenu HOA 20

plan horizontal Pour plus de preacutecision agrave la restitution ou pour des scegravenes en 3D et sans perdre la faciliteacute drsquoune eacutecoute personnelle au casque on peut appliquer des filtres HRTF (Head-Related Transfert Function) pour une reproduction binaurale

Pour appreacutecier pleinement la spatialisation la diffusion sur un systegraveme multi

haut-parleurs est indispensable Deux systegravemes sont installeacutes dans le laboratoire de France Teacuteleacutecom un systegraveme 51 et un systegraveme circulaire de 48 haut-parleurs Ces systegravemes installeacutes dans des studios insonoriseacutes offrent une grande qualiteacute drsquoeacutecoute qui permet de repeacuterer les deacutefauts mecircme minimes de la synthegravese

21

Chapitre 3

Description des analyses

31 Deacutetermination des directions principales

311 Base des algorithmes Nous avons deacuteveloppeacute plusieurs algorithmes reacutepondant aux diffeacuterents objectifs

deacutecrits plus haut Chacun drsquoeux possegravede des particulariteacutes leur permettant de reacutepondre agrave ces objectifs mais on trouve neacuteanmoins une partie commune Ainsi toutes les analyses reposent sur le mecircme modegravele drsquoapplication drsquoune ACP par sous-bandes dont voici le scheacutema geacuteneacuteral

Figure 31 - Scheacutema geacuteneacuteral drsquoanalyse

Les signaux en entreacutee sont les composantes HOA W X et Y dans la plupart des

cas mais peuvent ecirctre eacutegalement des composantes drsquoordre plus eacuteleveacute (voir 11) Sur le fenecirctrage jouent plusieurs paramegravetres comme la taille de la fenecirctre ou encore le pourcentage de recouvrement entre elles Nous avons choisi une fenecirctre en racine de la fenecirctre de Hanning crsquoest-agrave-dire une arche de sinusoiumlde (voir eacutequation (D7) en Annexe D) avec un recouvrement de 50 ce qui veacuterifie le critegravere de reconstruction parfaite (D6) Le filtrage est pour des raisons de rapiditeacute de calcul reacutealiseacute dans le domaine freacutequentiel par une simple multiplication avant de repasser en temporel pour appliquer lrsquoACP

Le banc de filtre utiliseacute est un banc inspireacute des filtres ERB Les filtres ERB

(Equivalent Regular Bandwidth) sont des filtres imitant le comportement de seacuteparation freacutequentielle de lrsquooreille humaine plus preacutecise en basse freacutequence Les filtres utiliseacutes ici ne sont pas directement des filtres ERB le systegraveme nrsquoa pas drsquointeacuterecirct particulier agrave essayer de copier le fonctionnement de lrsquooreille humaine Ces filtres ont eacuteteacute adapteacutes au problegraveme en

Chapitre 3 Description des analyses 22

srsquoassurant en particulier de la finesse des bandes permettant la meilleure discrimination des diffeacuterentes sources crsquoest-agrave-dire autour des fondamentales usuelles (200-1000 Hz) et des harmoniques Les freacutequences aigueumls sont bien discrimineacutees par les filtres ERB (relativement agrave la gamme crsquoest-agrave-dire en eacutechelle logarithmique) le deacutecoupage a donc surtout eacuteteacute densifieacute entre 200 et 800 Hz par rapport aux bandes ERB

Figure 32 - Filtres utiliseacutes inspireacutes des filtres ERB repreacutesenteacutes lineacuteairement (en haut)

et sur une eacutechelle logarithmique (en bas) Les reacutesultats de lrsquoACP sont donc avec cette meacutethode les angles des sources

trouveacutees dans chaque sous-bande ainsi que pour chacun drsquoeux un critegravere de pertinence calculeacute en fonction de lrsquoeacutenergie de la sous-bande dans une fenecirctre donneacutee et de la norme relative de la premiegravere composante de lrsquoACP (voir 342) Les autres vecteurs propres peuvent ecirctre utiliseacutes pour extraire davantage drsquoinformations et mecircme des signaux deacutecorreacuteleacutes comme on le verra au paragraphe 35 mais lrsquoanalyse semble alors moins robuste Srsquoen tenir aux informations donneacutees par la composante principale est un gage de pertinence suppleacutementaire

Ces reacutesultats concernent donc les sources preacutedominantes ou principales mais

laissent de cocircteacute un certain nombre drsquoeacuteveacutenements sonores agrave consideacuterer

312 Traitement du champ reacutesiduel Le champ reacutesiduel regroupe en quelque sorte tout ce qui nrsquoest pas une source

principale Il inclut donc les reacuteflexions et la reacuteverbeacuteration de la piegravece mais aussi les bruits parasites occasionnels ou continus (ventilation etc) Ces bruits ou eacutechos nrsquoont pas de direction de provenance assez distincte pour pouvoir ecirctre mesureacutee preacuteciseacutement Le champ reacutesiduel est eacutegalement composeacute du champ diffus La notion de champ diffus est couramment utiliseacutee mais rarement preacuteciseacutement deacutefinie On trouve dans la litteacuterature des deacutefinitions diverses lrsquoune drsquoelles preacutecisant qursquoil serait un ensemble drsquoeacuteveacutenements sonores proches en temps et provenant de directions eacutequiprobables

Les algorithmes proposeacutes traitent correctement les sources principales mais le

champ reacutesiduel est laisseacute de cocircteacute Il est pourtant tregraves important pour lrsquoimmersion du sujet dans la scegravene une scegravene deacutepourvue de champ sonore sera perccedilue comme artificielle ce qui nuit agrave la perception drsquoespace On sera par exemple davantage conscients drsquoecirctre au centre drsquoun dispositif expeacuterimental et moins sensibles aux variations de profondeur et de perspectives

31 Deacutetermination des directions principales 23

Neacuteanmoins il faut relativiser lrsquoimportance de ce champ reacutesiduel il nrsquoest pas utile pour la localisation des sources principales et ne caracteacuterise que lrsquoenvironnement drsquoenregistrement En outre le champ reacutesiduel qui provient souvent de directions floues et notre but nrsquoest pas de les preacuteciser artificiellement Il nrsquoest degraves lors geacuteneacuteralement pas utile de le transmettre aux ordres eacuteleveacutes

Ainsi certains auteurs [Merimaa and Pulkki 2005] ont choisi de recreacuteer lors drsquoune

synthegravese un champ diffus artificiel baseacute sur une reacuteponse impulsionnelle de salle calculeacutee agrave lrsquoavance Lrsquoavantage est une immersion un enveloppement complets lrsquoinconveacutenient est que lrsquoambiance ainsi recreacuteeacutee est fictive et arbitraire et en outre complegravetement indeacutependante de lrsquoambiance initiale en laissant notamment de cocircteacute les sources secondaires

Nous proposons dans nos algorithmes de ne pas syntheacutetiser le champ diffus aux

ordres eacuteleveacutes mais de nous contenter de la description du champ reacutesiduel fourni par les ordres transmis (1er ordre dans nos exemples) Nous nous limiterons donc agrave preacuteciser par la synthegravese des ordres supeacuterieurs les positions des sources principales

32 Extension agrave la 3D Nous avons pour le moment eacutevoqueacute le cas de repreacutesentations de champ sonore agrave

2 dimensions crsquoest-agrave-dire issus de sources placeacutees dans le plan horizontal Mais certaines repreacutesentations comportent eacutegalement des composantes verticales Pour analyser ces signaux en 3 dimensions il faut inteacutegrer la composante Z On effectue alors simplement une ACP sur X Y Z et W Le 1er vecteur propre sera alors bien dirigeacute dans lrsquoespace (X Y Z) dans la direction de la source lrsquoambiguiumlteacute de frac12 espace eacutetant leveacutee par W

Lrsquoalgorithme est alors complegravetement similaire agrave celui analysant des signaux en 2

dimensions Des tests ont eacuteteacute reacutealiseacutes agrave partir de signaux syntheacutetiques pour lesquels les positions des sources eacutetaient connues pour des raisons pratiques aucune scegravene sonore reacuteelle en 3 dimensions nrsquoa pu ecirctre enregistreacutee avec une connaissance initiale preacutecise des positions des sources

Les visualisations et les eacutecoutes eacutetant plus deacutelicates en 3D et lrsquoextension agrave la 3D

eacutetant immeacutediate nous avons donc concentreacute nos efforts sur lrsquoanalyse de scegravenes en 2D En outre en lrsquoabsence de dispositif spheacuterique ou heacutemispheacuterique de haut-parleurs le seul moyen agrave notre disposition pour eacutecouter une scegravene 3D est lrsquoeacutecoute binaurale crsquoest-agrave-dire au casque avec des fonctions de transfert de tecircte (HRTF) relativement bien adapteacutees agrave lrsquoauditeur

33 Analyse aux ordres supeacuterieurs

331 Description Afin drsquoameacuteliorer la preacutecision de lrsquoanalyse nous avons essayeacute drsquoappliquer une ACP

sur des signaux ambisoniques drsquoordre plus eacuteleveacute (signaux HOA) dans le plan horizontal Deux meacutethodes ont eacuteteacute essayeacutees

Chapitre 3 Description des analyses 24

La premiegravere consiste agrave appliquer une ACP agrave 3 dimensions successivement sur les composantes X Y W (ordre 1 et 0) puis U V W (ordre 2 et 0) et ainsi de suite crsquoest-agrave-dire (en utilisant la notation geacuteneacuterale) sur les composantes et W (ordre m et 0) Les reacutesultats de ces analyses (les directions des 1

)1(0mY )1(

0minus

mYegraveres composantes) sont ensuite regroupeacutees

lrsquoanalyse de lrsquoordre 1 fournissant des reacutesultats modulo 2π lrsquoanalyse de lrsquoordre 2 des reacutesultats plus preacutecis mais modulo π et plus geacuteneacuteralement lrsquoanalyse de lrsquoordre m permettant de trouver des angles modulo mπ2

La limite de cette approche se perccediloit lors de la fusion des reacutesultats les angles

trouveacutes agrave un ordre eacuteleveacute sont plus preacutecis dans des bandes de freacutequences eacuteleveacutees mais la limitation theacuteorique de ces signaux HOA dans les basses freacutequences font que lrsquoanalyse de lrsquoordre 1 reste la plus pertinente dans les premiegraveres bandes Parvenir agrave deacuteterminer agrave partir de quelle freacutequence on peut faire davantage confiance agrave lrsquoordre n+1 qursquoagrave lrsquoordre n nrsquoest pas aiseacute et cette limite provoque des aberrations dans les angles trouveacutes Une source unique pourra par exemple ecirctre interpreacuteteacutee par lrsquoalgorithme des k-moyennes (voir 341) comme 2 sources une en hautes freacutequences et une en basses freacutequences les 2 eacutetant trouveacutes agrave 2 angles diffeacuterents chaque angle relevant drsquoun ordre analyseacute diffeacuterent

La deuxiegraveme meacutethode consiste pour eacuteviter cette fusion des reacutesultats agrave effectuer

une seule ACP sur les composantes U V X Y et W Cette meacutethode souffre drsquoune tregraves grande complexiteacute algorithmique pour une ameacutelioration de la preacutecision peu sensible En effet si cette meacutethode permet drsquoobtenir des reacutesultats plus preacutecis dans certaines bandes de freacutequences elle est sensible aux deacutefauts et les limites des ordres supeacuterieurs (lrsquoabsence de basses freacutequences entre autres) perturbent lrsquoanalyse en composantes principales

332 Illustration sur une scegravene virtuelle La scegravene preacutesenteacutee ici est une scegravene artificielle crsquoest-agrave-dire composeacutee de sons

placeacutes artificiellement agrave diverses positions Elle a une dureacutee totale de 135 s et comporte 4 sources positionneacutees dans le plan horizontal une guitare placeacutee agrave 45deg une basse agrave -70deg une batterie agrave 110deg et une voix feacuteminine qui effectue continucircment un tour complet dans le sens indirect en partant de lrsquoarriegravere (elle passe donc successivement par les positions 180deg 90deg 0deg -90deg et -180deg) La guitare et la batterie srsquoarrecirctent peu avant la fin de la scegravene (12egraveme seconde au 910egraveme du son approximativement)

Figure 33 - Position des sources de la scegravene de test agrave 4 sources dont 1 mobile

33 Analyse aux ordres supeacuterieurs 25

Figure 34 - Angles drsquoune scegravene virtuelle ayant 1 source mobile et 3 sources fixes

(deacutecrite en 332) trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 Pour chaque trame (en abscisse) 20 angles (1 par bande en ordonneacutee et en degreacutes) sont

reporteacutes le diamegravetre du point correspondant agrave un critegravere de pertinence (voir 342)

Figure 35 - Angles de la mecircme scegravene trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 2 Reacutesultats modulo π reacutepliqueacutes pour faciliter la comparaison avec la figure preacuteceacutedente On remarque que les lignes sont plus nettes qursquoil y a moins drsquoangles aberrants et que

les angles corrects sont plus marqueacutes (ils sont deacutetermineacutes comme plus pertinent)

Chapitre 3 Description des analyses 26

20

0

20

0

20

0

Figure 36 - Angles drsquoune scegravene reacuteelle constitueacutee drsquoun bruit parcourant le cercle trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 (en haut) 0 et 2 (au milieu) et 0 et 4 (en bas) Le

numeacutero de trame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On retrouve qursquoune limitation des ordres HOA supeacuterieurs issus drsquoun enregistrement

microphonique est la restitution des basses freacutequences

34 Traitement des donneacutees

341 Algorithme des k-moyennes Agrave lrsquoissue de lrsquoanalyse en composantes principales on reacutecupegravere avec la premiegravere

des meacutethodes exposeacutees au chapitre preacuteceacutedent des angles correspondants aux positions des sources preacutedominantes agrave raison drsquoune valeur par fenecirctre et par bande de freacutequence Il faut agrave partir de ces donneacutees parvenir agrave isoler les sources crsquoest-agrave-dire agrave deacuteterminer quels sont les angles pertinents et examiner quels sont ceux qui agrave une certaine toleacuterance pregraves sont preacutesents dans plusieurs bandes de freacutequence etou plusieurs fenecirctres temporelles

Pour pouvoir exploiter ces donneacutees spatiales nous avons utiliseacute lrsquoalgorithme des

k-moyennes (ou k-means) [MacQueen 1967] sur les angles pondeacutereacutes par des critegraveres de pertinence Cet algorithme fonctionne de la maniegravere suivante

Initialisation choix de k barycentres (les k moyennes) Reacutepeacuteter Associer chaque eacuteleacutement au barycentre le plus proche Recalculer les positions des barycentres Jusqursquoagrave ce que les barycentres soient stables (ou au bout de t iteacuterations)

34 Traitement des donneacutees 27

Lrsquoavantage de cet algorithme est drsquoecirctre peu glouton puisqursquoil converge en O(tkn) ougrave t est le nombre drsquoiteacuterations k le nombre de centres et n le nombre de points (geacuteneacuteralement on a t k ltlt n) Par contre il est plutocirct sensible aux exceptions un point aberrant tirera agrave lui la moyenne auquel il aura eacuteteacute associeacute Il faut donc faire en sorte que ces points erroneacutes soient aussi rares que possibles Crsquoest pourquoi les angles traiteacutes sont pondeacutereacutes par 2 critegraveres de pertinence

La pondeacuteration des angles fournis en entreacutee de lrsquoalgorithme des k-moyennes se

fait de maniegravere simple en reacutepeacutetant ces angles un nombre de fois (de 0 agrave 10) proportionnel agrave un critegravere Ainsi un angle tregraves pertinent sera dupliqueacute et sera preacutesent plusieurs fois dans la liste des donneacutees traiteacutees attirant ainsi agrave lui la position du barycentre le plus proche Au contraire un angle trop peu pertinent ne sera pas reacutepeacuteteacute voir mecircme sera enleveacute de la liste

Le seul problegraveme de cet algorithme est qursquoil neacutecessite la connaissance de k crsquoest-

agrave-dire du nombre de sources qui composent la scegravene Une deacutetermination automatique se basant sur la reacutepeacutetition de lrsquoalgorithme avec un k croissant a eacuteteacute testeacutee mais le critegravere drsquoarrecirct reposant sur la dispersion des points autour des barycentres nrsquoeacutetant pas assez robuste cette meacutethode a provisoirement eacuteteacute mise de cocircteacute

342 Critegraveres de pertinence Les 2 critegraveres de pondeacuteration choisis sont lrsquoeacutenergie de la sous-bande dans la

fenecirctre donneacutee et le rapport de la norme de la 1egravere composante (la composante principale) de lrsquoACP sur la somme des normes de toutes les composantes

En effet un angle est trouveacute dans chaque sous-bande de chaque fenecirctre mecircme si

le signal y est tregraves faible Lrsquoangle trouveacute sera alors tregraves peu repreacutesentatif de la direction drsquoune source puisqursquoil indiquera la direction drsquoun bruit Lrsquoeacutenergie doit donc ecirctre prise en compte pour ne conserver que les angles trouveacutes dans des bandes comportant un signal suffisant

La norme relative de la 1egravere composante de lrsquoACP rend quant agrave elle compte du

poids relatif de cette composante par rapport aux autres Ainsi si 2 sources sont preacutesentes dans une bande donneacutee la 1egravere composante sera agrave peine plus marqueacutee que la 2egraveme Ceci peut ecirctre calculeacute en prenant simplement le rapport de la 1egravere valeur propre sur la somme des valeurs propres

On peut noter que la norme de la 1egravere composante ne se deacutetache nettement que

lorsqursquoun son est preacutesent dans la bande consideacutereacutee On peut alors se demander si lrsquoeacutenergie doit ecirctre prise en compte ou si lrsquoinformation qursquoelle contient nrsquoest comprise dans le 2egraveme critegravere En fait la norme relative est un critegravere tregraves bruiteacute et consideacuterer lrsquoeacutenergie par ailleurs permet de nuancer ces artefacts et constitue une base solide de pondeacuteration

Chapitre 3 Description des analyses 28

80

40

0

Figure 37 - Repreacutesentation temps-freacutequence des angles du son deacutecrit en 332 Letrame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On peut donc v

par trame et par bande chacun eacutetant le reacutesultat drsquoune ACP crsquoest-agrave-dire la 1egravere

Figure 38 - Eacutenergie de ce mecircme son On peut voir une basse en notes tenues uneet une batterie qui produit des sons secs dans un spectre plus aigu

80

40

0

80

40

0

Figure 39 - Norme relative de la 1egravere composante de ce mecircme son Les impacts de batterie (dans lrsquoaigu) ressortent davantage

π 0 minusπ

numeacutero de oir un angle direction

voix aiguumle

34 Traitement des donneacutees 29

Figure 310 - Pondeacuteration appliqueacutee agrave lrsquoentreacutee des k-moyennes calculeacutee ici comme

le simple produit de lrsquoeacutenergie et de la norme relative

80

40

0

343 Lissages

Pour faire face au bruit ineacutevitable dans les reacutesultats il faut lisser les donneacutees Ces

lissages temporels correspondent agrave des hypothegraveses de stabiliteacute des sources qui sont supposeacutees ecirctre fixes ou mobiles relativement lentement (dans une mesure agrave parameacutetrer)

Un premier lissage peut ecirctre opeacutereacute avant le traitement par lrsquoalgorithme des k-

moyennes Le filtre choisi est un filtre meacutedian de maniegravere agrave eacuteliminer les points aberrants tout en conservant les vraies valeurs des points coheacuterents Ce lissage est appliqueacute sur chaque sous-bande aux angles et ne tient pas compte des critegraveres de pertinence Il est donc utiliseacute avec parcimonie et peut mecircme ecirctre eacuteviteacute en reacuteglant de maniegravere adeacutequate les critegraveres de pondeacuteration agrave lrsquoentreacutee des k-moyennes

Le deuxiegraveme lissage srsquoeffectue agrave lrsquoentreacutee des k-moyennes en mecircme temps que les

critegraveres de pondeacuteration Il consiste agrave appliquer les k-moyennes non pas sur une fenecirctre donneacutee mais sur plusieurs fenecirctres conseacutecutives anteacuterieures et posteacuterieures en donnant plus de poids agrave la fenecirctre courante Dans la pratique les poids donneacutes aux diffeacuterentes fenecirctres sont eacutetablis par une gaussienne centreacutee sur la fenecirctre courante et de largeur agrave deacuteterminer (en fonction notamment de la dureacutee drsquoune fenecirctre et du type de scegravene analyseacute)

35 Exploitation de toutes les composantes de lrsquoACP Les analyses preacutesenteacutees preacuteceacutedemment ont toutes exploiteacute uniquement la

composante principale extraite par lrsquoACP Or cette analyse fournit des informations plus complegravetes par lrsquointermeacutediaire des autres composantes dont on peut tirer parti pour isoler plusieurs sources au sein drsquoune mecircme bande Cette approche est toujours en deacuteveloppement dans ce stage et nrsquoa pas encore donneacute pleine mesure des reacutesultats qursquoelle laisse entrevoir

Les composantes de lrsquoACP indiquent des directions qui correspondent aux

diffeacuterentes sources composant la scegravene sonore Les vecteurs propres de la matrice de correacutelation donnent ainsi les combinaisons lineacuteaires des signaux HOA permettant de

Chapitre 3 Description des analyses 30

seacuteparer de la meilleure faccedilon possible ces sons Ces directions peuvent ecirctre alors utiliseacutees pour former des directiviteacutes isolant au mieux ces sources

aBS sdot= (31)

ougrave la matrice a contient les vecteurs propres de la matrice de correacutelation (voir Annexe C) le vecteur B contient les signaux HOA et le vecteur S contient les sources extraites

⎟⎟⎟

⎜⎜⎜

=⎟⎟⎟

⎜⎜⎜

⎛=

⎥⎥⎥

⎢⎢⎢

⎟⎟⎟

⎜⎜⎜

⎟⎟⎟

⎜⎜⎜

⎛=

10

1001

1

ML

N

B

BB

S

SSuua MML (32)

On obtient ainsi des lobes drsquoautant plus eacutetroits que lrsquoordre est eacuteleveacute chacun

dirigeacute vers une source et permettant de lrsquoisoler le plus possible des contributions des autres sources La Figure 311 preacutesente les directiviteacutes ainsi trouveacutees par une ACP en pleine bande Une analyse en sous-bande permet une plus grande distinction des sources mais une seacuteparation diffeacuterente entre les bandes est dangereuse car elle risque de dissocier spatialement plusieurs parties drsquoun mecircme son

Figure 311 - Directiviteacutes seacuteparant ideacutealement 4 sources placeacutees agrave 17 73 195 et -58deg

pour une scegravene virtuelle encodeacutee agrave lrsquoordre 4 Ce principe se heurte neacuteanmoins aux limites de seacuteparation lieacutees agrave lrsquoordre

drsquoencodage en effet 2 sources ne pourront pas ecirctre seacutepareacutees si elles sont trop proches comme en teacutemoigne la largeur des lobes principaux Les lobes secondaires traduisent eacutegalement un meacutelange des sources isoleacutees La figure ci-dessus montre ainsi que la source placeacutee agrave 17deg (en vert) sera preacutesente de maniegravere non neacutegligeable dans le signal senseacute contenir la source placeacutee agrave -58deg (en bleu) en raison du lobe secondaire bleu important

31

Chapitre 4

Reacutesultats et applications

41 Illustration et critique des reacutesultats obtenus

411 Avant-propos Sans notification particuliegravere les reacutesultats preacutesenteacutes ont eacuteteacute obtenus avec un pas

de 50 ms une analyse en 80 bandes avec une FFT sur 8192 points Une taille de FTT plus grande et un plus grand nombre de bande augmente la qualiteacute de lrsquoanalyse un pas plus petit ameacuteliore sa preacutecision temporelle mais les reacutesultats sont moins fiables et un lissage plus important srsquoimpose alors Ces paramegravetres ont eacuteteacute reacutegleacutes apregraves de multiples essais sur des scegravenes diverses

Les reacutesultats sont preacutesenteacutes ici uniquement sous la forme de graphiques nous ne

pouvons donc repreacutesenter que les angles trouveacutes agrave la sortie de lrsquoalgorithme des k-moyennes

412 Scegravene 2D artificielle agrave 4 sources fixes La premiegravere scegravene est une scegravene artificielle composeacutee de 4 sons fixes placeacutes agrave -70

-10 45 et 110deg Ces sons (une basse une voix une guitare et une batterie) ont eacuteteacute choisis pour leur varieacuteteacute spectrale et leur varieacuteteacute drsquoattaque Elle a en outre le meacuterite drsquoecirctre reacutealiste et de constituer une seacutequence musicale (chaque son nrsquoest pas une meacutelodie indeacutependante)

On voit sur la Figure 41 ci-dessous que les angles trouveacutes sont proches des

angles theacuteoriques Lrsquoun des sons (agrave 45deg) est quasiment nul avant la 100egraveme trame sa position est alors moins facile agrave deacuteterminer plus preacuteciseacutement une position approximative est trouveacutee et correspondrait exactement agrave la position du bruit (45deg) si lrsquoincertitude de mesure tregraves grande pour un son aussi faible ne rendait la deacutetermination si ardue On mesure un eacutecart-type de 22deg sur cet exemple (en excluant le deacutebut du son agrave 45deg)

Chapitre 4 Reacutesultats et applications 32

Figure 41 - Angles theacuteoriques (en pointilleacutes rouge) et calculeacutes (en trait bleu) pour une scegravene

constitueacutee de 4 sons fixes longue de 11s

413 Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile

Figure 42 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) de la scegravene agrave

4 sources dont 1 mobile deacutecrite en 332 Cette scegravene est deacutecrite en 332 On a ici demandeacute aux k-moyennes de renvoyer 5 barycentres par trame alors que

seules 4 sources eacutetaient preacutesentes dans le but de se garantir une marge vis-agrave-vis des erreurs de deacutetection Cette 5egraveme direction nrsquoest pas du tout gecircnante elle indique une direction qui ne contient pas de source et crsquoest donc un son tregraves faible qui est ainsi pointeacute Apregraves une eacuteventuelle extraction le signal ne sera donc pas du tout gecircnant

41 Illustration et critique des reacutesultats obtenus 33

On peut remarquer que quand le son mobile se rapproche drsquoun son fixe la deacutetection est moins bonne il y a une fusion entre les 2 sons Mais encore une fois lors de lrsquoextraction lrsquoisolation drsquoun des sons englobera lrsquoautre son ce qui ne posera pas de problegraveme pour les objectifs fixeacutes aucune source nrsquoeacutetant oublieacutee En effet la seacuteparation de sources nrsquoest pas un objectif ici mais un moyen pour preacuteciser les positions des sources ce qui sera fait correctement mecircme si 2 sources sont pointeacutees par 1 seule direction

414 Scegravene 3D artificielle agrave une source et bruit de fond

La scegravene dont la position drsquoune source a eacuteteacute extraite ci-dessous est une scegravene virtuelle en 3D constitueacute drsquoun son (une voix) qursquoon a fait se deacuteplacer par paliers tout drsquoabord vers le haut de 0deg agrave 45deg et vers la gauche de 0deg agrave 90deg puis redescendre jusqursquoagrave 35deg en continuant son cheminement vers la gauche jusqursquoagrave 120deg et enfin finir la descente de 35deg agrave 0deg en la laissant agrave 120deg Agrave cette source a eacuteteacute superposeacutee une ambiance spatialiseacutee de hall drsquoaeacuteroport initialement enregistreacutee en 2D (au format 51) mais transformeacutee pour contenir des composantes verticales Cette ambiance deacutecorreleacutee de la source avait pour but de tester la robustesse de lrsquoanalyse Elle eacutetait agrave 15 dB en-dessous du niveau de la voix

Figure 43 - Azimut et eacuteleacutevation theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun

son en 3D artificiel de 9s placeacute dans une ambiance bruyante On remarque que lrsquoanalyse est tregraves correcte Il nrsquoy a pas drsquoeacutecart important entre

les angles theacuteoriques et ceux calculeacutes On note toutefois que le lissage agrave lrsquoentreacutee des k-moyennes a pour effet de gommer les creacuteneaux et drsquoaplatir quelque peu la courbe drsquoeacuteleacutevation ceci nrsquoest pas vraiment gecircnant car de tels sauts dans la position drsquoune source ne sont pas du tout reacutealistes (ils peuvent caracteacuteriser des bruits de pas mais de tels impacts sont courts et on peut srsquoattendre agrave ce que la courbe suive leur position aux instants ougrave ils sont eacutemis)

Chapitre 4 Reacutesultats et applications 34

415 Scegravene 2D naturelle agrave une source Les scegravenes naturelles sont on lrsquoa vu plus deacutelicates agrave exploiter car on ne peut pas

garantir la preacutecision de la position theacuteorique agrave retrouver par le calcul et on ne peut donc pas calculer la preacutecision de lrsquoanalyse Seuls les enregistrements utilisant la table tournante (voir 232) permettent une mesure preacutecise de la position de lrsquoangle Ces enregistrements on pu confirmer la validiteacute de lrsquoanalyse pour des scegravenes reacuteelles on trouve ici un eacutecart-type de 25deg

Figure 44 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun bruit blanc

tournant autour du micro enregistreacute en chambre sourde Cette analyse a eacuteteacute reacutealiseacutee par sous-bandes mais sur une eacutetendue freacutequentielle

plus reacuteduite puisqursquoon srsquoest limiteacute aux possibiliteacutes offertes par le microphone La scegravene a donc eacuteteacute analyseacutee de 200 agrave 10 000 Hz

42 Quelques applications

421 Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre 2 agrave partir de lrsquoordre 1

Une fois les positions des sources connues la porte est ouverte agrave de nombreuses

applications La connaissance de ces positions permet en effet de syntheacutetiser artificiellement des composantes manquantes ou non transmises La premiegravere synthegravese deacuteveloppeacutee est celle des signaux U et V composant la partie horizontale de lrsquoordre 2 agrave partir de lrsquoordre 1 et de paramegravetres issus de lrsquoanalyse pour une source en 2D (des angles dans de cas)

42 Quelques applications 35

Figure 45 - Principe de lrsquoameacutelioration de la preacutecision spatiale

Le principe de la synthegravese est drsquoextraire les sources originales agrave partir de W X Y

et des angles (un angle par trame et par sous-bande) Ceci peut ecirctre reacutealiseacute de maniegravere approcheacutee en deacutecodant lrsquoordre 1 dans les directions des sources Ce deacutecodage revient agrave calculer les signaux qui devraient alimenter des haut-parleurs qui seraient placeacutes agrave ces positions dans le cas drsquoune restitution (voir 122) crsquoest-agrave-dire agrave former des directiviteacutes dans les directions des sources Dans la plupart des cas ce deacutecodage qui fait intervenir une pseudo-inversion de Moore-Penrose (111) est imparfait les sources se retrouvant leacutegegraverement meacutelangeacutees On peut comparer cette seacuteparation agrave celle que ferait un ensemble de microphones agrave directiviteacute hypercardioiumlde coiumlncidents

Figure 46 - Directiviteacutes eacutequivalentes agrave la seacuteparation de 4 sources agrave lrsquoordre 1 Ces sources seacutepareacutees vont ensuite constituer toujours placeacutees aux angles

deacutetermineacutes agrave lrsquoanalyse une scegravene virtuelle qursquoon va encoder agrave lrsquoordre 2 De cet encodage on ne conservera que les signaux manquants dans notre exemple les signaux du 2nd ordre U et V Ainsi la scegravene spatialiseacutee sera au final constitueacutee des signaux W X et Y drsquoorigine (transmis) et des signaux U et V syntheacutetiseacutes

Chapitre 4 Reacutesultats et applications 36

422 Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave partir de W Reconstruire une scegravene sonore spatialiseacutee agrave partir drsquoun unique canal mono est

alors difficile et le reacutesultat nrsquoest appreacuteciable que pour des scegravenes simples Il faut pour cela que les diffeacuterentes sources composant cette scegravene aient des supports spectraux aussi distincts que possible Les diffeacuterentes sous-bandes sont alors placeacutees agrave un certain angle transmis en parallegravele et crsquoest cette scegravene reconstitueacutee qui va ecirctre encodeacutee au 1er ordre de maniegravere agrave recreacuteer les signaux X et Y

Figure 47 - Principe de la restitution de lrsquoordre 1 agrave partir du signal mono W Ce scheacutema rappelle une meacutethode deacuteveloppeacutee dans le cas steacutereacuteo appeleacutee BCC

(Binaural Cue Coding) [Faller and Baumgarte 2002] Le principe est drsquoextraire et coder des informations permettant la reconstruction binaurale drsquoun signal agrave savoir les diffeacuterences interaurales drsquointensiteacute et de temps (Interaural LevelTime Difference ILD et ITD) qui correspondent dans le cas drsquoune restitution sur un casque aux diffeacuterences drsquointensiteacute et de temps inter-canal (Inter-Channel LevelTime Difference ICLD et ICTD) qui sont mesureacutees agrave partir drsquoune analyse en sous-bandes Les auteurs y ont plus reacutecemment associeacute un indice de correacutelation interaurale mesureacute agrave partir de la correacutelation inter-canal (ICC) afin de caracteacuteriser la preacutecision spatiale (la ldquolargeurrdquo drsquoune source)

Figure 48 - Scheacutema de principe de la meacutethode BCC [Faller and Baumgarte 2003]

On observe en pratique des deacutefauts lieacutes agrave la brutaliteacute de la proceacutedure une sous-

bande ne peut ecirctre que placeacutee agrave la position indiqueacutee et ne peut pas rester floue diffuse ou encore ecirctre placeacutee agrave plusieurs endroits Pour y remeacutedier nous avons ajouteacute 2 traitements agrave la synthegravese Tour drsquoabord nous avons appliqueacute un leacuteger lissage soulageant les effets deacutesagreacuteables dus au saut du contenu drsquoune sous-bande drsquoun endroit agrave un autre entre de 2 fenecirctres conseacutecutives Les positions varient alors de faccedilon plus souple au sein drsquoune mecircme sous-bande traduisant une hypothegravese de continuiteacute spatiale (pas de deacuteplacement brusque) La contrepartie est que cette hypothegravese est lieacutee agrave une hypothegravese de continuiteacute spectrale

42 Quelques applications 37

La 2egraveme ameacutelioration concerne le positionnement des sources En incluant dans la transmission un critegravere de pertinence on peut savoir srsquoil est raisonnable de placer une sous-bande agrave un angle preacutecis ou bien si lrsquoanalyse eacutetait flou agrave son sujet auquel cas un positionnement impreacutecis serait preacutefeacuterable Le paramegravetre choisi est une combinaison des critegraveres eacutevoqueacutes en 342 il nous permet de placer la sous-bande de maniegravere plus ou moins prononceacutee

43 Comparaison avec une meacutethode existante Certains auteurs ont deacutejagrave essayeacute drsquoanalyser un contenu ambisonique pour

retrouver les positions des sources Ville Pulkki a ainsi deacutecrit dans [Pulkki and Faller 2006] une meacutethode drsquoanalyse du B-format baseacutee sur lrsquoeacutetude des amplitudes des signaux W X Y et Z

Figure 49 - X et Y dans le cas drsquoune sinusoiumlde placeacutee agrave 15deg (agrave gauche) et 120deg (agrave droite)

Les figures ci-dessus montrent les relations drsquoamplitudes (algeacutebriques) qui relient

X et Y agrave lrsquoangle de la source On voit que lrsquoanalyse de ces amplitudes respectives permet de retrouver la position de la source en effet on a pour une source unique les relations de lrsquoeacutequation (11) rappeleacutee ici

⎪⎪

⎪⎪

=

=

=

=

δ

δθ

δθ

sin2

cossin2

coscos2

SZ

SY

SX

SW

(41)

On peut donc theacuteoriquement retrouver les valeurs de θ et δ par relations

trigonomeacutetriques Ainsi on a

⎪⎪⎩

⎪⎪⎨

=

=

2)sin(

)tan(

WZ

XY

δ

θ (42)

Chapitre 4 Reacutesultats et applications 38

On peut donc trouver les angles θ et δ agrave π pregraves Pour lever lrsquoambiguiumlteacute une eacutetude de signe est neacutecessaire Mais dans le cas de θ le signe de X et de Y agrave δ fixeacute deacutepend aussi bien de θ que S Il faut srsquointeacuteresser aux signes de θcos et θsin crsquoest-agrave-dire

aux signes de WX et

WY Dans la pratique on srsquointeacuteressera aux signes de et

pour se preacutevenir des divisions par zeacuteros

XW sdot YW sdot

XW sdot et YW sdot sont proportionnels agrave toujours positif

2S

Les auteurs deacutecrivent eacutegalement dans leur article un critegravere appeleacute diffuseness qui

peut ecirctre compareacute agrave un critegravere de pertinence inverseacute Ce paramegravetre calculeacute par agrave 1 - R ougrave R est un rapport de normes est tregraves proche du critegravere de norme relative deacutecrit en 342 Il peut donc ecirctre utiliseacute de la mecircme faccedilon et permettre ainsi une pleine comparaison

Cette meacutethode a eacuteteacute impleacutementeacutee pour pouvoir ecirctre compareacutee avec la meacutethode

par ACP Tous les paramegravetres ont scrupuleusement eacuteteacute gardeacutes identiques et plusieurs reacuteglages ont eacuteteacute testeacutes Les courbes ci-dessous preacutesentent les reacutesultats des analyses de la scegravene deacutecrite en 332 avec un pas de 50ms un overlap de 50 un NFFT de 2048 et 40 bandes freacutequentielles Nous avons repreacutesenteacute tous les angles trouveacutes crsquoest-agrave-dire un par bande et par trame pour srsquoaffranchir de la seacutelection des k-moyennes

π

0

minusπ

Figure 410 - Angles trouveacutes par lrsquoalgorithme de [Pulkki and Faller 2006] Le diamegravetre du point correspondant agrave la pertinence

43 Comparaison avec une meacutethode existante 39

π

0

minusπ

Figure 411 - Angles trouveacutes par une ACP pour la mecircme scegravene On remarque que les points excentriques sont moins nombreux et plus rarement trouveacutes comme pertinents

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee

441 Position du problegraveme

Une application directe de ces analyses a eacuteteacute deacuteveloppeacutee pour la confeacuterence audio

spatialiseacutee La confeacuterence audio utilise en effet la spatialisation pour permettre une meilleure seacuteparation par lrsquooreille des diffeacuterents locuteurs Ainsi si plusieurs personnes parlent en mecircme temps il sera tregraves difficile de comprendre chacun individuellement si ces voix sont restitueacutees en mono mais on pourra focaliser lrsquoattention sur chacune drsquoentre elles si elles sont seacutepareacutees spatialement (crsquoest lrsquoeffet cocktail party [Cherry 1953])

Lrsquoobjectif eacutetait de veacuterifier qursquoil eacutetait possible de conserver la spatialisation drsquoune

confeacuterence en nrsquoayant transmis qursquoun downmix mono des signaux Ce concept semble se rapprocher de celui deacutecrit en 422 mais une diffeacuterence fondamentale les seacutepare la confeacuterence audio spatialiseacutee nrsquoest pas codeacutee au format ambisonic mais les signaux traiteacutes sont directement les sons provenant des diffeacuterents locuteurs crsquoest-agrave-dire les sources elles-mecircmes Ainsi lrsquoanalyse ne porte plus sur une scegravene spatialiseacutee mais sur des signaux seacutepareacutes Il nrsquoy a ainsi plus drsquoindices spatiaux agrave trouver

Avoir accegraves aux sources permet drsquoobtenir des informations plus preacutecises pour

permettre une seacuteparation apregraves la transmission Comme nous lrsquoavons vu lrsquoanalyse drsquoune scegravene spatialiseacutee ne permet que dans drsquoultimes cas agrave la seacuteparation des sources ce qui est ici notre point de deacutepart et sera en fait notre point drsquoarriveacutee En effet nous tenterons de retrouver les sources seacutepareacutees apregraves la transmission de maniegravere agrave pouvoir par la suite les spatialiser agrave loisir (voir Figure 413)

Chapitre 4 Reacutesultats et applications 40

442 Solution proposeacutee Les paramegravetres extraits ne sont donc plus des positions de sources Nous avons

choisi de mesurer puis transmettre lrsquoeacutenergie de chaque signal dans chaque sous-bande en parallegravele du downmix En effet une bonne seacuteparation sera possible si lrsquoon sait quelle proportion de chaque source compose chaque sous-bande du signal mono

Figure 412 - Scheacutema de principe drsquoune confeacuterence audio spatialiseacutee

Figure 413 - Scheacutema ameacutelioreacute (deacutebit reacuteduit)

en pointilleacutes informations compleacutementaires (eacutenergie) Lrsquoanalyse en sous-bandes a lieu dans le serveur (Figure 414) Celui-ci calcule

lrsquoeacutenergie de chaque signal dans chaque sous-bande sur une trame donneacutee Crsquoest ce paramegravetre qui associeacute au signal mono M permettra la seacuteparation des sources dans le terminal (Figure 415) Ce dernier reacutepartira en effet les diffeacuterentes sous-bandes vers chaque signal reconstitueacute proportionnellement agrave cette information pour reconstruire les 4 sources originales

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee 41

Figure 414 - Analyse principe de lrsquoencodage dans le serveur

Figure 415 - Synthegravese principe du deacutecodage dans le client

Afin de reacuteduire au maximum les informations compleacutementaires agrave transmettre on

peut remarquer qursquoau cours drsquoune confeacuterence audio on a tregraves souvent un seul locuteur les participants ne parlent que tregraves rarement tous en mecircme temps Ceci implique que les signaux en entreacutee sont tregraves souvent tous nuls sauf 1 et appliquer un seuil en entreacutee de lrsquoanalyse permet outre lrsquoallegravegement du traitement drsquoavoir moins de paramegravetres agrave transmettre

Ce scheacutema simplifieacute ne tient pas compte des problegravemes de phase rien nrsquoindique

que les eacutenergies des signaux srsquoajoutent bien dans chaque sous-bande lors du downmix on peut tregraves bien avoir des oppositions de phase La solution est drsquoeffectuer le downmix (la somme) des signaux dans chaque sous-bande en prenant soin drsquoavoir recaleacute les phases au preacutealable Ceci nrsquoa un sens que pour des bandes suffisamment eacutetroites Les deacutecalages temporels appliqueacutes pour le recalage sont alors des paramegravetres suppleacutementaires agrave transmettre et sont pris en compte lors de la synthegravese au niveau du reacutepartiteur qui repositionnera la phase de chaque trame pour chaque signal

Chapitre 4 Reacutesultats et applications 42

443 Bilan Le reacutesultat du deacutecodage a pu ecirctre eacutecouteacute de diffeacuterentes maniegraveres les sources

reconstitueacutees individuellement ensemble en steacutereacuteo drsquoamplitude et sur un systegraveme 51 On note que les sources ont eacuteteacute assez bien seacutepareacutees mais que des artefacts sont audibles en particulier lorsque le nombre de locuteurs simultaneacutes augmentent Ces artefacts sont un meacutelange des voix qui nrsquoest gecircnant que lorsqursquoon les eacutecoute de maniegravere seacutepareacutee En effet lrsquoeacutecoute simultaneacutee de ces signaux syntheacutetiseacutes mecircme placeacutes agrave des positions distinctes sur un systegraveme de diffusion multicanal est tout agrave fait satisfaisante

Ce proceacutedeacute pour pouvoir ecirctre appliqueacute doit fonctionner en temps-reacuteel Cette

contrainte nrsquoa pas du tout eacuteteacute prise en compte lrsquoobjectif eacutetant de valider la faisabiliteacute drsquoune reconstruction Les programmes sous Matlab nrsquoont pas eacuteteacute optimiseacutes et ne respectent pas cette contrainte

43

Conclusion Nous avons preacutesenteacute dans ce rapport le principe et lrsquoapplication de plusieurs

meacutethodes drsquoanalyses spatiales de scegravenes ambisoniques conccedilues et reacutealiseacutee pendant le stage Le format HOA est en effet une repreacutesentation du champ acoustique deacutecomposeacute sur une base drsquoharmoniques spheacuteriques jusqursquoagrave un certain ordre agrave la maniegravere drsquoun deacuteveloppement limiteacute Il contient donc de maniegravere indirecte des indications spatiales qursquoon peut extraire avec des analyses comme lrsquoanalyse en composantes principales

Ces analyses nous permettent de deacuteterminer les positions des sources qui

composent la scegravene sonore Nous avons appliqueacute les reacutesultats de ces analyses agrave 2 types de synthegravese lrsquoune destineacutee aux transmissions bas deacutebit lrsquoautre agrave un traitement de restitution de la preacutecision spatiale dans le cas ougrave des ordres supeacuterieurs dont le but est drsquoaffiner la perception de localisation nrsquoauraient pas pu ecirctre transmis Ces algorithmes par le codage drsquoinformations spatiales qursquoils permettent pourront trouver bien drsquoautres applications dans la transmission et le codage ougrave la description du contenu est de plus en plus utiliseacutee (comme par exemple dans la norme MPEG)

Des ameacuteliorations sont possibles sur plusieurs points tout drsquoabord lrsquoexploitation

de toutes les composantes de lrsquoACP est agrave lrsquoeacutetude et semble pouvoir donner des reacutesultats inteacuteressants Drsquoautre part on a vu que le reacutesultat final est tregraves deacutependant de la bonne convergence de lrsquoalgorithme des k-moyennes utiliseacute pour traiter les donneacutees brutes de lrsquoanalyse en sous-bandes Or cet algorithme neacutecessite des reacuteglages tregraves fins et une connaissance a priori du nombre de sources est presque indispensable Drsquoautres algorithmes plus complexes de suivi de formes pourraient ecirctre avantageusement utiliseacutes pour deacutetecter dans tous les angles trouveacutes lesquels sont susceptibles de former une trajectoire

45

Annexe A

Deacuteveloppement du champ acoustique en harmoniques spheacuteriques

A1 Eacutequation drsquoonde en coordonneacutees spheacuteriques On se place dans lrsquoespace euclidien agrave 3 dimensions muni drsquoun systegraveme de

coordonneacutees spheacuteriques Un point M y est repeacutereacute par son rayon r son azimut θ et son eacuteleacutevation δ tels que repreacutesenteacutes sur la figure ci-dessous

- r est la norme du vecteur position rr crsquoest-agrave-dire la distance OM - [20[ πθ isin est lrsquoangle formeacute par le projeteacute du point sur le plan xOy et lrsquoaxe Ox

- ]2

2

[ ππδ minusisin est lrsquoangle formeacute par le plan xOy et le vecteur position2

Figure A1 - Systegraveme de coordonneacutees spheacuteriques

2 Cet angle diffegravere de lrsquoangle polaire usuel δπϕ minus=

2 habituellement pris entre lrsquoaxe Oz et le

vecteur position

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 46

Les relations entre les coordonneacutees spheacuteriques et les coordonneacutees carteacutesiennes sont

⎪⎩

⎪⎨

===

δδθδθ

sincossincoscos

zryrx

(A1)

On srsquointeacuteresse dans ce repegravere agrave lrsquoeacutequation de propagation des ondes acoustiques

de pression On se place dans les conditions classiques drsquoacoustique lineacuteaire (les variations de p sont petites par rapport agrave la pression atmospheacuterique) en supposant que lrsquoair est un fluide parfait (on y neacutegligera les pheacutenomegravenes dissipatifs) Dans une reacutegion de lrsquoespace ne comprenant pas de sources lrsquoeacutequation drsquoonde srsquoeacutecrit alors

0)(12

2

2 =⎟⎟⎠

⎞⎜⎜⎝

⎛partpart

minus∆ trptc

r (A2)

p eacutetant la pression et c la vitesse de propagation du son dans lrsquoair

Cette eacutequation devient dans le domaine freacutequentiel lrsquoeacutequation de Helmholtz

( ) 0)(2 =+∆ ωrpk r (A3)

ck ω

= eacutetant le nombre drsquoonde

En coordonneacutees spheacuteriques cette eacutequation srsquoeacutecrit

0sin1sin

sin11 2

2

2

222

2 =⎥⎦

⎤⎢⎣

⎡+

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart pk

rrrr

rr δθθθ

θθ (A4)

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques Drsquoapregraves [Bruneau 1983] elle admet des solutions agrave variables seacutepareacutees de la forme

)()()( δθ ΦΘ= rRp (A5) Ces solutions sont respectivement - pour la partie radiale une combinaison des fonctions de Bessel spheacuteriques de

premiegravere et seconde espegravece3 jn et nn

)()()( krBnkrAjrR nn += (A6) 3 Les fonctions de Bessel spheacuteriques de seconde espegravece sont eacutegalement appeleacutees fonctions de

Neumann

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 47

Ces fonctions sont deacutefinies comme suit

(A7)

Figure A2 - Fonctions de Bessel spheacuteriques pour les ordres 0 agrave 5 )(krjm

- pour la partie azimutale les fonctions )(θΘ

)sin()cos()( 21 θθθ ncnc +=Θ (A8) Eacutetant donneacute la deacutefinition de lrsquoangle Θ celui-ci doit neacutecessairement ecirctre de

peacuteriode 2π ))2()(( πθθ +Θ=Θ ce qui impose agrave n drsquoecirctre entier

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 48

- pour la partie polaire les fonctions de Legendre associeacutees )(sinδmnP

nm

nn

mn dPdP

)(sin)(sinsin)(sin

δδ

δδ = pour ⎩⎨⎧

gt=

nmavecnm 321

(A9)

ougrave les )(sinδnP sont les polynocircmes de Legendre de degreacute n en δsin deacutefinis par reacutecurrence

( )

11

22

1

0

sin)12()(sin)1(

1cos321)(sin

sin)(sin0)(sin

minus+ minus+=+

minus=

==

mmm mPPmPmet

P

PP

δδ

ϕδ

δδδ

(A10)

et de formule geacuteneacuterale

mm

m

mm dd

mP )1(sin

)(sin21)(sin 2 minus= δ

δδ (A11)

On peut appliquer aux fonctions )(sinδmnP la semi-normalisation de Schmidt

)(sin)()()(sin~ δεδ mnnmn P

nmnmP

+minus

= ougrave 10 =ε et 2=nε pour 1gen (A12)

En appariant les fonctions polaires et azimutales on deacutefinit les harmoniques

spheacuteriques de degreacute et drsquoordre)1(mnY 0gem 4 mnn lele0 et de degreacute et

drsquoordre (voir Figure A3)

)1(minusmnY 1gem

mnn lele1

)(sin~)sin()(

)(sin~)cos()()1(

)1(

δθδθ

δθδθ

mnmn

mnmn

PnY

PnY

=

=minus

(A13)

4 En geacuteneacuteral lorsque le degreacute et lrsquoordre ne sont pas eacutevoqueacutes conjointement on parle par abus de langage drsquoharmoniques drsquoordre m plutocirct que de degreacute m

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 49

soit

1)(sin

)()()12(2sin)(

)(sin)()()12(2cos)(

1)(sin)1()1()12(cos)(

)1(

)1(

1)1(

1

gt

⎪⎪⎩

⎪⎪⎨

+minus

+=

+minus

+=

=+minus

+=

minus

npourP

nmnmmnY

PnmnmmnY

npourPmmmY

mnmn

mnmn

mm

δθδθ

δθδθ

δθδθ

(A14)

La solution angulaire geacuteneacuterale srsquoeacutecrit alors sous la forme drsquoun deacuteveloppement sur

la base drsquoharmoniques spheacuteriques

( ) ( )sum minus

=minus+=Θ

1

1)1()1()( n

m mnmnmnmnn YBYBθ (A15) La solution geacuteneacuterale est alors la seacuterie de Fourier-Bessel

sum sum sum+infin

= = plusmn=

=0 0 1

)()( )()()(m

m

nmnmnm

m YBkrjikrpσ

σσ δθδθ (A16)

ougrave

intint⎪⎩

⎪⎨⎧

minusisin

isin

plusmnplusmn =

]2

2

[

[20[

)1()1( )()1()(

1

ππδ

πθ

δθδθ

S

mnm

mmn dSYpkrji

B (A17)

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 50

Tableau A1 - Expressions analytiques des harmoniques spheacuteriques pour les ordres 0 agrave 3

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 51

Figure A3 - Repreacutesentation des harmoniques spheacuteriques pour les ordres m = 0 agrave 3 Les

couleurs rouge et bleu indiquent respectivement des valeurs positives et neacutegatives

53

Annexe B

Compleacutements theacuteoriques sur le deacutecodage HOA

B1 Vecteur veacutelociteacute et vecteur eacutenergie Le vecteur veacutelociteacute est un indice de la direction apparente drsquoune source introduit

par Gerzon [Gerzon 1992] Il se calcule comme le rapport de la vitesse particulaire sur la pression acoustique

)()(

)()(1

δθδθ

δθδθ

ρ rprp

ki

rprv

cV nabla

minus=minus=rrr

(B1)

Dans le cas drsquoune onde plane le vecteur veacutelociteacute V

rest ainsi directement un

vecteur unitaire orienteacute vers la direction de provenance de lrsquoonde En geacuteneacuteralisant agrave une superposition drsquoondes planes en phase ou opposition de phase eacutemises par L haut-parleurs agrave eacutequidistance du point drsquoobservation on obtient la formule suivante

VVL

ll

L

lll

urg

ugV r

rr

==

sum

sum

=

=

1

1 (B2)

ougrave deacutesigne la direction du llur egraveme haut-parleur auquel est associeacute le gain gl et Vr Vur correspondent respectivement agrave la norme et agrave la direction du vecteur veacutelociteacute

Le vecteur eacutenergie est un autre indice de direction Il est deacutefinit par

EEL

ll

L

lll

urg

ugE r

rr

==

sum

sum

=

=

1

2

1

2

(B3)

Annexe B Compleacutements theacuteoriques sur le deacutecodage HOA 54

Il peut srsquointerpreacuteter comme une indication de la concentration de lrsquoeacutenergie ( ) et de sa direction moyenne de provenance (

Er

Eur ) On a toujours 1ltEr sauf dans le cas ougrave un seul haut-parleur contribue agrave la reconstruction (dans ce cas ) peut ecirctre consideacutereacute comme un indicateur de preacutecision de la localisation

1=Er Er

B2 Deacutecodages optimiseacutes La restitution la plus confortable drsquoun champ sonore veillera donc agrave maximiser

tout en essayant de garder le plus proche possible de 1 Lrsquooptimisation du deacutecodage consiste alors agrave multiplier chaque coefficient de la matrice de deacutecodage D (voir (111) par des gains calculeacutes drsquoapregraves des critegraveres drsquooptimisation

Er Vr

Ainsi le deacutecodage appeleacute max- maximise la norme du vecteur eacutenergie en

sacrifiant celle du vecteur veacutelociteacute puisqursquoon a dans ce deacutecodage (pour des configurations reacuteguliegraveres de haut-parleurs) Ce deacutecodage est donc avantageux par rapport au deacutecodage basique pour les hautes freacutequences ou dans le cas drsquoun auditoire eacutelargi Le deacutecodage in-phase va encore plus loin en cherchant agrave annuler complegravetement les contributions des haut-parleurs placeacutes agrave lrsquoopposeacute de la direction de provenance de lrsquoonde reproduite Ce critegravere est utile dans le cas drsquoune eacutecoute dans une position tregraves excentreacutee agrave laquelle on pourrait percevoir de faccedilon preacutedominante la contribution en opposition de phase drsquoun tel haut-parleur

Er

EV rr =

Ces diffeacuterents deacutecodages ont chacun des avantages et inconveacutenients Ainsi seul le

deacutecodage basique garantit = 1 le deacutecodage max- permet une preacutecision meilleure notamment en haute freacutequence et le deacutecodage in-phase est plus adapteacute agrave un auditoire plus large Jeacuterocircme Daniel [Daniel 2000] propose ainsi de changer le deacutecodage en fonction de la freacutequence et de lrsquoeacutetendue de la zone drsquoeacutecoute deacutesireacutee

Vr Er

Figure B1 - Deacutecodages les plus approprieacutes par sous-bande et en fonction de lrsquoeacutetendue de la

zone drsquoeacutecoute [Daniel 2000]

55

Annexe C

Analyse en composantes principales

C1 Espace des donneacutees Eacutegalement souvent appeleacutee transformeacutee de Karhunen-Loegraveve5 (TKL) lrsquoanalyse en

composantes principales (ACP) est une technique statistique de repreacutesentation drsquoinformation Introduite sur 2 variables par Pearson [Pearson 1900] elle a eacuteteacute eacutetendue par Hotelling [Hotelling 1933] Elle a pour but de caracteacuteriser des donneacutees drsquoun espace agrave N dimensions dans un sous-espace plus petit en minimisant les pertes drsquoinformation due agrave la projection crsquoest-agrave-dire en maximisant la variance projeteacutee Les donneacutees ainsi reacuteorganiseacutees deviennent indeacutependantes Les variables correacuteleacutees sont remplaceacutees par de nouvelles variables deacutecorreacuteleacutees et de variance maximale combinaisons lineacuteaires des variables initiales

Les donneacutees sont constitueacutees de n variables aleacuteatoires (dans notre cas des canaux)

et p reacutealisations ou individus (des eacutechantillons)

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

pn

p

ji

n

xx

x

xx

M

LLL

MOMNM

MLLM

MNMOM

LLL

1

111

(C1)

Ces donneacutees sont geacuteneacuteralement centreacutees et peuvent aussi ecirctre reacuteduites4 (on note

1x la moyenne de la variable et 1x )( 1xσ sa variance) Reacuteduire ou non le nuage de points (ie les p reacutealisations de la variable aleacuteatoire) est un choix de modegravele

5 Quelques rares sources mentionnent une diffeacuterence entre ACP et TKL en placcedilant celle-ci au

niveau du choix de la reacuteduction des donneacutees dans le cas dune ACP les donneacutees seraient centreacutees et reacuteduites alors qursquoelles seraient uniquement centreacutees pour une TKL

Annexe C Analyse en composantes principales 56

- si on ne reacuteduit pas le nuage une variable agrave forte variance pourrait tirer tout lrsquoeffet de lrsquoACP agrave elle

- si on reacuteduit le nuage une variable qui ne serait qursquoun bruit se retrouverait avec une variance apparente eacutegale agrave une variable informative

M est centreacutee

⎥⎥⎥

⎢⎢⎢

minusminusminus

minusminus=

npn

pi

ji

nn

xxxxxx

xxxxM

K

MM

K

11

11

11

ˆ (C2)

M~ est centreacutee et reacuteduite

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

minusminus

minus

minusminus

=

)()(

)(

)()(~

1

11

1

1

111

n

npn

pi

ij

i

n

nn

xxx

xxx

xxx

xxx

xxx

M

σσ

σ

σσ

K

MM

K

(C3)

On multiplie ensuite la matrice obtenue par sa transposeacutee pour obtenir - La matrice de covariance MMC t

vˆˆ sdot=

- La matrice de correacutelation MMC tr

~~ sdot= Ces matrices sont carreacutees (N x N) symeacutetriques et reacuteelles Elles sont donc

diagonalisables dans une base orthonormeacutee 6 Le principe de lrsquoACP est alors de trouver un axe u issu drsquoune combinaison lineacuteaire

des tel que le critegravere drsquoinertie du nuage autour de cet axe soit maximal Le critegravere drsquoinertie couramment utiliseacute est la variance Il faut donc trouver lrsquoaxe qui porte le maximum de variance crsquoest-agrave-dire lrsquoaxe u tel que la projection du nuage sur cet axe ait une variance maximale

nx

6 Nos donneacutees eacutetant ici des valeurs drsquoeacutechantillons elles sont par nature centreacutees et reacuteduites On

formera donc naturellement la matrice de correacutelation

C2 Diagonalisation 57

C2 Diagonalisation Pour alleacuteger lrsquoeacutecriture de la suite de cette partie nous consideacutererons que les

variables ont eacuteteacute centreacutees et si besoin reacuteduites et nous noterons ces variables

transformeacutees (ainsi

ix ix

iii xxx minuslarr ou bien )( i

iii x

xxxσ

minuslarr ) On fera de mecircme pour M

( ou bien MM ˆlarr MM ~larr ) et C ( vCC larr ou bien rCC larr ) La projection drsquoun eacutechantillon sur un axe u srsquoeacutecrit ix

uMxiu sdot=)(π (C4) La variance empirique de )( iu xπ vaut donc

uMMuxx ttiu

tiu sdotsdotsdot=sdot )()( ππ (C5)

Or on a vu que est diagonalisable dans une base orthonormeacutee donc

on peut noter P le changement de base associeacute et ∆ la matrice diagonale formeacutee de son spectre Ainsi

MMC t=

n

i 1)(λ PPMMC tt ∆==

)()()()( PuPuuPPuxx ttt

iut

iu sdot∆sdot=sdot∆sdot=sdotππ (C6) On pose v = Pu Chercher lrsquoaxe u qui maximise )( iu xπ revient donc agrave chercher le

vecteur v qui maximise ougravevvt ∆ )( 1 ndiag λλ K=∆ avec les iλ rangeacutes par ordre deacutecroissant Ce vecteur est trivialement le premier vecteur unitaire et on a alors

1λ=∆vvt

Ainsi le vecteur qui porte la plus grande part drsquoinertie du nuage est le premier

vecteur propre de C (premier par norme deacutecroissante) De mecircme le deuxiegraveme vecteur qui explique la plus grandelt part de lrsquoinertie restante est le deuxiegraveme vecteur propre de C Finalement la question de lrsquoACP se ramegravene agrave un problegraveme de diagonalisation de la matrice de correacutelation

C3 Code Matlab

function [vep vap] = pca(f N) f donneacutees N nombre de composantes agrave garder cor = f f formation de la matrice de correacutelation [vep vap] = eig(cor) calcul des vecteurs (vep) et valeurs (vap) propres [vap ind] = sort(diag(vap)) tri des valeurs propres par ordre croissant vap = flipud(vap) disposition inverse par ordre drsquoimportance vep = vep( flipud(ind)) classement en conseacutequence des vecteurs propres vep = vep( 1N) on ne garde que les N premiers vecteurs propres

Annexe C Analyse en composantes principales 58

59

Annexe D

Analyse en sous-bandes

D1 La transformeacutee de Fourier agrave court terme (TFCT) Pour affiner lrsquoanalyse les signaux sont donc deacutecoupeacutes en bandes de freacutequence par

TFCT La TFCT consiste agrave effectuer des transformeacutees de Fourier discregravetes sur des portions de signal fenecirctreacutees reacuteguliegraverement espaceacutees

On rappelle que la transformeacutee de Fourier drsquoun signal x(t) est deacutefinie (lorsque

lrsquointeacutegrale existe) par

int+infin

infinminus

minus= dtetxfX ftiπ2)()( (D1)

La transformeacutee de Fourier agrave temps discret (TFTD) drsquoun signal x(t) srsquoeacutecrit

sum+infin

minusinfin=

minus=n

fnienxfX π2)()( (D2)

La transformeacutee de Fourier discregravete (TFD) drsquoun signal discret x(k) est deacutefinie par

sum+infin

minusinfin=

minus=

n

Nkni

enxkXπ2

)()( (D3)

La TFCT discregravete est une TFD observeacutee sur une fenecirctre wa de taille N

summinus

=

minus+=

1

0

2)())(()(

N

n

Nnki

aaa enwtnxkXπ

ττ (D4)

ougrave )(taτ est lrsquoinstant drsquoanalyse

Annexe D Analyse en sous-bandes 60

Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT [Laroche 1995]

D2 Synthegravese par addition-recouvrement Lors de la synthegravese apregraves le deacutecoupage et lrsquoanalyse des fenecirctres on cherche agrave

reconstruire le signal temporel agrave partir de sa repreacutesentation freacutequentielle Pour cela on utilise la meacutethode OLA (overlap and add addition-recouvrement) qui consiste agrave prendre la TFCT inverse des spectres Xt puis agrave additionner les signaux obtenus apregraves les avoir multiplieacutes par une fenecirctre de pondeacuteration en les faisant se recouvrir partiellement

Le reacutesultat est donneacute par

sum=

minusminus=T

tsss tnxtnwnx

s1

))((~))(()(~ ττ τ (D5)

avec )()( tt as ττ = et summinus

=

=1

0

2))((~1)(~ N

k

Nkni

s ektXN

nxs

π

τ τ

Lors de la mise en œuvre de ce traitement il faut srsquoassurer drsquoecirctre en mesure de

reconstruire parfaitement un signal lorsqursquoaucune transformation ne lui est appliqueacutee Le critegravere de reconstruction parfaite condition suffisante est alors

sum=

=minusminusT

tasaa tnwtnw

11))(())(( ττ quelque soit n (D6)

D2 Synthegravese par addition-recouvrement 61

Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add [Laroche 1995]

Plusieurs paramegravetres sont agrave choisir avec soin Le premier drsquoentre eux est le type

de fenecirctre agrave utiliser Les diffeacuterentes options qui se preacutesentent agrave nous sont - la fenecirctre rectangulaire qui preacutesente dans son spectre le lobe principal le plus

eacutetroit mais des lobes secondaires non neacutegligeables - la fenecirctre de Hamming au lobe principal un peu plus large mais pour laquelle le

1er lobe secondaire se situe agrave -43 dB - la fenecirctre de Hann (ou cosinus sureacuteleveacute) qui ressemble agrave la preacuteceacutedente avec un

1er lobe secondaire plus fort mais une pente de 18 dB par octave pour les lobes suivants

- les fenecirctres de Blackman-Harris aux lobes secondaires tregraves bas mais au lobe principal plus large

Fenecirctre Lobe 2aire

(dB) Pente

(dBoct) Bande passante

agrave 6 dB (bins) Rectangulaire -13 -6 121 Triangulaire -27 -12 178

Hann -32 -18 200 Hamming -43 -6 181

Blackman-Harris 4 -92 -6 272

Tableau D1 - Caracteacuteristiques des principales fenecirctres drsquoanalyse [Harris 1978] Le meilleur compromis est donc dans notre contexte la fenecirctre de Hann ou celle

de Hamming

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 9: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

3

Chapitre 1

Ambisonics

11 Principe

111 Du B-format agrave HOA Lrsquoapproche ambisonique deacuteveloppeacutee dans les anneacutees 1970 par Gerzon [Gerzon

1973] [Gerzon 1985] a pour but de reconstruire au voisinage de la tecircte de lrsquoauditeur le champ sonore et ses caracteacuteristiques de propagation crsquoest-agrave-dire au minimum le champ de pression et son gradient Cette technique est cateacutegoriseacutee dans les techniques de panoramique drsquoamplitude ou agrave microphones coiumlncidents Le format orignal appeleacute B-format peut en fait ecirctre vu comme une restriction au 1er ordre drsquoune deacutecomposition du champ en harmoniques spheacuteriques (voir Annexe A) ou cylindriques (dans le cas drsquoune restriction agrave 2 dimensions) Le format HOA (Higher Order Ambisonics) est une extension de cette deacutecomposition agrave des ordres plus eacuteleveacutes permettant une reconstruction ameacutelioreacutee du champ (une meilleure approximation) dans une zone de restitution eacutelargie

Une grande speacutecificiteacute de lrsquoapproche ambisonique est de contenir directement

lrsquoinformation spatiale en codant le champ acoustique en un point de lrsquoespace indeacutependamment du systegraveme de restitution utiliseacute contrairement aux systegravemes de spatialisations classiques (steacutereacuteo 51hellip) Lrsquoencodage directionnel drsquoune onde plane S drsquoincidence u se traduit par les eacutequations

r

⎪⎪

⎪⎪

=

=

=

=

δ

δθ

δθ

sin2

cossin2

coscos2

SZ

SY

SX

SW

(11)

Le facteur de normalisation 2 a eacuteteacute introduit agrave lrsquoorigine pour srsquoassurer que les

composantes W X et Y aient une eacutenergie moyenne eacutegale dans le cas de lrsquoencodage drsquoun champ diffus horizontal

Chapitre 1 Ambisonics 4

Le B-format peut ecirctre vu comme une troncature au premier ordre de la deacutecomposition en seacuterie de Fourier-Bessel du champ sonore [Daniel 2000] Une troncature agrave un ordre plus eacuteleveacute (Higher Order Ambisonics) apporte alors agrave la reconstruction une meilleure qualiteacute tant en terme de preacutecision de lrsquoimage que de dimensions du sweet spot zone ougrave le champ original est restitueacute avec une toleacuterance donneacutee Cette zone tregraves petite pour lrsquoordre 1 (il faut veiller agrave se placer bien au centre du dispositif) est nous le verrons nettement eacutelargie aux ordres supeacuterieurs On atteint eacutegalement une discrimination angulaire plus fine Ces ordres supeacuterieurs eacutetant les termes suivants de la seacuterie de Fourier-Bessel une repreacutesentation HOA inclut les ordres infeacuterieurs constituant donc une repreacutesentation hieacuterarchique (ou scalable) du champ sonore

La chaicircne de traitement drsquoun systegraveme ambisonique se deacutecompose en plusieurs

eacutetapes (voir Figure 11) - lrsquoencodage spatial reacutealiseacute de maniegravere artificielle pour spatialiser une scegravene

syntheacutetique ou bien agrave partir de signaux naturels issus drsquoune structure multi-microphonique (voir Figure 12)

- une eacuteventuelle transformation des signaux HOA (compression ou

transformations lineacuteaires comme par exemple une rotation) - le deacutecodage spatial matriccedilage des signaux pour une diffusion adapteacutee au

dispositif drsquoeacutecoute

Figure 11 - Scheacutema global du principe de la technologie HOA [Moreau 2006]

11 Principe 5

Figure 12 - Prototype de microphone HOA drsquoordre 4 constitueacute de 32 capteurs omnidirectifs

reacutepartis sur une sphegravere en plastique rigide [Moreau 2006]

112 Repreacutesentation de scegravene sonore avec HOA La seacuterie de Fourier-Bessel (A16) en Annexe A) tronqueacutee agrave lrsquoordre M donne une

approximation de la repreacutesentation du champ sonore

sum sum sum= = plusmn=

=M

m

m

nmnmnm

mM YBkrjikrp

0 0 1)()()(

σ

σσ δθδθ (12)

La repreacutesentation drsquoordre M est composeacutee de signaux HOA en 3D

et

2)1( += MK12 += MK signaux HOA si on se contente du plan horizontal

Pour mesurer lrsquoerreur de reconstruction on peut utiliser le critegravere des moindres

carreacutes normaliseacute (NMSE pour Normalized Mean Square Error)

intint

intint minus=

S

SM

dSkrp

dSkrpkrpkre 2

2

)(

)()()(

δθ

δθδθ (13)

Dans le cas particulier drsquoune onde plane lrsquoerreur de reconstruction est

indeacutependante de lrsquoangle drsquoincidence et ne deacutepend que de lrsquoordre et du produit kr En rappelant que k est le nombre drsquoonde cfck πω 2== on srsquoaperccediloit que lrsquoerreur de reconstruction pour un ordre donneacute augmente quand on srsquoeacuteloigne du centre du systegraveme (r augmente) ou lorsque la freacutequence srsquoeacutelegraveve On remarque qursquoune erreur de 4 (-14 dB) est atteinte approximativement quand M = kr

Chapitre 1 Ambisonics 6

Figure 13 - Erreur de reconstruction drsquoune onde plane en fonction

de lrsquoordre M et du produit kr [Moreau et al 2006]

Figure 14 - Repreacutesentation dans le plan horizontal dans une zone de diamegravetre 1m de la

reconstruction drsquoune onde plane (agrave droite) pour plusieurs ordres et freacutequences Les niveaux de gris repreacutesentent la valeur de la pression acoustique Les courbes eacutetoileacutees indiquent la

limite des zones ougrave lrsquoerreur de reconstruction est infeacuterieure agrave 7 (-115 dB) [Moreau 2006]

12 Encodage et deacutecodage spatial 7

12 Encodage et deacutecodage spatial

121 Encodage spatial Drsquoun point de vue drsquoingeacutenieur du son lrsquoencodage spatial peut ecirctre vu comme un

panoramique drsquoamplitude Un preneur de son lrsquointerpreacutetera comme une capture par un jeu de microphones directifs coiumlncidents Un matheacutematicien verra plutocirct le lien avec la deacutecomposition en harmoniques spheacuteriques deacutecrite en Annexe A

Eacutetudions le cas drsquoune onde plane provenant de la direction )( pp δθ avec une

amplitude S Lrsquoexpression du champ de pression srsquoeacutecrit alors

γδθ cos)( jkrSekrp = (14)

soit encore

)(cos)()12()(0

γδθ mmm

m PkrjjmSkrp suminfin

=

+= (15)

ougrave γ deacutesigne lrsquoangle entre la direction (θ δ ) du point drsquoobservation et la direction

)( pp δθ de provenance de lrsquoonde Il vient ensuite

sum sumsum= plusmn=

infin

=

=m

nmnppmnm

m

m YYkrjjSkrp0 10

)()()()(σ

σσ δθδθδθ (16)

En identifiant cette eacutequation (16) avec la seacuterie de Fourier-Bessel (A16) nous

obtenons finalement lrsquoexpression de la transformeacutee de Fourier spheacuterique drsquoun champ de pression acoustique engendreacute par une onde plane [Moreau 2006]

)( ppmnmn YSB δθσσ = (17)

Les coefficients sont ainsi deacutefinis par la valeur des harmoniques spheacuteriques

dans la direction de provenance de lrsquoonde plane pondeacutereacutee par lrsquoamplitude

σmnB

S du signal transporteacute Ce sont ces coefficients qui constituent le signal ambisonique Des coefficients de normalisation ou de semi-normalisation sont ensuite appliqueacutes pour que les signaux soient drsquoeacutenergie moyenne eacutequivalente entre eux ( ) ou entre les diffeacuterents ordres ( ) (voir Annexe A Tableau A1)

DN 3α DSN 3αDSN 3α

DSN 3α Ces fonctions drsquoencodage peuvent ecirctre simplifieacutees dans le cas drsquoune restriction agrave 2

dimensions (plan horizontal) On ne conserve alors que 2 composantes par ordre celles qui deacutecrivent le plan horizontal crsquoest-agrave-dire veacuterifiant m = n Les coefficients de normalisation sont alors diffeacuterents et lrsquoangle δ est nul Les composantes restantes sont alors

Chapitre 1 Ambisonics 8

ordre notations eacutecriture 0 W 1

00B 1

X 111B θcos2

1 Y 1

11minusB θsin2

U 122B )2cos(2 θ

2 V 1

22minusB )2sin(2 θ

- 1mmB )cos(2 θm

m - 1minus

mmB )sin(2 θm Tableau 11 - Fonctions drsquoencodage ambisonique dans le plan horizontal

avec la convention de normalisation associeacutee (N2D) La figure suivante illustre lrsquoencodage spatial aux ordres 0 1 et 2 de 2 sources

placeacutees aux angles vθ et vθ dans le plan horizontal

ordres 0 et 1 ordre 2

Figure 15 - Encodage horizontal [Moreau et al 2006] Le coefficient (gain) appliqueacute agrave

chaque composante de chacune des 2 sources est donneacute par les intersections des flegraveches et des diagrammes des harmoniques

Comme on peut le voir sur cette figure un encodage au 1er ordre offre une

discrimination angulaire peu appuyeacutee alors que les 2 sources pourtant proches auront des coefficients tregraves diffeacuterents agrave lrsquoordre 2 (les points drsquointersection sont plus eacuteloigneacutes)

122 Deacutecodage spatial Lrsquoobjectif du deacutecodage est de restituer au mieux sur un systegraveme de diffusion

donneacute le champ sonore HOA Il faut ainsi calculer les signaux Sl agrave diffuser sur L haut-parleurs en fonction des composantes ambisoniques Ces σ

mnB L haut-parleurs peuvent ecirctre disposeacutes dans le plan horizontal ou dans un espace tridimensionnel Les deacutecodages les plus courants srsquoeffectuent sur une demi-sphegravere (cas 3D) ou un cercle (cas 2D) de

12 Encodage et deacutecodage spatial 9

haut-parleurs Crsquoest une opeacuteration matricielle qursquoon peut formaliser dans le cas drsquoun deacutecodage dans le plan horizontal par lrsquoeacutequation

BSC =sdot (18)

ougrave la matrice C contient les vecteurs harmoniques spheacuteriques associeacutes agrave chaque direction de haut-parleur et organiseacutes suivant ses lignes le vecteur S contient les signaux eacutemis par les L haut-parleurs et enfin le vecteur B contient les signaux HOA

⎟⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜⎜

=

⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜

=

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

=

10

100

2

1

1011

10

11111

111

10011

100

)()()(

)()()()(

M

mn

LLLMM

llmn

LL

LL

B

B

B

B

S

SS

S

YYY

YYYY

CM

M

M

L

MM

L

L

σσ

δθδθδθ

δθδθδθδθ

(19)

)( ll δθ repeacuterant la position du legraveme haut-parleur

Il faut donc estimer S connaissant B et C Le deacutecodage se reacutesume alors agrave un systegraveme de (M +1)2 (en 3D) ou 2M +1 (en 2D) eacutequations lineacuteaires agrave L inconnues On ne peut trouver de solution exacte que si le nombre de haut-parleurs est au moins eacutegal au nombre de signaux crsquoest-agrave-dire si L gt (M +1)2 (en 3D) ou 2M +1 (en 2D) Crsquoest en outre une condition neacutecessaire pour pouvoir avoir une reproduction homogegravene de la scegravene sonore

La matrice C nrsquoest pas neacutecessairement carreacutee et inversible une solution geacuteneacuterale

consiste agrave calculer lrsquoinverse geacuteneacuteraliseacutee de la matrice C noteacutee D encore appeleacutee pseudo-inverse de Moore-Penrose

BDS sdot= (110)

avec

1pinv( ) ( )t tD C C C C minus= = sdot sdot (111) D est appeleacutee matrice de deacutecodage BDS sdot= reacutesout le systegraveme (18) si les haut-

parleurs sont suffisamment nombreux L gt (M +1)2 (en 3D) ou 2M +1 (en 2D)) Srsquoils sont en outre disposeacutes sur une sphegravere (3D) ou un cercle (2D) de maniegravere eacutequidistante crsquoest-agrave-dire srsquoils sont les sommets drsquoun polyegravedre ou polygone reacutegulier ils preacuteservent alors la proprieacuteteacute drsquoorthonormaliteacute des harmoniques spheacuteriques Ceci se traduit par

Lt ILCC sdot=sdot (112)

ougrave IL est la matrice identiteacute de taille LLtimes On a alors

1pinv( ) tD CL

= = C (113)

Chapitre 1 Ambisonics 10

Cette proprieacuteteacute ne peut pas ecirctre matheacutematiquement veacuterifieacutee en 3D au-delagrave de lrsquoordre 2 autrement dit il nrsquoexiste pas de polyegravedre reacutegulier dont la position des sommets conserve strictement lrsquoorthonormaliteacute des harmoniques spheacuteriques

Visuellement le deacutecodage correspond agrave la reproduction du champ sonore tel qursquoil

aurait eacuteteacute capteacute par un ensemble de N microphones agrave directiviteacutes hyper-cardioiumldes tourneacutes chacun vers lrsquoun des haut-parleurs Leur directiviteacute serait drsquoautant plus preacutecise que lrsquoordre de reproduction est eacuteleveacute

Figure 16 - Prise de son virtuelle eacutequivalente agrave un encodage au 1er ordre et un deacutecodage

basique sur une disposition en 2D hexagonale [Moreau et al 2006] Le gain gl appliqueacute agrave chaque haut-parleur pour une direction de source virtuelle donneacutee

(en vert) est indiqueacute par la longueur des flegraveches et est reporteacutee aux points drsquointersection de la flegraveche verte et des diagrammes de directiviteacute

On peut remarquer que les diagrammes de directiviteacute sont tregraves larges par rapport

agrave lrsquoespacement angulaire des haut-parleurs Le 2nd ordre offrirait des directiviteacutes plus fines et donc une seacutelectiviteacute spatiale accrue Il faudrait alors bien sucircr davantage de haut-parleurs pour ne pas introduire des ldquotrousrdquo entre eux On remarque eacutegalement la preacutesence non neacutegligeable des lobes secondaires utiles pour la reconstruction du champ acoustique (notamment en basses freacutequences) mais qui peuvent ecirctre gecircnants dans certains cas par exemple lorsque lrsquoauditoire est large

Ce deacutecodage est appeleacute deacutecodage basique car il nrsquooptimise pas la restitution en

accord une quelconque hypothegravese et cherche uniquement agrave reproduire fidegravelement le champ acoustique Pour ameacuteliorer la restitution dans des cas critiques comme par exemple en-dehors du sweet spot (centre du dispositif) il faut optimiser le deacutecodage en reacuteduisant par exemple les lobes secondaires Ainsi le deacutecodage max-rE srsquoattache agrave maximiser lrsquoeacutenergie reccedilue de la provenance de la direction souhaiteacutee alors que le deacutecodage in-phase annule complegravetement ces lobes secondaires (voir Annexe B)

13 Critique de la technologie HOA 11

13 Critique de la technologie HOA

131 Bilan On a ainsi vu que la technologie HOA est une repreacutesentation intermeacutediaire du

champ de pression acoustique agrave mi-chemin entre la description directe du champ lui-mecircme et des signaux agrave restituer Cette technologie a de nombreux avantages compareacutee aux autres meacutethodes de reproduction de champ sonore (on trouvera notamment une eacutetude deacutetailleacutee des comparaisons entre HOA et la Wave Field Synthesis (WFS) dans [Daniel et al 2003]) elle permet drsquoeacuteviter le repliement spatial (voir paragraphe suivant) et permet ainsi une reconstruction dans une gamme de freacutequences tregraves large

La qualiteacute de la restitution ambisonique nrsquoest theacuteoriquement limiteacutee que part

lrsquoordre de troncature de la seacuterie de Fourier-Bessel agrave partir du moment ougrave le nombre de haut-parleurs est suffisant Ainsi un ordre tendant vers lrsquoinfini (et un nombre de haut-parleurs au moins aussi grand) permettra une reproduction quasi-parfaite sur lrsquoensemble de la zone drsquoeacutecoute

Mais les principaux avantages de cette technologie sont drsquoune part drsquoecirctre flexible

crsquoest-agrave-dire qursquoon peut agrave loisir adapter le nombre de signaux transmis au canal de transmission Une chute de deacutebit nrsquoentraicircnera pas de coupure de la transmission mais simplement une perte de preacutecision spatiale par lrsquoabandon des composantes drsquoordres les plus eacuteleveacutes Et drsquoautre part elle est indeacutependante du systegraveme de reproduction Ainsi un mecircme signal HOA pourra ecirctre diffuseacute sur toutes les configurations de haut-parleurs il suffira pour cela de calculer la matrice de deacutecodage associeacutee agrave ce systegraveme

132 Limites pratiques Dans la pratique cette technologie a toutefois des limitations Si lrsquoaliasing spectral

est eacuteviteacute on constate aux ordres les plus eacuteleveacutes lrsquoapparition drsquoun repliement spatial lors des enregistrements naturels agrave partir drsquoune freacutequence lieacutee agrave la distance maximale entre 2 capsules du microphone HOA (qui doit ecirctre au plus eacutegale agrave la moitieacute de la plus petite longueur drsquoonde drsquoapregraves Shannon) et au nombre total de capsules (qui doit ecirctre supeacuterieur agrave (M+1)2 M eacutetant lrsquoordre auquel on souhaite enregistrer)

Le repliement spectral repreacutesente la preacutesence importune dans des composantes

ambisoniques de sources qui de part leur position ne devraient qursquoapparaicirctre avec cette importance que dans les composantes drsquoordre plus eacuteleveacute Il est ducirc agrave lrsquointrusion des directiviteacutes drsquoordres supeacuterieurs dans les composantes harmoniques spheacuteriques estimeacutees Comme on le voit sur la Figure 17 les directiviteacutes ne sont pas des cylindres (au sens matheacutematique du terme la base nrsquoeacutetant pas forceacutement un cercle) mais varient en fonction de la freacutequence pour ressembler davantage dans le haut du spectre aux courbes de directiviteacute de lrsquoordre supeacuterieur Ainsi la directiviteacute de lrsquoordre 1 (2egraveme graphique) qui devrait ecirctre un 8 ressemble davantage au-dessus de 10 000 Hz agrave la figure de directiviteacute de lrsquoordre 4 (8 lobes)

Chapitre 1 Ambisonics 12

Figure 17 - Directiviteacutes theacuteoriques (en transparence) et reconstruites (grille) dans le plan horizontal pour des ondes planes horizontales Lrsquoaxe vertical correspond agrave la freacutequence et

les diffeacuterents graphiques aux ordres 0123 et 4 de gauche agrave droite Agrave lrsquoopposeacute la taille reacuteduite du microphone si elle permet de reacuteduire cet aliasing

spatial empecircche la capture des basses freacutequences aux ordres supeacuterieurs (voir 232) La reacutesolution spatiale des basses freacutequences sera donc moindre ce qui implique que en ajoutant lrsquoeffet du repliement en hautes freacutequences les ordres eacuteleveacutes capteacutes avec le micro HOA ne constituent qursquoune plage du spectre assez peu eacutetendue crsquoest cette seule plage qui pourra se targuer drsquoune excellente preacutecision spatiale

13

Chapitre 2

Analyser un contenu HOA

21 Objectifs La reacuteflexion a tout au long du stage eacuteteacute orienteacutee vers deux objectifs le premier

est dans un contexte de transmission de reconstruire une scegravene spatialiseacutee agrave partir du minimum drsquoinformations le deuxiegraveme appliqueacute agrave des ordres plus eacuteleveacutes est drsquoarriver agrave resyntheacutetiser les composantes de lrsquoordre immeacutediatement supeacuterieur

211 Restitution de la spatialisation agrave partir drsquoun downmix mono La premiegravere approche vise donc agrave reconstruire une scegravene spatialiseacutee agrave partir drsquoun

downmix le plus leacuteger possible Un downmix est une reacuteduction du nombre de canaux par fusion lrsquoexemple le plus simple eacutetant le passage drsquoun signal steacutereacuteo agrave un signal mono construit comme la demi-somme des composantes gauche et droite On tente dans cette approche de se restreindre au plus petit nombre de signaux possible un signal eacutetant tregraves coucircteux agrave transmettre en ajoutant parallegravelement agrave ce signal des informations compleacutementaires aidant agrave la reconstruction

Le cas extrecircme est la reacuteduction du flux agrave un signal mono Dans le cas

drsquoambisonics un signal mono comprenant toutes les sources est deacutejagrave preacutesent il srsquoagit de la composante omnidirectionnelle W Il faut donc extraire de la scegravene encodeacutee agrave un certain ordre M des informations permettant la reconstruction drsquoun ordre Mrsquo apregraves transmission Nous verrons que nous allons chercher agrave trouver les positions des sources gracircce agrave une analyse en composantes principales (ou ACP voir Annexe C) effectueacutee par sous-bandes (voir Annexe D)

212 Ameacutelioration de la preacutecision spatiale La deuxiegraveme piste suivie a pour but de reconstituer un ordre ambisonique non

transmis On pourrait qualifier cette approche drsquoupmix ambisonique car elle vise agrave reconstruire un ordre manquant En effet le format ambisonique eacutetant flexible il est bien

Chapitre 2 Analyser un contenu HOA 14

adapteacute agrave la transmission Ainsi si on souhaite transmettre une scegravene encodeacutee agrave lrsquoordre 2 dans le plan horizontal il faudra un canal drsquoun deacutebit minimum (si lrsquoon prend lrsquohypothegravese de pas vouloir compresser les signaux) de 471 Mos Un canal plus petit (par exemple 34 Mos) ne permettra theacuteoriquement de transmettre qursquoun ordre 1 Mais lrsquoanalyse des signaux peut permettre de deacuteterminer les positions des sources agrave partir desquelles on peut syntheacutetiser des composantes du 2nd ordre approchant les composantes drsquoorigine On pourrait mecircme imaginer pouvoir syntheacutetiser un ordre qui nrsquoavait pas eacuteteacute encodeacute agrave lrsquoorigine

Pour cela il est neacutecessaire de deacuteterminer les positions des sources preacutedominantes

dans le champ sonore pour piloter leur encodage spatial aux ordres supeacuterieurs et arriver agrave la synthegravese drsquoune repreacutesentation de reacutesolution spatiale accrue Il srsquoagit dans le mecircme temps drsquoisoler au mieux les signaux associeacutes agrave ces diffeacuterentes sources avant de leur appliquer lrsquoopeacuteration drsquoencodage on se rapproche donc drsquoun problegraveme de seacuteparation de sources

Pour parvenir agrave trouver ces positions deux meacutethodes ont eacuteteacute testeacutees La premiegravere

consiste comme preacuteceacutedemment agrave appliquer en sous-bandes une analyse en composantes principales La seconde implique la formation de directiviteacutes agrave partir des vecteurs propres de la matrice de correacutelation utiliseacutee dans cette analyse

Lrsquoanalyse en composantes principales ou ACP (voir Annexe C) est donc

largement privileacutegieacutee dans nos approches Elle permet en effet tregraves facilement drsquoextraire des informations preacutecises de signaux correacuteleacutes Pour justifier ce choix une autre meacutethode reacutecente a eacutegalement eacuteteacute testeacutee et compareacutee agrave lrsquoACP (voir 11)

22 Principe de lrsquoextraction drsquoinformation spatiale avec une ACP

221 Information spatiale

Nous avons donc tout drsquoabord testeacute lrsquoanalyse en composantes principales sur des

signaux HOA Nous avons choisi dans un premier temps de limiter lrsquoanalyse aux composantes horizontales du premier ordre W X et Y avant de lrsquoeacutetendre agrave la 3egraveme dimension avec Z

Dans un premier test les signaux HOA sont analyseacutes par une ACP dans leur

inteacutegraliteacute LrsquoACP est appliqueacutee sur les signaux X et Y qui contiennent lrsquoinformation spatiale En effet X et Y correspondent aux signaux qui seraient capteacutes par des microphones agrave figure en 8 placeacutes sur lrsquoaxe avant-arriegravere et gauche-droite respectivement

La Figure 21 montre la correacutelation entre X et Y dans le cas drsquoun bruit blanc capteacute

par le microphone ambisonique Les points ne sont pas exactement aligneacutes du fait des artefacts inheacuterents agrave la prise de son (reacuteflexions sur les parois approximations du microphone etc)

22 Principe de lrsquoextraction drsquoinformation spatiale avec une ACP 15

Figure 21 - Y en fonction de X dans le cas drsquoun bruit blanc enregistreacute placeacute agrave 30deg

On remarque que le nuage est eacutetireacute dans la direction de provenance du son indiqueacutee par la flegraveche en pointilleacutes verts

222 Application de lrsquoanalyse en composantes principales La 1egravere composante issue de lrsquoACP appliqueacutee dans le plan (X Y) pointe dans la

direction dans laquelle X et Y ont la plus grande correacutelation Or comme X contient lrsquoinformation placeacutee sur lrsquoaxe avant-arriegravere et Y lrsquoinformation de lrsquoaxe gauche-droite cette direction est directement la direction de la source Par exemple un son situeacute droit devant dans lrsquoaxe (agrave 0deg) aura une composante Y nulle et par conseacutequent les eacutechantillons seront dans le plan tous disposeacutes sur lrsquoaxe horizontal LrsquoACP prendra donc naturellement cet axe comme 1er vecteur propre et il pointe bien vers la position de la source De mecircme un son situeacute agrave 135deg ( π28

3 times rad) aura la proprieacuteteacute Y = -X Les eacutechantillons seront donc placeacutes sur la 2egraveme bissectrice qui fait avec lrsquoaxe Y=0 un angle de 135deg (voir Figure 22)

Figure 22 - Y en fonction de X dans le cas drsquoun son placeacute artificiellement dans la direction

indiqueacutee par la flegraveche en pointilleacutes verts agrave 0deg (agrave gauche) et 135deg (agrave droite)

Chapitre 2 Analyser un contenu HOA 16

Lrsquoanalyse de X et Y ne permet cependant de deacuteterminer lrsquoangle qursquoagrave π pregraves il reste une indeacutetermination (on deacutetermine la direction drsquoun axe qursquoil reste agrave orienter) Pour lever cette ambiguiumlteacute on integravegre W agrave lrsquoanalyse car cette composante pourtant omnidirectionnelle et donc deacutepourvue drsquoinformation spatiale apporte une reacutefeacuterence pour les phases Ainsi notre son placeacute agrave 135deg veacuterifiait (aux eacuteventuels coefficients de normalisation pregraves) Y = -X = W alors qursquoun son placeacute agrave 135 - 180 = -45deg aurait la proprieacuteteacute Y = -X = -W

Pour prendre en compte W dans lrsquoanalyse on peut comparer directement les

phases de ces 3 canaux Algorithmiquement on ramegravene lrsquoangle trouveacute agrave son modulo π2 puis on deacutetermine le vrai cadran par comparaison des phases de W X et Y crsquoest-agrave-dire en comparant le signe des produits W X et W Y Ainsi W X gt 0 signifie que W et X sont en phase et reacuteciproquement (voir Figure 23)

W X lt 0 W Y gt 0

W X gt 0 W Y gt 0

W X lt 0 W Y lt 0

W X gt 0 W Y lt 0

minusπ2

π

π2

0

Figure 23 - Signes de W X et W Y en fonction du cadran On peut eacutegalement inteacutegrer W agrave lrsquoanalyse en appliquant lACP sur le triplet (X Y

W) Le problegraveme drsquoambiguiumlteacute est ainsi reacutesolu la direction rechercheacutee eacutetant celle du vecteur principal dans le demi-espace W gt 0 projeteacutee sur le plan (X Y) Cette meacutethode srsquoavegravere plus robuste et surtout plus geacuteneacuteralisable agrave des ordres plus eacuteleveacutes

Cette analyse permet donc de deacuteterminer la position drsquoune source unique Pour

pouvoir seacuteparer plusieurs sources nous avons appliqueacute lrsquoACP par sous-bandes en supposant que les sources nrsquoont pas des supports freacutequentiels strictement identiques Le principe de cette analyse en sous-bandes est deacuteveloppeacute en Annexe D

23 Meacutethodologie

231 Construction de scegravenes artificielles Pour tester les algorithmes impleacutementeacutes nous avons ducirc creacuteer des scegravenes sonores

spatialiseacutees au format HOA Plusieurs types de scegravenes ont eacuteteacute utiliseacutes de complexiteacutes diffeacuterentes Les premiegraveres ont eacuteteacute des scegravenes virtuelles syntheacutetiseacutees avec Matlab Les premiegraveres scegravenes simplissimes ne comportait qursquoune sinusoiumlde ou un bruit blanc fixe placeacute dans le plan horizontal Puis pour tester lrsquoanalyse par sous-bandes ont eacuteteacute creacuteeacutes des sons polyphoniques composeacutes de 2 sinusoiumldes tout drsquoabord puis de sons complexes (syntheacutetiseacutes par synthegravese FM) dans des gammes freacutequentielles distinctes ou se

23 Meacutethodologie 17

chevauchant Enfin ces sons ont eacuteteacute rendus mobiles en faisant varier leur position dans le temps

Nous avons pu ainsi constater agrave lrsquoaide des sons fixes et de supports freacutequentiels

distincts la preacutecision de lrsquoanalyse et avec les sons mobiles et mecircleacutes sa robustesse Nous nous sommes limiteacutes sous Matlab agrave la geacuteneacuteration de 2 sons simultaneacutes et du 1er ordre et un autre outil Plogue Bidule a eacuteteacute utiliseacute pour composer des scegravenes plus complexes

Bidule est un studio modulaire virtuel ressemblant agrave MAXMSP Des plugins ont

eacuteteacute deacuteveloppeacutes agrave France Teacuteleacutecom pour permettre de manipuler des signaux HOA Ainsi des scegravenes complexes ont pu facilement ecirctre syntheacutetiseacutees agrave des ordres eacuteleveacutes Des scegravenes agrave 3 et 4 sources fixes ou dont 1 source mobile ont eacuteteacute reacutealiseacutees agrave partir de voix deacutemixeacutees placeacutees dans le plan horizontal ou en 3 dimensions

Ces scegravenes eacutetant artificielles elles sont en un sens ideacuteales ne contiennent aucun

signal reacuteverbeacutereacute (effet de salle) ni diffracteacute (par un micro) lrsquoencodage est fait sans artefacts les ondes sont consideacutereacutees comme planes et ont donc une direction bien deacutefinie Si on est ici bien loin de la vraie vie le gros avantage des scegravenes artificielles est qursquoon connaicirct preacuteciseacutement agrave chaque instant la position des sources et qursquoon peut ainsi veacuterifier le reacutesultat de lrsquoanalyse

Figure 24 - Interface graphique du logiciel Bidule avec agrave droite les controcircles des encodeurs

et deacutecodeurs HOA creacuteeacutes agrave France Teacuteleacutecom

Chapitre 2 Analyser un contenu HOA 18

232 Exploitation drsquoenregistrements naturels Une fois des reacutesultats convaincants obtenus avec des scegravenes virtuelles des

enregistrements naturels ont eacuteteacute analyseacutes Ces scegravenes ont eacuteteacute enregistreacutees gracircce au prototype de micro HOA du 4egraveme ordre deacuteveloppeacute agrave France Teacuteleacutecom (voir Figure 12) Ce processus implique des diffeacuterences notables avec un encodage virtuel

Le prototype de microphone contraint en effet agrave quelques compromis pour

optimiser des critegraveres incompatibles La taille du microphone reacutesulte drsquoun compromis entre la preacutecision drsquoestimation des composantes en basses freacutequences qui neacutecessite une taille eacuteleveacutee et la minimisation de lrsquoaliasing spatial qui ne peut ecirctre eacuteviteacute qursquoavec des capsules tregraves proches les unes des autres Leur disposition est eacutegalement irreacuteguliegravere il nrsquoexiste en fait aucune faccedilon de disposer reacuteguliegraverement plus de 20 points sur une sphegravere La configuration qui avait eacuteteacute retenue par les concepteurs [Moreau 2006] est la ldquomoins irreacuteguliegravere possiblerdquo au sens de la preacuteservation de lrsquoorthonormaliteacute des harmoniques spheacuteriques les 32 capsules sont reacuteparties sur une sphegravere de 35 cm de rayon selon un Pentaki-dodeacutecahegravedre polyegravedre semi-reacutegulier dual de lrsquoicosaegravedre tronqueacute (ballon de football)

Ces artefacts sont donc inheacuterents agrave lrsquoutilisation drsquoun reacuteseau de microphones Mais

le monde reacuteel pose eacutegalement des problegravemes deacutelicats La complexiteacute des modes de rayonnement drsquointeraction avec lrsquoenvironnement reacuteclame lrsquointroduction de modegraveles drsquoencodage beaucoup plus complexes que le cas drsquoune onde plane en champ libre et rend lrsquoinformation spatiale moins limpide et univoque au sein de la scegravene encodeacutee (enregistreacutee) en comparaison avec une scegravene virtuelle Les sources ne sont ainsi plus ponctuelles mais eacutetendues elles ne sont plus agrave lrsquoinfini mais agrave une distance finie du microphone (les ondes reccedilues ne sont donc plus planes) En outre chaque source en se reacutefleacutechissant sur les parois et les diffeacuterents objets de la salle creacutee une multitude de sources secondaires Il est enfin souvent difficile de connaicirctre avec preacutecision la position drsquoune source dans lrsquoespace lors drsquoun enregistrement

Des enregistrements en chambre sourde ont eacuteteacute reacutealiseacutes pour se passer des

reacuteflexions de lrsquoenvironnement Afin de connaicirctre avec preacutecision la position de la source un haut-parleur diffusant un bruit blanc nous avons placeacute le microphone sur une table tournante commandeacutee par un plug-in sous Plogue Bidule

233 Visualisations des reacutesultats Lrsquoobservation des reacutesultats a eacuteteacute effectueacutee de plusieurs maniegraveres visuellement et

par lrsquoeacutecoute Les graphiques eacutetant plus commodes crsquoest par cette voie que les premiers essais eacutetaient conclus Plusieurs types de graphiques ont eacuteteacute produits deacutecrivant des paramegravetres diffeacuterents

Les repreacutesentations temps-freacutequence permettent de repreacutesenter une variable agrave 1

dimension sous Matlab Cette voie a eacuteteacute suivie pour visualiser les paramegravetres extraits de chaque sous-bande de chaque fenecirctre notamment les angles lrsquoeacutenergie et la pertinence Malheureusement Matlab ne permet pas de repreacutesenter sur le mecircme graphique une 4egraveme dimension sous la forme drsquoune 2egraveme dimension colorimeacutetrique (on prend geacuteneacuteralement la

23 Meacutethodologie 19

saturation) Cette dimension suppleacutementaire aurait permis de repreacutesenter simultaneacutement les angles et leur pertinence

Figure 25 - Repreacutesentation

et de lrsquoespace col

Pour repreacutesenter s

drsquoabandonner une dimensipouvoir repreacutesenter danrepreacutesenteacutees soit par le niv

Figure 26 - Repreacutesentationdeacutecrite en 332 (en absciss

est repreacutesenteacutee agrave gauc

234 Diffeacuterents modes La visualisation est

indispensable pour veacuterifiesont possibles de ceux-cainsi reconstitueacutee agrave partir d

1 W+Y+02X pour le c

π 0 minusπ

de la table des couleurs dite HSV de Matlab (lineacuteaire agrave gauche) orimeacutetrique HSL (Hue Saturation Luminance agrave droite)

imultaneacutement angles et pertinence il eacutetait donc neacutecessaire on Crsquoest le deacutecoupage freacutequentiel qui a eacuteteacute mis de cocircteacute pour s un plan temps-angles les pertinences Celles-ci sont eau de gris des points soit par leur taille

de la pertinence des angles de la scegravene agrave 4 sources dont 1 mobile e les trames en ordonneacutees les angles en degreacute) La pertinence he par lrsquointensiteacute du bleu et agrave droite par la taille des points

drsquoeacutecoute

un indice preacutecis de reacutesultat mais lrsquoeacutecoute est tout de mecircme r la qualiteacute globale de la synthegravese Plusieurs modes drsquoeacutecoute i lrsquoeacutecoute au casque est la plus aiseacutee Une pseudo-steacutereacuteo est es signaux du 1er ordre1 pour restituer les scegravenes restreintes au

anal gauche et W-Y+02X pour le canal droit

Chapitre 2 Analyser un contenu HOA 20

plan horizontal Pour plus de preacutecision agrave la restitution ou pour des scegravenes en 3D et sans perdre la faciliteacute drsquoune eacutecoute personnelle au casque on peut appliquer des filtres HRTF (Head-Related Transfert Function) pour une reproduction binaurale

Pour appreacutecier pleinement la spatialisation la diffusion sur un systegraveme multi

haut-parleurs est indispensable Deux systegravemes sont installeacutes dans le laboratoire de France Teacuteleacutecom un systegraveme 51 et un systegraveme circulaire de 48 haut-parleurs Ces systegravemes installeacutes dans des studios insonoriseacutes offrent une grande qualiteacute drsquoeacutecoute qui permet de repeacuterer les deacutefauts mecircme minimes de la synthegravese

21

Chapitre 3

Description des analyses

31 Deacutetermination des directions principales

311 Base des algorithmes Nous avons deacuteveloppeacute plusieurs algorithmes reacutepondant aux diffeacuterents objectifs

deacutecrits plus haut Chacun drsquoeux possegravede des particulariteacutes leur permettant de reacutepondre agrave ces objectifs mais on trouve neacuteanmoins une partie commune Ainsi toutes les analyses reposent sur le mecircme modegravele drsquoapplication drsquoune ACP par sous-bandes dont voici le scheacutema geacuteneacuteral

Figure 31 - Scheacutema geacuteneacuteral drsquoanalyse

Les signaux en entreacutee sont les composantes HOA W X et Y dans la plupart des

cas mais peuvent ecirctre eacutegalement des composantes drsquoordre plus eacuteleveacute (voir 11) Sur le fenecirctrage jouent plusieurs paramegravetres comme la taille de la fenecirctre ou encore le pourcentage de recouvrement entre elles Nous avons choisi une fenecirctre en racine de la fenecirctre de Hanning crsquoest-agrave-dire une arche de sinusoiumlde (voir eacutequation (D7) en Annexe D) avec un recouvrement de 50 ce qui veacuterifie le critegravere de reconstruction parfaite (D6) Le filtrage est pour des raisons de rapiditeacute de calcul reacutealiseacute dans le domaine freacutequentiel par une simple multiplication avant de repasser en temporel pour appliquer lrsquoACP

Le banc de filtre utiliseacute est un banc inspireacute des filtres ERB Les filtres ERB

(Equivalent Regular Bandwidth) sont des filtres imitant le comportement de seacuteparation freacutequentielle de lrsquooreille humaine plus preacutecise en basse freacutequence Les filtres utiliseacutes ici ne sont pas directement des filtres ERB le systegraveme nrsquoa pas drsquointeacuterecirct particulier agrave essayer de copier le fonctionnement de lrsquooreille humaine Ces filtres ont eacuteteacute adapteacutes au problegraveme en

Chapitre 3 Description des analyses 22

srsquoassurant en particulier de la finesse des bandes permettant la meilleure discrimination des diffeacuterentes sources crsquoest-agrave-dire autour des fondamentales usuelles (200-1000 Hz) et des harmoniques Les freacutequences aigueumls sont bien discrimineacutees par les filtres ERB (relativement agrave la gamme crsquoest-agrave-dire en eacutechelle logarithmique) le deacutecoupage a donc surtout eacuteteacute densifieacute entre 200 et 800 Hz par rapport aux bandes ERB

Figure 32 - Filtres utiliseacutes inspireacutes des filtres ERB repreacutesenteacutes lineacuteairement (en haut)

et sur une eacutechelle logarithmique (en bas) Les reacutesultats de lrsquoACP sont donc avec cette meacutethode les angles des sources

trouveacutees dans chaque sous-bande ainsi que pour chacun drsquoeux un critegravere de pertinence calculeacute en fonction de lrsquoeacutenergie de la sous-bande dans une fenecirctre donneacutee et de la norme relative de la premiegravere composante de lrsquoACP (voir 342) Les autres vecteurs propres peuvent ecirctre utiliseacutes pour extraire davantage drsquoinformations et mecircme des signaux deacutecorreacuteleacutes comme on le verra au paragraphe 35 mais lrsquoanalyse semble alors moins robuste Srsquoen tenir aux informations donneacutees par la composante principale est un gage de pertinence suppleacutementaire

Ces reacutesultats concernent donc les sources preacutedominantes ou principales mais

laissent de cocircteacute un certain nombre drsquoeacuteveacutenements sonores agrave consideacuterer

312 Traitement du champ reacutesiduel Le champ reacutesiduel regroupe en quelque sorte tout ce qui nrsquoest pas une source

principale Il inclut donc les reacuteflexions et la reacuteverbeacuteration de la piegravece mais aussi les bruits parasites occasionnels ou continus (ventilation etc) Ces bruits ou eacutechos nrsquoont pas de direction de provenance assez distincte pour pouvoir ecirctre mesureacutee preacuteciseacutement Le champ reacutesiduel est eacutegalement composeacute du champ diffus La notion de champ diffus est couramment utiliseacutee mais rarement preacuteciseacutement deacutefinie On trouve dans la litteacuterature des deacutefinitions diverses lrsquoune drsquoelles preacutecisant qursquoil serait un ensemble drsquoeacuteveacutenements sonores proches en temps et provenant de directions eacutequiprobables

Les algorithmes proposeacutes traitent correctement les sources principales mais le

champ reacutesiduel est laisseacute de cocircteacute Il est pourtant tregraves important pour lrsquoimmersion du sujet dans la scegravene une scegravene deacutepourvue de champ sonore sera perccedilue comme artificielle ce qui nuit agrave la perception drsquoespace On sera par exemple davantage conscients drsquoecirctre au centre drsquoun dispositif expeacuterimental et moins sensibles aux variations de profondeur et de perspectives

31 Deacutetermination des directions principales 23

Neacuteanmoins il faut relativiser lrsquoimportance de ce champ reacutesiduel il nrsquoest pas utile pour la localisation des sources principales et ne caracteacuterise que lrsquoenvironnement drsquoenregistrement En outre le champ reacutesiduel qui provient souvent de directions floues et notre but nrsquoest pas de les preacuteciser artificiellement Il nrsquoest degraves lors geacuteneacuteralement pas utile de le transmettre aux ordres eacuteleveacutes

Ainsi certains auteurs [Merimaa and Pulkki 2005] ont choisi de recreacuteer lors drsquoune

synthegravese un champ diffus artificiel baseacute sur une reacuteponse impulsionnelle de salle calculeacutee agrave lrsquoavance Lrsquoavantage est une immersion un enveloppement complets lrsquoinconveacutenient est que lrsquoambiance ainsi recreacuteeacutee est fictive et arbitraire et en outre complegravetement indeacutependante de lrsquoambiance initiale en laissant notamment de cocircteacute les sources secondaires

Nous proposons dans nos algorithmes de ne pas syntheacutetiser le champ diffus aux

ordres eacuteleveacutes mais de nous contenter de la description du champ reacutesiduel fourni par les ordres transmis (1er ordre dans nos exemples) Nous nous limiterons donc agrave preacuteciser par la synthegravese des ordres supeacuterieurs les positions des sources principales

32 Extension agrave la 3D Nous avons pour le moment eacutevoqueacute le cas de repreacutesentations de champ sonore agrave

2 dimensions crsquoest-agrave-dire issus de sources placeacutees dans le plan horizontal Mais certaines repreacutesentations comportent eacutegalement des composantes verticales Pour analyser ces signaux en 3 dimensions il faut inteacutegrer la composante Z On effectue alors simplement une ACP sur X Y Z et W Le 1er vecteur propre sera alors bien dirigeacute dans lrsquoespace (X Y Z) dans la direction de la source lrsquoambiguiumlteacute de frac12 espace eacutetant leveacutee par W

Lrsquoalgorithme est alors complegravetement similaire agrave celui analysant des signaux en 2

dimensions Des tests ont eacuteteacute reacutealiseacutes agrave partir de signaux syntheacutetiques pour lesquels les positions des sources eacutetaient connues pour des raisons pratiques aucune scegravene sonore reacuteelle en 3 dimensions nrsquoa pu ecirctre enregistreacutee avec une connaissance initiale preacutecise des positions des sources

Les visualisations et les eacutecoutes eacutetant plus deacutelicates en 3D et lrsquoextension agrave la 3D

eacutetant immeacutediate nous avons donc concentreacute nos efforts sur lrsquoanalyse de scegravenes en 2D En outre en lrsquoabsence de dispositif spheacuterique ou heacutemispheacuterique de haut-parleurs le seul moyen agrave notre disposition pour eacutecouter une scegravene 3D est lrsquoeacutecoute binaurale crsquoest-agrave-dire au casque avec des fonctions de transfert de tecircte (HRTF) relativement bien adapteacutees agrave lrsquoauditeur

33 Analyse aux ordres supeacuterieurs

331 Description Afin drsquoameacuteliorer la preacutecision de lrsquoanalyse nous avons essayeacute drsquoappliquer une ACP

sur des signaux ambisoniques drsquoordre plus eacuteleveacute (signaux HOA) dans le plan horizontal Deux meacutethodes ont eacuteteacute essayeacutees

Chapitre 3 Description des analyses 24

La premiegravere consiste agrave appliquer une ACP agrave 3 dimensions successivement sur les composantes X Y W (ordre 1 et 0) puis U V W (ordre 2 et 0) et ainsi de suite crsquoest-agrave-dire (en utilisant la notation geacuteneacuterale) sur les composantes et W (ordre m et 0) Les reacutesultats de ces analyses (les directions des 1

)1(0mY )1(

0minus

mYegraveres composantes) sont ensuite regroupeacutees

lrsquoanalyse de lrsquoordre 1 fournissant des reacutesultats modulo 2π lrsquoanalyse de lrsquoordre 2 des reacutesultats plus preacutecis mais modulo π et plus geacuteneacuteralement lrsquoanalyse de lrsquoordre m permettant de trouver des angles modulo mπ2

La limite de cette approche se perccediloit lors de la fusion des reacutesultats les angles

trouveacutes agrave un ordre eacuteleveacute sont plus preacutecis dans des bandes de freacutequences eacuteleveacutees mais la limitation theacuteorique de ces signaux HOA dans les basses freacutequences font que lrsquoanalyse de lrsquoordre 1 reste la plus pertinente dans les premiegraveres bandes Parvenir agrave deacuteterminer agrave partir de quelle freacutequence on peut faire davantage confiance agrave lrsquoordre n+1 qursquoagrave lrsquoordre n nrsquoest pas aiseacute et cette limite provoque des aberrations dans les angles trouveacutes Une source unique pourra par exemple ecirctre interpreacuteteacutee par lrsquoalgorithme des k-moyennes (voir 341) comme 2 sources une en hautes freacutequences et une en basses freacutequences les 2 eacutetant trouveacutes agrave 2 angles diffeacuterents chaque angle relevant drsquoun ordre analyseacute diffeacuterent

La deuxiegraveme meacutethode consiste pour eacuteviter cette fusion des reacutesultats agrave effectuer

une seule ACP sur les composantes U V X Y et W Cette meacutethode souffre drsquoune tregraves grande complexiteacute algorithmique pour une ameacutelioration de la preacutecision peu sensible En effet si cette meacutethode permet drsquoobtenir des reacutesultats plus preacutecis dans certaines bandes de freacutequences elle est sensible aux deacutefauts et les limites des ordres supeacuterieurs (lrsquoabsence de basses freacutequences entre autres) perturbent lrsquoanalyse en composantes principales

332 Illustration sur une scegravene virtuelle La scegravene preacutesenteacutee ici est une scegravene artificielle crsquoest-agrave-dire composeacutee de sons

placeacutes artificiellement agrave diverses positions Elle a une dureacutee totale de 135 s et comporte 4 sources positionneacutees dans le plan horizontal une guitare placeacutee agrave 45deg une basse agrave -70deg une batterie agrave 110deg et une voix feacuteminine qui effectue continucircment un tour complet dans le sens indirect en partant de lrsquoarriegravere (elle passe donc successivement par les positions 180deg 90deg 0deg -90deg et -180deg) La guitare et la batterie srsquoarrecirctent peu avant la fin de la scegravene (12egraveme seconde au 910egraveme du son approximativement)

Figure 33 - Position des sources de la scegravene de test agrave 4 sources dont 1 mobile

33 Analyse aux ordres supeacuterieurs 25

Figure 34 - Angles drsquoune scegravene virtuelle ayant 1 source mobile et 3 sources fixes

(deacutecrite en 332) trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 Pour chaque trame (en abscisse) 20 angles (1 par bande en ordonneacutee et en degreacutes) sont

reporteacutes le diamegravetre du point correspondant agrave un critegravere de pertinence (voir 342)

Figure 35 - Angles de la mecircme scegravene trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 2 Reacutesultats modulo π reacutepliqueacutes pour faciliter la comparaison avec la figure preacuteceacutedente On remarque que les lignes sont plus nettes qursquoil y a moins drsquoangles aberrants et que

les angles corrects sont plus marqueacutes (ils sont deacutetermineacutes comme plus pertinent)

Chapitre 3 Description des analyses 26

20

0

20

0

20

0

Figure 36 - Angles drsquoune scegravene reacuteelle constitueacutee drsquoun bruit parcourant le cercle trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 (en haut) 0 et 2 (au milieu) et 0 et 4 (en bas) Le

numeacutero de trame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On retrouve qursquoune limitation des ordres HOA supeacuterieurs issus drsquoun enregistrement

microphonique est la restitution des basses freacutequences

34 Traitement des donneacutees

341 Algorithme des k-moyennes Agrave lrsquoissue de lrsquoanalyse en composantes principales on reacutecupegravere avec la premiegravere

des meacutethodes exposeacutees au chapitre preacuteceacutedent des angles correspondants aux positions des sources preacutedominantes agrave raison drsquoune valeur par fenecirctre et par bande de freacutequence Il faut agrave partir de ces donneacutees parvenir agrave isoler les sources crsquoest-agrave-dire agrave deacuteterminer quels sont les angles pertinents et examiner quels sont ceux qui agrave une certaine toleacuterance pregraves sont preacutesents dans plusieurs bandes de freacutequence etou plusieurs fenecirctres temporelles

Pour pouvoir exploiter ces donneacutees spatiales nous avons utiliseacute lrsquoalgorithme des

k-moyennes (ou k-means) [MacQueen 1967] sur les angles pondeacutereacutes par des critegraveres de pertinence Cet algorithme fonctionne de la maniegravere suivante

Initialisation choix de k barycentres (les k moyennes) Reacutepeacuteter Associer chaque eacuteleacutement au barycentre le plus proche Recalculer les positions des barycentres Jusqursquoagrave ce que les barycentres soient stables (ou au bout de t iteacuterations)

34 Traitement des donneacutees 27

Lrsquoavantage de cet algorithme est drsquoecirctre peu glouton puisqursquoil converge en O(tkn) ougrave t est le nombre drsquoiteacuterations k le nombre de centres et n le nombre de points (geacuteneacuteralement on a t k ltlt n) Par contre il est plutocirct sensible aux exceptions un point aberrant tirera agrave lui la moyenne auquel il aura eacuteteacute associeacute Il faut donc faire en sorte que ces points erroneacutes soient aussi rares que possibles Crsquoest pourquoi les angles traiteacutes sont pondeacutereacutes par 2 critegraveres de pertinence

La pondeacuteration des angles fournis en entreacutee de lrsquoalgorithme des k-moyennes se

fait de maniegravere simple en reacutepeacutetant ces angles un nombre de fois (de 0 agrave 10) proportionnel agrave un critegravere Ainsi un angle tregraves pertinent sera dupliqueacute et sera preacutesent plusieurs fois dans la liste des donneacutees traiteacutees attirant ainsi agrave lui la position du barycentre le plus proche Au contraire un angle trop peu pertinent ne sera pas reacutepeacuteteacute voir mecircme sera enleveacute de la liste

Le seul problegraveme de cet algorithme est qursquoil neacutecessite la connaissance de k crsquoest-

agrave-dire du nombre de sources qui composent la scegravene Une deacutetermination automatique se basant sur la reacutepeacutetition de lrsquoalgorithme avec un k croissant a eacuteteacute testeacutee mais le critegravere drsquoarrecirct reposant sur la dispersion des points autour des barycentres nrsquoeacutetant pas assez robuste cette meacutethode a provisoirement eacuteteacute mise de cocircteacute

342 Critegraveres de pertinence Les 2 critegraveres de pondeacuteration choisis sont lrsquoeacutenergie de la sous-bande dans la

fenecirctre donneacutee et le rapport de la norme de la 1egravere composante (la composante principale) de lrsquoACP sur la somme des normes de toutes les composantes

En effet un angle est trouveacute dans chaque sous-bande de chaque fenecirctre mecircme si

le signal y est tregraves faible Lrsquoangle trouveacute sera alors tregraves peu repreacutesentatif de la direction drsquoune source puisqursquoil indiquera la direction drsquoun bruit Lrsquoeacutenergie doit donc ecirctre prise en compte pour ne conserver que les angles trouveacutes dans des bandes comportant un signal suffisant

La norme relative de la 1egravere composante de lrsquoACP rend quant agrave elle compte du

poids relatif de cette composante par rapport aux autres Ainsi si 2 sources sont preacutesentes dans une bande donneacutee la 1egravere composante sera agrave peine plus marqueacutee que la 2egraveme Ceci peut ecirctre calculeacute en prenant simplement le rapport de la 1egravere valeur propre sur la somme des valeurs propres

On peut noter que la norme de la 1egravere composante ne se deacutetache nettement que

lorsqursquoun son est preacutesent dans la bande consideacutereacutee On peut alors se demander si lrsquoeacutenergie doit ecirctre prise en compte ou si lrsquoinformation qursquoelle contient nrsquoest comprise dans le 2egraveme critegravere En fait la norme relative est un critegravere tregraves bruiteacute et consideacuterer lrsquoeacutenergie par ailleurs permet de nuancer ces artefacts et constitue une base solide de pondeacuteration

Chapitre 3 Description des analyses 28

80

40

0

Figure 37 - Repreacutesentation temps-freacutequence des angles du son deacutecrit en 332 Letrame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On peut donc v

par trame et par bande chacun eacutetant le reacutesultat drsquoune ACP crsquoest-agrave-dire la 1egravere

Figure 38 - Eacutenergie de ce mecircme son On peut voir une basse en notes tenues uneet une batterie qui produit des sons secs dans un spectre plus aigu

80

40

0

80

40

0

Figure 39 - Norme relative de la 1egravere composante de ce mecircme son Les impacts de batterie (dans lrsquoaigu) ressortent davantage

π 0 minusπ

numeacutero de oir un angle direction

voix aiguumle

34 Traitement des donneacutees 29

Figure 310 - Pondeacuteration appliqueacutee agrave lrsquoentreacutee des k-moyennes calculeacutee ici comme

le simple produit de lrsquoeacutenergie et de la norme relative

80

40

0

343 Lissages

Pour faire face au bruit ineacutevitable dans les reacutesultats il faut lisser les donneacutees Ces

lissages temporels correspondent agrave des hypothegraveses de stabiliteacute des sources qui sont supposeacutees ecirctre fixes ou mobiles relativement lentement (dans une mesure agrave parameacutetrer)

Un premier lissage peut ecirctre opeacutereacute avant le traitement par lrsquoalgorithme des k-

moyennes Le filtre choisi est un filtre meacutedian de maniegravere agrave eacuteliminer les points aberrants tout en conservant les vraies valeurs des points coheacuterents Ce lissage est appliqueacute sur chaque sous-bande aux angles et ne tient pas compte des critegraveres de pertinence Il est donc utiliseacute avec parcimonie et peut mecircme ecirctre eacuteviteacute en reacuteglant de maniegravere adeacutequate les critegraveres de pondeacuteration agrave lrsquoentreacutee des k-moyennes

Le deuxiegraveme lissage srsquoeffectue agrave lrsquoentreacutee des k-moyennes en mecircme temps que les

critegraveres de pondeacuteration Il consiste agrave appliquer les k-moyennes non pas sur une fenecirctre donneacutee mais sur plusieurs fenecirctres conseacutecutives anteacuterieures et posteacuterieures en donnant plus de poids agrave la fenecirctre courante Dans la pratique les poids donneacutes aux diffeacuterentes fenecirctres sont eacutetablis par une gaussienne centreacutee sur la fenecirctre courante et de largeur agrave deacuteterminer (en fonction notamment de la dureacutee drsquoune fenecirctre et du type de scegravene analyseacute)

35 Exploitation de toutes les composantes de lrsquoACP Les analyses preacutesenteacutees preacuteceacutedemment ont toutes exploiteacute uniquement la

composante principale extraite par lrsquoACP Or cette analyse fournit des informations plus complegravetes par lrsquointermeacutediaire des autres composantes dont on peut tirer parti pour isoler plusieurs sources au sein drsquoune mecircme bande Cette approche est toujours en deacuteveloppement dans ce stage et nrsquoa pas encore donneacute pleine mesure des reacutesultats qursquoelle laisse entrevoir

Les composantes de lrsquoACP indiquent des directions qui correspondent aux

diffeacuterentes sources composant la scegravene sonore Les vecteurs propres de la matrice de correacutelation donnent ainsi les combinaisons lineacuteaires des signaux HOA permettant de

Chapitre 3 Description des analyses 30

seacuteparer de la meilleure faccedilon possible ces sons Ces directions peuvent ecirctre alors utiliseacutees pour former des directiviteacutes isolant au mieux ces sources

aBS sdot= (31)

ougrave la matrice a contient les vecteurs propres de la matrice de correacutelation (voir Annexe C) le vecteur B contient les signaux HOA et le vecteur S contient les sources extraites

⎟⎟⎟

⎜⎜⎜

=⎟⎟⎟

⎜⎜⎜

⎛=

⎥⎥⎥

⎢⎢⎢

⎟⎟⎟

⎜⎜⎜

⎟⎟⎟

⎜⎜⎜

⎛=

10

1001

1

ML

N

B

BB

S

SSuua MML (32)

On obtient ainsi des lobes drsquoautant plus eacutetroits que lrsquoordre est eacuteleveacute chacun

dirigeacute vers une source et permettant de lrsquoisoler le plus possible des contributions des autres sources La Figure 311 preacutesente les directiviteacutes ainsi trouveacutees par une ACP en pleine bande Une analyse en sous-bande permet une plus grande distinction des sources mais une seacuteparation diffeacuterente entre les bandes est dangereuse car elle risque de dissocier spatialement plusieurs parties drsquoun mecircme son

Figure 311 - Directiviteacutes seacuteparant ideacutealement 4 sources placeacutees agrave 17 73 195 et -58deg

pour une scegravene virtuelle encodeacutee agrave lrsquoordre 4 Ce principe se heurte neacuteanmoins aux limites de seacuteparation lieacutees agrave lrsquoordre

drsquoencodage en effet 2 sources ne pourront pas ecirctre seacutepareacutees si elles sont trop proches comme en teacutemoigne la largeur des lobes principaux Les lobes secondaires traduisent eacutegalement un meacutelange des sources isoleacutees La figure ci-dessus montre ainsi que la source placeacutee agrave 17deg (en vert) sera preacutesente de maniegravere non neacutegligeable dans le signal senseacute contenir la source placeacutee agrave -58deg (en bleu) en raison du lobe secondaire bleu important

31

Chapitre 4

Reacutesultats et applications

41 Illustration et critique des reacutesultats obtenus

411 Avant-propos Sans notification particuliegravere les reacutesultats preacutesenteacutes ont eacuteteacute obtenus avec un pas

de 50 ms une analyse en 80 bandes avec une FFT sur 8192 points Une taille de FTT plus grande et un plus grand nombre de bande augmente la qualiteacute de lrsquoanalyse un pas plus petit ameacuteliore sa preacutecision temporelle mais les reacutesultats sont moins fiables et un lissage plus important srsquoimpose alors Ces paramegravetres ont eacuteteacute reacutegleacutes apregraves de multiples essais sur des scegravenes diverses

Les reacutesultats sont preacutesenteacutes ici uniquement sous la forme de graphiques nous ne

pouvons donc repreacutesenter que les angles trouveacutes agrave la sortie de lrsquoalgorithme des k-moyennes

412 Scegravene 2D artificielle agrave 4 sources fixes La premiegravere scegravene est une scegravene artificielle composeacutee de 4 sons fixes placeacutes agrave -70

-10 45 et 110deg Ces sons (une basse une voix une guitare et une batterie) ont eacuteteacute choisis pour leur varieacuteteacute spectrale et leur varieacuteteacute drsquoattaque Elle a en outre le meacuterite drsquoecirctre reacutealiste et de constituer une seacutequence musicale (chaque son nrsquoest pas une meacutelodie indeacutependante)

On voit sur la Figure 41 ci-dessous que les angles trouveacutes sont proches des

angles theacuteoriques Lrsquoun des sons (agrave 45deg) est quasiment nul avant la 100egraveme trame sa position est alors moins facile agrave deacuteterminer plus preacuteciseacutement une position approximative est trouveacutee et correspondrait exactement agrave la position du bruit (45deg) si lrsquoincertitude de mesure tregraves grande pour un son aussi faible ne rendait la deacutetermination si ardue On mesure un eacutecart-type de 22deg sur cet exemple (en excluant le deacutebut du son agrave 45deg)

Chapitre 4 Reacutesultats et applications 32

Figure 41 - Angles theacuteoriques (en pointilleacutes rouge) et calculeacutes (en trait bleu) pour une scegravene

constitueacutee de 4 sons fixes longue de 11s

413 Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile

Figure 42 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) de la scegravene agrave

4 sources dont 1 mobile deacutecrite en 332 Cette scegravene est deacutecrite en 332 On a ici demandeacute aux k-moyennes de renvoyer 5 barycentres par trame alors que

seules 4 sources eacutetaient preacutesentes dans le but de se garantir une marge vis-agrave-vis des erreurs de deacutetection Cette 5egraveme direction nrsquoest pas du tout gecircnante elle indique une direction qui ne contient pas de source et crsquoest donc un son tregraves faible qui est ainsi pointeacute Apregraves une eacuteventuelle extraction le signal ne sera donc pas du tout gecircnant

41 Illustration et critique des reacutesultats obtenus 33

On peut remarquer que quand le son mobile se rapproche drsquoun son fixe la deacutetection est moins bonne il y a une fusion entre les 2 sons Mais encore une fois lors de lrsquoextraction lrsquoisolation drsquoun des sons englobera lrsquoautre son ce qui ne posera pas de problegraveme pour les objectifs fixeacutes aucune source nrsquoeacutetant oublieacutee En effet la seacuteparation de sources nrsquoest pas un objectif ici mais un moyen pour preacuteciser les positions des sources ce qui sera fait correctement mecircme si 2 sources sont pointeacutees par 1 seule direction

414 Scegravene 3D artificielle agrave une source et bruit de fond

La scegravene dont la position drsquoune source a eacuteteacute extraite ci-dessous est une scegravene virtuelle en 3D constitueacute drsquoun son (une voix) qursquoon a fait se deacuteplacer par paliers tout drsquoabord vers le haut de 0deg agrave 45deg et vers la gauche de 0deg agrave 90deg puis redescendre jusqursquoagrave 35deg en continuant son cheminement vers la gauche jusqursquoagrave 120deg et enfin finir la descente de 35deg agrave 0deg en la laissant agrave 120deg Agrave cette source a eacuteteacute superposeacutee une ambiance spatialiseacutee de hall drsquoaeacuteroport initialement enregistreacutee en 2D (au format 51) mais transformeacutee pour contenir des composantes verticales Cette ambiance deacutecorreleacutee de la source avait pour but de tester la robustesse de lrsquoanalyse Elle eacutetait agrave 15 dB en-dessous du niveau de la voix

Figure 43 - Azimut et eacuteleacutevation theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun

son en 3D artificiel de 9s placeacute dans une ambiance bruyante On remarque que lrsquoanalyse est tregraves correcte Il nrsquoy a pas drsquoeacutecart important entre

les angles theacuteoriques et ceux calculeacutes On note toutefois que le lissage agrave lrsquoentreacutee des k-moyennes a pour effet de gommer les creacuteneaux et drsquoaplatir quelque peu la courbe drsquoeacuteleacutevation ceci nrsquoest pas vraiment gecircnant car de tels sauts dans la position drsquoune source ne sont pas du tout reacutealistes (ils peuvent caracteacuteriser des bruits de pas mais de tels impacts sont courts et on peut srsquoattendre agrave ce que la courbe suive leur position aux instants ougrave ils sont eacutemis)

Chapitre 4 Reacutesultats et applications 34

415 Scegravene 2D naturelle agrave une source Les scegravenes naturelles sont on lrsquoa vu plus deacutelicates agrave exploiter car on ne peut pas

garantir la preacutecision de la position theacuteorique agrave retrouver par le calcul et on ne peut donc pas calculer la preacutecision de lrsquoanalyse Seuls les enregistrements utilisant la table tournante (voir 232) permettent une mesure preacutecise de la position de lrsquoangle Ces enregistrements on pu confirmer la validiteacute de lrsquoanalyse pour des scegravenes reacuteelles on trouve ici un eacutecart-type de 25deg

Figure 44 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun bruit blanc

tournant autour du micro enregistreacute en chambre sourde Cette analyse a eacuteteacute reacutealiseacutee par sous-bandes mais sur une eacutetendue freacutequentielle

plus reacuteduite puisqursquoon srsquoest limiteacute aux possibiliteacutes offertes par le microphone La scegravene a donc eacuteteacute analyseacutee de 200 agrave 10 000 Hz

42 Quelques applications

421 Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre 2 agrave partir de lrsquoordre 1

Une fois les positions des sources connues la porte est ouverte agrave de nombreuses

applications La connaissance de ces positions permet en effet de syntheacutetiser artificiellement des composantes manquantes ou non transmises La premiegravere synthegravese deacuteveloppeacutee est celle des signaux U et V composant la partie horizontale de lrsquoordre 2 agrave partir de lrsquoordre 1 et de paramegravetres issus de lrsquoanalyse pour une source en 2D (des angles dans de cas)

42 Quelques applications 35

Figure 45 - Principe de lrsquoameacutelioration de la preacutecision spatiale

Le principe de la synthegravese est drsquoextraire les sources originales agrave partir de W X Y

et des angles (un angle par trame et par sous-bande) Ceci peut ecirctre reacutealiseacute de maniegravere approcheacutee en deacutecodant lrsquoordre 1 dans les directions des sources Ce deacutecodage revient agrave calculer les signaux qui devraient alimenter des haut-parleurs qui seraient placeacutes agrave ces positions dans le cas drsquoune restitution (voir 122) crsquoest-agrave-dire agrave former des directiviteacutes dans les directions des sources Dans la plupart des cas ce deacutecodage qui fait intervenir une pseudo-inversion de Moore-Penrose (111) est imparfait les sources se retrouvant leacutegegraverement meacutelangeacutees On peut comparer cette seacuteparation agrave celle que ferait un ensemble de microphones agrave directiviteacute hypercardioiumlde coiumlncidents

Figure 46 - Directiviteacutes eacutequivalentes agrave la seacuteparation de 4 sources agrave lrsquoordre 1 Ces sources seacutepareacutees vont ensuite constituer toujours placeacutees aux angles

deacutetermineacutes agrave lrsquoanalyse une scegravene virtuelle qursquoon va encoder agrave lrsquoordre 2 De cet encodage on ne conservera que les signaux manquants dans notre exemple les signaux du 2nd ordre U et V Ainsi la scegravene spatialiseacutee sera au final constitueacutee des signaux W X et Y drsquoorigine (transmis) et des signaux U et V syntheacutetiseacutes

Chapitre 4 Reacutesultats et applications 36

422 Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave partir de W Reconstruire une scegravene sonore spatialiseacutee agrave partir drsquoun unique canal mono est

alors difficile et le reacutesultat nrsquoest appreacuteciable que pour des scegravenes simples Il faut pour cela que les diffeacuterentes sources composant cette scegravene aient des supports spectraux aussi distincts que possible Les diffeacuterentes sous-bandes sont alors placeacutees agrave un certain angle transmis en parallegravele et crsquoest cette scegravene reconstitueacutee qui va ecirctre encodeacutee au 1er ordre de maniegravere agrave recreacuteer les signaux X et Y

Figure 47 - Principe de la restitution de lrsquoordre 1 agrave partir du signal mono W Ce scheacutema rappelle une meacutethode deacuteveloppeacutee dans le cas steacutereacuteo appeleacutee BCC

(Binaural Cue Coding) [Faller and Baumgarte 2002] Le principe est drsquoextraire et coder des informations permettant la reconstruction binaurale drsquoun signal agrave savoir les diffeacuterences interaurales drsquointensiteacute et de temps (Interaural LevelTime Difference ILD et ITD) qui correspondent dans le cas drsquoune restitution sur un casque aux diffeacuterences drsquointensiteacute et de temps inter-canal (Inter-Channel LevelTime Difference ICLD et ICTD) qui sont mesureacutees agrave partir drsquoune analyse en sous-bandes Les auteurs y ont plus reacutecemment associeacute un indice de correacutelation interaurale mesureacute agrave partir de la correacutelation inter-canal (ICC) afin de caracteacuteriser la preacutecision spatiale (la ldquolargeurrdquo drsquoune source)

Figure 48 - Scheacutema de principe de la meacutethode BCC [Faller and Baumgarte 2003]

On observe en pratique des deacutefauts lieacutes agrave la brutaliteacute de la proceacutedure une sous-

bande ne peut ecirctre que placeacutee agrave la position indiqueacutee et ne peut pas rester floue diffuse ou encore ecirctre placeacutee agrave plusieurs endroits Pour y remeacutedier nous avons ajouteacute 2 traitements agrave la synthegravese Tour drsquoabord nous avons appliqueacute un leacuteger lissage soulageant les effets deacutesagreacuteables dus au saut du contenu drsquoune sous-bande drsquoun endroit agrave un autre entre de 2 fenecirctres conseacutecutives Les positions varient alors de faccedilon plus souple au sein drsquoune mecircme sous-bande traduisant une hypothegravese de continuiteacute spatiale (pas de deacuteplacement brusque) La contrepartie est que cette hypothegravese est lieacutee agrave une hypothegravese de continuiteacute spectrale

42 Quelques applications 37

La 2egraveme ameacutelioration concerne le positionnement des sources En incluant dans la transmission un critegravere de pertinence on peut savoir srsquoil est raisonnable de placer une sous-bande agrave un angle preacutecis ou bien si lrsquoanalyse eacutetait flou agrave son sujet auquel cas un positionnement impreacutecis serait preacutefeacuterable Le paramegravetre choisi est une combinaison des critegraveres eacutevoqueacutes en 342 il nous permet de placer la sous-bande de maniegravere plus ou moins prononceacutee

43 Comparaison avec une meacutethode existante Certains auteurs ont deacutejagrave essayeacute drsquoanalyser un contenu ambisonique pour

retrouver les positions des sources Ville Pulkki a ainsi deacutecrit dans [Pulkki and Faller 2006] une meacutethode drsquoanalyse du B-format baseacutee sur lrsquoeacutetude des amplitudes des signaux W X Y et Z

Figure 49 - X et Y dans le cas drsquoune sinusoiumlde placeacutee agrave 15deg (agrave gauche) et 120deg (agrave droite)

Les figures ci-dessus montrent les relations drsquoamplitudes (algeacutebriques) qui relient

X et Y agrave lrsquoangle de la source On voit que lrsquoanalyse de ces amplitudes respectives permet de retrouver la position de la source en effet on a pour une source unique les relations de lrsquoeacutequation (11) rappeleacutee ici

⎪⎪

⎪⎪

=

=

=

=

δ

δθ

δθ

sin2

cossin2

coscos2

SZ

SY

SX

SW

(41)

On peut donc theacuteoriquement retrouver les valeurs de θ et δ par relations

trigonomeacutetriques Ainsi on a

⎪⎪⎩

⎪⎪⎨

=

=

2)sin(

)tan(

WZ

XY

δ

θ (42)

Chapitre 4 Reacutesultats et applications 38

On peut donc trouver les angles θ et δ agrave π pregraves Pour lever lrsquoambiguiumlteacute une eacutetude de signe est neacutecessaire Mais dans le cas de θ le signe de X et de Y agrave δ fixeacute deacutepend aussi bien de θ que S Il faut srsquointeacuteresser aux signes de θcos et θsin crsquoest-agrave-dire

aux signes de WX et

WY Dans la pratique on srsquointeacuteressera aux signes de et

pour se preacutevenir des divisions par zeacuteros

XW sdot YW sdot

XW sdot et YW sdot sont proportionnels agrave toujours positif

2S

Les auteurs deacutecrivent eacutegalement dans leur article un critegravere appeleacute diffuseness qui

peut ecirctre compareacute agrave un critegravere de pertinence inverseacute Ce paramegravetre calculeacute par agrave 1 - R ougrave R est un rapport de normes est tregraves proche du critegravere de norme relative deacutecrit en 342 Il peut donc ecirctre utiliseacute de la mecircme faccedilon et permettre ainsi une pleine comparaison

Cette meacutethode a eacuteteacute impleacutementeacutee pour pouvoir ecirctre compareacutee avec la meacutethode

par ACP Tous les paramegravetres ont scrupuleusement eacuteteacute gardeacutes identiques et plusieurs reacuteglages ont eacuteteacute testeacutes Les courbes ci-dessous preacutesentent les reacutesultats des analyses de la scegravene deacutecrite en 332 avec un pas de 50ms un overlap de 50 un NFFT de 2048 et 40 bandes freacutequentielles Nous avons repreacutesenteacute tous les angles trouveacutes crsquoest-agrave-dire un par bande et par trame pour srsquoaffranchir de la seacutelection des k-moyennes

π

0

minusπ

Figure 410 - Angles trouveacutes par lrsquoalgorithme de [Pulkki and Faller 2006] Le diamegravetre du point correspondant agrave la pertinence

43 Comparaison avec une meacutethode existante 39

π

0

minusπ

Figure 411 - Angles trouveacutes par une ACP pour la mecircme scegravene On remarque que les points excentriques sont moins nombreux et plus rarement trouveacutes comme pertinents

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee

441 Position du problegraveme

Une application directe de ces analyses a eacuteteacute deacuteveloppeacutee pour la confeacuterence audio

spatialiseacutee La confeacuterence audio utilise en effet la spatialisation pour permettre une meilleure seacuteparation par lrsquooreille des diffeacuterents locuteurs Ainsi si plusieurs personnes parlent en mecircme temps il sera tregraves difficile de comprendre chacun individuellement si ces voix sont restitueacutees en mono mais on pourra focaliser lrsquoattention sur chacune drsquoentre elles si elles sont seacutepareacutees spatialement (crsquoest lrsquoeffet cocktail party [Cherry 1953])

Lrsquoobjectif eacutetait de veacuterifier qursquoil eacutetait possible de conserver la spatialisation drsquoune

confeacuterence en nrsquoayant transmis qursquoun downmix mono des signaux Ce concept semble se rapprocher de celui deacutecrit en 422 mais une diffeacuterence fondamentale les seacutepare la confeacuterence audio spatialiseacutee nrsquoest pas codeacutee au format ambisonic mais les signaux traiteacutes sont directement les sons provenant des diffeacuterents locuteurs crsquoest-agrave-dire les sources elles-mecircmes Ainsi lrsquoanalyse ne porte plus sur une scegravene spatialiseacutee mais sur des signaux seacutepareacutes Il nrsquoy a ainsi plus drsquoindices spatiaux agrave trouver

Avoir accegraves aux sources permet drsquoobtenir des informations plus preacutecises pour

permettre une seacuteparation apregraves la transmission Comme nous lrsquoavons vu lrsquoanalyse drsquoune scegravene spatialiseacutee ne permet que dans drsquoultimes cas agrave la seacuteparation des sources ce qui est ici notre point de deacutepart et sera en fait notre point drsquoarriveacutee En effet nous tenterons de retrouver les sources seacutepareacutees apregraves la transmission de maniegravere agrave pouvoir par la suite les spatialiser agrave loisir (voir Figure 413)

Chapitre 4 Reacutesultats et applications 40

442 Solution proposeacutee Les paramegravetres extraits ne sont donc plus des positions de sources Nous avons

choisi de mesurer puis transmettre lrsquoeacutenergie de chaque signal dans chaque sous-bande en parallegravele du downmix En effet une bonne seacuteparation sera possible si lrsquoon sait quelle proportion de chaque source compose chaque sous-bande du signal mono

Figure 412 - Scheacutema de principe drsquoune confeacuterence audio spatialiseacutee

Figure 413 - Scheacutema ameacutelioreacute (deacutebit reacuteduit)

en pointilleacutes informations compleacutementaires (eacutenergie) Lrsquoanalyse en sous-bandes a lieu dans le serveur (Figure 414) Celui-ci calcule

lrsquoeacutenergie de chaque signal dans chaque sous-bande sur une trame donneacutee Crsquoest ce paramegravetre qui associeacute au signal mono M permettra la seacuteparation des sources dans le terminal (Figure 415) Ce dernier reacutepartira en effet les diffeacuterentes sous-bandes vers chaque signal reconstitueacute proportionnellement agrave cette information pour reconstruire les 4 sources originales

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee 41

Figure 414 - Analyse principe de lrsquoencodage dans le serveur

Figure 415 - Synthegravese principe du deacutecodage dans le client

Afin de reacuteduire au maximum les informations compleacutementaires agrave transmettre on

peut remarquer qursquoau cours drsquoune confeacuterence audio on a tregraves souvent un seul locuteur les participants ne parlent que tregraves rarement tous en mecircme temps Ceci implique que les signaux en entreacutee sont tregraves souvent tous nuls sauf 1 et appliquer un seuil en entreacutee de lrsquoanalyse permet outre lrsquoallegravegement du traitement drsquoavoir moins de paramegravetres agrave transmettre

Ce scheacutema simplifieacute ne tient pas compte des problegravemes de phase rien nrsquoindique

que les eacutenergies des signaux srsquoajoutent bien dans chaque sous-bande lors du downmix on peut tregraves bien avoir des oppositions de phase La solution est drsquoeffectuer le downmix (la somme) des signaux dans chaque sous-bande en prenant soin drsquoavoir recaleacute les phases au preacutealable Ceci nrsquoa un sens que pour des bandes suffisamment eacutetroites Les deacutecalages temporels appliqueacutes pour le recalage sont alors des paramegravetres suppleacutementaires agrave transmettre et sont pris en compte lors de la synthegravese au niveau du reacutepartiteur qui repositionnera la phase de chaque trame pour chaque signal

Chapitre 4 Reacutesultats et applications 42

443 Bilan Le reacutesultat du deacutecodage a pu ecirctre eacutecouteacute de diffeacuterentes maniegraveres les sources

reconstitueacutees individuellement ensemble en steacutereacuteo drsquoamplitude et sur un systegraveme 51 On note que les sources ont eacuteteacute assez bien seacutepareacutees mais que des artefacts sont audibles en particulier lorsque le nombre de locuteurs simultaneacutes augmentent Ces artefacts sont un meacutelange des voix qui nrsquoest gecircnant que lorsqursquoon les eacutecoute de maniegravere seacutepareacutee En effet lrsquoeacutecoute simultaneacutee de ces signaux syntheacutetiseacutes mecircme placeacutes agrave des positions distinctes sur un systegraveme de diffusion multicanal est tout agrave fait satisfaisante

Ce proceacutedeacute pour pouvoir ecirctre appliqueacute doit fonctionner en temps-reacuteel Cette

contrainte nrsquoa pas du tout eacuteteacute prise en compte lrsquoobjectif eacutetant de valider la faisabiliteacute drsquoune reconstruction Les programmes sous Matlab nrsquoont pas eacuteteacute optimiseacutes et ne respectent pas cette contrainte

43

Conclusion Nous avons preacutesenteacute dans ce rapport le principe et lrsquoapplication de plusieurs

meacutethodes drsquoanalyses spatiales de scegravenes ambisoniques conccedilues et reacutealiseacutee pendant le stage Le format HOA est en effet une repreacutesentation du champ acoustique deacutecomposeacute sur une base drsquoharmoniques spheacuteriques jusqursquoagrave un certain ordre agrave la maniegravere drsquoun deacuteveloppement limiteacute Il contient donc de maniegravere indirecte des indications spatiales qursquoon peut extraire avec des analyses comme lrsquoanalyse en composantes principales

Ces analyses nous permettent de deacuteterminer les positions des sources qui

composent la scegravene sonore Nous avons appliqueacute les reacutesultats de ces analyses agrave 2 types de synthegravese lrsquoune destineacutee aux transmissions bas deacutebit lrsquoautre agrave un traitement de restitution de la preacutecision spatiale dans le cas ougrave des ordres supeacuterieurs dont le but est drsquoaffiner la perception de localisation nrsquoauraient pas pu ecirctre transmis Ces algorithmes par le codage drsquoinformations spatiales qursquoils permettent pourront trouver bien drsquoautres applications dans la transmission et le codage ougrave la description du contenu est de plus en plus utiliseacutee (comme par exemple dans la norme MPEG)

Des ameacuteliorations sont possibles sur plusieurs points tout drsquoabord lrsquoexploitation

de toutes les composantes de lrsquoACP est agrave lrsquoeacutetude et semble pouvoir donner des reacutesultats inteacuteressants Drsquoautre part on a vu que le reacutesultat final est tregraves deacutependant de la bonne convergence de lrsquoalgorithme des k-moyennes utiliseacute pour traiter les donneacutees brutes de lrsquoanalyse en sous-bandes Or cet algorithme neacutecessite des reacuteglages tregraves fins et une connaissance a priori du nombre de sources est presque indispensable Drsquoautres algorithmes plus complexes de suivi de formes pourraient ecirctre avantageusement utiliseacutes pour deacutetecter dans tous les angles trouveacutes lesquels sont susceptibles de former une trajectoire

45

Annexe A

Deacuteveloppement du champ acoustique en harmoniques spheacuteriques

A1 Eacutequation drsquoonde en coordonneacutees spheacuteriques On se place dans lrsquoespace euclidien agrave 3 dimensions muni drsquoun systegraveme de

coordonneacutees spheacuteriques Un point M y est repeacutereacute par son rayon r son azimut θ et son eacuteleacutevation δ tels que repreacutesenteacutes sur la figure ci-dessous

- r est la norme du vecteur position rr crsquoest-agrave-dire la distance OM - [20[ πθ isin est lrsquoangle formeacute par le projeteacute du point sur le plan xOy et lrsquoaxe Ox

- ]2

2

[ ππδ minusisin est lrsquoangle formeacute par le plan xOy et le vecteur position2

Figure A1 - Systegraveme de coordonneacutees spheacuteriques

2 Cet angle diffegravere de lrsquoangle polaire usuel δπϕ minus=

2 habituellement pris entre lrsquoaxe Oz et le

vecteur position

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 46

Les relations entre les coordonneacutees spheacuteriques et les coordonneacutees carteacutesiennes sont

⎪⎩

⎪⎨

===

δδθδθ

sincossincoscos

zryrx

(A1)

On srsquointeacuteresse dans ce repegravere agrave lrsquoeacutequation de propagation des ondes acoustiques

de pression On se place dans les conditions classiques drsquoacoustique lineacuteaire (les variations de p sont petites par rapport agrave la pression atmospheacuterique) en supposant que lrsquoair est un fluide parfait (on y neacutegligera les pheacutenomegravenes dissipatifs) Dans une reacutegion de lrsquoespace ne comprenant pas de sources lrsquoeacutequation drsquoonde srsquoeacutecrit alors

0)(12

2

2 =⎟⎟⎠

⎞⎜⎜⎝

⎛partpart

minus∆ trptc

r (A2)

p eacutetant la pression et c la vitesse de propagation du son dans lrsquoair

Cette eacutequation devient dans le domaine freacutequentiel lrsquoeacutequation de Helmholtz

( ) 0)(2 =+∆ ωrpk r (A3)

ck ω

= eacutetant le nombre drsquoonde

En coordonneacutees spheacuteriques cette eacutequation srsquoeacutecrit

0sin1sin

sin11 2

2

2

222

2 =⎥⎦

⎤⎢⎣

⎡+

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart pk

rrrr

rr δθθθ

θθ (A4)

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques Drsquoapregraves [Bruneau 1983] elle admet des solutions agrave variables seacutepareacutees de la forme

)()()( δθ ΦΘ= rRp (A5) Ces solutions sont respectivement - pour la partie radiale une combinaison des fonctions de Bessel spheacuteriques de

premiegravere et seconde espegravece3 jn et nn

)()()( krBnkrAjrR nn += (A6) 3 Les fonctions de Bessel spheacuteriques de seconde espegravece sont eacutegalement appeleacutees fonctions de

Neumann

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 47

Ces fonctions sont deacutefinies comme suit

(A7)

Figure A2 - Fonctions de Bessel spheacuteriques pour les ordres 0 agrave 5 )(krjm

- pour la partie azimutale les fonctions )(θΘ

)sin()cos()( 21 θθθ ncnc +=Θ (A8) Eacutetant donneacute la deacutefinition de lrsquoangle Θ celui-ci doit neacutecessairement ecirctre de

peacuteriode 2π ))2()(( πθθ +Θ=Θ ce qui impose agrave n drsquoecirctre entier

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 48

- pour la partie polaire les fonctions de Legendre associeacutees )(sinδmnP

nm

nn

mn dPdP

)(sin)(sinsin)(sin

δδ

δδ = pour ⎩⎨⎧

gt=

nmavecnm 321

(A9)

ougrave les )(sinδnP sont les polynocircmes de Legendre de degreacute n en δsin deacutefinis par reacutecurrence

( )

11

22

1

0

sin)12()(sin)1(

1cos321)(sin

sin)(sin0)(sin

minus+ minus+=+

minus=

==

mmm mPPmPmet

P

PP

δδ

ϕδ

δδδ

(A10)

et de formule geacuteneacuterale

mm

m

mm dd

mP )1(sin

)(sin21)(sin 2 minus= δ

δδ (A11)

On peut appliquer aux fonctions )(sinδmnP la semi-normalisation de Schmidt

)(sin)()()(sin~ δεδ mnnmn P

nmnmP

+minus

= ougrave 10 =ε et 2=nε pour 1gen (A12)

En appariant les fonctions polaires et azimutales on deacutefinit les harmoniques

spheacuteriques de degreacute et drsquoordre)1(mnY 0gem 4 mnn lele0 et de degreacute et

drsquoordre (voir Figure A3)

)1(minusmnY 1gem

mnn lele1

)(sin~)sin()(

)(sin~)cos()()1(

)1(

δθδθ

δθδθ

mnmn

mnmn

PnY

PnY

=

=minus

(A13)

4 En geacuteneacuteral lorsque le degreacute et lrsquoordre ne sont pas eacutevoqueacutes conjointement on parle par abus de langage drsquoharmoniques drsquoordre m plutocirct que de degreacute m

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 49

soit

1)(sin

)()()12(2sin)(

)(sin)()()12(2cos)(

1)(sin)1()1()12(cos)(

)1(

)1(

1)1(

1

gt

⎪⎪⎩

⎪⎪⎨

+minus

+=

+minus

+=

=+minus

+=

minus

npourP

nmnmmnY

PnmnmmnY

npourPmmmY

mnmn

mnmn

mm

δθδθ

δθδθ

δθδθ

(A14)

La solution angulaire geacuteneacuterale srsquoeacutecrit alors sous la forme drsquoun deacuteveloppement sur

la base drsquoharmoniques spheacuteriques

( ) ( )sum minus

=minus+=Θ

1

1)1()1()( n

m mnmnmnmnn YBYBθ (A15) La solution geacuteneacuterale est alors la seacuterie de Fourier-Bessel

sum sum sum+infin

= = plusmn=

=0 0 1

)()( )()()(m

m

nmnmnm

m YBkrjikrpσ

σσ δθδθ (A16)

ougrave

intint⎪⎩

⎪⎨⎧

minusisin

isin

plusmnplusmn =

]2

2

[

[20[

)1()1( )()1()(

1

ππδ

πθ

δθδθ

S

mnm

mmn dSYpkrji

B (A17)

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 50

Tableau A1 - Expressions analytiques des harmoniques spheacuteriques pour les ordres 0 agrave 3

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 51

Figure A3 - Repreacutesentation des harmoniques spheacuteriques pour les ordres m = 0 agrave 3 Les

couleurs rouge et bleu indiquent respectivement des valeurs positives et neacutegatives

53

Annexe B

Compleacutements theacuteoriques sur le deacutecodage HOA

B1 Vecteur veacutelociteacute et vecteur eacutenergie Le vecteur veacutelociteacute est un indice de la direction apparente drsquoune source introduit

par Gerzon [Gerzon 1992] Il se calcule comme le rapport de la vitesse particulaire sur la pression acoustique

)()(

)()(1

δθδθ

δθδθ

ρ rprp

ki

rprv

cV nabla

minus=minus=rrr

(B1)

Dans le cas drsquoune onde plane le vecteur veacutelociteacute V

rest ainsi directement un

vecteur unitaire orienteacute vers la direction de provenance de lrsquoonde En geacuteneacuteralisant agrave une superposition drsquoondes planes en phase ou opposition de phase eacutemises par L haut-parleurs agrave eacutequidistance du point drsquoobservation on obtient la formule suivante

VVL

ll

L

lll

urg

ugV r

rr

==

sum

sum

=

=

1

1 (B2)

ougrave deacutesigne la direction du llur egraveme haut-parleur auquel est associeacute le gain gl et Vr Vur correspondent respectivement agrave la norme et agrave la direction du vecteur veacutelociteacute

Le vecteur eacutenergie est un autre indice de direction Il est deacutefinit par

EEL

ll

L

lll

urg

ugE r

rr

==

sum

sum

=

=

1

2

1

2

(B3)

Annexe B Compleacutements theacuteoriques sur le deacutecodage HOA 54

Il peut srsquointerpreacuteter comme une indication de la concentration de lrsquoeacutenergie ( ) et de sa direction moyenne de provenance (

Er

Eur ) On a toujours 1ltEr sauf dans le cas ougrave un seul haut-parleur contribue agrave la reconstruction (dans ce cas ) peut ecirctre consideacutereacute comme un indicateur de preacutecision de la localisation

1=Er Er

B2 Deacutecodages optimiseacutes La restitution la plus confortable drsquoun champ sonore veillera donc agrave maximiser

tout en essayant de garder le plus proche possible de 1 Lrsquooptimisation du deacutecodage consiste alors agrave multiplier chaque coefficient de la matrice de deacutecodage D (voir (111) par des gains calculeacutes drsquoapregraves des critegraveres drsquooptimisation

Er Vr

Ainsi le deacutecodage appeleacute max- maximise la norme du vecteur eacutenergie en

sacrifiant celle du vecteur veacutelociteacute puisqursquoon a dans ce deacutecodage (pour des configurations reacuteguliegraveres de haut-parleurs) Ce deacutecodage est donc avantageux par rapport au deacutecodage basique pour les hautes freacutequences ou dans le cas drsquoun auditoire eacutelargi Le deacutecodage in-phase va encore plus loin en cherchant agrave annuler complegravetement les contributions des haut-parleurs placeacutes agrave lrsquoopposeacute de la direction de provenance de lrsquoonde reproduite Ce critegravere est utile dans le cas drsquoune eacutecoute dans une position tregraves excentreacutee agrave laquelle on pourrait percevoir de faccedilon preacutedominante la contribution en opposition de phase drsquoun tel haut-parleur

Er

EV rr =

Ces diffeacuterents deacutecodages ont chacun des avantages et inconveacutenients Ainsi seul le

deacutecodage basique garantit = 1 le deacutecodage max- permet une preacutecision meilleure notamment en haute freacutequence et le deacutecodage in-phase est plus adapteacute agrave un auditoire plus large Jeacuterocircme Daniel [Daniel 2000] propose ainsi de changer le deacutecodage en fonction de la freacutequence et de lrsquoeacutetendue de la zone drsquoeacutecoute deacutesireacutee

Vr Er

Figure B1 - Deacutecodages les plus approprieacutes par sous-bande et en fonction de lrsquoeacutetendue de la

zone drsquoeacutecoute [Daniel 2000]

55

Annexe C

Analyse en composantes principales

C1 Espace des donneacutees Eacutegalement souvent appeleacutee transformeacutee de Karhunen-Loegraveve5 (TKL) lrsquoanalyse en

composantes principales (ACP) est une technique statistique de repreacutesentation drsquoinformation Introduite sur 2 variables par Pearson [Pearson 1900] elle a eacuteteacute eacutetendue par Hotelling [Hotelling 1933] Elle a pour but de caracteacuteriser des donneacutees drsquoun espace agrave N dimensions dans un sous-espace plus petit en minimisant les pertes drsquoinformation due agrave la projection crsquoest-agrave-dire en maximisant la variance projeteacutee Les donneacutees ainsi reacuteorganiseacutees deviennent indeacutependantes Les variables correacuteleacutees sont remplaceacutees par de nouvelles variables deacutecorreacuteleacutees et de variance maximale combinaisons lineacuteaires des variables initiales

Les donneacutees sont constitueacutees de n variables aleacuteatoires (dans notre cas des canaux)

et p reacutealisations ou individus (des eacutechantillons)

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

pn

p

ji

n

xx

x

xx

M

LLL

MOMNM

MLLM

MNMOM

LLL

1

111

(C1)

Ces donneacutees sont geacuteneacuteralement centreacutees et peuvent aussi ecirctre reacuteduites4 (on note

1x la moyenne de la variable et 1x )( 1xσ sa variance) Reacuteduire ou non le nuage de points (ie les p reacutealisations de la variable aleacuteatoire) est un choix de modegravele

5 Quelques rares sources mentionnent une diffeacuterence entre ACP et TKL en placcedilant celle-ci au

niveau du choix de la reacuteduction des donneacutees dans le cas dune ACP les donneacutees seraient centreacutees et reacuteduites alors qursquoelles seraient uniquement centreacutees pour une TKL

Annexe C Analyse en composantes principales 56

- si on ne reacuteduit pas le nuage une variable agrave forte variance pourrait tirer tout lrsquoeffet de lrsquoACP agrave elle

- si on reacuteduit le nuage une variable qui ne serait qursquoun bruit se retrouverait avec une variance apparente eacutegale agrave une variable informative

M est centreacutee

⎥⎥⎥

⎢⎢⎢

minusminusminus

minusminus=

npn

pi

ji

nn

xxxxxx

xxxxM

K

MM

K

11

11

11

ˆ (C2)

M~ est centreacutee et reacuteduite

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

minusminus

minus

minusminus

=

)()(

)(

)()(~

1

11

1

1

111

n

npn

pi

ij

i

n

nn

xxx

xxx

xxx

xxx

xxx

M

σσ

σ

σσ

K

MM

K

(C3)

On multiplie ensuite la matrice obtenue par sa transposeacutee pour obtenir - La matrice de covariance MMC t

vˆˆ sdot=

- La matrice de correacutelation MMC tr

~~ sdot= Ces matrices sont carreacutees (N x N) symeacutetriques et reacuteelles Elles sont donc

diagonalisables dans une base orthonormeacutee 6 Le principe de lrsquoACP est alors de trouver un axe u issu drsquoune combinaison lineacuteaire

des tel que le critegravere drsquoinertie du nuage autour de cet axe soit maximal Le critegravere drsquoinertie couramment utiliseacute est la variance Il faut donc trouver lrsquoaxe qui porte le maximum de variance crsquoest-agrave-dire lrsquoaxe u tel que la projection du nuage sur cet axe ait une variance maximale

nx

6 Nos donneacutees eacutetant ici des valeurs drsquoeacutechantillons elles sont par nature centreacutees et reacuteduites On

formera donc naturellement la matrice de correacutelation

C2 Diagonalisation 57

C2 Diagonalisation Pour alleacuteger lrsquoeacutecriture de la suite de cette partie nous consideacutererons que les

variables ont eacuteteacute centreacutees et si besoin reacuteduites et nous noterons ces variables

transformeacutees (ainsi

ix ix

iii xxx minuslarr ou bien )( i

iii x

xxxσ

minuslarr ) On fera de mecircme pour M

( ou bien MM ˆlarr MM ~larr ) et C ( vCC larr ou bien rCC larr ) La projection drsquoun eacutechantillon sur un axe u srsquoeacutecrit ix

uMxiu sdot=)(π (C4) La variance empirique de )( iu xπ vaut donc

uMMuxx ttiu

tiu sdotsdotsdot=sdot )()( ππ (C5)

Or on a vu que est diagonalisable dans une base orthonormeacutee donc

on peut noter P le changement de base associeacute et ∆ la matrice diagonale formeacutee de son spectre Ainsi

MMC t=

n

i 1)(λ PPMMC tt ∆==

)()()()( PuPuuPPuxx ttt

iut

iu sdot∆sdot=sdot∆sdot=sdotππ (C6) On pose v = Pu Chercher lrsquoaxe u qui maximise )( iu xπ revient donc agrave chercher le

vecteur v qui maximise ougravevvt ∆ )( 1 ndiag λλ K=∆ avec les iλ rangeacutes par ordre deacutecroissant Ce vecteur est trivialement le premier vecteur unitaire et on a alors

1λ=∆vvt

Ainsi le vecteur qui porte la plus grande part drsquoinertie du nuage est le premier

vecteur propre de C (premier par norme deacutecroissante) De mecircme le deuxiegraveme vecteur qui explique la plus grandelt part de lrsquoinertie restante est le deuxiegraveme vecteur propre de C Finalement la question de lrsquoACP se ramegravene agrave un problegraveme de diagonalisation de la matrice de correacutelation

C3 Code Matlab

function [vep vap] = pca(f N) f donneacutees N nombre de composantes agrave garder cor = f f formation de la matrice de correacutelation [vep vap] = eig(cor) calcul des vecteurs (vep) et valeurs (vap) propres [vap ind] = sort(diag(vap)) tri des valeurs propres par ordre croissant vap = flipud(vap) disposition inverse par ordre drsquoimportance vep = vep( flipud(ind)) classement en conseacutequence des vecteurs propres vep = vep( 1N) on ne garde que les N premiers vecteurs propres

Annexe C Analyse en composantes principales 58

59

Annexe D

Analyse en sous-bandes

D1 La transformeacutee de Fourier agrave court terme (TFCT) Pour affiner lrsquoanalyse les signaux sont donc deacutecoupeacutes en bandes de freacutequence par

TFCT La TFCT consiste agrave effectuer des transformeacutees de Fourier discregravetes sur des portions de signal fenecirctreacutees reacuteguliegraverement espaceacutees

On rappelle que la transformeacutee de Fourier drsquoun signal x(t) est deacutefinie (lorsque

lrsquointeacutegrale existe) par

int+infin

infinminus

minus= dtetxfX ftiπ2)()( (D1)

La transformeacutee de Fourier agrave temps discret (TFTD) drsquoun signal x(t) srsquoeacutecrit

sum+infin

minusinfin=

minus=n

fnienxfX π2)()( (D2)

La transformeacutee de Fourier discregravete (TFD) drsquoun signal discret x(k) est deacutefinie par

sum+infin

minusinfin=

minus=

n

Nkni

enxkXπ2

)()( (D3)

La TFCT discregravete est une TFD observeacutee sur une fenecirctre wa de taille N

summinus

=

minus+=

1

0

2)())(()(

N

n

Nnki

aaa enwtnxkXπ

ττ (D4)

ougrave )(taτ est lrsquoinstant drsquoanalyse

Annexe D Analyse en sous-bandes 60

Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT [Laroche 1995]

D2 Synthegravese par addition-recouvrement Lors de la synthegravese apregraves le deacutecoupage et lrsquoanalyse des fenecirctres on cherche agrave

reconstruire le signal temporel agrave partir de sa repreacutesentation freacutequentielle Pour cela on utilise la meacutethode OLA (overlap and add addition-recouvrement) qui consiste agrave prendre la TFCT inverse des spectres Xt puis agrave additionner les signaux obtenus apregraves les avoir multiplieacutes par une fenecirctre de pondeacuteration en les faisant se recouvrir partiellement

Le reacutesultat est donneacute par

sum=

minusminus=T

tsss tnxtnwnx

s1

))((~))(()(~ ττ τ (D5)

avec )()( tt as ττ = et summinus

=

=1

0

2))((~1)(~ N

k

Nkni

s ektXN

nxs

π

τ τ

Lors de la mise en œuvre de ce traitement il faut srsquoassurer drsquoecirctre en mesure de

reconstruire parfaitement un signal lorsqursquoaucune transformation ne lui est appliqueacutee Le critegravere de reconstruction parfaite condition suffisante est alors

sum=

=minusminusT

tasaa tnwtnw

11))(())(( ττ quelque soit n (D6)

D2 Synthegravese par addition-recouvrement 61

Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add [Laroche 1995]

Plusieurs paramegravetres sont agrave choisir avec soin Le premier drsquoentre eux est le type

de fenecirctre agrave utiliser Les diffeacuterentes options qui se preacutesentent agrave nous sont - la fenecirctre rectangulaire qui preacutesente dans son spectre le lobe principal le plus

eacutetroit mais des lobes secondaires non neacutegligeables - la fenecirctre de Hamming au lobe principal un peu plus large mais pour laquelle le

1er lobe secondaire se situe agrave -43 dB - la fenecirctre de Hann (ou cosinus sureacuteleveacute) qui ressemble agrave la preacuteceacutedente avec un

1er lobe secondaire plus fort mais une pente de 18 dB par octave pour les lobes suivants

- les fenecirctres de Blackman-Harris aux lobes secondaires tregraves bas mais au lobe principal plus large

Fenecirctre Lobe 2aire

(dB) Pente

(dBoct) Bande passante

agrave 6 dB (bins) Rectangulaire -13 -6 121 Triangulaire -27 -12 178

Hann -32 -18 200 Hamming -43 -6 181

Blackman-Harris 4 -92 -6 272

Tableau D1 - Caracteacuteristiques des principales fenecirctres drsquoanalyse [Harris 1978] Le meilleur compromis est donc dans notre contexte la fenecirctre de Hann ou celle

de Hamming

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 10: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

Chapitre 1 Ambisonics 4

Le B-format peut ecirctre vu comme une troncature au premier ordre de la deacutecomposition en seacuterie de Fourier-Bessel du champ sonore [Daniel 2000] Une troncature agrave un ordre plus eacuteleveacute (Higher Order Ambisonics) apporte alors agrave la reconstruction une meilleure qualiteacute tant en terme de preacutecision de lrsquoimage que de dimensions du sweet spot zone ougrave le champ original est restitueacute avec une toleacuterance donneacutee Cette zone tregraves petite pour lrsquoordre 1 (il faut veiller agrave se placer bien au centre du dispositif) est nous le verrons nettement eacutelargie aux ordres supeacuterieurs On atteint eacutegalement une discrimination angulaire plus fine Ces ordres supeacuterieurs eacutetant les termes suivants de la seacuterie de Fourier-Bessel une repreacutesentation HOA inclut les ordres infeacuterieurs constituant donc une repreacutesentation hieacuterarchique (ou scalable) du champ sonore

La chaicircne de traitement drsquoun systegraveme ambisonique se deacutecompose en plusieurs

eacutetapes (voir Figure 11) - lrsquoencodage spatial reacutealiseacute de maniegravere artificielle pour spatialiser une scegravene

syntheacutetique ou bien agrave partir de signaux naturels issus drsquoune structure multi-microphonique (voir Figure 12)

- une eacuteventuelle transformation des signaux HOA (compression ou

transformations lineacuteaires comme par exemple une rotation) - le deacutecodage spatial matriccedilage des signaux pour une diffusion adapteacutee au

dispositif drsquoeacutecoute

Figure 11 - Scheacutema global du principe de la technologie HOA [Moreau 2006]

11 Principe 5

Figure 12 - Prototype de microphone HOA drsquoordre 4 constitueacute de 32 capteurs omnidirectifs

reacutepartis sur une sphegravere en plastique rigide [Moreau 2006]

112 Repreacutesentation de scegravene sonore avec HOA La seacuterie de Fourier-Bessel (A16) en Annexe A) tronqueacutee agrave lrsquoordre M donne une

approximation de la repreacutesentation du champ sonore

sum sum sum= = plusmn=

=M

m

m

nmnmnm

mM YBkrjikrp

0 0 1)()()(

σ

σσ δθδθ (12)

La repreacutesentation drsquoordre M est composeacutee de signaux HOA en 3D

et

2)1( += MK12 += MK signaux HOA si on se contente du plan horizontal

Pour mesurer lrsquoerreur de reconstruction on peut utiliser le critegravere des moindres

carreacutes normaliseacute (NMSE pour Normalized Mean Square Error)

intint

intint minus=

S

SM

dSkrp

dSkrpkrpkre 2

2

)(

)()()(

δθ

δθδθ (13)

Dans le cas particulier drsquoune onde plane lrsquoerreur de reconstruction est

indeacutependante de lrsquoangle drsquoincidence et ne deacutepend que de lrsquoordre et du produit kr En rappelant que k est le nombre drsquoonde cfck πω 2== on srsquoaperccediloit que lrsquoerreur de reconstruction pour un ordre donneacute augmente quand on srsquoeacuteloigne du centre du systegraveme (r augmente) ou lorsque la freacutequence srsquoeacutelegraveve On remarque qursquoune erreur de 4 (-14 dB) est atteinte approximativement quand M = kr

Chapitre 1 Ambisonics 6

Figure 13 - Erreur de reconstruction drsquoune onde plane en fonction

de lrsquoordre M et du produit kr [Moreau et al 2006]

Figure 14 - Repreacutesentation dans le plan horizontal dans une zone de diamegravetre 1m de la

reconstruction drsquoune onde plane (agrave droite) pour plusieurs ordres et freacutequences Les niveaux de gris repreacutesentent la valeur de la pression acoustique Les courbes eacutetoileacutees indiquent la

limite des zones ougrave lrsquoerreur de reconstruction est infeacuterieure agrave 7 (-115 dB) [Moreau 2006]

12 Encodage et deacutecodage spatial 7

12 Encodage et deacutecodage spatial

121 Encodage spatial Drsquoun point de vue drsquoingeacutenieur du son lrsquoencodage spatial peut ecirctre vu comme un

panoramique drsquoamplitude Un preneur de son lrsquointerpreacutetera comme une capture par un jeu de microphones directifs coiumlncidents Un matheacutematicien verra plutocirct le lien avec la deacutecomposition en harmoniques spheacuteriques deacutecrite en Annexe A

Eacutetudions le cas drsquoune onde plane provenant de la direction )( pp δθ avec une

amplitude S Lrsquoexpression du champ de pression srsquoeacutecrit alors

γδθ cos)( jkrSekrp = (14)

soit encore

)(cos)()12()(0

γδθ mmm

m PkrjjmSkrp suminfin

=

+= (15)

ougrave γ deacutesigne lrsquoangle entre la direction (θ δ ) du point drsquoobservation et la direction

)( pp δθ de provenance de lrsquoonde Il vient ensuite

sum sumsum= plusmn=

infin

=

=m

nmnppmnm

m

m YYkrjjSkrp0 10

)()()()(σ

σσ δθδθδθ (16)

En identifiant cette eacutequation (16) avec la seacuterie de Fourier-Bessel (A16) nous

obtenons finalement lrsquoexpression de la transformeacutee de Fourier spheacuterique drsquoun champ de pression acoustique engendreacute par une onde plane [Moreau 2006]

)( ppmnmn YSB δθσσ = (17)

Les coefficients sont ainsi deacutefinis par la valeur des harmoniques spheacuteriques

dans la direction de provenance de lrsquoonde plane pondeacutereacutee par lrsquoamplitude

σmnB

S du signal transporteacute Ce sont ces coefficients qui constituent le signal ambisonique Des coefficients de normalisation ou de semi-normalisation sont ensuite appliqueacutes pour que les signaux soient drsquoeacutenergie moyenne eacutequivalente entre eux ( ) ou entre les diffeacuterents ordres ( ) (voir Annexe A Tableau A1)

DN 3α DSN 3αDSN 3α

DSN 3α Ces fonctions drsquoencodage peuvent ecirctre simplifieacutees dans le cas drsquoune restriction agrave 2

dimensions (plan horizontal) On ne conserve alors que 2 composantes par ordre celles qui deacutecrivent le plan horizontal crsquoest-agrave-dire veacuterifiant m = n Les coefficients de normalisation sont alors diffeacuterents et lrsquoangle δ est nul Les composantes restantes sont alors

Chapitre 1 Ambisonics 8

ordre notations eacutecriture 0 W 1

00B 1

X 111B θcos2

1 Y 1

11minusB θsin2

U 122B )2cos(2 θ

2 V 1

22minusB )2sin(2 θ

- 1mmB )cos(2 θm

m - 1minus

mmB )sin(2 θm Tableau 11 - Fonctions drsquoencodage ambisonique dans le plan horizontal

avec la convention de normalisation associeacutee (N2D) La figure suivante illustre lrsquoencodage spatial aux ordres 0 1 et 2 de 2 sources

placeacutees aux angles vθ et vθ dans le plan horizontal

ordres 0 et 1 ordre 2

Figure 15 - Encodage horizontal [Moreau et al 2006] Le coefficient (gain) appliqueacute agrave

chaque composante de chacune des 2 sources est donneacute par les intersections des flegraveches et des diagrammes des harmoniques

Comme on peut le voir sur cette figure un encodage au 1er ordre offre une

discrimination angulaire peu appuyeacutee alors que les 2 sources pourtant proches auront des coefficients tregraves diffeacuterents agrave lrsquoordre 2 (les points drsquointersection sont plus eacuteloigneacutes)

122 Deacutecodage spatial Lrsquoobjectif du deacutecodage est de restituer au mieux sur un systegraveme de diffusion

donneacute le champ sonore HOA Il faut ainsi calculer les signaux Sl agrave diffuser sur L haut-parleurs en fonction des composantes ambisoniques Ces σ

mnB L haut-parleurs peuvent ecirctre disposeacutes dans le plan horizontal ou dans un espace tridimensionnel Les deacutecodages les plus courants srsquoeffectuent sur une demi-sphegravere (cas 3D) ou un cercle (cas 2D) de

12 Encodage et deacutecodage spatial 9

haut-parleurs Crsquoest une opeacuteration matricielle qursquoon peut formaliser dans le cas drsquoun deacutecodage dans le plan horizontal par lrsquoeacutequation

BSC =sdot (18)

ougrave la matrice C contient les vecteurs harmoniques spheacuteriques associeacutes agrave chaque direction de haut-parleur et organiseacutes suivant ses lignes le vecteur S contient les signaux eacutemis par les L haut-parleurs et enfin le vecteur B contient les signaux HOA

⎟⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜⎜

=

⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜

=

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

=

10

100

2

1

1011

10

11111

111

10011

100

)()()(

)()()()(

M

mn

LLLMM

llmn

LL

LL

B

B

B

B

S

SS

S

YYY

YYYY

CM

M

M

L

MM

L

L

σσ

δθδθδθ

δθδθδθδθ

(19)

)( ll δθ repeacuterant la position du legraveme haut-parleur

Il faut donc estimer S connaissant B et C Le deacutecodage se reacutesume alors agrave un systegraveme de (M +1)2 (en 3D) ou 2M +1 (en 2D) eacutequations lineacuteaires agrave L inconnues On ne peut trouver de solution exacte que si le nombre de haut-parleurs est au moins eacutegal au nombre de signaux crsquoest-agrave-dire si L gt (M +1)2 (en 3D) ou 2M +1 (en 2D) Crsquoest en outre une condition neacutecessaire pour pouvoir avoir une reproduction homogegravene de la scegravene sonore

La matrice C nrsquoest pas neacutecessairement carreacutee et inversible une solution geacuteneacuterale

consiste agrave calculer lrsquoinverse geacuteneacuteraliseacutee de la matrice C noteacutee D encore appeleacutee pseudo-inverse de Moore-Penrose

BDS sdot= (110)

avec

1pinv( ) ( )t tD C C C C minus= = sdot sdot (111) D est appeleacutee matrice de deacutecodage BDS sdot= reacutesout le systegraveme (18) si les haut-

parleurs sont suffisamment nombreux L gt (M +1)2 (en 3D) ou 2M +1 (en 2D)) Srsquoils sont en outre disposeacutes sur une sphegravere (3D) ou un cercle (2D) de maniegravere eacutequidistante crsquoest-agrave-dire srsquoils sont les sommets drsquoun polyegravedre ou polygone reacutegulier ils preacuteservent alors la proprieacuteteacute drsquoorthonormaliteacute des harmoniques spheacuteriques Ceci se traduit par

Lt ILCC sdot=sdot (112)

ougrave IL est la matrice identiteacute de taille LLtimes On a alors

1pinv( ) tD CL

= = C (113)

Chapitre 1 Ambisonics 10

Cette proprieacuteteacute ne peut pas ecirctre matheacutematiquement veacuterifieacutee en 3D au-delagrave de lrsquoordre 2 autrement dit il nrsquoexiste pas de polyegravedre reacutegulier dont la position des sommets conserve strictement lrsquoorthonormaliteacute des harmoniques spheacuteriques

Visuellement le deacutecodage correspond agrave la reproduction du champ sonore tel qursquoil

aurait eacuteteacute capteacute par un ensemble de N microphones agrave directiviteacutes hyper-cardioiumldes tourneacutes chacun vers lrsquoun des haut-parleurs Leur directiviteacute serait drsquoautant plus preacutecise que lrsquoordre de reproduction est eacuteleveacute

Figure 16 - Prise de son virtuelle eacutequivalente agrave un encodage au 1er ordre et un deacutecodage

basique sur une disposition en 2D hexagonale [Moreau et al 2006] Le gain gl appliqueacute agrave chaque haut-parleur pour une direction de source virtuelle donneacutee

(en vert) est indiqueacute par la longueur des flegraveches et est reporteacutee aux points drsquointersection de la flegraveche verte et des diagrammes de directiviteacute

On peut remarquer que les diagrammes de directiviteacute sont tregraves larges par rapport

agrave lrsquoespacement angulaire des haut-parleurs Le 2nd ordre offrirait des directiviteacutes plus fines et donc une seacutelectiviteacute spatiale accrue Il faudrait alors bien sucircr davantage de haut-parleurs pour ne pas introduire des ldquotrousrdquo entre eux On remarque eacutegalement la preacutesence non neacutegligeable des lobes secondaires utiles pour la reconstruction du champ acoustique (notamment en basses freacutequences) mais qui peuvent ecirctre gecircnants dans certains cas par exemple lorsque lrsquoauditoire est large

Ce deacutecodage est appeleacute deacutecodage basique car il nrsquooptimise pas la restitution en

accord une quelconque hypothegravese et cherche uniquement agrave reproduire fidegravelement le champ acoustique Pour ameacuteliorer la restitution dans des cas critiques comme par exemple en-dehors du sweet spot (centre du dispositif) il faut optimiser le deacutecodage en reacuteduisant par exemple les lobes secondaires Ainsi le deacutecodage max-rE srsquoattache agrave maximiser lrsquoeacutenergie reccedilue de la provenance de la direction souhaiteacutee alors que le deacutecodage in-phase annule complegravetement ces lobes secondaires (voir Annexe B)

13 Critique de la technologie HOA 11

13 Critique de la technologie HOA

131 Bilan On a ainsi vu que la technologie HOA est une repreacutesentation intermeacutediaire du

champ de pression acoustique agrave mi-chemin entre la description directe du champ lui-mecircme et des signaux agrave restituer Cette technologie a de nombreux avantages compareacutee aux autres meacutethodes de reproduction de champ sonore (on trouvera notamment une eacutetude deacutetailleacutee des comparaisons entre HOA et la Wave Field Synthesis (WFS) dans [Daniel et al 2003]) elle permet drsquoeacuteviter le repliement spatial (voir paragraphe suivant) et permet ainsi une reconstruction dans une gamme de freacutequences tregraves large

La qualiteacute de la restitution ambisonique nrsquoest theacuteoriquement limiteacutee que part

lrsquoordre de troncature de la seacuterie de Fourier-Bessel agrave partir du moment ougrave le nombre de haut-parleurs est suffisant Ainsi un ordre tendant vers lrsquoinfini (et un nombre de haut-parleurs au moins aussi grand) permettra une reproduction quasi-parfaite sur lrsquoensemble de la zone drsquoeacutecoute

Mais les principaux avantages de cette technologie sont drsquoune part drsquoecirctre flexible

crsquoest-agrave-dire qursquoon peut agrave loisir adapter le nombre de signaux transmis au canal de transmission Une chute de deacutebit nrsquoentraicircnera pas de coupure de la transmission mais simplement une perte de preacutecision spatiale par lrsquoabandon des composantes drsquoordres les plus eacuteleveacutes Et drsquoautre part elle est indeacutependante du systegraveme de reproduction Ainsi un mecircme signal HOA pourra ecirctre diffuseacute sur toutes les configurations de haut-parleurs il suffira pour cela de calculer la matrice de deacutecodage associeacutee agrave ce systegraveme

132 Limites pratiques Dans la pratique cette technologie a toutefois des limitations Si lrsquoaliasing spectral

est eacuteviteacute on constate aux ordres les plus eacuteleveacutes lrsquoapparition drsquoun repliement spatial lors des enregistrements naturels agrave partir drsquoune freacutequence lieacutee agrave la distance maximale entre 2 capsules du microphone HOA (qui doit ecirctre au plus eacutegale agrave la moitieacute de la plus petite longueur drsquoonde drsquoapregraves Shannon) et au nombre total de capsules (qui doit ecirctre supeacuterieur agrave (M+1)2 M eacutetant lrsquoordre auquel on souhaite enregistrer)

Le repliement spectral repreacutesente la preacutesence importune dans des composantes

ambisoniques de sources qui de part leur position ne devraient qursquoapparaicirctre avec cette importance que dans les composantes drsquoordre plus eacuteleveacute Il est ducirc agrave lrsquointrusion des directiviteacutes drsquoordres supeacuterieurs dans les composantes harmoniques spheacuteriques estimeacutees Comme on le voit sur la Figure 17 les directiviteacutes ne sont pas des cylindres (au sens matheacutematique du terme la base nrsquoeacutetant pas forceacutement un cercle) mais varient en fonction de la freacutequence pour ressembler davantage dans le haut du spectre aux courbes de directiviteacute de lrsquoordre supeacuterieur Ainsi la directiviteacute de lrsquoordre 1 (2egraveme graphique) qui devrait ecirctre un 8 ressemble davantage au-dessus de 10 000 Hz agrave la figure de directiviteacute de lrsquoordre 4 (8 lobes)

Chapitre 1 Ambisonics 12

Figure 17 - Directiviteacutes theacuteoriques (en transparence) et reconstruites (grille) dans le plan horizontal pour des ondes planes horizontales Lrsquoaxe vertical correspond agrave la freacutequence et

les diffeacuterents graphiques aux ordres 0123 et 4 de gauche agrave droite Agrave lrsquoopposeacute la taille reacuteduite du microphone si elle permet de reacuteduire cet aliasing

spatial empecircche la capture des basses freacutequences aux ordres supeacuterieurs (voir 232) La reacutesolution spatiale des basses freacutequences sera donc moindre ce qui implique que en ajoutant lrsquoeffet du repliement en hautes freacutequences les ordres eacuteleveacutes capteacutes avec le micro HOA ne constituent qursquoune plage du spectre assez peu eacutetendue crsquoest cette seule plage qui pourra se targuer drsquoune excellente preacutecision spatiale

13

Chapitre 2

Analyser un contenu HOA

21 Objectifs La reacuteflexion a tout au long du stage eacuteteacute orienteacutee vers deux objectifs le premier

est dans un contexte de transmission de reconstruire une scegravene spatialiseacutee agrave partir du minimum drsquoinformations le deuxiegraveme appliqueacute agrave des ordres plus eacuteleveacutes est drsquoarriver agrave resyntheacutetiser les composantes de lrsquoordre immeacutediatement supeacuterieur

211 Restitution de la spatialisation agrave partir drsquoun downmix mono La premiegravere approche vise donc agrave reconstruire une scegravene spatialiseacutee agrave partir drsquoun

downmix le plus leacuteger possible Un downmix est une reacuteduction du nombre de canaux par fusion lrsquoexemple le plus simple eacutetant le passage drsquoun signal steacutereacuteo agrave un signal mono construit comme la demi-somme des composantes gauche et droite On tente dans cette approche de se restreindre au plus petit nombre de signaux possible un signal eacutetant tregraves coucircteux agrave transmettre en ajoutant parallegravelement agrave ce signal des informations compleacutementaires aidant agrave la reconstruction

Le cas extrecircme est la reacuteduction du flux agrave un signal mono Dans le cas

drsquoambisonics un signal mono comprenant toutes les sources est deacutejagrave preacutesent il srsquoagit de la composante omnidirectionnelle W Il faut donc extraire de la scegravene encodeacutee agrave un certain ordre M des informations permettant la reconstruction drsquoun ordre Mrsquo apregraves transmission Nous verrons que nous allons chercher agrave trouver les positions des sources gracircce agrave une analyse en composantes principales (ou ACP voir Annexe C) effectueacutee par sous-bandes (voir Annexe D)

212 Ameacutelioration de la preacutecision spatiale La deuxiegraveme piste suivie a pour but de reconstituer un ordre ambisonique non

transmis On pourrait qualifier cette approche drsquoupmix ambisonique car elle vise agrave reconstruire un ordre manquant En effet le format ambisonique eacutetant flexible il est bien

Chapitre 2 Analyser un contenu HOA 14

adapteacute agrave la transmission Ainsi si on souhaite transmettre une scegravene encodeacutee agrave lrsquoordre 2 dans le plan horizontal il faudra un canal drsquoun deacutebit minimum (si lrsquoon prend lrsquohypothegravese de pas vouloir compresser les signaux) de 471 Mos Un canal plus petit (par exemple 34 Mos) ne permettra theacuteoriquement de transmettre qursquoun ordre 1 Mais lrsquoanalyse des signaux peut permettre de deacuteterminer les positions des sources agrave partir desquelles on peut syntheacutetiser des composantes du 2nd ordre approchant les composantes drsquoorigine On pourrait mecircme imaginer pouvoir syntheacutetiser un ordre qui nrsquoavait pas eacuteteacute encodeacute agrave lrsquoorigine

Pour cela il est neacutecessaire de deacuteterminer les positions des sources preacutedominantes

dans le champ sonore pour piloter leur encodage spatial aux ordres supeacuterieurs et arriver agrave la synthegravese drsquoune repreacutesentation de reacutesolution spatiale accrue Il srsquoagit dans le mecircme temps drsquoisoler au mieux les signaux associeacutes agrave ces diffeacuterentes sources avant de leur appliquer lrsquoopeacuteration drsquoencodage on se rapproche donc drsquoun problegraveme de seacuteparation de sources

Pour parvenir agrave trouver ces positions deux meacutethodes ont eacuteteacute testeacutees La premiegravere

consiste comme preacuteceacutedemment agrave appliquer en sous-bandes une analyse en composantes principales La seconde implique la formation de directiviteacutes agrave partir des vecteurs propres de la matrice de correacutelation utiliseacutee dans cette analyse

Lrsquoanalyse en composantes principales ou ACP (voir Annexe C) est donc

largement privileacutegieacutee dans nos approches Elle permet en effet tregraves facilement drsquoextraire des informations preacutecises de signaux correacuteleacutes Pour justifier ce choix une autre meacutethode reacutecente a eacutegalement eacuteteacute testeacutee et compareacutee agrave lrsquoACP (voir 11)

22 Principe de lrsquoextraction drsquoinformation spatiale avec une ACP

221 Information spatiale

Nous avons donc tout drsquoabord testeacute lrsquoanalyse en composantes principales sur des

signaux HOA Nous avons choisi dans un premier temps de limiter lrsquoanalyse aux composantes horizontales du premier ordre W X et Y avant de lrsquoeacutetendre agrave la 3egraveme dimension avec Z

Dans un premier test les signaux HOA sont analyseacutes par une ACP dans leur

inteacutegraliteacute LrsquoACP est appliqueacutee sur les signaux X et Y qui contiennent lrsquoinformation spatiale En effet X et Y correspondent aux signaux qui seraient capteacutes par des microphones agrave figure en 8 placeacutes sur lrsquoaxe avant-arriegravere et gauche-droite respectivement

La Figure 21 montre la correacutelation entre X et Y dans le cas drsquoun bruit blanc capteacute

par le microphone ambisonique Les points ne sont pas exactement aligneacutes du fait des artefacts inheacuterents agrave la prise de son (reacuteflexions sur les parois approximations du microphone etc)

22 Principe de lrsquoextraction drsquoinformation spatiale avec une ACP 15

Figure 21 - Y en fonction de X dans le cas drsquoun bruit blanc enregistreacute placeacute agrave 30deg

On remarque que le nuage est eacutetireacute dans la direction de provenance du son indiqueacutee par la flegraveche en pointilleacutes verts

222 Application de lrsquoanalyse en composantes principales La 1egravere composante issue de lrsquoACP appliqueacutee dans le plan (X Y) pointe dans la

direction dans laquelle X et Y ont la plus grande correacutelation Or comme X contient lrsquoinformation placeacutee sur lrsquoaxe avant-arriegravere et Y lrsquoinformation de lrsquoaxe gauche-droite cette direction est directement la direction de la source Par exemple un son situeacute droit devant dans lrsquoaxe (agrave 0deg) aura une composante Y nulle et par conseacutequent les eacutechantillons seront dans le plan tous disposeacutes sur lrsquoaxe horizontal LrsquoACP prendra donc naturellement cet axe comme 1er vecteur propre et il pointe bien vers la position de la source De mecircme un son situeacute agrave 135deg ( π28

3 times rad) aura la proprieacuteteacute Y = -X Les eacutechantillons seront donc placeacutes sur la 2egraveme bissectrice qui fait avec lrsquoaxe Y=0 un angle de 135deg (voir Figure 22)

Figure 22 - Y en fonction de X dans le cas drsquoun son placeacute artificiellement dans la direction

indiqueacutee par la flegraveche en pointilleacutes verts agrave 0deg (agrave gauche) et 135deg (agrave droite)

Chapitre 2 Analyser un contenu HOA 16

Lrsquoanalyse de X et Y ne permet cependant de deacuteterminer lrsquoangle qursquoagrave π pregraves il reste une indeacutetermination (on deacutetermine la direction drsquoun axe qursquoil reste agrave orienter) Pour lever cette ambiguiumlteacute on integravegre W agrave lrsquoanalyse car cette composante pourtant omnidirectionnelle et donc deacutepourvue drsquoinformation spatiale apporte une reacutefeacuterence pour les phases Ainsi notre son placeacute agrave 135deg veacuterifiait (aux eacuteventuels coefficients de normalisation pregraves) Y = -X = W alors qursquoun son placeacute agrave 135 - 180 = -45deg aurait la proprieacuteteacute Y = -X = -W

Pour prendre en compte W dans lrsquoanalyse on peut comparer directement les

phases de ces 3 canaux Algorithmiquement on ramegravene lrsquoangle trouveacute agrave son modulo π2 puis on deacutetermine le vrai cadran par comparaison des phases de W X et Y crsquoest-agrave-dire en comparant le signe des produits W X et W Y Ainsi W X gt 0 signifie que W et X sont en phase et reacuteciproquement (voir Figure 23)

W X lt 0 W Y gt 0

W X gt 0 W Y gt 0

W X lt 0 W Y lt 0

W X gt 0 W Y lt 0

minusπ2

π

π2

0

Figure 23 - Signes de W X et W Y en fonction du cadran On peut eacutegalement inteacutegrer W agrave lrsquoanalyse en appliquant lACP sur le triplet (X Y

W) Le problegraveme drsquoambiguiumlteacute est ainsi reacutesolu la direction rechercheacutee eacutetant celle du vecteur principal dans le demi-espace W gt 0 projeteacutee sur le plan (X Y) Cette meacutethode srsquoavegravere plus robuste et surtout plus geacuteneacuteralisable agrave des ordres plus eacuteleveacutes

Cette analyse permet donc de deacuteterminer la position drsquoune source unique Pour

pouvoir seacuteparer plusieurs sources nous avons appliqueacute lrsquoACP par sous-bandes en supposant que les sources nrsquoont pas des supports freacutequentiels strictement identiques Le principe de cette analyse en sous-bandes est deacuteveloppeacute en Annexe D

23 Meacutethodologie

231 Construction de scegravenes artificielles Pour tester les algorithmes impleacutementeacutes nous avons ducirc creacuteer des scegravenes sonores

spatialiseacutees au format HOA Plusieurs types de scegravenes ont eacuteteacute utiliseacutes de complexiteacutes diffeacuterentes Les premiegraveres ont eacuteteacute des scegravenes virtuelles syntheacutetiseacutees avec Matlab Les premiegraveres scegravenes simplissimes ne comportait qursquoune sinusoiumlde ou un bruit blanc fixe placeacute dans le plan horizontal Puis pour tester lrsquoanalyse par sous-bandes ont eacuteteacute creacuteeacutes des sons polyphoniques composeacutes de 2 sinusoiumldes tout drsquoabord puis de sons complexes (syntheacutetiseacutes par synthegravese FM) dans des gammes freacutequentielles distinctes ou se

23 Meacutethodologie 17

chevauchant Enfin ces sons ont eacuteteacute rendus mobiles en faisant varier leur position dans le temps

Nous avons pu ainsi constater agrave lrsquoaide des sons fixes et de supports freacutequentiels

distincts la preacutecision de lrsquoanalyse et avec les sons mobiles et mecircleacutes sa robustesse Nous nous sommes limiteacutes sous Matlab agrave la geacuteneacuteration de 2 sons simultaneacutes et du 1er ordre et un autre outil Plogue Bidule a eacuteteacute utiliseacute pour composer des scegravenes plus complexes

Bidule est un studio modulaire virtuel ressemblant agrave MAXMSP Des plugins ont

eacuteteacute deacuteveloppeacutes agrave France Teacuteleacutecom pour permettre de manipuler des signaux HOA Ainsi des scegravenes complexes ont pu facilement ecirctre syntheacutetiseacutees agrave des ordres eacuteleveacutes Des scegravenes agrave 3 et 4 sources fixes ou dont 1 source mobile ont eacuteteacute reacutealiseacutees agrave partir de voix deacutemixeacutees placeacutees dans le plan horizontal ou en 3 dimensions

Ces scegravenes eacutetant artificielles elles sont en un sens ideacuteales ne contiennent aucun

signal reacuteverbeacutereacute (effet de salle) ni diffracteacute (par un micro) lrsquoencodage est fait sans artefacts les ondes sont consideacutereacutees comme planes et ont donc une direction bien deacutefinie Si on est ici bien loin de la vraie vie le gros avantage des scegravenes artificielles est qursquoon connaicirct preacuteciseacutement agrave chaque instant la position des sources et qursquoon peut ainsi veacuterifier le reacutesultat de lrsquoanalyse

Figure 24 - Interface graphique du logiciel Bidule avec agrave droite les controcircles des encodeurs

et deacutecodeurs HOA creacuteeacutes agrave France Teacuteleacutecom

Chapitre 2 Analyser un contenu HOA 18

232 Exploitation drsquoenregistrements naturels Une fois des reacutesultats convaincants obtenus avec des scegravenes virtuelles des

enregistrements naturels ont eacuteteacute analyseacutes Ces scegravenes ont eacuteteacute enregistreacutees gracircce au prototype de micro HOA du 4egraveme ordre deacuteveloppeacute agrave France Teacuteleacutecom (voir Figure 12) Ce processus implique des diffeacuterences notables avec un encodage virtuel

Le prototype de microphone contraint en effet agrave quelques compromis pour

optimiser des critegraveres incompatibles La taille du microphone reacutesulte drsquoun compromis entre la preacutecision drsquoestimation des composantes en basses freacutequences qui neacutecessite une taille eacuteleveacutee et la minimisation de lrsquoaliasing spatial qui ne peut ecirctre eacuteviteacute qursquoavec des capsules tregraves proches les unes des autres Leur disposition est eacutegalement irreacuteguliegravere il nrsquoexiste en fait aucune faccedilon de disposer reacuteguliegraverement plus de 20 points sur une sphegravere La configuration qui avait eacuteteacute retenue par les concepteurs [Moreau 2006] est la ldquomoins irreacuteguliegravere possiblerdquo au sens de la preacuteservation de lrsquoorthonormaliteacute des harmoniques spheacuteriques les 32 capsules sont reacuteparties sur une sphegravere de 35 cm de rayon selon un Pentaki-dodeacutecahegravedre polyegravedre semi-reacutegulier dual de lrsquoicosaegravedre tronqueacute (ballon de football)

Ces artefacts sont donc inheacuterents agrave lrsquoutilisation drsquoun reacuteseau de microphones Mais

le monde reacuteel pose eacutegalement des problegravemes deacutelicats La complexiteacute des modes de rayonnement drsquointeraction avec lrsquoenvironnement reacuteclame lrsquointroduction de modegraveles drsquoencodage beaucoup plus complexes que le cas drsquoune onde plane en champ libre et rend lrsquoinformation spatiale moins limpide et univoque au sein de la scegravene encodeacutee (enregistreacutee) en comparaison avec une scegravene virtuelle Les sources ne sont ainsi plus ponctuelles mais eacutetendues elles ne sont plus agrave lrsquoinfini mais agrave une distance finie du microphone (les ondes reccedilues ne sont donc plus planes) En outre chaque source en se reacutefleacutechissant sur les parois et les diffeacuterents objets de la salle creacutee une multitude de sources secondaires Il est enfin souvent difficile de connaicirctre avec preacutecision la position drsquoune source dans lrsquoespace lors drsquoun enregistrement

Des enregistrements en chambre sourde ont eacuteteacute reacutealiseacutes pour se passer des

reacuteflexions de lrsquoenvironnement Afin de connaicirctre avec preacutecision la position de la source un haut-parleur diffusant un bruit blanc nous avons placeacute le microphone sur une table tournante commandeacutee par un plug-in sous Plogue Bidule

233 Visualisations des reacutesultats Lrsquoobservation des reacutesultats a eacuteteacute effectueacutee de plusieurs maniegraveres visuellement et

par lrsquoeacutecoute Les graphiques eacutetant plus commodes crsquoest par cette voie que les premiers essais eacutetaient conclus Plusieurs types de graphiques ont eacuteteacute produits deacutecrivant des paramegravetres diffeacuterents

Les repreacutesentations temps-freacutequence permettent de repreacutesenter une variable agrave 1

dimension sous Matlab Cette voie a eacuteteacute suivie pour visualiser les paramegravetres extraits de chaque sous-bande de chaque fenecirctre notamment les angles lrsquoeacutenergie et la pertinence Malheureusement Matlab ne permet pas de repreacutesenter sur le mecircme graphique une 4egraveme dimension sous la forme drsquoune 2egraveme dimension colorimeacutetrique (on prend geacuteneacuteralement la

23 Meacutethodologie 19

saturation) Cette dimension suppleacutementaire aurait permis de repreacutesenter simultaneacutement les angles et leur pertinence

Figure 25 - Repreacutesentation

et de lrsquoespace col

Pour repreacutesenter s

drsquoabandonner une dimensipouvoir repreacutesenter danrepreacutesenteacutees soit par le niv

Figure 26 - Repreacutesentationdeacutecrite en 332 (en absciss

est repreacutesenteacutee agrave gauc

234 Diffeacuterents modes La visualisation est

indispensable pour veacuterifiesont possibles de ceux-cainsi reconstitueacutee agrave partir d

1 W+Y+02X pour le c

π 0 minusπ

de la table des couleurs dite HSV de Matlab (lineacuteaire agrave gauche) orimeacutetrique HSL (Hue Saturation Luminance agrave droite)

imultaneacutement angles et pertinence il eacutetait donc neacutecessaire on Crsquoest le deacutecoupage freacutequentiel qui a eacuteteacute mis de cocircteacute pour s un plan temps-angles les pertinences Celles-ci sont eau de gris des points soit par leur taille

de la pertinence des angles de la scegravene agrave 4 sources dont 1 mobile e les trames en ordonneacutees les angles en degreacute) La pertinence he par lrsquointensiteacute du bleu et agrave droite par la taille des points

drsquoeacutecoute

un indice preacutecis de reacutesultat mais lrsquoeacutecoute est tout de mecircme r la qualiteacute globale de la synthegravese Plusieurs modes drsquoeacutecoute i lrsquoeacutecoute au casque est la plus aiseacutee Une pseudo-steacutereacuteo est es signaux du 1er ordre1 pour restituer les scegravenes restreintes au

anal gauche et W-Y+02X pour le canal droit

Chapitre 2 Analyser un contenu HOA 20

plan horizontal Pour plus de preacutecision agrave la restitution ou pour des scegravenes en 3D et sans perdre la faciliteacute drsquoune eacutecoute personnelle au casque on peut appliquer des filtres HRTF (Head-Related Transfert Function) pour une reproduction binaurale

Pour appreacutecier pleinement la spatialisation la diffusion sur un systegraveme multi

haut-parleurs est indispensable Deux systegravemes sont installeacutes dans le laboratoire de France Teacuteleacutecom un systegraveme 51 et un systegraveme circulaire de 48 haut-parleurs Ces systegravemes installeacutes dans des studios insonoriseacutes offrent une grande qualiteacute drsquoeacutecoute qui permet de repeacuterer les deacutefauts mecircme minimes de la synthegravese

21

Chapitre 3

Description des analyses

31 Deacutetermination des directions principales

311 Base des algorithmes Nous avons deacuteveloppeacute plusieurs algorithmes reacutepondant aux diffeacuterents objectifs

deacutecrits plus haut Chacun drsquoeux possegravede des particulariteacutes leur permettant de reacutepondre agrave ces objectifs mais on trouve neacuteanmoins une partie commune Ainsi toutes les analyses reposent sur le mecircme modegravele drsquoapplication drsquoune ACP par sous-bandes dont voici le scheacutema geacuteneacuteral

Figure 31 - Scheacutema geacuteneacuteral drsquoanalyse

Les signaux en entreacutee sont les composantes HOA W X et Y dans la plupart des

cas mais peuvent ecirctre eacutegalement des composantes drsquoordre plus eacuteleveacute (voir 11) Sur le fenecirctrage jouent plusieurs paramegravetres comme la taille de la fenecirctre ou encore le pourcentage de recouvrement entre elles Nous avons choisi une fenecirctre en racine de la fenecirctre de Hanning crsquoest-agrave-dire une arche de sinusoiumlde (voir eacutequation (D7) en Annexe D) avec un recouvrement de 50 ce qui veacuterifie le critegravere de reconstruction parfaite (D6) Le filtrage est pour des raisons de rapiditeacute de calcul reacutealiseacute dans le domaine freacutequentiel par une simple multiplication avant de repasser en temporel pour appliquer lrsquoACP

Le banc de filtre utiliseacute est un banc inspireacute des filtres ERB Les filtres ERB

(Equivalent Regular Bandwidth) sont des filtres imitant le comportement de seacuteparation freacutequentielle de lrsquooreille humaine plus preacutecise en basse freacutequence Les filtres utiliseacutes ici ne sont pas directement des filtres ERB le systegraveme nrsquoa pas drsquointeacuterecirct particulier agrave essayer de copier le fonctionnement de lrsquooreille humaine Ces filtres ont eacuteteacute adapteacutes au problegraveme en

Chapitre 3 Description des analyses 22

srsquoassurant en particulier de la finesse des bandes permettant la meilleure discrimination des diffeacuterentes sources crsquoest-agrave-dire autour des fondamentales usuelles (200-1000 Hz) et des harmoniques Les freacutequences aigueumls sont bien discrimineacutees par les filtres ERB (relativement agrave la gamme crsquoest-agrave-dire en eacutechelle logarithmique) le deacutecoupage a donc surtout eacuteteacute densifieacute entre 200 et 800 Hz par rapport aux bandes ERB

Figure 32 - Filtres utiliseacutes inspireacutes des filtres ERB repreacutesenteacutes lineacuteairement (en haut)

et sur une eacutechelle logarithmique (en bas) Les reacutesultats de lrsquoACP sont donc avec cette meacutethode les angles des sources

trouveacutees dans chaque sous-bande ainsi que pour chacun drsquoeux un critegravere de pertinence calculeacute en fonction de lrsquoeacutenergie de la sous-bande dans une fenecirctre donneacutee et de la norme relative de la premiegravere composante de lrsquoACP (voir 342) Les autres vecteurs propres peuvent ecirctre utiliseacutes pour extraire davantage drsquoinformations et mecircme des signaux deacutecorreacuteleacutes comme on le verra au paragraphe 35 mais lrsquoanalyse semble alors moins robuste Srsquoen tenir aux informations donneacutees par la composante principale est un gage de pertinence suppleacutementaire

Ces reacutesultats concernent donc les sources preacutedominantes ou principales mais

laissent de cocircteacute un certain nombre drsquoeacuteveacutenements sonores agrave consideacuterer

312 Traitement du champ reacutesiduel Le champ reacutesiduel regroupe en quelque sorte tout ce qui nrsquoest pas une source

principale Il inclut donc les reacuteflexions et la reacuteverbeacuteration de la piegravece mais aussi les bruits parasites occasionnels ou continus (ventilation etc) Ces bruits ou eacutechos nrsquoont pas de direction de provenance assez distincte pour pouvoir ecirctre mesureacutee preacuteciseacutement Le champ reacutesiduel est eacutegalement composeacute du champ diffus La notion de champ diffus est couramment utiliseacutee mais rarement preacuteciseacutement deacutefinie On trouve dans la litteacuterature des deacutefinitions diverses lrsquoune drsquoelles preacutecisant qursquoil serait un ensemble drsquoeacuteveacutenements sonores proches en temps et provenant de directions eacutequiprobables

Les algorithmes proposeacutes traitent correctement les sources principales mais le

champ reacutesiduel est laisseacute de cocircteacute Il est pourtant tregraves important pour lrsquoimmersion du sujet dans la scegravene une scegravene deacutepourvue de champ sonore sera perccedilue comme artificielle ce qui nuit agrave la perception drsquoespace On sera par exemple davantage conscients drsquoecirctre au centre drsquoun dispositif expeacuterimental et moins sensibles aux variations de profondeur et de perspectives

31 Deacutetermination des directions principales 23

Neacuteanmoins il faut relativiser lrsquoimportance de ce champ reacutesiduel il nrsquoest pas utile pour la localisation des sources principales et ne caracteacuterise que lrsquoenvironnement drsquoenregistrement En outre le champ reacutesiduel qui provient souvent de directions floues et notre but nrsquoest pas de les preacuteciser artificiellement Il nrsquoest degraves lors geacuteneacuteralement pas utile de le transmettre aux ordres eacuteleveacutes

Ainsi certains auteurs [Merimaa and Pulkki 2005] ont choisi de recreacuteer lors drsquoune

synthegravese un champ diffus artificiel baseacute sur une reacuteponse impulsionnelle de salle calculeacutee agrave lrsquoavance Lrsquoavantage est une immersion un enveloppement complets lrsquoinconveacutenient est que lrsquoambiance ainsi recreacuteeacutee est fictive et arbitraire et en outre complegravetement indeacutependante de lrsquoambiance initiale en laissant notamment de cocircteacute les sources secondaires

Nous proposons dans nos algorithmes de ne pas syntheacutetiser le champ diffus aux

ordres eacuteleveacutes mais de nous contenter de la description du champ reacutesiduel fourni par les ordres transmis (1er ordre dans nos exemples) Nous nous limiterons donc agrave preacuteciser par la synthegravese des ordres supeacuterieurs les positions des sources principales

32 Extension agrave la 3D Nous avons pour le moment eacutevoqueacute le cas de repreacutesentations de champ sonore agrave

2 dimensions crsquoest-agrave-dire issus de sources placeacutees dans le plan horizontal Mais certaines repreacutesentations comportent eacutegalement des composantes verticales Pour analyser ces signaux en 3 dimensions il faut inteacutegrer la composante Z On effectue alors simplement une ACP sur X Y Z et W Le 1er vecteur propre sera alors bien dirigeacute dans lrsquoespace (X Y Z) dans la direction de la source lrsquoambiguiumlteacute de frac12 espace eacutetant leveacutee par W

Lrsquoalgorithme est alors complegravetement similaire agrave celui analysant des signaux en 2

dimensions Des tests ont eacuteteacute reacutealiseacutes agrave partir de signaux syntheacutetiques pour lesquels les positions des sources eacutetaient connues pour des raisons pratiques aucune scegravene sonore reacuteelle en 3 dimensions nrsquoa pu ecirctre enregistreacutee avec une connaissance initiale preacutecise des positions des sources

Les visualisations et les eacutecoutes eacutetant plus deacutelicates en 3D et lrsquoextension agrave la 3D

eacutetant immeacutediate nous avons donc concentreacute nos efforts sur lrsquoanalyse de scegravenes en 2D En outre en lrsquoabsence de dispositif spheacuterique ou heacutemispheacuterique de haut-parleurs le seul moyen agrave notre disposition pour eacutecouter une scegravene 3D est lrsquoeacutecoute binaurale crsquoest-agrave-dire au casque avec des fonctions de transfert de tecircte (HRTF) relativement bien adapteacutees agrave lrsquoauditeur

33 Analyse aux ordres supeacuterieurs

331 Description Afin drsquoameacuteliorer la preacutecision de lrsquoanalyse nous avons essayeacute drsquoappliquer une ACP

sur des signaux ambisoniques drsquoordre plus eacuteleveacute (signaux HOA) dans le plan horizontal Deux meacutethodes ont eacuteteacute essayeacutees

Chapitre 3 Description des analyses 24

La premiegravere consiste agrave appliquer une ACP agrave 3 dimensions successivement sur les composantes X Y W (ordre 1 et 0) puis U V W (ordre 2 et 0) et ainsi de suite crsquoest-agrave-dire (en utilisant la notation geacuteneacuterale) sur les composantes et W (ordre m et 0) Les reacutesultats de ces analyses (les directions des 1

)1(0mY )1(

0minus

mYegraveres composantes) sont ensuite regroupeacutees

lrsquoanalyse de lrsquoordre 1 fournissant des reacutesultats modulo 2π lrsquoanalyse de lrsquoordre 2 des reacutesultats plus preacutecis mais modulo π et plus geacuteneacuteralement lrsquoanalyse de lrsquoordre m permettant de trouver des angles modulo mπ2

La limite de cette approche se perccediloit lors de la fusion des reacutesultats les angles

trouveacutes agrave un ordre eacuteleveacute sont plus preacutecis dans des bandes de freacutequences eacuteleveacutees mais la limitation theacuteorique de ces signaux HOA dans les basses freacutequences font que lrsquoanalyse de lrsquoordre 1 reste la plus pertinente dans les premiegraveres bandes Parvenir agrave deacuteterminer agrave partir de quelle freacutequence on peut faire davantage confiance agrave lrsquoordre n+1 qursquoagrave lrsquoordre n nrsquoest pas aiseacute et cette limite provoque des aberrations dans les angles trouveacutes Une source unique pourra par exemple ecirctre interpreacuteteacutee par lrsquoalgorithme des k-moyennes (voir 341) comme 2 sources une en hautes freacutequences et une en basses freacutequences les 2 eacutetant trouveacutes agrave 2 angles diffeacuterents chaque angle relevant drsquoun ordre analyseacute diffeacuterent

La deuxiegraveme meacutethode consiste pour eacuteviter cette fusion des reacutesultats agrave effectuer

une seule ACP sur les composantes U V X Y et W Cette meacutethode souffre drsquoune tregraves grande complexiteacute algorithmique pour une ameacutelioration de la preacutecision peu sensible En effet si cette meacutethode permet drsquoobtenir des reacutesultats plus preacutecis dans certaines bandes de freacutequences elle est sensible aux deacutefauts et les limites des ordres supeacuterieurs (lrsquoabsence de basses freacutequences entre autres) perturbent lrsquoanalyse en composantes principales

332 Illustration sur une scegravene virtuelle La scegravene preacutesenteacutee ici est une scegravene artificielle crsquoest-agrave-dire composeacutee de sons

placeacutes artificiellement agrave diverses positions Elle a une dureacutee totale de 135 s et comporte 4 sources positionneacutees dans le plan horizontal une guitare placeacutee agrave 45deg une basse agrave -70deg une batterie agrave 110deg et une voix feacuteminine qui effectue continucircment un tour complet dans le sens indirect en partant de lrsquoarriegravere (elle passe donc successivement par les positions 180deg 90deg 0deg -90deg et -180deg) La guitare et la batterie srsquoarrecirctent peu avant la fin de la scegravene (12egraveme seconde au 910egraveme du son approximativement)

Figure 33 - Position des sources de la scegravene de test agrave 4 sources dont 1 mobile

33 Analyse aux ordres supeacuterieurs 25

Figure 34 - Angles drsquoune scegravene virtuelle ayant 1 source mobile et 3 sources fixes

(deacutecrite en 332) trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 Pour chaque trame (en abscisse) 20 angles (1 par bande en ordonneacutee et en degreacutes) sont

reporteacutes le diamegravetre du point correspondant agrave un critegravere de pertinence (voir 342)

Figure 35 - Angles de la mecircme scegravene trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 2 Reacutesultats modulo π reacutepliqueacutes pour faciliter la comparaison avec la figure preacuteceacutedente On remarque que les lignes sont plus nettes qursquoil y a moins drsquoangles aberrants et que

les angles corrects sont plus marqueacutes (ils sont deacutetermineacutes comme plus pertinent)

Chapitre 3 Description des analyses 26

20

0

20

0

20

0

Figure 36 - Angles drsquoune scegravene reacuteelle constitueacutee drsquoun bruit parcourant le cercle trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 (en haut) 0 et 2 (au milieu) et 0 et 4 (en bas) Le

numeacutero de trame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On retrouve qursquoune limitation des ordres HOA supeacuterieurs issus drsquoun enregistrement

microphonique est la restitution des basses freacutequences

34 Traitement des donneacutees

341 Algorithme des k-moyennes Agrave lrsquoissue de lrsquoanalyse en composantes principales on reacutecupegravere avec la premiegravere

des meacutethodes exposeacutees au chapitre preacuteceacutedent des angles correspondants aux positions des sources preacutedominantes agrave raison drsquoune valeur par fenecirctre et par bande de freacutequence Il faut agrave partir de ces donneacutees parvenir agrave isoler les sources crsquoest-agrave-dire agrave deacuteterminer quels sont les angles pertinents et examiner quels sont ceux qui agrave une certaine toleacuterance pregraves sont preacutesents dans plusieurs bandes de freacutequence etou plusieurs fenecirctres temporelles

Pour pouvoir exploiter ces donneacutees spatiales nous avons utiliseacute lrsquoalgorithme des

k-moyennes (ou k-means) [MacQueen 1967] sur les angles pondeacutereacutes par des critegraveres de pertinence Cet algorithme fonctionne de la maniegravere suivante

Initialisation choix de k barycentres (les k moyennes) Reacutepeacuteter Associer chaque eacuteleacutement au barycentre le plus proche Recalculer les positions des barycentres Jusqursquoagrave ce que les barycentres soient stables (ou au bout de t iteacuterations)

34 Traitement des donneacutees 27

Lrsquoavantage de cet algorithme est drsquoecirctre peu glouton puisqursquoil converge en O(tkn) ougrave t est le nombre drsquoiteacuterations k le nombre de centres et n le nombre de points (geacuteneacuteralement on a t k ltlt n) Par contre il est plutocirct sensible aux exceptions un point aberrant tirera agrave lui la moyenne auquel il aura eacuteteacute associeacute Il faut donc faire en sorte que ces points erroneacutes soient aussi rares que possibles Crsquoest pourquoi les angles traiteacutes sont pondeacutereacutes par 2 critegraveres de pertinence

La pondeacuteration des angles fournis en entreacutee de lrsquoalgorithme des k-moyennes se

fait de maniegravere simple en reacutepeacutetant ces angles un nombre de fois (de 0 agrave 10) proportionnel agrave un critegravere Ainsi un angle tregraves pertinent sera dupliqueacute et sera preacutesent plusieurs fois dans la liste des donneacutees traiteacutees attirant ainsi agrave lui la position du barycentre le plus proche Au contraire un angle trop peu pertinent ne sera pas reacutepeacuteteacute voir mecircme sera enleveacute de la liste

Le seul problegraveme de cet algorithme est qursquoil neacutecessite la connaissance de k crsquoest-

agrave-dire du nombre de sources qui composent la scegravene Une deacutetermination automatique se basant sur la reacutepeacutetition de lrsquoalgorithme avec un k croissant a eacuteteacute testeacutee mais le critegravere drsquoarrecirct reposant sur la dispersion des points autour des barycentres nrsquoeacutetant pas assez robuste cette meacutethode a provisoirement eacuteteacute mise de cocircteacute

342 Critegraveres de pertinence Les 2 critegraveres de pondeacuteration choisis sont lrsquoeacutenergie de la sous-bande dans la

fenecirctre donneacutee et le rapport de la norme de la 1egravere composante (la composante principale) de lrsquoACP sur la somme des normes de toutes les composantes

En effet un angle est trouveacute dans chaque sous-bande de chaque fenecirctre mecircme si

le signal y est tregraves faible Lrsquoangle trouveacute sera alors tregraves peu repreacutesentatif de la direction drsquoune source puisqursquoil indiquera la direction drsquoun bruit Lrsquoeacutenergie doit donc ecirctre prise en compte pour ne conserver que les angles trouveacutes dans des bandes comportant un signal suffisant

La norme relative de la 1egravere composante de lrsquoACP rend quant agrave elle compte du

poids relatif de cette composante par rapport aux autres Ainsi si 2 sources sont preacutesentes dans une bande donneacutee la 1egravere composante sera agrave peine plus marqueacutee que la 2egraveme Ceci peut ecirctre calculeacute en prenant simplement le rapport de la 1egravere valeur propre sur la somme des valeurs propres

On peut noter que la norme de la 1egravere composante ne se deacutetache nettement que

lorsqursquoun son est preacutesent dans la bande consideacutereacutee On peut alors se demander si lrsquoeacutenergie doit ecirctre prise en compte ou si lrsquoinformation qursquoelle contient nrsquoest comprise dans le 2egraveme critegravere En fait la norme relative est un critegravere tregraves bruiteacute et consideacuterer lrsquoeacutenergie par ailleurs permet de nuancer ces artefacts et constitue une base solide de pondeacuteration

Chapitre 3 Description des analyses 28

80

40

0

Figure 37 - Repreacutesentation temps-freacutequence des angles du son deacutecrit en 332 Letrame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On peut donc v

par trame et par bande chacun eacutetant le reacutesultat drsquoune ACP crsquoest-agrave-dire la 1egravere

Figure 38 - Eacutenergie de ce mecircme son On peut voir une basse en notes tenues uneet une batterie qui produit des sons secs dans un spectre plus aigu

80

40

0

80

40

0

Figure 39 - Norme relative de la 1egravere composante de ce mecircme son Les impacts de batterie (dans lrsquoaigu) ressortent davantage

π 0 minusπ

numeacutero de oir un angle direction

voix aiguumle

34 Traitement des donneacutees 29

Figure 310 - Pondeacuteration appliqueacutee agrave lrsquoentreacutee des k-moyennes calculeacutee ici comme

le simple produit de lrsquoeacutenergie et de la norme relative

80

40

0

343 Lissages

Pour faire face au bruit ineacutevitable dans les reacutesultats il faut lisser les donneacutees Ces

lissages temporels correspondent agrave des hypothegraveses de stabiliteacute des sources qui sont supposeacutees ecirctre fixes ou mobiles relativement lentement (dans une mesure agrave parameacutetrer)

Un premier lissage peut ecirctre opeacutereacute avant le traitement par lrsquoalgorithme des k-

moyennes Le filtre choisi est un filtre meacutedian de maniegravere agrave eacuteliminer les points aberrants tout en conservant les vraies valeurs des points coheacuterents Ce lissage est appliqueacute sur chaque sous-bande aux angles et ne tient pas compte des critegraveres de pertinence Il est donc utiliseacute avec parcimonie et peut mecircme ecirctre eacuteviteacute en reacuteglant de maniegravere adeacutequate les critegraveres de pondeacuteration agrave lrsquoentreacutee des k-moyennes

Le deuxiegraveme lissage srsquoeffectue agrave lrsquoentreacutee des k-moyennes en mecircme temps que les

critegraveres de pondeacuteration Il consiste agrave appliquer les k-moyennes non pas sur une fenecirctre donneacutee mais sur plusieurs fenecirctres conseacutecutives anteacuterieures et posteacuterieures en donnant plus de poids agrave la fenecirctre courante Dans la pratique les poids donneacutes aux diffeacuterentes fenecirctres sont eacutetablis par une gaussienne centreacutee sur la fenecirctre courante et de largeur agrave deacuteterminer (en fonction notamment de la dureacutee drsquoune fenecirctre et du type de scegravene analyseacute)

35 Exploitation de toutes les composantes de lrsquoACP Les analyses preacutesenteacutees preacuteceacutedemment ont toutes exploiteacute uniquement la

composante principale extraite par lrsquoACP Or cette analyse fournit des informations plus complegravetes par lrsquointermeacutediaire des autres composantes dont on peut tirer parti pour isoler plusieurs sources au sein drsquoune mecircme bande Cette approche est toujours en deacuteveloppement dans ce stage et nrsquoa pas encore donneacute pleine mesure des reacutesultats qursquoelle laisse entrevoir

Les composantes de lrsquoACP indiquent des directions qui correspondent aux

diffeacuterentes sources composant la scegravene sonore Les vecteurs propres de la matrice de correacutelation donnent ainsi les combinaisons lineacuteaires des signaux HOA permettant de

Chapitre 3 Description des analyses 30

seacuteparer de la meilleure faccedilon possible ces sons Ces directions peuvent ecirctre alors utiliseacutees pour former des directiviteacutes isolant au mieux ces sources

aBS sdot= (31)

ougrave la matrice a contient les vecteurs propres de la matrice de correacutelation (voir Annexe C) le vecteur B contient les signaux HOA et le vecteur S contient les sources extraites

⎟⎟⎟

⎜⎜⎜

=⎟⎟⎟

⎜⎜⎜

⎛=

⎥⎥⎥

⎢⎢⎢

⎟⎟⎟

⎜⎜⎜

⎟⎟⎟

⎜⎜⎜

⎛=

10

1001

1

ML

N

B

BB

S

SSuua MML (32)

On obtient ainsi des lobes drsquoautant plus eacutetroits que lrsquoordre est eacuteleveacute chacun

dirigeacute vers une source et permettant de lrsquoisoler le plus possible des contributions des autres sources La Figure 311 preacutesente les directiviteacutes ainsi trouveacutees par une ACP en pleine bande Une analyse en sous-bande permet une plus grande distinction des sources mais une seacuteparation diffeacuterente entre les bandes est dangereuse car elle risque de dissocier spatialement plusieurs parties drsquoun mecircme son

Figure 311 - Directiviteacutes seacuteparant ideacutealement 4 sources placeacutees agrave 17 73 195 et -58deg

pour une scegravene virtuelle encodeacutee agrave lrsquoordre 4 Ce principe se heurte neacuteanmoins aux limites de seacuteparation lieacutees agrave lrsquoordre

drsquoencodage en effet 2 sources ne pourront pas ecirctre seacutepareacutees si elles sont trop proches comme en teacutemoigne la largeur des lobes principaux Les lobes secondaires traduisent eacutegalement un meacutelange des sources isoleacutees La figure ci-dessus montre ainsi que la source placeacutee agrave 17deg (en vert) sera preacutesente de maniegravere non neacutegligeable dans le signal senseacute contenir la source placeacutee agrave -58deg (en bleu) en raison du lobe secondaire bleu important

31

Chapitre 4

Reacutesultats et applications

41 Illustration et critique des reacutesultats obtenus

411 Avant-propos Sans notification particuliegravere les reacutesultats preacutesenteacutes ont eacuteteacute obtenus avec un pas

de 50 ms une analyse en 80 bandes avec une FFT sur 8192 points Une taille de FTT plus grande et un plus grand nombre de bande augmente la qualiteacute de lrsquoanalyse un pas plus petit ameacuteliore sa preacutecision temporelle mais les reacutesultats sont moins fiables et un lissage plus important srsquoimpose alors Ces paramegravetres ont eacuteteacute reacutegleacutes apregraves de multiples essais sur des scegravenes diverses

Les reacutesultats sont preacutesenteacutes ici uniquement sous la forme de graphiques nous ne

pouvons donc repreacutesenter que les angles trouveacutes agrave la sortie de lrsquoalgorithme des k-moyennes

412 Scegravene 2D artificielle agrave 4 sources fixes La premiegravere scegravene est une scegravene artificielle composeacutee de 4 sons fixes placeacutes agrave -70

-10 45 et 110deg Ces sons (une basse une voix une guitare et une batterie) ont eacuteteacute choisis pour leur varieacuteteacute spectrale et leur varieacuteteacute drsquoattaque Elle a en outre le meacuterite drsquoecirctre reacutealiste et de constituer une seacutequence musicale (chaque son nrsquoest pas une meacutelodie indeacutependante)

On voit sur la Figure 41 ci-dessous que les angles trouveacutes sont proches des

angles theacuteoriques Lrsquoun des sons (agrave 45deg) est quasiment nul avant la 100egraveme trame sa position est alors moins facile agrave deacuteterminer plus preacuteciseacutement une position approximative est trouveacutee et correspondrait exactement agrave la position du bruit (45deg) si lrsquoincertitude de mesure tregraves grande pour un son aussi faible ne rendait la deacutetermination si ardue On mesure un eacutecart-type de 22deg sur cet exemple (en excluant le deacutebut du son agrave 45deg)

Chapitre 4 Reacutesultats et applications 32

Figure 41 - Angles theacuteoriques (en pointilleacutes rouge) et calculeacutes (en trait bleu) pour une scegravene

constitueacutee de 4 sons fixes longue de 11s

413 Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile

Figure 42 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) de la scegravene agrave

4 sources dont 1 mobile deacutecrite en 332 Cette scegravene est deacutecrite en 332 On a ici demandeacute aux k-moyennes de renvoyer 5 barycentres par trame alors que

seules 4 sources eacutetaient preacutesentes dans le but de se garantir une marge vis-agrave-vis des erreurs de deacutetection Cette 5egraveme direction nrsquoest pas du tout gecircnante elle indique une direction qui ne contient pas de source et crsquoest donc un son tregraves faible qui est ainsi pointeacute Apregraves une eacuteventuelle extraction le signal ne sera donc pas du tout gecircnant

41 Illustration et critique des reacutesultats obtenus 33

On peut remarquer que quand le son mobile se rapproche drsquoun son fixe la deacutetection est moins bonne il y a une fusion entre les 2 sons Mais encore une fois lors de lrsquoextraction lrsquoisolation drsquoun des sons englobera lrsquoautre son ce qui ne posera pas de problegraveme pour les objectifs fixeacutes aucune source nrsquoeacutetant oublieacutee En effet la seacuteparation de sources nrsquoest pas un objectif ici mais un moyen pour preacuteciser les positions des sources ce qui sera fait correctement mecircme si 2 sources sont pointeacutees par 1 seule direction

414 Scegravene 3D artificielle agrave une source et bruit de fond

La scegravene dont la position drsquoune source a eacuteteacute extraite ci-dessous est une scegravene virtuelle en 3D constitueacute drsquoun son (une voix) qursquoon a fait se deacuteplacer par paliers tout drsquoabord vers le haut de 0deg agrave 45deg et vers la gauche de 0deg agrave 90deg puis redescendre jusqursquoagrave 35deg en continuant son cheminement vers la gauche jusqursquoagrave 120deg et enfin finir la descente de 35deg agrave 0deg en la laissant agrave 120deg Agrave cette source a eacuteteacute superposeacutee une ambiance spatialiseacutee de hall drsquoaeacuteroport initialement enregistreacutee en 2D (au format 51) mais transformeacutee pour contenir des composantes verticales Cette ambiance deacutecorreleacutee de la source avait pour but de tester la robustesse de lrsquoanalyse Elle eacutetait agrave 15 dB en-dessous du niveau de la voix

Figure 43 - Azimut et eacuteleacutevation theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun

son en 3D artificiel de 9s placeacute dans une ambiance bruyante On remarque que lrsquoanalyse est tregraves correcte Il nrsquoy a pas drsquoeacutecart important entre

les angles theacuteoriques et ceux calculeacutes On note toutefois que le lissage agrave lrsquoentreacutee des k-moyennes a pour effet de gommer les creacuteneaux et drsquoaplatir quelque peu la courbe drsquoeacuteleacutevation ceci nrsquoest pas vraiment gecircnant car de tels sauts dans la position drsquoune source ne sont pas du tout reacutealistes (ils peuvent caracteacuteriser des bruits de pas mais de tels impacts sont courts et on peut srsquoattendre agrave ce que la courbe suive leur position aux instants ougrave ils sont eacutemis)

Chapitre 4 Reacutesultats et applications 34

415 Scegravene 2D naturelle agrave une source Les scegravenes naturelles sont on lrsquoa vu plus deacutelicates agrave exploiter car on ne peut pas

garantir la preacutecision de la position theacuteorique agrave retrouver par le calcul et on ne peut donc pas calculer la preacutecision de lrsquoanalyse Seuls les enregistrements utilisant la table tournante (voir 232) permettent une mesure preacutecise de la position de lrsquoangle Ces enregistrements on pu confirmer la validiteacute de lrsquoanalyse pour des scegravenes reacuteelles on trouve ici un eacutecart-type de 25deg

Figure 44 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun bruit blanc

tournant autour du micro enregistreacute en chambre sourde Cette analyse a eacuteteacute reacutealiseacutee par sous-bandes mais sur une eacutetendue freacutequentielle

plus reacuteduite puisqursquoon srsquoest limiteacute aux possibiliteacutes offertes par le microphone La scegravene a donc eacuteteacute analyseacutee de 200 agrave 10 000 Hz

42 Quelques applications

421 Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre 2 agrave partir de lrsquoordre 1

Une fois les positions des sources connues la porte est ouverte agrave de nombreuses

applications La connaissance de ces positions permet en effet de syntheacutetiser artificiellement des composantes manquantes ou non transmises La premiegravere synthegravese deacuteveloppeacutee est celle des signaux U et V composant la partie horizontale de lrsquoordre 2 agrave partir de lrsquoordre 1 et de paramegravetres issus de lrsquoanalyse pour une source en 2D (des angles dans de cas)

42 Quelques applications 35

Figure 45 - Principe de lrsquoameacutelioration de la preacutecision spatiale

Le principe de la synthegravese est drsquoextraire les sources originales agrave partir de W X Y

et des angles (un angle par trame et par sous-bande) Ceci peut ecirctre reacutealiseacute de maniegravere approcheacutee en deacutecodant lrsquoordre 1 dans les directions des sources Ce deacutecodage revient agrave calculer les signaux qui devraient alimenter des haut-parleurs qui seraient placeacutes agrave ces positions dans le cas drsquoune restitution (voir 122) crsquoest-agrave-dire agrave former des directiviteacutes dans les directions des sources Dans la plupart des cas ce deacutecodage qui fait intervenir une pseudo-inversion de Moore-Penrose (111) est imparfait les sources se retrouvant leacutegegraverement meacutelangeacutees On peut comparer cette seacuteparation agrave celle que ferait un ensemble de microphones agrave directiviteacute hypercardioiumlde coiumlncidents

Figure 46 - Directiviteacutes eacutequivalentes agrave la seacuteparation de 4 sources agrave lrsquoordre 1 Ces sources seacutepareacutees vont ensuite constituer toujours placeacutees aux angles

deacutetermineacutes agrave lrsquoanalyse une scegravene virtuelle qursquoon va encoder agrave lrsquoordre 2 De cet encodage on ne conservera que les signaux manquants dans notre exemple les signaux du 2nd ordre U et V Ainsi la scegravene spatialiseacutee sera au final constitueacutee des signaux W X et Y drsquoorigine (transmis) et des signaux U et V syntheacutetiseacutes

Chapitre 4 Reacutesultats et applications 36

422 Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave partir de W Reconstruire une scegravene sonore spatialiseacutee agrave partir drsquoun unique canal mono est

alors difficile et le reacutesultat nrsquoest appreacuteciable que pour des scegravenes simples Il faut pour cela que les diffeacuterentes sources composant cette scegravene aient des supports spectraux aussi distincts que possible Les diffeacuterentes sous-bandes sont alors placeacutees agrave un certain angle transmis en parallegravele et crsquoest cette scegravene reconstitueacutee qui va ecirctre encodeacutee au 1er ordre de maniegravere agrave recreacuteer les signaux X et Y

Figure 47 - Principe de la restitution de lrsquoordre 1 agrave partir du signal mono W Ce scheacutema rappelle une meacutethode deacuteveloppeacutee dans le cas steacutereacuteo appeleacutee BCC

(Binaural Cue Coding) [Faller and Baumgarte 2002] Le principe est drsquoextraire et coder des informations permettant la reconstruction binaurale drsquoun signal agrave savoir les diffeacuterences interaurales drsquointensiteacute et de temps (Interaural LevelTime Difference ILD et ITD) qui correspondent dans le cas drsquoune restitution sur un casque aux diffeacuterences drsquointensiteacute et de temps inter-canal (Inter-Channel LevelTime Difference ICLD et ICTD) qui sont mesureacutees agrave partir drsquoune analyse en sous-bandes Les auteurs y ont plus reacutecemment associeacute un indice de correacutelation interaurale mesureacute agrave partir de la correacutelation inter-canal (ICC) afin de caracteacuteriser la preacutecision spatiale (la ldquolargeurrdquo drsquoune source)

Figure 48 - Scheacutema de principe de la meacutethode BCC [Faller and Baumgarte 2003]

On observe en pratique des deacutefauts lieacutes agrave la brutaliteacute de la proceacutedure une sous-

bande ne peut ecirctre que placeacutee agrave la position indiqueacutee et ne peut pas rester floue diffuse ou encore ecirctre placeacutee agrave plusieurs endroits Pour y remeacutedier nous avons ajouteacute 2 traitements agrave la synthegravese Tour drsquoabord nous avons appliqueacute un leacuteger lissage soulageant les effets deacutesagreacuteables dus au saut du contenu drsquoune sous-bande drsquoun endroit agrave un autre entre de 2 fenecirctres conseacutecutives Les positions varient alors de faccedilon plus souple au sein drsquoune mecircme sous-bande traduisant une hypothegravese de continuiteacute spatiale (pas de deacuteplacement brusque) La contrepartie est que cette hypothegravese est lieacutee agrave une hypothegravese de continuiteacute spectrale

42 Quelques applications 37

La 2egraveme ameacutelioration concerne le positionnement des sources En incluant dans la transmission un critegravere de pertinence on peut savoir srsquoil est raisonnable de placer une sous-bande agrave un angle preacutecis ou bien si lrsquoanalyse eacutetait flou agrave son sujet auquel cas un positionnement impreacutecis serait preacutefeacuterable Le paramegravetre choisi est une combinaison des critegraveres eacutevoqueacutes en 342 il nous permet de placer la sous-bande de maniegravere plus ou moins prononceacutee

43 Comparaison avec une meacutethode existante Certains auteurs ont deacutejagrave essayeacute drsquoanalyser un contenu ambisonique pour

retrouver les positions des sources Ville Pulkki a ainsi deacutecrit dans [Pulkki and Faller 2006] une meacutethode drsquoanalyse du B-format baseacutee sur lrsquoeacutetude des amplitudes des signaux W X Y et Z

Figure 49 - X et Y dans le cas drsquoune sinusoiumlde placeacutee agrave 15deg (agrave gauche) et 120deg (agrave droite)

Les figures ci-dessus montrent les relations drsquoamplitudes (algeacutebriques) qui relient

X et Y agrave lrsquoangle de la source On voit que lrsquoanalyse de ces amplitudes respectives permet de retrouver la position de la source en effet on a pour une source unique les relations de lrsquoeacutequation (11) rappeleacutee ici

⎪⎪

⎪⎪

=

=

=

=

δ

δθ

δθ

sin2

cossin2

coscos2

SZ

SY

SX

SW

(41)

On peut donc theacuteoriquement retrouver les valeurs de θ et δ par relations

trigonomeacutetriques Ainsi on a

⎪⎪⎩

⎪⎪⎨

=

=

2)sin(

)tan(

WZ

XY

δ

θ (42)

Chapitre 4 Reacutesultats et applications 38

On peut donc trouver les angles θ et δ agrave π pregraves Pour lever lrsquoambiguiumlteacute une eacutetude de signe est neacutecessaire Mais dans le cas de θ le signe de X et de Y agrave δ fixeacute deacutepend aussi bien de θ que S Il faut srsquointeacuteresser aux signes de θcos et θsin crsquoest-agrave-dire

aux signes de WX et

WY Dans la pratique on srsquointeacuteressera aux signes de et

pour se preacutevenir des divisions par zeacuteros

XW sdot YW sdot

XW sdot et YW sdot sont proportionnels agrave toujours positif

2S

Les auteurs deacutecrivent eacutegalement dans leur article un critegravere appeleacute diffuseness qui

peut ecirctre compareacute agrave un critegravere de pertinence inverseacute Ce paramegravetre calculeacute par agrave 1 - R ougrave R est un rapport de normes est tregraves proche du critegravere de norme relative deacutecrit en 342 Il peut donc ecirctre utiliseacute de la mecircme faccedilon et permettre ainsi une pleine comparaison

Cette meacutethode a eacuteteacute impleacutementeacutee pour pouvoir ecirctre compareacutee avec la meacutethode

par ACP Tous les paramegravetres ont scrupuleusement eacuteteacute gardeacutes identiques et plusieurs reacuteglages ont eacuteteacute testeacutes Les courbes ci-dessous preacutesentent les reacutesultats des analyses de la scegravene deacutecrite en 332 avec un pas de 50ms un overlap de 50 un NFFT de 2048 et 40 bandes freacutequentielles Nous avons repreacutesenteacute tous les angles trouveacutes crsquoest-agrave-dire un par bande et par trame pour srsquoaffranchir de la seacutelection des k-moyennes

π

0

minusπ

Figure 410 - Angles trouveacutes par lrsquoalgorithme de [Pulkki and Faller 2006] Le diamegravetre du point correspondant agrave la pertinence

43 Comparaison avec une meacutethode existante 39

π

0

minusπ

Figure 411 - Angles trouveacutes par une ACP pour la mecircme scegravene On remarque que les points excentriques sont moins nombreux et plus rarement trouveacutes comme pertinents

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee

441 Position du problegraveme

Une application directe de ces analyses a eacuteteacute deacuteveloppeacutee pour la confeacuterence audio

spatialiseacutee La confeacuterence audio utilise en effet la spatialisation pour permettre une meilleure seacuteparation par lrsquooreille des diffeacuterents locuteurs Ainsi si plusieurs personnes parlent en mecircme temps il sera tregraves difficile de comprendre chacun individuellement si ces voix sont restitueacutees en mono mais on pourra focaliser lrsquoattention sur chacune drsquoentre elles si elles sont seacutepareacutees spatialement (crsquoest lrsquoeffet cocktail party [Cherry 1953])

Lrsquoobjectif eacutetait de veacuterifier qursquoil eacutetait possible de conserver la spatialisation drsquoune

confeacuterence en nrsquoayant transmis qursquoun downmix mono des signaux Ce concept semble se rapprocher de celui deacutecrit en 422 mais une diffeacuterence fondamentale les seacutepare la confeacuterence audio spatialiseacutee nrsquoest pas codeacutee au format ambisonic mais les signaux traiteacutes sont directement les sons provenant des diffeacuterents locuteurs crsquoest-agrave-dire les sources elles-mecircmes Ainsi lrsquoanalyse ne porte plus sur une scegravene spatialiseacutee mais sur des signaux seacutepareacutes Il nrsquoy a ainsi plus drsquoindices spatiaux agrave trouver

Avoir accegraves aux sources permet drsquoobtenir des informations plus preacutecises pour

permettre une seacuteparation apregraves la transmission Comme nous lrsquoavons vu lrsquoanalyse drsquoune scegravene spatialiseacutee ne permet que dans drsquoultimes cas agrave la seacuteparation des sources ce qui est ici notre point de deacutepart et sera en fait notre point drsquoarriveacutee En effet nous tenterons de retrouver les sources seacutepareacutees apregraves la transmission de maniegravere agrave pouvoir par la suite les spatialiser agrave loisir (voir Figure 413)

Chapitre 4 Reacutesultats et applications 40

442 Solution proposeacutee Les paramegravetres extraits ne sont donc plus des positions de sources Nous avons

choisi de mesurer puis transmettre lrsquoeacutenergie de chaque signal dans chaque sous-bande en parallegravele du downmix En effet une bonne seacuteparation sera possible si lrsquoon sait quelle proportion de chaque source compose chaque sous-bande du signal mono

Figure 412 - Scheacutema de principe drsquoune confeacuterence audio spatialiseacutee

Figure 413 - Scheacutema ameacutelioreacute (deacutebit reacuteduit)

en pointilleacutes informations compleacutementaires (eacutenergie) Lrsquoanalyse en sous-bandes a lieu dans le serveur (Figure 414) Celui-ci calcule

lrsquoeacutenergie de chaque signal dans chaque sous-bande sur une trame donneacutee Crsquoest ce paramegravetre qui associeacute au signal mono M permettra la seacuteparation des sources dans le terminal (Figure 415) Ce dernier reacutepartira en effet les diffeacuterentes sous-bandes vers chaque signal reconstitueacute proportionnellement agrave cette information pour reconstruire les 4 sources originales

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee 41

Figure 414 - Analyse principe de lrsquoencodage dans le serveur

Figure 415 - Synthegravese principe du deacutecodage dans le client

Afin de reacuteduire au maximum les informations compleacutementaires agrave transmettre on

peut remarquer qursquoau cours drsquoune confeacuterence audio on a tregraves souvent un seul locuteur les participants ne parlent que tregraves rarement tous en mecircme temps Ceci implique que les signaux en entreacutee sont tregraves souvent tous nuls sauf 1 et appliquer un seuil en entreacutee de lrsquoanalyse permet outre lrsquoallegravegement du traitement drsquoavoir moins de paramegravetres agrave transmettre

Ce scheacutema simplifieacute ne tient pas compte des problegravemes de phase rien nrsquoindique

que les eacutenergies des signaux srsquoajoutent bien dans chaque sous-bande lors du downmix on peut tregraves bien avoir des oppositions de phase La solution est drsquoeffectuer le downmix (la somme) des signaux dans chaque sous-bande en prenant soin drsquoavoir recaleacute les phases au preacutealable Ceci nrsquoa un sens que pour des bandes suffisamment eacutetroites Les deacutecalages temporels appliqueacutes pour le recalage sont alors des paramegravetres suppleacutementaires agrave transmettre et sont pris en compte lors de la synthegravese au niveau du reacutepartiteur qui repositionnera la phase de chaque trame pour chaque signal

Chapitre 4 Reacutesultats et applications 42

443 Bilan Le reacutesultat du deacutecodage a pu ecirctre eacutecouteacute de diffeacuterentes maniegraveres les sources

reconstitueacutees individuellement ensemble en steacutereacuteo drsquoamplitude et sur un systegraveme 51 On note que les sources ont eacuteteacute assez bien seacutepareacutees mais que des artefacts sont audibles en particulier lorsque le nombre de locuteurs simultaneacutes augmentent Ces artefacts sont un meacutelange des voix qui nrsquoest gecircnant que lorsqursquoon les eacutecoute de maniegravere seacutepareacutee En effet lrsquoeacutecoute simultaneacutee de ces signaux syntheacutetiseacutes mecircme placeacutes agrave des positions distinctes sur un systegraveme de diffusion multicanal est tout agrave fait satisfaisante

Ce proceacutedeacute pour pouvoir ecirctre appliqueacute doit fonctionner en temps-reacuteel Cette

contrainte nrsquoa pas du tout eacuteteacute prise en compte lrsquoobjectif eacutetant de valider la faisabiliteacute drsquoune reconstruction Les programmes sous Matlab nrsquoont pas eacuteteacute optimiseacutes et ne respectent pas cette contrainte

43

Conclusion Nous avons preacutesenteacute dans ce rapport le principe et lrsquoapplication de plusieurs

meacutethodes drsquoanalyses spatiales de scegravenes ambisoniques conccedilues et reacutealiseacutee pendant le stage Le format HOA est en effet une repreacutesentation du champ acoustique deacutecomposeacute sur une base drsquoharmoniques spheacuteriques jusqursquoagrave un certain ordre agrave la maniegravere drsquoun deacuteveloppement limiteacute Il contient donc de maniegravere indirecte des indications spatiales qursquoon peut extraire avec des analyses comme lrsquoanalyse en composantes principales

Ces analyses nous permettent de deacuteterminer les positions des sources qui

composent la scegravene sonore Nous avons appliqueacute les reacutesultats de ces analyses agrave 2 types de synthegravese lrsquoune destineacutee aux transmissions bas deacutebit lrsquoautre agrave un traitement de restitution de la preacutecision spatiale dans le cas ougrave des ordres supeacuterieurs dont le but est drsquoaffiner la perception de localisation nrsquoauraient pas pu ecirctre transmis Ces algorithmes par le codage drsquoinformations spatiales qursquoils permettent pourront trouver bien drsquoautres applications dans la transmission et le codage ougrave la description du contenu est de plus en plus utiliseacutee (comme par exemple dans la norme MPEG)

Des ameacuteliorations sont possibles sur plusieurs points tout drsquoabord lrsquoexploitation

de toutes les composantes de lrsquoACP est agrave lrsquoeacutetude et semble pouvoir donner des reacutesultats inteacuteressants Drsquoautre part on a vu que le reacutesultat final est tregraves deacutependant de la bonne convergence de lrsquoalgorithme des k-moyennes utiliseacute pour traiter les donneacutees brutes de lrsquoanalyse en sous-bandes Or cet algorithme neacutecessite des reacuteglages tregraves fins et une connaissance a priori du nombre de sources est presque indispensable Drsquoautres algorithmes plus complexes de suivi de formes pourraient ecirctre avantageusement utiliseacutes pour deacutetecter dans tous les angles trouveacutes lesquels sont susceptibles de former une trajectoire

45

Annexe A

Deacuteveloppement du champ acoustique en harmoniques spheacuteriques

A1 Eacutequation drsquoonde en coordonneacutees spheacuteriques On se place dans lrsquoespace euclidien agrave 3 dimensions muni drsquoun systegraveme de

coordonneacutees spheacuteriques Un point M y est repeacutereacute par son rayon r son azimut θ et son eacuteleacutevation δ tels que repreacutesenteacutes sur la figure ci-dessous

- r est la norme du vecteur position rr crsquoest-agrave-dire la distance OM - [20[ πθ isin est lrsquoangle formeacute par le projeteacute du point sur le plan xOy et lrsquoaxe Ox

- ]2

2

[ ππδ minusisin est lrsquoangle formeacute par le plan xOy et le vecteur position2

Figure A1 - Systegraveme de coordonneacutees spheacuteriques

2 Cet angle diffegravere de lrsquoangle polaire usuel δπϕ minus=

2 habituellement pris entre lrsquoaxe Oz et le

vecteur position

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 46

Les relations entre les coordonneacutees spheacuteriques et les coordonneacutees carteacutesiennes sont

⎪⎩

⎪⎨

===

δδθδθ

sincossincoscos

zryrx

(A1)

On srsquointeacuteresse dans ce repegravere agrave lrsquoeacutequation de propagation des ondes acoustiques

de pression On se place dans les conditions classiques drsquoacoustique lineacuteaire (les variations de p sont petites par rapport agrave la pression atmospheacuterique) en supposant que lrsquoair est un fluide parfait (on y neacutegligera les pheacutenomegravenes dissipatifs) Dans une reacutegion de lrsquoespace ne comprenant pas de sources lrsquoeacutequation drsquoonde srsquoeacutecrit alors

0)(12

2

2 =⎟⎟⎠

⎞⎜⎜⎝

⎛partpart

minus∆ trptc

r (A2)

p eacutetant la pression et c la vitesse de propagation du son dans lrsquoair

Cette eacutequation devient dans le domaine freacutequentiel lrsquoeacutequation de Helmholtz

( ) 0)(2 =+∆ ωrpk r (A3)

ck ω

= eacutetant le nombre drsquoonde

En coordonneacutees spheacuteriques cette eacutequation srsquoeacutecrit

0sin1sin

sin11 2

2

2

222

2 =⎥⎦

⎤⎢⎣

⎡+

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart pk

rrrr

rr δθθθ

θθ (A4)

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques Drsquoapregraves [Bruneau 1983] elle admet des solutions agrave variables seacutepareacutees de la forme

)()()( δθ ΦΘ= rRp (A5) Ces solutions sont respectivement - pour la partie radiale une combinaison des fonctions de Bessel spheacuteriques de

premiegravere et seconde espegravece3 jn et nn

)()()( krBnkrAjrR nn += (A6) 3 Les fonctions de Bessel spheacuteriques de seconde espegravece sont eacutegalement appeleacutees fonctions de

Neumann

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 47

Ces fonctions sont deacutefinies comme suit

(A7)

Figure A2 - Fonctions de Bessel spheacuteriques pour les ordres 0 agrave 5 )(krjm

- pour la partie azimutale les fonctions )(θΘ

)sin()cos()( 21 θθθ ncnc +=Θ (A8) Eacutetant donneacute la deacutefinition de lrsquoangle Θ celui-ci doit neacutecessairement ecirctre de

peacuteriode 2π ))2()(( πθθ +Θ=Θ ce qui impose agrave n drsquoecirctre entier

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 48

- pour la partie polaire les fonctions de Legendre associeacutees )(sinδmnP

nm

nn

mn dPdP

)(sin)(sinsin)(sin

δδ

δδ = pour ⎩⎨⎧

gt=

nmavecnm 321

(A9)

ougrave les )(sinδnP sont les polynocircmes de Legendre de degreacute n en δsin deacutefinis par reacutecurrence

( )

11

22

1

0

sin)12()(sin)1(

1cos321)(sin

sin)(sin0)(sin

minus+ minus+=+

minus=

==

mmm mPPmPmet

P

PP

δδ

ϕδ

δδδ

(A10)

et de formule geacuteneacuterale

mm

m

mm dd

mP )1(sin

)(sin21)(sin 2 minus= δ

δδ (A11)

On peut appliquer aux fonctions )(sinδmnP la semi-normalisation de Schmidt

)(sin)()()(sin~ δεδ mnnmn P

nmnmP

+minus

= ougrave 10 =ε et 2=nε pour 1gen (A12)

En appariant les fonctions polaires et azimutales on deacutefinit les harmoniques

spheacuteriques de degreacute et drsquoordre)1(mnY 0gem 4 mnn lele0 et de degreacute et

drsquoordre (voir Figure A3)

)1(minusmnY 1gem

mnn lele1

)(sin~)sin()(

)(sin~)cos()()1(

)1(

δθδθ

δθδθ

mnmn

mnmn

PnY

PnY

=

=minus

(A13)

4 En geacuteneacuteral lorsque le degreacute et lrsquoordre ne sont pas eacutevoqueacutes conjointement on parle par abus de langage drsquoharmoniques drsquoordre m plutocirct que de degreacute m

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 49

soit

1)(sin

)()()12(2sin)(

)(sin)()()12(2cos)(

1)(sin)1()1()12(cos)(

)1(

)1(

1)1(

1

gt

⎪⎪⎩

⎪⎪⎨

+minus

+=

+minus

+=

=+minus

+=

minus

npourP

nmnmmnY

PnmnmmnY

npourPmmmY

mnmn

mnmn

mm

δθδθ

δθδθ

δθδθ

(A14)

La solution angulaire geacuteneacuterale srsquoeacutecrit alors sous la forme drsquoun deacuteveloppement sur

la base drsquoharmoniques spheacuteriques

( ) ( )sum minus

=minus+=Θ

1

1)1()1()( n

m mnmnmnmnn YBYBθ (A15) La solution geacuteneacuterale est alors la seacuterie de Fourier-Bessel

sum sum sum+infin

= = plusmn=

=0 0 1

)()( )()()(m

m

nmnmnm

m YBkrjikrpσ

σσ δθδθ (A16)

ougrave

intint⎪⎩

⎪⎨⎧

minusisin

isin

plusmnplusmn =

]2

2

[

[20[

)1()1( )()1()(

1

ππδ

πθ

δθδθ

S

mnm

mmn dSYpkrji

B (A17)

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 50

Tableau A1 - Expressions analytiques des harmoniques spheacuteriques pour les ordres 0 agrave 3

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 51

Figure A3 - Repreacutesentation des harmoniques spheacuteriques pour les ordres m = 0 agrave 3 Les

couleurs rouge et bleu indiquent respectivement des valeurs positives et neacutegatives

53

Annexe B

Compleacutements theacuteoriques sur le deacutecodage HOA

B1 Vecteur veacutelociteacute et vecteur eacutenergie Le vecteur veacutelociteacute est un indice de la direction apparente drsquoune source introduit

par Gerzon [Gerzon 1992] Il se calcule comme le rapport de la vitesse particulaire sur la pression acoustique

)()(

)()(1

δθδθ

δθδθ

ρ rprp

ki

rprv

cV nabla

minus=minus=rrr

(B1)

Dans le cas drsquoune onde plane le vecteur veacutelociteacute V

rest ainsi directement un

vecteur unitaire orienteacute vers la direction de provenance de lrsquoonde En geacuteneacuteralisant agrave une superposition drsquoondes planes en phase ou opposition de phase eacutemises par L haut-parleurs agrave eacutequidistance du point drsquoobservation on obtient la formule suivante

VVL

ll

L

lll

urg

ugV r

rr

==

sum

sum

=

=

1

1 (B2)

ougrave deacutesigne la direction du llur egraveme haut-parleur auquel est associeacute le gain gl et Vr Vur correspondent respectivement agrave la norme et agrave la direction du vecteur veacutelociteacute

Le vecteur eacutenergie est un autre indice de direction Il est deacutefinit par

EEL

ll

L

lll

urg

ugE r

rr

==

sum

sum

=

=

1

2

1

2

(B3)

Annexe B Compleacutements theacuteoriques sur le deacutecodage HOA 54

Il peut srsquointerpreacuteter comme une indication de la concentration de lrsquoeacutenergie ( ) et de sa direction moyenne de provenance (

Er

Eur ) On a toujours 1ltEr sauf dans le cas ougrave un seul haut-parleur contribue agrave la reconstruction (dans ce cas ) peut ecirctre consideacutereacute comme un indicateur de preacutecision de la localisation

1=Er Er

B2 Deacutecodages optimiseacutes La restitution la plus confortable drsquoun champ sonore veillera donc agrave maximiser

tout en essayant de garder le plus proche possible de 1 Lrsquooptimisation du deacutecodage consiste alors agrave multiplier chaque coefficient de la matrice de deacutecodage D (voir (111) par des gains calculeacutes drsquoapregraves des critegraveres drsquooptimisation

Er Vr

Ainsi le deacutecodage appeleacute max- maximise la norme du vecteur eacutenergie en

sacrifiant celle du vecteur veacutelociteacute puisqursquoon a dans ce deacutecodage (pour des configurations reacuteguliegraveres de haut-parleurs) Ce deacutecodage est donc avantageux par rapport au deacutecodage basique pour les hautes freacutequences ou dans le cas drsquoun auditoire eacutelargi Le deacutecodage in-phase va encore plus loin en cherchant agrave annuler complegravetement les contributions des haut-parleurs placeacutes agrave lrsquoopposeacute de la direction de provenance de lrsquoonde reproduite Ce critegravere est utile dans le cas drsquoune eacutecoute dans une position tregraves excentreacutee agrave laquelle on pourrait percevoir de faccedilon preacutedominante la contribution en opposition de phase drsquoun tel haut-parleur

Er

EV rr =

Ces diffeacuterents deacutecodages ont chacun des avantages et inconveacutenients Ainsi seul le

deacutecodage basique garantit = 1 le deacutecodage max- permet une preacutecision meilleure notamment en haute freacutequence et le deacutecodage in-phase est plus adapteacute agrave un auditoire plus large Jeacuterocircme Daniel [Daniel 2000] propose ainsi de changer le deacutecodage en fonction de la freacutequence et de lrsquoeacutetendue de la zone drsquoeacutecoute deacutesireacutee

Vr Er

Figure B1 - Deacutecodages les plus approprieacutes par sous-bande et en fonction de lrsquoeacutetendue de la

zone drsquoeacutecoute [Daniel 2000]

55

Annexe C

Analyse en composantes principales

C1 Espace des donneacutees Eacutegalement souvent appeleacutee transformeacutee de Karhunen-Loegraveve5 (TKL) lrsquoanalyse en

composantes principales (ACP) est une technique statistique de repreacutesentation drsquoinformation Introduite sur 2 variables par Pearson [Pearson 1900] elle a eacuteteacute eacutetendue par Hotelling [Hotelling 1933] Elle a pour but de caracteacuteriser des donneacutees drsquoun espace agrave N dimensions dans un sous-espace plus petit en minimisant les pertes drsquoinformation due agrave la projection crsquoest-agrave-dire en maximisant la variance projeteacutee Les donneacutees ainsi reacuteorganiseacutees deviennent indeacutependantes Les variables correacuteleacutees sont remplaceacutees par de nouvelles variables deacutecorreacuteleacutees et de variance maximale combinaisons lineacuteaires des variables initiales

Les donneacutees sont constitueacutees de n variables aleacuteatoires (dans notre cas des canaux)

et p reacutealisations ou individus (des eacutechantillons)

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

pn

p

ji

n

xx

x

xx

M

LLL

MOMNM

MLLM

MNMOM

LLL

1

111

(C1)

Ces donneacutees sont geacuteneacuteralement centreacutees et peuvent aussi ecirctre reacuteduites4 (on note

1x la moyenne de la variable et 1x )( 1xσ sa variance) Reacuteduire ou non le nuage de points (ie les p reacutealisations de la variable aleacuteatoire) est un choix de modegravele

5 Quelques rares sources mentionnent une diffeacuterence entre ACP et TKL en placcedilant celle-ci au

niveau du choix de la reacuteduction des donneacutees dans le cas dune ACP les donneacutees seraient centreacutees et reacuteduites alors qursquoelles seraient uniquement centreacutees pour une TKL

Annexe C Analyse en composantes principales 56

- si on ne reacuteduit pas le nuage une variable agrave forte variance pourrait tirer tout lrsquoeffet de lrsquoACP agrave elle

- si on reacuteduit le nuage une variable qui ne serait qursquoun bruit se retrouverait avec une variance apparente eacutegale agrave une variable informative

M est centreacutee

⎥⎥⎥

⎢⎢⎢

minusminusminus

minusminus=

npn

pi

ji

nn

xxxxxx

xxxxM

K

MM

K

11

11

11

ˆ (C2)

M~ est centreacutee et reacuteduite

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

minusminus

minus

minusminus

=

)()(

)(

)()(~

1

11

1

1

111

n

npn

pi

ij

i

n

nn

xxx

xxx

xxx

xxx

xxx

M

σσ

σ

σσ

K

MM

K

(C3)

On multiplie ensuite la matrice obtenue par sa transposeacutee pour obtenir - La matrice de covariance MMC t

vˆˆ sdot=

- La matrice de correacutelation MMC tr

~~ sdot= Ces matrices sont carreacutees (N x N) symeacutetriques et reacuteelles Elles sont donc

diagonalisables dans une base orthonormeacutee 6 Le principe de lrsquoACP est alors de trouver un axe u issu drsquoune combinaison lineacuteaire

des tel que le critegravere drsquoinertie du nuage autour de cet axe soit maximal Le critegravere drsquoinertie couramment utiliseacute est la variance Il faut donc trouver lrsquoaxe qui porte le maximum de variance crsquoest-agrave-dire lrsquoaxe u tel que la projection du nuage sur cet axe ait une variance maximale

nx

6 Nos donneacutees eacutetant ici des valeurs drsquoeacutechantillons elles sont par nature centreacutees et reacuteduites On

formera donc naturellement la matrice de correacutelation

C2 Diagonalisation 57

C2 Diagonalisation Pour alleacuteger lrsquoeacutecriture de la suite de cette partie nous consideacutererons que les

variables ont eacuteteacute centreacutees et si besoin reacuteduites et nous noterons ces variables

transformeacutees (ainsi

ix ix

iii xxx minuslarr ou bien )( i

iii x

xxxσ

minuslarr ) On fera de mecircme pour M

( ou bien MM ˆlarr MM ~larr ) et C ( vCC larr ou bien rCC larr ) La projection drsquoun eacutechantillon sur un axe u srsquoeacutecrit ix

uMxiu sdot=)(π (C4) La variance empirique de )( iu xπ vaut donc

uMMuxx ttiu

tiu sdotsdotsdot=sdot )()( ππ (C5)

Or on a vu que est diagonalisable dans une base orthonormeacutee donc

on peut noter P le changement de base associeacute et ∆ la matrice diagonale formeacutee de son spectre Ainsi

MMC t=

n

i 1)(λ PPMMC tt ∆==

)()()()( PuPuuPPuxx ttt

iut

iu sdot∆sdot=sdot∆sdot=sdotππ (C6) On pose v = Pu Chercher lrsquoaxe u qui maximise )( iu xπ revient donc agrave chercher le

vecteur v qui maximise ougravevvt ∆ )( 1 ndiag λλ K=∆ avec les iλ rangeacutes par ordre deacutecroissant Ce vecteur est trivialement le premier vecteur unitaire et on a alors

1λ=∆vvt

Ainsi le vecteur qui porte la plus grande part drsquoinertie du nuage est le premier

vecteur propre de C (premier par norme deacutecroissante) De mecircme le deuxiegraveme vecteur qui explique la plus grandelt part de lrsquoinertie restante est le deuxiegraveme vecteur propre de C Finalement la question de lrsquoACP se ramegravene agrave un problegraveme de diagonalisation de la matrice de correacutelation

C3 Code Matlab

function [vep vap] = pca(f N) f donneacutees N nombre de composantes agrave garder cor = f f formation de la matrice de correacutelation [vep vap] = eig(cor) calcul des vecteurs (vep) et valeurs (vap) propres [vap ind] = sort(diag(vap)) tri des valeurs propres par ordre croissant vap = flipud(vap) disposition inverse par ordre drsquoimportance vep = vep( flipud(ind)) classement en conseacutequence des vecteurs propres vep = vep( 1N) on ne garde que les N premiers vecteurs propres

Annexe C Analyse en composantes principales 58

59

Annexe D

Analyse en sous-bandes

D1 La transformeacutee de Fourier agrave court terme (TFCT) Pour affiner lrsquoanalyse les signaux sont donc deacutecoupeacutes en bandes de freacutequence par

TFCT La TFCT consiste agrave effectuer des transformeacutees de Fourier discregravetes sur des portions de signal fenecirctreacutees reacuteguliegraverement espaceacutees

On rappelle que la transformeacutee de Fourier drsquoun signal x(t) est deacutefinie (lorsque

lrsquointeacutegrale existe) par

int+infin

infinminus

minus= dtetxfX ftiπ2)()( (D1)

La transformeacutee de Fourier agrave temps discret (TFTD) drsquoun signal x(t) srsquoeacutecrit

sum+infin

minusinfin=

minus=n

fnienxfX π2)()( (D2)

La transformeacutee de Fourier discregravete (TFD) drsquoun signal discret x(k) est deacutefinie par

sum+infin

minusinfin=

minus=

n

Nkni

enxkXπ2

)()( (D3)

La TFCT discregravete est une TFD observeacutee sur une fenecirctre wa de taille N

summinus

=

minus+=

1

0

2)())(()(

N

n

Nnki

aaa enwtnxkXπ

ττ (D4)

ougrave )(taτ est lrsquoinstant drsquoanalyse

Annexe D Analyse en sous-bandes 60

Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT [Laroche 1995]

D2 Synthegravese par addition-recouvrement Lors de la synthegravese apregraves le deacutecoupage et lrsquoanalyse des fenecirctres on cherche agrave

reconstruire le signal temporel agrave partir de sa repreacutesentation freacutequentielle Pour cela on utilise la meacutethode OLA (overlap and add addition-recouvrement) qui consiste agrave prendre la TFCT inverse des spectres Xt puis agrave additionner les signaux obtenus apregraves les avoir multiplieacutes par une fenecirctre de pondeacuteration en les faisant se recouvrir partiellement

Le reacutesultat est donneacute par

sum=

minusminus=T

tsss tnxtnwnx

s1

))((~))(()(~ ττ τ (D5)

avec )()( tt as ττ = et summinus

=

=1

0

2))((~1)(~ N

k

Nkni

s ektXN

nxs

π

τ τ

Lors de la mise en œuvre de ce traitement il faut srsquoassurer drsquoecirctre en mesure de

reconstruire parfaitement un signal lorsqursquoaucune transformation ne lui est appliqueacutee Le critegravere de reconstruction parfaite condition suffisante est alors

sum=

=minusminusT

tasaa tnwtnw

11))(())(( ττ quelque soit n (D6)

D2 Synthegravese par addition-recouvrement 61

Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add [Laroche 1995]

Plusieurs paramegravetres sont agrave choisir avec soin Le premier drsquoentre eux est le type

de fenecirctre agrave utiliser Les diffeacuterentes options qui se preacutesentent agrave nous sont - la fenecirctre rectangulaire qui preacutesente dans son spectre le lobe principal le plus

eacutetroit mais des lobes secondaires non neacutegligeables - la fenecirctre de Hamming au lobe principal un peu plus large mais pour laquelle le

1er lobe secondaire se situe agrave -43 dB - la fenecirctre de Hann (ou cosinus sureacuteleveacute) qui ressemble agrave la preacuteceacutedente avec un

1er lobe secondaire plus fort mais une pente de 18 dB par octave pour les lobes suivants

- les fenecirctres de Blackman-Harris aux lobes secondaires tregraves bas mais au lobe principal plus large

Fenecirctre Lobe 2aire

(dB) Pente

(dBoct) Bande passante

agrave 6 dB (bins) Rectangulaire -13 -6 121 Triangulaire -27 -12 178

Hann -32 -18 200 Hamming -43 -6 181

Blackman-Harris 4 -92 -6 272

Tableau D1 - Caracteacuteristiques des principales fenecirctres drsquoanalyse [Harris 1978] Le meilleur compromis est donc dans notre contexte la fenecirctre de Hann ou celle

de Hamming

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 11: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

11 Principe 5

Figure 12 - Prototype de microphone HOA drsquoordre 4 constitueacute de 32 capteurs omnidirectifs

reacutepartis sur une sphegravere en plastique rigide [Moreau 2006]

112 Repreacutesentation de scegravene sonore avec HOA La seacuterie de Fourier-Bessel (A16) en Annexe A) tronqueacutee agrave lrsquoordre M donne une

approximation de la repreacutesentation du champ sonore

sum sum sum= = plusmn=

=M

m

m

nmnmnm

mM YBkrjikrp

0 0 1)()()(

σ

σσ δθδθ (12)

La repreacutesentation drsquoordre M est composeacutee de signaux HOA en 3D

et

2)1( += MK12 += MK signaux HOA si on se contente du plan horizontal

Pour mesurer lrsquoerreur de reconstruction on peut utiliser le critegravere des moindres

carreacutes normaliseacute (NMSE pour Normalized Mean Square Error)

intint

intint minus=

S

SM

dSkrp

dSkrpkrpkre 2

2

)(

)()()(

δθ

δθδθ (13)

Dans le cas particulier drsquoune onde plane lrsquoerreur de reconstruction est

indeacutependante de lrsquoangle drsquoincidence et ne deacutepend que de lrsquoordre et du produit kr En rappelant que k est le nombre drsquoonde cfck πω 2== on srsquoaperccediloit que lrsquoerreur de reconstruction pour un ordre donneacute augmente quand on srsquoeacuteloigne du centre du systegraveme (r augmente) ou lorsque la freacutequence srsquoeacutelegraveve On remarque qursquoune erreur de 4 (-14 dB) est atteinte approximativement quand M = kr

Chapitre 1 Ambisonics 6

Figure 13 - Erreur de reconstruction drsquoune onde plane en fonction

de lrsquoordre M et du produit kr [Moreau et al 2006]

Figure 14 - Repreacutesentation dans le plan horizontal dans une zone de diamegravetre 1m de la

reconstruction drsquoune onde plane (agrave droite) pour plusieurs ordres et freacutequences Les niveaux de gris repreacutesentent la valeur de la pression acoustique Les courbes eacutetoileacutees indiquent la

limite des zones ougrave lrsquoerreur de reconstruction est infeacuterieure agrave 7 (-115 dB) [Moreau 2006]

12 Encodage et deacutecodage spatial 7

12 Encodage et deacutecodage spatial

121 Encodage spatial Drsquoun point de vue drsquoingeacutenieur du son lrsquoencodage spatial peut ecirctre vu comme un

panoramique drsquoamplitude Un preneur de son lrsquointerpreacutetera comme une capture par un jeu de microphones directifs coiumlncidents Un matheacutematicien verra plutocirct le lien avec la deacutecomposition en harmoniques spheacuteriques deacutecrite en Annexe A

Eacutetudions le cas drsquoune onde plane provenant de la direction )( pp δθ avec une

amplitude S Lrsquoexpression du champ de pression srsquoeacutecrit alors

γδθ cos)( jkrSekrp = (14)

soit encore

)(cos)()12()(0

γδθ mmm

m PkrjjmSkrp suminfin

=

+= (15)

ougrave γ deacutesigne lrsquoangle entre la direction (θ δ ) du point drsquoobservation et la direction

)( pp δθ de provenance de lrsquoonde Il vient ensuite

sum sumsum= plusmn=

infin

=

=m

nmnppmnm

m

m YYkrjjSkrp0 10

)()()()(σ

σσ δθδθδθ (16)

En identifiant cette eacutequation (16) avec la seacuterie de Fourier-Bessel (A16) nous

obtenons finalement lrsquoexpression de la transformeacutee de Fourier spheacuterique drsquoun champ de pression acoustique engendreacute par une onde plane [Moreau 2006]

)( ppmnmn YSB δθσσ = (17)

Les coefficients sont ainsi deacutefinis par la valeur des harmoniques spheacuteriques

dans la direction de provenance de lrsquoonde plane pondeacutereacutee par lrsquoamplitude

σmnB

S du signal transporteacute Ce sont ces coefficients qui constituent le signal ambisonique Des coefficients de normalisation ou de semi-normalisation sont ensuite appliqueacutes pour que les signaux soient drsquoeacutenergie moyenne eacutequivalente entre eux ( ) ou entre les diffeacuterents ordres ( ) (voir Annexe A Tableau A1)

DN 3α DSN 3αDSN 3α

DSN 3α Ces fonctions drsquoencodage peuvent ecirctre simplifieacutees dans le cas drsquoune restriction agrave 2

dimensions (plan horizontal) On ne conserve alors que 2 composantes par ordre celles qui deacutecrivent le plan horizontal crsquoest-agrave-dire veacuterifiant m = n Les coefficients de normalisation sont alors diffeacuterents et lrsquoangle δ est nul Les composantes restantes sont alors

Chapitre 1 Ambisonics 8

ordre notations eacutecriture 0 W 1

00B 1

X 111B θcos2

1 Y 1

11minusB θsin2

U 122B )2cos(2 θ

2 V 1

22minusB )2sin(2 θ

- 1mmB )cos(2 θm

m - 1minus

mmB )sin(2 θm Tableau 11 - Fonctions drsquoencodage ambisonique dans le plan horizontal

avec la convention de normalisation associeacutee (N2D) La figure suivante illustre lrsquoencodage spatial aux ordres 0 1 et 2 de 2 sources

placeacutees aux angles vθ et vθ dans le plan horizontal

ordres 0 et 1 ordre 2

Figure 15 - Encodage horizontal [Moreau et al 2006] Le coefficient (gain) appliqueacute agrave

chaque composante de chacune des 2 sources est donneacute par les intersections des flegraveches et des diagrammes des harmoniques

Comme on peut le voir sur cette figure un encodage au 1er ordre offre une

discrimination angulaire peu appuyeacutee alors que les 2 sources pourtant proches auront des coefficients tregraves diffeacuterents agrave lrsquoordre 2 (les points drsquointersection sont plus eacuteloigneacutes)

122 Deacutecodage spatial Lrsquoobjectif du deacutecodage est de restituer au mieux sur un systegraveme de diffusion

donneacute le champ sonore HOA Il faut ainsi calculer les signaux Sl agrave diffuser sur L haut-parleurs en fonction des composantes ambisoniques Ces σ

mnB L haut-parleurs peuvent ecirctre disposeacutes dans le plan horizontal ou dans un espace tridimensionnel Les deacutecodages les plus courants srsquoeffectuent sur une demi-sphegravere (cas 3D) ou un cercle (cas 2D) de

12 Encodage et deacutecodage spatial 9

haut-parleurs Crsquoest une opeacuteration matricielle qursquoon peut formaliser dans le cas drsquoun deacutecodage dans le plan horizontal par lrsquoeacutequation

BSC =sdot (18)

ougrave la matrice C contient les vecteurs harmoniques spheacuteriques associeacutes agrave chaque direction de haut-parleur et organiseacutes suivant ses lignes le vecteur S contient les signaux eacutemis par les L haut-parleurs et enfin le vecteur B contient les signaux HOA

⎟⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜⎜

=

⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜

=

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

=

10

100

2

1

1011

10

11111

111

10011

100

)()()(

)()()()(

M

mn

LLLMM

llmn

LL

LL

B

B

B

B

S

SS

S

YYY

YYYY

CM

M

M

L

MM

L

L

σσ

δθδθδθ

δθδθδθδθ

(19)

)( ll δθ repeacuterant la position du legraveme haut-parleur

Il faut donc estimer S connaissant B et C Le deacutecodage se reacutesume alors agrave un systegraveme de (M +1)2 (en 3D) ou 2M +1 (en 2D) eacutequations lineacuteaires agrave L inconnues On ne peut trouver de solution exacte que si le nombre de haut-parleurs est au moins eacutegal au nombre de signaux crsquoest-agrave-dire si L gt (M +1)2 (en 3D) ou 2M +1 (en 2D) Crsquoest en outre une condition neacutecessaire pour pouvoir avoir une reproduction homogegravene de la scegravene sonore

La matrice C nrsquoest pas neacutecessairement carreacutee et inversible une solution geacuteneacuterale

consiste agrave calculer lrsquoinverse geacuteneacuteraliseacutee de la matrice C noteacutee D encore appeleacutee pseudo-inverse de Moore-Penrose

BDS sdot= (110)

avec

1pinv( ) ( )t tD C C C C minus= = sdot sdot (111) D est appeleacutee matrice de deacutecodage BDS sdot= reacutesout le systegraveme (18) si les haut-

parleurs sont suffisamment nombreux L gt (M +1)2 (en 3D) ou 2M +1 (en 2D)) Srsquoils sont en outre disposeacutes sur une sphegravere (3D) ou un cercle (2D) de maniegravere eacutequidistante crsquoest-agrave-dire srsquoils sont les sommets drsquoun polyegravedre ou polygone reacutegulier ils preacuteservent alors la proprieacuteteacute drsquoorthonormaliteacute des harmoniques spheacuteriques Ceci se traduit par

Lt ILCC sdot=sdot (112)

ougrave IL est la matrice identiteacute de taille LLtimes On a alors

1pinv( ) tD CL

= = C (113)

Chapitre 1 Ambisonics 10

Cette proprieacuteteacute ne peut pas ecirctre matheacutematiquement veacuterifieacutee en 3D au-delagrave de lrsquoordre 2 autrement dit il nrsquoexiste pas de polyegravedre reacutegulier dont la position des sommets conserve strictement lrsquoorthonormaliteacute des harmoniques spheacuteriques

Visuellement le deacutecodage correspond agrave la reproduction du champ sonore tel qursquoil

aurait eacuteteacute capteacute par un ensemble de N microphones agrave directiviteacutes hyper-cardioiumldes tourneacutes chacun vers lrsquoun des haut-parleurs Leur directiviteacute serait drsquoautant plus preacutecise que lrsquoordre de reproduction est eacuteleveacute

Figure 16 - Prise de son virtuelle eacutequivalente agrave un encodage au 1er ordre et un deacutecodage

basique sur une disposition en 2D hexagonale [Moreau et al 2006] Le gain gl appliqueacute agrave chaque haut-parleur pour une direction de source virtuelle donneacutee

(en vert) est indiqueacute par la longueur des flegraveches et est reporteacutee aux points drsquointersection de la flegraveche verte et des diagrammes de directiviteacute

On peut remarquer que les diagrammes de directiviteacute sont tregraves larges par rapport

agrave lrsquoespacement angulaire des haut-parleurs Le 2nd ordre offrirait des directiviteacutes plus fines et donc une seacutelectiviteacute spatiale accrue Il faudrait alors bien sucircr davantage de haut-parleurs pour ne pas introduire des ldquotrousrdquo entre eux On remarque eacutegalement la preacutesence non neacutegligeable des lobes secondaires utiles pour la reconstruction du champ acoustique (notamment en basses freacutequences) mais qui peuvent ecirctre gecircnants dans certains cas par exemple lorsque lrsquoauditoire est large

Ce deacutecodage est appeleacute deacutecodage basique car il nrsquooptimise pas la restitution en

accord une quelconque hypothegravese et cherche uniquement agrave reproduire fidegravelement le champ acoustique Pour ameacuteliorer la restitution dans des cas critiques comme par exemple en-dehors du sweet spot (centre du dispositif) il faut optimiser le deacutecodage en reacuteduisant par exemple les lobes secondaires Ainsi le deacutecodage max-rE srsquoattache agrave maximiser lrsquoeacutenergie reccedilue de la provenance de la direction souhaiteacutee alors que le deacutecodage in-phase annule complegravetement ces lobes secondaires (voir Annexe B)

13 Critique de la technologie HOA 11

13 Critique de la technologie HOA

131 Bilan On a ainsi vu que la technologie HOA est une repreacutesentation intermeacutediaire du

champ de pression acoustique agrave mi-chemin entre la description directe du champ lui-mecircme et des signaux agrave restituer Cette technologie a de nombreux avantages compareacutee aux autres meacutethodes de reproduction de champ sonore (on trouvera notamment une eacutetude deacutetailleacutee des comparaisons entre HOA et la Wave Field Synthesis (WFS) dans [Daniel et al 2003]) elle permet drsquoeacuteviter le repliement spatial (voir paragraphe suivant) et permet ainsi une reconstruction dans une gamme de freacutequences tregraves large

La qualiteacute de la restitution ambisonique nrsquoest theacuteoriquement limiteacutee que part

lrsquoordre de troncature de la seacuterie de Fourier-Bessel agrave partir du moment ougrave le nombre de haut-parleurs est suffisant Ainsi un ordre tendant vers lrsquoinfini (et un nombre de haut-parleurs au moins aussi grand) permettra une reproduction quasi-parfaite sur lrsquoensemble de la zone drsquoeacutecoute

Mais les principaux avantages de cette technologie sont drsquoune part drsquoecirctre flexible

crsquoest-agrave-dire qursquoon peut agrave loisir adapter le nombre de signaux transmis au canal de transmission Une chute de deacutebit nrsquoentraicircnera pas de coupure de la transmission mais simplement une perte de preacutecision spatiale par lrsquoabandon des composantes drsquoordres les plus eacuteleveacutes Et drsquoautre part elle est indeacutependante du systegraveme de reproduction Ainsi un mecircme signal HOA pourra ecirctre diffuseacute sur toutes les configurations de haut-parleurs il suffira pour cela de calculer la matrice de deacutecodage associeacutee agrave ce systegraveme

132 Limites pratiques Dans la pratique cette technologie a toutefois des limitations Si lrsquoaliasing spectral

est eacuteviteacute on constate aux ordres les plus eacuteleveacutes lrsquoapparition drsquoun repliement spatial lors des enregistrements naturels agrave partir drsquoune freacutequence lieacutee agrave la distance maximale entre 2 capsules du microphone HOA (qui doit ecirctre au plus eacutegale agrave la moitieacute de la plus petite longueur drsquoonde drsquoapregraves Shannon) et au nombre total de capsules (qui doit ecirctre supeacuterieur agrave (M+1)2 M eacutetant lrsquoordre auquel on souhaite enregistrer)

Le repliement spectral repreacutesente la preacutesence importune dans des composantes

ambisoniques de sources qui de part leur position ne devraient qursquoapparaicirctre avec cette importance que dans les composantes drsquoordre plus eacuteleveacute Il est ducirc agrave lrsquointrusion des directiviteacutes drsquoordres supeacuterieurs dans les composantes harmoniques spheacuteriques estimeacutees Comme on le voit sur la Figure 17 les directiviteacutes ne sont pas des cylindres (au sens matheacutematique du terme la base nrsquoeacutetant pas forceacutement un cercle) mais varient en fonction de la freacutequence pour ressembler davantage dans le haut du spectre aux courbes de directiviteacute de lrsquoordre supeacuterieur Ainsi la directiviteacute de lrsquoordre 1 (2egraveme graphique) qui devrait ecirctre un 8 ressemble davantage au-dessus de 10 000 Hz agrave la figure de directiviteacute de lrsquoordre 4 (8 lobes)

Chapitre 1 Ambisonics 12

Figure 17 - Directiviteacutes theacuteoriques (en transparence) et reconstruites (grille) dans le plan horizontal pour des ondes planes horizontales Lrsquoaxe vertical correspond agrave la freacutequence et

les diffeacuterents graphiques aux ordres 0123 et 4 de gauche agrave droite Agrave lrsquoopposeacute la taille reacuteduite du microphone si elle permet de reacuteduire cet aliasing

spatial empecircche la capture des basses freacutequences aux ordres supeacuterieurs (voir 232) La reacutesolution spatiale des basses freacutequences sera donc moindre ce qui implique que en ajoutant lrsquoeffet du repliement en hautes freacutequences les ordres eacuteleveacutes capteacutes avec le micro HOA ne constituent qursquoune plage du spectre assez peu eacutetendue crsquoest cette seule plage qui pourra se targuer drsquoune excellente preacutecision spatiale

13

Chapitre 2

Analyser un contenu HOA

21 Objectifs La reacuteflexion a tout au long du stage eacuteteacute orienteacutee vers deux objectifs le premier

est dans un contexte de transmission de reconstruire une scegravene spatialiseacutee agrave partir du minimum drsquoinformations le deuxiegraveme appliqueacute agrave des ordres plus eacuteleveacutes est drsquoarriver agrave resyntheacutetiser les composantes de lrsquoordre immeacutediatement supeacuterieur

211 Restitution de la spatialisation agrave partir drsquoun downmix mono La premiegravere approche vise donc agrave reconstruire une scegravene spatialiseacutee agrave partir drsquoun

downmix le plus leacuteger possible Un downmix est une reacuteduction du nombre de canaux par fusion lrsquoexemple le plus simple eacutetant le passage drsquoun signal steacutereacuteo agrave un signal mono construit comme la demi-somme des composantes gauche et droite On tente dans cette approche de se restreindre au plus petit nombre de signaux possible un signal eacutetant tregraves coucircteux agrave transmettre en ajoutant parallegravelement agrave ce signal des informations compleacutementaires aidant agrave la reconstruction

Le cas extrecircme est la reacuteduction du flux agrave un signal mono Dans le cas

drsquoambisonics un signal mono comprenant toutes les sources est deacutejagrave preacutesent il srsquoagit de la composante omnidirectionnelle W Il faut donc extraire de la scegravene encodeacutee agrave un certain ordre M des informations permettant la reconstruction drsquoun ordre Mrsquo apregraves transmission Nous verrons que nous allons chercher agrave trouver les positions des sources gracircce agrave une analyse en composantes principales (ou ACP voir Annexe C) effectueacutee par sous-bandes (voir Annexe D)

212 Ameacutelioration de la preacutecision spatiale La deuxiegraveme piste suivie a pour but de reconstituer un ordre ambisonique non

transmis On pourrait qualifier cette approche drsquoupmix ambisonique car elle vise agrave reconstruire un ordre manquant En effet le format ambisonique eacutetant flexible il est bien

Chapitre 2 Analyser un contenu HOA 14

adapteacute agrave la transmission Ainsi si on souhaite transmettre une scegravene encodeacutee agrave lrsquoordre 2 dans le plan horizontal il faudra un canal drsquoun deacutebit minimum (si lrsquoon prend lrsquohypothegravese de pas vouloir compresser les signaux) de 471 Mos Un canal plus petit (par exemple 34 Mos) ne permettra theacuteoriquement de transmettre qursquoun ordre 1 Mais lrsquoanalyse des signaux peut permettre de deacuteterminer les positions des sources agrave partir desquelles on peut syntheacutetiser des composantes du 2nd ordre approchant les composantes drsquoorigine On pourrait mecircme imaginer pouvoir syntheacutetiser un ordre qui nrsquoavait pas eacuteteacute encodeacute agrave lrsquoorigine

Pour cela il est neacutecessaire de deacuteterminer les positions des sources preacutedominantes

dans le champ sonore pour piloter leur encodage spatial aux ordres supeacuterieurs et arriver agrave la synthegravese drsquoune repreacutesentation de reacutesolution spatiale accrue Il srsquoagit dans le mecircme temps drsquoisoler au mieux les signaux associeacutes agrave ces diffeacuterentes sources avant de leur appliquer lrsquoopeacuteration drsquoencodage on se rapproche donc drsquoun problegraveme de seacuteparation de sources

Pour parvenir agrave trouver ces positions deux meacutethodes ont eacuteteacute testeacutees La premiegravere

consiste comme preacuteceacutedemment agrave appliquer en sous-bandes une analyse en composantes principales La seconde implique la formation de directiviteacutes agrave partir des vecteurs propres de la matrice de correacutelation utiliseacutee dans cette analyse

Lrsquoanalyse en composantes principales ou ACP (voir Annexe C) est donc

largement privileacutegieacutee dans nos approches Elle permet en effet tregraves facilement drsquoextraire des informations preacutecises de signaux correacuteleacutes Pour justifier ce choix une autre meacutethode reacutecente a eacutegalement eacuteteacute testeacutee et compareacutee agrave lrsquoACP (voir 11)

22 Principe de lrsquoextraction drsquoinformation spatiale avec une ACP

221 Information spatiale

Nous avons donc tout drsquoabord testeacute lrsquoanalyse en composantes principales sur des

signaux HOA Nous avons choisi dans un premier temps de limiter lrsquoanalyse aux composantes horizontales du premier ordre W X et Y avant de lrsquoeacutetendre agrave la 3egraveme dimension avec Z

Dans un premier test les signaux HOA sont analyseacutes par une ACP dans leur

inteacutegraliteacute LrsquoACP est appliqueacutee sur les signaux X et Y qui contiennent lrsquoinformation spatiale En effet X et Y correspondent aux signaux qui seraient capteacutes par des microphones agrave figure en 8 placeacutes sur lrsquoaxe avant-arriegravere et gauche-droite respectivement

La Figure 21 montre la correacutelation entre X et Y dans le cas drsquoun bruit blanc capteacute

par le microphone ambisonique Les points ne sont pas exactement aligneacutes du fait des artefacts inheacuterents agrave la prise de son (reacuteflexions sur les parois approximations du microphone etc)

22 Principe de lrsquoextraction drsquoinformation spatiale avec une ACP 15

Figure 21 - Y en fonction de X dans le cas drsquoun bruit blanc enregistreacute placeacute agrave 30deg

On remarque que le nuage est eacutetireacute dans la direction de provenance du son indiqueacutee par la flegraveche en pointilleacutes verts

222 Application de lrsquoanalyse en composantes principales La 1egravere composante issue de lrsquoACP appliqueacutee dans le plan (X Y) pointe dans la

direction dans laquelle X et Y ont la plus grande correacutelation Or comme X contient lrsquoinformation placeacutee sur lrsquoaxe avant-arriegravere et Y lrsquoinformation de lrsquoaxe gauche-droite cette direction est directement la direction de la source Par exemple un son situeacute droit devant dans lrsquoaxe (agrave 0deg) aura une composante Y nulle et par conseacutequent les eacutechantillons seront dans le plan tous disposeacutes sur lrsquoaxe horizontal LrsquoACP prendra donc naturellement cet axe comme 1er vecteur propre et il pointe bien vers la position de la source De mecircme un son situeacute agrave 135deg ( π28

3 times rad) aura la proprieacuteteacute Y = -X Les eacutechantillons seront donc placeacutes sur la 2egraveme bissectrice qui fait avec lrsquoaxe Y=0 un angle de 135deg (voir Figure 22)

Figure 22 - Y en fonction de X dans le cas drsquoun son placeacute artificiellement dans la direction

indiqueacutee par la flegraveche en pointilleacutes verts agrave 0deg (agrave gauche) et 135deg (agrave droite)

Chapitre 2 Analyser un contenu HOA 16

Lrsquoanalyse de X et Y ne permet cependant de deacuteterminer lrsquoangle qursquoagrave π pregraves il reste une indeacutetermination (on deacutetermine la direction drsquoun axe qursquoil reste agrave orienter) Pour lever cette ambiguiumlteacute on integravegre W agrave lrsquoanalyse car cette composante pourtant omnidirectionnelle et donc deacutepourvue drsquoinformation spatiale apporte une reacutefeacuterence pour les phases Ainsi notre son placeacute agrave 135deg veacuterifiait (aux eacuteventuels coefficients de normalisation pregraves) Y = -X = W alors qursquoun son placeacute agrave 135 - 180 = -45deg aurait la proprieacuteteacute Y = -X = -W

Pour prendre en compte W dans lrsquoanalyse on peut comparer directement les

phases de ces 3 canaux Algorithmiquement on ramegravene lrsquoangle trouveacute agrave son modulo π2 puis on deacutetermine le vrai cadran par comparaison des phases de W X et Y crsquoest-agrave-dire en comparant le signe des produits W X et W Y Ainsi W X gt 0 signifie que W et X sont en phase et reacuteciproquement (voir Figure 23)

W X lt 0 W Y gt 0

W X gt 0 W Y gt 0

W X lt 0 W Y lt 0

W X gt 0 W Y lt 0

minusπ2

π

π2

0

Figure 23 - Signes de W X et W Y en fonction du cadran On peut eacutegalement inteacutegrer W agrave lrsquoanalyse en appliquant lACP sur le triplet (X Y

W) Le problegraveme drsquoambiguiumlteacute est ainsi reacutesolu la direction rechercheacutee eacutetant celle du vecteur principal dans le demi-espace W gt 0 projeteacutee sur le plan (X Y) Cette meacutethode srsquoavegravere plus robuste et surtout plus geacuteneacuteralisable agrave des ordres plus eacuteleveacutes

Cette analyse permet donc de deacuteterminer la position drsquoune source unique Pour

pouvoir seacuteparer plusieurs sources nous avons appliqueacute lrsquoACP par sous-bandes en supposant que les sources nrsquoont pas des supports freacutequentiels strictement identiques Le principe de cette analyse en sous-bandes est deacuteveloppeacute en Annexe D

23 Meacutethodologie

231 Construction de scegravenes artificielles Pour tester les algorithmes impleacutementeacutes nous avons ducirc creacuteer des scegravenes sonores

spatialiseacutees au format HOA Plusieurs types de scegravenes ont eacuteteacute utiliseacutes de complexiteacutes diffeacuterentes Les premiegraveres ont eacuteteacute des scegravenes virtuelles syntheacutetiseacutees avec Matlab Les premiegraveres scegravenes simplissimes ne comportait qursquoune sinusoiumlde ou un bruit blanc fixe placeacute dans le plan horizontal Puis pour tester lrsquoanalyse par sous-bandes ont eacuteteacute creacuteeacutes des sons polyphoniques composeacutes de 2 sinusoiumldes tout drsquoabord puis de sons complexes (syntheacutetiseacutes par synthegravese FM) dans des gammes freacutequentielles distinctes ou se

23 Meacutethodologie 17

chevauchant Enfin ces sons ont eacuteteacute rendus mobiles en faisant varier leur position dans le temps

Nous avons pu ainsi constater agrave lrsquoaide des sons fixes et de supports freacutequentiels

distincts la preacutecision de lrsquoanalyse et avec les sons mobiles et mecircleacutes sa robustesse Nous nous sommes limiteacutes sous Matlab agrave la geacuteneacuteration de 2 sons simultaneacutes et du 1er ordre et un autre outil Plogue Bidule a eacuteteacute utiliseacute pour composer des scegravenes plus complexes

Bidule est un studio modulaire virtuel ressemblant agrave MAXMSP Des plugins ont

eacuteteacute deacuteveloppeacutes agrave France Teacuteleacutecom pour permettre de manipuler des signaux HOA Ainsi des scegravenes complexes ont pu facilement ecirctre syntheacutetiseacutees agrave des ordres eacuteleveacutes Des scegravenes agrave 3 et 4 sources fixes ou dont 1 source mobile ont eacuteteacute reacutealiseacutees agrave partir de voix deacutemixeacutees placeacutees dans le plan horizontal ou en 3 dimensions

Ces scegravenes eacutetant artificielles elles sont en un sens ideacuteales ne contiennent aucun

signal reacuteverbeacutereacute (effet de salle) ni diffracteacute (par un micro) lrsquoencodage est fait sans artefacts les ondes sont consideacutereacutees comme planes et ont donc une direction bien deacutefinie Si on est ici bien loin de la vraie vie le gros avantage des scegravenes artificielles est qursquoon connaicirct preacuteciseacutement agrave chaque instant la position des sources et qursquoon peut ainsi veacuterifier le reacutesultat de lrsquoanalyse

Figure 24 - Interface graphique du logiciel Bidule avec agrave droite les controcircles des encodeurs

et deacutecodeurs HOA creacuteeacutes agrave France Teacuteleacutecom

Chapitre 2 Analyser un contenu HOA 18

232 Exploitation drsquoenregistrements naturels Une fois des reacutesultats convaincants obtenus avec des scegravenes virtuelles des

enregistrements naturels ont eacuteteacute analyseacutes Ces scegravenes ont eacuteteacute enregistreacutees gracircce au prototype de micro HOA du 4egraveme ordre deacuteveloppeacute agrave France Teacuteleacutecom (voir Figure 12) Ce processus implique des diffeacuterences notables avec un encodage virtuel

Le prototype de microphone contraint en effet agrave quelques compromis pour

optimiser des critegraveres incompatibles La taille du microphone reacutesulte drsquoun compromis entre la preacutecision drsquoestimation des composantes en basses freacutequences qui neacutecessite une taille eacuteleveacutee et la minimisation de lrsquoaliasing spatial qui ne peut ecirctre eacuteviteacute qursquoavec des capsules tregraves proches les unes des autres Leur disposition est eacutegalement irreacuteguliegravere il nrsquoexiste en fait aucune faccedilon de disposer reacuteguliegraverement plus de 20 points sur une sphegravere La configuration qui avait eacuteteacute retenue par les concepteurs [Moreau 2006] est la ldquomoins irreacuteguliegravere possiblerdquo au sens de la preacuteservation de lrsquoorthonormaliteacute des harmoniques spheacuteriques les 32 capsules sont reacuteparties sur une sphegravere de 35 cm de rayon selon un Pentaki-dodeacutecahegravedre polyegravedre semi-reacutegulier dual de lrsquoicosaegravedre tronqueacute (ballon de football)

Ces artefacts sont donc inheacuterents agrave lrsquoutilisation drsquoun reacuteseau de microphones Mais

le monde reacuteel pose eacutegalement des problegravemes deacutelicats La complexiteacute des modes de rayonnement drsquointeraction avec lrsquoenvironnement reacuteclame lrsquointroduction de modegraveles drsquoencodage beaucoup plus complexes que le cas drsquoune onde plane en champ libre et rend lrsquoinformation spatiale moins limpide et univoque au sein de la scegravene encodeacutee (enregistreacutee) en comparaison avec une scegravene virtuelle Les sources ne sont ainsi plus ponctuelles mais eacutetendues elles ne sont plus agrave lrsquoinfini mais agrave une distance finie du microphone (les ondes reccedilues ne sont donc plus planes) En outre chaque source en se reacutefleacutechissant sur les parois et les diffeacuterents objets de la salle creacutee une multitude de sources secondaires Il est enfin souvent difficile de connaicirctre avec preacutecision la position drsquoune source dans lrsquoespace lors drsquoun enregistrement

Des enregistrements en chambre sourde ont eacuteteacute reacutealiseacutes pour se passer des

reacuteflexions de lrsquoenvironnement Afin de connaicirctre avec preacutecision la position de la source un haut-parleur diffusant un bruit blanc nous avons placeacute le microphone sur une table tournante commandeacutee par un plug-in sous Plogue Bidule

233 Visualisations des reacutesultats Lrsquoobservation des reacutesultats a eacuteteacute effectueacutee de plusieurs maniegraveres visuellement et

par lrsquoeacutecoute Les graphiques eacutetant plus commodes crsquoest par cette voie que les premiers essais eacutetaient conclus Plusieurs types de graphiques ont eacuteteacute produits deacutecrivant des paramegravetres diffeacuterents

Les repreacutesentations temps-freacutequence permettent de repreacutesenter une variable agrave 1

dimension sous Matlab Cette voie a eacuteteacute suivie pour visualiser les paramegravetres extraits de chaque sous-bande de chaque fenecirctre notamment les angles lrsquoeacutenergie et la pertinence Malheureusement Matlab ne permet pas de repreacutesenter sur le mecircme graphique une 4egraveme dimension sous la forme drsquoune 2egraveme dimension colorimeacutetrique (on prend geacuteneacuteralement la

23 Meacutethodologie 19

saturation) Cette dimension suppleacutementaire aurait permis de repreacutesenter simultaneacutement les angles et leur pertinence

Figure 25 - Repreacutesentation

et de lrsquoespace col

Pour repreacutesenter s

drsquoabandonner une dimensipouvoir repreacutesenter danrepreacutesenteacutees soit par le niv

Figure 26 - Repreacutesentationdeacutecrite en 332 (en absciss

est repreacutesenteacutee agrave gauc

234 Diffeacuterents modes La visualisation est

indispensable pour veacuterifiesont possibles de ceux-cainsi reconstitueacutee agrave partir d

1 W+Y+02X pour le c

π 0 minusπ

de la table des couleurs dite HSV de Matlab (lineacuteaire agrave gauche) orimeacutetrique HSL (Hue Saturation Luminance agrave droite)

imultaneacutement angles et pertinence il eacutetait donc neacutecessaire on Crsquoest le deacutecoupage freacutequentiel qui a eacuteteacute mis de cocircteacute pour s un plan temps-angles les pertinences Celles-ci sont eau de gris des points soit par leur taille

de la pertinence des angles de la scegravene agrave 4 sources dont 1 mobile e les trames en ordonneacutees les angles en degreacute) La pertinence he par lrsquointensiteacute du bleu et agrave droite par la taille des points

drsquoeacutecoute

un indice preacutecis de reacutesultat mais lrsquoeacutecoute est tout de mecircme r la qualiteacute globale de la synthegravese Plusieurs modes drsquoeacutecoute i lrsquoeacutecoute au casque est la plus aiseacutee Une pseudo-steacutereacuteo est es signaux du 1er ordre1 pour restituer les scegravenes restreintes au

anal gauche et W-Y+02X pour le canal droit

Chapitre 2 Analyser un contenu HOA 20

plan horizontal Pour plus de preacutecision agrave la restitution ou pour des scegravenes en 3D et sans perdre la faciliteacute drsquoune eacutecoute personnelle au casque on peut appliquer des filtres HRTF (Head-Related Transfert Function) pour une reproduction binaurale

Pour appreacutecier pleinement la spatialisation la diffusion sur un systegraveme multi

haut-parleurs est indispensable Deux systegravemes sont installeacutes dans le laboratoire de France Teacuteleacutecom un systegraveme 51 et un systegraveme circulaire de 48 haut-parleurs Ces systegravemes installeacutes dans des studios insonoriseacutes offrent une grande qualiteacute drsquoeacutecoute qui permet de repeacuterer les deacutefauts mecircme minimes de la synthegravese

21

Chapitre 3

Description des analyses

31 Deacutetermination des directions principales

311 Base des algorithmes Nous avons deacuteveloppeacute plusieurs algorithmes reacutepondant aux diffeacuterents objectifs

deacutecrits plus haut Chacun drsquoeux possegravede des particulariteacutes leur permettant de reacutepondre agrave ces objectifs mais on trouve neacuteanmoins une partie commune Ainsi toutes les analyses reposent sur le mecircme modegravele drsquoapplication drsquoune ACP par sous-bandes dont voici le scheacutema geacuteneacuteral

Figure 31 - Scheacutema geacuteneacuteral drsquoanalyse

Les signaux en entreacutee sont les composantes HOA W X et Y dans la plupart des

cas mais peuvent ecirctre eacutegalement des composantes drsquoordre plus eacuteleveacute (voir 11) Sur le fenecirctrage jouent plusieurs paramegravetres comme la taille de la fenecirctre ou encore le pourcentage de recouvrement entre elles Nous avons choisi une fenecirctre en racine de la fenecirctre de Hanning crsquoest-agrave-dire une arche de sinusoiumlde (voir eacutequation (D7) en Annexe D) avec un recouvrement de 50 ce qui veacuterifie le critegravere de reconstruction parfaite (D6) Le filtrage est pour des raisons de rapiditeacute de calcul reacutealiseacute dans le domaine freacutequentiel par une simple multiplication avant de repasser en temporel pour appliquer lrsquoACP

Le banc de filtre utiliseacute est un banc inspireacute des filtres ERB Les filtres ERB

(Equivalent Regular Bandwidth) sont des filtres imitant le comportement de seacuteparation freacutequentielle de lrsquooreille humaine plus preacutecise en basse freacutequence Les filtres utiliseacutes ici ne sont pas directement des filtres ERB le systegraveme nrsquoa pas drsquointeacuterecirct particulier agrave essayer de copier le fonctionnement de lrsquooreille humaine Ces filtres ont eacuteteacute adapteacutes au problegraveme en

Chapitre 3 Description des analyses 22

srsquoassurant en particulier de la finesse des bandes permettant la meilleure discrimination des diffeacuterentes sources crsquoest-agrave-dire autour des fondamentales usuelles (200-1000 Hz) et des harmoniques Les freacutequences aigueumls sont bien discrimineacutees par les filtres ERB (relativement agrave la gamme crsquoest-agrave-dire en eacutechelle logarithmique) le deacutecoupage a donc surtout eacuteteacute densifieacute entre 200 et 800 Hz par rapport aux bandes ERB

Figure 32 - Filtres utiliseacutes inspireacutes des filtres ERB repreacutesenteacutes lineacuteairement (en haut)

et sur une eacutechelle logarithmique (en bas) Les reacutesultats de lrsquoACP sont donc avec cette meacutethode les angles des sources

trouveacutees dans chaque sous-bande ainsi que pour chacun drsquoeux un critegravere de pertinence calculeacute en fonction de lrsquoeacutenergie de la sous-bande dans une fenecirctre donneacutee et de la norme relative de la premiegravere composante de lrsquoACP (voir 342) Les autres vecteurs propres peuvent ecirctre utiliseacutes pour extraire davantage drsquoinformations et mecircme des signaux deacutecorreacuteleacutes comme on le verra au paragraphe 35 mais lrsquoanalyse semble alors moins robuste Srsquoen tenir aux informations donneacutees par la composante principale est un gage de pertinence suppleacutementaire

Ces reacutesultats concernent donc les sources preacutedominantes ou principales mais

laissent de cocircteacute un certain nombre drsquoeacuteveacutenements sonores agrave consideacuterer

312 Traitement du champ reacutesiduel Le champ reacutesiduel regroupe en quelque sorte tout ce qui nrsquoest pas une source

principale Il inclut donc les reacuteflexions et la reacuteverbeacuteration de la piegravece mais aussi les bruits parasites occasionnels ou continus (ventilation etc) Ces bruits ou eacutechos nrsquoont pas de direction de provenance assez distincte pour pouvoir ecirctre mesureacutee preacuteciseacutement Le champ reacutesiduel est eacutegalement composeacute du champ diffus La notion de champ diffus est couramment utiliseacutee mais rarement preacuteciseacutement deacutefinie On trouve dans la litteacuterature des deacutefinitions diverses lrsquoune drsquoelles preacutecisant qursquoil serait un ensemble drsquoeacuteveacutenements sonores proches en temps et provenant de directions eacutequiprobables

Les algorithmes proposeacutes traitent correctement les sources principales mais le

champ reacutesiduel est laisseacute de cocircteacute Il est pourtant tregraves important pour lrsquoimmersion du sujet dans la scegravene une scegravene deacutepourvue de champ sonore sera perccedilue comme artificielle ce qui nuit agrave la perception drsquoespace On sera par exemple davantage conscients drsquoecirctre au centre drsquoun dispositif expeacuterimental et moins sensibles aux variations de profondeur et de perspectives

31 Deacutetermination des directions principales 23

Neacuteanmoins il faut relativiser lrsquoimportance de ce champ reacutesiduel il nrsquoest pas utile pour la localisation des sources principales et ne caracteacuterise que lrsquoenvironnement drsquoenregistrement En outre le champ reacutesiduel qui provient souvent de directions floues et notre but nrsquoest pas de les preacuteciser artificiellement Il nrsquoest degraves lors geacuteneacuteralement pas utile de le transmettre aux ordres eacuteleveacutes

Ainsi certains auteurs [Merimaa and Pulkki 2005] ont choisi de recreacuteer lors drsquoune

synthegravese un champ diffus artificiel baseacute sur une reacuteponse impulsionnelle de salle calculeacutee agrave lrsquoavance Lrsquoavantage est une immersion un enveloppement complets lrsquoinconveacutenient est que lrsquoambiance ainsi recreacuteeacutee est fictive et arbitraire et en outre complegravetement indeacutependante de lrsquoambiance initiale en laissant notamment de cocircteacute les sources secondaires

Nous proposons dans nos algorithmes de ne pas syntheacutetiser le champ diffus aux

ordres eacuteleveacutes mais de nous contenter de la description du champ reacutesiduel fourni par les ordres transmis (1er ordre dans nos exemples) Nous nous limiterons donc agrave preacuteciser par la synthegravese des ordres supeacuterieurs les positions des sources principales

32 Extension agrave la 3D Nous avons pour le moment eacutevoqueacute le cas de repreacutesentations de champ sonore agrave

2 dimensions crsquoest-agrave-dire issus de sources placeacutees dans le plan horizontal Mais certaines repreacutesentations comportent eacutegalement des composantes verticales Pour analyser ces signaux en 3 dimensions il faut inteacutegrer la composante Z On effectue alors simplement une ACP sur X Y Z et W Le 1er vecteur propre sera alors bien dirigeacute dans lrsquoespace (X Y Z) dans la direction de la source lrsquoambiguiumlteacute de frac12 espace eacutetant leveacutee par W

Lrsquoalgorithme est alors complegravetement similaire agrave celui analysant des signaux en 2

dimensions Des tests ont eacuteteacute reacutealiseacutes agrave partir de signaux syntheacutetiques pour lesquels les positions des sources eacutetaient connues pour des raisons pratiques aucune scegravene sonore reacuteelle en 3 dimensions nrsquoa pu ecirctre enregistreacutee avec une connaissance initiale preacutecise des positions des sources

Les visualisations et les eacutecoutes eacutetant plus deacutelicates en 3D et lrsquoextension agrave la 3D

eacutetant immeacutediate nous avons donc concentreacute nos efforts sur lrsquoanalyse de scegravenes en 2D En outre en lrsquoabsence de dispositif spheacuterique ou heacutemispheacuterique de haut-parleurs le seul moyen agrave notre disposition pour eacutecouter une scegravene 3D est lrsquoeacutecoute binaurale crsquoest-agrave-dire au casque avec des fonctions de transfert de tecircte (HRTF) relativement bien adapteacutees agrave lrsquoauditeur

33 Analyse aux ordres supeacuterieurs

331 Description Afin drsquoameacuteliorer la preacutecision de lrsquoanalyse nous avons essayeacute drsquoappliquer une ACP

sur des signaux ambisoniques drsquoordre plus eacuteleveacute (signaux HOA) dans le plan horizontal Deux meacutethodes ont eacuteteacute essayeacutees

Chapitre 3 Description des analyses 24

La premiegravere consiste agrave appliquer une ACP agrave 3 dimensions successivement sur les composantes X Y W (ordre 1 et 0) puis U V W (ordre 2 et 0) et ainsi de suite crsquoest-agrave-dire (en utilisant la notation geacuteneacuterale) sur les composantes et W (ordre m et 0) Les reacutesultats de ces analyses (les directions des 1

)1(0mY )1(

0minus

mYegraveres composantes) sont ensuite regroupeacutees

lrsquoanalyse de lrsquoordre 1 fournissant des reacutesultats modulo 2π lrsquoanalyse de lrsquoordre 2 des reacutesultats plus preacutecis mais modulo π et plus geacuteneacuteralement lrsquoanalyse de lrsquoordre m permettant de trouver des angles modulo mπ2

La limite de cette approche se perccediloit lors de la fusion des reacutesultats les angles

trouveacutes agrave un ordre eacuteleveacute sont plus preacutecis dans des bandes de freacutequences eacuteleveacutees mais la limitation theacuteorique de ces signaux HOA dans les basses freacutequences font que lrsquoanalyse de lrsquoordre 1 reste la plus pertinente dans les premiegraveres bandes Parvenir agrave deacuteterminer agrave partir de quelle freacutequence on peut faire davantage confiance agrave lrsquoordre n+1 qursquoagrave lrsquoordre n nrsquoest pas aiseacute et cette limite provoque des aberrations dans les angles trouveacutes Une source unique pourra par exemple ecirctre interpreacuteteacutee par lrsquoalgorithme des k-moyennes (voir 341) comme 2 sources une en hautes freacutequences et une en basses freacutequences les 2 eacutetant trouveacutes agrave 2 angles diffeacuterents chaque angle relevant drsquoun ordre analyseacute diffeacuterent

La deuxiegraveme meacutethode consiste pour eacuteviter cette fusion des reacutesultats agrave effectuer

une seule ACP sur les composantes U V X Y et W Cette meacutethode souffre drsquoune tregraves grande complexiteacute algorithmique pour une ameacutelioration de la preacutecision peu sensible En effet si cette meacutethode permet drsquoobtenir des reacutesultats plus preacutecis dans certaines bandes de freacutequences elle est sensible aux deacutefauts et les limites des ordres supeacuterieurs (lrsquoabsence de basses freacutequences entre autres) perturbent lrsquoanalyse en composantes principales

332 Illustration sur une scegravene virtuelle La scegravene preacutesenteacutee ici est une scegravene artificielle crsquoest-agrave-dire composeacutee de sons

placeacutes artificiellement agrave diverses positions Elle a une dureacutee totale de 135 s et comporte 4 sources positionneacutees dans le plan horizontal une guitare placeacutee agrave 45deg une basse agrave -70deg une batterie agrave 110deg et une voix feacuteminine qui effectue continucircment un tour complet dans le sens indirect en partant de lrsquoarriegravere (elle passe donc successivement par les positions 180deg 90deg 0deg -90deg et -180deg) La guitare et la batterie srsquoarrecirctent peu avant la fin de la scegravene (12egraveme seconde au 910egraveme du son approximativement)

Figure 33 - Position des sources de la scegravene de test agrave 4 sources dont 1 mobile

33 Analyse aux ordres supeacuterieurs 25

Figure 34 - Angles drsquoune scegravene virtuelle ayant 1 source mobile et 3 sources fixes

(deacutecrite en 332) trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 Pour chaque trame (en abscisse) 20 angles (1 par bande en ordonneacutee et en degreacutes) sont

reporteacutes le diamegravetre du point correspondant agrave un critegravere de pertinence (voir 342)

Figure 35 - Angles de la mecircme scegravene trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 2 Reacutesultats modulo π reacutepliqueacutes pour faciliter la comparaison avec la figure preacuteceacutedente On remarque que les lignes sont plus nettes qursquoil y a moins drsquoangles aberrants et que

les angles corrects sont plus marqueacutes (ils sont deacutetermineacutes comme plus pertinent)

Chapitre 3 Description des analyses 26

20

0

20

0

20

0

Figure 36 - Angles drsquoune scegravene reacuteelle constitueacutee drsquoun bruit parcourant le cercle trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 (en haut) 0 et 2 (au milieu) et 0 et 4 (en bas) Le

numeacutero de trame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On retrouve qursquoune limitation des ordres HOA supeacuterieurs issus drsquoun enregistrement

microphonique est la restitution des basses freacutequences

34 Traitement des donneacutees

341 Algorithme des k-moyennes Agrave lrsquoissue de lrsquoanalyse en composantes principales on reacutecupegravere avec la premiegravere

des meacutethodes exposeacutees au chapitre preacuteceacutedent des angles correspondants aux positions des sources preacutedominantes agrave raison drsquoune valeur par fenecirctre et par bande de freacutequence Il faut agrave partir de ces donneacutees parvenir agrave isoler les sources crsquoest-agrave-dire agrave deacuteterminer quels sont les angles pertinents et examiner quels sont ceux qui agrave une certaine toleacuterance pregraves sont preacutesents dans plusieurs bandes de freacutequence etou plusieurs fenecirctres temporelles

Pour pouvoir exploiter ces donneacutees spatiales nous avons utiliseacute lrsquoalgorithme des

k-moyennes (ou k-means) [MacQueen 1967] sur les angles pondeacutereacutes par des critegraveres de pertinence Cet algorithme fonctionne de la maniegravere suivante

Initialisation choix de k barycentres (les k moyennes) Reacutepeacuteter Associer chaque eacuteleacutement au barycentre le plus proche Recalculer les positions des barycentres Jusqursquoagrave ce que les barycentres soient stables (ou au bout de t iteacuterations)

34 Traitement des donneacutees 27

Lrsquoavantage de cet algorithme est drsquoecirctre peu glouton puisqursquoil converge en O(tkn) ougrave t est le nombre drsquoiteacuterations k le nombre de centres et n le nombre de points (geacuteneacuteralement on a t k ltlt n) Par contre il est plutocirct sensible aux exceptions un point aberrant tirera agrave lui la moyenne auquel il aura eacuteteacute associeacute Il faut donc faire en sorte que ces points erroneacutes soient aussi rares que possibles Crsquoest pourquoi les angles traiteacutes sont pondeacutereacutes par 2 critegraveres de pertinence

La pondeacuteration des angles fournis en entreacutee de lrsquoalgorithme des k-moyennes se

fait de maniegravere simple en reacutepeacutetant ces angles un nombre de fois (de 0 agrave 10) proportionnel agrave un critegravere Ainsi un angle tregraves pertinent sera dupliqueacute et sera preacutesent plusieurs fois dans la liste des donneacutees traiteacutees attirant ainsi agrave lui la position du barycentre le plus proche Au contraire un angle trop peu pertinent ne sera pas reacutepeacuteteacute voir mecircme sera enleveacute de la liste

Le seul problegraveme de cet algorithme est qursquoil neacutecessite la connaissance de k crsquoest-

agrave-dire du nombre de sources qui composent la scegravene Une deacutetermination automatique se basant sur la reacutepeacutetition de lrsquoalgorithme avec un k croissant a eacuteteacute testeacutee mais le critegravere drsquoarrecirct reposant sur la dispersion des points autour des barycentres nrsquoeacutetant pas assez robuste cette meacutethode a provisoirement eacuteteacute mise de cocircteacute

342 Critegraveres de pertinence Les 2 critegraveres de pondeacuteration choisis sont lrsquoeacutenergie de la sous-bande dans la

fenecirctre donneacutee et le rapport de la norme de la 1egravere composante (la composante principale) de lrsquoACP sur la somme des normes de toutes les composantes

En effet un angle est trouveacute dans chaque sous-bande de chaque fenecirctre mecircme si

le signal y est tregraves faible Lrsquoangle trouveacute sera alors tregraves peu repreacutesentatif de la direction drsquoune source puisqursquoil indiquera la direction drsquoun bruit Lrsquoeacutenergie doit donc ecirctre prise en compte pour ne conserver que les angles trouveacutes dans des bandes comportant un signal suffisant

La norme relative de la 1egravere composante de lrsquoACP rend quant agrave elle compte du

poids relatif de cette composante par rapport aux autres Ainsi si 2 sources sont preacutesentes dans une bande donneacutee la 1egravere composante sera agrave peine plus marqueacutee que la 2egraveme Ceci peut ecirctre calculeacute en prenant simplement le rapport de la 1egravere valeur propre sur la somme des valeurs propres

On peut noter que la norme de la 1egravere composante ne se deacutetache nettement que

lorsqursquoun son est preacutesent dans la bande consideacutereacutee On peut alors se demander si lrsquoeacutenergie doit ecirctre prise en compte ou si lrsquoinformation qursquoelle contient nrsquoest comprise dans le 2egraveme critegravere En fait la norme relative est un critegravere tregraves bruiteacute et consideacuterer lrsquoeacutenergie par ailleurs permet de nuancer ces artefacts et constitue une base solide de pondeacuteration

Chapitre 3 Description des analyses 28

80

40

0

Figure 37 - Repreacutesentation temps-freacutequence des angles du son deacutecrit en 332 Letrame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On peut donc v

par trame et par bande chacun eacutetant le reacutesultat drsquoune ACP crsquoest-agrave-dire la 1egravere

Figure 38 - Eacutenergie de ce mecircme son On peut voir une basse en notes tenues uneet une batterie qui produit des sons secs dans un spectre plus aigu

80

40

0

80

40

0

Figure 39 - Norme relative de la 1egravere composante de ce mecircme son Les impacts de batterie (dans lrsquoaigu) ressortent davantage

π 0 minusπ

numeacutero de oir un angle direction

voix aiguumle

34 Traitement des donneacutees 29

Figure 310 - Pondeacuteration appliqueacutee agrave lrsquoentreacutee des k-moyennes calculeacutee ici comme

le simple produit de lrsquoeacutenergie et de la norme relative

80

40

0

343 Lissages

Pour faire face au bruit ineacutevitable dans les reacutesultats il faut lisser les donneacutees Ces

lissages temporels correspondent agrave des hypothegraveses de stabiliteacute des sources qui sont supposeacutees ecirctre fixes ou mobiles relativement lentement (dans une mesure agrave parameacutetrer)

Un premier lissage peut ecirctre opeacutereacute avant le traitement par lrsquoalgorithme des k-

moyennes Le filtre choisi est un filtre meacutedian de maniegravere agrave eacuteliminer les points aberrants tout en conservant les vraies valeurs des points coheacuterents Ce lissage est appliqueacute sur chaque sous-bande aux angles et ne tient pas compte des critegraveres de pertinence Il est donc utiliseacute avec parcimonie et peut mecircme ecirctre eacuteviteacute en reacuteglant de maniegravere adeacutequate les critegraveres de pondeacuteration agrave lrsquoentreacutee des k-moyennes

Le deuxiegraveme lissage srsquoeffectue agrave lrsquoentreacutee des k-moyennes en mecircme temps que les

critegraveres de pondeacuteration Il consiste agrave appliquer les k-moyennes non pas sur une fenecirctre donneacutee mais sur plusieurs fenecirctres conseacutecutives anteacuterieures et posteacuterieures en donnant plus de poids agrave la fenecirctre courante Dans la pratique les poids donneacutes aux diffeacuterentes fenecirctres sont eacutetablis par une gaussienne centreacutee sur la fenecirctre courante et de largeur agrave deacuteterminer (en fonction notamment de la dureacutee drsquoune fenecirctre et du type de scegravene analyseacute)

35 Exploitation de toutes les composantes de lrsquoACP Les analyses preacutesenteacutees preacuteceacutedemment ont toutes exploiteacute uniquement la

composante principale extraite par lrsquoACP Or cette analyse fournit des informations plus complegravetes par lrsquointermeacutediaire des autres composantes dont on peut tirer parti pour isoler plusieurs sources au sein drsquoune mecircme bande Cette approche est toujours en deacuteveloppement dans ce stage et nrsquoa pas encore donneacute pleine mesure des reacutesultats qursquoelle laisse entrevoir

Les composantes de lrsquoACP indiquent des directions qui correspondent aux

diffeacuterentes sources composant la scegravene sonore Les vecteurs propres de la matrice de correacutelation donnent ainsi les combinaisons lineacuteaires des signaux HOA permettant de

Chapitre 3 Description des analyses 30

seacuteparer de la meilleure faccedilon possible ces sons Ces directions peuvent ecirctre alors utiliseacutees pour former des directiviteacutes isolant au mieux ces sources

aBS sdot= (31)

ougrave la matrice a contient les vecteurs propres de la matrice de correacutelation (voir Annexe C) le vecteur B contient les signaux HOA et le vecteur S contient les sources extraites

⎟⎟⎟

⎜⎜⎜

=⎟⎟⎟

⎜⎜⎜

⎛=

⎥⎥⎥

⎢⎢⎢

⎟⎟⎟

⎜⎜⎜

⎟⎟⎟

⎜⎜⎜

⎛=

10

1001

1

ML

N

B

BB

S

SSuua MML (32)

On obtient ainsi des lobes drsquoautant plus eacutetroits que lrsquoordre est eacuteleveacute chacun

dirigeacute vers une source et permettant de lrsquoisoler le plus possible des contributions des autres sources La Figure 311 preacutesente les directiviteacutes ainsi trouveacutees par une ACP en pleine bande Une analyse en sous-bande permet une plus grande distinction des sources mais une seacuteparation diffeacuterente entre les bandes est dangereuse car elle risque de dissocier spatialement plusieurs parties drsquoun mecircme son

Figure 311 - Directiviteacutes seacuteparant ideacutealement 4 sources placeacutees agrave 17 73 195 et -58deg

pour une scegravene virtuelle encodeacutee agrave lrsquoordre 4 Ce principe se heurte neacuteanmoins aux limites de seacuteparation lieacutees agrave lrsquoordre

drsquoencodage en effet 2 sources ne pourront pas ecirctre seacutepareacutees si elles sont trop proches comme en teacutemoigne la largeur des lobes principaux Les lobes secondaires traduisent eacutegalement un meacutelange des sources isoleacutees La figure ci-dessus montre ainsi que la source placeacutee agrave 17deg (en vert) sera preacutesente de maniegravere non neacutegligeable dans le signal senseacute contenir la source placeacutee agrave -58deg (en bleu) en raison du lobe secondaire bleu important

31

Chapitre 4

Reacutesultats et applications

41 Illustration et critique des reacutesultats obtenus

411 Avant-propos Sans notification particuliegravere les reacutesultats preacutesenteacutes ont eacuteteacute obtenus avec un pas

de 50 ms une analyse en 80 bandes avec une FFT sur 8192 points Une taille de FTT plus grande et un plus grand nombre de bande augmente la qualiteacute de lrsquoanalyse un pas plus petit ameacuteliore sa preacutecision temporelle mais les reacutesultats sont moins fiables et un lissage plus important srsquoimpose alors Ces paramegravetres ont eacuteteacute reacutegleacutes apregraves de multiples essais sur des scegravenes diverses

Les reacutesultats sont preacutesenteacutes ici uniquement sous la forme de graphiques nous ne

pouvons donc repreacutesenter que les angles trouveacutes agrave la sortie de lrsquoalgorithme des k-moyennes

412 Scegravene 2D artificielle agrave 4 sources fixes La premiegravere scegravene est une scegravene artificielle composeacutee de 4 sons fixes placeacutes agrave -70

-10 45 et 110deg Ces sons (une basse une voix une guitare et une batterie) ont eacuteteacute choisis pour leur varieacuteteacute spectrale et leur varieacuteteacute drsquoattaque Elle a en outre le meacuterite drsquoecirctre reacutealiste et de constituer une seacutequence musicale (chaque son nrsquoest pas une meacutelodie indeacutependante)

On voit sur la Figure 41 ci-dessous que les angles trouveacutes sont proches des

angles theacuteoriques Lrsquoun des sons (agrave 45deg) est quasiment nul avant la 100egraveme trame sa position est alors moins facile agrave deacuteterminer plus preacuteciseacutement une position approximative est trouveacutee et correspondrait exactement agrave la position du bruit (45deg) si lrsquoincertitude de mesure tregraves grande pour un son aussi faible ne rendait la deacutetermination si ardue On mesure un eacutecart-type de 22deg sur cet exemple (en excluant le deacutebut du son agrave 45deg)

Chapitre 4 Reacutesultats et applications 32

Figure 41 - Angles theacuteoriques (en pointilleacutes rouge) et calculeacutes (en trait bleu) pour une scegravene

constitueacutee de 4 sons fixes longue de 11s

413 Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile

Figure 42 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) de la scegravene agrave

4 sources dont 1 mobile deacutecrite en 332 Cette scegravene est deacutecrite en 332 On a ici demandeacute aux k-moyennes de renvoyer 5 barycentres par trame alors que

seules 4 sources eacutetaient preacutesentes dans le but de se garantir une marge vis-agrave-vis des erreurs de deacutetection Cette 5egraveme direction nrsquoest pas du tout gecircnante elle indique une direction qui ne contient pas de source et crsquoest donc un son tregraves faible qui est ainsi pointeacute Apregraves une eacuteventuelle extraction le signal ne sera donc pas du tout gecircnant

41 Illustration et critique des reacutesultats obtenus 33

On peut remarquer que quand le son mobile se rapproche drsquoun son fixe la deacutetection est moins bonne il y a une fusion entre les 2 sons Mais encore une fois lors de lrsquoextraction lrsquoisolation drsquoun des sons englobera lrsquoautre son ce qui ne posera pas de problegraveme pour les objectifs fixeacutes aucune source nrsquoeacutetant oublieacutee En effet la seacuteparation de sources nrsquoest pas un objectif ici mais un moyen pour preacuteciser les positions des sources ce qui sera fait correctement mecircme si 2 sources sont pointeacutees par 1 seule direction

414 Scegravene 3D artificielle agrave une source et bruit de fond

La scegravene dont la position drsquoune source a eacuteteacute extraite ci-dessous est une scegravene virtuelle en 3D constitueacute drsquoun son (une voix) qursquoon a fait se deacuteplacer par paliers tout drsquoabord vers le haut de 0deg agrave 45deg et vers la gauche de 0deg agrave 90deg puis redescendre jusqursquoagrave 35deg en continuant son cheminement vers la gauche jusqursquoagrave 120deg et enfin finir la descente de 35deg agrave 0deg en la laissant agrave 120deg Agrave cette source a eacuteteacute superposeacutee une ambiance spatialiseacutee de hall drsquoaeacuteroport initialement enregistreacutee en 2D (au format 51) mais transformeacutee pour contenir des composantes verticales Cette ambiance deacutecorreleacutee de la source avait pour but de tester la robustesse de lrsquoanalyse Elle eacutetait agrave 15 dB en-dessous du niveau de la voix

Figure 43 - Azimut et eacuteleacutevation theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun

son en 3D artificiel de 9s placeacute dans une ambiance bruyante On remarque que lrsquoanalyse est tregraves correcte Il nrsquoy a pas drsquoeacutecart important entre

les angles theacuteoriques et ceux calculeacutes On note toutefois que le lissage agrave lrsquoentreacutee des k-moyennes a pour effet de gommer les creacuteneaux et drsquoaplatir quelque peu la courbe drsquoeacuteleacutevation ceci nrsquoest pas vraiment gecircnant car de tels sauts dans la position drsquoune source ne sont pas du tout reacutealistes (ils peuvent caracteacuteriser des bruits de pas mais de tels impacts sont courts et on peut srsquoattendre agrave ce que la courbe suive leur position aux instants ougrave ils sont eacutemis)

Chapitre 4 Reacutesultats et applications 34

415 Scegravene 2D naturelle agrave une source Les scegravenes naturelles sont on lrsquoa vu plus deacutelicates agrave exploiter car on ne peut pas

garantir la preacutecision de la position theacuteorique agrave retrouver par le calcul et on ne peut donc pas calculer la preacutecision de lrsquoanalyse Seuls les enregistrements utilisant la table tournante (voir 232) permettent une mesure preacutecise de la position de lrsquoangle Ces enregistrements on pu confirmer la validiteacute de lrsquoanalyse pour des scegravenes reacuteelles on trouve ici un eacutecart-type de 25deg

Figure 44 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun bruit blanc

tournant autour du micro enregistreacute en chambre sourde Cette analyse a eacuteteacute reacutealiseacutee par sous-bandes mais sur une eacutetendue freacutequentielle

plus reacuteduite puisqursquoon srsquoest limiteacute aux possibiliteacutes offertes par le microphone La scegravene a donc eacuteteacute analyseacutee de 200 agrave 10 000 Hz

42 Quelques applications

421 Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre 2 agrave partir de lrsquoordre 1

Une fois les positions des sources connues la porte est ouverte agrave de nombreuses

applications La connaissance de ces positions permet en effet de syntheacutetiser artificiellement des composantes manquantes ou non transmises La premiegravere synthegravese deacuteveloppeacutee est celle des signaux U et V composant la partie horizontale de lrsquoordre 2 agrave partir de lrsquoordre 1 et de paramegravetres issus de lrsquoanalyse pour une source en 2D (des angles dans de cas)

42 Quelques applications 35

Figure 45 - Principe de lrsquoameacutelioration de la preacutecision spatiale

Le principe de la synthegravese est drsquoextraire les sources originales agrave partir de W X Y

et des angles (un angle par trame et par sous-bande) Ceci peut ecirctre reacutealiseacute de maniegravere approcheacutee en deacutecodant lrsquoordre 1 dans les directions des sources Ce deacutecodage revient agrave calculer les signaux qui devraient alimenter des haut-parleurs qui seraient placeacutes agrave ces positions dans le cas drsquoune restitution (voir 122) crsquoest-agrave-dire agrave former des directiviteacutes dans les directions des sources Dans la plupart des cas ce deacutecodage qui fait intervenir une pseudo-inversion de Moore-Penrose (111) est imparfait les sources se retrouvant leacutegegraverement meacutelangeacutees On peut comparer cette seacuteparation agrave celle que ferait un ensemble de microphones agrave directiviteacute hypercardioiumlde coiumlncidents

Figure 46 - Directiviteacutes eacutequivalentes agrave la seacuteparation de 4 sources agrave lrsquoordre 1 Ces sources seacutepareacutees vont ensuite constituer toujours placeacutees aux angles

deacutetermineacutes agrave lrsquoanalyse une scegravene virtuelle qursquoon va encoder agrave lrsquoordre 2 De cet encodage on ne conservera que les signaux manquants dans notre exemple les signaux du 2nd ordre U et V Ainsi la scegravene spatialiseacutee sera au final constitueacutee des signaux W X et Y drsquoorigine (transmis) et des signaux U et V syntheacutetiseacutes

Chapitre 4 Reacutesultats et applications 36

422 Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave partir de W Reconstruire une scegravene sonore spatialiseacutee agrave partir drsquoun unique canal mono est

alors difficile et le reacutesultat nrsquoest appreacuteciable que pour des scegravenes simples Il faut pour cela que les diffeacuterentes sources composant cette scegravene aient des supports spectraux aussi distincts que possible Les diffeacuterentes sous-bandes sont alors placeacutees agrave un certain angle transmis en parallegravele et crsquoest cette scegravene reconstitueacutee qui va ecirctre encodeacutee au 1er ordre de maniegravere agrave recreacuteer les signaux X et Y

Figure 47 - Principe de la restitution de lrsquoordre 1 agrave partir du signal mono W Ce scheacutema rappelle une meacutethode deacuteveloppeacutee dans le cas steacutereacuteo appeleacutee BCC

(Binaural Cue Coding) [Faller and Baumgarte 2002] Le principe est drsquoextraire et coder des informations permettant la reconstruction binaurale drsquoun signal agrave savoir les diffeacuterences interaurales drsquointensiteacute et de temps (Interaural LevelTime Difference ILD et ITD) qui correspondent dans le cas drsquoune restitution sur un casque aux diffeacuterences drsquointensiteacute et de temps inter-canal (Inter-Channel LevelTime Difference ICLD et ICTD) qui sont mesureacutees agrave partir drsquoune analyse en sous-bandes Les auteurs y ont plus reacutecemment associeacute un indice de correacutelation interaurale mesureacute agrave partir de la correacutelation inter-canal (ICC) afin de caracteacuteriser la preacutecision spatiale (la ldquolargeurrdquo drsquoune source)

Figure 48 - Scheacutema de principe de la meacutethode BCC [Faller and Baumgarte 2003]

On observe en pratique des deacutefauts lieacutes agrave la brutaliteacute de la proceacutedure une sous-

bande ne peut ecirctre que placeacutee agrave la position indiqueacutee et ne peut pas rester floue diffuse ou encore ecirctre placeacutee agrave plusieurs endroits Pour y remeacutedier nous avons ajouteacute 2 traitements agrave la synthegravese Tour drsquoabord nous avons appliqueacute un leacuteger lissage soulageant les effets deacutesagreacuteables dus au saut du contenu drsquoune sous-bande drsquoun endroit agrave un autre entre de 2 fenecirctres conseacutecutives Les positions varient alors de faccedilon plus souple au sein drsquoune mecircme sous-bande traduisant une hypothegravese de continuiteacute spatiale (pas de deacuteplacement brusque) La contrepartie est que cette hypothegravese est lieacutee agrave une hypothegravese de continuiteacute spectrale

42 Quelques applications 37

La 2egraveme ameacutelioration concerne le positionnement des sources En incluant dans la transmission un critegravere de pertinence on peut savoir srsquoil est raisonnable de placer une sous-bande agrave un angle preacutecis ou bien si lrsquoanalyse eacutetait flou agrave son sujet auquel cas un positionnement impreacutecis serait preacutefeacuterable Le paramegravetre choisi est une combinaison des critegraveres eacutevoqueacutes en 342 il nous permet de placer la sous-bande de maniegravere plus ou moins prononceacutee

43 Comparaison avec une meacutethode existante Certains auteurs ont deacutejagrave essayeacute drsquoanalyser un contenu ambisonique pour

retrouver les positions des sources Ville Pulkki a ainsi deacutecrit dans [Pulkki and Faller 2006] une meacutethode drsquoanalyse du B-format baseacutee sur lrsquoeacutetude des amplitudes des signaux W X Y et Z

Figure 49 - X et Y dans le cas drsquoune sinusoiumlde placeacutee agrave 15deg (agrave gauche) et 120deg (agrave droite)

Les figures ci-dessus montrent les relations drsquoamplitudes (algeacutebriques) qui relient

X et Y agrave lrsquoangle de la source On voit que lrsquoanalyse de ces amplitudes respectives permet de retrouver la position de la source en effet on a pour une source unique les relations de lrsquoeacutequation (11) rappeleacutee ici

⎪⎪

⎪⎪

=

=

=

=

δ

δθ

δθ

sin2

cossin2

coscos2

SZ

SY

SX

SW

(41)

On peut donc theacuteoriquement retrouver les valeurs de θ et δ par relations

trigonomeacutetriques Ainsi on a

⎪⎪⎩

⎪⎪⎨

=

=

2)sin(

)tan(

WZ

XY

δ

θ (42)

Chapitre 4 Reacutesultats et applications 38

On peut donc trouver les angles θ et δ agrave π pregraves Pour lever lrsquoambiguiumlteacute une eacutetude de signe est neacutecessaire Mais dans le cas de θ le signe de X et de Y agrave δ fixeacute deacutepend aussi bien de θ que S Il faut srsquointeacuteresser aux signes de θcos et θsin crsquoest-agrave-dire

aux signes de WX et

WY Dans la pratique on srsquointeacuteressera aux signes de et

pour se preacutevenir des divisions par zeacuteros

XW sdot YW sdot

XW sdot et YW sdot sont proportionnels agrave toujours positif

2S

Les auteurs deacutecrivent eacutegalement dans leur article un critegravere appeleacute diffuseness qui

peut ecirctre compareacute agrave un critegravere de pertinence inverseacute Ce paramegravetre calculeacute par agrave 1 - R ougrave R est un rapport de normes est tregraves proche du critegravere de norme relative deacutecrit en 342 Il peut donc ecirctre utiliseacute de la mecircme faccedilon et permettre ainsi une pleine comparaison

Cette meacutethode a eacuteteacute impleacutementeacutee pour pouvoir ecirctre compareacutee avec la meacutethode

par ACP Tous les paramegravetres ont scrupuleusement eacuteteacute gardeacutes identiques et plusieurs reacuteglages ont eacuteteacute testeacutes Les courbes ci-dessous preacutesentent les reacutesultats des analyses de la scegravene deacutecrite en 332 avec un pas de 50ms un overlap de 50 un NFFT de 2048 et 40 bandes freacutequentielles Nous avons repreacutesenteacute tous les angles trouveacutes crsquoest-agrave-dire un par bande et par trame pour srsquoaffranchir de la seacutelection des k-moyennes

π

0

minusπ

Figure 410 - Angles trouveacutes par lrsquoalgorithme de [Pulkki and Faller 2006] Le diamegravetre du point correspondant agrave la pertinence

43 Comparaison avec une meacutethode existante 39

π

0

minusπ

Figure 411 - Angles trouveacutes par une ACP pour la mecircme scegravene On remarque que les points excentriques sont moins nombreux et plus rarement trouveacutes comme pertinents

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee

441 Position du problegraveme

Une application directe de ces analyses a eacuteteacute deacuteveloppeacutee pour la confeacuterence audio

spatialiseacutee La confeacuterence audio utilise en effet la spatialisation pour permettre une meilleure seacuteparation par lrsquooreille des diffeacuterents locuteurs Ainsi si plusieurs personnes parlent en mecircme temps il sera tregraves difficile de comprendre chacun individuellement si ces voix sont restitueacutees en mono mais on pourra focaliser lrsquoattention sur chacune drsquoentre elles si elles sont seacutepareacutees spatialement (crsquoest lrsquoeffet cocktail party [Cherry 1953])

Lrsquoobjectif eacutetait de veacuterifier qursquoil eacutetait possible de conserver la spatialisation drsquoune

confeacuterence en nrsquoayant transmis qursquoun downmix mono des signaux Ce concept semble se rapprocher de celui deacutecrit en 422 mais une diffeacuterence fondamentale les seacutepare la confeacuterence audio spatialiseacutee nrsquoest pas codeacutee au format ambisonic mais les signaux traiteacutes sont directement les sons provenant des diffeacuterents locuteurs crsquoest-agrave-dire les sources elles-mecircmes Ainsi lrsquoanalyse ne porte plus sur une scegravene spatialiseacutee mais sur des signaux seacutepareacutes Il nrsquoy a ainsi plus drsquoindices spatiaux agrave trouver

Avoir accegraves aux sources permet drsquoobtenir des informations plus preacutecises pour

permettre une seacuteparation apregraves la transmission Comme nous lrsquoavons vu lrsquoanalyse drsquoune scegravene spatialiseacutee ne permet que dans drsquoultimes cas agrave la seacuteparation des sources ce qui est ici notre point de deacutepart et sera en fait notre point drsquoarriveacutee En effet nous tenterons de retrouver les sources seacutepareacutees apregraves la transmission de maniegravere agrave pouvoir par la suite les spatialiser agrave loisir (voir Figure 413)

Chapitre 4 Reacutesultats et applications 40

442 Solution proposeacutee Les paramegravetres extraits ne sont donc plus des positions de sources Nous avons

choisi de mesurer puis transmettre lrsquoeacutenergie de chaque signal dans chaque sous-bande en parallegravele du downmix En effet une bonne seacuteparation sera possible si lrsquoon sait quelle proportion de chaque source compose chaque sous-bande du signal mono

Figure 412 - Scheacutema de principe drsquoune confeacuterence audio spatialiseacutee

Figure 413 - Scheacutema ameacutelioreacute (deacutebit reacuteduit)

en pointilleacutes informations compleacutementaires (eacutenergie) Lrsquoanalyse en sous-bandes a lieu dans le serveur (Figure 414) Celui-ci calcule

lrsquoeacutenergie de chaque signal dans chaque sous-bande sur une trame donneacutee Crsquoest ce paramegravetre qui associeacute au signal mono M permettra la seacuteparation des sources dans le terminal (Figure 415) Ce dernier reacutepartira en effet les diffeacuterentes sous-bandes vers chaque signal reconstitueacute proportionnellement agrave cette information pour reconstruire les 4 sources originales

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee 41

Figure 414 - Analyse principe de lrsquoencodage dans le serveur

Figure 415 - Synthegravese principe du deacutecodage dans le client

Afin de reacuteduire au maximum les informations compleacutementaires agrave transmettre on

peut remarquer qursquoau cours drsquoune confeacuterence audio on a tregraves souvent un seul locuteur les participants ne parlent que tregraves rarement tous en mecircme temps Ceci implique que les signaux en entreacutee sont tregraves souvent tous nuls sauf 1 et appliquer un seuil en entreacutee de lrsquoanalyse permet outre lrsquoallegravegement du traitement drsquoavoir moins de paramegravetres agrave transmettre

Ce scheacutema simplifieacute ne tient pas compte des problegravemes de phase rien nrsquoindique

que les eacutenergies des signaux srsquoajoutent bien dans chaque sous-bande lors du downmix on peut tregraves bien avoir des oppositions de phase La solution est drsquoeffectuer le downmix (la somme) des signaux dans chaque sous-bande en prenant soin drsquoavoir recaleacute les phases au preacutealable Ceci nrsquoa un sens que pour des bandes suffisamment eacutetroites Les deacutecalages temporels appliqueacutes pour le recalage sont alors des paramegravetres suppleacutementaires agrave transmettre et sont pris en compte lors de la synthegravese au niveau du reacutepartiteur qui repositionnera la phase de chaque trame pour chaque signal

Chapitre 4 Reacutesultats et applications 42

443 Bilan Le reacutesultat du deacutecodage a pu ecirctre eacutecouteacute de diffeacuterentes maniegraveres les sources

reconstitueacutees individuellement ensemble en steacutereacuteo drsquoamplitude et sur un systegraveme 51 On note que les sources ont eacuteteacute assez bien seacutepareacutees mais que des artefacts sont audibles en particulier lorsque le nombre de locuteurs simultaneacutes augmentent Ces artefacts sont un meacutelange des voix qui nrsquoest gecircnant que lorsqursquoon les eacutecoute de maniegravere seacutepareacutee En effet lrsquoeacutecoute simultaneacutee de ces signaux syntheacutetiseacutes mecircme placeacutes agrave des positions distinctes sur un systegraveme de diffusion multicanal est tout agrave fait satisfaisante

Ce proceacutedeacute pour pouvoir ecirctre appliqueacute doit fonctionner en temps-reacuteel Cette

contrainte nrsquoa pas du tout eacuteteacute prise en compte lrsquoobjectif eacutetant de valider la faisabiliteacute drsquoune reconstruction Les programmes sous Matlab nrsquoont pas eacuteteacute optimiseacutes et ne respectent pas cette contrainte

43

Conclusion Nous avons preacutesenteacute dans ce rapport le principe et lrsquoapplication de plusieurs

meacutethodes drsquoanalyses spatiales de scegravenes ambisoniques conccedilues et reacutealiseacutee pendant le stage Le format HOA est en effet une repreacutesentation du champ acoustique deacutecomposeacute sur une base drsquoharmoniques spheacuteriques jusqursquoagrave un certain ordre agrave la maniegravere drsquoun deacuteveloppement limiteacute Il contient donc de maniegravere indirecte des indications spatiales qursquoon peut extraire avec des analyses comme lrsquoanalyse en composantes principales

Ces analyses nous permettent de deacuteterminer les positions des sources qui

composent la scegravene sonore Nous avons appliqueacute les reacutesultats de ces analyses agrave 2 types de synthegravese lrsquoune destineacutee aux transmissions bas deacutebit lrsquoautre agrave un traitement de restitution de la preacutecision spatiale dans le cas ougrave des ordres supeacuterieurs dont le but est drsquoaffiner la perception de localisation nrsquoauraient pas pu ecirctre transmis Ces algorithmes par le codage drsquoinformations spatiales qursquoils permettent pourront trouver bien drsquoautres applications dans la transmission et le codage ougrave la description du contenu est de plus en plus utiliseacutee (comme par exemple dans la norme MPEG)

Des ameacuteliorations sont possibles sur plusieurs points tout drsquoabord lrsquoexploitation

de toutes les composantes de lrsquoACP est agrave lrsquoeacutetude et semble pouvoir donner des reacutesultats inteacuteressants Drsquoautre part on a vu que le reacutesultat final est tregraves deacutependant de la bonne convergence de lrsquoalgorithme des k-moyennes utiliseacute pour traiter les donneacutees brutes de lrsquoanalyse en sous-bandes Or cet algorithme neacutecessite des reacuteglages tregraves fins et une connaissance a priori du nombre de sources est presque indispensable Drsquoautres algorithmes plus complexes de suivi de formes pourraient ecirctre avantageusement utiliseacutes pour deacutetecter dans tous les angles trouveacutes lesquels sont susceptibles de former une trajectoire

45

Annexe A

Deacuteveloppement du champ acoustique en harmoniques spheacuteriques

A1 Eacutequation drsquoonde en coordonneacutees spheacuteriques On se place dans lrsquoespace euclidien agrave 3 dimensions muni drsquoun systegraveme de

coordonneacutees spheacuteriques Un point M y est repeacutereacute par son rayon r son azimut θ et son eacuteleacutevation δ tels que repreacutesenteacutes sur la figure ci-dessous

- r est la norme du vecteur position rr crsquoest-agrave-dire la distance OM - [20[ πθ isin est lrsquoangle formeacute par le projeteacute du point sur le plan xOy et lrsquoaxe Ox

- ]2

2

[ ππδ minusisin est lrsquoangle formeacute par le plan xOy et le vecteur position2

Figure A1 - Systegraveme de coordonneacutees spheacuteriques

2 Cet angle diffegravere de lrsquoangle polaire usuel δπϕ minus=

2 habituellement pris entre lrsquoaxe Oz et le

vecteur position

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 46

Les relations entre les coordonneacutees spheacuteriques et les coordonneacutees carteacutesiennes sont

⎪⎩

⎪⎨

===

δδθδθ

sincossincoscos

zryrx

(A1)

On srsquointeacuteresse dans ce repegravere agrave lrsquoeacutequation de propagation des ondes acoustiques

de pression On se place dans les conditions classiques drsquoacoustique lineacuteaire (les variations de p sont petites par rapport agrave la pression atmospheacuterique) en supposant que lrsquoair est un fluide parfait (on y neacutegligera les pheacutenomegravenes dissipatifs) Dans une reacutegion de lrsquoespace ne comprenant pas de sources lrsquoeacutequation drsquoonde srsquoeacutecrit alors

0)(12

2

2 =⎟⎟⎠

⎞⎜⎜⎝

⎛partpart

minus∆ trptc

r (A2)

p eacutetant la pression et c la vitesse de propagation du son dans lrsquoair

Cette eacutequation devient dans le domaine freacutequentiel lrsquoeacutequation de Helmholtz

( ) 0)(2 =+∆ ωrpk r (A3)

ck ω

= eacutetant le nombre drsquoonde

En coordonneacutees spheacuteriques cette eacutequation srsquoeacutecrit

0sin1sin

sin11 2

2

2

222

2 =⎥⎦

⎤⎢⎣

⎡+

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart pk

rrrr

rr δθθθ

θθ (A4)

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques Drsquoapregraves [Bruneau 1983] elle admet des solutions agrave variables seacutepareacutees de la forme

)()()( δθ ΦΘ= rRp (A5) Ces solutions sont respectivement - pour la partie radiale une combinaison des fonctions de Bessel spheacuteriques de

premiegravere et seconde espegravece3 jn et nn

)()()( krBnkrAjrR nn += (A6) 3 Les fonctions de Bessel spheacuteriques de seconde espegravece sont eacutegalement appeleacutees fonctions de

Neumann

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 47

Ces fonctions sont deacutefinies comme suit

(A7)

Figure A2 - Fonctions de Bessel spheacuteriques pour les ordres 0 agrave 5 )(krjm

- pour la partie azimutale les fonctions )(θΘ

)sin()cos()( 21 θθθ ncnc +=Θ (A8) Eacutetant donneacute la deacutefinition de lrsquoangle Θ celui-ci doit neacutecessairement ecirctre de

peacuteriode 2π ))2()(( πθθ +Θ=Θ ce qui impose agrave n drsquoecirctre entier

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 48

- pour la partie polaire les fonctions de Legendre associeacutees )(sinδmnP

nm

nn

mn dPdP

)(sin)(sinsin)(sin

δδ

δδ = pour ⎩⎨⎧

gt=

nmavecnm 321

(A9)

ougrave les )(sinδnP sont les polynocircmes de Legendre de degreacute n en δsin deacutefinis par reacutecurrence

( )

11

22

1

0

sin)12()(sin)1(

1cos321)(sin

sin)(sin0)(sin

minus+ minus+=+

minus=

==

mmm mPPmPmet

P

PP

δδ

ϕδ

δδδ

(A10)

et de formule geacuteneacuterale

mm

m

mm dd

mP )1(sin

)(sin21)(sin 2 minus= δ

δδ (A11)

On peut appliquer aux fonctions )(sinδmnP la semi-normalisation de Schmidt

)(sin)()()(sin~ δεδ mnnmn P

nmnmP

+minus

= ougrave 10 =ε et 2=nε pour 1gen (A12)

En appariant les fonctions polaires et azimutales on deacutefinit les harmoniques

spheacuteriques de degreacute et drsquoordre)1(mnY 0gem 4 mnn lele0 et de degreacute et

drsquoordre (voir Figure A3)

)1(minusmnY 1gem

mnn lele1

)(sin~)sin()(

)(sin~)cos()()1(

)1(

δθδθ

δθδθ

mnmn

mnmn

PnY

PnY

=

=minus

(A13)

4 En geacuteneacuteral lorsque le degreacute et lrsquoordre ne sont pas eacutevoqueacutes conjointement on parle par abus de langage drsquoharmoniques drsquoordre m plutocirct que de degreacute m

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 49

soit

1)(sin

)()()12(2sin)(

)(sin)()()12(2cos)(

1)(sin)1()1()12(cos)(

)1(

)1(

1)1(

1

gt

⎪⎪⎩

⎪⎪⎨

+minus

+=

+minus

+=

=+minus

+=

minus

npourP

nmnmmnY

PnmnmmnY

npourPmmmY

mnmn

mnmn

mm

δθδθ

δθδθ

δθδθ

(A14)

La solution angulaire geacuteneacuterale srsquoeacutecrit alors sous la forme drsquoun deacuteveloppement sur

la base drsquoharmoniques spheacuteriques

( ) ( )sum minus

=minus+=Θ

1

1)1()1()( n

m mnmnmnmnn YBYBθ (A15) La solution geacuteneacuterale est alors la seacuterie de Fourier-Bessel

sum sum sum+infin

= = plusmn=

=0 0 1

)()( )()()(m

m

nmnmnm

m YBkrjikrpσ

σσ δθδθ (A16)

ougrave

intint⎪⎩

⎪⎨⎧

minusisin

isin

plusmnplusmn =

]2

2

[

[20[

)1()1( )()1()(

1

ππδ

πθ

δθδθ

S

mnm

mmn dSYpkrji

B (A17)

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 50

Tableau A1 - Expressions analytiques des harmoniques spheacuteriques pour les ordres 0 agrave 3

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 51

Figure A3 - Repreacutesentation des harmoniques spheacuteriques pour les ordres m = 0 agrave 3 Les

couleurs rouge et bleu indiquent respectivement des valeurs positives et neacutegatives

53

Annexe B

Compleacutements theacuteoriques sur le deacutecodage HOA

B1 Vecteur veacutelociteacute et vecteur eacutenergie Le vecteur veacutelociteacute est un indice de la direction apparente drsquoune source introduit

par Gerzon [Gerzon 1992] Il se calcule comme le rapport de la vitesse particulaire sur la pression acoustique

)()(

)()(1

δθδθ

δθδθ

ρ rprp

ki

rprv

cV nabla

minus=minus=rrr

(B1)

Dans le cas drsquoune onde plane le vecteur veacutelociteacute V

rest ainsi directement un

vecteur unitaire orienteacute vers la direction de provenance de lrsquoonde En geacuteneacuteralisant agrave une superposition drsquoondes planes en phase ou opposition de phase eacutemises par L haut-parleurs agrave eacutequidistance du point drsquoobservation on obtient la formule suivante

VVL

ll

L

lll

urg

ugV r

rr

==

sum

sum

=

=

1

1 (B2)

ougrave deacutesigne la direction du llur egraveme haut-parleur auquel est associeacute le gain gl et Vr Vur correspondent respectivement agrave la norme et agrave la direction du vecteur veacutelociteacute

Le vecteur eacutenergie est un autre indice de direction Il est deacutefinit par

EEL

ll

L

lll

urg

ugE r

rr

==

sum

sum

=

=

1

2

1

2

(B3)

Annexe B Compleacutements theacuteoriques sur le deacutecodage HOA 54

Il peut srsquointerpreacuteter comme une indication de la concentration de lrsquoeacutenergie ( ) et de sa direction moyenne de provenance (

Er

Eur ) On a toujours 1ltEr sauf dans le cas ougrave un seul haut-parleur contribue agrave la reconstruction (dans ce cas ) peut ecirctre consideacutereacute comme un indicateur de preacutecision de la localisation

1=Er Er

B2 Deacutecodages optimiseacutes La restitution la plus confortable drsquoun champ sonore veillera donc agrave maximiser

tout en essayant de garder le plus proche possible de 1 Lrsquooptimisation du deacutecodage consiste alors agrave multiplier chaque coefficient de la matrice de deacutecodage D (voir (111) par des gains calculeacutes drsquoapregraves des critegraveres drsquooptimisation

Er Vr

Ainsi le deacutecodage appeleacute max- maximise la norme du vecteur eacutenergie en

sacrifiant celle du vecteur veacutelociteacute puisqursquoon a dans ce deacutecodage (pour des configurations reacuteguliegraveres de haut-parleurs) Ce deacutecodage est donc avantageux par rapport au deacutecodage basique pour les hautes freacutequences ou dans le cas drsquoun auditoire eacutelargi Le deacutecodage in-phase va encore plus loin en cherchant agrave annuler complegravetement les contributions des haut-parleurs placeacutes agrave lrsquoopposeacute de la direction de provenance de lrsquoonde reproduite Ce critegravere est utile dans le cas drsquoune eacutecoute dans une position tregraves excentreacutee agrave laquelle on pourrait percevoir de faccedilon preacutedominante la contribution en opposition de phase drsquoun tel haut-parleur

Er

EV rr =

Ces diffeacuterents deacutecodages ont chacun des avantages et inconveacutenients Ainsi seul le

deacutecodage basique garantit = 1 le deacutecodage max- permet une preacutecision meilleure notamment en haute freacutequence et le deacutecodage in-phase est plus adapteacute agrave un auditoire plus large Jeacuterocircme Daniel [Daniel 2000] propose ainsi de changer le deacutecodage en fonction de la freacutequence et de lrsquoeacutetendue de la zone drsquoeacutecoute deacutesireacutee

Vr Er

Figure B1 - Deacutecodages les plus approprieacutes par sous-bande et en fonction de lrsquoeacutetendue de la

zone drsquoeacutecoute [Daniel 2000]

55

Annexe C

Analyse en composantes principales

C1 Espace des donneacutees Eacutegalement souvent appeleacutee transformeacutee de Karhunen-Loegraveve5 (TKL) lrsquoanalyse en

composantes principales (ACP) est une technique statistique de repreacutesentation drsquoinformation Introduite sur 2 variables par Pearson [Pearson 1900] elle a eacuteteacute eacutetendue par Hotelling [Hotelling 1933] Elle a pour but de caracteacuteriser des donneacutees drsquoun espace agrave N dimensions dans un sous-espace plus petit en minimisant les pertes drsquoinformation due agrave la projection crsquoest-agrave-dire en maximisant la variance projeteacutee Les donneacutees ainsi reacuteorganiseacutees deviennent indeacutependantes Les variables correacuteleacutees sont remplaceacutees par de nouvelles variables deacutecorreacuteleacutees et de variance maximale combinaisons lineacuteaires des variables initiales

Les donneacutees sont constitueacutees de n variables aleacuteatoires (dans notre cas des canaux)

et p reacutealisations ou individus (des eacutechantillons)

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

pn

p

ji

n

xx

x

xx

M

LLL

MOMNM

MLLM

MNMOM

LLL

1

111

(C1)

Ces donneacutees sont geacuteneacuteralement centreacutees et peuvent aussi ecirctre reacuteduites4 (on note

1x la moyenne de la variable et 1x )( 1xσ sa variance) Reacuteduire ou non le nuage de points (ie les p reacutealisations de la variable aleacuteatoire) est un choix de modegravele

5 Quelques rares sources mentionnent une diffeacuterence entre ACP et TKL en placcedilant celle-ci au

niveau du choix de la reacuteduction des donneacutees dans le cas dune ACP les donneacutees seraient centreacutees et reacuteduites alors qursquoelles seraient uniquement centreacutees pour une TKL

Annexe C Analyse en composantes principales 56

- si on ne reacuteduit pas le nuage une variable agrave forte variance pourrait tirer tout lrsquoeffet de lrsquoACP agrave elle

- si on reacuteduit le nuage une variable qui ne serait qursquoun bruit se retrouverait avec une variance apparente eacutegale agrave une variable informative

M est centreacutee

⎥⎥⎥

⎢⎢⎢

minusminusminus

minusminus=

npn

pi

ji

nn

xxxxxx

xxxxM

K

MM

K

11

11

11

ˆ (C2)

M~ est centreacutee et reacuteduite

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

minusminus

minus

minusminus

=

)()(

)(

)()(~

1

11

1

1

111

n

npn

pi

ij

i

n

nn

xxx

xxx

xxx

xxx

xxx

M

σσ

σ

σσ

K

MM

K

(C3)

On multiplie ensuite la matrice obtenue par sa transposeacutee pour obtenir - La matrice de covariance MMC t

vˆˆ sdot=

- La matrice de correacutelation MMC tr

~~ sdot= Ces matrices sont carreacutees (N x N) symeacutetriques et reacuteelles Elles sont donc

diagonalisables dans une base orthonormeacutee 6 Le principe de lrsquoACP est alors de trouver un axe u issu drsquoune combinaison lineacuteaire

des tel que le critegravere drsquoinertie du nuage autour de cet axe soit maximal Le critegravere drsquoinertie couramment utiliseacute est la variance Il faut donc trouver lrsquoaxe qui porte le maximum de variance crsquoest-agrave-dire lrsquoaxe u tel que la projection du nuage sur cet axe ait une variance maximale

nx

6 Nos donneacutees eacutetant ici des valeurs drsquoeacutechantillons elles sont par nature centreacutees et reacuteduites On

formera donc naturellement la matrice de correacutelation

C2 Diagonalisation 57

C2 Diagonalisation Pour alleacuteger lrsquoeacutecriture de la suite de cette partie nous consideacutererons que les

variables ont eacuteteacute centreacutees et si besoin reacuteduites et nous noterons ces variables

transformeacutees (ainsi

ix ix

iii xxx minuslarr ou bien )( i

iii x

xxxσ

minuslarr ) On fera de mecircme pour M

( ou bien MM ˆlarr MM ~larr ) et C ( vCC larr ou bien rCC larr ) La projection drsquoun eacutechantillon sur un axe u srsquoeacutecrit ix

uMxiu sdot=)(π (C4) La variance empirique de )( iu xπ vaut donc

uMMuxx ttiu

tiu sdotsdotsdot=sdot )()( ππ (C5)

Or on a vu que est diagonalisable dans une base orthonormeacutee donc

on peut noter P le changement de base associeacute et ∆ la matrice diagonale formeacutee de son spectre Ainsi

MMC t=

n

i 1)(λ PPMMC tt ∆==

)()()()( PuPuuPPuxx ttt

iut

iu sdot∆sdot=sdot∆sdot=sdotππ (C6) On pose v = Pu Chercher lrsquoaxe u qui maximise )( iu xπ revient donc agrave chercher le

vecteur v qui maximise ougravevvt ∆ )( 1 ndiag λλ K=∆ avec les iλ rangeacutes par ordre deacutecroissant Ce vecteur est trivialement le premier vecteur unitaire et on a alors

1λ=∆vvt

Ainsi le vecteur qui porte la plus grande part drsquoinertie du nuage est le premier

vecteur propre de C (premier par norme deacutecroissante) De mecircme le deuxiegraveme vecteur qui explique la plus grandelt part de lrsquoinertie restante est le deuxiegraveme vecteur propre de C Finalement la question de lrsquoACP se ramegravene agrave un problegraveme de diagonalisation de la matrice de correacutelation

C3 Code Matlab

function [vep vap] = pca(f N) f donneacutees N nombre de composantes agrave garder cor = f f formation de la matrice de correacutelation [vep vap] = eig(cor) calcul des vecteurs (vep) et valeurs (vap) propres [vap ind] = sort(diag(vap)) tri des valeurs propres par ordre croissant vap = flipud(vap) disposition inverse par ordre drsquoimportance vep = vep( flipud(ind)) classement en conseacutequence des vecteurs propres vep = vep( 1N) on ne garde que les N premiers vecteurs propres

Annexe C Analyse en composantes principales 58

59

Annexe D

Analyse en sous-bandes

D1 La transformeacutee de Fourier agrave court terme (TFCT) Pour affiner lrsquoanalyse les signaux sont donc deacutecoupeacutes en bandes de freacutequence par

TFCT La TFCT consiste agrave effectuer des transformeacutees de Fourier discregravetes sur des portions de signal fenecirctreacutees reacuteguliegraverement espaceacutees

On rappelle que la transformeacutee de Fourier drsquoun signal x(t) est deacutefinie (lorsque

lrsquointeacutegrale existe) par

int+infin

infinminus

minus= dtetxfX ftiπ2)()( (D1)

La transformeacutee de Fourier agrave temps discret (TFTD) drsquoun signal x(t) srsquoeacutecrit

sum+infin

minusinfin=

minus=n

fnienxfX π2)()( (D2)

La transformeacutee de Fourier discregravete (TFD) drsquoun signal discret x(k) est deacutefinie par

sum+infin

minusinfin=

minus=

n

Nkni

enxkXπ2

)()( (D3)

La TFCT discregravete est une TFD observeacutee sur une fenecirctre wa de taille N

summinus

=

minus+=

1

0

2)())(()(

N

n

Nnki

aaa enwtnxkXπ

ττ (D4)

ougrave )(taτ est lrsquoinstant drsquoanalyse

Annexe D Analyse en sous-bandes 60

Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT [Laroche 1995]

D2 Synthegravese par addition-recouvrement Lors de la synthegravese apregraves le deacutecoupage et lrsquoanalyse des fenecirctres on cherche agrave

reconstruire le signal temporel agrave partir de sa repreacutesentation freacutequentielle Pour cela on utilise la meacutethode OLA (overlap and add addition-recouvrement) qui consiste agrave prendre la TFCT inverse des spectres Xt puis agrave additionner les signaux obtenus apregraves les avoir multiplieacutes par une fenecirctre de pondeacuteration en les faisant se recouvrir partiellement

Le reacutesultat est donneacute par

sum=

minusminus=T

tsss tnxtnwnx

s1

))((~))(()(~ ττ τ (D5)

avec )()( tt as ττ = et summinus

=

=1

0

2))((~1)(~ N

k

Nkni

s ektXN

nxs

π

τ τ

Lors de la mise en œuvre de ce traitement il faut srsquoassurer drsquoecirctre en mesure de

reconstruire parfaitement un signal lorsqursquoaucune transformation ne lui est appliqueacutee Le critegravere de reconstruction parfaite condition suffisante est alors

sum=

=minusminusT

tasaa tnwtnw

11))(())(( ττ quelque soit n (D6)

D2 Synthegravese par addition-recouvrement 61

Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add [Laroche 1995]

Plusieurs paramegravetres sont agrave choisir avec soin Le premier drsquoentre eux est le type

de fenecirctre agrave utiliser Les diffeacuterentes options qui se preacutesentent agrave nous sont - la fenecirctre rectangulaire qui preacutesente dans son spectre le lobe principal le plus

eacutetroit mais des lobes secondaires non neacutegligeables - la fenecirctre de Hamming au lobe principal un peu plus large mais pour laquelle le

1er lobe secondaire se situe agrave -43 dB - la fenecirctre de Hann (ou cosinus sureacuteleveacute) qui ressemble agrave la preacuteceacutedente avec un

1er lobe secondaire plus fort mais une pente de 18 dB par octave pour les lobes suivants

- les fenecirctres de Blackman-Harris aux lobes secondaires tregraves bas mais au lobe principal plus large

Fenecirctre Lobe 2aire

(dB) Pente

(dBoct) Bande passante

agrave 6 dB (bins) Rectangulaire -13 -6 121 Triangulaire -27 -12 178

Hann -32 -18 200 Hamming -43 -6 181

Blackman-Harris 4 -92 -6 272

Tableau D1 - Caracteacuteristiques des principales fenecirctres drsquoanalyse [Harris 1978] Le meilleur compromis est donc dans notre contexte la fenecirctre de Hann ou celle

de Hamming

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 12: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

Chapitre 1 Ambisonics 6

Figure 13 - Erreur de reconstruction drsquoune onde plane en fonction

de lrsquoordre M et du produit kr [Moreau et al 2006]

Figure 14 - Repreacutesentation dans le plan horizontal dans une zone de diamegravetre 1m de la

reconstruction drsquoune onde plane (agrave droite) pour plusieurs ordres et freacutequences Les niveaux de gris repreacutesentent la valeur de la pression acoustique Les courbes eacutetoileacutees indiquent la

limite des zones ougrave lrsquoerreur de reconstruction est infeacuterieure agrave 7 (-115 dB) [Moreau 2006]

12 Encodage et deacutecodage spatial 7

12 Encodage et deacutecodage spatial

121 Encodage spatial Drsquoun point de vue drsquoingeacutenieur du son lrsquoencodage spatial peut ecirctre vu comme un

panoramique drsquoamplitude Un preneur de son lrsquointerpreacutetera comme une capture par un jeu de microphones directifs coiumlncidents Un matheacutematicien verra plutocirct le lien avec la deacutecomposition en harmoniques spheacuteriques deacutecrite en Annexe A

Eacutetudions le cas drsquoune onde plane provenant de la direction )( pp δθ avec une

amplitude S Lrsquoexpression du champ de pression srsquoeacutecrit alors

γδθ cos)( jkrSekrp = (14)

soit encore

)(cos)()12()(0

γδθ mmm

m PkrjjmSkrp suminfin

=

+= (15)

ougrave γ deacutesigne lrsquoangle entre la direction (θ δ ) du point drsquoobservation et la direction

)( pp δθ de provenance de lrsquoonde Il vient ensuite

sum sumsum= plusmn=

infin

=

=m

nmnppmnm

m

m YYkrjjSkrp0 10

)()()()(σ

σσ δθδθδθ (16)

En identifiant cette eacutequation (16) avec la seacuterie de Fourier-Bessel (A16) nous

obtenons finalement lrsquoexpression de la transformeacutee de Fourier spheacuterique drsquoun champ de pression acoustique engendreacute par une onde plane [Moreau 2006]

)( ppmnmn YSB δθσσ = (17)

Les coefficients sont ainsi deacutefinis par la valeur des harmoniques spheacuteriques

dans la direction de provenance de lrsquoonde plane pondeacutereacutee par lrsquoamplitude

σmnB

S du signal transporteacute Ce sont ces coefficients qui constituent le signal ambisonique Des coefficients de normalisation ou de semi-normalisation sont ensuite appliqueacutes pour que les signaux soient drsquoeacutenergie moyenne eacutequivalente entre eux ( ) ou entre les diffeacuterents ordres ( ) (voir Annexe A Tableau A1)

DN 3α DSN 3αDSN 3α

DSN 3α Ces fonctions drsquoencodage peuvent ecirctre simplifieacutees dans le cas drsquoune restriction agrave 2

dimensions (plan horizontal) On ne conserve alors que 2 composantes par ordre celles qui deacutecrivent le plan horizontal crsquoest-agrave-dire veacuterifiant m = n Les coefficients de normalisation sont alors diffeacuterents et lrsquoangle δ est nul Les composantes restantes sont alors

Chapitre 1 Ambisonics 8

ordre notations eacutecriture 0 W 1

00B 1

X 111B θcos2

1 Y 1

11minusB θsin2

U 122B )2cos(2 θ

2 V 1

22minusB )2sin(2 θ

- 1mmB )cos(2 θm

m - 1minus

mmB )sin(2 θm Tableau 11 - Fonctions drsquoencodage ambisonique dans le plan horizontal

avec la convention de normalisation associeacutee (N2D) La figure suivante illustre lrsquoencodage spatial aux ordres 0 1 et 2 de 2 sources

placeacutees aux angles vθ et vθ dans le plan horizontal

ordres 0 et 1 ordre 2

Figure 15 - Encodage horizontal [Moreau et al 2006] Le coefficient (gain) appliqueacute agrave

chaque composante de chacune des 2 sources est donneacute par les intersections des flegraveches et des diagrammes des harmoniques

Comme on peut le voir sur cette figure un encodage au 1er ordre offre une

discrimination angulaire peu appuyeacutee alors que les 2 sources pourtant proches auront des coefficients tregraves diffeacuterents agrave lrsquoordre 2 (les points drsquointersection sont plus eacuteloigneacutes)

122 Deacutecodage spatial Lrsquoobjectif du deacutecodage est de restituer au mieux sur un systegraveme de diffusion

donneacute le champ sonore HOA Il faut ainsi calculer les signaux Sl agrave diffuser sur L haut-parleurs en fonction des composantes ambisoniques Ces σ

mnB L haut-parleurs peuvent ecirctre disposeacutes dans le plan horizontal ou dans un espace tridimensionnel Les deacutecodages les plus courants srsquoeffectuent sur une demi-sphegravere (cas 3D) ou un cercle (cas 2D) de

12 Encodage et deacutecodage spatial 9

haut-parleurs Crsquoest une opeacuteration matricielle qursquoon peut formaliser dans le cas drsquoun deacutecodage dans le plan horizontal par lrsquoeacutequation

BSC =sdot (18)

ougrave la matrice C contient les vecteurs harmoniques spheacuteriques associeacutes agrave chaque direction de haut-parleur et organiseacutes suivant ses lignes le vecteur S contient les signaux eacutemis par les L haut-parleurs et enfin le vecteur B contient les signaux HOA

⎟⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜⎜

=

⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜

=

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

=

10

100

2

1

1011

10

11111

111

10011

100

)()()(

)()()()(

M

mn

LLLMM

llmn

LL

LL

B

B

B

B

S

SS

S

YYY

YYYY

CM

M

M

L

MM

L

L

σσ

δθδθδθ

δθδθδθδθ

(19)

)( ll δθ repeacuterant la position du legraveme haut-parleur

Il faut donc estimer S connaissant B et C Le deacutecodage se reacutesume alors agrave un systegraveme de (M +1)2 (en 3D) ou 2M +1 (en 2D) eacutequations lineacuteaires agrave L inconnues On ne peut trouver de solution exacte que si le nombre de haut-parleurs est au moins eacutegal au nombre de signaux crsquoest-agrave-dire si L gt (M +1)2 (en 3D) ou 2M +1 (en 2D) Crsquoest en outre une condition neacutecessaire pour pouvoir avoir une reproduction homogegravene de la scegravene sonore

La matrice C nrsquoest pas neacutecessairement carreacutee et inversible une solution geacuteneacuterale

consiste agrave calculer lrsquoinverse geacuteneacuteraliseacutee de la matrice C noteacutee D encore appeleacutee pseudo-inverse de Moore-Penrose

BDS sdot= (110)

avec

1pinv( ) ( )t tD C C C C minus= = sdot sdot (111) D est appeleacutee matrice de deacutecodage BDS sdot= reacutesout le systegraveme (18) si les haut-

parleurs sont suffisamment nombreux L gt (M +1)2 (en 3D) ou 2M +1 (en 2D)) Srsquoils sont en outre disposeacutes sur une sphegravere (3D) ou un cercle (2D) de maniegravere eacutequidistante crsquoest-agrave-dire srsquoils sont les sommets drsquoun polyegravedre ou polygone reacutegulier ils preacuteservent alors la proprieacuteteacute drsquoorthonormaliteacute des harmoniques spheacuteriques Ceci se traduit par

Lt ILCC sdot=sdot (112)

ougrave IL est la matrice identiteacute de taille LLtimes On a alors

1pinv( ) tD CL

= = C (113)

Chapitre 1 Ambisonics 10

Cette proprieacuteteacute ne peut pas ecirctre matheacutematiquement veacuterifieacutee en 3D au-delagrave de lrsquoordre 2 autrement dit il nrsquoexiste pas de polyegravedre reacutegulier dont la position des sommets conserve strictement lrsquoorthonormaliteacute des harmoniques spheacuteriques

Visuellement le deacutecodage correspond agrave la reproduction du champ sonore tel qursquoil

aurait eacuteteacute capteacute par un ensemble de N microphones agrave directiviteacutes hyper-cardioiumldes tourneacutes chacun vers lrsquoun des haut-parleurs Leur directiviteacute serait drsquoautant plus preacutecise que lrsquoordre de reproduction est eacuteleveacute

Figure 16 - Prise de son virtuelle eacutequivalente agrave un encodage au 1er ordre et un deacutecodage

basique sur une disposition en 2D hexagonale [Moreau et al 2006] Le gain gl appliqueacute agrave chaque haut-parleur pour une direction de source virtuelle donneacutee

(en vert) est indiqueacute par la longueur des flegraveches et est reporteacutee aux points drsquointersection de la flegraveche verte et des diagrammes de directiviteacute

On peut remarquer que les diagrammes de directiviteacute sont tregraves larges par rapport

agrave lrsquoespacement angulaire des haut-parleurs Le 2nd ordre offrirait des directiviteacutes plus fines et donc une seacutelectiviteacute spatiale accrue Il faudrait alors bien sucircr davantage de haut-parleurs pour ne pas introduire des ldquotrousrdquo entre eux On remarque eacutegalement la preacutesence non neacutegligeable des lobes secondaires utiles pour la reconstruction du champ acoustique (notamment en basses freacutequences) mais qui peuvent ecirctre gecircnants dans certains cas par exemple lorsque lrsquoauditoire est large

Ce deacutecodage est appeleacute deacutecodage basique car il nrsquooptimise pas la restitution en

accord une quelconque hypothegravese et cherche uniquement agrave reproduire fidegravelement le champ acoustique Pour ameacuteliorer la restitution dans des cas critiques comme par exemple en-dehors du sweet spot (centre du dispositif) il faut optimiser le deacutecodage en reacuteduisant par exemple les lobes secondaires Ainsi le deacutecodage max-rE srsquoattache agrave maximiser lrsquoeacutenergie reccedilue de la provenance de la direction souhaiteacutee alors que le deacutecodage in-phase annule complegravetement ces lobes secondaires (voir Annexe B)

13 Critique de la technologie HOA 11

13 Critique de la technologie HOA

131 Bilan On a ainsi vu que la technologie HOA est une repreacutesentation intermeacutediaire du

champ de pression acoustique agrave mi-chemin entre la description directe du champ lui-mecircme et des signaux agrave restituer Cette technologie a de nombreux avantages compareacutee aux autres meacutethodes de reproduction de champ sonore (on trouvera notamment une eacutetude deacutetailleacutee des comparaisons entre HOA et la Wave Field Synthesis (WFS) dans [Daniel et al 2003]) elle permet drsquoeacuteviter le repliement spatial (voir paragraphe suivant) et permet ainsi une reconstruction dans une gamme de freacutequences tregraves large

La qualiteacute de la restitution ambisonique nrsquoest theacuteoriquement limiteacutee que part

lrsquoordre de troncature de la seacuterie de Fourier-Bessel agrave partir du moment ougrave le nombre de haut-parleurs est suffisant Ainsi un ordre tendant vers lrsquoinfini (et un nombre de haut-parleurs au moins aussi grand) permettra une reproduction quasi-parfaite sur lrsquoensemble de la zone drsquoeacutecoute

Mais les principaux avantages de cette technologie sont drsquoune part drsquoecirctre flexible

crsquoest-agrave-dire qursquoon peut agrave loisir adapter le nombre de signaux transmis au canal de transmission Une chute de deacutebit nrsquoentraicircnera pas de coupure de la transmission mais simplement une perte de preacutecision spatiale par lrsquoabandon des composantes drsquoordres les plus eacuteleveacutes Et drsquoautre part elle est indeacutependante du systegraveme de reproduction Ainsi un mecircme signal HOA pourra ecirctre diffuseacute sur toutes les configurations de haut-parleurs il suffira pour cela de calculer la matrice de deacutecodage associeacutee agrave ce systegraveme

132 Limites pratiques Dans la pratique cette technologie a toutefois des limitations Si lrsquoaliasing spectral

est eacuteviteacute on constate aux ordres les plus eacuteleveacutes lrsquoapparition drsquoun repliement spatial lors des enregistrements naturels agrave partir drsquoune freacutequence lieacutee agrave la distance maximale entre 2 capsules du microphone HOA (qui doit ecirctre au plus eacutegale agrave la moitieacute de la plus petite longueur drsquoonde drsquoapregraves Shannon) et au nombre total de capsules (qui doit ecirctre supeacuterieur agrave (M+1)2 M eacutetant lrsquoordre auquel on souhaite enregistrer)

Le repliement spectral repreacutesente la preacutesence importune dans des composantes

ambisoniques de sources qui de part leur position ne devraient qursquoapparaicirctre avec cette importance que dans les composantes drsquoordre plus eacuteleveacute Il est ducirc agrave lrsquointrusion des directiviteacutes drsquoordres supeacuterieurs dans les composantes harmoniques spheacuteriques estimeacutees Comme on le voit sur la Figure 17 les directiviteacutes ne sont pas des cylindres (au sens matheacutematique du terme la base nrsquoeacutetant pas forceacutement un cercle) mais varient en fonction de la freacutequence pour ressembler davantage dans le haut du spectre aux courbes de directiviteacute de lrsquoordre supeacuterieur Ainsi la directiviteacute de lrsquoordre 1 (2egraveme graphique) qui devrait ecirctre un 8 ressemble davantage au-dessus de 10 000 Hz agrave la figure de directiviteacute de lrsquoordre 4 (8 lobes)

Chapitre 1 Ambisonics 12

Figure 17 - Directiviteacutes theacuteoriques (en transparence) et reconstruites (grille) dans le plan horizontal pour des ondes planes horizontales Lrsquoaxe vertical correspond agrave la freacutequence et

les diffeacuterents graphiques aux ordres 0123 et 4 de gauche agrave droite Agrave lrsquoopposeacute la taille reacuteduite du microphone si elle permet de reacuteduire cet aliasing

spatial empecircche la capture des basses freacutequences aux ordres supeacuterieurs (voir 232) La reacutesolution spatiale des basses freacutequences sera donc moindre ce qui implique que en ajoutant lrsquoeffet du repliement en hautes freacutequences les ordres eacuteleveacutes capteacutes avec le micro HOA ne constituent qursquoune plage du spectre assez peu eacutetendue crsquoest cette seule plage qui pourra se targuer drsquoune excellente preacutecision spatiale

13

Chapitre 2

Analyser un contenu HOA

21 Objectifs La reacuteflexion a tout au long du stage eacuteteacute orienteacutee vers deux objectifs le premier

est dans un contexte de transmission de reconstruire une scegravene spatialiseacutee agrave partir du minimum drsquoinformations le deuxiegraveme appliqueacute agrave des ordres plus eacuteleveacutes est drsquoarriver agrave resyntheacutetiser les composantes de lrsquoordre immeacutediatement supeacuterieur

211 Restitution de la spatialisation agrave partir drsquoun downmix mono La premiegravere approche vise donc agrave reconstruire une scegravene spatialiseacutee agrave partir drsquoun

downmix le plus leacuteger possible Un downmix est une reacuteduction du nombre de canaux par fusion lrsquoexemple le plus simple eacutetant le passage drsquoun signal steacutereacuteo agrave un signal mono construit comme la demi-somme des composantes gauche et droite On tente dans cette approche de se restreindre au plus petit nombre de signaux possible un signal eacutetant tregraves coucircteux agrave transmettre en ajoutant parallegravelement agrave ce signal des informations compleacutementaires aidant agrave la reconstruction

Le cas extrecircme est la reacuteduction du flux agrave un signal mono Dans le cas

drsquoambisonics un signal mono comprenant toutes les sources est deacutejagrave preacutesent il srsquoagit de la composante omnidirectionnelle W Il faut donc extraire de la scegravene encodeacutee agrave un certain ordre M des informations permettant la reconstruction drsquoun ordre Mrsquo apregraves transmission Nous verrons que nous allons chercher agrave trouver les positions des sources gracircce agrave une analyse en composantes principales (ou ACP voir Annexe C) effectueacutee par sous-bandes (voir Annexe D)

212 Ameacutelioration de la preacutecision spatiale La deuxiegraveme piste suivie a pour but de reconstituer un ordre ambisonique non

transmis On pourrait qualifier cette approche drsquoupmix ambisonique car elle vise agrave reconstruire un ordre manquant En effet le format ambisonique eacutetant flexible il est bien

Chapitre 2 Analyser un contenu HOA 14

adapteacute agrave la transmission Ainsi si on souhaite transmettre une scegravene encodeacutee agrave lrsquoordre 2 dans le plan horizontal il faudra un canal drsquoun deacutebit minimum (si lrsquoon prend lrsquohypothegravese de pas vouloir compresser les signaux) de 471 Mos Un canal plus petit (par exemple 34 Mos) ne permettra theacuteoriquement de transmettre qursquoun ordre 1 Mais lrsquoanalyse des signaux peut permettre de deacuteterminer les positions des sources agrave partir desquelles on peut syntheacutetiser des composantes du 2nd ordre approchant les composantes drsquoorigine On pourrait mecircme imaginer pouvoir syntheacutetiser un ordre qui nrsquoavait pas eacuteteacute encodeacute agrave lrsquoorigine

Pour cela il est neacutecessaire de deacuteterminer les positions des sources preacutedominantes

dans le champ sonore pour piloter leur encodage spatial aux ordres supeacuterieurs et arriver agrave la synthegravese drsquoune repreacutesentation de reacutesolution spatiale accrue Il srsquoagit dans le mecircme temps drsquoisoler au mieux les signaux associeacutes agrave ces diffeacuterentes sources avant de leur appliquer lrsquoopeacuteration drsquoencodage on se rapproche donc drsquoun problegraveme de seacuteparation de sources

Pour parvenir agrave trouver ces positions deux meacutethodes ont eacuteteacute testeacutees La premiegravere

consiste comme preacuteceacutedemment agrave appliquer en sous-bandes une analyse en composantes principales La seconde implique la formation de directiviteacutes agrave partir des vecteurs propres de la matrice de correacutelation utiliseacutee dans cette analyse

Lrsquoanalyse en composantes principales ou ACP (voir Annexe C) est donc

largement privileacutegieacutee dans nos approches Elle permet en effet tregraves facilement drsquoextraire des informations preacutecises de signaux correacuteleacutes Pour justifier ce choix une autre meacutethode reacutecente a eacutegalement eacuteteacute testeacutee et compareacutee agrave lrsquoACP (voir 11)

22 Principe de lrsquoextraction drsquoinformation spatiale avec une ACP

221 Information spatiale

Nous avons donc tout drsquoabord testeacute lrsquoanalyse en composantes principales sur des

signaux HOA Nous avons choisi dans un premier temps de limiter lrsquoanalyse aux composantes horizontales du premier ordre W X et Y avant de lrsquoeacutetendre agrave la 3egraveme dimension avec Z

Dans un premier test les signaux HOA sont analyseacutes par une ACP dans leur

inteacutegraliteacute LrsquoACP est appliqueacutee sur les signaux X et Y qui contiennent lrsquoinformation spatiale En effet X et Y correspondent aux signaux qui seraient capteacutes par des microphones agrave figure en 8 placeacutes sur lrsquoaxe avant-arriegravere et gauche-droite respectivement

La Figure 21 montre la correacutelation entre X et Y dans le cas drsquoun bruit blanc capteacute

par le microphone ambisonique Les points ne sont pas exactement aligneacutes du fait des artefacts inheacuterents agrave la prise de son (reacuteflexions sur les parois approximations du microphone etc)

22 Principe de lrsquoextraction drsquoinformation spatiale avec une ACP 15

Figure 21 - Y en fonction de X dans le cas drsquoun bruit blanc enregistreacute placeacute agrave 30deg

On remarque que le nuage est eacutetireacute dans la direction de provenance du son indiqueacutee par la flegraveche en pointilleacutes verts

222 Application de lrsquoanalyse en composantes principales La 1egravere composante issue de lrsquoACP appliqueacutee dans le plan (X Y) pointe dans la

direction dans laquelle X et Y ont la plus grande correacutelation Or comme X contient lrsquoinformation placeacutee sur lrsquoaxe avant-arriegravere et Y lrsquoinformation de lrsquoaxe gauche-droite cette direction est directement la direction de la source Par exemple un son situeacute droit devant dans lrsquoaxe (agrave 0deg) aura une composante Y nulle et par conseacutequent les eacutechantillons seront dans le plan tous disposeacutes sur lrsquoaxe horizontal LrsquoACP prendra donc naturellement cet axe comme 1er vecteur propre et il pointe bien vers la position de la source De mecircme un son situeacute agrave 135deg ( π28

3 times rad) aura la proprieacuteteacute Y = -X Les eacutechantillons seront donc placeacutes sur la 2egraveme bissectrice qui fait avec lrsquoaxe Y=0 un angle de 135deg (voir Figure 22)

Figure 22 - Y en fonction de X dans le cas drsquoun son placeacute artificiellement dans la direction

indiqueacutee par la flegraveche en pointilleacutes verts agrave 0deg (agrave gauche) et 135deg (agrave droite)

Chapitre 2 Analyser un contenu HOA 16

Lrsquoanalyse de X et Y ne permet cependant de deacuteterminer lrsquoangle qursquoagrave π pregraves il reste une indeacutetermination (on deacutetermine la direction drsquoun axe qursquoil reste agrave orienter) Pour lever cette ambiguiumlteacute on integravegre W agrave lrsquoanalyse car cette composante pourtant omnidirectionnelle et donc deacutepourvue drsquoinformation spatiale apporte une reacutefeacuterence pour les phases Ainsi notre son placeacute agrave 135deg veacuterifiait (aux eacuteventuels coefficients de normalisation pregraves) Y = -X = W alors qursquoun son placeacute agrave 135 - 180 = -45deg aurait la proprieacuteteacute Y = -X = -W

Pour prendre en compte W dans lrsquoanalyse on peut comparer directement les

phases de ces 3 canaux Algorithmiquement on ramegravene lrsquoangle trouveacute agrave son modulo π2 puis on deacutetermine le vrai cadran par comparaison des phases de W X et Y crsquoest-agrave-dire en comparant le signe des produits W X et W Y Ainsi W X gt 0 signifie que W et X sont en phase et reacuteciproquement (voir Figure 23)

W X lt 0 W Y gt 0

W X gt 0 W Y gt 0

W X lt 0 W Y lt 0

W X gt 0 W Y lt 0

minusπ2

π

π2

0

Figure 23 - Signes de W X et W Y en fonction du cadran On peut eacutegalement inteacutegrer W agrave lrsquoanalyse en appliquant lACP sur le triplet (X Y

W) Le problegraveme drsquoambiguiumlteacute est ainsi reacutesolu la direction rechercheacutee eacutetant celle du vecteur principal dans le demi-espace W gt 0 projeteacutee sur le plan (X Y) Cette meacutethode srsquoavegravere plus robuste et surtout plus geacuteneacuteralisable agrave des ordres plus eacuteleveacutes

Cette analyse permet donc de deacuteterminer la position drsquoune source unique Pour

pouvoir seacuteparer plusieurs sources nous avons appliqueacute lrsquoACP par sous-bandes en supposant que les sources nrsquoont pas des supports freacutequentiels strictement identiques Le principe de cette analyse en sous-bandes est deacuteveloppeacute en Annexe D

23 Meacutethodologie

231 Construction de scegravenes artificielles Pour tester les algorithmes impleacutementeacutes nous avons ducirc creacuteer des scegravenes sonores

spatialiseacutees au format HOA Plusieurs types de scegravenes ont eacuteteacute utiliseacutes de complexiteacutes diffeacuterentes Les premiegraveres ont eacuteteacute des scegravenes virtuelles syntheacutetiseacutees avec Matlab Les premiegraveres scegravenes simplissimes ne comportait qursquoune sinusoiumlde ou un bruit blanc fixe placeacute dans le plan horizontal Puis pour tester lrsquoanalyse par sous-bandes ont eacuteteacute creacuteeacutes des sons polyphoniques composeacutes de 2 sinusoiumldes tout drsquoabord puis de sons complexes (syntheacutetiseacutes par synthegravese FM) dans des gammes freacutequentielles distinctes ou se

23 Meacutethodologie 17

chevauchant Enfin ces sons ont eacuteteacute rendus mobiles en faisant varier leur position dans le temps

Nous avons pu ainsi constater agrave lrsquoaide des sons fixes et de supports freacutequentiels

distincts la preacutecision de lrsquoanalyse et avec les sons mobiles et mecircleacutes sa robustesse Nous nous sommes limiteacutes sous Matlab agrave la geacuteneacuteration de 2 sons simultaneacutes et du 1er ordre et un autre outil Plogue Bidule a eacuteteacute utiliseacute pour composer des scegravenes plus complexes

Bidule est un studio modulaire virtuel ressemblant agrave MAXMSP Des plugins ont

eacuteteacute deacuteveloppeacutes agrave France Teacuteleacutecom pour permettre de manipuler des signaux HOA Ainsi des scegravenes complexes ont pu facilement ecirctre syntheacutetiseacutees agrave des ordres eacuteleveacutes Des scegravenes agrave 3 et 4 sources fixes ou dont 1 source mobile ont eacuteteacute reacutealiseacutees agrave partir de voix deacutemixeacutees placeacutees dans le plan horizontal ou en 3 dimensions

Ces scegravenes eacutetant artificielles elles sont en un sens ideacuteales ne contiennent aucun

signal reacuteverbeacutereacute (effet de salle) ni diffracteacute (par un micro) lrsquoencodage est fait sans artefacts les ondes sont consideacutereacutees comme planes et ont donc une direction bien deacutefinie Si on est ici bien loin de la vraie vie le gros avantage des scegravenes artificielles est qursquoon connaicirct preacuteciseacutement agrave chaque instant la position des sources et qursquoon peut ainsi veacuterifier le reacutesultat de lrsquoanalyse

Figure 24 - Interface graphique du logiciel Bidule avec agrave droite les controcircles des encodeurs

et deacutecodeurs HOA creacuteeacutes agrave France Teacuteleacutecom

Chapitre 2 Analyser un contenu HOA 18

232 Exploitation drsquoenregistrements naturels Une fois des reacutesultats convaincants obtenus avec des scegravenes virtuelles des

enregistrements naturels ont eacuteteacute analyseacutes Ces scegravenes ont eacuteteacute enregistreacutees gracircce au prototype de micro HOA du 4egraveme ordre deacuteveloppeacute agrave France Teacuteleacutecom (voir Figure 12) Ce processus implique des diffeacuterences notables avec un encodage virtuel

Le prototype de microphone contraint en effet agrave quelques compromis pour

optimiser des critegraveres incompatibles La taille du microphone reacutesulte drsquoun compromis entre la preacutecision drsquoestimation des composantes en basses freacutequences qui neacutecessite une taille eacuteleveacutee et la minimisation de lrsquoaliasing spatial qui ne peut ecirctre eacuteviteacute qursquoavec des capsules tregraves proches les unes des autres Leur disposition est eacutegalement irreacuteguliegravere il nrsquoexiste en fait aucune faccedilon de disposer reacuteguliegraverement plus de 20 points sur une sphegravere La configuration qui avait eacuteteacute retenue par les concepteurs [Moreau 2006] est la ldquomoins irreacuteguliegravere possiblerdquo au sens de la preacuteservation de lrsquoorthonormaliteacute des harmoniques spheacuteriques les 32 capsules sont reacuteparties sur une sphegravere de 35 cm de rayon selon un Pentaki-dodeacutecahegravedre polyegravedre semi-reacutegulier dual de lrsquoicosaegravedre tronqueacute (ballon de football)

Ces artefacts sont donc inheacuterents agrave lrsquoutilisation drsquoun reacuteseau de microphones Mais

le monde reacuteel pose eacutegalement des problegravemes deacutelicats La complexiteacute des modes de rayonnement drsquointeraction avec lrsquoenvironnement reacuteclame lrsquointroduction de modegraveles drsquoencodage beaucoup plus complexes que le cas drsquoune onde plane en champ libre et rend lrsquoinformation spatiale moins limpide et univoque au sein de la scegravene encodeacutee (enregistreacutee) en comparaison avec une scegravene virtuelle Les sources ne sont ainsi plus ponctuelles mais eacutetendues elles ne sont plus agrave lrsquoinfini mais agrave une distance finie du microphone (les ondes reccedilues ne sont donc plus planes) En outre chaque source en se reacutefleacutechissant sur les parois et les diffeacuterents objets de la salle creacutee une multitude de sources secondaires Il est enfin souvent difficile de connaicirctre avec preacutecision la position drsquoune source dans lrsquoespace lors drsquoun enregistrement

Des enregistrements en chambre sourde ont eacuteteacute reacutealiseacutes pour se passer des

reacuteflexions de lrsquoenvironnement Afin de connaicirctre avec preacutecision la position de la source un haut-parleur diffusant un bruit blanc nous avons placeacute le microphone sur une table tournante commandeacutee par un plug-in sous Plogue Bidule

233 Visualisations des reacutesultats Lrsquoobservation des reacutesultats a eacuteteacute effectueacutee de plusieurs maniegraveres visuellement et

par lrsquoeacutecoute Les graphiques eacutetant plus commodes crsquoest par cette voie que les premiers essais eacutetaient conclus Plusieurs types de graphiques ont eacuteteacute produits deacutecrivant des paramegravetres diffeacuterents

Les repreacutesentations temps-freacutequence permettent de repreacutesenter une variable agrave 1

dimension sous Matlab Cette voie a eacuteteacute suivie pour visualiser les paramegravetres extraits de chaque sous-bande de chaque fenecirctre notamment les angles lrsquoeacutenergie et la pertinence Malheureusement Matlab ne permet pas de repreacutesenter sur le mecircme graphique une 4egraveme dimension sous la forme drsquoune 2egraveme dimension colorimeacutetrique (on prend geacuteneacuteralement la

23 Meacutethodologie 19

saturation) Cette dimension suppleacutementaire aurait permis de repreacutesenter simultaneacutement les angles et leur pertinence

Figure 25 - Repreacutesentation

et de lrsquoespace col

Pour repreacutesenter s

drsquoabandonner une dimensipouvoir repreacutesenter danrepreacutesenteacutees soit par le niv

Figure 26 - Repreacutesentationdeacutecrite en 332 (en absciss

est repreacutesenteacutee agrave gauc

234 Diffeacuterents modes La visualisation est

indispensable pour veacuterifiesont possibles de ceux-cainsi reconstitueacutee agrave partir d

1 W+Y+02X pour le c

π 0 minusπ

de la table des couleurs dite HSV de Matlab (lineacuteaire agrave gauche) orimeacutetrique HSL (Hue Saturation Luminance agrave droite)

imultaneacutement angles et pertinence il eacutetait donc neacutecessaire on Crsquoest le deacutecoupage freacutequentiel qui a eacuteteacute mis de cocircteacute pour s un plan temps-angles les pertinences Celles-ci sont eau de gris des points soit par leur taille

de la pertinence des angles de la scegravene agrave 4 sources dont 1 mobile e les trames en ordonneacutees les angles en degreacute) La pertinence he par lrsquointensiteacute du bleu et agrave droite par la taille des points

drsquoeacutecoute

un indice preacutecis de reacutesultat mais lrsquoeacutecoute est tout de mecircme r la qualiteacute globale de la synthegravese Plusieurs modes drsquoeacutecoute i lrsquoeacutecoute au casque est la plus aiseacutee Une pseudo-steacutereacuteo est es signaux du 1er ordre1 pour restituer les scegravenes restreintes au

anal gauche et W-Y+02X pour le canal droit

Chapitre 2 Analyser un contenu HOA 20

plan horizontal Pour plus de preacutecision agrave la restitution ou pour des scegravenes en 3D et sans perdre la faciliteacute drsquoune eacutecoute personnelle au casque on peut appliquer des filtres HRTF (Head-Related Transfert Function) pour une reproduction binaurale

Pour appreacutecier pleinement la spatialisation la diffusion sur un systegraveme multi

haut-parleurs est indispensable Deux systegravemes sont installeacutes dans le laboratoire de France Teacuteleacutecom un systegraveme 51 et un systegraveme circulaire de 48 haut-parleurs Ces systegravemes installeacutes dans des studios insonoriseacutes offrent une grande qualiteacute drsquoeacutecoute qui permet de repeacuterer les deacutefauts mecircme minimes de la synthegravese

21

Chapitre 3

Description des analyses

31 Deacutetermination des directions principales

311 Base des algorithmes Nous avons deacuteveloppeacute plusieurs algorithmes reacutepondant aux diffeacuterents objectifs

deacutecrits plus haut Chacun drsquoeux possegravede des particulariteacutes leur permettant de reacutepondre agrave ces objectifs mais on trouve neacuteanmoins une partie commune Ainsi toutes les analyses reposent sur le mecircme modegravele drsquoapplication drsquoune ACP par sous-bandes dont voici le scheacutema geacuteneacuteral

Figure 31 - Scheacutema geacuteneacuteral drsquoanalyse

Les signaux en entreacutee sont les composantes HOA W X et Y dans la plupart des

cas mais peuvent ecirctre eacutegalement des composantes drsquoordre plus eacuteleveacute (voir 11) Sur le fenecirctrage jouent plusieurs paramegravetres comme la taille de la fenecirctre ou encore le pourcentage de recouvrement entre elles Nous avons choisi une fenecirctre en racine de la fenecirctre de Hanning crsquoest-agrave-dire une arche de sinusoiumlde (voir eacutequation (D7) en Annexe D) avec un recouvrement de 50 ce qui veacuterifie le critegravere de reconstruction parfaite (D6) Le filtrage est pour des raisons de rapiditeacute de calcul reacutealiseacute dans le domaine freacutequentiel par une simple multiplication avant de repasser en temporel pour appliquer lrsquoACP

Le banc de filtre utiliseacute est un banc inspireacute des filtres ERB Les filtres ERB

(Equivalent Regular Bandwidth) sont des filtres imitant le comportement de seacuteparation freacutequentielle de lrsquooreille humaine plus preacutecise en basse freacutequence Les filtres utiliseacutes ici ne sont pas directement des filtres ERB le systegraveme nrsquoa pas drsquointeacuterecirct particulier agrave essayer de copier le fonctionnement de lrsquooreille humaine Ces filtres ont eacuteteacute adapteacutes au problegraveme en

Chapitre 3 Description des analyses 22

srsquoassurant en particulier de la finesse des bandes permettant la meilleure discrimination des diffeacuterentes sources crsquoest-agrave-dire autour des fondamentales usuelles (200-1000 Hz) et des harmoniques Les freacutequences aigueumls sont bien discrimineacutees par les filtres ERB (relativement agrave la gamme crsquoest-agrave-dire en eacutechelle logarithmique) le deacutecoupage a donc surtout eacuteteacute densifieacute entre 200 et 800 Hz par rapport aux bandes ERB

Figure 32 - Filtres utiliseacutes inspireacutes des filtres ERB repreacutesenteacutes lineacuteairement (en haut)

et sur une eacutechelle logarithmique (en bas) Les reacutesultats de lrsquoACP sont donc avec cette meacutethode les angles des sources

trouveacutees dans chaque sous-bande ainsi que pour chacun drsquoeux un critegravere de pertinence calculeacute en fonction de lrsquoeacutenergie de la sous-bande dans une fenecirctre donneacutee et de la norme relative de la premiegravere composante de lrsquoACP (voir 342) Les autres vecteurs propres peuvent ecirctre utiliseacutes pour extraire davantage drsquoinformations et mecircme des signaux deacutecorreacuteleacutes comme on le verra au paragraphe 35 mais lrsquoanalyse semble alors moins robuste Srsquoen tenir aux informations donneacutees par la composante principale est un gage de pertinence suppleacutementaire

Ces reacutesultats concernent donc les sources preacutedominantes ou principales mais

laissent de cocircteacute un certain nombre drsquoeacuteveacutenements sonores agrave consideacuterer

312 Traitement du champ reacutesiduel Le champ reacutesiduel regroupe en quelque sorte tout ce qui nrsquoest pas une source

principale Il inclut donc les reacuteflexions et la reacuteverbeacuteration de la piegravece mais aussi les bruits parasites occasionnels ou continus (ventilation etc) Ces bruits ou eacutechos nrsquoont pas de direction de provenance assez distincte pour pouvoir ecirctre mesureacutee preacuteciseacutement Le champ reacutesiduel est eacutegalement composeacute du champ diffus La notion de champ diffus est couramment utiliseacutee mais rarement preacuteciseacutement deacutefinie On trouve dans la litteacuterature des deacutefinitions diverses lrsquoune drsquoelles preacutecisant qursquoil serait un ensemble drsquoeacuteveacutenements sonores proches en temps et provenant de directions eacutequiprobables

Les algorithmes proposeacutes traitent correctement les sources principales mais le

champ reacutesiduel est laisseacute de cocircteacute Il est pourtant tregraves important pour lrsquoimmersion du sujet dans la scegravene une scegravene deacutepourvue de champ sonore sera perccedilue comme artificielle ce qui nuit agrave la perception drsquoespace On sera par exemple davantage conscients drsquoecirctre au centre drsquoun dispositif expeacuterimental et moins sensibles aux variations de profondeur et de perspectives

31 Deacutetermination des directions principales 23

Neacuteanmoins il faut relativiser lrsquoimportance de ce champ reacutesiduel il nrsquoest pas utile pour la localisation des sources principales et ne caracteacuterise que lrsquoenvironnement drsquoenregistrement En outre le champ reacutesiduel qui provient souvent de directions floues et notre but nrsquoest pas de les preacuteciser artificiellement Il nrsquoest degraves lors geacuteneacuteralement pas utile de le transmettre aux ordres eacuteleveacutes

Ainsi certains auteurs [Merimaa and Pulkki 2005] ont choisi de recreacuteer lors drsquoune

synthegravese un champ diffus artificiel baseacute sur une reacuteponse impulsionnelle de salle calculeacutee agrave lrsquoavance Lrsquoavantage est une immersion un enveloppement complets lrsquoinconveacutenient est que lrsquoambiance ainsi recreacuteeacutee est fictive et arbitraire et en outre complegravetement indeacutependante de lrsquoambiance initiale en laissant notamment de cocircteacute les sources secondaires

Nous proposons dans nos algorithmes de ne pas syntheacutetiser le champ diffus aux

ordres eacuteleveacutes mais de nous contenter de la description du champ reacutesiduel fourni par les ordres transmis (1er ordre dans nos exemples) Nous nous limiterons donc agrave preacuteciser par la synthegravese des ordres supeacuterieurs les positions des sources principales

32 Extension agrave la 3D Nous avons pour le moment eacutevoqueacute le cas de repreacutesentations de champ sonore agrave

2 dimensions crsquoest-agrave-dire issus de sources placeacutees dans le plan horizontal Mais certaines repreacutesentations comportent eacutegalement des composantes verticales Pour analyser ces signaux en 3 dimensions il faut inteacutegrer la composante Z On effectue alors simplement une ACP sur X Y Z et W Le 1er vecteur propre sera alors bien dirigeacute dans lrsquoespace (X Y Z) dans la direction de la source lrsquoambiguiumlteacute de frac12 espace eacutetant leveacutee par W

Lrsquoalgorithme est alors complegravetement similaire agrave celui analysant des signaux en 2

dimensions Des tests ont eacuteteacute reacutealiseacutes agrave partir de signaux syntheacutetiques pour lesquels les positions des sources eacutetaient connues pour des raisons pratiques aucune scegravene sonore reacuteelle en 3 dimensions nrsquoa pu ecirctre enregistreacutee avec une connaissance initiale preacutecise des positions des sources

Les visualisations et les eacutecoutes eacutetant plus deacutelicates en 3D et lrsquoextension agrave la 3D

eacutetant immeacutediate nous avons donc concentreacute nos efforts sur lrsquoanalyse de scegravenes en 2D En outre en lrsquoabsence de dispositif spheacuterique ou heacutemispheacuterique de haut-parleurs le seul moyen agrave notre disposition pour eacutecouter une scegravene 3D est lrsquoeacutecoute binaurale crsquoest-agrave-dire au casque avec des fonctions de transfert de tecircte (HRTF) relativement bien adapteacutees agrave lrsquoauditeur

33 Analyse aux ordres supeacuterieurs

331 Description Afin drsquoameacuteliorer la preacutecision de lrsquoanalyse nous avons essayeacute drsquoappliquer une ACP

sur des signaux ambisoniques drsquoordre plus eacuteleveacute (signaux HOA) dans le plan horizontal Deux meacutethodes ont eacuteteacute essayeacutees

Chapitre 3 Description des analyses 24

La premiegravere consiste agrave appliquer une ACP agrave 3 dimensions successivement sur les composantes X Y W (ordre 1 et 0) puis U V W (ordre 2 et 0) et ainsi de suite crsquoest-agrave-dire (en utilisant la notation geacuteneacuterale) sur les composantes et W (ordre m et 0) Les reacutesultats de ces analyses (les directions des 1

)1(0mY )1(

0minus

mYegraveres composantes) sont ensuite regroupeacutees

lrsquoanalyse de lrsquoordre 1 fournissant des reacutesultats modulo 2π lrsquoanalyse de lrsquoordre 2 des reacutesultats plus preacutecis mais modulo π et plus geacuteneacuteralement lrsquoanalyse de lrsquoordre m permettant de trouver des angles modulo mπ2

La limite de cette approche se perccediloit lors de la fusion des reacutesultats les angles

trouveacutes agrave un ordre eacuteleveacute sont plus preacutecis dans des bandes de freacutequences eacuteleveacutees mais la limitation theacuteorique de ces signaux HOA dans les basses freacutequences font que lrsquoanalyse de lrsquoordre 1 reste la plus pertinente dans les premiegraveres bandes Parvenir agrave deacuteterminer agrave partir de quelle freacutequence on peut faire davantage confiance agrave lrsquoordre n+1 qursquoagrave lrsquoordre n nrsquoest pas aiseacute et cette limite provoque des aberrations dans les angles trouveacutes Une source unique pourra par exemple ecirctre interpreacuteteacutee par lrsquoalgorithme des k-moyennes (voir 341) comme 2 sources une en hautes freacutequences et une en basses freacutequences les 2 eacutetant trouveacutes agrave 2 angles diffeacuterents chaque angle relevant drsquoun ordre analyseacute diffeacuterent

La deuxiegraveme meacutethode consiste pour eacuteviter cette fusion des reacutesultats agrave effectuer

une seule ACP sur les composantes U V X Y et W Cette meacutethode souffre drsquoune tregraves grande complexiteacute algorithmique pour une ameacutelioration de la preacutecision peu sensible En effet si cette meacutethode permet drsquoobtenir des reacutesultats plus preacutecis dans certaines bandes de freacutequences elle est sensible aux deacutefauts et les limites des ordres supeacuterieurs (lrsquoabsence de basses freacutequences entre autres) perturbent lrsquoanalyse en composantes principales

332 Illustration sur une scegravene virtuelle La scegravene preacutesenteacutee ici est une scegravene artificielle crsquoest-agrave-dire composeacutee de sons

placeacutes artificiellement agrave diverses positions Elle a une dureacutee totale de 135 s et comporte 4 sources positionneacutees dans le plan horizontal une guitare placeacutee agrave 45deg une basse agrave -70deg une batterie agrave 110deg et une voix feacuteminine qui effectue continucircment un tour complet dans le sens indirect en partant de lrsquoarriegravere (elle passe donc successivement par les positions 180deg 90deg 0deg -90deg et -180deg) La guitare et la batterie srsquoarrecirctent peu avant la fin de la scegravene (12egraveme seconde au 910egraveme du son approximativement)

Figure 33 - Position des sources de la scegravene de test agrave 4 sources dont 1 mobile

33 Analyse aux ordres supeacuterieurs 25

Figure 34 - Angles drsquoune scegravene virtuelle ayant 1 source mobile et 3 sources fixes

(deacutecrite en 332) trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 Pour chaque trame (en abscisse) 20 angles (1 par bande en ordonneacutee et en degreacutes) sont

reporteacutes le diamegravetre du point correspondant agrave un critegravere de pertinence (voir 342)

Figure 35 - Angles de la mecircme scegravene trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 2 Reacutesultats modulo π reacutepliqueacutes pour faciliter la comparaison avec la figure preacuteceacutedente On remarque que les lignes sont plus nettes qursquoil y a moins drsquoangles aberrants et que

les angles corrects sont plus marqueacutes (ils sont deacutetermineacutes comme plus pertinent)

Chapitre 3 Description des analyses 26

20

0

20

0

20

0

Figure 36 - Angles drsquoune scegravene reacuteelle constitueacutee drsquoun bruit parcourant le cercle trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 (en haut) 0 et 2 (au milieu) et 0 et 4 (en bas) Le

numeacutero de trame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On retrouve qursquoune limitation des ordres HOA supeacuterieurs issus drsquoun enregistrement

microphonique est la restitution des basses freacutequences

34 Traitement des donneacutees

341 Algorithme des k-moyennes Agrave lrsquoissue de lrsquoanalyse en composantes principales on reacutecupegravere avec la premiegravere

des meacutethodes exposeacutees au chapitre preacuteceacutedent des angles correspondants aux positions des sources preacutedominantes agrave raison drsquoune valeur par fenecirctre et par bande de freacutequence Il faut agrave partir de ces donneacutees parvenir agrave isoler les sources crsquoest-agrave-dire agrave deacuteterminer quels sont les angles pertinents et examiner quels sont ceux qui agrave une certaine toleacuterance pregraves sont preacutesents dans plusieurs bandes de freacutequence etou plusieurs fenecirctres temporelles

Pour pouvoir exploiter ces donneacutees spatiales nous avons utiliseacute lrsquoalgorithme des

k-moyennes (ou k-means) [MacQueen 1967] sur les angles pondeacutereacutes par des critegraveres de pertinence Cet algorithme fonctionne de la maniegravere suivante

Initialisation choix de k barycentres (les k moyennes) Reacutepeacuteter Associer chaque eacuteleacutement au barycentre le plus proche Recalculer les positions des barycentres Jusqursquoagrave ce que les barycentres soient stables (ou au bout de t iteacuterations)

34 Traitement des donneacutees 27

Lrsquoavantage de cet algorithme est drsquoecirctre peu glouton puisqursquoil converge en O(tkn) ougrave t est le nombre drsquoiteacuterations k le nombre de centres et n le nombre de points (geacuteneacuteralement on a t k ltlt n) Par contre il est plutocirct sensible aux exceptions un point aberrant tirera agrave lui la moyenne auquel il aura eacuteteacute associeacute Il faut donc faire en sorte que ces points erroneacutes soient aussi rares que possibles Crsquoest pourquoi les angles traiteacutes sont pondeacutereacutes par 2 critegraveres de pertinence

La pondeacuteration des angles fournis en entreacutee de lrsquoalgorithme des k-moyennes se

fait de maniegravere simple en reacutepeacutetant ces angles un nombre de fois (de 0 agrave 10) proportionnel agrave un critegravere Ainsi un angle tregraves pertinent sera dupliqueacute et sera preacutesent plusieurs fois dans la liste des donneacutees traiteacutees attirant ainsi agrave lui la position du barycentre le plus proche Au contraire un angle trop peu pertinent ne sera pas reacutepeacuteteacute voir mecircme sera enleveacute de la liste

Le seul problegraveme de cet algorithme est qursquoil neacutecessite la connaissance de k crsquoest-

agrave-dire du nombre de sources qui composent la scegravene Une deacutetermination automatique se basant sur la reacutepeacutetition de lrsquoalgorithme avec un k croissant a eacuteteacute testeacutee mais le critegravere drsquoarrecirct reposant sur la dispersion des points autour des barycentres nrsquoeacutetant pas assez robuste cette meacutethode a provisoirement eacuteteacute mise de cocircteacute

342 Critegraveres de pertinence Les 2 critegraveres de pondeacuteration choisis sont lrsquoeacutenergie de la sous-bande dans la

fenecirctre donneacutee et le rapport de la norme de la 1egravere composante (la composante principale) de lrsquoACP sur la somme des normes de toutes les composantes

En effet un angle est trouveacute dans chaque sous-bande de chaque fenecirctre mecircme si

le signal y est tregraves faible Lrsquoangle trouveacute sera alors tregraves peu repreacutesentatif de la direction drsquoune source puisqursquoil indiquera la direction drsquoun bruit Lrsquoeacutenergie doit donc ecirctre prise en compte pour ne conserver que les angles trouveacutes dans des bandes comportant un signal suffisant

La norme relative de la 1egravere composante de lrsquoACP rend quant agrave elle compte du

poids relatif de cette composante par rapport aux autres Ainsi si 2 sources sont preacutesentes dans une bande donneacutee la 1egravere composante sera agrave peine plus marqueacutee que la 2egraveme Ceci peut ecirctre calculeacute en prenant simplement le rapport de la 1egravere valeur propre sur la somme des valeurs propres

On peut noter que la norme de la 1egravere composante ne se deacutetache nettement que

lorsqursquoun son est preacutesent dans la bande consideacutereacutee On peut alors se demander si lrsquoeacutenergie doit ecirctre prise en compte ou si lrsquoinformation qursquoelle contient nrsquoest comprise dans le 2egraveme critegravere En fait la norme relative est un critegravere tregraves bruiteacute et consideacuterer lrsquoeacutenergie par ailleurs permet de nuancer ces artefacts et constitue une base solide de pondeacuteration

Chapitre 3 Description des analyses 28

80

40

0

Figure 37 - Repreacutesentation temps-freacutequence des angles du son deacutecrit en 332 Letrame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On peut donc v

par trame et par bande chacun eacutetant le reacutesultat drsquoune ACP crsquoest-agrave-dire la 1egravere

Figure 38 - Eacutenergie de ce mecircme son On peut voir une basse en notes tenues uneet une batterie qui produit des sons secs dans un spectre plus aigu

80

40

0

80

40

0

Figure 39 - Norme relative de la 1egravere composante de ce mecircme son Les impacts de batterie (dans lrsquoaigu) ressortent davantage

π 0 minusπ

numeacutero de oir un angle direction

voix aiguumle

34 Traitement des donneacutees 29

Figure 310 - Pondeacuteration appliqueacutee agrave lrsquoentreacutee des k-moyennes calculeacutee ici comme

le simple produit de lrsquoeacutenergie et de la norme relative

80

40

0

343 Lissages

Pour faire face au bruit ineacutevitable dans les reacutesultats il faut lisser les donneacutees Ces

lissages temporels correspondent agrave des hypothegraveses de stabiliteacute des sources qui sont supposeacutees ecirctre fixes ou mobiles relativement lentement (dans une mesure agrave parameacutetrer)

Un premier lissage peut ecirctre opeacutereacute avant le traitement par lrsquoalgorithme des k-

moyennes Le filtre choisi est un filtre meacutedian de maniegravere agrave eacuteliminer les points aberrants tout en conservant les vraies valeurs des points coheacuterents Ce lissage est appliqueacute sur chaque sous-bande aux angles et ne tient pas compte des critegraveres de pertinence Il est donc utiliseacute avec parcimonie et peut mecircme ecirctre eacuteviteacute en reacuteglant de maniegravere adeacutequate les critegraveres de pondeacuteration agrave lrsquoentreacutee des k-moyennes

Le deuxiegraveme lissage srsquoeffectue agrave lrsquoentreacutee des k-moyennes en mecircme temps que les

critegraveres de pondeacuteration Il consiste agrave appliquer les k-moyennes non pas sur une fenecirctre donneacutee mais sur plusieurs fenecirctres conseacutecutives anteacuterieures et posteacuterieures en donnant plus de poids agrave la fenecirctre courante Dans la pratique les poids donneacutes aux diffeacuterentes fenecirctres sont eacutetablis par une gaussienne centreacutee sur la fenecirctre courante et de largeur agrave deacuteterminer (en fonction notamment de la dureacutee drsquoune fenecirctre et du type de scegravene analyseacute)

35 Exploitation de toutes les composantes de lrsquoACP Les analyses preacutesenteacutees preacuteceacutedemment ont toutes exploiteacute uniquement la

composante principale extraite par lrsquoACP Or cette analyse fournit des informations plus complegravetes par lrsquointermeacutediaire des autres composantes dont on peut tirer parti pour isoler plusieurs sources au sein drsquoune mecircme bande Cette approche est toujours en deacuteveloppement dans ce stage et nrsquoa pas encore donneacute pleine mesure des reacutesultats qursquoelle laisse entrevoir

Les composantes de lrsquoACP indiquent des directions qui correspondent aux

diffeacuterentes sources composant la scegravene sonore Les vecteurs propres de la matrice de correacutelation donnent ainsi les combinaisons lineacuteaires des signaux HOA permettant de

Chapitre 3 Description des analyses 30

seacuteparer de la meilleure faccedilon possible ces sons Ces directions peuvent ecirctre alors utiliseacutees pour former des directiviteacutes isolant au mieux ces sources

aBS sdot= (31)

ougrave la matrice a contient les vecteurs propres de la matrice de correacutelation (voir Annexe C) le vecteur B contient les signaux HOA et le vecteur S contient les sources extraites

⎟⎟⎟

⎜⎜⎜

=⎟⎟⎟

⎜⎜⎜

⎛=

⎥⎥⎥

⎢⎢⎢

⎟⎟⎟

⎜⎜⎜

⎟⎟⎟

⎜⎜⎜

⎛=

10

1001

1

ML

N

B

BB

S

SSuua MML (32)

On obtient ainsi des lobes drsquoautant plus eacutetroits que lrsquoordre est eacuteleveacute chacun

dirigeacute vers une source et permettant de lrsquoisoler le plus possible des contributions des autres sources La Figure 311 preacutesente les directiviteacutes ainsi trouveacutees par une ACP en pleine bande Une analyse en sous-bande permet une plus grande distinction des sources mais une seacuteparation diffeacuterente entre les bandes est dangereuse car elle risque de dissocier spatialement plusieurs parties drsquoun mecircme son

Figure 311 - Directiviteacutes seacuteparant ideacutealement 4 sources placeacutees agrave 17 73 195 et -58deg

pour une scegravene virtuelle encodeacutee agrave lrsquoordre 4 Ce principe se heurte neacuteanmoins aux limites de seacuteparation lieacutees agrave lrsquoordre

drsquoencodage en effet 2 sources ne pourront pas ecirctre seacutepareacutees si elles sont trop proches comme en teacutemoigne la largeur des lobes principaux Les lobes secondaires traduisent eacutegalement un meacutelange des sources isoleacutees La figure ci-dessus montre ainsi que la source placeacutee agrave 17deg (en vert) sera preacutesente de maniegravere non neacutegligeable dans le signal senseacute contenir la source placeacutee agrave -58deg (en bleu) en raison du lobe secondaire bleu important

31

Chapitre 4

Reacutesultats et applications

41 Illustration et critique des reacutesultats obtenus

411 Avant-propos Sans notification particuliegravere les reacutesultats preacutesenteacutes ont eacuteteacute obtenus avec un pas

de 50 ms une analyse en 80 bandes avec une FFT sur 8192 points Une taille de FTT plus grande et un plus grand nombre de bande augmente la qualiteacute de lrsquoanalyse un pas plus petit ameacuteliore sa preacutecision temporelle mais les reacutesultats sont moins fiables et un lissage plus important srsquoimpose alors Ces paramegravetres ont eacuteteacute reacutegleacutes apregraves de multiples essais sur des scegravenes diverses

Les reacutesultats sont preacutesenteacutes ici uniquement sous la forme de graphiques nous ne

pouvons donc repreacutesenter que les angles trouveacutes agrave la sortie de lrsquoalgorithme des k-moyennes

412 Scegravene 2D artificielle agrave 4 sources fixes La premiegravere scegravene est une scegravene artificielle composeacutee de 4 sons fixes placeacutes agrave -70

-10 45 et 110deg Ces sons (une basse une voix une guitare et une batterie) ont eacuteteacute choisis pour leur varieacuteteacute spectrale et leur varieacuteteacute drsquoattaque Elle a en outre le meacuterite drsquoecirctre reacutealiste et de constituer une seacutequence musicale (chaque son nrsquoest pas une meacutelodie indeacutependante)

On voit sur la Figure 41 ci-dessous que les angles trouveacutes sont proches des

angles theacuteoriques Lrsquoun des sons (agrave 45deg) est quasiment nul avant la 100egraveme trame sa position est alors moins facile agrave deacuteterminer plus preacuteciseacutement une position approximative est trouveacutee et correspondrait exactement agrave la position du bruit (45deg) si lrsquoincertitude de mesure tregraves grande pour un son aussi faible ne rendait la deacutetermination si ardue On mesure un eacutecart-type de 22deg sur cet exemple (en excluant le deacutebut du son agrave 45deg)

Chapitre 4 Reacutesultats et applications 32

Figure 41 - Angles theacuteoriques (en pointilleacutes rouge) et calculeacutes (en trait bleu) pour une scegravene

constitueacutee de 4 sons fixes longue de 11s

413 Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile

Figure 42 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) de la scegravene agrave

4 sources dont 1 mobile deacutecrite en 332 Cette scegravene est deacutecrite en 332 On a ici demandeacute aux k-moyennes de renvoyer 5 barycentres par trame alors que

seules 4 sources eacutetaient preacutesentes dans le but de se garantir une marge vis-agrave-vis des erreurs de deacutetection Cette 5egraveme direction nrsquoest pas du tout gecircnante elle indique une direction qui ne contient pas de source et crsquoest donc un son tregraves faible qui est ainsi pointeacute Apregraves une eacuteventuelle extraction le signal ne sera donc pas du tout gecircnant

41 Illustration et critique des reacutesultats obtenus 33

On peut remarquer que quand le son mobile se rapproche drsquoun son fixe la deacutetection est moins bonne il y a une fusion entre les 2 sons Mais encore une fois lors de lrsquoextraction lrsquoisolation drsquoun des sons englobera lrsquoautre son ce qui ne posera pas de problegraveme pour les objectifs fixeacutes aucune source nrsquoeacutetant oublieacutee En effet la seacuteparation de sources nrsquoest pas un objectif ici mais un moyen pour preacuteciser les positions des sources ce qui sera fait correctement mecircme si 2 sources sont pointeacutees par 1 seule direction

414 Scegravene 3D artificielle agrave une source et bruit de fond

La scegravene dont la position drsquoune source a eacuteteacute extraite ci-dessous est une scegravene virtuelle en 3D constitueacute drsquoun son (une voix) qursquoon a fait se deacuteplacer par paliers tout drsquoabord vers le haut de 0deg agrave 45deg et vers la gauche de 0deg agrave 90deg puis redescendre jusqursquoagrave 35deg en continuant son cheminement vers la gauche jusqursquoagrave 120deg et enfin finir la descente de 35deg agrave 0deg en la laissant agrave 120deg Agrave cette source a eacuteteacute superposeacutee une ambiance spatialiseacutee de hall drsquoaeacuteroport initialement enregistreacutee en 2D (au format 51) mais transformeacutee pour contenir des composantes verticales Cette ambiance deacutecorreleacutee de la source avait pour but de tester la robustesse de lrsquoanalyse Elle eacutetait agrave 15 dB en-dessous du niveau de la voix

Figure 43 - Azimut et eacuteleacutevation theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun

son en 3D artificiel de 9s placeacute dans une ambiance bruyante On remarque que lrsquoanalyse est tregraves correcte Il nrsquoy a pas drsquoeacutecart important entre

les angles theacuteoriques et ceux calculeacutes On note toutefois que le lissage agrave lrsquoentreacutee des k-moyennes a pour effet de gommer les creacuteneaux et drsquoaplatir quelque peu la courbe drsquoeacuteleacutevation ceci nrsquoest pas vraiment gecircnant car de tels sauts dans la position drsquoune source ne sont pas du tout reacutealistes (ils peuvent caracteacuteriser des bruits de pas mais de tels impacts sont courts et on peut srsquoattendre agrave ce que la courbe suive leur position aux instants ougrave ils sont eacutemis)

Chapitre 4 Reacutesultats et applications 34

415 Scegravene 2D naturelle agrave une source Les scegravenes naturelles sont on lrsquoa vu plus deacutelicates agrave exploiter car on ne peut pas

garantir la preacutecision de la position theacuteorique agrave retrouver par le calcul et on ne peut donc pas calculer la preacutecision de lrsquoanalyse Seuls les enregistrements utilisant la table tournante (voir 232) permettent une mesure preacutecise de la position de lrsquoangle Ces enregistrements on pu confirmer la validiteacute de lrsquoanalyse pour des scegravenes reacuteelles on trouve ici un eacutecart-type de 25deg

Figure 44 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun bruit blanc

tournant autour du micro enregistreacute en chambre sourde Cette analyse a eacuteteacute reacutealiseacutee par sous-bandes mais sur une eacutetendue freacutequentielle

plus reacuteduite puisqursquoon srsquoest limiteacute aux possibiliteacutes offertes par le microphone La scegravene a donc eacuteteacute analyseacutee de 200 agrave 10 000 Hz

42 Quelques applications

421 Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre 2 agrave partir de lrsquoordre 1

Une fois les positions des sources connues la porte est ouverte agrave de nombreuses

applications La connaissance de ces positions permet en effet de syntheacutetiser artificiellement des composantes manquantes ou non transmises La premiegravere synthegravese deacuteveloppeacutee est celle des signaux U et V composant la partie horizontale de lrsquoordre 2 agrave partir de lrsquoordre 1 et de paramegravetres issus de lrsquoanalyse pour une source en 2D (des angles dans de cas)

42 Quelques applications 35

Figure 45 - Principe de lrsquoameacutelioration de la preacutecision spatiale

Le principe de la synthegravese est drsquoextraire les sources originales agrave partir de W X Y

et des angles (un angle par trame et par sous-bande) Ceci peut ecirctre reacutealiseacute de maniegravere approcheacutee en deacutecodant lrsquoordre 1 dans les directions des sources Ce deacutecodage revient agrave calculer les signaux qui devraient alimenter des haut-parleurs qui seraient placeacutes agrave ces positions dans le cas drsquoune restitution (voir 122) crsquoest-agrave-dire agrave former des directiviteacutes dans les directions des sources Dans la plupart des cas ce deacutecodage qui fait intervenir une pseudo-inversion de Moore-Penrose (111) est imparfait les sources se retrouvant leacutegegraverement meacutelangeacutees On peut comparer cette seacuteparation agrave celle que ferait un ensemble de microphones agrave directiviteacute hypercardioiumlde coiumlncidents

Figure 46 - Directiviteacutes eacutequivalentes agrave la seacuteparation de 4 sources agrave lrsquoordre 1 Ces sources seacutepareacutees vont ensuite constituer toujours placeacutees aux angles

deacutetermineacutes agrave lrsquoanalyse une scegravene virtuelle qursquoon va encoder agrave lrsquoordre 2 De cet encodage on ne conservera que les signaux manquants dans notre exemple les signaux du 2nd ordre U et V Ainsi la scegravene spatialiseacutee sera au final constitueacutee des signaux W X et Y drsquoorigine (transmis) et des signaux U et V syntheacutetiseacutes

Chapitre 4 Reacutesultats et applications 36

422 Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave partir de W Reconstruire une scegravene sonore spatialiseacutee agrave partir drsquoun unique canal mono est

alors difficile et le reacutesultat nrsquoest appreacuteciable que pour des scegravenes simples Il faut pour cela que les diffeacuterentes sources composant cette scegravene aient des supports spectraux aussi distincts que possible Les diffeacuterentes sous-bandes sont alors placeacutees agrave un certain angle transmis en parallegravele et crsquoest cette scegravene reconstitueacutee qui va ecirctre encodeacutee au 1er ordre de maniegravere agrave recreacuteer les signaux X et Y

Figure 47 - Principe de la restitution de lrsquoordre 1 agrave partir du signal mono W Ce scheacutema rappelle une meacutethode deacuteveloppeacutee dans le cas steacutereacuteo appeleacutee BCC

(Binaural Cue Coding) [Faller and Baumgarte 2002] Le principe est drsquoextraire et coder des informations permettant la reconstruction binaurale drsquoun signal agrave savoir les diffeacuterences interaurales drsquointensiteacute et de temps (Interaural LevelTime Difference ILD et ITD) qui correspondent dans le cas drsquoune restitution sur un casque aux diffeacuterences drsquointensiteacute et de temps inter-canal (Inter-Channel LevelTime Difference ICLD et ICTD) qui sont mesureacutees agrave partir drsquoune analyse en sous-bandes Les auteurs y ont plus reacutecemment associeacute un indice de correacutelation interaurale mesureacute agrave partir de la correacutelation inter-canal (ICC) afin de caracteacuteriser la preacutecision spatiale (la ldquolargeurrdquo drsquoune source)

Figure 48 - Scheacutema de principe de la meacutethode BCC [Faller and Baumgarte 2003]

On observe en pratique des deacutefauts lieacutes agrave la brutaliteacute de la proceacutedure une sous-

bande ne peut ecirctre que placeacutee agrave la position indiqueacutee et ne peut pas rester floue diffuse ou encore ecirctre placeacutee agrave plusieurs endroits Pour y remeacutedier nous avons ajouteacute 2 traitements agrave la synthegravese Tour drsquoabord nous avons appliqueacute un leacuteger lissage soulageant les effets deacutesagreacuteables dus au saut du contenu drsquoune sous-bande drsquoun endroit agrave un autre entre de 2 fenecirctres conseacutecutives Les positions varient alors de faccedilon plus souple au sein drsquoune mecircme sous-bande traduisant une hypothegravese de continuiteacute spatiale (pas de deacuteplacement brusque) La contrepartie est que cette hypothegravese est lieacutee agrave une hypothegravese de continuiteacute spectrale

42 Quelques applications 37

La 2egraveme ameacutelioration concerne le positionnement des sources En incluant dans la transmission un critegravere de pertinence on peut savoir srsquoil est raisonnable de placer une sous-bande agrave un angle preacutecis ou bien si lrsquoanalyse eacutetait flou agrave son sujet auquel cas un positionnement impreacutecis serait preacutefeacuterable Le paramegravetre choisi est une combinaison des critegraveres eacutevoqueacutes en 342 il nous permet de placer la sous-bande de maniegravere plus ou moins prononceacutee

43 Comparaison avec une meacutethode existante Certains auteurs ont deacutejagrave essayeacute drsquoanalyser un contenu ambisonique pour

retrouver les positions des sources Ville Pulkki a ainsi deacutecrit dans [Pulkki and Faller 2006] une meacutethode drsquoanalyse du B-format baseacutee sur lrsquoeacutetude des amplitudes des signaux W X Y et Z

Figure 49 - X et Y dans le cas drsquoune sinusoiumlde placeacutee agrave 15deg (agrave gauche) et 120deg (agrave droite)

Les figures ci-dessus montrent les relations drsquoamplitudes (algeacutebriques) qui relient

X et Y agrave lrsquoangle de la source On voit que lrsquoanalyse de ces amplitudes respectives permet de retrouver la position de la source en effet on a pour une source unique les relations de lrsquoeacutequation (11) rappeleacutee ici

⎪⎪

⎪⎪

=

=

=

=

δ

δθ

δθ

sin2

cossin2

coscos2

SZ

SY

SX

SW

(41)

On peut donc theacuteoriquement retrouver les valeurs de θ et δ par relations

trigonomeacutetriques Ainsi on a

⎪⎪⎩

⎪⎪⎨

=

=

2)sin(

)tan(

WZ

XY

δ

θ (42)

Chapitre 4 Reacutesultats et applications 38

On peut donc trouver les angles θ et δ agrave π pregraves Pour lever lrsquoambiguiumlteacute une eacutetude de signe est neacutecessaire Mais dans le cas de θ le signe de X et de Y agrave δ fixeacute deacutepend aussi bien de θ que S Il faut srsquointeacuteresser aux signes de θcos et θsin crsquoest-agrave-dire

aux signes de WX et

WY Dans la pratique on srsquointeacuteressera aux signes de et

pour se preacutevenir des divisions par zeacuteros

XW sdot YW sdot

XW sdot et YW sdot sont proportionnels agrave toujours positif

2S

Les auteurs deacutecrivent eacutegalement dans leur article un critegravere appeleacute diffuseness qui

peut ecirctre compareacute agrave un critegravere de pertinence inverseacute Ce paramegravetre calculeacute par agrave 1 - R ougrave R est un rapport de normes est tregraves proche du critegravere de norme relative deacutecrit en 342 Il peut donc ecirctre utiliseacute de la mecircme faccedilon et permettre ainsi une pleine comparaison

Cette meacutethode a eacuteteacute impleacutementeacutee pour pouvoir ecirctre compareacutee avec la meacutethode

par ACP Tous les paramegravetres ont scrupuleusement eacuteteacute gardeacutes identiques et plusieurs reacuteglages ont eacuteteacute testeacutes Les courbes ci-dessous preacutesentent les reacutesultats des analyses de la scegravene deacutecrite en 332 avec un pas de 50ms un overlap de 50 un NFFT de 2048 et 40 bandes freacutequentielles Nous avons repreacutesenteacute tous les angles trouveacutes crsquoest-agrave-dire un par bande et par trame pour srsquoaffranchir de la seacutelection des k-moyennes

π

0

minusπ

Figure 410 - Angles trouveacutes par lrsquoalgorithme de [Pulkki and Faller 2006] Le diamegravetre du point correspondant agrave la pertinence

43 Comparaison avec une meacutethode existante 39

π

0

minusπ

Figure 411 - Angles trouveacutes par une ACP pour la mecircme scegravene On remarque que les points excentriques sont moins nombreux et plus rarement trouveacutes comme pertinents

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee

441 Position du problegraveme

Une application directe de ces analyses a eacuteteacute deacuteveloppeacutee pour la confeacuterence audio

spatialiseacutee La confeacuterence audio utilise en effet la spatialisation pour permettre une meilleure seacuteparation par lrsquooreille des diffeacuterents locuteurs Ainsi si plusieurs personnes parlent en mecircme temps il sera tregraves difficile de comprendre chacun individuellement si ces voix sont restitueacutees en mono mais on pourra focaliser lrsquoattention sur chacune drsquoentre elles si elles sont seacutepareacutees spatialement (crsquoest lrsquoeffet cocktail party [Cherry 1953])

Lrsquoobjectif eacutetait de veacuterifier qursquoil eacutetait possible de conserver la spatialisation drsquoune

confeacuterence en nrsquoayant transmis qursquoun downmix mono des signaux Ce concept semble se rapprocher de celui deacutecrit en 422 mais une diffeacuterence fondamentale les seacutepare la confeacuterence audio spatialiseacutee nrsquoest pas codeacutee au format ambisonic mais les signaux traiteacutes sont directement les sons provenant des diffeacuterents locuteurs crsquoest-agrave-dire les sources elles-mecircmes Ainsi lrsquoanalyse ne porte plus sur une scegravene spatialiseacutee mais sur des signaux seacutepareacutes Il nrsquoy a ainsi plus drsquoindices spatiaux agrave trouver

Avoir accegraves aux sources permet drsquoobtenir des informations plus preacutecises pour

permettre une seacuteparation apregraves la transmission Comme nous lrsquoavons vu lrsquoanalyse drsquoune scegravene spatialiseacutee ne permet que dans drsquoultimes cas agrave la seacuteparation des sources ce qui est ici notre point de deacutepart et sera en fait notre point drsquoarriveacutee En effet nous tenterons de retrouver les sources seacutepareacutees apregraves la transmission de maniegravere agrave pouvoir par la suite les spatialiser agrave loisir (voir Figure 413)

Chapitre 4 Reacutesultats et applications 40

442 Solution proposeacutee Les paramegravetres extraits ne sont donc plus des positions de sources Nous avons

choisi de mesurer puis transmettre lrsquoeacutenergie de chaque signal dans chaque sous-bande en parallegravele du downmix En effet une bonne seacuteparation sera possible si lrsquoon sait quelle proportion de chaque source compose chaque sous-bande du signal mono

Figure 412 - Scheacutema de principe drsquoune confeacuterence audio spatialiseacutee

Figure 413 - Scheacutema ameacutelioreacute (deacutebit reacuteduit)

en pointilleacutes informations compleacutementaires (eacutenergie) Lrsquoanalyse en sous-bandes a lieu dans le serveur (Figure 414) Celui-ci calcule

lrsquoeacutenergie de chaque signal dans chaque sous-bande sur une trame donneacutee Crsquoest ce paramegravetre qui associeacute au signal mono M permettra la seacuteparation des sources dans le terminal (Figure 415) Ce dernier reacutepartira en effet les diffeacuterentes sous-bandes vers chaque signal reconstitueacute proportionnellement agrave cette information pour reconstruire les 4 sources originales

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee 41

Figure 414 - Analyse principe de lrsquoencodage dans le serveur

Figure 415 - Synthegravese principe du deacutecodage dans le client

Afin de reacuteduire au maximum les informations compleacutementaires agrave transmettre on

peut remarquer qursquoau cours drsquoune confeacuterence audio on a tregraves souvent un seul locuteur les participants ne parlent que tregraves rarement tous en mecircme temps Ceci implique que les signaux en entreacutee sont tregraves souvent tous nuls sauf 1 et appliquer un seuil en entreacutee de lrsquoanalyse permet outre lrsquoallegravegement du traitement drsquoavoir moins de paramegravetres agrave transmettre

Ce scheacutema simplifieacute ne tient pas compte des problegravemes de phase rien nrsquoindique

que les eacutenergies des signaux srsquoajoutent bien dans chaque sous-bande lors du downmix on peut tregraves bien avoir des oppositions de phase La solution est drsquoeffectuer le downmix (la somme) des signaux dans chaque sous-bande en prenant soin drsquoavoir recaleacute les phases au preacutealable Ceci nrsquoa un sens que pour des bandes suffisamment eacutetroites Les deacutecalages temporels appliqueacutes pour le recalage sont alors des paramegravetres suppleacutementaires agrave transmettre et sont pris en compte lors de la synthegravese au niveau du reacutepartiteur qui repositionnera la phase de chaque trame pour chaque signal

Chapitre 4 Reacutesultats et applications 42

443 Bilan Le reacutesultat du deacutecodage a pu ecirctre eacutecouteacute de diffeacuterentes maniegraveres les sources

reconstitueacutees individuellement ensemble en steacutereacuteo drsquoamplitude et sur un systegraveme 51 On note que les sources ont eacuteteacute assez bien seacutepareacutees mais que des artefacts sont audibles en particulier lorsque le nombre de locuteurs simultaneacutes augmentent Ces artefacts sont un meacutelange des voix qui nrsquoest gecircnant que lorsqursquoon les eacutecoute de maniegravere seacutepareacutee En effet lrsquoeacutecoute simultaneacutee de ces signaux syntheacutetiseacutes mecircme placeacutes agrave des positions distinctes sur un systegraveme de diffusion multicanal est tout agrave fait satisfaisante

Ce proceacutedeacute pour pouvoir ecirctre appliqueacute doit fonctionner en temps-reacuteel Cette

contrainte nrsquoa pas du tout eacuteteacute prise en compte lrsquoobjectif eacutetant de valider la faisabiliteacute drsquoune reconstruction Les programmes sous Matlab nrsquoont pas eacuteteacute optimiseacutes et ne respectent pas cette contrainte

43

Conclusion Nous avons preacutesenteacute dans ce rapport le principe et lrsquoapplication de plusieurs

meacutethodes drsquoanalyses spatiales de scegravenes ambisoniques conccedilues et reacutealiseacutee pendant le stage Le format HOA est en effet une repreacutesentation du champ acoustique deacutecomposeacute sur une base drsquoharmoniques spheacuteriques jusqursquoagrave un certain ordre agrave la maniegravere drsquoun deacuteveloppement limiteacute Il contient donc de maniegravere indirecte des indications spatiales qursquoon peut extraire avec des analyses comme lrsquoanalyse en composantes principales

Ces analyses nous permettent de deacuteterminer les positions des sources qui

composent la scegravene sonore Nous avons appliqueacute les reacutesultats de ces analyses agrave 2 types de synthegravese lrsquoune destineacutee aux transmissions bas deacutebit lrsquoautre agrave un traitement de restitution de la preacutecision spatiale dans le cas ougrave des ordres supeacuterieurs dont le but est drsquoaffiner la perception de localisation nrsquoauraient pas pu ecirctre transmis Ces algorithmes par le codage drsquoinformations spatiales qursquoils permettent pourront trouver bien drsquoautres applications dans la transmission et le codage ougrave la description du contenu est de plus en plus utiliseacutee (comme par exemple dans la norme MPEG)

Des ameacuteliorations sont possibles sur plusieurs points tout drsquoabord lrsquoexploitation

de toutes les composantes de lrsquoACP est agrave lrsquoeacutetude et semble pouvoir donner des reacutesultats inteacuteressants Drsquoautre part on a vu que le reacutesultat final est tregraves deacutependant de la bonne convergence de lrsquoalgorithme des k-moyennes utiliseacute pour traiter les donneacutees brutes de lrsquoanalyse en sous-bandes Or cet algorithme neacutecessite des reacuteglages tregraves fins et une connaissance a priori du nombre de sources est presque indispensable Drsquoautres algorithmes plus complexes de suivi de formes pourraient ecirctre avantageusement utiliseacutes pour deacutetecter dans tous les angles trouveacutes lesquels sont susceptibles de former une trajectoire

45

Annexe A

Deacuteveloppement du champ acoustique en harmoniques spheacuteriques

A1 Eacutequation drsquoonde en coordonneacutees spheacuteriques On se place dans lrsquoespace euclidien agrave 3 dimensions muni drsquoun systegraveme de

coordonneacutees spheacuteriques Un point M y est repeacutereacute par son rayon r son azimut θ et son eacuteleacutevation δ tels que repreacutesenteacutes sur la figure ci-dessous

- r est la norme du vecteur position rr crsquoest-agrave-dire la distance OM - [20[ πθ isin est lrsquoangle formeacute par le projeteacute du point sur le plan xOy et lrsquoaxe Ox

- ]2

2

[ ππδ minusisin est lrsquoangle formeacute par le plan xOy et le vecteur position2

Figure A1 - Systegraveme de coordonneacutees spheacuteriques

2 Cet angle diffegravere de lrsquoangle polaire usuel δπϕ minus=

2 habituellement pris entre lrsquoaxe Oz et le

vecteur position

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 46

Les relations entre les coordonneacutees spheacuteriques et les coordonneacutees carteacutesiennes sont

⎪⎩

⎪⎨

===

δδθδθ

sincossincoscos

zryrx

(A1)

On srsquointeacuteresse dans ce repegravere agrave lrsquoeacutequation de propagation des ondes acoustiques

de pression On se place dans les conditions classiques drsquoacoustique lineacuteaire (les variations de p sont petites par rapport agrave la pression atmospheacuterique) en supposant que lrsquoair est un fluide parfait (on y neacutegligera les pheacutenomegravenes dissipatifs) Dans une reacutegion de lrsquoespace ne comprenant pas de sources lrsquoeacutequation drsquoonde srsquoeacutecrit alors

0)(12

2

2 =⎟⎟⎠

⎞⎜⎜⎝

⎛partpart

minus∆ trptc

r (A2)

p eacutetant la pression et c la vitesse de propagation du son dans lrsquoair

Cette eacutequation devient dans le domaine freacutequentiel lrsquoeacutequation de Helmholtz

( ) 0)(2 =+∆ ωrpk r (A3)

ck ω

= eacutetant le nombre drsquoonde

En coordonneacutees spheacuteriques cette eacutequation srsquoeacutecrit

0sin1sin

sin11 2

2

2

222

2 =⎥⎦

⎤⎢⎣

⎡+

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart pk

rrrr

rr δθθθ

θθ (A4)

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques Drsquoapregraves [Bruneau 1983] elle admet des solutions agrave variables seacutepareacutees de la forme

)()()( δθ ΦΘ= rRp (A5) Ces solutions sont respectivement - pour la partie radiale une combinaison des fonctions de Bessel spheacuteriques de

premiegravere et seconde espegravece3 jn et nn

)()()( krBnkrAjrR nn += (A6) 3 Les fonctions de Bessel spheacuteriques de seconde espegravece sont eacutegalement appeleacutees fonctions de

Neumann

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 47

Ces fonctions sont deacutefinies comme suit

(A7)

Figure A2 - Fonctions de Bessel spheacuteriques pour les ordres 0 agrave 5 )(krjm

- pour la partie azimutale les fonctions )(θΘ

)sin()cos()( 21 θθθ ncnc +=Θ (A8) Eacutetant donneacute la deacutefinition de lrsquoangle Θ celui-ci doit neacutecessairement ecirctre de

peacuteriode 2π ))2()(( πθθ +Θ=Θ ce qui impose agrave n drsquoecirctre entier

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 48

- pour la partie polaire les fonctions de Legendre associeacutees )(sinδmnP

nm

nn

mn dPdP

)(sin)(sinsin)(sin

δδ

δδ = pour ⎩⎨⎧

gt=

nmavecnm 321

(A9)

ougrave les )(sinδnP sont les polynocircmes de Legendre de degreacute n en δsin deacutefinis par reacutecurrence

( )

11

22

1

0

sin)12()(sin)1(

1cos321)(sin

sin)(sin0)(sin

minus+ minus+=+

minus=

==

mmm mPPmPmet

P

PP

δδ

ϕδ

δδδ

(A10)

et de formule geacuteneacuterale

mm

m

mm dd

mP )1(sin

)(sin21)(sin 2 minus= δ

δδ (A11)

On peut appliquer aux fonctions )(sinδmnP la semi-normalisation de Schmidt

)(sin)()()(sin~ δεδ mnnmn P

nmnmP

+minus

= ougrave 10 =ε et 2=nε pour 1gen (A12)

En appariant les fonctions polaires et azimutales on deacutefinit les harmoniques

spheacuteriques de degreacute et drsquoordre)1(mnY 0gem 4 mnn lele0 et de degreacute et

drsquoordre (voir Figure A3)

)1(minusmnY 1gem

mnn lele1

)(sin~)sin()(

)(sin~)cos()()1(

)1(

δθδθ

δθδθ

mnmn

mnmn

PnY

PnY

=

=minus

(A13)

4 En geacuteneacuteral lorsque le degreacute et lrsquoordre ne sont pas eacutevoqueacutes conjointement on parle par abus de langage drsquoharmoniques drsquoordre m plutocirct que de degreacute m

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 49

soit

1)(sin

)()()12(2sin)(

)(sin)()()12(2cos)(

1)(sin)1()1()12(cos)(

)1(

)1(

1)1(

1

gt

⎪⎪⎩

⎪⎪⎨

+minus

+=

+minus

+=

=+minus

+=

minus

npourP

nmnmmnY

PnmnmmnY

npourPmmmY

mnmn

mnmn

mm

δθδθ

δθδθ

δθδθ

(A14)

La solution angulaire geacuteneacuterale srsquoeacutecrit alors sous la forme drsquoun deacuteveloppement sur

la base drsquoharmoniques spheacuteriques

( ) ( )sum minus

=minus+=Θ

1

1)1()1()( n

m mnmnmnmnn YBYBθ (A15) La solution geacuteneacuterale est alors la seacuterie de Fourier-Bessel

sum sum sum+infin

= = plusmn=

=0 0 1

)()( )()()(m

m

nmnmnm

m YBkrjikrpσ

σσ δθδθ (A16)

ougrave

intint⎪⎩

⎪⎨⎧

minusisin

isin

plusmnplusmn =

]2

2

[

[20[

)1()1( )()1()(

1

ππδ

πθ

δθδθ

S

mnm

mmn dSYpkrji

B (A17)

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 50

Tableau A1 - Expressions analytiques des harmoniques spheacuteriques pour les ordres 0 agrave 3

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 51

Figure A3 - Repreacutesentation des harmoniques spheacuteriques pour les ordres m = 0 agrave 3 Les

couleurs rouge et bleu indiquent respectivement des valeurs positives et neacutegatives

53

Annexe B

Compleacutements theacuteoriques sur le deacutecodage HOA

B1 Vecteur veacutelociteacute et vecteur eacutenergie Le vecteur veacutelociteacute est un indice de la direction apparente drsquoune source introduit

par Gerzon [Gerzon 1992] Il se calcule comme le rapport de la vitesse particulaire sur la pression acoustique

)()(

)()(1

δθδθ

δθδθ

ρ rprp

ki

rprv

cV nabla

minus=minus=rrr

(B1)

Dans le cas drsquoune onde plane le vecteur veacutelociteacute V

rest ainsi directement un

vecteur unitaire orienteacute vers la direction de provenance de lrsquoonde En geacuteneacuteralisant agrave une superposition drsquoondes planes en phase ou opposition de phase eacutemises par L haut-parleurs agrave eacutequidistance du point drsquoobservation on obtient la formule suivante

VVL

ll

L

lll

urg

ugV r

rr

==

sum

sum

=

=

1

1 (B2)

ougrave deacutesigne la direction du llur egraveme haut-parleur auquel est associeacute le gain gl et Vr Vur correspondent respectivement agrave la norme et agrave la direction du vecteur veacutelociteacute

Le vecteur eacutenergie est un autre indice de direction Il est deacutefinit par

EEL

ll

L

lll

urg

ugE r

rr

==

sum

sum

=

=

1

2

1

2

(B3)

Annexe B Compleacutements theacuteoriques sur le deacutecodage HOA 54

Il peut srsquointerpreacuteter comme une indication de la concentration de lrsquoeacutenergie ( ) et de sa direction moyenne de provenance (

Er

Eur ) On a toujours 1ltEr sauf dans le cas ougrave un seul haut-parleur contribue agrave la reconstruction (dans ce cas ) peut ecirctre consideacutereacute comme un indicateur de preacutecision de la localisation

1=Er Er

B2 Deacutecodages optimiseacutes La restitution la plus confortable drsquoun champ sonore veillera donc agrave maximiser

tout en essayant de garder le plus proche possible de 1 Lrsquooptimisation du deacutecodage consiste alors agrave multiplier chaque coefficient de la matrice de deacutecodage D (voir (111) par des gains calculeacutes drsquoapregraves des critegraveres drsquooptimisation

Er Vr

Ainsi le deacutecodage appeleacute max- maximise la norme du vecteur eacutenergie en

sacrifiant celle du vecteur veacutelociteacute puisqursquoon a dans ce deacutecodage (pour des configurations reacuteguliegraveres de haut-parleurs) Ce deacutecodage est donc avantageux par rapport au deacutecodage basique pour les hautes freacutequences ou dans le cas drsquoun auditoire eacutelargi Le deacutecodage in-phase va encore plus loin en cherchant agrave annuler complegravetement les contributions des haut-parleurs placeacutes agrave lrsquoopposeacute de la direction de provenance de lrsquoonde reproduite Ce critegravere est utile dans le cas drsquoune eacutecoute dans une position tregraves excentreacutee agrave laquelle on pourrait percevoir de faccedilon preacutedominante la contribution en opposition de phase drsquoun tel haut-parleur

Er

EV rr =

Ces diffeacuterents deacutecodages ont chacun des avantages et inconveacutenients Ainsi seul le

deacutecodage basique garantit = 1 le deacutecodage max- permet une preacutecision meilleure notamment en haute freacutequence et le deacutecodage in-phase est plus adapteacute agrave un auditoire plus large Jeacuterocircme Daniel [Daniel 2000] propose ainsi de changer le deacutecodage en fonction de la freacutequence et de lrsquoeacutetendue de la zone drsquoeacutecoute deacutesireacutee

Vr Er

Figure B1 - Deacutecodages les plus approprieacutes par sous-bande et en fonction de lrsquoeacutetendue de la

zone drsquoeacutecoute [Daniel 2000]

55

Annexe C

Analyse en composantes principales

C1 Espace des donneacutees Eacutegalement souvent appeleacutee transformeacutee de Karhunen-Loegraveve5 (TKL) lrsquoanalyse en

composantes principales (ACP) est une technique statistique de repreacutesentation drsquoinformation Introduite sur 2 variables par Pearson [Pearson 1900] elle a eacuteteacute eacutetendue par Hotelling [Hotelling 1933] Elle a pour but de caracteacuteriser des donneacutees drsquoun espace agrave N dimensions dans un sous-espace plus petit en minimisant les pertes drsquoinformation due agrave la projection crsquoest-agrave-dire en maximisant la variance projeteacutee Les donneacutees ainsi reacuteorganiseacutees deviennent indeacutependantes Les variables correacuteleacutees sont remplaceacutees par de nouvelles variables deacutecorreacuteleacutees et de variance maximale combinaisons lineacuteaires des variables initiales

Les donneacutees sont constitueacutees de n variables aleacuteatoires (dans notre cas des canaux)

et p reacutealisations ou individus (des eacutechantillons)

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

pn

p

ji

n

xx

x

xx

M

LLL

MOMNM

MLLM

MNMOM

LLL

1

111

(C1)

Ces donneacutees sont geacuteneacuteralement centreacutees et peuvent aussi ecirctre reacuteduites4 (on note

1x la moyenne de la variable et 1x )( 1xσ sa variance) Reacuteduire ou non le nuage de points (ie les p reacutealisations de la variable aleacuteatoire) est un choix de modegravele

5 Quelques rares sources mentionnent une diffeacuterence entre ACP et TKL en placcedilant celle-ci au

niveau du choix de la reacuteduction des donneacutees dans le cas dune ACP les donneacutees seraient centreacutees et reacuteduites alors qursquoelles seraient uniquement centreacutees pour une TKL

Annexe C Analyse en composantes principales 56

- si on ne reacuteduit pas le nuage une variable agrave forte variance pourrait tirer tout lrsquoeffet de lrsquoACP agrave elle

- si on reacuteduit le nuage une variable qui ne serait qursquoun bruit se retrouverait avec une variance apparente eacutegale agrave une variable informative

M est centreacutee

⎥⎥⎥

⎢⎢⎢

minusminusminus

minusminus=

npn

pi

ji

nn

xxxxxx

xxxxM

K

MM

K

11

11

11

ˆ (C2)

M~ est centreacutee et reacuteduite

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

minusminus

minus

minusminus

=

)()(

)(

)()(~

1

11

1

1

111

n

npn

pi

ij

i

n

nn

xxx

xxx

xxx

xxx

xxx

M

σσ

σ

σσ

K

MM

K

(C3)

On multiplie ensuite la matrice obtenue par sa transposeacutee pour obtenir - La matrice de covariance MMC t

vˆˆ sdot=

- La matrice de correacutelation MMC tr

~~ sdot= Ces matrices sont carreacutees (N x N) symeacutetriques et reacuteelles Elles sont donc

diagonalisables dans une base orthonormeacutee 6 Le principe de lrsquoACP est alors de trouver un axe u issu drsquoune combinaison lineacuteaire

des tel que le critegravere drsquoinertie du nuage autour de cet axe soit maximal Le critegravere drsquoinertie couramment utiliseacute est la variance Il faut donc trouver lrsquoaxe qui porte le maximum de variance crsquoest-agrave-dire lrsquoaxe u tel que la projection du nuage sur cet axe ait une variance maximale

nx

6 Nos donneacutees eacutetant ici des valeurs drsquoeacutechantillons elles sont par nature centreacutees et reacuteduites On

formera donc naturellement la matrice de correacutelation

C2 Diagonalisation 57

C2 Diagonalisation Pour alleacuteger lrsquoeacutecriture de la suite de cette partie nous consideacutererons que les

variables ont eacuteteacute centreacutees et si besoin reacuteduites et nous noterons ces variables

transformeacutees (ainsi

ix ix

iii xxx minuslarr ou bien )( i

iii x

xxxσ

minuslarr ) On fera de mecircme pour M

( ou bien MM ˆlarr MM ~larr ) et C ( vCC larr ou bien rCC larr ) La projection drsquoun eacutechantillon sur un axe u srsquoeacutecrit ix

uMxiu sdot=)(π (C4) La variance empirique de )( iu xπ vaut donc

uMMuxx ttiu

tiu sdotsdotsdot=sdot )()( ππ (C5)

Or on a vu que est diagonalisable dans une base orthonormeacutee donc

on peut noter P le changement de base associeacute et ∆ la matrice diagonale formeacutee de son spectre Ainsi

MMC t=

n

i 1)(λ PPMMC tt ∆==

)()()()( PuPuuPPuxx ttt

iut

iu sdot∆sdot=sdot∆sdot=sdotππ (C6) On pose v = Pu Chercher lrsquoaxe u qui maximise )( iu xπ revient donc agrave chercher le

vecteur v qui maximise ougravevvt ∆ )( 1 ndiag λλ K=∆ avec les iλ rangeacutes par ordre deacutecroissant Ce vecteur est trivialement le premier vecteur unitaire et on a alors

1λ=∆vvt

Ainsi le vecteur qui porte la plus grande part drsquoinertie du nuage est le premier

vecteur propre de C (premier par norme deacutecroissante) De mecircme le deuxiegraveme vecteur qui explique la plus grandelt part de lrsquoinertie restante est le deuxiegraveme vecteur propre de C Finalement la question de lrsquoACP se ramegravene agrave un problegraveme de diagonalisation de la matrice de correacutelation

C3 Code Matlab

function [vep vap] = pca(f N) f donneacutees N nombre de composantes agrave garder cor = f f formation de la matrice de correacutelation [vep vap] = eig(cor) calcul des vecteurs (vep) et valeurs (vap) propres [vap ind] = sort(diag(vap)) tri des valeurs propres par ordre croissant vap = flipud(vap) disposition inverse par ordre drsquoimportance vep = vep( flipud(ind)) classement en conseacutequence des vecteurs propres vep = vep( 1N) on ne garde que les N premiers vecteurs propres

Annexe C Analyse en composantes principales 58

59

Annexe D

Analyse en sous-bandes

D1 La transformeacutee de Fourier agrave court terme (TFCT) Pour affiner lrsquoanalyse les signaux sont donc deacutecoupeacutes en bandes de freacutequence par

TFCT La TFCT consiste agrave effectuer des transformeacutees de Fourier discregravetes sur des portions de signal fenecirctreacutees reacuteguliegraverement espaceacutees

On rappelle que la transformeacutee de Fourier drsquoun signal x(t) est deacutefinie (lorsque

lrsquointeacutegrale existe) par

int+infin

infinminus

minus= dtetxfX ftiπ2)()( (D1)

La transformeacutee de Fourier agrave temps discret (TFTD) drsquoun signal x(t) srsquoeacutecrit

sum+infin

minusinfin=

minus=n

fnienxfX π2)()( (D2)

La transformeacutee de Fourier discregravete (TFD) drsquoun signal discret x(k) est deacutefinie par

sum+infin

minusinfin=

minus=

n

Nkni

enxkXπ2

)()( (D3)

La TFCT discregravete est une TFD observeacutee sur une fenecirctre wa de taille N

summinus

=

minus+=

1

0

2)())(()(

N

n

Nnki

aaa enwtnxkXπ

ττ (D4)

ougrave )(taτ est lrsquoinstant drsquoanalyse

Annexe D Analyse en sous-bandes 60

Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT [Laroche 1995]

D2 Synthegravese par addition-recouvrement Lors de la synthegravese apregraves le deacutecoupage et lrsquoanalyse des fenecirctres on cherche agrave

reconstruire le signal temporel agrave partir de sa repreacutesentation freacutequentielle Pour cela on utilise la meacutethode OLA (overlap and add addition-recouvrement) qui consiste agrave prendre la TFCT inverse des spectres Xt puis agrave additionner les signaux obtenus apregraves les avoir multiplieacutes par une fenecirctre de pondeacuteration en les faisant se recouvrir partiellement

Le reacutesultat est donneacute par

sum=

minusminus=T

tsss tnxtnwnx

s1

))((~))(()(~ ττ τ (D5)

avec )()( tt as ττ = et summinus

=

=1

0

2))((~1)(~ N

k

Nkni

s ektXN

nxs

π

τ τ

Lors de la mise en œuvre de ce traitement il faut srsquoassurer drsquoecirctre en mesure de

reconstruire parfaitement un signal lorsqursquoaucune transformation ne lui est appliqueacutee Le critegravere de reconstruction parfaite condition suffisante est alors

sum=

=minusminusT

tasaa tnwtnw

11))(())(( ττ quelque soit n (D6)

D2 Synthegravese par addition-recouvrement 61

Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add [Laroche 1995]

Plusieurs paramegravetres sont agrave choisir avec soin Le premier drsquoentre eux est le type

de fenecirctre agrave utiliser Les diffeacuterentes options qui se preacutesentent agrave nous sont - la fenecirctre rectangulaire qui preacutesente dans son spectre le lobe principal le plus

eacutetroit mais des lobes secondaires non neacutegligeables - la fenecirctre de Hamming au lobe principal un peu plus large mais pour laquelle le

1er lobe secondaire se situe agrave -43 dB - la fenecirctre de Hann (ou cosinus sureacuteleveacute) qui ressemble agrave la preacuteceacutedente avec un

1er lobe secondaire plus fort mais une pente de 18 dB par octave pour les lobes suivants

- les fenecirctres de Blackman-Harris aux lobes secondaires tregraves bas mais au lobe principal plus large

Fenecirctre Lobe 2aire

(dB) Pente

(dBoct) Bande passante

agrave 6 dB (bins) Rectangulaire -13 -6 121 Triangulaire -27 -12 178

Hann -32 -18 200 Hamming -43 -6 181

Blackman-Harris 4 -92 -6 272

Tableau D1 - Caracteacuteristiques des principales fenecirctres drsquoanalyse [Harris 1978] Le meilleur compromis est donc dans notre contexte la fenecirctre de Hann ou celle

de Hamming

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 13: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

12 Encodage et deacutecodage spatial 7

12 Encodage et deacutecodage spatial

121 Encodage spatial Drsquoun point de vue drsquoingeacutenieur du son lrsquoencodage spatial peut ecirctre vu comme un

panoramique drsquoamplitude Un preneur de son lrsquointerpreacutetera comme une capture par un jeu de microphones directifs coiumlncidents Un matheacutematicien verra plutocirct le lien avec la deacutecomposition en harmoniques spheacuteriques deacutecrite en Annexe A

Eacutetudions le cas drsquoune onde plane provenant de la direction )( pp δθ avec une

amplitude S Lrsquoexpression du champ de pression srsquoeacutecrit alors

γδθ cos)( jkrSekrp = (14)

soit encore

)(cos)()12()(0

γδθ mmm

m PkrjjmSkrp suminfin

=

+= (15)

ougrave γ deacutesigne lrsquoangle entre la direction (θ δ ) du point drsquoobservation et la direction

)( pp δθ de provenance de lrsquoonde Il vient ensuite

sum sumsum= plusmn=

infin

=

=m

nmnppmnm

m

m YYkrjjSkrp0 10

)()()()(σ

σσ δθδθδθ (16)

En identifiant cette eacutequation (16) avec la seacuterie de Fourier-Bessel (A16) nous

obtenons finalement lrsquoexpression de la transformeacutee de Fourier spheacuterique drsquoun champ de pression acoustique engendreacute par une onde plane [Moreau 2006]

)( ppmnmn YSB δθσσ = (17)

Les coefficients sont ainsi deacutefinis par la valeur des harmoniques spheacuteriques

dans la direction de provenance de lrsquoonde plane pondeacutereacutee par lrsquoamplitude

σmnB

S du signal transporteacute Ce sont ces coefficients qui constituent le signal ambisonique Des coefficients de normalisation ou de semi-normalisation sont ensuite appliqueacutes pour que les signaux soient drsquoeacutenergie moyenne eacutequivalente entre eux ( ) ou entre les diffeacuterents ordres ( ) (voir Annexe A Tableau A1)

DN 3α DSN 3αDSN 3α

DSN 3α Ces fonctions drsquoencodage peuvent ecirctre simplifieacutees dans le cas drsquoune restriction agrave 2

dimensions (plan horizontal) On ne conserve alors que 2 composantes par ordre celles qui deacutecrivent le plan horizontal crsquoest-agrave-dire veacuterifiant m = n Les coefficients de normalisation sont alors diffeacuterents et lrsquoangle δ est nul Les composantes restantes sont alors

Chapitre 1 Ambisonics 8

ordre notations eacutecriture 0 W 1

00B 1

X 111B θcos2

1 Y 1

11minusB θsin2

U 122B )2cos(2 θ

2 V 1

22minusB )2sin(2 θ

- 1mmB )cos(2 θm

m - 1minus

mmB )sin(2 θm Tableau 11 - Fonctions drsquoencodage ambisonique dans le plan horizontal

avec la convention de normalisation associeacutee (N2D) La figure suivante illustre lrsquoencodage spatial aux ordres 0 1 et 2 de 2 sources

placeacutees aux angles vθ et vθ dans le plan horizontal

ordres 0 et 1 ordre 2

Figure 15 - Encodage horizontal [Moreau et al 2006] Le coefficient (gain) appliqueacute agrave

chaque composante de chacune des 2 sources est donneacute par les intersections des flegraveches et des diagrammes des harmoniques

Comme on peut le voir sur cette figure un encodage au 1er ordre offre une

discrimination angulaire peu appuyeacutee alors que les 2 sources pourtant proches auront des coefficients tregraves diffeacuterents agrave lrsquoordre 2 (les points drsquointersection sont plus eacuteloigneacutes)

122 Deacutecodage spatial Lrsquoobjectif du deacutecodage est de restituer au mieux sur un systegraveme de diffusion

donneacute le champ sonore HOA Il faut ainsi calculer les signaux Sl agrave diffuser sur L haut-parleurs en fonction des composantes ambisoniques Ces σ

mnB L haut-parleurs peuvent ecirctre disposeacutes dans le plan horizontal ou dans un espace tridimensionnel Les deacutecodages les plus courants srsquoeffectuent sur une demi-sphegravere (cas 3D) ou un cercle (cas 2D) de

12 Encodage et deacutecodage spatial 9

haut-parleurs Crsquoest une opeacuteration matricielle qursquoon peut formaliser dans le cas drsquoun deacutecodage dans le plan horizontal par lrsquoeacutequation

BSC =sdot (18)

ougrave la matrice C contient les vecteurs harmoniques spheacuteriques associeacutes agrave chaque direction de haut-parleur et organiseacutes suivant ses lignes le vecteur S contient les signaux eacutemis par les L haut-parleurs et enfin le vecteur B contient les signaux HOA

⎟⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜⎜

=

⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜

=

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

=

10

100

2

1

1011

10

11111

111

10011

100

)()()(

)()()()(

M

mn

LLLMM

llmn

LL

LL

B

B

B

B

S

SS

S

YYY

YYYY

CM

M

M

L

MM

L

L

σσ

δθδθδθ

δθδθδθδθ

(19)

)( ll δθ repeacuterant la position du legraveme haut-parleur

Il faut donc estimer S connaissant B et C Le deacutecodage se reacutesume alors agrave un systegraveme de (M +1)2 (en 3D) ou 2M +1 (en 2D) eacutequations lineacuteaires agrave L inconnues On ne peut trouver de solution exacte que si le nombre de haut-parleurs est au moins eacutegal au nombre de signaux crsquoest-agrave-dire si L gt (M +1)2 (en 3D) ou 2M +1 (en 2D) Crsquoest en outre une condition neacutecessaire pour pouvoir avoir une reproduction homogegravene de la scegravene sonore

La matrice C nrsquoest pas neacutecessairement carreacutee et inversible une solution geacuteneacuterale

consiste agrave calculer lrsquoinverse geacuteneacuteraliseacutee de la matrice C noteacutee D encore appeleacutee pseudo-inverse de Moore-Penrose

BDS sdot= (110)

avec

1pinv( ) ( )t tD C C C C minus= = sdot sdot (111) D est appeleacutee matrice de deacutecodage BDS sdot= reacutesout le systegraveme (18) si les haut-

parleurs sont suffisamment nombreux L gt (M +1)2 (en 3D) ou 2M +1 (en 2D)) Srsquoils sont en outre disposeacutes sur une sphegravere (3D) ou un cercle (2D) de maniegravere eacutequidistante crsquoest-agrave-dire srsquoils sont les sommets drsquoun polyegravedre ou polygone reacutegulier ils preacuteservent alors la proprieacuteteacute drsquoorthonormaliteacute des harmoniques spheacuteriques Ceci se traduit par

Lt ILCC sdot=sdot (112)

ougrave IL est la matrice identiteacute de taille LLtimes On a alors

1pinv( ) tD CL

= = C (113)

Chapitre 1 Ambisonics 10

Cette proprieacuteteacute ne peut pas ecirctre matheacutematiquement veacuterifieacutee en 3D au-delagrave de lrsquoordre 2 autrement dit il nrsquoexiste pas de polyegravedre reacutegulier dont la position des sommets conserve strictement lrsquoorthonormaliteacute des harmoniques spheacuteriques

Visuellement le deacutecodage correspond agrave la reproduction du champ sonore tel qursquoil

aurait eacuteteacute capteacute par un ensemble de N microphones agrave directiviteacutes hyper-cardioiumldes tourneacutes chacun vers lrsquoun des haut-parleurs Leur directiviteacute serait drsquoautant plus preacutecise que lrsquoordre de reproduction est eacuteleveacute

Figure 16 - Prise de son virtuelle eacutequivalente agrave un encodage au 1er ordre et un deacutecodage

basique sur une disposition en 2D hexagonale [Moreau et al 2006] Le gain gl appliqueacute agrave chaque haut-parleur pour une direction de source virtuelle donneacutee

(en vert) est indiqueacute par la longueur des flegraveches et est reporteacutee aux points drsquointersection de la flegraveche verte et des diagrammes de directiviteacute

On peut remarquer que les diagrammes de directiviteacute sont tregraves larges par rapport

agrave lrsquoespacement angulaire des haut-parleurs Le 2nd ordre offrirait des directiviteacutes plus fines et donc une seacutelectiviteacute spatiale accrue Il faudrait alors bien sucircr davantage de haut-parleurs pour ne pas introduire des ldquotrousrdquo entre eux On remarque eacutegalement la preacutesence non neacutegligeable des lobes secondaires utiles pour la reconstruction du champ acoustique (notamment en basses freacutequences) mais qui peuvent ecirctre gecircnants dans certains cas par exemple lorsque lrsquoauditoire est large

Ce deacutecodage est appeleacute deacutecodage basique car il nrsquooptimise pas la restitution en

accord une quelconque hypothegravese et cherche uniquement agrave reproduire fidegravelement le champ acoustique Pour ameacuteliorer la restitution dans des cas critiques comme par exemple en-dehors du sweet spot (centre du dispositif) il faut optimiser le deacutecodage en reacuteduisant par exemple les lobes secondaires Ainsi le deacutecodage max-rE srsquoattache agrave maximiser lrsquoeacutenergie reccedilue de la provenance de la direction souhaiteacutee alors que le deacutecodage in-phase annule complegravetement ces lobes secondaires (voir Annexe B)

13 Critique de la technologie HOA 11

13 Critique de la technologie HOA

131 Bilan On a ainsi vu que la technologie HOA est une repreacutesentation intermeacutediaire du

champ de pression acoustique agrave mi-chemin entre la description directe du champ lui-mecircme et des signaux agrave restituer Cette technologie a de nombreux avantages compareacutee aux autres meacutethodes de reproduction de champ sonore (on trouvera notamment une eacutetude deacutetailleacutee des comparaisons entre HOA et la Wave Field Synthesis (WFS) dans [Daniel et al 2003]) elle permet drsquoeacuteviter le repliement spatial (voir paragraphe suivant) et permet ainsi une reconstruction dans une gamme de freacutequences tregraves large

La qualiteacute de la restitution ambisonique nrsquoest theacuteoriquement limiteacutee que part

lrsquoordre de troncature de la seacuterie de Fourier-Bessel agrave partir du moment ougrave le nombre de haut-parleurs est suffisant Ainsi un ordre tendant vers lrsquoinfini (et un nombre de haut-parleurs au moins aussi grand) permettra une reproduction quasi-parfaite sur lrsquoensemble de la zone drsquoeacutecoute

Mais les principaux avantages de cette technologie sont drsquoune part drsquoecirctre flexible

crsquoest-agrave-dire qursquoon peut agrave loisir adapter le nombre de signaux transmis au canal de transmission Une chute de deacutebit nrsquoentraicircnera pas de coupure de la transmission mais simplement une perte de preacutecision spatiale par lrsquoabandon des composantes drsquoordres les plus eacuteleveacutes Et drsquoautre part elle est indeacutependante du systegraveme de reproduction Ainsi un mecircme signal HOA pourra ecirctre diffuseacute sur toutes les configurations de haut-parleurs il suffira pour cela de calculer la matrice de deacutecodage associeacutee agrave ce systegraveme

132 Limites pratiques Dans la pratique cette technologie a toutefois des limitations Si lrsquoaliasing spectral

est eacuteviteacute on constate aux ordres les plus eacuteleveacutes lrsquoapparition drsquoun repliement spatial lors des enregistrements naturels agrave partir drsquoune freacutequence lieacutee agrave la distance maximale entre 2 capsules du microphone HOA (qui doit ecirctre au plus eacutegale agrave la moitieacute de la plus petite longueur drsquoonde drsquoapregraves Shannon) et au nombre total de capsules (qui doit ecirctre supeacuterieur agrave (M+1)2 M eacutetant lrsquoordre auquel on souhaite enregistrer)

Le repliement spectral repreacutesente la preacutesence importune dans des composantes

ambisoniques de sources qui de part leur position ne devraient qursquoapparaicirctre avec cette importance que dans les composantes drsquoordre plus eacuteleveacute Il est ducirc agrave lrsquointrusion des directiviteacutes drsquoordres supeacuterieurs dans les composantes harmoniques spheacuteriques estimeacutees Comme on le voit sur la Figure 17 les directiviteacutes ne sont pas des cylindres (au sens matheacutematique du terme la base nrsquoeacutetant pas forceacutement un cercle) mais varient en fonction de la freacutequence pour ressembler davantage dans le haut du spectre aux courbes de directiviteacute de lrsquoordre supeacuterieur Ainsi la directiviteacute de lrsquoordre 1 (2egraveme graphique) qui devrait ecirctre un 8 ressemble davantage au-dessus de 10 000 Hz agrave la figure de directiviteacute de lrsquoordre 4 (8 lobes)

Chapitre 1 Ambisonics 12

Figure 17 - Directiviteacutes theacuteoriques (en transparence) et reconstruites (grille) dans le plan horizontal pour des ondes planes horizontales Lrsquoaxe vertical correspond agrave la freacutequence et

les diffeacuterents graphiques aux ordres 0123 et 4 de gauche agrave droite Agrave lrsquoopposeacute la taille reacuteduite du microphone si elle permet de reacuteduire cet aliasing

spatial empecircche la capture des basses freacutequences aux ordres supeacuterieurs (voir 232) La reacutesolution spatiale des basses freacutequences sera donc moindre ce qui implique que en ajoutant lrsquoeffet du repliement en hautes freacutequences les ordres eacuteleveacutes capteacutes avec le micro HOA ne constituent qursquoune plage du spectre assez peu eacutetendue crsquoest cette seule plage qui pourra se targuer drsquoune excellente preacutecision spatiale

13

Chapitre 2

Analyser un contenu HOA

21 Objectifs La reacuteflexion a tout au long du stage eacuteteacute orienteacutee vers deux objectifs le premier

est dans un contexte de transmission de reconstruire une scegravene spatialiseacutee agrave partir du minimum drsquoinformations le deuxiegraveme appliqueacute agrave des ordres plus eacuteleveacutes est drsquoarriver agrave resyntheacutetiser les composantes de lrsquoordre immeacutediatement supeacuterieur

211 Restitution de la spatialisation agrave partir drsquoun downmix mono La premiegravere approche vise donc agrave reconstruire une scegravene spatialiseacutee agrave partir drsquoun

downmix le plus leacuteger possible Un downmix est une reacuteduction du nombre de canaux par fusion lrsquoexemple le plus simple eacutetant le passage drsquoun signal steacutereacuteo agrave un signal mono construit comme la demi-somme des composantes gauche et droite On tente dans cette approche de se restreindre au plus petit nombre de signaux possible un signal eacutetant tregraves coucircteux agrave transmettre en ajoutant parallegravelement agrave ce signal des informations compleacutementaires aidant agrave la reconstruction

Le cas extrecircme est la reacuteduction du flux agrave un signal mono Dans le cas

drsquoambisonics un signal mono comprenant toutes les sources est deacutejagrave preacutesent il srsquoagit de la composante omnidirectionnelle W Il faut donc extraire de la scegravene encodeacutee agrave un certain ordre M des informations permettant la reconstruction drsquoun ordre Mrsquo apregraves transmission Nous verrons que nous allons chercher agrave trouver les positions des sources gracircce agrave une analyse en composantes principales (ou ACP voir Annexe C) effectueacutee par sous-bandes (voir Annexe D)

212 Ameacutelioration de la preacutecision spatiale La deuxiegraveme piste suivie a pour but de reconstituer un ordre ambisonique non

transmis On pourrait qualifier cette approche drsquoupmix ambisonique car elle vise agrave reconstruire un ordre manquant En effet le format ambisonique eacutetant flexible il est bien

Chapitre 2 Analyser un contenu HOA 14

adapteacute agrave la transmission Ainsi si on souhaite transmettre une scegravene encodeacutee agrave lrsquoordre 2 dans le plan horizontal il faudra un canal drsquoun deacutebit minimum (si lrsquoon prend lrsquohypothegravese de pas vouloir compresser les signaux) de 471 Mos Un canal plus petit (par exemple 34 Mos) ne permettra theacuteoriquement de transmettre qursquoun ordre 1 Mais lrsquoanalyse des signaux peut permettre de deacuteterminer les positions des sources agrave partir desquelles on peut syntheacutetiser des composantes du 2nd ordre approchant les composantes drsquoorigine On pourrait mecircme imaginer pouvoir syntheacutetiser un ordre qui nrsquoavait pas eacuteteacute encodeacute agrave lrsquoorigine

Pour cela il est neacutecessaire de deacuteterminer les positions des sources preacutedominantes

dans le champ sonore pour piloter leur encodage spatial aux ordres supeacuterieurs et arriver agrave la synthegravese drsquoune repreacutesentation de reacutesolution spatiale accrue Il srsquoagit dans le mecircme temps drsquoisoler au mieux les signaux associeacutes agrave ces diffeacuterentes sources avant de leur appliquer lrsquoopeacuteration drsquoencodage on se rapproche donc drsquoun problegraveme de seacuteparation de sources

Pour parvenir agrave trouver ces positions deux meacutethodes ont eacuteteacute testeacutees La premiegravere

consiste comme preacuteceacutedemment agrave appliquer en sous-bandes une analyse en composantes principales La seconde implique la formation de directiviteacutes agrave partir des vecteurs propres de la matrice de correacutelation utiliseacutee dans cette analyse

Lrsquoanalyse en composantes principales ou ACP (voir Annexe C) est donc

largement privileacutegieacutee dans nos approches Elle permet en effet tregraves facilement drsquoextraire des informations preacutecises de signaux correacuteleacutes Pour justifier ce choix une autre meacutethode reacutecente a eacutegalement eacuteteacute testeacutee et compareacutee agrave lrsquoACP (voir 11)

22 Principe de lrsquoextraction drsquoinformation spatiale avec une ACP

221 Information spatiale

Nous avons donc tout drsquoabord testeacute lrsquoanalyse en composantes principales sur des

signaux HOA Nous avons choisi dans un premier temps de limiter lrsquoanalyse aux composantes horizontales du premier ordre W X et Y avant de lrsquoeacutetendre agrave la 3egraveme dimension avec Z

Dans un premier test les signaux HOA sont analyseacutes par une ACP dans leur

inteacutegraliteacute LrsquoACP est appliqueacutee sur les signaux X et Y qui contiennent lrsquoinformation spatiale En effet X et Y correspondent aux signaux qui seraient capteacutes par des microphones agrave figure en 8 placeacutes sur lrsquoaxe avant-arriegravere et gauche-droite respectivement

La Figure 21 montre la correacutelation entre X et Y dans le cas drsquoun bruit blanc capteacute

par le microphone ambisonique Les points ne sont pas exactement aligneacutes du fait des artefacts inheacuterents agrave la prise de son (reacuteflexions sur les parois approximations du microphone etc)

22 Principe de lrsquoextraction drsquoinformation spatiale avec une ACP 15

Figure 21 - Y en fonction de X dans le cas drsquoun bruit blanc enregistreacute placeacute agrave 30deg

On remarque que le nuage est eacutetireacute dans la direction de provenance du son indiqueacutee par la flegraveche en pointilleacutes verts

222 Application de lrsquoanalyse en composantes principales La 1egravere composante issue de lrsquoACP appliqueacutee dans le plan (X Y) pointe dans la

direction dans laquelle X et Y ont la plus grande correacutelation Or comme X contient lrsquoinformation placeacutee sur lrsquoaxe avant-arriegravere et Y lrsquoinformation de lrsquoaxe gauche-droite cette direction est directement la direction de la source Par exemple un son situeacute droit devant dans lrsquoaxe (agrave 0deg) aura une composante Y nulle et par conseacutequent les eacutechantillons seront dans le plan tous disposeacutes sur lrsquoaxe horizontal LrsquoACP prendra donc naturellement cet axe comme 1er vecteur propre et il pointe bien vers la position de la source De mecircme un son situeacute agrave 135deg ( π28

3 times rad) aura la proprieacuteteacute Y = -X Les eacutechantillons seront donc placeacutes sur la 2egraveme bissectrice qui fait avec lrsquoaxe Y=0 un angle de 135deg (voir Figure 22)

Figure 22 - Y en fonction de X dans le cas drsquoun son placeacute artificiellement dans la direction

indiqueacutee par la flegraveche en pointilleacutes verts agrave 0deg (agrave gauche) et 135deg (agrave droite)

Chapitre 2 Analyser un contenu HOA 16

Lrsquoanalyse de X et Y ne permet cependant de deacuteterminer lrsquoangle qursquoagrave π pregraves il reste une indeacutetermination (on deacutetermine la direction drsquoun axe qursquoil reste agrave orienter) Pour lever cette ambiguiumlteacute on integravegre W agrave lrsquoanalyse car cette composante pourtant omnidirectionnelle et donc deacutepourvue drsquoinformation spatiale apporte une reacutefeacuterence pour les phases Ainsi notre son placeacute agrave 135deg veacuterifiait (aux eacuteventuels coefficients de normalisation pregraves) Y = -X = W alors qursquoun son placeacute agrave 135 - 180 = -45deg aurait la proprieacuteteacute Y = -X = -W

Pour prendre en compte W dans lrsquoanalyse on peut comparer directement les

phases de ces 3 canaux Algorithmiquement on ramegravene lrsquoangle trouveacute agrave son modulo π2 puis on deacutetermine le vrai cadran par comparaison des phases de W X et Y crsquoest-agrave-dire en comparant le signe des produits W X et W Y Ainsi W X gt 0 signifie que W et X sont en phase et reacuteciproquement (voir Figure 23)

W X lt 0 W Y gt 0

W X gt 0 W Y gt 0

W X lt 0 W Y lt 0

W X gt 0 W Y lt 0

minusπ2

π

π2

0

Figure 23 - Signes de W X et W Y en fonction du cadran On peut eacutegalement inteacutegrer W agrave lrsquoanalyse en appliquant lACP sur le triplet (X Y

W) Le problegraveme drsquoambiguiumlteacute est ainsi reacutesolu la direction rechercheacutee eacutetant celle du vecteur principal dans le demi-espace W gt 0 projeteacutee sur le plan (X Y) Cette meacutethode srsquoavegravere plus robuste et surtout plus geacuteneacuteralisable agrave des ordres plus eacuteleveacutes

Cette analyse permet donc de deacuteterminer la position drsquoune source unique Pour

pouvoir seacuteparer plusieurs sources nous avons appliqueacute lrsquoACP par sous-bandes en supposant que les sources nrsquoont pas des supports freacutequentiels strictement identiques Le principe de cette analyse en sous-bandes est deacuteveloppeacute en Annexe D

23 Meacutethodologie

231 Construction de scegravenes artificielles Pour tester les algorithmes impleacutementeacutes nous avons ducirc creacuteer des scegravenes sonores

spatialiseacutees au format HOA Plusieurs types de scegravenes ont eacuteteacute utiliseacutes de complexiteacutes diffeacuterentes Les premiegraveres ont eacuteteacute des scegravenes virtuelles syntheacutetiseacutees avec Matlab Les premiegraveres scegravenes simplissimes ne comportait qursquoune sinusoiumlde ou un bruit blanc fixe placeacute dans le plan horizontal Puis pour tester lrsquoanalyse par sous-bandes ont eacuteteacute creacuteeacutes des sons polyphoniques composeacutes de 2 sinusoiumldes tout drsquoabord puis de sons complexes (syntheacutetiseacutes par synthegravese FM) dans des gammes freacutequentielles distinctes ou se

23 Meacutethodologie 17

chevauchant Enfin ces sons ont eacuteteacute rendus mobiles en faisant varier leur position dans le temps

Nous avons pu ainsi constater agrave lrsquoaide des sons fixes et de supports freacutequentiels

distincts la preacutecision de lrsquoanalyse et avec les sons mobiles et mecircleacutes sa robustesse Nous nous sommes limiteacutes sous Matlab agrave la geacuteneacuteration de 2 sons simultaneacutes et du 1er ordre et un autre outil Plogue Bidule a eacuteteacute utiliseacute pour composer des scegravenes plus complexes

Bidule est un studio modulaire virtuel ressemblant agrave MAXMSP Des plugins ont

eacuteteacute deacuteveloppeacutes agrave France Teacuteleacutecom pour permettre de manipuler des signaux HOA Ainsi des scegravenes complexes ont pu facilement ecirctre syntheacutetiseacutees agrave des ordres eacuteleveacutes Des scegravenes agrave 3 et 4 sources fixes ou dont 1 source mobile ont eacuteteacute reacutealiseacutees agrave partir de voix deacutemixeacutees placeacutees dans le plan horizontal ou en 3 dimensions

Ces scegravenes eacutetant artificielles elles sont en un sens ideacuteales ne contiennent aucun

signal reacuteverbeacutereacute (effet de salle) ni diffracteacute (par un micro) lrsquoencodage est fait sans artefacts les ondes sont consideacutereacutees comme planes et ont donc une direction bien deacutefinie Si on est ici bien loin de la vraie vie le gros avantage des scegravenes artificielles est qursquoon connaicirct preacuteciseacutement agrave chaque instant la position des sources et qursquoon peut ainsi veacuterifier le reacutesultat de lrsquoanalyse

Figure 24 - Interface graphique du logiciel Bidule avec agrave droite les controcircles des encodeurs

et deacutecodeurs HOA creacuteeacutes agrave France Teacuteleacutecom

Chapitre 2 Analyser un contenu HOA 18

232 Exploitation drsquoenregistrements naturels Une fois des reacutesultats convaincants obtenus avec des scegravenes virtuelles des

enregistrements naturels ont eacuteteacute analyseacutes Ces scegravenes ont eacuteteacute enregistreacutees gracircce au prototype de micro HOA du 4egraveme ordre deacuteveloppeacute agrave France Teacuteleacutecom (voir Figure 12) Ce processus implique des diffeacuterences notables avec un encodage virtuel

Le prototype de microphone contraint en effet agrave quelques compromis pour

optimiser des critegraveres incompatibles La taille du microphone reacutesulte drsquoun compromis entre la preacutecision drsquoestimation des composantes en basses freacutequences qui neacutecessite une taille eacuteleveacutee et la minimisation de lrsquoaliasing spatial qui ne peut ecirctre eacuteviteacute qursquoavec des capsules tregraves proches les unes des autres Leur disposition est eacutegalement irreacuteguliegravere il nrsquoexiste en fait aucune faccedilon de disposer reacuteguliegraverement plus de 20 points sur une sphegravere La configuration qui avait eacuteteacute retenue par les concepteurs [Moreau 2006] est la ldquomoins irreacuteguliegravere possiblerdquo au sens de la preacuteservation de lrsquoorthonormaliteacute des harmoniques spheacuteriques les 32 capsules sont reacuteparties sur une sphegravere de 35 cm de rayon selon un Pentaki-dodeacutecahegravedre polyegravedre semi-reacutegulier dual de lrsquoicosaegravedre tronqueacute (ballon de football)

Ces artefacts sont donc inheacuterents agrave lrsquoutilisation drsquoun reacuteseau de microphones Mais

le monde reacuteel pose eacutegalement des problegravemes deacutelicats La complexiteacute des modes de rayonnement drsquointeraction avec lrsquoenvironnement reacuteclame lrsquointroduction de modegraveles drsquoencodage beaucoup plus complexes que le cas drsquoune onde plane en champ libre et rend lrsquoinformation spatiale moins limpide et univoque au sein de la scegravene encodeacutee (enregistreacutee) en comparaison avec une scegravene virtuelle Les sources ne sont ainsi plus ponctuelles mais eacutetendues elles ne sont plus agrave lrsquoinfini mais agrave une distance finie du microphone (les ondes reccedilues ne sont donc plus planes) En outre chaque source en se reacutefleacutechissant sur les parois et les diffeacuterents objets de la salle creacutee une multitude de sources secondaires Il est enfin souvent difficile de connaicirctre avec preacutecision la position drsquoune source dans lrsquoespace lors drsquoun enregistrement

Des enregistrements en chambre sourde ont eacuteteacute reacutealiseacutes pour se passer des

reacuteflexions de lrsquoenvironnement Afin de connaicirctre avec preacutecision la position de la source un haut-parleur diffusant un bruit blanc nous avons placeacute le microphone sur une table tournante commandeacutee par un plug-in sous Plogue Bidule

233 Visualisations des reacutesultats Lrsquoobservation des reacutesultats a eacuteteacute effectueacutee de plusieurs maniegraveres visuellement et

par lrsquoeacutecoute Les graphiques eacutetant plus commodes crsquoest par cette voie que les premiers essais eacutetaient conclus Plusieurs types de graphiques ont eacuteteacute produits deacutecrivant des paramegravetres diffeacuterents

Les repreacutesentations temps-freacutequence permettent de repreacutesenter une variable agrave 1

dimension sous Matlab Cette voie a eacuteteacute suivie pour visualiser les paramegravetres extraits de chaque sous-bande de chaque fenecirctre notamment les angles lrsquoeacutenergie et la pertinence Malheureusement Matlab ne permet pas de repreacutesenter sur le mecircme graphique une 4egraveme dimension sous la forme drsquoune 2egraveme dimension colorimeacutetrique (on prend geacuteneacuteralement la

23 Meacutethodologie 19

saturation) Cette dimension suppleacutementaire aurait permis de repreacutesenter simultaneacutement les angles et leur pertinence

Figure 25 - Repreacutesentation

et de lrsquoespace col

Pour repreacutesenter s

drsquoabandonner une dimensipouvoir repreacutesenter danrepreacutesenteacutees soit par le niv

Figure 26 - Repreacutesentationdeacutecrite en 332 (en absciss

est repreacutesenteacutee agrave gauc

234 Diffeacuterents modes La visualisation est

indispensable pour veacuterifiesont possibles de ceux-cainsi reconstitueacutee agrave partir d

1 W+Y+02X pour le c

π 0 minusπ

de la table des couleurs dite HSV de Matlab (lineacuteaire agrave gauche) orimeacutetrique HSL (Hue Saturation Luminance agrave droite)

imultaneacutement angles et pertinence il eacutetait donc neacutecessaire on Crsquoest le deacutecoupage freacutequentiel qui a eacuteteacute mis de cocircteacute pour s un plan temps-angles les pertinences Celles-ci sont eau de gris des points soit par leur taille

de la pertinence des angles de la scegravene agrave 4 sources dont 1 mobile e les trames en ordonneacutees les angles en degreacute) La pertinence he par lrsquointensiteacute du bleu et agrave droite par la taille des points

drsquoeacutecoute

un indice preacutecis de reacutesultat mais lrsquoeacutecoute est tout de mecircme r la qualiteacute globale de la synthegravese Plusieurs modes drsquoeacutecoute i lrsquoeacutecoute au casque est la plus aiseacutee Une pseudo-steacutereacuteo est es signaux du 1er ordre1 pour restituer les scegravenes restreintes au

anal gauche et W-Y+02X pour le canal droit

Chapitre 2 Analyser un contenu HOA 20

plan horizontal Pour plus de preacutecision agrave la restitution ou pour des scegravenes en 3D et sans perdre la faciliteacute drsquoune eacutecoute personnelle au casque on peut appliquer des filtres HRTF (Head-Related Transfert Function) pour une reproduction binaurale

Pour appreacutecier pleinement la spatialisation la diffusion sur un systegraveme multi

haut-parleurs est indispensable Deux systegravemes sont installeacutes dans le laboratoire de France Teacuteleacutecom un systegraveme 51 et un systegraveme circulaire de 48 haut-parleurs Ces systegravemes installeacutes dans des studios insonoriseacutes offrent une grande qualiteacute drsquoeacutecoute qui permet de repeacuterer les deacutefauts mecircme minimes de la synthegravese

21

Chapitre 3

Description des analyses

31 Deacutetermination des directions principales

311 Base des algorithmes Nous avons deacuteveloppeacute plusieurs algorithmes reacutepondant aux diffeacuterents objectifs

deacutecrits plus haut Chacun drsquoeux possegravede des particulariteacutes leur permettant de reacutepondre agrave ces objectifs mais on trouve neacuteanmoins une partie commune Ainsi toutes les analyses reposent sur le mecircme modegravele drsquoapplication drsquoune ACP par sous-bandes dont voici le scheacutema geacuteneacuteral

Figure 31 - Scheacutema geacuteneacuteral drsquoanalyse

Les signaux en entreacutee sont les composantes HOA W X et Y dans la plupart des

cas mais peuvent ecirctre eacutegalement des composantes drsquoordre plus eacuteleveacute (voir 11) Sur le fenecirctrage jouent plusieurs paramegravetres comme la taille de la fenecirctre ou encore le pourcentage de recouvrement entre elles Nous avons choisi une fenecirctre en racine de la fenecirctre de Hanning crsquoest-agrave-dire une arche de sinusoiumlde (voir eacutequation (D7) en Annexe D) avec un recouvrement de 50 ce qui veacuterifie le critegravere de reconstruction parfaite (D6) Le filtrage est pour des raisons de rapiditeacute de calcul reacutealiseacute dans le domaine freacutequentiel par une simple multiplication avant de repasser en temporel pour appliquer lrsquoACP

Le banc de filtre utiliseacute est un banc inspireacute des filtres ERB Les filtres ERB

(Equivalent Regular Bandwidth) sont des filtres imitant le comportement de seacuteparation freacutequentielle de lrsquooreille humaine plus preacutecise en basse freacutequence Les filtres utiliseacutes ici ne sont pas directement des filtres ERB le systegraveme nrsquoa pas drsquointeacuterecirct particulier agrave essayer de copier le fonctionnement de lrsquooreille humaine Ces filtres ont eacuteteacute adapteacutes au problegraveme en

Chapitre 3 Description des analyses 22

srsquoassurant en particulier de la finesse des bandes permettant la meilleure discrimination des diffeacuterentes sources crsquoest-agrave-dire autour des fondamentales usuelles (200-1000 Hz) et des harmoniques Les freacutequences aigueumls sont bien discrimineacutees par les filtres ERB (relativement agrave la gamme crsquoest-agrave-dire en eacutechelle logarithmique) le deacutecoupage a donc surtout eacuteteacute densifieacute entre 200 et 800 Hz par rapport aux bandes ERB

Figure 32 - Filtres utiliseacutes inspireacutes des filtres ERB repreacutesenteacutes lineacuteairement (en haut)

et sur une eacutechelle logarithmique (en bas) Les reacutesultats de lrsquoACP sont donc avec cette meacutethode les angles des sources

trouveacutees dans chaque sous-bande ainsi que pour chacun drsquoeux un critegravere de pertinence calculeacute en fonction de lrsquoeacutenergie de la sous-bande dans une fenecirctre donneacutee et de la norme relative de la premiegravere composante de lrsquoACP (voir 342) Les autres vecteurs propres peuvent ecirctre utiliseacutes pour extraire davantage drsquoinformations et mecircme des signaux deacutecorreacuteleacutes comme on le verra au paragraphe 35 mais lrsquoanalyse semble alors moins robuste Srsquoen tenir aux informations donneacutees par la composante principale est un gage de pertinence suppleacutementaire

Ces reacutesultats concernent donc les sources preacutedominantes ou principales mais

laissent de cocircteacute un certain nombre drsquoeacuteveacutenements sonores agrave consideacuterer

312 Traitement du champ reacutesiduel Le champ reacutesiduel regroupe en quelque sorte tout ce qui nrsquoest pas une source

principale Il inclut donc les reacuteflexions et la reacuteverbeacuteration de la piegravece mais aussi les bruits parasites occasionnels ou continus (ventilation etc) Ces bruits ou eacutechos nrsquoont pas de direction de provenance assez distincte pour pouvoir ecirctre mesureacutee preacuteciseacutement Le champ reacutesiduel est eacutegalement composeacute du champ diffus La notion de champ diffus est couramment utiliseacutee mais rarement preacuteciseacutement deacutefinie On trouve dans la litteacuterature des deacutefinitions diverses lrsquoune drsquoelles preacutecisant qursquoil serait un ensemble drsquoeacuteveacutenements sonores proches en temps et provenant de directions eacutequiprobables

Les algorithmes proposeacutes traitent correctement les sources principales mais le

champ reacutesiduel est laisseacute de cocircteacute Il est pourtant tregraves important pour lrsquoimmersion du sujet dans la scegravene une scegravene deacutepourvue de champ sonore sera perccedilue comme artificielle ce qui nuit agrave la perception drsquoespace On sera par exemple davantage conscients drsquoecirctre au centre drsquoun dispositif expeacuterimental et moins sensibles aux variations de profondeur et de perspectives

31 Deacutetermination des directions principales 23

Neacuteanmoins il faut relativiser lrsquoimportance de ce champ reacutesiduel il nrsquoest pas utile pour la localisation des sources principales et ne caracteacuterise que lrsquoenvironnement drsquoenregistrement En outre le champ reacutesiduel qui provient souvent de directions floues et notre but nrsquoest pas de les preacuteciser artificiellement Il nrsquoest degraves lors geacuteneacuteralement pas utile de le transmettre aux ordres eacuteleveacutes

Ainsi certains auteurs [Merimaa and Pulkki 2005] ont choisi de recreacuteer lors drsquoune

synthegravese un champ diffus artificiel baseacute sur une reacuteponse impulsionnelle de salle calculeacutee agrave lrsquoavance Lrsquoavantage est une immersion un enveloppement complets lrsquoinconveacutenient est que lrsquoambiance ainsi recreacuteeacutee est fictive et arbitraire et en outre complegravetement indeacutependante de lrsquoambiance initiale en laissant notamment de cocircteacute les sources secondaires

Nous proposons dans nos algorithmes de ne pas syntheacutetiser le champ diffus aux

ordres eacuteleveacutes mais de nous contenter de la description du champ reacutesiduel fourni par les ordres transmis (1er ordre dans nos exemples) Nous nous limiterons donc agrave preacuteciser par la synthegravese des ordres supeacuterieurs les positions des sources principales

32 Extension agrave la 3D Nous avons pour le moment eacutevoqueacute le cas de repreacutesentations de champ sonore agrave

2 dimensions crsquoest-agrave-dire issus de sources placeacutees dans le plan horizontal Mais certaines repreacutesentations comportent eacutegalement des composantes verticales Pour analyser ces signaux en 3 dimensions il faut inteacutegrer la composante Z On effectue alors simplement une ACP sur X Y Z et W Le 1er vecteur propre sera alors bien dirigeacute dans lrsquoespace (X Y Z) dans la direction de la source lrsquoambiguiumlteacute de frac12 espace eacutetant leveacutee par W

Lrsquoalgorithme est alors complegravetement similaire agrave celui analysant des signaux en 2

dimensions Des tests ont eacuteteacute reacutealiseacutes agrave partir de signaux syntheacutetiques pour lesquels les positions des sources eacutetaient connues pour des raisons pratiques aucune scegravene sonore reacuteelle en 3 dimensions nrsquoa pu ecirctre enregistreacutee avec une connaissance initiale preacutecise des positions des sources

Les visualisations et les eacutecoutes eacutetant plus deacutelicates en 3D et lrsquoextension agrave la 3D

eacutetant immeacutediate nous avons donc concentreacute nos efforts sur lrsquoanalyse de scegravenes en 2D En outre en lrsquoabsence de dispositif spheacuterique ou heacutemispheacuterique de haut-parleurs le seul moyen agrave notre disposition pour eacutecouter une scegravene 3D est lrsquoeacutecoute binaurale crsquoest-agrave-dire au casque avec des fonctions de transfert de tecircte (HRTF) relativement bien adapteacutees agrave lrsquoauditeur

33 Analyse aux ordres supeacuterieurs

331 Description Afin drsquoameacuteliorer la preacutecision de lrsquoanalyse nous avons essayeacute drsquoappliquer une ACP

sur des signaux ambisoniques drsquoordre plus eacuteleveacute (signaux HOA) dans le plan horizontal Deux meacutethodes ont eacuteteacute essayeacutees

Chapitre 3 Description des analyses 24

La premiegravere consiste agrave appliquer une ACP agrave 3 dimensions successivement sur les composantes X Y W (ordre 1 et 0) puis U V W (ordre 2 et 0) et ainsi de suite crsquoest-agrave-dire (en utilisant la notation geacuteneacuterale) sur les composantes et W (ordre m et 0) Les reacutesultats de ces analyses (les directions des 1

)1(0mY )1(

0minus

mYegraveres composantes) sont ensuite regroupeacutees

lrsquoanalyse de lrsquoordre 1 fournissant des reacutesultats modulo 2π lrsquoanalyse de lrsquoordre 2 des reacutesultats plus preacutecis mais modulo π et plus geacuteneacuteralement lrsquoanalyse de lrsquoordre m permettant de trouver des angles modulo mπ2

La limite de cette approche se perccediloit lors de la fusion des reacutesultats les angles

trouveacutes agrave un ordre eacuteleveacute sont plus preacutecis dans des bandes de freacutequences eacuteleveacutees mais la limitation theacuteorique de ces signaux HOA dans les basses freacutequences font que lrsquoanalyse de lrsquoordre 1 reste la plus pertinente dans les premiegraveres bandes Parvenir agrave deacuteterminer agrave partir de quelle freacutequence on peut faire davantage confiance agrave lrsquoordre n+1 qursquoagrave lrsquoordre n nrsquoest pas aiseacute et cette limite provoque des aberrations dans les angles trouveacutes Une source unique pourra par exemple ecirctre interpreacuteteacutee par lrsquoalgorithme des k-moyennes (voir 341) comme 2 sources une en hautes freacutequences et une en basses freacutequences les 2 eacutetant trouveacutes agrave 2 angles diffeacuterents chaque angle relevant drsquoun ordre analyseacute diffeacuterent

La deuxiegraveme meacutethode consiste pour eacuteviter cette fusion des reacutesultats agrave effectuer

une seule ACP sur les composantes U V X Y et W Cette meacutethode souffre drsquoune tregraves grande complexiteacute algorithmique pour une ameacutelioration de la preacutecision peu sensible En effet si cette meacutethode permet drsquoobtenir des reacutesultats plus preacutecis dans certaines bandes de freacutequences elle est sensible aux deacutefauts et les limites des ordres supeacuterieurs (lrsquoabsence de basses freacutequences entre autres) perturbent lrsquoanalyse en composantes principales

332 Illustration sur une scegravene virtuelle La scegravene preacutesenteacutee ici est une scegravene artificielle crsquoest-agrave-dire composeacutee de sons

placeacutes artificiellement agrave diverses positions Elle a une dureacutee totale de 135 s et comporte 4 sources positionneacutees dans le plan horizontal une guitare placeacutee agrave 45deg une basse agrave -70deg une batterie agrave 110deg et une voix feacuteminine qui effectue continucircment un tour complet dans le sens indirect en partant de lrsquoarriegravere (elle passe donc successivement par les positions 180deg 90deg 0deg -90deg et -180deg) La guitare et la batterie srsquoarrecirctent peu avant la fin de la scegravene (12egraveme seconde au 910egraveme du son approximativement)

Figure 33 - Position des sources de la scegravene de test agrave 4 sources dont 1 mobile

33 Analyse aux ordres supeacuterieurs 25

Figure 34 - Angles drsquoune scegravene virtuelle ayant 1 source mobile et 3 sources fixes

(deacutecrite en 332) trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 Pour chaque trame (en abscisse) 20 angles (1 par bande en ordonneacutee et en degreacutes) sont

reporteacutes le diamegravetre du point correspondant agrave un critegravere de pertinence (voir 342)

Figure 35 - Angles de la mecircme scegravene trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 2 Reacutesultats modulo π reacutepliqueacutes pour faciliter la comparaison avec la figure preacuteceacutedente On remarque que les lignes sont plus nettes qursquoil y a moins drsquoangles aberrants et que

les angles corrects sont plus marqueacutes (ils sont deacutetermineacutes comme plus pertinent)

Chapitre 3 Description des analyses 26

20

0

20

0

20

0

Figure 36 - Angles drsquoune scegravene reacuteelle constitueacutee drsquoun bruit parcourant le cercle trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 (en haut) 0 et 2 (au milieu) et 0 et 4 (en bas) Le

numeacutero de trame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On retrouve qursquoune limitation des ordres HOA supeacuterieurs issus drsquoun enregistrement

microphonique est la restitution des basses freacutequences

34 Traitement des donneacutees

341 Algorithme des k-moyennes Agrave lrsquoissue de lrsquoanalyse en composantes principales on reacutecupegravere avec la premiegravere

des meacutethodes exposeacutees au chapitre preacuteceacutedent des angles correspondants aux positions des sources preacutedominantes agrave raison drsquoune valeur par fenecirctre et par bande de freacutequence Il faut agrave partir de ces donneacutees parvenir agrave isoler les sources crsquoest-agrave-dire agrave deacuteterminer quels sont les angles pertinents et examiner quels sont ceux qui agrave une certaine toleacuterance pregraves sont preacutesents dans plusieurs bandes de freacutequence etou plusieurs fenecirctres temporelles

Pour pouvoir exploiter ces donneacutees spatiales nous avons utiliseacute lrsquoalgorithme des

k-moyennes (ou k-means) [MacQueen 1967] sur les angles pondeacutereacutes par des critegraveres de pertinence Cet algorithme fonctionne de la maniegravere suivante

Initialisation choix de k barycentres (les k moyennes) Reacutepeacuteter Associer chaque eacuteleacutement au barycentre le plus proche Recalculer les positions des barycentres Jusqursquoagrave ce que les barycentres soient stables (ou au bout de t iteacuterations)

34 Traitement des donneacutees 27

Lrsquoavantage de cet algorithme est drsquoecirctre peu glouton puisqursquoil converge en O(tkn) ougrave t est le nombre drsquoiteacuterations k le nombre de centres et n le nombre de points (geacuteneacuteralement on a t k ltlt n) Par contre il est plutocirct sensible aux exceptions un point aberrant tirera agrave lui la moyenne auquel il aura eacuteteacute associeacute Il faut donc faire en sorte que ces points erroneacutes soient aussi rares que possibles Crsquoest pourquoi les angles traiteacutes sont pondeacutereacutes par 2 critegraveres de pertinence

La pondeacuteration des angles fournis en entreacutee de lrsquoalgorithme des k-moyennes se

fait de maniegravere simple en reacutepeacutetant ces angles un nombre de fois (de 0 agrave 10) proportionnel agrave un critegravere Ainsi un angle tregraves pertinent sera dupliqueacute et sera preacutesent plusieurs fois dans la liste des donneacutees traiteacutees attirant ainsi agrave lui la position du barycentre le plus proche Au contraire un angle trop peu pertinent ne sera pas reacutepeacuteteacute voir mecircme sera enleveacute de la liste

Le seul problegraveme de cet algorithme est qursquoil neacutecessite la connaissance de k crsquoest-

agrave-dire du nombre de sources qui composent la scegravene Une deacutetermination automatique se basant sur la reacutepeacutetition de lrsquoalgorithme avec un k croissant a eacuteteacute testeacutee mais le critegravere drsquoarrecirct reposant sur la dispersion des points autour des barycentres nrsquoeacutetant pas assez robuste cette meacutethode a provisoirement eacuteteacute mise de cocircteacute

342 Critegraveres de pertinence Les 2 critegraveres de pondeacuteration choisis sont lrsquoeacutenergie de la sous-bande dans la

fenecirctre donneacutee et le rapport de la norme de la 1egravere composante (la composante principale) de lrsquoACP sur la somme des normes de toutes les composantes

En effet un angle est trouveacute dans chaque sous-bande de chaque fenecirctre mecircme si

le signal y est tregraves faible Lrsquoangle trouveacute sera alors tregraves peu repreacutesentatif de la direction drsquoune source puisqursquoil indiquera la direction drsquoun bruit Lrsquoeacutenergie doit donc ecirctre prise en compte pour ne conserver que les angles trouveacutes dans des bandes comportant un signal suffisant

La norme relative de la 1egravere composante de lrsquoACP rend quant agrave elle compte du

poids relatif de cette composante par rapport aux autres Ainsi si 2 sources sont preacutesentes dans une bande donneacutee la 1egravere composante sera agrave peine plus marqueacutee que la 2egraveme Ceci peut ecirctre calculeacute en prenant simplement le rapport de la 1egravere valeur propre sur la somme des valeurs propres

On peut noter que la norme de la 1egravere composante ne se deacutetache nettement que

lorsqursquoun son est preacutesent dans la bande consideacutereacutee On peut alors se demander si lrsquoeacutenergie doit ecirctre prise en compte ou si lrsquoinformation qursquoelle contient nrsquoest comprise dans le 2egraveme critegravere En fait la norme relative est un critegravere tregraves bruiteacute et consideacuterer lrsquoeacutenergie par ailleurs permet de nuancer ces artefacts et constitue une base solide de pondeacuteration

Chapitre 3 Description des analyses 28

80

40

0

Figure 37 - Repreacutesentation temps-freacutequence des angles du son deacutecrit en 332 Letrame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On peut donc v

par trame et par bande chacun eacutetant le reacutesultat drsquoune ACP crsquoest-agrave-dire la 1egravere

Figure 38 - Eacutenergie de ce mecircme son On peut voir une basse en notes tenues uneet une batterie qui produit des sons secs dans un spectre plus aigu

80

40

0

80

40

0

Figure 39 - Norme relative de la 1egravere composante de ce mecircme son Les impacts de batterie (dans lrsquoaigu) ressortent davantage

π 0 minusπ

numeacutero de oir un angle direction

voix aiguumle

34 Traitement des donneacutees 29

Figure 310 - Pondeacuteration appliqueacutee agrave lrsquoentreacutee des k-moyennes calculeacutee ici comme

le simple produit de lrsquoeacutenergie et de la norme relative

80

40

0

343 Lissages

Pour faire face au bruit ineacutevitable dans les reacutesultats il faut lisser les donneacutees Ces

lissages temporels correspondent agrave des hypothegraveses de stabiliteacute des sources qui sont supposeacutees ecirctre fixes ou mobiles relativement lentement (dans une mesure agrave parameacutetrer)

Un premier lissage peut ecirctre opeacutereacute avant le traitement par lrsquoalgorithme des k-

moyennes Le filtre choisi est un filtre meacutedian de maniegravere agrave eacuteliminer les points aberrants tout en conservant les vraies valeurs des points coheacuterents Ce lissage est appliqueacute sur chaque sous-bande aux angles et ne tient pas compte des critegraveres de pertinence Il est donc utiliseacute avec parcimonie et peut mecircme ecirctre eacuteviteacute en reacuteglant de maniegravere adeacutequate les critegraveres de pondeacuteration agrave lrsquoentreacutee des k-moyennes

Le deuxiegraveme lissage srsquoeffectue agrave lrsquoentreacutee des k-moyennes en mecircme temps que les

critegraveres de pondeacuteration Il consiste agrave appliquer les k-moyennes non pas sur une fenecirctre donneacutee mais sur plusieurs fenecirctres conseacutecutives anteacuterieures et posteacuterieures en donnant plus de poids agrave la fenecirctre courante Dans la pratique les poids donneacutes aux diffeacuterentes fenecirctres sont eacutetablis par une gaussienne centreacutee sur la fenecirctre courante et de largeur agrave deacuteterminer (en fonction notamment de la dureacutee drsquoune fenecirctre et du type de scegravene analyseacute)

35 Exploitation de toutes les composantes de lrsquoACP Les analyses preacutesenteacutees preacuteceacutedemment ont toutes exploiteacute uniquement la

composante principale extraite par lrsquoACP Or cette analyse fournit des informations plus complegravetes par lrsquointermeacutediaire des autres composantes dont on peut tirer parti pour isoler plusieurs sources au sein drsquoune mecircme bande Cette approche est toujours en deacuteveloppement dans ce stage et nrsquoa pas encore donneacute pleine mesure des reacutesultats qursquoelle laisse entrevoir

Les composantes de lrsquoACP indiquent des directions qui correspondent aux

diffeacuterentes sources composant la scegravene sonore Les vecteurs propres de la matrice de correacutelation donnent ainsi les combinaisons lineacuteaires des signaux HOA permettant de

Chapitre 3 Description des analyses 30

seacuteparer de la meilleure faccedilon possible ces sons Ces directions peuvent ecirctre alors utiliseacutees pour former des directiviteacutes isolant au mieux ces sources

aBS sdot= (31)

ougrave la matrice a contient les vecteurs propres de la matrice de correacutelation (voir Annexe C) le vecteur B contient les signaux HOA et le vecteur S contient les sources extraites

⎟⎟⎟

⎜⎜⎜

=⎟⎟⎟

⎜⎜⎜

⎛=

⎥⎥⎥

⎢⎢⎢

⎟⎟⎟

⎜⎜⎜

⎟⎟⎟

⎜⎜⎜

⎛=

10

1001

1

ML

N

B

BB

S

SSuua MML (32)

On obtient ainsi des lobes drsquoautant plus eacutetroits que lrsquoordre est eacuteleveacute chacun

dirigeacute vers une source et permettant de lrsquoisoler le plus possible des contributions des autres sources La Figure 311 preacutesente les directiviteacutes ainsi trouveacutees par une ACP en pleine bande Une analyse en sous-bande permet une plus grande distinction des sources mais une seacuteparation diffeacuterente entre les bandes est dangereuse car elle risque de dissocier spatialement plusieurs parties drsquoun mecircme son

Figure 311 - Directiviteacutes seacuteparant ideacutealement 4 sources placeacutees agrave 17 73 195 et -58deg

pour une scegravene virtuelle encodeacutee agrave lrsquoordre 4 Ce principe se heurte neacuteanmoins aux limites de seacuteparation lieacutees agrave lrsquoordre

drsquoencodage en effet 2 sources ne pourront pas ecirctre seacutepareacutees si elles sont trop proches comme en teacutemoigne la largeur des lobes principaux Les lobes secondaires traduisent eacutegalement un meacutelange des sources isoleacutees La figure ci-dessus montre ainsi que la source placeacutee agrave 17deg (en vert) sera preacutesente de maniegravere non neacutegligeable dans le signal senseacute contenir la source placeacutee agrave -58deg (en bleu) en raison du lobe secondaire bleu important

31

Chapitre 4

Reacutesultats et applications

41 Illustration et critique des reacutesultats obtenus

411 Avant-propos Sans notification particuliegravere les reacutesultats preacutesenteacutes ont eacuteteacute obtenus avec un pas

de 50 ms une analyse en 80 bandes avec une FFT sur 8192 points Une taille de FTT plus grande et un plus grand nombre de bande augmente la qualiteacute de lrsquoanalyse un pas plus petit ameacuteliore sa preacutecision temporelle mais les reacutesultats sont moins fiables et un lissage plus important srsquoimpose alors Ces paramegravetres ont eacuteteacute reacutegleacutes apregraves de multiples essais sur des scegravenes diverses

Les reacutesultats sont preacutesenteacutes ici uniquement sous la forme de graphiques nous ne

pouvons donc repreacutesenter que les angles trouveacutes agrave la sortie de lrsquoalgorithme des k-moyennes

412 Scegravene 2D artificielle agrave 4 sources fixes La premiegravere scegravene est une scegravene artificielle composeacutee de 4 sons fixes placeacutes agrave -70

-10 45 et 110deg Ces sons (une basse une voix une guitare et une batterie) ont eacuteteacute choisis pour leur varieacuteteacute spectrale et leur varieacuteteacute drsquoattaque Elle a en outre le meacuterite drsquoecirctre reacutealiste et de constituer une seacutequence musicale (chaque son nrsquoest pas une meacutelodie indeacutependante)

On voit sur la Figure 41 ci-dessous que les angles trouveacutes sont proches des

angles theacuteoriques Lrsquoun des sons (agrave 45deg) est quasiment nul avant la 100egraveme trame sa position est alors moins facile agrave deacuteterminer plus preacuteciseacutement une position approximative est trouveacutee et correspondrait exactement agrave la position du bruit (45deg) si lrsquoincertitude de mesure tregraves grande pour un son aussi faible ne rendait la deacutetermination si ardue On mesure un eacutecart-type de 22deg sur cet exemple (en excluant le deacutebut du son agrave 45deg)

Chapitre 4 Reacutesultats et applications 32

Figure 41 - Angles theacuteoriques (en pointilleacutes rouge) et calculeacutes (en trait bleu) pour une scegravene

constitueacutee de 4 sons fixes longue de 11s

413 Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile

Figure 42 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) de la scegravene agrave

4 sources dont 1 mobile deacutecrite en 332 Cette scegravene est deacutecrite en 332 On a ici demandeacute aux k-moyennes de renvoyer 5 barycentres par trame alors que

seules 4 sources eacutetaient preacutesentes dans le but de se garantir une marge vis-agrave-vis des erreurs de deacutetection Cette 5egraveme direction nrsquoest pas du tout gecircnante elle indique une direction qui ne contient pas de source et crsquoest donc un son tregraves faible qui est ainsi pointeacute Apregraves une eacuteventuelle extraction le signal ne sera donc pas du tout gecircnant

41 Illustration et critique des reacutesultats obtenus 33

On peut remarquer que quand le son mobile se rapproche drsquoun son fixe la deacutetection est moins bonne il y a une fusion entre les 2 sons Mais encore une fois lors de lrsquoextraction lrsquoisolation drsquoun des sons englobera lrsquoautre son ce qui ne posera pas de problegraveme pour les objectifs fixeacutes aucune source nrsquoeacutetant oublieacutee En effet la seacuteparation de sources nrsquoest pas un objectif ici mais un moyen pour preacuteciser les positions des sources ce qui sera fait correctement mecircme si 2 sources sont pointeacutees par 1 seule direction

414 Scegravene 3D artificielle agrave une source et bruit de fond

La scegravene dont la position drsquoune source a eacuteteacute extraite ci-dessous est une scegravene virtuelle en 3D constitueacute drsquoun son (une voix) qursquoon a fait se deacuteplacer par paliers tout drsquoabord vers le haut de 0deg agrave 45deg et vers la gauche de 0deg agrave 90deg puis redescendre jusqursquoagrave 35deg en continuant son cheminement vers la gauche jusqursquoagrave 120deg et enfin finir la descente de 35deg agrave 0deg en la laissant agrave 120deg Agrave cette source a eacuteteacute superposeacutee une ambiance spatialiseacutee de hall drsquoaeacuteroport initialement enregistreacutee en 2D (au format 51) mais transformeacutee pour contenir des composantes verticales Cette ambiance deacutecorreleacutee de la source avait pour but de tester la robustesse de lrsquoanalyse Elle eacutetait agrave 15 dB en-dessous du niveau de la voix

Figure 43 - Azimut et eacuteleacutevation theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun

son en 3D artificiel de 9s placeacute dans une ambiance bruyante On remarque que lrsquoanalyse est tregraves correcte Il nrsquoy a pas drsquoeacutecart important entre

les angles theacuteoriques et ceux calculeacutes On note toutefois que le lissage agrave lrsquoentreacutee des k-moyennes a pour effet de gommer les creacuteneaux et drsquoaplatir quelque peu la courbe drsquoeacuteleacutevation ceci nrsquoest pas vraiment gecircnant car de tels sauts dans la position drsquoune source ne sont pas du tout reacutealistes (ils peuvent caracteacuteriser des bruits de pas mais de tels impacts sont courts et on peut srsquoattendre agrave ce que la courbe suive leur position aux instants ougrave ils sont eacutemis)

Chapitre 4 Reacutesultats et applications 34

415 Scegravene 2D naturelle agrave une source Les scegravenes naturelles sont on lrsquoa vu plus deacutelicates agrave exploiter car on ne peut pas

garantir la preacutecision de la position theacuteorique agrave retrouver par le calcul et on ne peut donc pas calculer la preacutecision de lrsquoanalyse Seuls les enregistrements utilisant la table tournante (voir 232) permettent une mesure preacutecise de la position de lrsquoangle Ces enregistrements on pu confirmer la validiteacute de lrsquoanalyse pour des scegravenes reacuteelles on trouve ici un eacutecart-type de 25deg

Figure 44 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun bruit blanc

tournant autour du micro enregistreacute en chambre sourde Cette analyse a eacuteteacute reacutealiseacutee par sous-bandes mais sur une eacutetendue freacutequentielle

plus reacuteduite puisqursquoon srsquoest limiteacute aux possibiliteacutes offertes par le microphone La scegravene a donc eacuteteacute analyseacutee de 200 agrave 10 000 Hz

42 Quelques applications

421 Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre 2 agrave partir de lrsquoordre 1

Une fois les positions des sources connues la porte est ouverte agrave de nombreuses

applications La connaissance de ces positions permet en effet de syntheacutetiser artificiellement des composantes manquantes ou non transmises La premiegravere synthegravese deacuteveloppeacutee est celle des signaux U et V composant la partie horizontale de lrsquoordre 2 agrave partir de lrsquoordre 1 et de paramegravetres issus de lrsquoanalyse pour une source en 2D (des angles dans de cas)

42 Quelques applications 35

Figure 45 - Principe de lrsquoameacutelioration de la preacutecision spatiale

Le principe de la synthegravese est drsquoextraire les sources originales agrave partir de W X Y

et des angles (un angle par trame et par sous-bande) Ceci peut ecirctre reacutealiseacute de maniegravere approcheacutee en deacutecodant lrsquoordre 1 dans les directions des sources Ce deacutecodage revient agrave calculer les signaux qui devraient alimenter des haut-parleurs qui seraient placeacutes agrave ces positions dans le cas drsquoune restitution (voir 122) crsquoest-agrave-dire agrave former des directiviteacutes dans les directions des sources Dans la plupart des cas ce deacutecodage qui fait intervenir une pseudo-inversion de Moore-Penrose (111) est imparfait les sources se retrouvant leacutegegraverement meacutelangeacutees On peut comparer cette seacuteparation agrave celle que ferait un ensemble de microphones agrave directiviteacute hypercardioiumlde coiumlncidents

Figure 46 - Directiviteacutes eacutequivalentes agrave la seacuteparation de 4 sources agrave lrsquoordre 1 Ces sources seacutepareacutees vont ensuite constituer toujours placeacutees aux angles

deacutetermineacutes agrave lrsquoanalyse une scegravene virtuelle qursquoon va encoder agrave lrsquoordre 2 De cet encodage on ne conservera que les signaux manquants dans notre exemple les signaux du 2nd ordre U et V Ainsi la scegravene spatialiseacutee sera au final constitueacutee des signaux W X et Y drsquoorigine (transmis) et des signaux U et V syntheacutetiseacutes

Chapitre 4 Reacutesultats et applications 36

422 Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave partir de W Reconstruire une scegravene sonore spatialiseacutee agrave partir drsquoun unique canal mono est

alors difficile et le reacutesultat nrsquoest appreacuteciable que pour des scegravenes simples Il faut pour cela que les diffeacuterentes sources composant cette scegravene aient des supports spectraux aussi distincts que possible Les diffeacuterentes sous-bandes sont alors placeacutees agrave un certain angle transmis en parallegravele et crsquoest cette scegravene reconstitueacutee qui va ecirctre encodeacutee au 1er ordre de maniegravere agrave recreacuteer les signaux X et Y

Figure 47 - Principe de la restitution de lrsquoordre 1 agrave partir du signal mono W Ce scheacutema rappelle une meacutethode deacuteveloppeacutee dans le cas steacutereacuteo appeleacutee BCC

(Binaural Cue Coding) [Faller and Baumgarte 2002] Le principe est drsquoextraire et coder des informations permettant la reconstruction binaurale drsquoun signal agrave savoir les diffeacuterences interaurales drsquointensiteacute et de temps (Interaural LevelTime Difference ILD et ITD) qui correspondent dans le cas drsquoune restitution sur un casque aux diffeacuterences drsquointensiteacute et de temps inter-canal (Inter-Channel LevelTime Difference ICLD et ICTD) qui sont mesureacutees agrave partir drsquoune analyse en sous-bandes Les auteurs y ont plus reacutecemment associeacute un indice de correacutelation interaurale mesureacute agrave partir de la correacutelation inter-canal (ICC) afin de caracteacuteriser la preacutecision spatiale (la ldquolargeurrdquo drsquoune source)

Figure 48 - Scheacutema de principe de la meacutethode BCC [Faller and Baumgarte 2003]

On observe en pratique des deacutefauts lieacutes agrave la brutaliteacute de la proceacutedure une sous-

bande ne peut ecirctre que placeacutee agrave la position indiqueacutee et ne peut pas rester floue diffuse ou encore ecirctre placeacutee agrave plusieurs endroits Pour y remeacutedier nous avons ajouteacute 2 traitements agrave la synthegravese Tour drsquoabord nous avons appliqueacute un leacuteger lissage soulageant les effets deacutesagreacuteables dus au saut du contenu drsquoune sous-bande drsquoun endroit agrave un autre entre de 2 fenecirctres conseacutecutives Les positions varient alors de faccedilon plus souple au sein drsquoune mecircme sous-bande traduisant une hypothegravese de continuiteacute spatiale (pas de deacuteplacement brusque) La contrepartie est que cette hypothegravese est lieacutee agrave une hypothegravese de continuiteacute spectrale

42 Quelques applications 37

La 2egraveme ameacutelioration concerne le positionnement des sources En incluant dans la transmission un critegravere de pertinence on peut savoir srsquoil est raisonnable de placer une sous-bande agrave un angle preacutecis ou bien si lrsquoanalyse eacutetait flou agrave son sujet auquel cas un positionnement impreacutecis serait preacutefeacuterable Le paramegravetre choisi est une combinaison des critegraveres eacutevoqueacutes en 342 il nous permet de placer la sous-bande de maniegravere plus ou moins prononceacutee

43 Comparaison avec une meacutethode existante Certains auteurs ont deacutejagrave essayeacute drsquoanalyser un contenu ambisonique pour

retrouver les positions des sources Ville Pulkki a ainsi deacutecrit dans [Pulkki and Faller 2006] une meacutethode drsquoanalyse du B-format baseacutee sur lrsquoeacutetude des amplitudes des signaux W X Y et Z

Figure 49 - X et Y dans le cas drsquoune sinusoiumlde placeacutee agrave 15deg (agrave gauche) et 120deg (agrave droite)

Les figures ci-dessus montrent les relations drsquoamplitudes (algeacutebriques) qui relient

X et Y agrave lrsquoangle de la source On voit que lrsquoanalyse de ces amplitudes respectives permet de retrouver la position de la source en effet on a pour une source unique les relations de lrsquoeacutequation (11) rappeleacutee ici

⎪⎪

⎪⎪

=

=

=

=

δ

δθ

δθ

sin2

cossin2

coscos2

SZ

SY

SX

SW

(41)

On peut donc theacuteoriquement retrouver les valeurs de θ et δ par relations

trigonomeacutetriques Ainsi on a

⎪⎪⎩

⎪⎪⎨

=

=

2)sin(

)tan(

WZ

XY

δ

θ (42)

Chapitre 4 Reacutesultats et applications 38

On peut donc trouver les angles θ et δ agrave π pregraves Pour lever lrsquoambiguiumlteacute une eacutetude de signe est neacutecessaire Mais dans le cas de θ le signe de X et de Y agrave δ fixeacute deacutepend aussi bien de θ que S Il faut srsquointeacuteresser aux signes de θcos et θsin crsquoest-agrave-dire

aux signes de WX et

WY Dans la pratique on srsquointeacuteressera aux signes de et

pour se preacutevenir des divisions par zeacuteros

XW sdot YW sdot

XW sdot et YW sdot sont proportionnels agrave toujours positif

2S

Les auteurs deacutecrivent eacutegalement dans leur article un critegravere appeleacute diffuseness qui

peut ecirctre compareacute agrave un critegravere de pertinence inverseacute Ce paramegravetre calculeacute par agrave 1 - R ougrave R est un rapport de normes est tregraves proche du critegravere de norme relative deacutecrit en 342 Il peut donc ecirctre utiliseacute de la mecircme faccedilon et permettre ainsi une pleine comparaison

Cette meacutethode a eacuteteacute impleacutementeacutee pour pouvoir ecirctre compareacutee avec la meacutethode

par ACP Tous les paramegravetres ont scrupuleusement eacuteteacute gardeacutes identiques et plusieurs reacuteglages ont eacuteteacute testeacutes Les courbes ci-dessous preacutesentent les reacutesultats des analyses de la scegravene deacutecrite en 332 avec un pas de 50ms un overlap de 50 un NFFT de 2048 et 40 bandes freacutequentielles Nous avons repreacutesenteacute tous les angles trouveacutes crsquoest-agrave-dire un par bande et par trame pour srsquoaffranchir de la seacutelection des k-moyennes

π

0

minusπ

Figure 410 - Angles trouveacutes par lrsquoalgorithme de [Pulkki and Faller 2006] Le diamegravetre du point correspondant agrave la pertinence

43 Comparaison avec une meacutethode existante 39

π

0

minusπ

Figure 411 - Angles trouveacutes par une ACP pour la mecircme scegravene On remarque que les points excentriques sont moins nombreux et plus rarement trouveacutes comme pertinents

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee

441 Position du problegraveme

Une application directe de ces analyses a eacuteteacute deacuteveloppeacutee pour la confeacuterence audio

spatialiseacutee La confeacuterence audio utilise en effet la spatialisation pour permettre une meilleure seacuteparation par lrsquooreille des diffeacuterents locuteurs Ainsi si plusieurs personnes parlent en mecircme temps il sera tregraves difficile de comprendre chacun individuellement si ces voix sont restitueacutees en mono mais on pourra focaliser lrsquoattention sur chacune drsquoentre elles si elles sont seacutepareacutees spatialement (crsquoest lrsquoeffet cocktail party [Cherry 1953])

Lrsquoobjectif eacutetait de veacuterifier qursquoil eacutetait possible de conserver la spatialisation drsquoune

confeacuterence en nrsquoayant transmis qursquoun downmix mono des signaux Ce concept semble se rapprocher de celui deacutecrit en 422 mais une diffeacuterence fondamentale les seacutepare la confeacuterence audio spatialiseacutee nrsquoest pas codeacutee au format ambisonic mais les signaux traiteacutes sont directement les sons provenant des diffeacuterents locuteurs crsquoest-agrave-dire les sources elles-mecircmes Ainsi lrsquoanalyse ne porte plus sur une scegravene spatialiseacutee mais sur des signaux seacutepareacutes Il nrsquoy a ainsi plus drsquoindices spatiaux agrave trouver

Avoir accegraves aux sources permet drsquoobtenir des informations plus preacutecises pour

permettre une seacuteparation apregraves la transmission Comme nous lrsquoavons vu lrsquoanalyse drsquoune scegravene spatialiseacutee ne permet que dans drsquoultimes cas agrave la seacuteparation des sources ce qui est ici notre point de deacutepart et sera en fait notre point drsquoarriveacutee En effet nous tenterons de retrouver les sources seacutepareacutees apregraves la transmission de maniegravere agrave pouvoir par la suite les spatialiser agrave loisir (voir Figure 413)

Chapitre 4 Reacutesultats et applications 40

442 Solution proposeacutee Les paramegravetres extraits ne sont donc plus des positions de sources Nous avons

choisi de mesurer puis transmettre lrsquoeacutenergie de chaque signal dans chaque sous-bande en parallegravele du downmix En effet une bonne seacuteparation sera possible si lrsquoon sait quelle proportion de chaque source compose chaque sous-bande du signal mono

Figure 412 - Scheacutema de principe drsquoune confeacuterence audio spatialiseacutee

Figure 413 - Scheacutema ameacutelioreacute (deacutebit reacuteduit)

en pointilleacutes informations compleacutementaires (eacutenergie) Lrsquoanalyse en sous-bandes a lieu dans le serveur (Figure 414) Celui-ci calcule

lrsquoeacutenergie de chaque signal dans chaque sous-bande sur une trame donneacutee Crsquoest ce paramegravetre qui associeacute au signal mono M permettra la seacuteparation des sources dans le terminal (Figure 415) Ce dernier reacutepartira en effet les diffeacuterentes sous-bandes vers chaque signal reconstitueacute proportionnellement agrave cette information pour reconstruire les 4 sources originales

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee 41

Figure 414 - Analyse principe de lrsquoencodage dans le serveur

Figure 415 - Synthegravese principe du deacutecodage dans le client

Afin de reacuteduire au maximum les informations compleacutementaires agrave transmettre on

peut remarquer qursquoau cours drsquoune confeacuterence audio on a tregraves souvent un seul locuteur les participants ne parlent que tregraves rarement tous en mecircme temps Ceci implique que les signaux en entreacutee sont tregraves souvent tous nuls sauf 1 et appliquer un seuil en entreacutee de lrsquoanalyse permet outre lrsquoallegravegement du traitement drsquoavoir moins de paramegravetres agrave transmettre

Ce scheacutema simplifieacute ne tient pas compte des problegravemes de phase rien nrsquoindique

que les eacutenergies des signaux srsquoajoutent bien dans chaque sous-bande lors du downmix on peut tregraves bien avoir des oppositions de phase La solution est drsquoeffectuer le downmix (la somme) des signaux dans chaque sous-bande en prenant soin drsquoavoir recaleacute les phases au preacutealable Ceci nrsquoa un sens que pour des bandes suffisamment eacutetroites Les deacutecalages temporels appliqueacutes pour le recalage sont alors des paramegravetres suppleacutementaires agrave transmettre et sont pris en compte lors de la synthegravese au niveau du reacutepartiteur qui repositionnera la phase de chaque trame pour chaque signal

Chapitre 4 Reacutesultats et applications 42

443 Bilan Le reacutesultat du deacutecodage a pu ecirctre eacutecouteacute de diffeacuterentes maniegraveres les sources

reconstitueacutees individuellement ensemble en steacutereacuteo drsquoamplitude et sur un systegraveme 51 On note que les sources ont eacuteteacute assez bien seacutepareacutees mais que des artefacts sont audibles en particulier lorsque le nombre de locuteurs simultaneacutes augmentent Ces artefacts sont un meacutelange des voix qui nrsquoest gecircnant que lorsqursquoon les eacutecoute de maniegravere seacutepareacutee En effet lrsquoeacutecoute simultaneacutee de ces signaux syntheacutetiseacutes mecircme placeacutes agrave des positions distinctes sur un systegraveme de diffusion multicanal est tout agrave fait satisfaisante

Ce proceacutedeacute pour pouvoir ecirctre appliqueacute doit fonctionner en temps-reacuteel Cette

contrainte nrsquoa pas du tout eacuteteacute prise en compte lrsquoobjectif eacutetant de valider la faisabiliteacute drsquoune reconstruction Les programmes sous Matlab nrsquoont pas eacuteteacute optimiseacutes et ne respectent pas cette contrainte

43

Conclusion Nous avons preacutesenteacute dans ce rapport le principe et lrsquoapplication de plusieurs

meacutethodes drsquoanalyses spatiales de scegravenes ambisoniques conccedilues et reacutealiseacutee pendant le stage Le format HOA est en effet une repreacutesentation du champ acoustique deacutecomposeacute sur une base drsquoharmoniques spheacuteriques jusqursquoagrave un certain ordre agrave la maniegravere drsquoun deacuteveloppement limiteacute Il contient donc de maniegravere indirecte des indications spatiales qursquoon peut extraire avec des analyses comme lrsquoanalyse en composantes principales

Ces analyses nous permettent de deacuteterminer les positions des sources qui

composent la scegravene sonore Nous avons appliqueacute les reacutesultats de ces analyses agrave 2 types de synthegravese lrsquoune destineacutee aux transmissions bas deacutebit lrsquoautre agrave un traitement de restitution de la preacutecision spatiale dans le cas ougrave des ordres supeacuterieurs dont le but est drsquoaffiner la perception de localisation nrsquoauraient pas pu ecirctre transmis Ces algorithmes par le codage drsquoinformations spatiales qursquoils permettent pourront trouver bien drsquoautres applications dans la transmission et le codage ougrave la description du contenu est de plus en plus utiliseacutee (comme par exemple dans la norme MPEG)

Des ameacuteliorations sont possibles sur plusieurs points tout drsquoabord lrsquoexploitation

de toutes les composantes de lrsquoACP est agrave lrsquoeacutetude et semble pouvoir donner des reacutesultats inteacuteressants Drsquoautre part on a vu que le reacutesultat final est tregraves deacutependant de la bonne convergence de lrsquoalgorithme des k-moyennes utiliseacute pour traiter les donneacutees brutes de lrsquoanalyse en sous-bandes Or cet algorithme neacutecessite des reacuteglages tregraves fins et une connaissance a priori du nombre de sources est presque indispensable Drsquoautres algorithmes plus complexes de suivi de formes pourraient ecirctre avantageusement utiliseacutes pour deacutetecter dans tous les angles trouveacutes lesquels sont susceptibles de former une trajectoire

45

Annexe A

Deacuteveloppement du champ acoustique en harmoniques spheacuteriques

A1 Eacutequation drsquoonde en coordonneacutees spheacuteriques On se place dans lrsquoespace euclidien agrave 3 dimensions muni drsquoun systegraveme de

coordonneacutees spheacuteriques Un point M y est repeacutereacute par son rayon r son azimut θ et son eacuteleacutevation δ tels que repreacutesenteacutes sur la figure ci-dessous

- r est la norme du vecteur position rr crsquoest-agrave-dire la distance OM - [20[ πθ isin est lrsquoangle formeacute par le projeteacute du point sur le plan xOy et lrsquoaxe Ox

- ]2

2

[ ππδ minusisin est lrsquoangle formeacute par le plan xOy et le vecteur position2

Figure A1 - Systegraveme de coordonneacutees spheacuteriques

2 Cet angle diffegravere de lrsquoangle polaire usuel δπϕ minus=

2 habituellement pris entre lrsquoaxe Oz et le

vecteur position

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 46

Les relations entre les coordonneacutees spheacuteriques et les coordonneacutees carteacutesiennes sont

⎪⎩

⎪⎨

===

δδθδθ

sincossincoscos

zryrx

(A1)

On srsquointeacuteresse dans ce repegravere agrave lrsquoeacutequation de propagation des ondes acoustiques

de pression On se place dans les conditions classiques drsquoacoustique lineacuteaire (les variations de p sont petites par rapport agrave la pression atmospheacuterique) en supposant que lrsquoair est un fluide parfait (on y neacutegligera les pheacutenomegravenes dissipatifs) Dans une reacutegion de lrsquoespace ne comprenant pas de sources lrsquoeacutequation drsquoonde srsquoeacutecrit alors

0)(12

2

2 =⎟⎟⎠

⎞⎜⎜⎝

⎛partpart

minus∆ trptc

r (A2)

p eacutetant la pression et c la vitesse de propagation du son dans lrsquoair

Cette eacutequation devient dans le domaine freacutequentiel lrsquoeacutequation de Helmholtz

( ) 0)(2 =+∆ ωrpk r (A3)

ck ω

= eacutetant le nombre drsquoonde

En coordonneacutees spheacuteriques cette eacutequation srsquoeacutecrit

0sin1sin

sin11 2

2

2

222

2 =⎥⎦

⎤⎢⎣

⎡+

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart pk

rrrr

rr δθθθ

θθ (A4)

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques Drsquoapregraves [Bruneau 1983] elle admet des solutions agrave variables seacutepareacutees de la forme

)()()( δθ ΦΘ= rRp (A5) Ces solutions sont respectivement - pour la partie radiale une combinaison des fonctions de Bessel spheacuteriques de

premiegravere et seconde espegravece3 jn et nn

)()()( krBnkrAjrR nn += (A6) 3 Les fonctions de Bessel spheacuteriques de seconde espegravece sont eacutegalement appeleacutees fonctions de

Neumann

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 47

Ces fonctions sont deacutefinies comme suit

(A7)

Figure A2 - Fonctions de Bessel spheacuteriques pour les ordres 0 agrave 5 )(krjm

- pour la partie azimutale les fonctions )(θΘ

)sin()cos()( 21 θθθ ncnc +=Θ (A8) Eacutetant donneacute la deacutefinition de lrsquoangle Θ celui-ci doit neacutecessairement ecirctre de

peacuteriode 2π ))2()(( πθθ +Θ=Θ ce qui impose agrave n drsquoecirctre entier

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 48

- pour la partie polaire les fonctions de Legendre associeacutees )(sinδmnP

nm

nn

mn dPdP

)(sin)(sinsin)(sin

δδ

δδ = pour ⎩⎨⎧

gt=

nmavecnm 321

(A9)

ougrave les )(sinδnP sont les polynocircmes de Legendre de degreacute n en δsin deacutefinis par reacutecurrence

( )

11

22

1

0

sin)12()(sin)1(

1cos321)(sin

sin)(sin0)(sin

minus+ minus+=+

minus=

==

mmm mPPmPmet

P

PP

δδ

ϕδ

δδδ

(A10)

et de formule geacuteneacuterale

mm

m

mm dd

mP )1(sin

)(sin21)(sin 2 minus= δ

δδ (A11)

On peut appliquer aux fonctions )(sinδmnP la semi-normalisation de Schmidt

)(sin)()()(sin~ δεδ mnnmn P

nmnmP

+minus

= ougrave 10 =ε et 2=nε pour 1gen (A12)

En appariant les fonctions polaires et azimutales on deacutefinit les harmoniques

spheacuteriques de degreacute et drsquoordre)1(mnY 0gem 4 mnn lele0 et de degreacute et

drsquoordre (voir Figure A3)

)1(minusmnY 1gem

mnn lele1

)(sin~)sin()(

)(sin~)cos()()1(

)1(

δθδθ

δθδθ

mnmn

mnmn

PnY

PnY

=

=minus

(A13)

4 En geacuteneacuteral lorsque le degreacute et lrsquoordre ne sont pas eacutevoqueacutes conjointement on parle par abus de langage drsquoharmoniques drsquoordre m plutocirct que de degreacute m

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 49

soit

1)(sin

)()()12(2sin)(

)(sin)()()12(2cos)(

1)(sin)1()1()12(cos)(

)1(

)1(

1)1(

1

gt

⎪⎪⎩

⎪⎪⎨

+minus

+=

+minus

+=

=+minus

+=

minus

npourP

nmnmmnY

PnmnmmnY

npourPmmmY

mnmn

mnmn

mm

δθδθ

δθδθ

δθδθ

(A14)

La solution angulaire geacuteneacuterale srsquoeacutecrit alors sous la forme drsquoun deacuteveloppement sur

la base drsquoharmoniques spheacuteriques

( ) ( )sum minus

=minus+=Θ

1

1)1()1()( n

m mnmnmnmnn YBYBθ (A15) La solution geacuteneacuterale est alors la seacuterie de Fourier-Bessel

sum sum sum+infin

= = plusmn=

=0 0 1

)()( )()()(m

m

nmnmnm

m YBkrjikrpσ

σσ δθδθ (A16)

ougrave

intint⎪⎩

⎪⎨⎧

minusisin

isin

plusmnplusmn =

]2

2

[

[20[

)1()1( )()1()(

1

ππδ

πθ

δθδθ

S

mnm

mmn dSYpkrji

B (A17)

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 50

Tableau A1 - Expressions analytiques des harmoniques spheacuteriques pour les ordres 0 agrave 3

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 51

Figure A3 - Repreacutesentation des harmoniques spheacuteriques pour les ordres m = 0 agrave 3 Les

couleurs rouge et bleu indiquent respectivement des valeurs positives et neacutegatives

53

Annexe B

Compleacutements theacuteoriques sur le deacutecodage HOA

B1 Vecteur veacutelociteacute et vecteur eacutenergie Le vecteur veacutelociteacute est un indice de la direction apparente drsquoune source introduit

par Gerzon [Gerzon 1992] Il se calcule comme le rapport de la vitesse particulaire sur la pression acoustique

)()(

)()(1

δθδθ

δθδθ

ρ rprp

ki

rprv

cV nabla

minus=minus=rrr

(B1)

Dans le cas drsquoune onde plane le vecteur veacutelociteacute V

rest ainsi directement un

vecteur unitaire orienteacute vers la direction de provenance de lrsquoonde En geacuteneacuteralisant agrave une superposition drsquoondes planes en phase ou opposition de phase eacutemises par L haut-parleurs agrave eacutequidistance du point drsquoobservation on obtient la formule suivante

VVL

ll

L

lll

urg

ugV r

rr

==

sum

sum

=

=

1

1 (B2)

ougrave deacutesigne la direction du llur egraveme haut-parleur auquel est associeacute le gain gl et Vr Vur correspondent respectivement agrave la norme et agrave la direction du vecteur veacutelociteacute

Le vecteur eacutenergie est un autre indice de direction Il est deacutefinit par

EEL

ll

L

lll

urg

ugE r

rr

==

sum

sum

=

=

1

2

1

2

(B3)

Annexe B Compleacutements theacuteoriques sur le deacutecodage HOA 54

Il peut srsquointerpreacuteter comme une indication de la concentration de lrsquoeacutenergie ( ) et de sa direction moyenne de provenance (

Er

Eur ) On a toujours 1ltEr sauf dans le cas ougrave un seul haut-parleur contribue agrave la reconstruction (dans ce cas ) peut ecirctre consideacutereacute comme un indicateur de preacutecision de la localisation

1=Er Er

B2 Deacutecodages optimiseacutes La restitution la plus confortable drsquoun champ sonore veillera donc agrave maximiser

tout en essayant de garder le plus proche possible de 1 Lrsquooptimisation du deacutecodage consiste alors agrave multiplier chaque coefficient de la matrice de deacutecodage D (voir (111) par des gains calculeacutes drsquoapregraves des critegraveres drsquooptimisation

Er Vr

Ainsi le deacutecodage appeleacute max- maximise la norme du vecteur eacutenergie en

sacrifiant celle du vecteur veacutelociteacute puisqursquoon a dans ce deacutecodage (pour des configurations reacuteguliegraveres de haut-parleurs) Ce deacutecodage est donc avantageux par rapport au deacutecodage basique pour les hautes freacutequences ou dans le cas drsquoun auditoire eacutelargi Le deacutecodage in-phase va encore plus loin en cherchant agrave annuler complegravetement les contributions des haut-parleurs placeacutes agrave lrsquoopposeacute de la direction de provenance de lrsquoonde reproduite Ce critegravere est utile dans le cas drsquoune eacutecoute dans une position tregraves excentreacutee agrave laquelle on pourrait percevoir de faccedilon preacutedominante la contribution en opposition de phase drsquoun tel haut-parleur

Er

EV rr =

Ces diffeacuterents deacutecodages ont chacun des avantages et inconveacutenients Ainsi seul le

deacutecodage basique garantit = 1 le deacutecodage max- permet une preacutecision meilleure notamment en haute freacutequence et le deacutecodage in-phase est plus adapteacute agrave un auditoire plus large Jeacuterocircme Daniel [Daniel 2000] propose ainsi de changer le deacutecodage en fonction de la freacutequence et de lrsquoeacutetendue de la zone drsquoeacutecoute deacutesireacutee

Vr Er

Figure B1 - Deacutecodages les plus approprieacutes par sous-bande et en fonction de lrsquoeacutetendue de la

zone drsquoeacutecoute [Daniel 2000]

55

Annexe C

Analyse en composantes principales

C1 Espace des donneacutees Eacutegalement souvent appeleacutee transformeacutee de Karhunen-Loegraveve5 (TKL) lrsquoanalyse en

composantes principales (ACP) est une technique statistique de repreacutesentation drsquoinformation Introduite sur 2 variables par Pearson [Pearson 1900] elle a eacuteteacute eacutetendue par Hotelling [Hotelling 1933] Elle a pour but de caracteacuteriser des donneacutees drsquoun espace agrave N dimensions dans un sous-espace plus petit en minimisant les pertes drsquoinformation due agrave la projection crsquoest-agrave-dire en maximisant la variance projeteacutee Les donneacutees ainsi reacuteorganiseacutees deviennent indeacutependantes Les variables correacuteleacutees sont remplaceacutees par de nouvelles variables deacutecorreacuteleacutees et de variance maximale combinaisons lineacuteaires des variables initiales

Les donneacutees sont constitueacutees de n variables aleacuteatoires (dans notre cas des canaux)

et p reacutealisations ou individus (des eacutechantillons)

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

pn

p

ji

n

xx

x

xx

M

LLL

MOMNM

MLLM

MNMOM

LLL

1

111

(C1)

Ces donneacutees sont geacuteneacuteralement centreacutees et peuvent aussi ecirctre reacuteduites4 (on note

1x la moyenne de la variable et 1x )( 1xσ sa variance) Reacuteduire ou non le nuage de points (ie les p reacutealisations de la variable aleacuteatoire) est un choix de modegravele

5 Quelques rares sources mentionnent une diffeacuterence entre ACP et TKL en placcedilant celle-ci au

niveau du choix de la reacuteduction des donneacutees dans le cas dune ACP les donneacutees seraient centreacutees et reacuteduites alors qursquoelles seraient uniquement centreacutees pour une TKL

Annexe C Analyse en composantes principales 56

- si on ne reacuteduit pas le nuage une variable agrave forte variance pourrait tirer tout lrsquoeffet de lrsquoACP agrave elle

- si on reacuteduit le nuage une variable qui ne serait qursquoun bruit se retrouverait avec une variance apparente eacutegale agrave une variable informative

M est centreacutee

⎥⎥⎥

⎢⎢⎢

minusminusminus

minusminus=

npn

pi

ji

nn

xxxxxx

xxxxM

K

MM

K

11

11

11

ˆ (C2)

M~ est centreacutee et reacuteduite

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

minusminus

minus

minusminus

=

)()(

)(

)()(~

1

11

1

1

111

n

npn

pi

ij

i

n

nn

xxx

xxx

xxx

xxx

xxx

M

σσ

σ

σσ

K

MM

K

(C3)

On multiplie ensuite la matrice obtenue par sa transposeacutee pour obtenir - La matrice de covariance MMC t

vˆˆ sdot=

- La matrice de correacutelation MMC tr

~~ sdot= Ces matrices sont carreacutees (N x N) symeacutetriques et reacuteelles Elles sont donc

diagonalisables dans une base orthonormeacutee 6 Le principe de lrsquoACP est alors de trouver un axe u issu drsquoune combinaison lineacuteaire

des tel que le critegravere drsquoinertie du nuage autour de cet axe soit maximal Le critegravere drsquoinertie couramment utiliseacute est la variance Il faut donc trouver lrsquoaxe qui porte le maximum de variance crsquoest-agrave-dire lrsquoaxe u tel que la projection du nuage sur cet axe ait une variance maximale

nx

6 Nos donneacutees eacutetant ici des valeurs drsquoeacutechantillons elles sont par nature centreacutees et reacuteduites On

formera donc naturellement la matrice de correacutelation

C2 Diagonalisation 57

C2 Diagonalisation Pour alleacuteger lrsquoeacutecriture de la suite de cette partie nous consideacutererons que les

variables ont eacuteteacute centreacutees et si besoin reacuteduites et nous noterons ces variables

transformeacutees (ainsi

ix ix

iii xxx minuslarr ou bien )( i

iii x

xxxσ

minuslarr ) On fera de mecircme pour M

( ou bien MM ˆlarr MM ~larr ) et C ( vCC larr ou bien rCC larr ) La projection drsquoun eacutechantillon sur un axe u srsquoeacutecrit ix

uMxiu sdot=)(π (C4) La variance empirique de )( iu xπ vaut donc

uMMuxx ttiu

tiu sdotsdotsdot=sdot )()( ππ (C5)

Or on a vu que est diagonalisable dans une base orthonormeacutee donc

on peut noter P le changement de base associeacute et ∆ la matrice diagonale formeacutee de son spectre Ainsi

MMC t=

n

i 1)(λ PPMMC tt ∆==

)()()()( PuPuuPPuxx ttt

iut

iu sdot∆sdot=sdot∆sdot=sdotππ (C6) On pose v = Pu Chercher lrsquoaxe u qui maximise )( iu xπ revient donc agrave chercher le

vecteur v qui maximise ougravevvt ∆ )( 1 ndiag λλ K=∆ avec les iλ rangeacutes par ordre deacutecroissant Ce vecteur est trivialement le premier vecteur unitaire et on a alors

1λ=∆vvt

Ainsi le vecteur qui porte la plus grande part drsquoinertie du nuage est le premier

vecteur propre de C (premier par norme deacutecroissante) De mecircme le deuxiegraveme vecteur qui explique la plus grandelt part de lrsquoinertie restante est le deuxiegraveme vecteur propre de C Finalement la question de lrsquoACP se ramegravene agrave un problegraveme de diagonalisation de la matrice de correacutelation

C3 Code Matlab

function [vep vap] = pca(f N) f donneacutees N nombre de composantes agrave garder cor = f f formation de la matrice de correacutelation [vep vap] = eig(cor) calcul des vecteurs (vep) et valeurs (vap) propres [vap ind] = sort(diag(vap)) tri des valeurs propres par ordre croissant vap = flipud(vap) disposition inverse par ordre drsquoimportance vep = vep( flipud(ind)) classement en conseacutequence des vecteurs propres vep = vep( 1N) on ne garde que les N premiers vecteurs propres

Annexe C Analyse en composantes principales 58

59

Annexe D

Analyse en sous-bandes

D1 La transformeacutee de Fourier agrave court terme (TFCT) Pour affiner lrsquoanalyse les signaux sont donc deacutecoupeacutes en bandes de freacutequence par

TFCT La TFCT consiste agrave effectuer des transformeacutees de Fourier discregravetes sur des portions de signal fenecirctreacutees reacuteguliegraverement espaceacutees

On rappelle que la transformeacutee de Fourier drsquoun signal x(t) est deacutefinie (lorsque

lrsquointeacutegrale existe) par

int+infin

infinminus

minus= dtetxfX ftiπ2)()( (D1)

La transformeacutee de Fourier agrave temps discret (TFTD) drsquoun signal x(t) srsquoeacutecrit

sum+infin

minusinfin=

minus=n

fnienxfX π2)()( (D2)

La transformeacutee de Fourier discregravete (TFD) drsquoun signal discret x(k) est deacutefinie par

sum+infin

minusinfin=

minus=

n

Nkni

enxkXπ2

)()( (D3)

La TFCT discregravete est une TFD observeacutee sur une fenecirctre wa de taille N

summinus

=

minus+=

1

0

2)())(()(

N

n

Nnki

aaa enwtnxkXπ

ττ (D4)

ougrave )(taτ est lrsquoinstant drsquoanalyse

Annexe D Analyse en sous-bandes 60

Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT [Laroche 1995]

D2 Synthegravese par addition-recouvrement Lors de la synthegravese apregraves le deacutecoupage et lrsquoanalyse des fenecirctres on cherche agrave

reconstruire le signal temporel agrave partir de sa repreacutesentation freacutequentielle Pour cela on utilise la meacutethode OLA (overlap and add addition-recouvrement) qui consiste agrave prendre la TFCT inverse des spectres Xt puis agrave additionner les signaux obtenus apregraves les avoir multiplieacutes par une fenecirctre de pondeacuteration en les faisant se recouvrir partiellement

Le reacutesultat est donneacute par

sum=

minusminus=T

tsss tnxtnwnx

s1

))((~))(()(~ ττ τ (D5)

avec )()( tt as ττ = et summinus

=

=1

0

2))((~1)(~ N

k

Nkni

s ektXN

nxs

π

τ τ

Lors de la mise en œuvre de ce traitement il faut srsquoassurer drsquoecirctre en mesure de

reconstruire parfaitement un signal lorsqursquoaucune transformation ne lui est appliqueacutee Le critegravere de reconstruction parfaite condition suffisante est alors

sum=

=minusminusT

tasaa tnwtnw

11))(())(( ττ quelque soit n (D6)

D2 Synthegravese par addition-recouvrement 61

Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add [Laroche 1995]

Plusieurs paramegravetres sont agrave choisir avec soin Le premier drsquoentre eux est le type

de fenecirctre agrave utiliser Les diffeacuterentes options qui se preacutesentent agrave nous sont - la fenecirctre rectangulaire qui preacutesente dans son spectre le lobe principal le plus

eacutetroit mais des lobes secondaires non neacutegligeables - la fenecirctre de Hamming au lobe principal un peu plus large mais pour laquelle le

1er lobe secondaire se situe agrave -43 dB - la fenecirctre de Hann (ou cosinus sureacuteleveacute) qui ressemble agrave la preacuteceacutedente avec un

1er lobe secondaire plus fort mais une pente de 18 dB par octave pour les lobes suivants

- les fenecirctres de Blackman-Harris aux lobes secondaires tregraves bas mais au lobe principal plus large

Fenecirctre Lobe 2aire

(dB) Pente

(dBoct) Bande passante

agrave 6 dB (bins) Rectangulaire -13 -6 121 Triangulaire -27 -12 178

Hann -32 -18 200 Hamming -43 -6 181

Blackman-Harris 4 -92 -6 272

Tableau D1 - Caracteacuteristiques des principales fenecirctres drsquoanalyse [Harris 1978] Le meilleur compromis est donc dans notre contexte la fenecirctre de Hann ou celle

de Hamming

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 14: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

Chapitre 1 Ambisonics 8

ordre notations eacutecriture 0 W 1

00B 1

X 111B θcos2

1 Y 1

11minusB θsin2

U 122B )2cos(2 θ

2 V 1

22minusB )2sin(2 θ

- 1mmB )cos(2 θm

m - 1minus

mmB )sin(2 θm Tableau 11 - Fonctions drsquoencodage ambisonique dans le plan horizontal

avec la convention de normalisation associeacutee (N2D) La figure suivante illustre lrsquoencodage spatial aux ordres 0 1 et 2 de 2 sources

placeacutees aux angles vθ et vθ dans le plan horizontal

ordres 0 et 1 ordre 2

Figure 15 - Encodage horizontal [Moreau et al 2006] Le coefficient (gain) appliqueacute agrave

chaque composante de chacune des 2 sources est donneacute par les intersections des flegraveches et des diagrammes des harmoniques

Comme on peut le voir sur cette figure un encodage au 1er ordre offre une

discrimination angulaire peu appuyeacutee alors que les 2 sources pourtant proches auront des coefficients tregraves diffeacuterents agrave lrsquoordre 2 (les points drsquointersection sont plus eacuteloigneacutes)

122 Deacutecodage spatial Lrsquoobjectif du deacutecodage est de restituer au mieux sur un systegraveme de diffusion

donneacute le champ sonore HOA Il faut ainsi calculer les signaux Sl agrave diffuser sur L haut-parleurs en fonction des composantes ambisoniques Ces σ

mnB L haut-parleurs peuvent ecirctre disposeacutes dans le plan horizontal ou dans un espace tridimensionnel Les deacutecodages les plus courants srsquoeffectuent sur une demi-sphegravere (cas 3D) ou un cercle (cas 2D) de

12 Encodage et deacutecodage spatial 9

haut-parleurs Crsquoest une opeacuteration matricielle qursquoon peut formaliser dans le cas drsquoun deacutecodage dans le plan horizontal par lrsquoeacutequation

BSC =sdot (18)

ougrave la matrice C contient les vecteurs harmoniques spheacuteriques associeacutes agrave chaque direction de haut-parleur et organiseacutes suivant ses lignes le vecteur S contient les signaux eacutemis par les L haut-parleurs et enfin le vecteur B contient les signaux HOA

⎟⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜⎜

=

⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜

=

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

=

10

100

2

1

1011

10

11111

111

10011

100

)()()(

)()()()(

M

mn

LLLMM

llmn

LL

LL

B

B

B

B

S

SS

S

YYY

YYYY

CM

M

M

L

MM

L

L

σσ

δθδθδθ

δθδθδθδθ

(19)

)( ll δθ repeacuterant la position du legraveme haut-parleur

Il faut donc estimer S connaissant B et C Le deacutecodage se reacutesume alors agrave un systegraveme de (M +1)2 (en 3D) ou 2M +1 (en 2D) eacutequations lineacuteaires agrave L inconnues On ne peut trouver de solution exacte que si le nombre de haut-parleurs est au moins eacutegal au nombre de signaux crsquoest-agrave-dire si L gt (M +1)2 (en 3D) ou 2M +1 (en 2D) Crsquoest en outre une condition neacutecessaire pour pouvoir avoir une reproduction homogegravene de la scegravene sonore

La matrice C nrsquoest pas neacutecessairement carreacutee et inversible une solution geacuteneacuterale

consiste agrave calculer lrsquoinverse geacuteneacuteraliseacutee de la matrice C noteacutee D encore appeleacutee pseudo-inverse de Moore-Penrose

BDS sdot= (110)

avec

1pinv( ) ( )t tD C C C C minus= = sdot sdot (111) D est appeleacutee matrice de deacutecodage BDS sdot= reacutesout le systegraveme (18) si les haut-

parleurs sont suffisamment nombreux L gt (M +1)2 (en 3D) ou 2M +1 (en 2D)) Srsquoils sont en outre disposeacutes sur une sphegravere (3D) ou un cercle (2D) de maniegravere eacutequidistante crsquoest-agrave-dire srsquoils sont les sommets drsquoun polyegravedre ou polygone reacutegulier ils preacuteservent alors la proprieacuteteacute drsquoorthonormaliteacute des harmoniques spheacuteriques Ceci se traduit par

Lt ILCC sdot=sdot (112)

ougrave IL est la matrice identiteacute de taille LLtimes On a alors

1pinv( ) tD CL

= = C (113)

Chapitre 1 Ambisonics 10

Cette proprieacuteteacute ne peut pas ecirctre matheacutematiquement veacuterifieacutee en 3D au-delagrave de lrsquoordre 2 autrement dit il nrsquoexiste pas de polyegravedre reacutegulier dont la position des sommets conserve strictement lrsquoorthonormaliteacute des harmoniques spheacuteriques

Visuellement le deacutecodage correspond agrave la reproduction du champ sonore tel qursquoil

aurait eacuteteacute capteacute par un ensemble de N microphones agrave directiviteacutes hyper-cardioiumldes tourneacutes chacun vers lrsquoun des haut-parleurs Leur directiviteacute serait drsquoautant plus preacutecise que lrsquoordre de reproduction est eacuteleveacute

Figure 16 - Prise de son virtuelle eacutequivalente agrave un encodage au 1er ordre et un deacutecodage

basique sur une disposition en 2D hexagonale [Moreau et al 2006] Le gain gl appliqueacute agrave chaque haut-parleur pour une direction de source virtuelle donneacutee

(en vert) est indiqueacute par la longueur des flegraveches et est reporteacutee aux points drsquointersection de la flegraveche verte et des diagrammes de directiviteacute

On peut remarquer que les diagrammes de directiviteacute sont tregraves larges par rapport

agrave lrsquoespacement angulaire des haut-parleurs Le 2nd ordre offrirait des directiviteacutes plus fines et donc une seacutelectiviteacute spatiale accrue Il faudrait alors bien sucircr davantage de haut-parleurs pour ne pas introduire des ldquotrousrdquo entre eux On remarque eacutegalement la preacutesence non neacutegligeable des lobes secondaires utiles pour la reconstruction du champ acoustique (notamment en basses freacutequences) mais qui peuvent ecirctre gecircnants dans certains cas par exemple lorsque lrsquoauditoire est large

Ce deacutecodage est appeleacute deacutecodage basique car il nrsquooptimise pas la restitution en

accord une quelconque hypothegravese et cherche uniquement agrave reproduire fidegravelement le champ acoustique Pour ameacuteliorer la restitution dans des cas critiques comme par exemple en-dehors du sweet spot (centre du dispositif) il faut optimiser le deacutecodage en reacuteduisant par exemple les lobes secondaires Ainsi le deacutecodage max-rE srsquoattache agrave maximiser lrsquoeacutenergie reccedilue de la provenance de la direction souhaiteacutee alors que le deacutecodage in-phase annule complegravetement ces lobes secondaires (voir Annexe B)

13 Critique de la technologie HOA 11

13 Critique de la technologie HOA

131 Bilan On a ainsi vu que la technologie HOA est une repreacutesentation intermeacutediaire du

champ de pression acoustique agrave mi-chemin entre la description directe du champ lui-mecircme et des signaux agrave restituer Cette technologie a de nombreux avantages compareacutee aux autres meacutethodes de reproduction de champ sonore (on trouvera notamment une eacutetude deacutetailleacutee des comparaisons entre HOA et la Wave Field Synthesis (WFS) dans [Daniel et al 2003]) elle permet drsquoeacuteviter le repliement spatial (voir paragraphe suivant) et permet ainsi une reconstruction dans une gamme de freacutequences tregraves large

La qualiteacute de la restitution ambisonique nrsquoest theacuteoriquement limiteacutee que part

lrsquoordre de troncature de la seacuterie de Fourier-Bessel agrave partir du moment ougrave le nombre de haut-parleurs est suffisant Ainsi un ordre tendant vers lrsquoinfini (et un nombre de haut-parleurs au moins aussi grand) permettra une reproduction quasi-parfaite sur lrsquoensemble de la zone drsquoeacutecoute

Mais les principaux avantages de cette technologie sont drsquoune part drsquoecirctre flexible

crsquoest-agrave-dire qursquoon peut agrave loisir adapter le nombre de signaux transmis au canal de transmission Une chute de deacutebit nrsquoentraicircnera pas de coupure de la transmission mais simplement une perte de preacutecision spatiale par lrsquoabandon des composantes drsquoordres les plus eacuteleveacutes Et drsquoautre part elle est indeacutependante du systegraveme de reproduction Ainsi un mecircme signal HOA pourra ecirctre diffuseacute sur toutes les configurations de haut-parleurs il suffira pour cela de calculer la matrice de deacutecodage associeacutee agrave ce systegraveme

132 Limites pratiques Dans la pratique cette technologie a toutefois des limitations Si lrsquoaliasing spectral

est eacuteviteacute on constate aux ordres les plus eacuteleveacutes lrsquoapparition drsquoun repliement spatial lors des enregistrements naturels agrave partir drsquoune freacutequence lieacutee agrave la distance maximale entre 2 capsules du microphone HOA (qui doit ecirctre au plus eacutegale agrave la moitieacute de la plus petite longueur drsquoonde drsquoapregraves Shannon) et au nombre total de capsules (qui doit ecirctre supeacuterieur agrave (M+1)2 M eacutetant lrsquoordre auquel on souhaite enregistrer)

Le repliement spectral repreacutesente la preacutesence importune dans des composantes

ambisoniques de sources qui de part leur position ne devraient qursquoapparaicirctre avec cette importance que dans les composantes drsquoordre plus eacuteleveacute Il est ducirc agrave lrsquointrusion des directiviteacutes drsquoordres supeacuterieurs dans les composantes harmoniques spheacuteriques estimeacutees Comme on le voit sur la Figure 17 les directiviteacutes ne sont pas des cylindres (au sens matheacutematique du terme la base nrsquoeacutetant pas forceacutement un cercle) mais varient en fonction de la freacutequence pour ressembler davantage dans le haut du spectre aux courbes de directiviteacute de lrsquoordre supeacuterieur Ainsi la directiviteacute de lrsquoordre 1 (2egraveme graphique) qui devrait ecirctre un 8 ressemble davantage au-dessus de 10 000 Hz agrave la figure de directiviteacute de lrsquoordre 4 (8 lobes)

Chapitre 1 Ambisonics 12

Figure 17 - Directiviteacutes theacuteoriques (en transparence) et reconstruites (grille) dans le plan horizontal pour des ondes planes horizontales Lrsquoaxe vertical correspond agrave la freacutequence et

les diffeacuterents graphiques aux ordres 0123 et 4 de gauche agrave droite Agrave lrsquoopposeacute la taille reacuteduite du microphone si elle permet de reacuteduire cet aliasing

spatial empecircche la capture des basses freacutequences aux ordres supeacuterieurs (voir 232) La reacutesolution spatiale des basses freacutequences sera donc moindre ce qui implique que en ajoutant lrsquoeffet du repliement en hautes freacutequences les ordres eacuteleveacutes capteacutes avec le micro HOA ne constituent qursquoune plage du spectre assez peu eacutetendue crsquoest cette seule plage qui pourra se targuer drsquoune excellente preacutecision spatiale

13

Chapitre 2

Analyser un contenu HOA

21 Objectifs La reacuteflexion a tout au long du stage eacuteteacute orienteacutee vers deux objectifs le premier

est dans un contexte de transmission de reconstruire une scegravene spatialiseacutee agrave partir du minimum drsquoinformations le deuxiegraveme appliqueacute agrave des ordres plus eacuteleveacutes est drsquoarriver agrave resyntheacutetiser les composantes de lrsquoordre immeacutediatement supeacuterieur

211 Restitution de la spatialisation agrave partir drsquoun downmix mono La premiegravere approche vise donc agrave reconstruire une scegravene spatialiseacutee agrave partir drsquoun

downmix le plus leacuteger possible Un downmix est une reacuteduction du nombre de canaux par fusion lrsquoexemple le plus simple eacutetant le passage drsquoun signal steacutereacuteo agrave un signal mono construit comme la demi-somme des composantes gauche et droite On tente dans cette approche de se restreindre au plus petit nombre de signaux possible un signal eacutetant tregraves coucircteux agrave transmettre en ajoutant parallegravelement agrave ce signal des informations compleacutementaires aidant agrave la reconstruction

Le cas extrecircme est la reacuteduction du flux agrave un signal mono Dans le cas

drsquoambisonics un signal mono comprenant toutes les sources est deacutejagrave preacutesent il srsquoagit de la composante omnidirectionnelle W Il faut donc extraire de la scegravene encodeacutee agrave un certain ordre M des informations permettant la reconstruction drsquoun ordre Mrsquo apregraves transmission Nous verrons que nous allons chercher agrave trouver les positions des sources gracircce agrave une analyse en composantes principales (ou ACP voir Annexe C) effectueacutee par sous-bandes (voir Annexe D)

212 Ameacutelioration de la preacutecision spatiale La deuxiegraveme piste suivie a pour but de reconstituer un ordre ambisonique non

transmis On pourrait qualifier cette approche drsquoupmix ambisonique car elle vise agrave reconstruire un ordre manquant En effet le format ambisonique eacutetant flexible il est bien

Chapitre 2 Analyser un contenu HOA 14

adapteacute agrave la transmission Ainsi si on souhaite transmettre une scegravene encodeacutee agrave lrsquoordre 2 dans le plan horizontal il faudra un canal drsquoun deacutebit minimum (si lrsquoon prend lrsquohypothegravese de pas vouloir compresser les signaux) de 471 Mos Un canal plus petit (par exemple 34 Mos) ne permettra theacuteoriquement de transmettre qursquoun ordre 1 Mais lrsquoanalyse des signaux peut permettre de deacuteterminer les positions des sources agrave partir desquelles on peut syntheacutetiser des composantes du 2nd ordre approchant les composantes drsquoorigine On pourrait mecircme imaginer pouvoir syntheacutetiser un ordre qui nrsquoavait pas eacuteteacute encodeacute agrave lrsquoorigine

Pour cela il est neacutecessaire de deacuteterminer les positions des sources preacutedominantes

dans le champ sonore pour piloter leur encodage spatial aux ordres supeacuterieurs et arriver agrave la synthegravese drsquoune repreacutesentation de reacutesolution spatiale accrue Il srsquoagit dans le mecircme temps drsquoisoler au mieux les signaux associeacutes agrave ces diffeacuterentes sources avant de leur appliquer lrsquoopeacuteration drsquoencodage on se rapproche donc drsquoun problegraveme de seacuteparation de sources

Pour parvenir agrave trouver ces positions deux meacutethodes ont eacuteteacute testeacutees La premiegravere

consiste comme preacuteceacutedemment agrave appliquer en sous-bandes une analyse en composantes principales La seconde implique la formation de directiviteacutes agrave partir des vecteurs propres de la matrice de correacutelation utiliseacutee dans cette analyse

Lrsquoanalyse en composantes principales ou ACP (voir Annexe C) est donc

largement privileacutegieacutee dans nos approches Elle permet en effet tregraves facilement drsquoextraire des informations preacutecises de signaux correacuteleacutes Pour justifier ce choix une autre meacutethode reacutecente a eacutegalement eacuteteacute testeacutee et compareacutee agrave lrsquoACP (voir 11)

22 Principe de lrsquoextraction drsquoinformation spatiale avec une ACP

221 Information spatiale

Nous avons donc tout drsquoabord testeacute lrsquoanalyse en composantes principales sur des

signaux HOA Nous avons choisi dans un premier temps de limiter lrsquoanalyse aux composantes horizontales du premier ordre W X et Y avant de lrsquoeacutetendre agrave la 3egraveme dimension avec Z

Dans un premier test les signaux HOA sont analyseacutes par une ACP dans leur

inteacutegraliteacute LrsquoACP est appliqueacutee sur les signaux X et Y qui contiennent lrsquoinformation spatiale En effet X et Y correspondent aux signaux qui seraient capteacutes par des microphones agrave figure en 8 placeacutes sur lrsquoaxe avant-arriegravere et gauche-droite respectivement

La Figure 21 montre la correacutelation entre X et Y dans le cas drsquoun bruit blanc capteacute

par le microphone ambisonique Les points ne sont pas exactement aligneacutes du fait des artefacts inheacuterents agrave la prise de son (reacuteflexions sur les parois approximations du microphone etc)

22 Principe de lrsquoextraction drsquoinformation spatiale avec une ACP 15

Figure 21 - Y en fonction de X dans le cas drsquoun bruit blanc enregistreacute placeacute agrave 30deg

On remarque que le nuage est eacutetireacute dans la direction de provenance du son indiqueacutee par la flegraveche en pointilleacutes verts

222 Application de lrsquoanalyse en composantes principales La 1egravere composante issue de lrsquoACP appliqueacutee dans le plan (X Y) pointe dans la

direction dans laquelle X et Y ont la plus grande correacutelation Or comme X contient lrsquoinformation placeacutee sur lrsquoaxe avant-arriegravere et Y lrsquoinformation de lrsquoaxe gauche-droite cette direction est directement la direction de la source Par exemple un son situeacute droit devant dans lrsquoaxe (agrave 0deg) aura une composante Y nulle et par conseacutequent les eacutechantillons seront dans le plan tous disposeacutes sur lrsquoaxe horizontal LrsquoACP prendra donc naturellement cet axe comme 1er vecteur propre et il pointe bien vers la position de la source De mecircme un son situeacute agrave 135deg ( π28

3 times rad) aura la proprieacuteteacute Y = -X Les eacutechantillons seront donc placeacutes sur la 2egraveme bissectrice qui fait avec lrsquoaxe Y=0 un angle de 135deg (voir Figure 22)

Figure 22 - Y en fonction de X dans le cas drsquoun son placeacute artificiellement dans la direction

indiqueacutee par la flegraveche en pointilleacutes verts agrave 0deg (agrave gauche) et 135deg (agrave droite)

Chapitre 2 Analyser un contenu HOA 16

Lrsquoanalyse de X et Y ne permet cependant de deacuteterminer lrsquoangle qursquoagrave π pregraves il reste une indeacutetermination (on deacutetermine la direction drsquoun axe qursquoil reste agrave orienter) Pour lever cette ambiguiumlteacute on integravegre W agrave lrsquoanalyse car cette composante pourtant omnidirectionnelle et donc deacutepourvue drsquoinformation spatiale apporte une reacutefeacuterence pour les phases Ainsi notre son placeacute agrave 135deg veacuterifiait (aux eacuteventuels coefficients de normalisation pregraves) Y = -X = W alors qursquoun son placeacute agrave 135 - 180 = -45deg aurait la proprieacuteteacute Y = -X = -W

Pour prendre en compte W dans lrsquoanalyse on peut comparer directement les

phases de ces 3 canaux Algorithmiquement on ramegravene lrsquoangle trouveacute agrave son modulo π2 puis on deacutetermine le vrai cadran par comparaison des phases de W X et Y crsquoest-agrave-dire en comparant le signe des produits W X et W Y Ainsi W X gt 0 signifie que W et X sont en phase et reacuteciproquement (voir Figure 23)

W X lt 0 W Y gt 0

W X gt 0 W Y gt 0

W X lt 0 W Y lt 0

W X gt 0 W Y lt 0

minusπ2

π

π2

0

Figure 23 - Signes de W X et W Y en fonction du cadran On peut eacutegalement inteacutegrer W agrave lrsquoanalyse en appliquant lACP sur le triplet (X Y

W) Le problegraveme drsquoambiguiumlteacute est ainsi reacutesolu la direction rechercheacutee eacutetant celle du vecteur principal dans le demi-espace W gt 0 projeteacutee sur le plan (X Y) Cette meacutethode srsquoavegravere plus robuste et surtout plus geacuteneacuteralisable agrave des ordres plus eacuteleveacutes

Cette analyse permet donc de deacuteterminer la position drsquoune source unique Pour

pouvoir seacuteparer plusieurs sources nous avons appliqueacute lrsquoACP par sous-bandes en supposant que les sources nrsquoont pas des supports freacutequentiels strictement identiques Le principe de cette analyse en sous-bandes est deacuteveloppeacute en Annexe D

23 Meacutethodologie

231 Construction de scegravenes artificielles Pour tester les algorithmes impleacutementeacutes nous avons ducirc creacuteer des scegravenes sonores

spatialiseacutees au format HOA Plusieurs types de scegravenes ont eacuteteacute utiliseacutes de complexiteacutes diffeacuterentes Les premiegraveres ont eacuteteacute des scegravenes virtuelles syntheacutetiseacutees avec Matlab Les premiegraveres scegravenes simplissimes ne comportait qursquoune sinusoiumlde ou un bruit blanc fixe placeacute dans le plan horizontal Puis pour tester lrsquoanalyse par sous-bandes ont eacuteteacute creacuteeacutes des sons polyphoniques composeacutes de 2 sinusoiumldes tout drsquoabord puis de sons complexes (syntheacutetiseacutes par synthegravese FM) dans des gammes freacutequentielles distinctes ou se

23 Meacutethodologie 17

chevauchant Enfin ces sons ont eacuteteacute rendus mobiles en faisant varier leur position dans le temps

Nous avons pu ainsi constater agrave lrsquoaide des sons fixes et de supports freacutequentiels

distincts la preacutecision de lrsquoanalyse et avec les sons mobiles et mecircleacutes sa robustesse Nous nous sommes limiteacutes sous Matlab agrave la geacuteneacuteration de 2 sons simultaneacutes et du 1er ordre et un autre outil Plogue Bidule a eacuteteacute utiliseacute pour composer des scegravenes plus complexes

Bidule est un studio modulaire virtuel ressemblant agrave MAXMSP Des plugins ont

eacuteteacute deacuteveloppeacutes agrave France Teacuteleacutecom pour permettre de manipuler des signaux HOA Ainsi des scegravenes complexes ont pu facilement ecirctre syntheacutetiseacutees agrave des ordres eacuteleveacutes Des scegravenes agrave 3 et 4 sources fixes ou dont 1 source mobile ont eacuteteacute reacutealiseacutees agrave partir de voix deacutemixeacutees placeacutees dans le plan horizontal ou en 3 dimensions

Ces scegravenes eacutetant artificielles elles sont en un sens ideacuteales ne contiennent aucun

signal reacuteverbeacutereacute (effet de salle) ni diffracteacute (par un micro) lrsquoencodage est fait sans artefacts les ondes sont consideacutereacutees comme planes et ont donc une direction bien deacutefinie Si on est ici bien loin de la vraie vie le gros avantage des scegravenes artificielles est qursquoon connaicirct preacuteciseacutement agrave chaque instant la position des sources et qursquoon peut ainsi veacuterifier le reacutesultat de lrsquoanalyse

Figure 24 - Interface graphique du logiciel Bidule avec agrave droite les controcircles des encodeurs

et deacutecodeurs HOA creacuteeacutes agrave France Teacuteleacutecom

Chapitre 2 Analyser un contenu HOA 18

232 Exploitation drsquoenregistrements naturels Une fois des reacutesultats convaincants obtenus avec des scegravenes virtuelles des

enregistrements naturels ont eacuteteacute analyseacutes Ces scegravenes ont eacuteteacute enregistreacutees gracircce au prototype de micro HOA du 4egraveme ordre deacuteveloppeacute agrave France Teacuteleacutecom (voir Figure 12) Ce processus implique des diffeacuterences notables avec un encodage virtuel

Le prototype de microphone contraint en effet agrave quelques compromis pour

optimiser des critegraveres incompatibles La taille du microphone reacutesulte drsquoun compromis entre la preacutecision drsquoestimation des composantes en basses freacutequences qui neacutecessite une taille eacuteleveacutee et la minimisation de lrsquoaliasing spatial qui ne peut ecirctre eacuteviteacute qursquoavec des capsules tregraves proches les unes des autres Leur disposition est eacutegalement irreacuteguliegravere il nrsquoexiste en fait aucune faccedilon de disposer reacuteguliegraverement plus de 20 points sur une sphegravere La configuration qui avait eacuteteacute retenue par les concepteurs [Moreau 2006] est la ldquomoins irreacuteguliegravere possiblerdquo au sens de la preacuteservation de lrsquoorthonormaliteacute des harmoniques spheacuteriques les 32 capsules sont reacuteparties sur une sphegravere de 35 cm de rayon selon un Pentaki-dodeacutecahegravedre polyegravedre semi-reacutegulier dual de lrsquoicosaegravedre tronqueacute (ballon de football)

Ces artefacts sont donc inheacuterents agrave lrsquoutilisation drsquoun reacuteseau de microphones Mais

le monde reacuteel pose eacutegalement des problegravemes deacutelicats La complexiteacute des modes de rayonnement drsquointeraction avec lrsquoenvironnement reacuteclame lrsquointroduction de modegraveles drsquoencodage beaucoup plus complexes que le cas drsquoune onde plane en champ libre et rend lrsquoinformation spatiale moins limpide et univoque au sein de la scegravene encodeacutee (enregistreacutee) en comparaison avec une scegravene virtuelle Les sources ne sont ainsi plus ponctuelles mais eacutetendues elles ne sont plus agrave lrsquoinfini mais agrave une distance finie du microphone (les ondes reccedilues ne sont donc plus planes) En outre chaque source en se reacutefleacutechissant sur les parois et les diffeacuterents objets de la salle creacutee une multitude de sources secondaires Il est enfin souvent difficile de connaicirctre avec preacutecision la position drsquoune source dans lrsquoespace lors drsquoun enregistrement

Des enregistrements en chambre sourde ont eacuteteacute reacutealiseacutes pour se passer des

reacuteflexions de lrsquoenvironnement Afin de connaicirctre avec preacutecision la position de la source un haut-parleur diffusant un bruit blanc nous avons placeacute le microphone sur une table tournante commandeacutee par un plug-in sous Plogue Bidule

233 Visualisations des reacutesultats Lrsquoobservation des reacutesultats a eacuteteacute effectueacutee de plusieurs maniegraveres visuellement et

par lrsquoeacutecoute Les graphiques eacutetant plus commodes crsquoest par cette voie que les premiers essais eacutetaient conclus Plusieurs types de graphiques ont eacuteteacute produits deacutecrivant des paramegravetres diffeacuterents

Les repreacutesentations temps-freacutequence permettent de repreacutesenter une variable agrave 1

dimension sous Matlab Cette voie a eacuteteacute suivie pour visualiser les paramegravetres extraits de chaque sous-bande de chaque fenecirctre notamment les angles lrsquoeacutenergie et la pertinence Malheureusement Matlab ne permet pas de repreacutesenter sur le mecircme graphique une 4egraveme dimension sous la forme drsquoune 2egraveme dimension colorimeacutetrique (on prend geacuteneacuteralement la

23 Meacutethodologie 19

saturation) Cette dimension suppleacutementaire aurait permis de repreacutesenter simultaneacutement les angles et leur pertinence

Figure 25 - Repreacutesentation

et de lrsquoespace col

Pour repreacutesenter s

drsquoabandonner une dimensipouvoir repreacutesenter danrepreacutesenteacutees soit par le niv

Figure 26 - Repreacutesentationdeacutecrite en 332 (en absciss

est repreacutesenteacutee agrave gauc

234 Diffeacuterents modes La visualisation est

indispensable pour veacuterifiesont possibles de ceux-cainsi reconstitueacutee agrave partir d

1 W+Y+02X pour le c

π 0 minusπ

de la table des couleurs dite HSV de Matlab (lineacuteaire agrave gauche) orimeacutetrique HSL (Hue Saturation Luminance agrave droite)

imultaneacutement angles et pertinence il eacutetait donc neacutecessaire on Crsquoest le deacutecoupage freacutequentiel qui a eacuteteacute mis de cocircteacute pour s un plan temps-angles les pertinences Celles-ci sont eau de gris des points soit par leur taille

de la pertinence des angles de la scegravene agrave 4 sources dont 1 mobile e les trames en ordonneacutees les angles en degreacute) La pertinence he par lrsquointensiteacute du bleu et agrave droite par la taille des points

drsquoeacutecoute

un indice preacutecis de reacutesultat mais lrsquoeacutecoute est tout de mecircme r la qualiteacute globale de la synthegravese Plusieurs modes drsquoeacutecoute i lrsquoeacutecoute au casque est la plus aiseacutee Une pseudo-steacutereacuteo est es signaux du 1er ordre1 pour restituer les scegravenes restreintes au

anal gauche et W-Y+02X pour le canal droit

Chapitre 2 Analyser un contenu HOA 20

plan horizontal Pour plus de preacutecision agrave la restitution ou pour des scegravenes en 3D et sans perdre la faciliteacute drsquoune eacutecoute personnelle au casque on peut appliquer des filtres HRTF (Head-Related Transfert Function) pour une reproduction binaurale

Pour appreacutecier pleinement la spatialisation la diffusion sur un systegraveme multi

haut-parleurs est indispensable Deux systegravemes sont installeacutes dans le laboratoire de France Teacuteleacutecom un systegraveme 51 et un systegraveme circulaire de 48 haut-parleurs Ces systegravemes installeacutes dans des studios insonoriseacutes offrent une grande qualiteacute drsquoeacutecoute qui permet de repeacuterer les deacutefauts mecircme minimes de la synthegravese

21

Chapitre 3

Description des analyses

31 Deacutetermination des directions principales

311 Base des algorithmes Nous avons deacuteveloppeacute plusieurs algorithmes reacutepondant aux diffeacuterents objectifs

deacutecrits plus haut Chacun drsquoeux possegravede des particulariteacutes leur permettant de reacutepondre agrave ces objectifs mais on trouve neacuteanmoins une partie commune Ainsi toutes les analyses reposent sur le mecircme modegravele drsquoapplication drsquoune ACP par sous-bandes dont voici le scheacutema geacuteneacuteral

Figure 31 - Scheacutema geacuteneacuteral drsquoanalyse

Les signaux en entreacutee sont les composantes HOA W X et Y dans la plupart des

cas mais peuvent ecirctre eacutegalement des composantes drsquoordre plus eacuteleveacute (voir 11) Sur le fenecirctrage jouent plusieurs paramegravetres comme la taille de la fenecirctre ou encore le pourcentage de recouvrement entre elles Nous avons choisi une fenecirctre en racine de la fenecirctre de Hanning crsquoest-agrave-dire une arche de sinusoiumlde (voir eacutequation (D7) en Annexe D) avec un recouvrement de 50 ce qui veacuterifie le critegravere de reconstruction parfaite (D6) Le filtrage est pour des raisons de rapiditeacute de calcul reacutealiseacute dans le domaine freacutequentiel par une simple multiplication avant de repasser en temporel pour appliquer lrsquoACP

Le banc de filtre utiliseacute est un banc inspireacute des filtres ERB Les filtres ERB

(Equivalent Regular Bandwidth) sont des filtres imitant le comportement de seacuteparation freacutequentielle de lrsquooreille humaine plus preacutecise en basse freacutequence Les filtres utiliseacutes ici ne sont pas directement des filtres ERB le systegraveme nrsquoa pas drsquointeacuterecirct particulier agrave essayer de copier le fonctionnement de lrsquooreille humaine Ces filtres ont eacuteteacute adapteacutes au problegraveme en

Chapitre 3 Description des analyses 22

srsquoassurant en particulier de la finesse des bandes permettant la meilleure discrimination des diffeacuterentes sources crsquoest-agrave-dire autour des fondamentales usuelles (200-1000 Hz) et des harmoniques Les freacutequences aigueumls sont bien discrimineacutees par les filtres ERB (relativement agrave la gamme crsquoest-agrave-dire en eacutechelle logarithmique) le deacutecoupage a donc surtout eacuteteacute densifieacute entre 200 et 800 Hz par rapport aux bandes ERB

Figure 32 - Filtres utiliseacutes inspireacutes des filtres ERB repreacutesenteacutes lineacuteairement (en haut)

et sur une eacutechelle logarithmique (en bas) Les reacutesultats de lrsquoACP sont donc avec cette meacutethode les angles des sources

trouveacutees dans chaque sous-bande ainsi que pour chacun drsquoeux un critegravere de pertinence calculeacute en fonction de lrsquoeacutenergie de la sous-bande dans une fenecirctre donneacutee et de la norme relative de la premiegravere composante de lrsquoACP (voir 342) Les autres vecteurs propres peuvent ecirctre utiliseacutes pour extraire davantage drsquoinformations et mecircme des signaux deacutecorreacuteleacutes comme on le verra au paragraphe 35 mais lrsquoanalyse semble alors moins robuste Srsquoen tenir aux informations donneacutees par la composante principale est un gage de pertinence suppleacutementaire

Ces reacutesultats concernent donc les sources preacutedominantes ou principales mais

laissent de cocircteacute un certain nombre drsquoeacuteveacutenements sonores agrave consideacuterer

312 Traitement du champ reacutesiduel Le champ reacutesiduel regroupe en quelque sorte tout ce qui nrsquoest pas une source

principale Il inclut donc les reacuteflexions et la reacuteverbeacuteration de la piegravece mais aussi les bruits parasites occasionnels ou continus (ventilation etc) Ces bruits ou eacutechos nrsquoont pas de direction de provenance assez distincte pour pouvoir ecirctre mesureacutee preacuteciseacutement Le champ reacutesiduel est eacutegalement composeacute du champ diffus La notion de champ diffus est couramment utiliseacutee mais rarement preacuteciseacutement deacutefinie On trouve dans la litteacuterature des deacutefinitions diverses lrsquoune drsquoelles preacutecisant qursquoil serait un ensemble drsquoeacuteveacutenements sonores proches en temps et provenant de directions eacutequiprobables

Les algorithmes proposeacutes traitent correctement les sources principales mais le

champ reacutesiduel est laisseacute de cocircteacute Il est pourtant tregraves important pour lrsquoimmersion du sujet dans la scegravene une scegravene deacutepourvue de champ sonore sera perccedilue comme artificielle ce qui nuit agrave la perception drsquoespace On sera par exemple davantage conscients drsquoecirctre au centre drsquoun dispositif expeacuterimental et moins sensibles aux variations de profondeur et de perspectives

31 Deacutetermination des directions principales 23

Neacuteanmoins il faut relativiser lrsquoimportance de ce champ reacutesiduel il nrsquoest pas utile pour la localisation des sources principales et ne caracteacuterise que lrsquoenvironnement drsquoenregistrement En outre le champ reacutesiduel qui provient souvent de directions floues et notre but nrsquoest pas de les preacuteciser artificiellement Il nrsquoest degraves lors geacuteneacuteralement pas utile de le transmettre aux ordres eacuteleveacutes

Ainsi certains auteurs [Merimaa and Pulkki 2005] ont choisi de recreacuteer lors drsquoune

synthegravese un champ diffus artificiel baseacute sur une reacuteponse impulsionnelle de salle calculeacutee agrave lrsquoavance Lrsquoavantage est une immersion un enveloppement complets lrsquoinconveacutenient est que lrsquoambiance ainsi recreacuteeacutee est fictive et arbitraire et en outre complegravetement indeacutependante de lrsquoambiance initiale en laissant notamment de cocircteacute les sources secondaires

Nous proposons dans nos algorithmes de ne pas syntheacutetiser le champ diffus aux

ordres eacuteleveacutes mais de nous contenter de la description du champ reacutesiduel fourni par les ordres transmis (1er ordre dans nos exemples) Nous nous limiterons donc agrave preacuteciser par la synthegravese des ordres supeacuterieurs les positions des sources principales

32 Extension agrave la 3D Nous avons pour le moment eacutevoqueacute le cas de repreacutesentations de champ sonore agrave

2 dimensions crsquoest-agrave-dire issus de sources placeacutees dans le plan horizontal Mais certaines repreacutesentations comportent eacutegalement des composantes verticales Pour analyser ces signaux en 3 dimensions il faut inteacutegrer la composante Z On effectue alors simplement une ACP sur X Y Z et W Le 1er vecteur propre sera alors bien dirigeacute dans lrsquoespace (X Y Z) dans la direction de la source lrsquoambiguiumlteacute de frac12 espace eacutetant leveacutee par W

Lrsquoalgorithme est alors complegravetement similaire agrave celui analysant des signaux en 2

dimensions Des tests ont eacuteteacute reacutealiseacutes agrave partir de signaux syntheacutetiques pour lesquels les positions des sources eacutetaient connues pour des raisons pratiques aucune scegravene sonore reacuteelle en 3 dimensions nrsquoa pu ecirctre enregistreacutee avec une connaissance initiale preacutecise des positions des sources

Les visualisations et les eacutecoutes eacutetant plus deacutelicates en 3D et lrsquoextension agrave la 3D

eacutetant immeacutediate nous avons donc concentreacute nos efforts sur lrsquoanalyse de scegravenes en 2D En outre en lrsquoabsence de dispositif spheacuterique ou heacutemispheacuterique de haut-parleurs le seul moyen agrave notre disposition pour eacutecouter une scegravene 3D est lrsquoeacutecoute binaurale crsquoest-agrave-dire au casque avec des fonctions de transfert de tecircte (HRTF) relativement bien adapteacutees agrave lrsquoauditeur

33 Analyse aux ordres supeacuterieurs

331 Description Afin drsquoameacuteliorer la preacutecision de lrsquoanalyse nous avons essayeacute drsquoappliquer une ACP

sur des signaux ambisoniques drsquoordre plus eacuteleveacute (signaux HOA) dans le plan horizontal Deux meacutethodes ont eacuteteacute essayeacutees

Chapitre 3 Description des analyses 24

La premiegravere consiste agrave appliquer une ACP agrave 3 dimensions successivement sur les composantes X Y W (ordre 1 et 0) puis U V W (ordre 2 et 0) et ainsi de suite crsquoest-agrave-dire (en utilisant la notation geacuteneacuterale) sur les composantes et W (ordre m et 0) Les reacutesultats de ces analyses (les directions des 1

)1(0mY )1(

0minus

mYegraveres composantes) sont ensuite regroupeacutees

lrsquoanalyse de lrsquoordre 1 fournissant des reacutesultats modulo 2π lrsquoanalyse de lrsquoordre 2 des reacutesultats plus preacutecis mais modulo π et plus geacuteneacuteralement lrsquoanalyse de lrsquoordre m permettant de trouver des angles modulo mπ2

La limite de cette approche se perccediloit lors de la fusion des reacutesultats les angles

trouveacutes agrave un ordre eacuteleveacute sont plus preacutecis dans des bandes de freacutequences eacuteleveacutees mais la limitation theacuteorique de ces signaux HOA dans les basses freacutequences font que lrsquoanalyse de lrsquoordre 1 reste la plus pertinente dans les premiegraveres bandes Parvenir agrave deacuteterminer agrave partir de quelle freacutequence on peut faire davantage confiance agrave lrsquoordre n+1 qursquoagrave lrsquoordre n nrsquoest pas aiseacute et cette limite provoque des aberrations dans les angles trouveacutes Une source unique pourra par exemple ecirctre interpreacuteteacutee par lrsquoalgorithme des k-moyennes (voir 341) comme 2 sources une en hautes freacutequences et une en basses freacutequences les 2 eacutetant trouveacutes agrave 2 angles diffeacuterents chaque angle relevant drsquoun ordre analyseacute diffeacuterent

La deuxiegraveme meacutethode consiste pour eacuteviter cette fusion des reacutesultats agrave effectuer

une seule ACP sur les composantes U V X Y et W Cette meacutethode souffre drsquoune tregraves grande complexiteacute algorithmique pour une ameacutelioration de la preacutecision peu sensible En effet si cette meacutethode permet drsquoobtenir des reacutesultats plus preacutecis dans certaines bandes de freacutequences elle est sensible aux deacutefauts et les limites des ordres supeacuterieurs (lrsquoabsence de basses freacutequences entre autres) perturbent lrsquoanalyse en composantes principales

332 Illustration sur une scegravene virtuelle La scegravene preacutesenteacutee ici est une scegravene artificielle crsquoest-agrave-dire composeacutee de sons

placeacutes artificiellement agrave diverses positions Elle a une dureacutee totale de 135 s et comporte 4 sources positionneacutees dans le plan horizontal une guitare placeacutee agrave 45deg une basse agrave -70deg une batterie agrave 110deg et une voix feacuteminine qui effectue continucircment un tour complet dans le sens indirect en partant de lrsquoarriegravere (elle passe donc successivement par les positions 180deg 90deg 0deg -90deg et -180deg) La guitare et la batterie srsquoarrecirctent peu avant la fin de la scegravene (12egraveme seconde au 910egraveme du son approximativement)

Figure 33 - Position des sources de la scegravene de test agrave 4 sources dont 1 mobile

33 Analyse aux ordres supeacuterieurs 25

Figure 34 - Angles drsquoune scegravene virtuelle ayant 1 source mobile et 3 sources fixes

(deacutecrite en 332) trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 Pour chaque trame (en abscisse) 20 angles (1 par bande en ordonneacutee et en degreacutes) sont

reporteacutes le diamegravetre du point correspondant agrave un critegravere de pertinence (voir 342)

Figure 35 - Angles de la mecircme scegravene trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 2 Reacutesultats modulo π reacutepliqueacutes pour faciliter la comparaison avec la figure preacuteceacutedente On remarque que les lignes sont plus nettes qursquoil y a moins drsquoangles aberrants et que

les angles corrects sont plus marqueacutes (ils sont deacutetermineacutes comme plus pertinent)

Chapitre 3 Description des analyses 26

20

0

20

0

20

0

Figure 36 - Angles drsquoune scegravene reacuteelle constitueacutee drsquoun bruit parcourant le cercle trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 (en haut) 0 et 2 (au milieu) et 0 et 4 (en bas) Le

numeacutero de trame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On retrouve qursquoune limitation des ordres HOA supeacuterieurs issus drsquoun enregistrement

microphonique est la restitution des basses freacutequences

34 Traitement des donneacutees

341 Algorithme des k-moyennes Agrave lrsquoissue de lrsquoanalyse en composantes principales on reacutecupegravere avec la premiegravere

des meacutethodes exposeacutees au chapitre preacuteceacutedent des angles correspondants aux positions des sources preacutedominantes agrave raison drsquoune valeur par fenecirctre et par bande de freacutequence Il faut agrave partir de ces donneacutees parvenir agrave isoler les sources crsquoest-agrave-dire agrave deacuteterminer quels sont les angles pertinents et examiner quels sont ceux qui agrave une certaine toleacuterance pregraves sont preacutesents dans plusieurs bandes de freacutequence etou plusieurs fenecirctres temporelles

Pour pouvoir exploiter ces donneacutees spatiales nous avons utiliseacute lrsquoalgorithme des

k-moyennes (ou k-means) [MacQueen 1967] sur les angles pondeacutereacutes par des critegraveres de pertinence Cet algorithme fonctionne de la maniegravere suivante

Initialisation choix de k barycentres (les k moyennes) Reacutepeacuteter Associer chaque eacuteleacutement au barycentre le plus proche Recalculer les positions des barycentres Jusqursquoagrave ce que les barycentres soient stables (ou au bout de t iteacuterations)

34 Traitement des donneacutees 27

Lrsquoavantage de cet algorithme est drsquoecirctre peu glouton puisqursquoil converge en O(tkn) ougrave t est le nombre drsquoiteacuterations k le nombre de centres et n le nombre de points (geacuteneacuteralement on a t k ltlt n) Par contre il est plutocirct sensible aux exceptions un point aberrant tirera agrave lui la moyenne auquel il aura eacuteteacute associeacute Il faut donc faire en sorte que ces points erroneacutes soient aussi rares que possibles Crsquoest pourquoi les angles traiteacutes sont pondeacutereacutes par 2 critegraveres de pertinence

La pondeacuteration des angles fournis en entreacutee de lrsquoalgorithme des k-moyennes se

fait de maniegravere simple en reacutepeacutetant ces angles un nombre de fois (de 0 agrave 10) proportionnel agrave un critegravere Ainsi un angle tregraves pertinent sera dupliqueacute et sera preacutesent plusieurs fois dans la liste des donneacutees traiteacutees attirant ainsi agrave lui la position du barycentre le plus proche Au contraire un angle trop peu pertinent ne sera pas reacutepeacuteteacute voir mecircme sera enleveacute de la liste

Le seul problegraveme de cet algorithme est qursquoil neacutecessite la connaissance de k crsquoest-

agrave-dire du nombre de sources qui composent la scegravene Une deacutetermination automatique se basant sur la reacutepeacutetition de lrsquoalgorithme avec un k croissant a eacuteteacute testeacutee mais le critegravere drsquoarrecirct reposant sur la dispersion des points autour des barycentres nrsquoeacutetant pas assez robuste cette meacutethode a provisoirement eacuteteacute mise de cocircteacute

342 Critegraveres de pertinence Les 2 critegraveres de pondeacuteration choisis sont lrsquoeacutenergie de la sous-bande dans la

fenecirctre donneacutee et le rapport de la norme de la 1egravere composante (la composante principale) de lrsquoACP sur la somme des normes de toutes les composantes

En effet un angle est trouveacute dans chaque sous-bande de chaque fenecirctre mecircme si

le signal y est tregraves faible Lrsquoangle trouveacute sera alors tregraves peu repreacutesentatif de la direction drsquoune source puisqursquoil indiquera la direction drsquoun bruit Lrsquoeacutenergie doit donc ecirctre prise en compte pour ne conserver que les angles trouveacutes dans des bandes comportant un signal suffisant

La norme relative de la 1egravere composante de lrsquoACP rend quant agrave elle compte du

poids relatif de cette composante par rapport aux autres Ainsi si 2 sources sont preacutesentes dans une bande donneacutee la 1egravere composante sera agrave peine plus marqueacutee que la 2egraveme Ceci peut ecirctre calculeacute en prenant simplement le rapport de la 1egravere valeur propre sur la somme des valeurs propres

On peut noter que la norme de la 1egravere composante ne se deacutetache nettement que

lorsqursquoun son est preacutesent dans la bande consideacutereacutee On peut alors se demander si lrsquoeacutenergie doit ecirctre prise en compte ou si lrsquoinformation qursquoelle contient nrsquoest comprise dans le 2egraveme critegravere En fait la norme relative est un critegravere tregraves bruiteacute et consideacuterer lrsquoeacutenergie par ailleurs permet de nuancer ces artefacts et constitue une base solide de pondeacuteration

Chapitre 3 Description des analyses 28

80

40

0

Figure 37 - Repreacutesentation temps-freacutequence des angles du son deacutecrit en 332 Letrame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On peut donc v

par trame et par bande chacun eacutetant le reacutesultat drsquoune ACP crsquoest-agrave-dire la 1egravere

Figure 38 - Eacutenergie de ce mecircme son On peut voir une basse en notes tenues uneet une batterie qui produit des sons secs dans un spectre plus aigu

80

40

0

80

40

0

Figure 39 - Norme relative de la 1egravere composante de ce mecircme son Les impacts de batterie (dans lrsquoaigu) ressortent davantage

π 0 minusπ

numeacutero de oir un angle direction

voix aiguumle

34 Traitement des donneacutees 29

Figure 310 - Pondeacuteration appliqueacutee agrave lrsquoentreacutee des k-moyennes calculeacutee ici comme

le simple produit de lrsquoeacutenergie et de la norme relative

80

40

0

343 Lissages

Pour faire face au bruit ineacutevitable dans les reacutesultats il faut lisser les donneacutees Ces

lissages temporels correspondent agrave des hypothegraveses de stabiliteacute des sources qui sont supposeacutees ecirctre fixes ou mobiles relativement lentement (dans une mesure agrave parameacutetrer)

Un premier lissage peut ecirctre opeacutereacute avant le traitement par lrsquoalgorithme des k-

moyennes Le filtre choisi est un filtre meacutedian de maniegravere agrave eacuteliminer les points aberrants tout en conservant les vraies valeurs des points coheacuterents Ce lissage est appliqueacute sur chaque sous-bande aux angles et ne tient pas compte des critegraveres de pertinence Il est donc utiliseacute avec parcimonie et peut mecircme ecirctre eacuteviteacute en reacuteglant de maniegravere adeacutequate les critegraveres de pondeacuteration agrave lrsquoentreacutee des k-moyennes

Le deuxiegraveme lissage srsquoeffectue agrave lrsquoentreacutee des k-moyennes en mecircme temps que les

critegraveres de pondeacuteration Il consiste agrave appliquer les k-moyennes non pas sur une fenecirctre donneacutee mais sur plusieurs fenecirctres conseacutecutives anteacuterieures et posteacuterieures en donnant plus de poids agrave la fenecirctre courante Dans la pratique les poids donneacutes aux diffeacuterentes fenecirctres sont eacutetablis par une gaussienne centreacutee sur la fenecirctre courante et de largeur agrave deacuteterminer (en fonction notamment de la dureacutee drsquoune fenecirctre et du type de scegravene analyseacute)

35 Exploitation de toutes les composantes de lrsquoACP Les analyses preacutesenteacutees preacuteceacutedemment ont toutes exploiteacute uniquement la

composante principale extraite par lrsquoACP Or cette analyse fournit des informations plus complegravetes par lrsquointermeacutediaire des autres composantes dont on peut tirer parti pour isoler plusieurs sources au sein drsquoune mecircme bande Cette approche est toujours en deacuteveloppement dans ce stage et nrsquoa pas encore donneacute pleine mesure des reacutesultats qursquoelle laisse entrevoir

Les composantes de lrsquoACP indiquent des directions qui correspondent aux

diffeacuterentes sources composant la scegravene sonore Les vecteurs propres de la matrice de correacutelation donnent ainsi les combinaisons lineacuteaires des signaux HOA permettant de

Chapitre 3 Description des analyses 30

seacuteparer de la meilleure faccedilon possible ces sons Ces directions peuvent ecirctre alors utiliseacutees pour former des directiviteacutes isolant au mieux ces sources

aBS sdot= (31)

ougrave la matrice a contient les vecteurs propres de la matrice de correacutelation (voir Annexe C) le vecteur B contient les signaux HOA et le vecteur S contient les sources extraites

⎟⎟⎟

⎜⎜⎜

=⎟⎟⎟

⎜⎜⎜

⎛=

⎥⎥⎥

⎢⎢⎢

⎟⎟⎟

⎜⎜⎜

⎟⎟⎟

⎜⎜⎜

⎛=

10

1001

1

ML

N

B

BB

S

SSuua MML (32)

On obtient ainsi des lobes drsquoautant plus eacutetroits que lrsquoordre est eacuteleveacute chacun

dirigeacute vers une source et permettant de lrsquoisoler le plus possible des contributions des autres sources La Figure 311 preacutesente les directiviteacutes ainsi trouveacutees par une ACP en pleine bande Une analyse en sous-bande permet une plus grande distinction des sources mais une seacuteparation diffeacuterente entre les bandes est dangereuse car elle risque de dissocier spatialement plusieurs parties drsquoun mecircme son

Figure 311 - Directiviteacutes seacuteparant ideacutealement 4 sources placeacutees agrave 17 73 195 et -58deg

pour une scegravene virtuelle encodeacutee agrave lrsquoordre 4 Ce principe se heurte neacuteanmoins aux limites de seacuteparation lieacutees agrave lrsquoordre

drsquoencodage en effet 2 sources ne pourront pas ecirctre seacutepareacutees si elles sont trop proches comme en teacutemoigne la largeur des lobes principaux Les lobes secondaires traduisent eacutegalement un meacutelange des sources isoleacutees La figure ci-dessus montre ainsi que la source placeacutee agrave 17deg (en vert) sera preacutesente de maniegravere non neacutegligeable dans le signal senseacute contenir la source placeacutee agrave -58deg (en bleu) en raison du lobe secondaire bleu important

31

Chapitre 4

Reacutesultats et applications

41 Illustration et critique des reacutesultats obtenus

411 Avant-propos Sans notification particuliegravere les reacutesultats preacutesenteacutes ont eacuteteacute obtenus avec un pas

de 50 ms une analyse en 80 bandes avec une FFT sur 8192 points Une taille de FTT plus grande et un plus grand nombre de bande augmente la qualiteacute de lrsquoanalyse un pas plus petit ameacuteliore sa preacutecision temporelle mais les reacutesultats sont moins fiables et un lissage plus important srsquoimpose alors Ces paramegravetres ont eacuteteacute reacutegleacutes apregraves de multiples essais sur des scegravenes diverses

Les reacutesultats sont preacutesenteacutes ici uniquement sous la forme de graphiques nous ne

pouvons donc repreacutesenter que les angles trouveacutes agrave la sortie de lrsquoalgorithme des k-moyennes

412 Scegravene 2D artificielle agrave 4 sources fixes La premiegravere scegravene est une scegravene artificielle composeacutee de 4 sons fixes placeacutes agrave -70

-10 45 et 110deg Ces sons (une basse une voix une guitare et une batterie) ont eacuteteacute choisis pour leur varieacuteteacute spectrale et leur varieacuteteacute drsquoattaque Elle a en outre le meacuterite drsquoecirctre reacutealiste et de constituer une seacutequence musicale (chaque son nrsquoest pas une meacutelodie indeacutependante)

On voit sur la Figure 41 ci-dessous que les angles trouveacutes sont proches des

angles theacuteoriques Lrsquoun des sons (agrave 45deg) est quasiment nul avant la 100egraveme trame sa position est alors moins facile agrave deacuteterminer plus preacuteciseacutement une position approximative est trouveacutee et correspondrait exactement agrave la position du bruit (45deg) si lrsquoincertitude de mesure tregraves grande pour un son aussi faible ne rendait la deacutetermination si ardue On mesure un eacutecart-type de 22deg sur cet exemple (en excluant le deacutebut du son agrave 45deg)

Chapitre 4 Reacutesultats et applications 32

Figure 41 - Angles theacuteoriques (en pointilleacutes rouge) et calculeacutes (en trait bleu) pour une scegravene

constitueacutee de 4 sons fixes longue de 11s

413 Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile

Figure 42 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) de la scegravene agrave

4 sources dont 1 mobile deacutecrite en 332 Cette scegravene est deacutecrite en 332 On a ici demandeacute aux k-moyennes de renvoyer 5 barycentres par trame alors que

seules 4 sources eacutetaient preacutesentes dans le but de se garantir une marge vis-agrave-vis des erreurs de deacutetection Cette 5egraveme direction nrsquoest pas du tout gecircnante elle indique une direction qui ne contient pas de source et crsquoest donc un son tregraves faible qui est ainsi pointeacute Apregraves une eacuteventuelle extraction le signal ne sera donc pas du tout gecircnant

41 Illustration et critique des reacutesultats obtenus 33

On peut remarquer que quand le son mobile se rapproche drsquoun son fixe la deacutetection est moins bonne il y a une fusion entre les 2 sons Mais encore une fois lors de lrsquoextraction lrsquoisolation drsquoun des sons englobera lrsquoautre son ce qui ne posera pas de problegraveme pour les objectifs fixeacutes aucune source nrsquoeacutetant oublieacutee En effet la seacuteparation de sources nrsquoest pas un objectif ici mais un moyen pour preacuteciser les positions des sources ce qui sera fait correctement mecircme si 2 sources sont pointeacutees par 1 seule direction

414 Scegravene 3D artificielle agrave une source et bruit de fond

La scegravene dont la position drsquoune source a eacuteteacute extraite ci-dessous est une scegravene virtuelle en 3D constitueacute drsquoun son (une voix) qursquoon a fait se deacuteplacer par paliers tout drsquoabord vers le haut de 0deg agrave 45deg et vers la gauche de 0deg agrave 90deg puis redescendre jusqursquoagrave 35deg en continuant son cheminement vers la gauche jusqursquoagrave 120deg et enfin finir la descente de 35deg agrave 0deg en la laissant agrave 120deg Agrave cette source a eacuteteacute superposeacutee une ambiance spatialiseacutee de hall drsquoaeacuteroport initialement enregistreacutee en 2D (au format 51) mais transformeacutee pour contenir des composantes verticales Cette ambiance deacutecorreleacutee de la source avait pour but de tester la robustesse de lrsquoanalyse Elle eacutetait agrave 15 dB en-dessous du niveau de la voix

Figure 43 - Azimut et eacuteleacutevation theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun

son en 3D artificiel de 9s placeacute dans une ambiance bruyante On remarque que lrsquoanalyse est tregraves correcte Il nrsquoy a pas drsquoeacutecart important entre

les angles theacuteoriques et ceux calculeacutes On note toutefois que le lissage agrave lrsquoentreacutee des k-moyennes a pour effet de gommer les creacuteneaux et drsquoaplatir quelque peu la courbe drsquoeacuteleacutevation ceci nrsquoest pas vraiment gecircnant car de tels sauts dans la position drsquoune source ne sont pas du tout reacutealistes (ils peuvent caracteacuteriser des bruits de pas mais de tels impacts sont courts et on peut srsquoattendre agrave ce que la courbe suive leur position aux instants ougrave ils sont eacutemis)

Chapitre 4 Reacutesultats et applications 34

415 Scegravene 2D naturelle agrave une source Les scegravenes naturelles sont on lrsquoa vu plus deacutelicates agrave exploiter car on ne peut pas

garantir la preacutecision de la position theacuteorique agrave retrouver par le calcul et on ne peut donc pas calculer la preacutecision de lrsquoanalyse Seuls les enregistrements utilisant la table tournante (voir 232) permettent une mesure preacutecise de la position de lrsquoangle Ces enregistrements on pu confirmer la validiteacute de lrsquoanalyse pour des scegravenes reacuteelles on trouve ici un eacutecart-type de 25deg

Figure 44 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun bruit blanc

tournant autour du micro enregistreacute en chambre sourde Cette analyse a eacuteteacute reacutealiseacutee par sous-bandes mais sur une eacutetendue freacutequentielle

plus reacuteduite puisqursquoon srsquoest limiteacute aux possibiliteacutes offertes par le microphone La scegravene a donc eacuteteacute analyseacutee de 200 agrave 10 000 Hz

42 Quelques applications

421 Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre 2 agrave partir de lrsquoordre 1

Une fois les positions des sources connues la porte est ouverte agrave de nombreuses

applications La connaissance de ces positions permet en effet de syntheacutetiser artificiellement des composantes manquantes ou non transmises La premiegravere synthegravese deacuteveloppeacutee est celle des signaux U et V composant la partie horizontale de lrsquoordre 2 agrave partir de lrsquoordre 1 et de paramegravetres issus de lrsquoanalyse pour une source en 2D (des angles dans de cas)

42 Quelques applications 35

Figure 45 - Principe de lrsquoameacutelioration de la preacutecision spatiale

Le principe de la synthegravese est drsquoextraire les sources originales agrave partir de W X Y

et des angles (un angle par trame et par sous-bande) Ceci peut ecirctre reacutealiseacute de maniegravere approcheacutee en deacutecodant lrsquoordre 1 dans les directions des sources Ce deacutecodage revient agrave calculer les signaux qui devraient alimenter des haut-parleurs qui seraient placeacutes agrave ces positions dans le cas drsquoune restitution (voir 122) crsquoest-agrave-dire agrave former des directiviteacutes dans les directions des sources Dans la plupart des cas ce deacutecodage qui fait intervenir une pseudo-inversion de Moore-Penrose (111) est imparfait les sources se retrouvant leacutegegraverement meacutelangeacutees On peut comparer cette seacuteparation agrave celle que ferait un ensemble de microphones agrave directiviteacute hypercardioiumlde coiumlncidents

Figure 46 - Directiviteacutes eacutequivalentes agrave la seacuteparation de 4 sources agrave lrsquoordre 1 Ces sources seacutepareacutees vont ensuite constituer toujours placeacutees aux angles

deacutetermineacutes agrave lrsquoanalyse une scegravene virtuelle qursquoon va encoder agrave lrsquoordre 2 De cet encodage on ne conservera que les signaux manquants dans notre exemple les signaux du 2nd ordre U et V Ainsi la scegravene spatialiseacutee sera au final constitueacutee des signaux W X et Y drsquoorigine (transmis) et des signaux U et V syntheacutetiseacutes

Chapitre 4 Reacutesultats et applications 36

422 Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave partir de W Reconstruire une scegravene sonore spatialiseacutee agrave partir drsquoun unique canal mono est

alors difficile et le reacutesultat nrsquoest appreacuteciable que pour des scegravenes simples Il faut pour cela que les diffeacuterentes sources composant cette scegravene aient des supports spectraux aussi distincts que possible Les diffeacuterentes sous-bandes sont alors placeacutees agrave un certain angle transmis en parallegravele et crsquoest cette scegravene reconstitueacutee qui va ecirctre encodeacutee au 1er ordre de maniegravere agrave recreacuteer les signaux X et Y

Figure 47 - Principe de la restitution de lrsquoordre 1 agrave partir du signal mono W Ce scheacutema rappelle une meacutethode deacuteveloppeacutee dans le cas steacutereacuteo appeleacutee BCC

(Binaural Cue Coding) [Faller and Baumgarte 2002] Le principe est drsquoextraire et coder des informations permettant la reconstruction binaurale drsquoun signal agrave savoir les diffeacuterences interaurales drsquointensiteacute et de temps (Interaural LevelTime Difference ILD et ITD) qui correspondent dans le cas drsquoune restitution sur un casque aux diffeacuterences drsquointensiteacute et de temps inter-canal (Inter-Channel LevelTime Difference ICLD et ICTD) qui sont mesureacutees agrave partir drsquoune analyse en sous-bandes Les auteurs y ont plus reacutecemment associeacute un indice de correacutelation interaurale mesureacute agrave partir de la correacutelation inter-canal (ICC) afin de caracteacuteriser la preacutecision spatiale (la ldquolargeurrdquo drsquoune source)

Figure 48 - Scheacutema de principe de la meacutethode BCC [Faller and Baumgarte 2003]

On observe en pratique des deacutefauts lieacutes agrave la brutaliteacute de la proceacutedure une sous-

bande ne peut ecirctre que placeacutee agrave la position indiqueacutee et ne peut pas rester floue diffuse ou encore ecirctre placeacutee agrave plusieurs endroits Pour y remeacutedier nous avons ajouteacute 2 traitements agrave la synthegravese Tour drsquoabord nous avons appliqueacute un leacuteger lissage soulageant les effets deacutesagreacuteables dus au saut du contenu drsquoune sous-bande drsquoun endroit agrave un autre entre de 2 fenecirctres conseacutecutives Les positions varient alors de faccedilon plus souple au sein drsquoune mecircme sous-bande traduisant une hypothegravese de continuiteacute spatiale (pas de deacuteplacement brusque) La contrepartie est que cette hypothegravese est lieacutee agrave une hypothegravese de continuiteacute spectrale

42 Quelques applications 37

La 2egraveme ameacutelioration concerne le positionnement des sources En incluant dans la transmission un critegravere de pertinence on peut savoir srsquoil est raisonnable de placer une sous-bande agrave un angle preacutecis ou bien si lrsquoanalyse eacutetait flou agrave son sujet auquel cas un positionnement impreacutecis serait preacutefeacuterable Le paramegravetre choisi est une combinaison des critegraveres eacutevoqueacutes en 342 il nous permet de placer la sous-bande de maniegravere plus ou moins prononceacutee

43 Comparaison avec une meacutethode existante Certains auteurs ont deacutejagrave essayeacute drsquoanalyser un contenu ambisonique pour

retrouver les positions des sources Ville Pulkki a ainsi deacutecrit dans [Pulkki and Faller 2006] une meacutethode drsquoanalyse du B-format baseacutee sur lrsquoeacutetude des amplitudes des signaux W X Y et Z

Figure 49 - X et Y dans le cas drsquoune sinusoiumlde placeacutee agrave 15deg (agrave gauche) et 120deg (agrave droite)

Les figures ci-dessus montrent les relations drsquoamplitudes (algeacutebriques) qui relient

X et Y agrave lrsquoangle de la source On voit que lrsquoanalyse de ces amplitudes respectives permet de retrouver la position de la source en effet on a pour une source unique les relations de lrsquoeacutequation (11) rappeleacutee ici

⎪⎪

⎪⎪

=

=

=

=

δ

δθ

δθ

sin2

cossin2

coscos2

SZ

SY

SX

SW

(41)

On peut donc theacuteoriquement retrouver les valeurs de θ et δ par relations

trigonomeacutetriques Ainsi on a

⎪⎪⎩

⎪⎪⎨

=

=

2)sin(

)tan(

WZ

XY

δ

θ (42)

Chapitre 4 Reacutesultats et applications 38

On peut donc trouver les angles θ et δ agrave π pregraves Pour lever lrsquoambiguiumlteacute une eacutetude de signe est neacutecessaire Mais dans le cas de θ le signe de X et de Y agrave δ fixeacute deacutepend aussi bien de θ que S Il faut srsquointeacuteresser aux signes de θcos et θsin crsquoest-agrave-dire

aux signes de WX et

WY Dans la pratique on srsquointeacuteressera aux signes de et

pour se preacutevenir des divisions par zeacuteros

XW sdot YW sdot

XW sdot et YW sdot sont proportionnels agrave toujours positif

2S

Les auteurs deacutecrivent eacutegalement dans leur article un critegravere appeleacute diffuseness qui

peut ecirctre compareacute agrave un critegravere de pertinence inverseacute Ce paramegravetre calculeacute par agrave 1 - R ougrave R est un rapport de normes est tregraves proche du critegravere de norme relative deacutecrit en 342 Il peut donc ecirctre utiliseacute de la mecircme faccedilon et permettre ainsi une pleine comparaison

Cette meacutethode a eacuteteacute impleacutementeacutee pour pouvoir ecirctre compareacutee avec la meacutethode

par ACP Tous les paramegravetres ont scrupuleusement eacuteteacute gardeacutes identiques et plusieurs reacuteglages ont eacuteteacute testeacutes Les courbes ci-dessous preacutesentent les reacutesultats des analyses de la scegravene deacutecrite en 332 avec un pas de 50ms un overlap de 50 un NFFT de 2048 et 40 bandes freacutequentielles Nous avons repreacutesenteacute tous les angles trouveacutes crsquoest-agrave-dire un par bande et par trame pour srsquoaffranchir de la seacutelection des k-moyennes

π

0

minusπ

Figure 410 - Angles trouveacutes par lrsquoalgorithme de [Pulkki and Faller 2006] Le diamegravetre du point correspondant agrave la pertinence

43 Comparaison avec une meacutethode existante 39

π

0

minusπ

Figure 411 - Angles trouveacutes par une ACP pour la mecircme scegravene On remarque que les points excentriques sont moins nombreux et plus rarement trouveacutes comme pertinents

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee

441 Position du problegraveme

Une application directe de ces analyses a eacuteteacute deacuteveloppeacutee pour la confeacuterence audio

spatialiseacutee La confeacuterence audio utilise en effet la spatialisation pour permettre une meilleure seacuteparation par lrsquooreille des diffeacuterents locuteurs Ainsi si plusieurs personnes parlent en mecircme temps il sera tregraves difficile de comprendre chacun individuellement si ces voix sont restitueacutees en mono mais on pourra focaliser lrsquoattention sur chacune drsquoentre elles si elles sont seacutepareacutees spatialement (crsquoest lrsquoeffet cocktail party [Cherry 1953])

Lrsquoobjectif eacutetait de veacuterifier qursquoil eacutetait possible de conserver la spatialisation drsquoune

confeacuterence en nrsquoayant transmis qursquoun downmix mono des signaux Ce concept semble se rapprocher de celui deacutecrit en 422 mais une diffeacuterence fondamentale les seacutepare la confeacuterence audio spatialiseacutee nrsquoest pas codeacutee au format ambisonic mais les signaux traiteacutes sont directement les sons provenant des diffeacuterents locuteurs crsquoest-agrave-dire les sources elles-mecircmes Ainsi lrsquoanalyse ne porte plus sur une scegravene spatialiseacutee mais sur des signaux seacutepareacutes Il nrsquoy a ainsi plus drsquoindices spatiaux agrave trouver

Avoir accegraves aux sources permet drsquoobtenir des informations plus preacutecises pour

permettre une seacuteparation apregraves la transmission Comme nous lrsquoavons vu lrsquoanalyse drsquoune scegravene spatialiseacutee ne permet que dans drsquoultimes cas agrave la seacuteparation des sources ce qui est ici notre point de deacutepart et sera en fait notre point drsquoarriveacutee En effet nous tenterons de retrouver les sources seacutepareacutees apregraves la transmission de maniegravere agrave pouvoir par la suite les spatialiser agrave loisir (voir Figure 413)

Chapitre 4 Reacutesultats et applications 40

442 Solution proposeacutee Les paramegravetres extraits ne sont donc plus des positions de sources Nous avons

choisi de mesurer puis transmettre lrsquoeacutenergie de chaque signal dans chaque sous-bande en parallegravele du downmix En effet une bonne seacuteparation sera possible si lrsquoon sait quelle proportion de chaque source compose chaque sous-bande du signal mono

Figure 412 - Scheacutema de principe drsquoune confeacuterence audio spatialiseacutee

Figure 413 - Scheacutema ameacutelioreacute (deacutebit reacuteduit)

en pointilleacutes informations compleacutementaires (eacutenergie) Lrsquoanalyse en sous-bandes a lieu dans le serveur (Figure 414) Celui-ci calcule

lrsquoeacutenergie de chaque signal dans chaque sous-bande sur une trame donneacutee Crsquoest ce paramegravetre qui associeacute au signal mono M permettra la seacuteparation des sources dans le terminal (Figure 415) Ce dernier reacutepartira en effet les diffeacuterentes sous-bandes vers chaque signal reconstitueacute proportionnellement agrave cette information pour reconstruire les 4 sources originales

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee 41

Figure 414 - Analyse principe de lrsquoencodage dans le serveur

Figure 415 - Synthegravese principe du deacutecodage dans le client

Afin de reacuteduire au maximum les informations compleacutementaires agrave transmettre on

peut remarquer qursquoau cours drsquoune confeacuterence audio on a tregraves souvent un seul locuteur les participants ne parlent que tregraves rarement tous en mecircme temps Ceci implique que les signaux en entreacutee sont tregraves souvent tous nuls sauf 1 et appliquer un seuil en entreacutee de lrsquoanalyse permet outre lrsquoallegravegement du traitement drsquoavoir moins de paramegravetres agrave transmettre

Ce scheacutema simplifieacute ne tient pas compte des problegravemes de phase rien nrsquoindique

que les eacutenergies des signaux srsquoajoutent bien dans chaque sous-bande lors du downmix on peut tregraves bien avoir des oppositions de phase La solution est drsquoeffectuer le downmix (la somme) des signaux dans chaque sous-bande en prenant soin drsquoavoir recaleacute les phases au preacutealable Ceci nrsquoa un sens que pour des bandes suffisamment eacutetroites Les deacutecalages temporels appliqueacutes pour le recalage sont alors des paramegravetres suppleacutementaires agrave transmettre et sont pris en compte lors de la synthegravese au niveau du reacutepartiteur qui repositionnera la phase de chaque trame pour chaque signal

Chapitre 4 Reacutesultats et applications 42

443 Bilan Le reacutesultat du deacutecodage a pu ecirctre eacutecouteacute de diffeacuterentes maniegraveres les sources

reconstitueacutees individuellement ensemble en steacutereacuteo drsquoamplitude et sur un systegraveme 51 On note que les sources ont eacuteteacute assez bien seacutepareacutees mais que des artefacts sont audibles en particulier lorsque le nombre de locuteurs simultaneacutes augmentent Ces artefacts sont un meacutelange des voix qui nrsquoest gecircnant que lorsqursquoon les eacutecoute de maniegravere seacutepareacutee En effet lrsquoeacutecoute simultaneacutee de ces signaux syntheacutetiseacutes mecircme placeacutes agrave des positions distinctes sur un systegraveme de diffusion multicanal est tout agrave fait satisfaisante

Ce proceacutedeacute pour pouvoir ecirctre appliqueacute doit fonctionner en temps-reacuteel Cette

contrainte nrsquoa pas du tout eacuteteacute prise en compte lrsquoobjectif eacutetant de valider la faisabiliteacute drsquoune reconstruction Les programmes sous Matlab nrsquoont pas eacuteteacute optimiseacutes et ne respectent pas cette contrainte

43

Conclusion Nous avons preacutesenteacute dans ce rapport le principe et lrsquoapplication de plusieurs

meacutethodes drsquoanalyses spatiales de scegravenes ambisoniques conccedilues et reacutealiseacutee pendant le stage Le format HOA est en effet une repreacutesentation du champ acoustique deacutecomposeacute sur une base drsquoharmoniques spheacuteriques jusqursquoagrave un certain ordre agrave la maniegravere drsquoun deacuteveloppement limiteacute Il contient donc de maniegravere indirecte des indications spatiales qursquoon peut extraire avec des analyses comme lrsquoanalyse en composantes principales

Ces analyses nous permettent de deacuteterminer les positions des sources qui

composent la scegravene sonore Nous avons appliqueacute les reacutesultats de ces analyses agrave 2 types de synthegravese lrsquoune destineacutee aux transmissions bas deacutebit lrsquoautre agrave un traitement de restitution de la preacutecision spatiale dans le cas ougrave des ordres supeacuterieurs dont le but est drsquoaffiner la perception de localisation nrsquoauraient pas pu ecirctre transmis Ces algorithmes par le codage drsquoinformations spatiales qursquoils permettent pourront trouver bien drsquoautres applications dans la transmission et le codage ougrave la description du contenu est de plus en plus utiliseacutee (comme par exemple dans la norme MPEG)

Des ameacuteliorations sont possibles sur plusieurs points tout drsquoabord lrsquoexploitation

de toutes les composantes de lrsquoACP est agrave lrsquoeacutetude et semble pouvoir donner des reacutesultats inteacuteressants Drsquoautre part on a vu que le reacutesultat final est tregraves deacutependant de la bonne convergence de lrsquoalgorithme des k-moyennes utiliseacute pour traiter les donneacutees brutes de lrsquoanalyse en sous-bandes Or cet algorithme neacutecessite des reacuteglages tregraves fins et une connaissance a priori du nombre de sources est presque indispensable Drsquoautres algorithmes plus complexes de suivi de formes pourraient ecirctre avantageusement utiliseacutes pour deacutetecter dans tous les angles trouveacutes lesquels sont susceptibles de former une trajectoire

45

Annexe A

Deacuteveloppement du champ acoustique en harmoniques spheacuteriques

A1 Eacutequation drsquoonde en coordonneacutees spheacuteriques On se place dans lrsquoespace euclidien agrave 3 dimensions muni drsquoun systegraveme de

coordonneacutees spheacuteriques Un point M y est repeacutereacute par son rayon r son azimut θ et son eacuteleacutevation δ tels que repreacutesenteacutes sur la figure ci-dessous

- r est la norme du vecteur position rr crsquoest-agrave-dire la distance OM - [20[ πθ isin est lrsquoangle formeacute par le projeteacute du point sur le plan xOy et lrsquoaxe Ox

- ]2

2

[ ππδ minusisin est lrsquoangle formeacute par le plan xOy et le vecteur position2

Figure A1 - Systegraveme de coordonneacutees spheacuteriques

2 Cet angle diffegravere de lrsquoangle polaire usuel δπϕ minus=

2 habituellement pris entre lrsquoaxe Oz et le

vecteur position

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 46

Les relations entre les coordonneacutees spheacuteriques et les coordonneacutees carteacutesiennes sont

⎪⎩

⎪⎨

===

δδθδθ

sincossincoscos

zryrx

(A1)

On srsquointeacuteresse dans ce repegravere agrave lrsquoeacutequation de propagation des ondes acoustiques

de pression On se place dans les conditions classiques drsquoacoustique lineacuteaire (les variations de p sont petites par rapport agrave la pression atmospheacuterique) en supposant que lrsquoair est un fluide parfait (on y neacutegligera les pheacutenomegravenes dissipatifs) Dans une reacutegion de lrsquoespace ne comprenant pas de sources lrsquoeacutequation drsquoonde srsquoeacutecrit alors

0)(12

2

2 =⎟⎟⎠

⎞⎜⎜⎝

⎛partpart

minus∆ trptc

r (A2)

p eacutetant la pression et c la vitesse de propagation du son dans lrsquoair

Cette eacutequation devient dans le domaine freacutequentiel lrsquoeacutequation de Helmholtz

( ) 0)(2 =+∆ ωrpk r (A3)

ck ω

= eacutetant le nombre drsquoonde

En coordonneacutees spheacuteriques cette eacutequation srsquoeacutecrit

0sin1sin

sin11 2

2

2

222

2 =⎥⎦

⎤⎢⎣

⎡+

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart pk

rrrr

rr δθθθ

θθ (A4)

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques Drsquoapregraves [Bruneau 1983] elle admet des solutions agrave variables seacutepareacutees de la forme

)()()( δθ ΦΘ= rRp (A5) Ces solutions sont respectivement - pour la partie radiale une combinaison des fonctions de Bessel spheacuteriques de

premiegravere et seconde espegravece3 jn et nn

)()()( krBnkrAjrR nn += (A6) 3 Les fonctions de Bessel spheacuteriques de seconde espegravece sont eacutegalement appeleacutees fonctions de

Neumann

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 47

Ces fonctions sont deacutefinies comme suit

(A7)

Figure A2 - Fonctions de Bessel spheacuteriques pour les ordres 0 agrave 5 )(krjm

- pour la partie azimutale les fonctions )(θΘ

)sin()cos()( 21 θθθ ncnc +=Θ (A8) Eacutetant donneacute la deacutefinition de lrsquoangle Θ celui-ci doit neacutecessairement ecirctre de

peacuteriode 2π ))2()(( πθθ +Θ=Θ ce qui impose agrave n drsquoecirctre entier

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 48

- pour la partie polaire les fonctions de Legendre associeacutees )(sinδmnP

nm

nn

mn dPdP

)(sin)(sinsin)(sin

δδ

δδ = pour ⎩⎨⎧

gt=

nmavecnm 321

(A9)

ougrave les )(sinδnP sont les polynocircmes de Legendre de degreacute n en δsin deacutefinis par reacutecurrence

( )

11

22

1

0

sin)12()(sin)1(

1cos321)(sin

sin)(sin0)(sin

minus+ minus+=+

minus=

==

mmm mPPmPmet

P

PP

δδ

ϕδ

δδδ

(A10)

et de formule geacuteneacuterale

mm

m

mm dd

mP )1(sin

)(sin21)(sin 2 minus= δ

δδ (A11)

On peut appliquer aux fonctions )(sinδmnP la semi-normalisation de Schmidt

)(sin)()()(sin~ δεδ mnnmn P

nmnmP

+minus

= ougrave 10 =ε et 2=nε pour 1gen (A12)

En appariant les fonctions polaires et azimutales on deacutefinit les harmoniques

spheacuteriques de degreacute et drsquoordre)1(mnY 0gem 4 mnn lele0 et de degreacute et

drsquoordre (voir Figure A3)

)1(minusmnY 1gem

mnn lele1

)(sin~)sin()(

)(sin~)cos()()1(

)1(

δθδθ

δθδθ

mnmn

mnmn

PnY

PnY

=

=minus

(A13)

4 En geacuteneacuteral lorsque le degreacute et lrsquoordre ne sont pas eacutevoqueacutes conjointement on parle par abus de langage drsquoharmoniques drsquoordre m plutocirct que de degreacute m

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 49

soit

1)(sin

)()()12(2sin)(

)(sin)()()12(2cos)(

1)(sin)1()1()12(cos)(

)1(

)1(

1)1(

1

gt

⎪⎪⎩

⎪⎪⎨

+minus

+=

+minus

+=

=+minus

+=

minus

npourP

nmnmmnY

PnmnmmnY

npourPmmmY

mnmn

mnmn

mm

δθδθ

δθδθ

δθδθ

(A14)

La solution angulaire geacuteneacuterale srsquoeacutecrit alors sous la forme drsquoun deacuteveloppement sur

la base drsquoharmoniques spheacuteriques

( ) ( )sum minus

=minus+=Θ

1

1)1()1()( n

m mnmnmnmnn YBYBθ (A15) La solution geacuteneacuterale est alors la seacuterie de Fourier-Bessel

sum sum sum+infin

= = plusmn=

=0 0 1

)()( )()()(m

m

nmnmnm

m YBkrjikrpσ

σσ δθδθ (A16)

ougrave

intint⎪⎩

⎪⎨⎧

minusisin

isin

plusmnplusmn =

]2

2

[

[20[

)1()1( )()1()(

1

ππδ

πθ

δθδθ

S

mnm

mmn dSYpkrji

B (A17)

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 50

Tableau A1 - Expressions analytiques des harmoniques spheacuteriques pour les ordres 0 agrave 3

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 51

Figure A3 - Repreacutesentation des harmoniques spheacuteriques pour les ordres m = 0 agrave 3 Les

couleurs rouge et bleu indiquent respectivement des valeurs positives et neacutegatives

53

Annexe B

Compleacutements theacuteoriques sur le deacutecodage HOA

B1 Vecteur veacutelociteacute et vecteur eacutenergie Le vecteur veacutelociteacute est un indice de la direction apparente drsquoune source introduit

par Gerzon [Gerzon 1992] Il se calcule comme le rapport de la vitesse particulaire sur la pression acoustique

)()(

)()(1

δθδθ

δθδθ

ρ rprp

ki

rprv

cV nabla

minus=minus=rrr

(B1)

Dans le cas drsquoune onde plane le vecteur veacutelociteacute V

rest ainsi directement un

vecteur unitaire orienteacute vers la direction de provenance de lrsquoonde En geacuteneacuteralisant agrave une superposition drsquoondes planes en phase ou opposition de phase eacutemises par L haut-parleurs agrave eacutequidistance du point drsquoobservation on obtient la formule suivante

VVL

ll

L

lll

urg

ugV r

rr

==

sum

sum

=

=

1

1 (B2)

ougrave deacutesigne la direction du llur egraveme haut-parleur auquel est associeacute le gain gl et Vr Vur correspondent respectivement agrave la norme et agrave la direction du vecteur veacutelociteacute

Le vecteur eacutenergie est un autre indice de direction Il est deacutefinit par

EEL

ll

L

lll

urg

ugE r

rr

==

sum

sum

=

=

1

2

1

2

(B3)

Annexe B Compleacutements theacuteoriques sur le deacutecodage HOA 54

Il peut srsquointerpreacuteter comme une indication de la concentration de lrsquoeacutenergie ( ) et de sa direction moyenne de provenance (

Er

Eur ) On a toujours 1ltEr sauf dans le cas ougrave un seul haut-parleur contribue agrave la reconstruction (dans ce cas ) peut ecirctre consideacutereacute comme un indicateur de preacutecision de la localisation

1=Er Er

B2 Deacutecodages optimiseacutes La restitution la plus confortable drsquoun champ sonore veillera donc agrave maximiser

tout en essayant de garder le plus proche possible de 1 Lrsquooptimisation du deacutecodage consiste alors agrave multiplier chaque coefficient de la matrice de deacutecodage D (voir (111) par des gains calculeacutes drsquoapregraves des critegraveres drsquooptimisation

Er Vr

Ainsi le deacutecodage appeleacute max- maximise la norme du vecteur eacutenergie en

sacrifiant celle du vecteur veacutelociteacute puisqursquoon a dans ce deacutecodage (pour des configurations reacuteguliegraveres de haut-parleurs) Ce deacutecodage est donc avantageux par rapport au deacutecodage basique pour les hautes freacutequences ou dans le cas drsquoun auditoire eacutelargi Le deacutecodage in-phase va encore plus loin en cherchant agrave annuler complegravetement les contributions des haut-parleurs placeacutes agrave lrsquoopposeacute de la direction de provenance de lrsquoonde reproduite Ce critegravere est utile dans le cas drsquoune eacutecoute dans une position tregraves excentreacutee agrave laquelle on pourrait percevoir de faccedilon preacutedominante la contribution en opposition de phase drsquoun tel haut-parleur

Er

EV rr =

Ces diffeacuterents deacutecodages ont chacun des avantages et inconveacutenients Ainsi seul le

deacutecodage basique garantit = 1 le deacutecodage max- permet une preacutecision meilleure notamment en haute freacutequence et le deacutecodage in-phase est plus adapteacute agrave un auditoire plus large Jeacuterocircme Daniel [Daniel 2000] propose ainsi de changer le deacutecodage en fonction de la freacutequence et de lrsquoeacutetendue de la zone drsquoeacutecoute deacutesireacutee

Vr Er

Figure B1 - Deacutecodages les plus approprieacutes par sous-bande et en fonction de lrsquoeacutetendue de la

zone drsquoeacutecoute [Daniel 2000]

55

Annexe C

Analyse en composantes principales

C1 Espace des donneacutees Eacutegalement souvent appeleacutee transformeacutee de Karhunen-Loegraveve5 (TKL) lrsquoanalyse en

composantes principales (ACP) est une technique statistique de repreacutesentation drsquoinformation Introduite sur 2 variables par Pearson [Pearson 1900] elle a eacuteteacute eacutetendue par Hotelling [Hotelling 1933] Elle a pour but de caracteacuteriser des donneacutees drsquoun espace agrave N dimensions dans un sous-espace plus petit en minimisant les pertes drsquoinformation due agrave la projection crsquoest-agrave-dire en maximisant la variance projeteacutee Les donneacutees ainsi reacuteorganiseacutees deviennent indeacutependantes Les variables correacuteleacutees sont remplaceacutees par de nouvelles variables deacutecorreacuteleacutees et de variance maximale combinaisons lineacuteaires des variables initiales

Les donneacutees sont constitueacutees de n variables aleacuteatoires (dans notre cas des canaux)

et p reacutealisations ou individus (des eacutechantillons)

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

pn

p

ji

n

xx

x

xx

M

LLL

MOMNM

MLLM

MNMOM

LLL

1

111

(C1)

Ces donneacutees sont geacuteneacuteralement centreacutees et peuvent aussi ecirctre reacuteduites4 (on note

1x la moyenne de la variable et 1x )( 1xσ sa variance) Reacuteduire ou non le nuage de points (ie les p reacutealisations de la variable aleacuteatoire) est un choix de modegravele

5 Quelques rares sources mentionnent une diffeacuterence entre ACP et TKL en placcedilant celle-ci au

niveau du choix de la reacuteduction des donneacutees dans le cas dune ACP les donneacutees seraient centreacutees et reacuteduites alors qursquoelles seraient uniquement centreacutees pour une TKL

Annexe C Analyse en composantes principales 56

- si on ne reacuteduit pas le nuage une variable agrave forte variance pourrait tirer tout lrsquoeffet de lrsquoACP agrave elle

- si on reacuteduit le nuage une variable qui ne serait qursquoun bruit se retrouverait avec une variance apparente eacutegale agrave une variable informative

M est centreacutee

⎥⎥⎥

⎢⎢⎢

minusminusminus

minusminus=

npn

pi

ji

nn

xxxxxx

xxxxM

K

MM

K

11

11

11

ˆ (C2)

M~ est centreacutee et reacuteduite

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

minusminus

minus

minusminus

=

)()(

)(

)()(~

1

11

1

1

111

n

npn

pi

ij

i

n

nn

xxx

xxx

xxx

xxx

xxx

M

σσ

σ

σσ

K

MM

K

(C3)

On multiplie ensuite la matrice obtenue par sa transposeacutee pour obtenir - La matrice de covariance MMC t

vˆˆ sdot=

- La matrice de correacutelation MMC tr

~~ sdot= Ces matrices sont carreacutees (N x N) symeacutetriques et reacuteelles Elles sont donc

diagonalisables dans une base orthonormeacutee 6 Le principe de lrsquoACP est alors de trouver un axe u issu drsquoune combinaison lineacuteaire

des tel que le critegravere drsquoinertie du nuage autour de cet axe soit maximal Le critegravere drsquoinertie couramment utiliseacute est la variance Il faut donc trouver lrsquoaxe qui porte le maximum de variance crsquoest-agrave-dire lrsquoaxe u tel que la projection du nuage sur cet axe ait une variance maximale

nx

6 Nos donneacutees eacutetant ici des valeurs drsquoeacutechantillons elles sont par nature centreacutees et reacuteduites On

formera donc naturellement la matrice de correacutelation

C2 Diagonalisation 57

C2 Diagonalisation Pour alleacuteger lrsquoeacutecriture de la suite de cette partie nous consideacutererons que les

variables ont eacuteteacute centreacutees et si besoin reacuteduites et nous noterons ces variables

transformeacutees (ainsi

ix ix

iii xxx minuslarr ou bien )( i

iii x

xxxσ

minuslarr ) On fera de mecircme pour M

( ou bien MM ˆlarr MM ~larr ) et C ( vCC larr ou bien rCC larr ) La projection drsquoun eacutechantillon sur un axe u srsquoeacutecrit ix

uMxiu sdot=)(π (C4) La variance empirique de )( iu xπ vaut donc

uMMuxx ttiu

tiu sdotsdotsdot=sdot )()( ππ (C5)

Or on a vu que est diagonalisable dans une base orthonormeacutee donc

on peut noter P le changement de base associeacute et ∆ la matrice diagonale formeacutee de son spectre Ainsi

MMC t=

n

i 1)(λ PPMMC tt ∆==

)()()()( PuPuuPPuxx ttt

iut

iu sdot∆sdot=sdot∆sdot=sdotππ (C6) On pose v = Pu Chercher lrsquoaxe u qui maximise )( iu xπ revient donc agrave chercher le

vecteur v qui maximise ougravevvt ∆ )( 1 ndiag λλ K=∆ avec les iλ rangeacutes par ordre deacutecroissant Ce vecteur est trivialement le premier vecteur unitaire et on a alors

1λ=∆vvt

Ainsi le vecteur qui porte la plus grande part drsquoinertie du nuage est le premier

vecteur propre de C (premier par norme deacutecroissante) De mecircme le deuxiegraveme vecteur qui explique la plus grandelt part de lrsquoinertie restante est le deuxiegraveme vecteur propre de C Finalement la question de lrsquoACP se ramegravene agrave un problegraveme de diagonalisation de la matrice de correacutelation

C3 Code Matlab

function [vep vap] = pca(f N) f donneacutees N nombre de composantes agrave garder cor = f f formation de la matrice de correacutelation [vep vap] = eig(cor) calcul des vecteurs (vep) et valeurs (vap) propres [vap ind] = sort(diag(vap)) tri des valeurs propres par ordre croissant vap = flipud(vap) disposition inverse par ordre drsquoimportance vep = vep( flipud(ind)) classement en conseacutequence des vecteurs propres vep = vep( 1N) on ne garde que les N premiers vecteurs propres

Annexe C Analyse en composantes principales 58

59

Annexe D

Analyse en sous-bandes

D1 La transformeacutee de Fourier agrave court terme (TFCT) Pour affiner lrsquoanalyse les signaux sont donc deacutecoupeacutes en bandes de freacutequence par

TFCT La TFCT consiste agrave effectuer des transformeacutees de Fourier discregravetes sur des portions de signal fenecirctreacutees reacuteguliegraverement espaceacutees

On rappelle que la transformeacutee de Fourier drsquoun signal x(t) est deacutefinie (lorsque

lrsquointeacutegrale existe) par

int+infin

infinminus

minus= dtetxfX ftiπ2)()( (D1)

La transformeacutee de Fourier agrave temps discret (TFTD) drsquoun signal x(t) srsquoeacutecrit

sum+infin

minusinfin=

minus=n

fnienxfX π2)()( (D2)

La transformeacutee de Fourier discregravete (TFD) drsquoun signal discret x(k) est deacutefinie par

sum+infin

minusinfin=

minus=

n

Nkni

enxkXπ2

)()( (D3)

La TFCT discregravete est une TFD observeacutee sur une fenecirctre wa de taille N

summinus

=

minus+=

1

0

2)())(()(

N

n

Nnki

aaa enwtnxkXπ

ττ (D4)

ougrave )(taτ est lrsquoinstant drsquoanalyse

Annexe D Analyse en sous-bandes 60

Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT [Laroche 1995]

D2 Synthegravese par addition-recouvrement Lors de la synthegravese apregraves le deacutecoupage et lrsquoanalyse des fenecirctres on cherche agrave

reconstruire le signal temporel agrave partir de sa repreacutesentation freacutequentielle Pour cela on utilise la meacutethode OLA (overlap and add addition-recouvrement) qui consiste agrave prendre la TFCT inverse des spectres Xt puis agrave additionner les signaux obtenus apregraves les avoir multiplieacutes par une fenecirctre de pondeacuteration en les faisant se recouvrir partiellement

Le reacutesultat est donneacute par

sum=

minusminus=T

tsss tnxtnwnx

s1

))((~))(()(~ ττ τ (D5)

avec )()( tt as ττ = et summinus

=

=1

0

2))((~1)(~ N

k

Nkni

s ektXN

nxs

π

τ τ

Lors de la mise en œuvre de ce traitement il faut srsquoassurer drsquoecirctre en mesure de

reconstruire parfaitement un signal lorsqursquoaucune transformation ne lui est appliqueacutee Le critegravere de reconstruction parfaite condition suffisante est alors

sum=

=minusminusT

tasaa tnwtnw

11))(())(( ττ quelque soit n (D6)

D2 Synthegravese par addition-recouvrement 61

Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add [Laroche 1995]

Plusieurs paramegravetres sont agrave choisir avec soin Le premier drsquoentre eux est le type

de fenecirctre agrave utiliser Les diffeacuterentes options qui se preacutesentent agrave nous sont - la fenecirctre rectangulaire qui preacutesente dans son spectre le lobe principal le plus

eacutetroit mais des lobes secondaires non neacutegligeables - la fenecirctre de Hamming au lobe principal un peu plus large mais pour laquelle le

1er lobe secondaire se situe agrave -43 dB - la fenecirctre de Hann (ou cosinus sureacuteleveacute) qui ressemble agrave la preacuteceacutedente avec un

1er lobe secondaire plus fort mais une pente de 18 dB par octave pour les lobes suivants

- les fenecirctres de Blackman-Harris aux lobes secondaires tregraves bas mais au lobe principal plus large

Fenecirctre Lobe 2aire

(dB) Pente

(dBoct) Bande passante

agrave 6 dB (bins) Rectangulaire -13 -6 121 Triangulaire -27 -12 178

Hann -32 -18 200 Hamming -43 -6 181

Blackman-Harris 4 -92 -6 272

Tableau D1 - Caracteacuteristiques des principales fenecirctres drsquoanalyse [Harris 1978] Le meilleur compromis est donc dans notre contexte la fenecirctre de Hann ou celle

de Hamming

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 15: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

12 Encodage et deacutecodage spatial 9

haut-parleurs Crsquoest une opeacuteration matricielle qursquoon peut formaliser dans le cas drsquoun deacutecodage dans le plan horizontal par lrsquoeacutequation

BSC =sdot (18)

ougrave la matrice C contient les vecteurs harmoniques spheacuteriques associeacutes agrave chaque direction de haut-parleur et organiseacutes suivant ses lignes le vecteur S contient les signaux eacutemis par les L haut-parleurs et enfin le vecteur B contient les signaux HOA

⎟⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜⎜

=

⎟⎟⎟⎟⎟

⎜⎜⎜⎜⎜

=

⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢

=

10

100

2

1

1011

10

11111

111

10011

100

)()()(

)()()()(

M

mn

LLLMM

llmn

LL

LL

B

B

B

B

S

SS

S

YYY

YYYY

CM

M

M

L

MM

L

L

σσ

δθδθδθ

δθδθδθδθ

(19)

)( ll δθ repeacuterant la position du legraveme haut-parleur

Il faut donc estimer S connaissant B et C Le deacutecodage se reacutesume alors agrave un systegraveme de (M +1)2 (en 3D) ou 2M +1 (en 2D) eacutequations lineacuteaires agrave L inconnues On ne peut trouver de solution exacte que si le nombre de haut-parleurs est au moins eacutegal au nombre de signaux crsquoest-agrave-dire si L gt (M +1)2 (en 3D) ou 2M +1 (en 2D) Crsquoest en outre une condition neacutecessaire pour pouvoir avoir une reproduction homogegravene de la scegravene sonore

La matrice C nrsquoest pas neacutecessairement carreacutee et inversible une solution geacuteneacuterale

consiste agrave calculer lrsquoinverse geacuteneacuteraliseacutee de la matrice C noteacutee D encore appeleacutee pseudo-inverse de Moore-Penrose

BDS sdot= (110)

avec

1pinv( ) ( )t tD C C C C minus= = sdot sdot (111) D est appeleacutee matrice de deacutecodage BDS sdot= reacutesout le systegraveme (18) si les haut-

parleurs sont suffisamment nombreux L gt (M +1)2 (en 3D) ou 2M +1 (en 2D)) Srsquoils sont en outre disposeacutes sur une sphegravere (3D) ou un cercle (2D) de maniegravere eacutequidistante crsquoest-agrave-dire srsquoils sont les sommets drsquoun polyegravedre ou polygone reacutegulier ils preacuteservent alors la proprieacuteteacute drsquoorthonormaliteacute des harmoniques spheacuteriques Ceci se traduit par

Lt ILCC sdot=sdot (112)

ougrave IL est la matrice identiteacute de taille LLtimes On a alors

1pinv( ) tD CL

= = C (113)

Chapitre 1 Ambisonics 10

Cette proprieacuteteacute ne peut pas ecirctre matheacutematiquement veacuterifieacutee en 3D au-delagrave de lrsquoordre 2 autrement dit il nrsquoexiste pas de polyegravedre reacutegulier dont la position des sommets conserve strictement lrsquoorthonormaliteacute des harmoniques spheacuteriques

Visuellement le deacutecodage correspond agrave la reproduction du champ sonore tel qursquoil

aurait eacuteteacute capteacute par un ensemble de N microphones agrave directiviteacutes hyper-cardioiumldes tourneacutes chacun vers lrsquoun des haut-parleurs Leur directiviteacute serait drsquoautant plus preacutecise que lrsquoordre de reproduction est eacuteleveacute

Figure 16 - Prise de son virtuelle eacutequivalente agrave un encodage au 1er ordre et un deacutecodage

basique sur une disposition en 2D hexagonale [Moreau et al 2006] Le gain gl appliqueacute agrave chaque haut-parleur pour une direction de source virtuelle donneacutee

(en vert) est indiqueacute par la longueur des flegraveches et est reporteacutee aux points drsquointersection de la flegraveche verte et des diagrammes de directiviteacute

On peut remarquer que les diagrammes de directiviteacute sont tregraves larges par rapport

agrave lrsquoespacement angulaire des haut-parleurs Le 2nd ordre offrirait des directiviteacutes plus fines et donc une seacutelectiviteacute spatiale accrue Il faudrait alors bien sucircr davantage de haut-parleurs pour ne pas introduire des ldquotrousrdquo entre eux On remarque eacutegalement la preacutesence non neacutegligeable des lobes secondaires utiles pour la reconstruction du champ acoustique (notamment en basses freacutequences) mais qui peuvent ecirctre gecircnants dans certains cas par exemple lorsque lrsquoauditoire est large

Ce deacutecodage est appeleacute deacutecodage basique car il nrsquooptimise pas la restitution en

accord une quelconque hypothegravese et cherche uniquement agrave reproduire fidegravelement le champ acoustique Pour ameacuteliorer la restitution dans des cas critiques comme par exemple en-dehors du sweet spot (centre du dispositif) il faut optimiser le deacutecodage en reacuteduisant par exemple les lobes secondaires Ainsi le deacutecodage max-rE srsquoattache agrave maximiser lrsquoeacutenergie reccedilue de la provenance de la direction souhaiteacutee alors que le deacutecodage in-phase annule complegravetement ces lobes secondaires (voir Annexe B)

13 Critique de la technologie HOA 11

13 Critique de la technologie HOA

131 Bilan On a ainsi vu que la technologie HOA est une repreacutesentation intermeacutediaire du

champ de pression acoustique agrave mi-chemin entre la description directe du champ lui-mecircme et des signaux agrave restituer Cette technologie a de nombreux avantages compareacutee aux autres meacutethodes de reproduction de champ sonore (on trouvera notamment une eacutetude deacutetailleacutee des comparaisons entre HOA et la Wave Field Synthesis (WFS) dans [Daniel et al 2003]) elle permet drsquoeacuteviter le repliement spatial (voir paragraphe suivant) et permet ainsi une reconstruction dans une gamme de freacutequences tregraves large

La qualiteacute de la restitution ambisonique nrsquoest theacuteoriquement limiteacutee que part

lrsquoordre de troncature de la seacuterie de Fourier-Bessel agrave partir du moment ougrave le nombre de haut-parleurs est suffisant Ainsi un ordre tendant vers lrsquoinfini (et un nombre de haut-parleurs au moins aussi grand) permettra une reproduction quasi-parfaite sur lrsquoensemble de la zone drsquoeacutecoute

Mais les principaux avantages de cette technologie sont drsquoune part drsquoecirctre flexible

crsquoest-agrave-dire qursquoon peut agrave loisir adapter le nombre de signaux transmis au canal de transmission Une chute de deacutebit nrsquoentraicircnera pas de coupure de la transmission mais simplement une perte de preacutecision spatiale par lrsquoabandon des composantes drsquoordres les plus eacuteleveacutes Et drsquoautre part elle est indeacutependante du systegraveme de reproduction Ainsi un mecircme signal HOA pourra ecirctre diffuseacute sur toutes les configurations de haut-parleurs il suffira pour cela de calculer la matrice de deacutecodage associeacutee agrave ce systegraveme

132 Limites pratiques Dans la pratique cette technologie a toutefois des limitations Si lrsquoaliasing spectral

est eacuteviteacute on constate aux ordres les plus eacuteleveacutes lrsquoapparition drsquoun repliement spatial lors des enregistrements naturels agrave partir drsquoune freacutequence lieacutee agrave la distance maximale entre 2 capsules du microphone HOA (qui doit ecirctre au plus eacutegale agrave la moitieacute de la plus petite longueur drsquoonde drsquoapregraves Shannon) et au nombre total de capsules (qui doit ecirctre supeacuterieur agrave (M+1)2 M eacutetant lrsquoordre auquel on souhaite enregistrer)

Le repliement spectral repreacutesente la preacutesence importune dans des composantes

ambisoniques de sources qui de part leur position ne devraient qursquoapparaicirctre avec cette importance que dans les composantes drsquoordre plus eacuteleveacute Il est ducirc agrave lrsquointrusion des directiviteacutes drsquoordres supeacuterieurs dans les composantes harmoniques spheacuteriques estimeacutees Comme on le voit sur la Figure 17 les directiviteacutes ne sont pas des cylindres (au sens matheacutematique du terme la base nrsquoeacutetant pas forceacutement un cercle) mais varient en fonction de la freacutequence pour ressembler davantage dans le haut du spectre aux courbes de directiviteacute de lrsquoordre supeacuterieur Ainsi la directiviteacute de lrsquoordre 1 (2egraveme graphique) qui devrait ecirctre un 8 ressemble davantage au-dessus de 10 000 Hz agrave la figure de directiviteacute de lrsquoordre 4 (8 lobes)

Chapitre 1 Ambisonics 12

Figure 17 - Directiviteacutes theacuteoriques (en transparence) et reconstruites (grille) dans le plan horizontal pour des ondes planes horizontales Lrsquoaxe vertical correspond agrave la freacutequence et

les diffeacuterents graphiques aux ordres 0123 et 4 de gauche agrave droite Agrave lrsquoopposeacute la taille reacuteduite du microphone si elle permet de reacuteduire cet aliasing

spatial empecircche la capture des basses freacutequences aux ordres supeacuterieurs (voir 232) La reacutesolution spatiale des basses freacutequences sera donc moindre ce qui implique que en ajoutant lrsquoeffet du repliement en hautes freacutequences les ordres eacuteleveacutes capteacutes avec le micro HOA ne constituent qursquoune plage du spectre assez peu eacutetendue crsquoest cette seule plage qui pourra se targuer drsquoune excellente preacutecision spatiale

13

Chapitre 2

Analyser un contenu HOA

21 Objectifs La reacuteflexion a tout au long du stage eacuteteacute orienteacutee vers deux objectifs le premier

est dans un contexte de transmission de reconstruire une scegravene spatialiseacutee agrave partir du minimum drsquoinformations le deuxiegraveme appliqueacute agrave des ordres plus eacuteleveacutes est drsquoarriver agrave resyntheacutetiser les composantes de lrsquoordre immeacutediatement supeacuterieur

211 Restitution de la spatialisation agrave partir drsquoun downmix mono La premiegravere approche vise donc agrave reconstruire une scegravene spatialiseacutee agrave partir drsquoun

downmix le plus leacuteger possible Un downmix est une reacuteduction du nombre de canaux par fusion lrsquoexemple le plus simple eacutetant le passage drsquoun signal steacutereacuteo agrave un signal mono construit comme la demi-somme des composantes gauche et droite On tente dans cette approche de se restreindre au plus petit nombre de signaux possible un signal eacutetant tregraves coucircteux agrave transmettre en ajoutant parallegravelement agrave ce signal des informations compleacutementaires aidant agrave la reconstruction

Le cas extrecircme est la reacuteduction du flux agrave un signal mono Dans le cas

drsquoambisonics un signal mono comprenant toutes les sources est deacutejagrave preacutesent il srsquoagit de la composante omnidirectionnelle W Il faut donc extraire de la scegravene encodeacutee agrave un certain ordre M des informations permettant la reconstruction drsquoun ordre Mrsquo apregraves transmission Nous verrons que nous allons chercher agrave trouver les positions des sources gracircce agrave une analyse en composantes principales (ou ACP voir Annexe C) effectueacutee par sous-bandes (voir Annexe D)

212 Ameacutelioration de la preacutecision spatiale La deuxiegraveme piste suivie a pour but de reconstituer un ordre ambisonique non

transmis On pourrait qualifier cette approche drsquoupmix ambisonique car elle vise agrave reconstruire un ordre manquant En effet le format ambisonique eacutetant flexible il est bien

Chapitre 2 Analyser un contenu HOA 14

adapteacute agrave la transmission Ainsi si on souhaite transmettre une scegravene encodeacutee agrave lrsquoordre 2 dans le plan horizontal il faudra un canal drsquoun deacutebit minimum (si lrsquoon prend lrsquohypothegravese de pas vouloir compresser les signaux) de 471 Mos Un canal plus petit (par exemple 34 Mos) ne permettra theacuteoriquement de transmettre qursquoun ordre 1 Mais lrsquoanalyse des signaux peut permettre de deacuteterminer les positions des sources agrave partir desquelles on peut syntheacutetiser des composantes du 2nd ordre approchant les composantes drsquoorigine On pourrait mecircme imaginer pouvoir syntheacutetiser un ordre qui nrsquoavait pas eacuteteacute encodeacute agrave lrsquoorigine

Pour cela il est neacutecessaire de deacuteterminer les positions des sources preacutedominantes

dans le champ sonore pour piloter leur encodage spatial aux ordres supeacuterieurs et arriver agrave la synthegravese drsquoune repreacutesentation de reacutesolution spatiale accrue Il srsquoagit dans le mecircme temps drsquoisoler au mieux les signaux associeacutes agrave ces diffeacuterentes sources avant de leur appliquer lrsquoopeacuteration drsquoencodage on se rapproche donc drsquoun problegraveme de seacuteparation de sources

Pour parvenir agrave trouver ces positions deux meacutethodes ont eacuteteacute testeacutees La premiegravere

consiste comme preacuteceacutedemment agrave appliquer en sous-bandes une analyse en composantes principales La seconde implique la formation de directiviteacutes agrave partir des vecteurs propres de la matrice de correacutelation utiliseacutee dans cette analyse

Lrsquoanalyse en composantes principales ou ACP (voir Annexe C) est donc

largement privileacutegieacutee dans nos approches Elle permet en effet tregraves facilement drsquoextraire des informations preacutecises de signaux correacuteleacutes Pour justifier ce choix une autre meacutethode reacutecente a eacutegalement eacuteteacute testeacutee et compareacutee agrave lrsquoACP (voir 11)

22 Principe de lrsquoextraction drsquoinformation spatiale avec une ACP

221 Information spatiale

Nous avons donc tout drsquoabord testeacute lrsquoanalyse en composantes principales sur des

signaux HOA Nous avons choisi dans un premier temps de limiter lrsquoanalyse aux composantes horizontales du premier ordre W X et Y avant de lrsquoeacutetendre agrave la 3egraveme dimension avec Z

Dans un premier test les signaux HOA sont analyseacutes par une ACP dans leur

inteacutegraliteacute LrsquoACP est appliqueacutee sur les signaux X et Y qui contiennent lrsquoinformation spatiale En effet X et Y correspondent aux signaux qui seraient capteacutes par des microphones agrave figure en 8 placeacutes sur lrsquoaxe avant-arriegravere et gauche-droite respectivement

La Figure 21 montre la correacutelation entre X et Y dans le cas drsquoun bruit blanc capteacute

par le microphone ambisonique Les points ne sont pas exactement aligneacutes du fait des artefacts inheacuterents agrave la prise de son (reacuteflexions sur les parois approximations du microphone etc)

22 Principe de lrsquoextraction drsquoinformation spatiale avec une ACP 15

Figure 21 - Y en fonction de X dans le cas drsquoun bruit blanc enregistreacute placeacute agrave 30deg

On remarque que le nuage est eacutetireacute dans la direction de provenance du son indiqueacutee par la flegraveche en pointilleacutes verts

222 Application de lrsquoanalyse en composantes principales La 1egravere composante issue de lrsquoACP appliqueacutee dans le plan (X Y) pointe dans la

direction dans laquelle X et Y ont la plus grande correacutelation Or comme X contient lrsquoinformation placeacutee sur lrsquoaxe avant-arriegravere et Y lrsquoinformation de lrsquoaxe gauche-droite cette direction est directement la direction de la source Par exemple un son situeacute droit devant dans lrsquoaxe (agrave 0deg) aura une composante Y nulle et par conseacutequent les eacutechantillons seront dans le plan tous disposeacutes sur lrsquoaxe horizontal LrsquoACP prendra donc naturellement cet axe comme 1er vecteur propre et il pointe bien vers la position de la source De mecircme un son situeacute agrave 135deg ( π28

3 times rad) aura la proprieacuteteacute Y = -X Les eacutechantillons seront donc placeacutes sur la 2egraveme bissectrice qui fait avec lrsquoaxe Y=0 un angle de 135deg (voir Figure 22)

Figure 22 - Y en fonction de X dans le cas drsquoun son placeacute artificiellement dans la direction

indiqueacutee par la flegraveche en pointilleacutes verts agrave 0deg (agrave gauche) et 135deg (agrave droite)

Chapitre 2 Analyser un contenu HOA 16

Lrsquoanalyse de X et Y ne permet cependant de deacuteterminer lrsquoangle qursquoagrave π pregraves il reste une indeacutetermination (on deacutetermine la direction drsquoun axe qursquoil reste agrave orienter) Pour lever cette ambiguiumlteacute on integravegre W agrave lrsquoanalyse car cette composante pourtant omnidirectionnelle et donc deacutepourvue drsquoinformation spatiale apporte une reacutefeacuterence pour les phases Ainsi notre son placeacute agrave 135deg veacuterifiait (aux eacuteventuels coefficients de normalisation pregraves) Y = -X = W alors qursquoun son placeacute agrave 135 - 180 = -45deg aurait la proprieacuteteacute Y = -X = -W

Pour prendre en compte W dans lrsquoanalyse on peut comparer directement les

phases de ces 3 canaux Algorithmiquement on ramegravene lrsquoangle trouveacute agrave son modulo π2 puis on deacutetermine le vrai cadran par comparaison des phases de W X et Y crsquoest-agrave-dire en comparant le signe des produits W X et W Y Ainsi W X gt 0 signifie que W et X sont en phase et reacuteciproquement (voir Figure 23)

W X lt 0 W Y gt 0

W X gt 0 W Y gt 0

W X lt 0 W Y lt 0

W X gt 0 W Y lt 0

minusπ2

π

π2

0

Figure 23 - Signes de W X et W Y en fonction du cadran On peut eacutegalement inteacutegrer W agrave lrsquoanalyse en appliquant lACP sur le triplet (X Y

W) Le problegraveme drsquoambiguiumlteacute est ainsi reacutesolu la direction rechercheacutee eacutetant celle du vecteur principal dans le demi-espace W gt 0 projeteacutee sur le plan (X Y) Cette meacutethode srsquoavegravere plus robuste et surtout plus geacuteneacuteralisable agrave des ordres plus eacuteleveacutes

Cette analyse permet donc de deacuteterminer la position drsquoune source unique Pour

pouvoir seacuteparer plusieurs sources nous avons appliqueacute lrsquoACP par sous-bandes en supposant que les sources nrsquoont pas des supports freacutequentiels strictement identiques Le principe de cette analyse en sous-bandes est deacuteveloppeacute en Annexe D

23 Meacutethodologie

231 Construction de scegravenes artificielles Pour tester les algorithmes impleacutementeacutes nous avons ducirc creacuteer des scegravenes sonores

spatialiseacutees au format HOA Plusieurs types de scegravenes ont eacuteteacute utiliseacutes de complexiteacutes diffeacuterentes Les premiegraveres ont eacuteteacute des scegravenes virtuelles syntheacutetiseacutees avec Matlab Les premiegraveres scegravenes simplissimes ne comportait qursquoune sinusoiumlde ou un bruit blanc fixe placeacute dans le plan horizontal Puis pour tester lrsquoanalyse par sous-bandes ont eacuteteacute creacuteeacutes des sons polyphoniques composeacutes de 2 sinusoiumldes tout drsquoabord puis de sons complexes (syntheacutetiseacutes par synthegravese FM) dans des gammes freacutequentielles distinctes ou se

23 Meacutethodologie 17

chevauchant Enfin ces sons ont eacuteteacute rendus mobiles en faisant varier leur position dans le temps

Nous avons pu ainsi constater agrave lrsquoaide des sons fixes et de supports freacutequentiels

distincts la preacutecision de lrsquoanalyse et avec les sons mobiles et mecircleacutes sa robustesse Nous nous sommes limiteacutes sous Matlab agrave la geacuteneacuteration de 2 sons simultaneacutes et du 1er ordre et un autre outil Plogue Bidule a eacuteteacute utiliseacute pour composer des scegravenes plus complexes

Bidule est un studio modulaire virtuel ressemblant agrave MAXMSP Des plugins ont

eacuteteacute deacuteveloppeacutes agrave France Teacuteleacutecom pour permettre de manipuler des signaux HOA Ainsi des scegravenes complexes ont pu facilement ecirctre syntheacutetiseacutees agrave des ordres eacuteleveacutes Des scegravenes agrave 3 et 4 sources fixes ou dont 1 source mobile ont eacuteteacute reacutealiseacutees agrave partir de voix deacutemixeacutees placeacutees dans le plan horizontal ou en 3 dimensions

Ces scegravenes eacutetant artificielles elles sont en un sens ideacuteales ne contiennent aucun

signal reacuteverbeacutereacute (effet de salle) ni diffracteacute (par un micro) lrsquoencodage est fait sans artefacts les ondes sont consideacutereacutees comme planes et ont donc une direction bien deacutefinie Si on est ici bien loin de la vraie vie le gros avantage des scegravenes artificielles est qursquoon connaicirct preacuteciseacutement agrave chaque instant la position des sources et qursquoon peut ainsi veacuterifier le reacutesultat de lrsquoanalyse

Figure 24 - Interface graphique du logiciel Bidule avec agrave droite les controcircles des encodeurs

et deacutecodeurs HOA creacuteeacutes agrave France Teacuteleacutecom

Chapitre 2 Analyser un contenu HOA 18

232 Exploitation drsquoenregistrements naturels Une fois des reacutesultats convaincants obtenus avec des scegravenes virtuelles des

enregistrements naturels ont eacuteteacute analyseacutes Ces scegravenes ont eacuteteacute enregistreacutees gracircce au prototype de micro HOA du 4egraveme ordre deacuteveloppeacute agrave France Teacuteleacutecom (voir Figure 12) Ce processus implique des diffeacuterences notables avec un encodage virtuel

Le prototype de microphone contraint en effet agrave quelques compromis pour

optimiser des critegraveres incompatibles La taille du microphone reacutesulte drsquoun compromis entre la preacutecision drsquoestimation des composantes en basses freacutequences qui neacutecessite une taille eacuteleveacutee et la minimisation de lrsquoaliasing spatial qui ne peut ecirctre eacuteviteacute qursquoavec des capsules tregraves proches les unes des autres Leur disposition est eacutegalement irreacuteguliegravere il nrsquoexiste en fait aucune faccedilon de disposer reacuteguliegraverement plus de 20 points sur une sphegravere La configuration qui avait eacuteteacute retenue par les concepteurs [Moreau 2006] est la ldquomoins irreacuteguliegravere possiblerdquo au sens de la preacuteservation de lrsquoorthonormaliteacute des harmoniques spheacuteriques les 32 capsules sont reacuteparties sur une sphegravere de 35 cm de rayon selon un Pentaki-dodeacutecahegravedre polyegravedre semi-reacutegulier dual de lrsquoicosaegravedre tronqueacute (ballon de football)

Ces artefacts sont donc inheacuterents agrave lrsquoutilisation drsquoun reacuteseau de microphones Mais

le monde reacuteel pose eacutegalement des problegravemes deacutelicats La complexiteacute des modes de rayonnement drsquointeraction avec lrsquoenvironnement reacuteclame lrsquointroduction de modegraveles drsquoencodage beaucoup plus complexes que le cas drsquoune onde plane en champ libre et rend lrsquoinformation spatiale moins limpide et univoque au sein de la scegravene encodeacutee (enregistreacutee) en comparaison avec une scegravene virtuelle Les sources ne sont ainsi plus ponctuelles mais eacutetendues elles ne sont plus agrave lrsquoinfini mais agrave une distance finie du microphone (les ondes reccedilues ne sont donc plus planes) En outre chaque source en se reacutefleacutechissant sur les parois et les diffeacuterents objets de la salle creacutee une multitude de sources secondaires Il est enfin souvent difficile de connaicirctre avec preacutecision la position drsquoune source dans lrsquoespace lors drsquoun enregistrement

Des enregistrements en chambre sourde ont eacuteteacute reacutealiseacutes pour se passer des

reacuteflexions de lrsquoenvironnement Afin de connaicirctre avec preacutecision la position de la source un haut-parleur diffusant un bruit blanc nous avons placeacute le microphone sur une table tournante commandeacutee par un plug-in sous Plogue Bidule

233 Visualisations des reacutesultats Lrsquoobservation des reacutesultats a eacuteteacute effectueacutee de plusieurs maniegraveres visuellement et

par lrsquoeacutecoute Les graphiques eacutetant plus commodes crsquoest par cette voie que les premiers essais eacutetaient conclus Plusieurs types de graphiques ont eacuteteacute produits deacutecrivant des paramegravetres diffeacuterents

Les repreacutesentations temps-freacutequence permettent de repreacutesenter une variable agrave 1

dimension sous Matlab Cette voie a eacuteteacute suivie pour visualiser les paramegravetres extraits de chaque sous-bande de chaque fenecirctre notamment les angles lrsquoeacutenergie et la pertinence Malheureusement Matlab ne permet pas de repreacutesenter sur le mecircme graphique une 4egraveme dimension sous la forme drsquoune 2egraveme dimension colorimeacutetrique (on prend geacuteneacuteralement la

23 Meacutethodologie 19

saturation) Cette dimension suppleacutementaire aurait permis de repreacutesenter simultaneacutement les angles et leur pertinence

Figure 25 - Repreacutesentation

et de lrsquoespace col

Pour repreacutesenter s

drsquoabandonner une dimensipouvoir repreacutesenter danrepreacutesenteacutees soit par le niv

Figure 26 - Repreacutesentationdeacutecrite en 332 (en absciss

est repreacutesenteacutee agrave gauc

234 Diffeacuterents modes La visualisation est

indispensable pour veacuterifiesont possibles de ceux-cainsi reconstitueacutee agrave partir d

1 W+Y+02X pour le c

π 0 minusπ

de la table des couleurs dite HSV de Matlab (lineacuteaire agrave gauche) orimeacutetrique HSL (Hue Saturation Luminance agrave droite)

imultaneacutement angles et pertinence il eacutetait donc neacutecessaire on Crsquoest le deacutecoupage freacutequentiel qui a eacuteteacute mis de cocircteacute pour s un plan temps-angles les pertinences Celles-ci sont eau de gris des points soit par leur taille

de la pertinence des angles de la scegravene agrave 4 sources dont 1 mobile e les trames en ordonneacutees les angles en degreacute) La pertinence he par lrsquointensiteacute du bleu et agrave droite par la taille des points

drsquoeacutecoute

un indice preacutecis de reacutesultat mais lrsquoeacutecoute est tout de mecircme r la qualiteacute globale de la synthegravese Plusieurs modes drsquoeacutecoute i lrsquoeacutecoute au casque est la plus aiseacutee Une pseudo-steacutereacuteo est es signaux du 1er ordre1 pour restituer les scegravenes restreintes au

anal gauche et W-Y+02X pour le canal droit

Chapitre 2 Analyser un contenu HOA 20

plan horizontal Pour plus de preacutecision agrave la restitution ou pour des scegravenes en 3D et sans perdre la faciliteacute drsquoune eacutecoute personnelle au casque on peut appliquer des filtres HRTF (Head-Related Transfert Function) pour une reproduction binaurale

Pour appreacutecier pleinement la spatialisation la diffusion sur un systegraveme multi

haut-parleurs est indispensable Deux systegravemes sont installeacutes dans le laboratoire de France Teacuteleacutecom un systegraveme 51 et un systegraveme circulaire de 48 haut-parleurs Ces systegravemes installeacutes dans des studios insonoriseacutes offrent une grande qualiteacute drsquoeacutecoute qui permet de repeacuterer les deacutefauts mecircme minimes de la synthegravese

21

Chapitre 3

Description des analyses

31 Deacutetermination des directions principales

311 Base des algorithmes Nous avons deacuteveloppeacute plusieurs algorithmes reacutepondant aux diffeacuterents objectifs

deacutecrits plus haut Chacun drsquoeux possegravede des particulariteacutes leur permettant de reacutepondre agrave ces objectifs mais on trouve neacuteanmoins une partie commune Ainsi toutes les analyses reposent sur le mecircme modegravele drsquoapplication drsquoune ACP par sous-bandes dont voici le scheacutema geacuteneacuteral

Figure 31 - Scheacutema geacuteneacuteral drsquoanalyse

Les signaux en entreacutee sont les composantes HOA W X et Y dans la plupart des

cas mais peuvent ecirctre eacutegalement des composantes drsquoordre plus eacuteleveacute (voir 11) Sur le fenecirctrage jouent plusieurs paramegravetres comme la taille de la fenecirctre ou encore le pourcentage de recouvrement entre elles Nous avons choisi une fenecirctre en racine de la fenecirctre de Hanning crsquoest-agrave-dire une arche de sinusoiumlde (voir eacutequation (D7) en Annexe D) avec un recouvrement de 50 ce qui veacuterifie le critegravere de reconstruction parfaite (D6) Le filtrage est pour des raisons de rapiditeacute de calcul reacutealiseacute dans le domaine freacutequentiel par une simple multiplication avant de repasser en temporel pour appliquer lrsquoACP

Le banc de filtre utiliseacute est un banc inspireacute des filtres ERB Les filtres ERB

(Equivalent Regular Bandwidth) sont des filtres imitant le comportement de seacuteparation freacutequentielle de lrsquooreille humaine plus preacutecise en basse freacutequence Les filtres utiliseacutes ici ne sont pas directement des filtres ERB le systegraveme nrsquoa pas drsquointeacuterecirct particulier agrave essayer de copier le fonctionnement de lrsquooreille humaine Ces filtres ont eacuteteacute adapteacutes au problegraveme en

Chapitre 3 Description des analyses 22

srsquoassurant en particulier de la finesse des bandes permettant la meilleure discrimination des diffeacuterentes sources crsquoest-agrave-dire autour des fondamentales usuelles (200-1000 Hz) et des harmoniques Les freacutequences aigueumls sont bien discrimineacutees par les filtres ERB (relativement agrave la gamme crsquoest-agrave-dire en eacutechelle logarithmique) le deacutecoupage a donc surtout eacuteteacute densifieacute entre 200 et 800 Hz par rapport aux bandes ERB

Figure 32 - Filtres utiliseacutes inspireacutes des filtres ERB repreacutesenteacutes lineacuteairement (en haut)

et sur une eacutechelle logarithmique (en bas) Les reacutesultats de lrsquoACP sont donc avec cette meacutethode les angles des sources

trouveacutees dans chaque sous-bande ainsi que pour chacun drsquoeux un critegravere de pertinence calculeacute en fonction de lrsquoeacutenergie de la sous-bande dans une fenecirctre donneacutee et de la norme relative de la premiegravere composante de lrsquoACP (voir 342) Les autres vecteurs propres peuvent ecirctre utiliseacutes pour extraire davantage drsquoinformations et mecircme des signaux deacutecorreacuteleacutes comme on le verra au paragraphe 35 mais lrsquoanalyse semble alors moins robuste Srsquoen tenir aux informations donneacutees par la composante principale est un gage de pertinence suppleacutementaire

Ces reacutesultats concernent donc les sources preacutedominantes ou principales mais

laissent de cocircteacute un certain nombre drsquoeacuteveacutenements sonores agrave consideacuterer

312 Traitement du champ reacutesiduel Le champ reacutesiduel regroupe en quelque sorte tout ce qui nrsquoest pas une source

principale Il inclut donc les reacuteflexions et la reacuteverbeacuteration de la piegravece mais aussi les bruits parasites occasionnels ou continus (ventilation etc) Ces bruits ou eacutechos nrsquoont pas de direction de provenance assez distincte pour pouvoir ecirctre mesureacutee preacuteciseacutement Le champ reacutesiduel est eacutegalement composeacute du champ diffus La notion de champ diffus est couramment utiliseacutee mais rarement preacuteciseacutement deacutefinie On trouve dans la litteacuterature des deacutefinitions diverses lrsquoune drsquoelles preacutecisant qursquoil serait un ensemble drsquoeacuteveacutenements sonores proches en temps et provenant de directions eacutequiprobables

Les algorithmes proposeacutes traitent correctement les sources principales mais le

champ reacutesiduel est laisseacute de cocircteacute Il est pourtant tregraves important pour lrsquoimmersion du sujet dans la scegravene une scegravene deacutepourvue de champ sonore sera perccedilue comme artificielle ce qui nuit agrave la perception drsquoespace On sera par exemple davantage conscients drsquoecirctre au centre drsquoun dispositif expeacuterimental et moins sensibles aux variations de profondeur et de perspectives

31 Deacutetermination des directions principales 23

Neacuteanmoins il faut relativiser lrsquoimportance de ce champ reacutesiduel il nrsquoest pas utile pour la localisation des sources principales et ne caracteacuterise que lrsquoenvironnement drsquoenregistrement En outre le champ reacutesiduel qui provient souvent de directions floues et notre but nrsquoest pas de les preacuteciser artificiellement Il nrsquoest degraves lors geacuteneacuteralement pas utile de le transmettre aux ordres eacuteleveacutes

Ainsi certains auteurs [Merimaa and Pulkki 2005] ont choisi de recreacuteer lors drsquoune

synthegravese un champ diffus artificiel baseacute sur une reacuteponse impulsionnelle de salle calculeacutee agrave lrsquoavance Lrsquoavantage est une immersion un enveloppement complets lrsquoinconveacutenient est que lrsquoambiance ainsi recreacuteeacutee est fictive et arbitraire et en outre complegravetement indeacutependante de lrsquoambiance initiale en laissant notamment de cocircteacute les sources secondaires

Nous proposons dans nos algorithmes de ne pas syntheacutetiser le champ diffus aux

ordres eacuteleveacutes mais de nous contenter de la description du champ reacutesiduel fourni par les ordres transmis (1er ordre dans nos exemples) Nous nous limiterons donc agrave preacuteciser par la synthegravese des ordres supeacuterieurs les positions des sources principales

32 Extension agrave la 3D Nous avons pour le moment eacutevoqueacute le cas de repreacutesentations de champ sonore agrave

2 dimensions crsquoest-agrave-dire issus de sources placeacutees dans le plan horizontal Mais certaines repreacutesentations comportent eacutegalement des composantes verticales Pour analyser ces signaux en 3 dimensions il faut inteacutegrer la composante Z On effectue alors simplement une ACP sur X Y Z et W Le 1er vecteur propre sera alors bien dirigeacute dans lrsquoespace (X Y Z) dans la direction de la source lrsquoambiguiumlteacute de frac12 espace eacutetant leveacutee par W

Lrsquoalgorithme est alors complegravetement similaire agrave celui analysant des signaux en 2

dimensions Des tests ont eacuteteacute reacutealiseacutes agrave partir de signaux syntheacutetiques pour lesquels les positions des sources eacutetaient connues pour des raisons pratiques aucune scegravene sonore reacuteelle en 3 dimensions nrsquoa pu ecirctre enregistreacutee avec une connaissance initiale preacutecise des positions des sources

Les visualisations et les eacutecoutes eacutetant plus deacutelicates en 3D et lrsquoextension agrave la 3D

eacutetant immeacutediate nous avons donc concentreacute nos efforts sur lrsquoanalyse de scegravenes en 2D En outre en lrsquoabsence de dispositif spheacuterique ou heacutemispheacuterique de haut-parleurs le seul moyen agrave notre disposition pour eacutecouter une scegravene 3D est lrsquoeacutecoute binaurale crsquoest-agrave-dire au casque avec des fonctions de transfert de tecircte (HRTF) relativement bien adapteacutees agrave lrsquoauditeur

33 Analyse aux ordres supeacuterieurs

331 Description Afin drsquoameacuteliorer la preacutecision de lrsquoanalyse nous avons essayeacute drsquoappliquer une ACP

sur des signaux ambisoniques drsquoordre plus eacuteleveacute (signaux HOA) dans le plan horizontal Deux meacutethodes ont eacuteteacute essayeacutees

Chapitre 3 Description des analyses 24

La premiegravere consiste agrave appliquer une ACP agrave 3 dimensions successivement sur les composantes X Y W (ordre 1 et 0) puis U V W (ordre 2 et 0) et ainsi de suite crsquoest-agrave-dire (en utilisant la notation geacuteneacuterale) sur les composantes et W (ordre m et 0) Les reacutesultats de ces analyses (les directions des 1

)1(0mY )1(

0minus

mYegraveres composantes) sont ensuite regroupeacutees

lrsquoanalyse de lrsquoordre 1 fournissant des reacutesultats modulo 2π lrsquoanalyse de lrsquoordre 2 des reacutesultats plus preacutecis mais modulo π et plus geacuteneacuteralement lrsquoanalyse de lrsquoordre m permettant de trouver des angles modulo mπ2

La limite de cette approche se perccediloit lors de la fusion des reacutesultats les angles

trouveacutes agrave un ordre eacuteleveacute sont plus preacutecis dans des bandes de freacutequences eacuteleveacutees mais la limitation theacuteorique de ces signaux HOA dans les basses freacutequences font que lrsquoanalyse de lrsquoordre 1 reste la plus pertinente dans les premiegraveres bandes Parvenir agrave deacuteterminer agrave partir de quelle freacutequence on peut faire davantage confiance agrave lrsquoordre n+1 qursquoagrave lrsquoordre n nrsquoest pas aiseacute et cette limite provoque des aberrations dans les angles trouveacutes Une source unique pourra par exemple ecirctre interpreacuteteacutee par lrsquoalgorithme des k-moyennes (voir 341) comme 2 sources une en hautes freacutequences et une en basses freacutequences les 2 eacutetant trouveacutes agrave 2 angles diffeacuterents chaque angle relevant drsquoun ordre analyseacute diffeacuterent

La deuxiegraveme meacutethode consiste pour eacuteviter cette fusion des reacutesultats agrave effectuer

une seule ACP sur les composantes U V X Y et W Cette meacutethode souffre drsquoune tregraves grande complexiteacute algorithmique pour une ameacutelioration de la preacutecision peu sensible En effet si cette meacutethode permet drsquoobtenir des reacutesultats plus preacutecis dans certaines bandes de freacutequences elle est sensible aux deacutefauts et les limites des ordres supeacuterieurs (lrsquoabsence de basses freacutequences entre autres) perturbent lrsquoanalyse en composantes principales

332 Illustration sur une scegravene virtuelle La scegravene preacutesenteacutee ici est une scegravene artificielle crsquoest-agrave-dire composeacutee de sons

placeacutes artificiellement agrave diverses positions Elle a une dureacutee totale de 135 s et comporte 4 sources positionneacutees dans le plan horizontal une guitare placeacutee agrave 45deg une basse agrave -70deg une batterie agrave 110deg et une voix feacuteminine qui effectue continucircment un tour complet dans le sens indirect en partant de lrsquoarriegravere (elle passe donc successivement par les positions 180deg 90deg 0deg -90deg et -180deg) La guitare et la batterie srsquoarrecirctent peu avant la fin de la scegravene (12egraveme seconde au 910egraveme du son approximativement)

Figure 33 - Position des sources de la scegravene de test agrave 4 sources dont 1 mobile

33 Analyse aux ordres supeacuterieurs 25

Figure 34 - Angles drsquoune scegravene virtuelle ayant 1 source mobile et 3 sources fixes

(deacutecrite en 332) trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 Pour chaque trame (en abscisse) 20 angles (1 par bande en ordonneacutee et en degreacutes) sont

reporteacutes le diamegravetre du point correspondant agrave un critegravere de pertinence (voir 342)

Figure 35 - Angles de la mecircme scegravene trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 2 Reacutesultats modulo π reacutepliqueacutes pour faciliter la comparaison avec la figure preacuteceacutedente On remarque que les lignes sont plus nettes qursquoil y a moins drsquoangles aberrants et que

les angles corrects sont plus marqueacutes (ils sont deacutetermineacutes comme plus pertinent)

Chapitre 3 Description des analyses 26

20

0

20

0

20

0

Figure 36 - Angles drsquoune scegravene reacuteelle constitueacutee drsquoun bruit parcourant le cercle trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 (en haut) 0 et 2 (au milieu) et 0 et 4 (en bas) Le

numeacutero de trame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On retrouve qursquoune limitation des ordres HOA supeacuterieurs issus drsquoun enregistrement

microphonique est la restitution des basses freacutequences

34 Traitement des donneacutees

341 Algorithme des k-moyennes Agrave lrsquoissue de lrsquoanalyse en composantes principales on reacutecupegravere avec la premiegravere

des meacutethodes exposeacutees au chapitre preacuteceacutedent des angles correspondants aux positions des sources preacutedominantes agrave raison drsquoune valeur par fenecirctre et par bande de freacutequence Il faut agrave partir de ces donneacutees parvenir agrave isoler les sources crsquoest-agrave-dire agrave deacuteterminer quels sont les angles pertinents et examiner quels sont ceux qui agrave une certaine toleacuterance pregraves sont preacutesents dans plusieurs bandes de freacutequence etou plusieurs fenecirctres temporelles

Pour pouvoir exploiter ces donneacutees spatiales nous avons utiliseacute lrsquoalgorithme des

k-moyennes (ou k-means) [MacQueen 1967] sur les angles pondeacutereacutes par des critegraveres de pertinence Cet algorithme fonctionne de la maniegravere suivante

Initialisation choix de k barycentres (les k moyennes) Reacutepeacuteter Associer chaque eacuteleacutement au barycentre le plus proche Recalculer les positions des barycentres Jusqursquoagrave ce que les barycentres soient stables (ou au bout de t iteacuterations)

34 Traitement des donneacutees 27

Lrsquoavantage de cet algorithme est drsquoecirctre peu glouton puisqursquoil converge en O(tkn) ougrave t est le nombre drsquoiteacuterations k le nombre de centres et n le nombre de points (geacuteneacuteralement on a t k ltlt n) Par contre il est plutocirct sensible aux exceptions un point aberrant tirera agrave lui la moyenne auquel il aura eacuteteacute associeacute Il faut donc faire en sorte que ces points erroneacutes soient aussi rares que possibles Crsquoest pourquoi les angles traiteacutes sont pondeacutereacutes par 2 critegraveres de pertinence

La pondeacuteration des angles fournis en entreacutee de lrsquoalgorithme des k-moyennes se

fait de maniegravere simple en reacutepeacutetant ces angles un nombre de fois (de 0 agrave 10) proportionnel agrave un critegravere Ainsi un angle tregraves pertinent sera dupliqueacute et sera preacutesent plusieurs fois dans la liste des donneacutees traiteacutees attirant ainsi agrave lui la position du barycentre le plus proche Au contraire un angle trop peu pertinent ne sera pas reacutepeacuteteacute voir mecircme sera enleveacute de la liste

Le seul problegraveme de cet algorithme est qursquoil neacutecessite la connaissance de k crsquoest-

agrave-dire du nombre de sources qui composent la scegravene Une deacutetermination automatique se basant sur la reacutepeacutetition de lrsquoalgorithme avec un k croissant a eacuteteacute testeacutee mais le critegravere drsquoarrecirct reposant sur la dispersion des points autour des barycentres nrsquoeacutetant pas assez robuste cette meacutethode a provisoirement eacuteteacute mise de cocircteacute

342 Critegraveres de pertinence Les 2 critegraveres de pondeacuteration choisis sont lrsquoeacutenergie de la sous-bande dans la

fenecirctre donneacutee et le rapport de la norme de la 1egravere composante (la composante principale) de lrsquoACP sur la somme des normes de toutes les composantes

En effet un angle est trouveacute dans chaque sous-bande de chaque fenecirctre mecircme si

le signal y est tregraves faible Lrsquoangle trouveacute sera alors tregraves peu repreacutesentatif de la direction drsquoune source puisqursquoil indiquera la direction drsquoun bruit Lrsquoeacutenergie doit donc ecirctre prise en compte pour ne conserver que les angles trouveacutes dans des bandes comportant un signal suffisant

La norme relative de la 1egravere composante de lrsquoACP rend quant agrave elle compte du

poids relatif de cette composante par rapport aux autres Ainsi si 2 sources sont preacutesentes dans une bande donneacutee la 1egravere composante sera agrave peine plus marqueacutee que la 2egraveme Ceci peut ecirctre calculeacute en prenant simplement le rapport de la 1egravere valeur propre sur la somme des valeurs propres

On peut noter que la norme de la 1egravere composante ne se deacutetache nettement que

lorsqursquoun son est preacutesent dans la bande consideacutereacutee On peut alors se demander si lrsquoeacutenergie doit ecirctre prise en compte ou si lrsquoinformation qursquoelle contient nrsquoest comprise dans le 2egraveme critegravere En fait la norme relative est un critegravere tregraves bruiteacute et consideacuterer lrsquoeacutenergie par ailleurs permet de nuancer ces artefacts et constitue une base solide de pondeacuteration

Chapitre 3 Description des analyses 28

80

40

0

Figure 37 - Repreacutesentation temps-freacutequence des angles du son deacutecrit en 332 Letrame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On peut donc v

par trame et par bande chacun eacutetant le reacutesultat drsquoune ACP crsquoest-agrave-dire la 1egravere

Figure 38 - Eacutenergie de ce mecircme son On peut voir une basse en notes tenues uneet une batterie qui produit des sons secs dans un spectre plus aigu

80

40

0

80

40

0

Figure 39 - Norme relative de la 1egravere composante de ce mecircme son Les impacts de batterie (dans lrsquoaigu) ressortent davantage

π 0 minusπ

numeacutero de oir un angle direction

voix aiguumle

34 Traitement des donneacutees 29

Figure 310 - Pondeacuteration appliqueacutee agrave lrsquoentreacutee des k-moyennes calculeacutee ici comme

le simple produit de lrsquoeacutenergie et de la norme relative

80

40

0

343 Lissages

Pour faire face au bruit ineacutevitable dans les reacutesultats il faut lisser les donneacutees Ces

lissages temporels correspondent agrave des hypothegraveses de stabiliteacute des sources qui sont supposeacutees ecirctre fixes ou mobiles relativement lentement (dans une mesure agrave parameacutetrer)

Un premier lissage peut ecirctre opeacutereacute avant le traitement par lrsquoalgorithme des k-

moyennes Le filtre choisi est un filtre meacutedian de maniegravere agrave eacuteliminer les points aberrants tout en conservant les vraies valeurs des points coheacuterents Ce lissage est appliqueacute sur chaque sous-bande aux angles et ne tient pas compte des critegraveres de pertinence Il est donc utiliseacute avec parcimonie et peut mecircme ecirctre eacuteviteacute en reacuteglant de maniegravere adeacutequate les critegraveres de pondeacuteration agrave lrsquoentreacutee des k-moyennes

Le deuxiegraveme lissage srsquoeffectue agrave lrsquoentreacutee des k-moyennes en mecircme temps que les

critegraveres de pondeacuteration Il consiste agrave appliquer les k-moyennes non pas sur une fenecirctre donneacutee mais sur plusieurs fenecirctres conseacutecutives anteacuterieures et posteacuterieures en donnant plus de poids agrave la fenecirctre courante Dans la pratique les poids donneacutes aux diffeacuterentes fenecirctres sont eacutetablis par une gaussienne centreacutee sur la fenecirctre courante et de largeur agrave deacuteterminer (en fonction notamment de la dureacutee drsquoune fenecirctre et du type de scegravene analyseacute)

35 Exploitation de toutes les composantes de lrsquoACP Les analyses preacutesenteacutees preacuteceacutedemment ont toutes exploiteacute uniquement la

composante principale extraite par lrsquoACP Or cette analyse fournit des informations plus complegravetes par lrsquointermeacutediaire des autres composantes dont on peut tirer parti pour isoler plusieurs sources au sein drsquoune mecircme bande Cette approche est toujours en deacuteveloppement dans ce stage et nrsquoa pas encore donneacute pleine mesure des reacutesultats qursquoelle laisse entrevoir

Les composantes de lrsquoACP indiquent des directions qui correspondent aux

diffeacuterentes sources composant la scegravene sonore Les vecteurs propres de la matrice de correacutelation donnent ainsi les combinaisons lineacuteaires des signaux HOA permettant de

Chapitre 3 Description des analyses 30

seacuteparer de la meilleure faccedilon possible ces sons Ces directions peuvent ecirctre alors utiliseacutees pour former des directiviteacutes isolant au mieux ces sources

aBS sdot= (31)

ougrave la matrice a contient les vecteurs propres de la matrice de correacutelation (voir Annexe C) le vecteur B contient les signaux HOA et le vecteur S contient les sources extraites

⎟⎟⎟

⎜⎜⎜

=⎟⎟⎟

⎜⎜⎜

⎛=

⎥⎥⎥

⎢⎢⎢

⎟⎟⎟

⎜⎜⎜

⎟⎟⎟

⎜⎜⎜

⎛=

10

1001

1

ML

N

B

BB

S

SSuua MML (32)

On obtient ainsi des lobes drsquoautant plus eacutetroits que lrsquoordre est eacuteleveacute chacun

dirigeacute vers une source et permettant de lrsquoisoler le plus possible des contributions des autres sources La Figure 311 preacutesente les directiviteacutes ainsi trouveacutees par une ACP en pleine bande Une analyse en sous-bande permet une plus grande distinction des sources mais une seacuteparation diffeacuterente entre les bandes est dangereuse car elle risque de dissocier spatialement plusieurs parties drsquoun mecircme son

Figure 311 - Directiviteacutes seacuteparant ideacutealement 4 sources placeacutees agrave 17 73 195 et -58deg

pour une scegravene virtuelle encodeacutee agrave lrsquoordre 4 Ce principe se heurte neacuteanmoins aux limites de seacuteparation lieacutees agrave lrsquoordre

drsquoencodage en effet 2 sources ne pourront pas ecirctre seacutepareacutees si elles sont trop proches comme en teacutemoigne la largeur des lobes principaux Les lobes secondaires traduisent eacutegalement un meacutelange des sources isoleacutees La figure ci-dessus montre ainsi que la source placeacutee agrave 17deg (en vert) sera preacutesente de maniegravere non neacutegligeable dans le signal senseacute contenir la source placeacutee agrave -58deg (en bleu) en raison du lobe secondaire bleu important

31

Chapitre 4

Reacutesultats et applications

41 Illustration et critique des reacutesultats obtenus

411 Avant-propos Sans notification particuliegravere les reacutesultats preacutesenteacutes ont eacuteteacute obtenus avec un pas

de 50 ms une analyse en 80 bandes avec une FFT sur 8192 points Une taille de FTT plus grande et un plus grand nombre de bande augmente la qualiteacute de lrsquoanalyse un pas plus petit ameacuteliore sa preacutecision temporelle mais les reacutesultats sont moins fiables et un lissage plus important srsquoimpose alors Ces paramegravetres ont eacuteteacute reacutegleacutes apregraves de multiples essais sur des scegravenes diverses

Les reacutesultats sont preacutesenteacutes ici uniquement sous la forme de graphiques nous ne

pouvons donc repreacutesenter que les angles trouveacutes agrave la sortie de lrsquoalgorithme des k-moyennes

412 Scegravene 2D artificielle agrave 4 sources fixes La premiegravere scegravene est une scegravene artificielle composeacutee de 4 sons fixes placeacutes agrave -70

-10 45 et 110deg Ces sons (une basse une voix une guitare et une batterie) ont eacuteteacute choisis pour leur varieacuteteacute spectrale et leur varieacuteteacute drsquoattaque Elle a en outre le meacuterite drsquoecirctre reacutealiste et de constituer une seacutequence musicale (chaque son nrsquoest pas une meacutelodie indeacutependante)

On voit sur la Figure 41 ci-dessous que les angles trouveacutes sont proches des

angles theacuteoriques Lrsquoun des sons (agrave 45deg) est quasiment nul avant la 100egraveme trame sa position est alors moins facile agrave deacuteterminer plus preacuteciseacutement une position approximative est trouveacutee et correspondrait exactement agrave la position du bruit (45deg) si lrsquoincertitude de mesure tregraves grande pour un son aussi faible ne rendait la deacutetermination si ardue On mesure un eacutecart-type de 22deg sur cet exemple (en excluant le deacutebut du son agrave 45deg)

Chapitre 4 Reacutesultats et applications 32

Figure 41 - Angles theacuteoriques (en pointilleacutes rouge) et calculeacutes (en trait bleu) pour une scegravene

constitueacutee de 4 sons fixes longue de 11s

413 Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile

Figure 42 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) de la scegravene agrave

4 sources dont 1 mobile deacutecrite en 332 Cette scegravene est deacutecrite en 332 On a ici demandeacute aux k-moyennes de renvoyer 5 barycentres par trame alors que

seules 4 sources eacutetaient preacutesentes dans le but de se garantir une marge vis-agrave-vis des erreurs de deacutetection Cette 5egraveme direction nrsquoest pas du tout gecircnante elle indique une direction qui ne contient pas de source et crsquoest donc un son tregraves faible qui est ainsi pointeacute Apregraves une eacuteventuelle extraction le signal ne sera donc pas du tout gecircnant

41 Illustration et critique des reacutesultats obtenus 33

On peut remarquer que quand le son mobile se rapproche drsquoun son fixe la deacutetection est moins bonne il y a une fusion entre les 2 sons Mais encore une fois lors de lrsquoextraction lrsquoisolation drsquoun des sons englobera lrsquoautre son ce qui ne posera pas de problegraveme pour les objectifs fixeacutes aucune source nrsquoeacutetant oublieacutee En effet la seacuteparation de sources nrsquoest pas un objectif ici mais un moyen pour preacuteciser les positions des sources ce qui sera fait correctement mecircme si 2 sources sont pointeacutees par 1 seule direction

414 Scegravene 3D artificielle agrave une source et bruit de fond

La scegravene dont la position drsquoune source a eacuteteacute extraite ci-dessous est une scegravene virtuelle en 3D constitueacute drsquoun son (une voix) qursquoon a fait se deacuteplacer par paliers tout drsquoabord vers le haut de 0deg agrave 45deg et vers la gauche de 0deg agrave 90deg puis redescendre jusqursquoagrave 35deg en continuant son cheminement vers la gauche jusqursquoagrave 120deg et enfin finir la descente de 35deg agrave 0deg en la laissant agrave 120deg Agrave cette source a eacuteteacute superposeacutee une ambiance spatialiseacutee de hall drsquoaeacuteroport initialement enregistreacutee en 2D (au format 51) mais transformeacutee pour contenir des composantes verticales Cette ambiance deacutecorreleacutee de la source avait pour but de tester la robustesse de lrsquoanalyse Elle eacutetait agrave 15 dB en-dessous du niveau de la voix

Figure 43 - Azimut et eacuteleacutevation theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun

son en 3D artificiel de 9s placeacute dans une ambiance bruyante On remarque que lrsquoanalyse est tregraves correcte Il nrsquoy a pas drsquoeacutecart important entre

les angles theacuteoriques et ceux calculeacutes On note toutefois que le lissage agrave lrsquoentreacutee des k-moyennes a pour effet de gommer les creacuteneaux et drsquoaplatir quelque peu la courbe drsquoeacuteleacutevation ceci nrsquoest pas vraiment gecircnant car de tels sauts dans la position drsquoune source ne sont pas du tout reacutealistes (ils peuvent caracteacuteriser des bruits de pas mais de tels impacts sont courts et on peut srsquoattendre agrave ce que la courbe suive leur position aux instants ougrave ils sont eacutemis)

Chapitre 4 Reacutesultats et applications 34

415 Scegravene 2D naturelle agrave une source Les scegravenes naturelles sont on lrsquoa vu plus deacutelicates agrave exploiter car on ne peut pas

garantir la preacutecision de la position theacuteorique agrave retrouver par le calcul et on ne peut donc pas calculer la preacutecision de lrsquoanalyse Seuls les enregistrements utilisant la table tournante (voir 232) permettent une mesure preacutecise de la position de lrsquoangle Ces enregistrements on pu confirmer la validiteacute de lrsquoanalyse pour des scegravenes reacuteelles on trouve ici un eacutecart-type de 25deg

Figure 44 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun bruit blanc

tournant autour du micro enregistreacute en chambre sourde Cette analyse a eacuteteacute reacutealiseacutee par sous-bandes mais sur une eacutetendue freacutequentielle

plus reacuteduite puisqursquoon srsquoest limiteacute aux possibiliteacutes offertes par le microphone La scegravene a donc eacuteteacute analyseacutee de 200 agrave 10 000 Hz

42 Quelques applications

421 Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre 2 agrave partir de lrsquoordre 1

Une fois les positions des sources connues la porte est ouverte agrave de nombreuses

applications La connaissance de ces positions permet en effet de syntheacutetiser artificiellement des composantes manquantes ou non transmises La premiegravere synthegravese deacuteveloppeacutee est celle des signaux U et V composant la partie horizontale de lrsquoordre 2 agrave partir de lrsquoordre 1 et de paramegravetres issus de lrsquoanalyse pour une source en 2D (des angles dans de cas)

42 Quelques applications 35

Figure 45 - Principe de lrsquoameacutelioration de la preacutecision spatiale

Le principe de la synthegravese est drsquoextraire les sources originales agrave partir de W X Y

et des angles (un angle par trame et par sous-bande) Ceci peut ecirctre reacutealiseacute de maniegravere approcheacutee en deacutecodant lrsquoordre 1 dans les directions des sources Ce deacutecodage revient agrave calculer les signaux qui devraient alimenter des haut-parleurs qui seraient placeacutes agrave ces positions dans le cas drsquoune restitution (voir 122) crsquoest-agrave-dire agrave former des directiviteacutes dans les directions des sources Dans la plupart des cas ce deacutecodage qui fait intervenir une pseudo-inversion de Moore-Penrose (111) est imparfait les sources se retrouvant leacutegegraverement meacutelangeacutees On peut comparer cette seacuteparation agrave celle que ferait un ensemble de microphones agrave directiviteacute hypercardioiumlde coiumlncidents

Figure 46 - Directiviteacutes eacutequivalentes agrave la seacuteparation de 4 sources agrave lrsquoordre 1 Ces sources seacutepareacutees vont ensuite constituer toujours placeacutees aux angles

deacutetermineacutes agrave lrsquoanalyse une scegravene virtuelle qursquoon va encoder agrave lrsquoordre 2 De cet encodage on ne conservera que les signaux manquants dans notre exemple les signaux du 2nd ordre U et V Ainsi la scegravene spatialiseacutee sera au final constitueacutee des signaux W X et Y drsquoorigine (transmis) et des signaux U et V syntheacutetiseacutes

Chapitre 4 Reacutesultats et applications 36

422 Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave partir de W Reconstruire une scegravene sonore spatialiseacutee agrave partir drsquoun unique canal mono est

alors difficile et le reacutesultat nrsquoest appreacuteciable que pour des scegravenes simples Il faut pour cela que les diffeacuterentes sources composant cette scegravene aient des supports spectraux aussi distincts que possible Les diffeacuterentes sous-bandes sont alors placeacutees agrave un certain angle transmis en parallegravele et crsquoest cette scegravene reconstitueacutee qui va ecirctre encodeacutee au 1er ordre de maniegravere agrave recreacuteer les signaux X et Y

Figure 47 - Principe de la restitution de lrsquoordre 1 agrave partir du signal mono W Ce scheacutema rappelle une meacutethode deacuteveloppeacutee dans le cas steacutereacuteo appeleacutee BCC

(Binaural Cue Coding) [Faller and Baumgarte 2002] Le principe est drsquoextraire et coder des informations permettant la reconstruction binaurale drsquoun signal agrave savoir les diffeacuterences interaurales drsquointensiteacute et de temps (Interaural LevelTime Difference ILD et ITD) qui correspondent dans le cas drsquoune restitution sur un casque aux diffeacuterences drsquointensiteacute et de temps inter-canal (Inter-Channel LevelTime Difference ICLD et ICTD) qui sont mesureacutees agrave partir drsquoune analyse en sous-bandes Les auteurs y ont plus reacutecemment associeacute un indice de correacutelation interaurale mesureacute agrave partir de la correacutelation inter-canal (ICC) afin de caracteacuteriser la preacutecision spatiale (la ldquolargeurrdquo drsquoune source)

Figure 48 - Scheacutema de principe de la meacutethode BCC [Faller and Baumgarte 2003]

On observe en pratique des deacutefauts lieacutes agrave la brutaliteacute de la proceacutedure une sous-

bande ne peut ecirctre que placeacutee agrave la position indiqueacutee et ne peut pas rester floue diffuse ou encore ecirctre placeacutee agrave plusieurs endroits Pour y remeacutedier nous avons ajouteacute 2 traitements agrave la synthegravese Tour drsquoabord nous avons appliqueacute un leacuteger lissage soulageant les effets deacutesagreacuteables dus au saut du contenu drsquoune sous-bande drsquoun endroit agrave un autre entre de 2 fenecirctres conseacutecutives Les positions varient alors de faccedilon plus souple au sein drsquoune mecircme sous-bande traduisant une hypothegravese de continuiteacute spatiale (pas de deacuteplacement brusque) La contrepartie est que cette hypothegravese est lieacutee agrave une hypothegravese de continuiteacute spectrale

42 Quelques applications 37

La 2egraveme ameacutelioration concerne le positionnement des sources En incluant dans la transmission un critegravere de pertinence on peut savoir srsquoil est raisonnable de placer une sous-bande agrave un angle preacutecis ou bien si lrsquoanalyse eacutetait flou agrave son sujet auquel cas un positionnement impreacutecis serait preacutefeacuterable Le paramegravetre choisi est une combinaison des critegraveres eacutevoqueacutes en 342 il nous permet de placer la sous-bande de maniegravere plus ou moins prononceacutee

43 Comparaison avec une meacutethode existante Certains auteurs ont deacutejagrave essayeacute drsquoanalyser un contenu ambisonique pour

retrouver les positions des sources Ville Pulkki a ainsi deacutecrit dans [Pulkki and Faller 2006] une meacutethode drsquoanalyse du B-format baseacutee sur lrsquoeacutetude des amplitudes des signaux W X Y et Z

Figure 49 - X et Y dans le cas drsquoune sinusoiumlde placeacutee agrave 15deg (agrave gauche) et 120deg (agrave droite)

Les figures ci-dessus montrent les relations drsquoamplitudes (algeacutebriques) qui relient

X et Y agrave lrsquoangle de la source On voit que lrsquoanalyse de ces amplitudes respectives permet de retrouver la position de la source en effet on a pour une source unique les relations de lrsquoeacutequation (11) rappeleacutee ici

⎪⎪

⎪⎪

=

=

=

=

δ

δθ

δθ

sin2

cossin2

coscos2

SZ

SY

SX

SW

(41)

On peut donc theacuteoriquement retrouver les valeurs de θ et δ par relations

trigonomeacutetriques Ainsi on a

⎪⎪⎩

⎪⎪⎨

=

=

2)sin(

)tan(

WZ

XY

δ

θ (42)

Chapitre 4 Reacutesultats et applications 38

On peut donc trouver les angles θ et δ agrave π pregraves Pour lever lrsquoambiguiumlteacute une eacutetude de signe est neacutecessaire Mais dans le cas de θ le signe de X et de Y agrave δ fixeacute deacutepend aussi bien de θ que S Il faut srsquointeacuteresser aux signes de θcos et θsin crsquoest-agrave-dire

aux signes de WX et

WY Dans la pratique on srsquointeacuteressera aux signes de et

pour se preacutevenir des divisions par zeacuteros

XW sdot YW sdot

XW sdot et YW sdot sont proportionnels agrave toujours positif

2S

Les auteurs deacutecrivent eacutegalement dans leur article un critegravere appeleacute diffuseness qui

peut ecirctre compareacute agrave un critegravere de pertinence inverseacute Ce paramegravetre calculeacute par agrave 1 - R ougrave R est un rapport de normes est tregraves proche du critegravere de norme relative deacutecrit en 342 Il peut donc ecirctre utiliseacute de la mecircme faccedilon et permettre ainsi une pleine comparaison

Cette meacutethode a eacuteteacute impleacutementeacutee pour pouvoir ecirctre compareacutee avec la meacutethode

par ACP Tous les paramegravetres ont scrupuleusement eacuteteacute gardeacutes identiques et plusieurs reacuteglages ont eacuteteacute testeacutes Les courbes ci-dessous preacutesentent les reacutesultats des analyses de la scegravene deacutecrite en 332 avec un pas de 50ms un overlap de 50 un NFFT de 2048 et 40 bandes freacutequentielles Nous avons repreacutesenteacute tous les angles trouveacutes crsquoest-agrave-dire un par bande et par trame pour srsquoaffranchir de la seacutelection des k-moyennes

π

0

minusπ

Figure 410 - Angles trouveacutes par lrsquoalgorithme de [Pulkki and Faller 2006] Le diamegravetre du point correspondant agrave la pertinence

43 Comparaison avec une meacutethode existante 39

π

0

minusπ

Figure 411 - Angles trouveacutes par une ACP pour la mecircme scegravene On remarque que les points excentriques sont moins nombreux et plus rarement trouveacutes comme pertinents

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee

441 Position du problegraveme

Une application directe de ces analyses a eacuteteacute deacuteveloppeacutee pour la confeacuterence audio

spatialiseacutee La confeacuterence audio utilise en effet la spatialisation pour permettre une meilleure seacuteparation par lrsquooreille des diffeacuterents locuteurs Ainsi si plusieurs personnes parlent en mecircme temps il sera tregraves difficile de comprendre chacun individuellement si ces voix sont restitueacutees en mono mais on pourra focaliser lrsquoattention sur chacune drsquoentre elles si elles sont seacutepareacutees spatialement (crsquoest lrsquoeffet cocktail party [Cherry 1953])

Lrsquoobjectif eacutetait de veacuterifier qursquoil eacutetait possible de conserver la spatialisation drsquoune

confeacuterence en nrsquoayant transmis qursquoun downmix mono des signaux Ce concept semble se rapprocher de celui deacutecrit en 422 mais une diffeacuterence fondamentale les seacutepare la confeacuterence audio spatialiseacutee nrsquoest pas codeacutee au format ambisonic mais les signaux traiteacutes sont directement les sons provenant des diffeacuterents locuteurs crsquoest-agrave-dire les sources elles-mecircmes Ainsi lrsquoanalyse ne porte plus sur une scegravene spatialiseacutee mais sur des signaux seacutepareacutes Il nrsquoy a ainsi plus drsquoindices spatiaux agrave trouver

Avoir accegraves aux sources permet drsquoobtenir des informations plus preacutecises pour

permettre une seacuteparation apregraves la transmission Comme nous lrsquoavons vu lrsquoanalyse drsquoune scegravene spatialiseacutee ne permet que dans drsquoultimes cas agrave la seacuteparation des sources ce qui est ici notre point de deacutepart et sera en fait notre point drsquoarriveacutee En effet nous tenterons de retrouver les sources seacutepareacutees apregraves la transmission de maniegravere agrave pouvoir par la suite les spatialiser agrave loisir (voir Figure 413)

Chapitre 4 Reacutesultats et applications 40

442 Solution proposeacutee Les paramegravetres extraits ne sont donc plus des positions de sources Nous avons

choisi de mesurer puis transmettre lrsquoeacutenergie de chaque signal dans chaque sous-bande en parallegravele du downmix En effet une bonne seacuteparation sera possible si lrsquoon sait quelle proportion de chaque source compose chaque sous-bande du signal mono

Figure 412 - Scheacutema de principe drsquoune confeacuterence audio spatialiseacutee

Figure 413 - Scheacutema ameacutelioreacute (deacutebit reacuteduit)

en pointilleacutes informations compleacutementaires (eacutenergie) Lrsquoanalyse en sous-bandes a lieu dans le serveur (Figure 414) Celui-ci calcule

lrsquoeacutenergie de chaque signal dans chaque sous-bande sur une trame donneacutee Crsquoest ce paramegravetre qui associeacute au signal mono M permettra la seacuteparation des sources dans le terminal (Figure 415) Ce dernier reacutepartira en effet les diffeacuterentes sous-bandes vers chaque signal reconstitueacute proportionnellement agrave cette information pour reconstruire les 4 sources originales

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee 41

Figure 414 - Analyse principe de lrsquoencodage dans le serveur

Figure 415 - Synthegravese principe du deacutecodage dans le client

Afin de reacuteduire au maximum les informations compleacutementaires agrave transmettre on

peut remarquer qursquoau cours drsquoune confeacuterence audio on a tregraves souvent un seul locuteur les participants ne parlent que tregraves rarement tous en mecircme temps Ceci implique que les signaux en entreacutee sont tregraves souvent tous nuls sauf 1 et appliquer un seuil en entreacutee de lrsquoanalyse permet outre lrsquoallegravegement du traitement drsquoavoir moins de paramegravetres agrave transmettre

Ce scheacutema simplifieacute ne tient pas compte des problegravemes de phase rien nrsquoindique

que les eacutenergies des signaux srsquoajoutent bien dans chaque sous-bande lors du downmix on peut tregraves bien avoir des oppositions de phase La solution est drsquoeffectuer le downmix (la somme) des signaux dans chaque sous-bande en prenant soin drsquoavoir recaleacute les phases au preacutealable Ceci nrsquoa un sens que pour des bandes suffisamment eacutetroites Les deacutecalages temporels appliqueacutes pour le recalage sont alors des paramegravetres suppleacutementaires agrave transmettre et sont pris en compte lors de la synthegravese au niveau du reacutepartiteur qui repositionnera la phase de chaque trame pour chaque signal

Chapitre 4 Reacutesultats et applications 42

443 Bilan Le reacutesultat du deacutecodage a pu ecirctre eacutecouteacute de diffeacuterentes maniegraveres les sources

reconstitueacutees individuellement ensemble en steacutereacuteo drsquoamplitude et sur un systegraveme 51 On note que les sources ont eacuteteacute assez bien seacutepareacutees mais que des artefacts sont audibles en particulier lorsque le nombre de locuteurs simultaneacutes augmentent Ces artefacts sont un meacutelange des voix qui nrsquoest gecircnant que lorsqursquoon les eacutecoute de maniegravere seacutepareacutee En effet lrsquoeacutecoute simultaneacutee de ces signaux syntheacutetiseacutes mecircme placeacutes agrave des positions distinctes sur un systegraveme de diffusion multicanal est tout agrave fait satisfaisante

Ce proceacutedeacute pour pouvoir ecirctre appliqueacute doit fonctionner en temps-reacuteel Cette

contrainte nrsquoa pas du tout eacuteteacute prise en compte lrsquoobjectif eacutetant de valider la faisabiliteacute drsquoune reconstruction Les programmes sous Matlab nrsquoont pas eacuteteacute optimiseacutes et ne respectent pas cette contrainte

43

Conclusion Nous avons preacutesenteacute dans ce rapport le principe et lrsquoapplication de plusieurs

meacutethodes drsquoanalyses spatiales de scegravenes ambisoniques conccedilues et reacutealiseacutee pendant le stage Le format HOA est en effet une repreacutesentation du champ acoustique deacutecomposeacute sur une base drsquoharmoniques spheacuteriques jusqursquoagrave un certain ordre agrave la maniegravere drsquoun deacuteveloppement limiteacute Il contient donc de maniegravere indirecte des indications spatiales qursquoon peut extraire avec des analyses comme lrsquoanalyse en composantes principales

Ces analyses nous permettent de deacuteterminer les positions des sources qui

composent la scegravene sonore Nous avons appliqueacute les reacutesultats de ces analyses agrave 2 types de synthegravese lrsquoune destineacutee aux transmissions bas deacutebit lrsquoautre agrave un traitement de restitution de la preacutecision spatiale dans le cas ougrave des ordres supeacuterieurs dont le but est drsquoaffiner la perception de localisation nrsquoauraient pas pu ecirctre transmis Ces algorithmes par le codage drsquoinformations spatiales qursquoils permettent pourront trouver bien drsquoautres applications dans la transmission et le codage ougrave la description du contenu est de plus en plus utiliseacutee (comme par exemple dans la norme MPEG)

Des ameacuteliorations sont possibles sur plusieurs points tout drsquoabord lrsquoexploitation

de toutes les composantes de lrsquoACP est agrave lrsquoeacutetude et semble pouvoir donner des reacutesultats inteacuteressants Drsquoautre part on a vu que le reacutesultat final est tregraves deacutependant de la bonne convergence de lrsquoalgorithme des k-moyennes utiliseacute pour traiter les donneacutees brutes de lrsquoanalyse en sous-bandes Or cet algorithme neacutecessite des reacuteglages tregraves fins et une connaissance a priori du nombre de sources est presque indispensable Drsquoautres algorithmes plus complexes de suivi de formes pourraient ecirctre avantageusement utiliseacutes pour deacutetecter dans tous les angles trouveacutes lesquels sont susceptibles de former une trajectoire

45

Annexe A

Deacuteveloppement du champ acoustique en harmoniques spheacuteriques

A1 Eacutequation drsquoonde en coordonneacutees spheacuteriques On se place dans lrsquoespace euclidien agrave 3 dimensions muni drsquoun systegraveme de

coordonneacutees spheacuteriques Un point M y est repeacutereacute par son rayon r son azimut θ et son eacuteleacutevation δ tels que repreacutesenteacutes sur la figure ci-dessous

- r est la norme du vecteur position rr crsquoest-agrave-dire la distance OM - [20[ πθ isin est lrsquoangle formeacute par le projeteacute du point sur le plan xOy et lrsquoaxe Ox

- ]2

2

[ ππδ minusisin est lrsquoangle formeacute par le plan xOy et le vecteur position2

Figure A1 - Systegraveme de coordonneacutees spheacuteriques

2 Cet angle diffegravere de lrsquoangle polaire usuel δπϕ minus=

2 habituellement pris entre lrsquoaxe Oz et le

vecteur position

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 46

Les relations entre les coordonneacutees spheacuteriques et les coordonneacutees carteacutesiennes sont

⎪⎩

⎪⎨

===

δδθδθ

sincossincoscos

zryrx

(A1)

On srsquointeacuteresse dans ce repegravere agrave lrsquoeacutequation de propagation des ondes acoustiques

de pression On se place dans les conditions classiques drsquoacoustique lineacuteaire (les variations de p sont petites par rapport agrave la pression atmospheacuterique) en supposant que lrsquoair est un fluide parfait (on y neacutegligera les pheacutenomegravenes dissipatifs) Dans une reacutegion de lrsquoespace ne comprenant pas de sources lrsquoeacutequation drsquoonde srsquoeacutecrit alors

0)(12

2

2 =⎟⎟⎠

⎞⎜⎜⎝

⎛partpart

minus∆ trptc

r (A2)

p eacutetant la pression et c la vitesse de propagation du son dans lrsquoair

Cette eacutequation devient dans le domaine freacutequentiel lrsquoeacutequation de Helmholtz

( ) 0)(2 =+∆ ωrpk r (A3)

ck ω

= eacutetant le nombre drsquoonde

En coordonneacutees spheacuteriques cette eacutequation srsquoeacutecrit

0sin1sin

sin11 2

2

2

222

2 =⎥⎦

⎤⎢⎣

⎡+

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart pk

rrrr

rr δθθθ

θθ (A4)

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques Drsquoapregraves [Bruneau 1983] elle admet des solutions agrave variables seacutepareacutees de la forme

)()()( δθ ΦΘ= rRp (A5) Ces solutions sont respectivement - pour la partie radiale une combinaison des fonctions de Bessel spheacuteriques de

premiegravere et seconde espegravece3 jn et nn

)()()( krBnkrAjrR nn += (A6) 3 Les fonctions de Bessel spheacuteriques de seconde espegravece sont eacutegalement appeleacutees fonctions de

Neumann

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 47

Ces fonctions sont deacutefinies comme suit

(A7)

Figure A2 - Fonctions de Bessel spheacuteriques pour les ordres 0 agrave 5 )(krjm

- pour la partie azimutale les fonctions )(θΘ

)sin()cos()( 21 θθθ ncnc +=Θ (A8) Eacutetant donneacute la deacutefinition de lrsquoangle Θ celui-ci doit neacutecessairement ecirctre de

peacuteriode 2π ))2()(( πθθ +Θ=Θ ce qui impose agrave n drsquoecirctre entier

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 48

- pour la partie polaire les fonctions de Legendre associeacutees )(sinδmnP

nm

nn

mn dPdP

)(sin)(sinsin)(sin

δδ

δδ = pour ⎩⎨⎧

gt=

nmavecnm 321

(A9)

ougrave les )(sinδnP sont les polynocircmes de Legendre de degreacute n en δsin deacutefinis par reacutecurrence

( )

11

22

1

0

sin)12()(sin)1(

1cos321)(sin

sin)(sin0)(sin

minus+ minus+=+

minus=

==

mmm mPPmPmet

P

PP

δδ

ϕδ

δδδ

(A10)

et de formule geacuteneacuterale

mm

m

mm dd

mP )1(sin

)(sin21)(sin 2 minus= δ

δδ (A11)

On peut appliquer aux fonctions )(sinδmnP la semi-normalisation de Schmidt

)(sin)()()(sin~ δεδ mnnmn P

nmnmP

+minus

= ougrave 10 =ε et 2=nε pour 1gen (A12)

En appariant les fonctions polaires et azimutales on deacutefinit les harmoniques

spheacuteriques de degreacute et drsquoordre)1(mnY 0gem 4 mnn lele0 et de degreacute et

drsquoordre (voir Figure A3)

)1(minusmnY 1gem

mnn lele1

)(sin~)sin()(

)(sin~)cos()()1(

)1(

δθδθ

δθδθ

mnmn

mnmn

PnY

PnY

=

=minus

(A13)

4 En geacuteneacuteral lorsque le degreacute et lrsquoordre ne sont pas eacutevoqueacutes conjointement on parle par abus de langage drsquoharmoniques drsquoordre m plutocirct que de degreacute m

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 49

soit

1)(sin

)()()12(2sin)(

)(sin)()()12(2cos)(

1)(sin)1()1()12(cos)(

)1(

)1(

1)1(

1

gt

⎪⎪⎩

⎪⎪⎨

+minus

+=

+minus

+=

=+minus

+=

minus

npourP

nmnmmnY

PnmnmmnY

npourPmmmY

mnmn

mnmn

mm

δθδθ

δθδθ

δθδθ

(A14)

La solution angulaire geacuteneacuterale srsquoeacutecrit alors sous la forme drsquoun deacuteveloppement sur

la base drsquoharmoniques spheacuteriques

( ) ( )sum minus

=minus+=Θ

1

1)1()1()( n

m mnmnmnmnn YBYBθ (A15) La solution geacuteneacuterale est alors la seacuterie de Fourier-Bessel

sum sum sum+infin

= = plusmn=

=0 0 1

)()( )()()(m

m

nmnmnm

m YBkrjikrpσ

σσ δθδθ (A16)

ougrave

intint⎪⎩

⎪⎨⎧

minusisin

isin

plusmnplusmn =

]2

2

[

[20[

)1()1( )()1()(

1

ππδ

πθ

δθδθ

S

mnm

mmn dSYpkrji

B (A17)

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 50

Tableau A1 - Expressions analytiques des harmoniques spheacuteriques pour les ordres 0 agrave 3

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 51

Figure A3 - Repreacutesentation des harmoniques spheacuteriques pour les ordres m = 0 agrave 3 Les

couleurs rouge et bleu indiquent respectivement des valeurs positives et neacutegatives

53

Annexe B

Compleacutements theacuteoriques sur le deacutecodage HOA

B1 Vecteur veacutelociteacute et vecteur eacutenergie Le vecteur veacutelociteacute est un indice de la direction apparente drsquoune source introduit

par Gerzon [Gerzon 1992] Il se calcule comme le rapport de la vitesse particulaire sur la pression acoustique

)()(

)()(1

δθδθ

δθδθ

ρ rprp

ki

rprv

cV nabla

minus=minus=rrr

(B1)

Dans le cas drsquoune onde plane le vecteur veacutelociteacute V

rest ainsi directement un

vecteur unitaire orienteacute vers la direction de provenance de lrsquoonde En geacuteneacuteralisant agrave une superposition drsquoondes planes en phase ou opposition de phase eacutemises par L haut-parleurs agrave eacutequidistance du point drsquoobservation on obtient la formule suivante

VVL

ll

L

lll

urg

ugV r

rr

==

sum

sum

=

=

1

1 (B2)

ougrave deacutesigne la direction du llur egraveme haut-parleur auquel est associeacute le gain gl et Vr Vur correspondent respectivement agrave la norme et agrave la direction du vecteur veacutelociteacute

Le vecteur eacutenergie est un autre indice de direction Il est deacutefinit par

EEL

ll

L

lll

urg

ugE r

rr

==

sum

sum

=

=

1

2

1

2

(B3)

Annexe B Compleacutements theacuteoriques sur le deacutecodage HOA 54

Il peut srsquointerpreacuteter comme une indication de la concentration de lrsquoeacutenergie ( ) et de sa direction moyenne de provenance (

Er

Eur ) On a toujours 1ltEr sauf dans le cas ougrave un seul haut-parleur contribue agrave la reconstruction (dans ce cas ) peut ecirctre consideacutereacute comme un indicateur de preacutecision de la localisation

1=Er Er

B2 Deacutecodages optimiseacutes La restitution la plus confortable drsquoun champ sonore veillera donc agrave maximiser

tout en essayant de garder le plus proche possible de 1 Lrsquooptimisation du deacutecodage consiste alors agrave multiplier chaque coefficient de la matrice de deacutecodage D (voir (111) par des gains calculeacutes drsquoapregraves des critegraveres drsquooptimisation

Er Vr

Ainsi le deacutecodage appeleacute max- maximise la norme du vecteur eacutenergie en

sacrifiant celle du vecteur veacutelociteacute puisqursquoon a dans ce deacutecodage (pour des configurations reacuteguliegraveres de haut-parleurs) Ce deacutecodage est donc avantageux par rapport au deacutecodage basique pour les hautes freacutequences ou dans le cas drsquoun auditoire eacutelargi Le deacutecodage in-phase va encore plus loin en cherchant agrave annuler complegravetement les contributions des haut-parleurs placeacutes agrave lrsquoopposeacute de la direction de provenance de lrsquoonde reproduite Ce critegravere est utile dans le cas drsquoune eacutecoute dans une position tregraves excentreacutee agrave laquelle on pourrait percevoir de faccedilon preacutedominante la contribution en opposition de phase drsquoun tel haut-parleur

Er

EV rr =

Ces diffeacuterents deacutecodages ont chacun des avantages et inconveacutenients Ainsi seul le

deacutecodage basique garantit = 1 le deacutecodage max- permet une preacutecision meilleure notamment en haute freacutequence et le deacutecodage in-phase est plus adapteacute agrave un auditoire plus large Jeacuterocircme Daniel [Daniel 2000] propose ainsi de changer le deacutecodage en fonction de la freacutequence et de lrsquoeacutetendue de la zone drsquoeacutecoute deacutesireacutee

Vr Er

Figure B1 - Deacutecodages les plus approprieacutes par sous-bande et en fonction de lrsquoeacutetendue de la

zone drsquoeacutecoute [Daniel 2000]

55

Annexe C

Analyse en composantes principales

C1 Espace des donneacutees Eacutegalement souvent appeleacutee transformeacutee de Karhunen-Loegraveve5 (TKL) lrsquoanalyse en

composantes principales (ACP) est une technique statistique de repreacutesentation drsquoinformation Introduite sur 2 variables par Pearson [Pearson 1900] elle a eacuteteacute eacutetendue par Hotelling [Hotelling 1933] Elle a pour but de caracteacuteriser des donneacutees drsquoun espace agrave N dimensions dans un sous-espace plus petit en minimisant les pertes drsquoinformation due agrave la projection crsquoest-agrave-dire en maximisant la variance projeteacutee Les donneacutees ainsi reacuteorganiseacutees deviennent indeacutependantes Les variables correacuteleacutees sont remplaceacutees par de nouvelles variables deacutecorreacuteleacutees et de variance maximale combinaisons lineacuteaires des variables initiales

Les donneacutees sont constitueacutees de n variables aleacuteatoires (dans notre cas des canaux)

et p reacutealisations ou individus (des eacutechantillons)

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

pn

p

ji

n

xx

x

xx

M

LLL

MOMNM

MLLM

MNMOM

LLL

1

111

(C1)

Ces donneacutees sont geacuteneacuteralement centreacutees et peuvent aussi ecirctre reacuteduites4 (on note

1x la moyenne de la variable et 1x )( 1xσ sa variance) Reacuteduire ou non le nuage de points (ie les p reacutealisations de la variable aleacuteatoire) est un choix de modegravele

5 Quelques rares sources mentionnent une diffeacuterence entre ACP et TKL en placcedilant celle-ci au

niveau du choix de la reacuteduction des donneacutees dans le cas dune ACP les donneacutees seraient centreacutees et reacuteduites alors qursquoelles seraient uniquement centreacutees pour une TKL

Annexe C Analyse en composantes principales 56

- si on ne reacuteduit pas le nuage une variable agrave forte variance pourrait tirer tout lrsquoeffet de lrsquoACP agrave elle

- si on reacuteduit le nuage une variable qui ne serait qursquoun bruit se retrouverait avec une variance apparente eacutegale agrave une variable informative

M est centreacutee

⎥⎥⎥

⎢⎢⎢

minusminusminus

minusminus=

npn

pi

ji

nn

xxxxxx

xxxxM

K

MM

K

11

11

11

ˆ (C2)

M~ est centreacutee et reacuteduite

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

minusminus

minus

minusminus

=

)()(

)(

)()(~

1

11

1

1

111

n

npn

pi

ij

i

n

nn

xxx

xxx

xxx

xxx

xxx

M

σσ

σ

σσ

K

MM

K

(C3)

On multiplie ensuite la matrice obtenue par sa transposeacutee pour obtenir - La matrice de covariance MMC t

vˆˆ sdot=

- La matrice de correacutelation MMC tr

~~ sdot= Ces matrices sont carreacutees (N x N) symeacutetriques et reacuteelles Elles sont donc

diagonalisables dans une base orthonormeacutee 6 Le principe de lrsquoACP est alors de trouver un axe u issu drsquoune combinaison lineacuteaire

des tel que le critegravere drsquoinertie du nuage autour de cet axe soit maximal Le critegravere drsquoinertie couramment utiliseacute est la variance Il faut donc trouver lrsquoaxe qui porte le maximum de variance crsquoest-agrave-dire lrsquoaxe u tel que la projection du nuage sur cet axe ait une variance maximale

nx

6 Nos donneacutees eacutetant ici des valeurs drsquoeacutechantillons elles sont par nature centreacutees et reacuteduites On

formera donc naturellement la matrice de correacutelation

C2 Diagonalisation 57

C2 Diagonalisation Pour alleacuteger lrsquoeacutecriture de la suite de cette partie nous consideacutererons que les

variables ont eacuteteacute centreacutees et si besoin reacuteduites et nous noterons ces variables

transformeacutees (ainsi

ix ix

iii xxx minuslarr ou bien )( i

iii x

xxxσ

minuslarr ) On fera de mecircme pour M

( ou bien MM ˆlarr MM ~larr ) et C ( vCC larr ou bien rCC larr ) La projection drsquoun eacutechantillon sur un axe u srsquoeacutecrit ix

uMxiu sdot=)(π (C4) La variance empirique de )( iu xπ vaut donc

uMMuxx ttiu

tiu sdotsdotsdot=sdot )()( ππ (C5)

Or on a vu que est diagonalisable dans une base orthonormeacutee donc

on peut noter P le changement de base associeacute et ∆ la matrice diagonale formeacutee de son spectre Ainsi

MMC t=

n

i 1)(λ PPMMC tt ∆==

)()()()( PuPuuPPuxx ttt

iut

iu sdot∆sdot=sdot∆sdot=sdotππ (C6) On pose v = Pu Chercher lrsquoaxe u qui maximise )( iu xπ revient donc agrave chercher le

vecteur v qui maximise ougravevvt ∆ )( 1 ndiag λλ K=∆ avec les iλ rangeacutes par ordre deacutecroissant Ce vecteur est trivialement le premier vecteur unitaire et on a alors

1λ=∆vvt

Ainsi le vecteur qui porte la plus grande part drsquoinertie du nuage est le premier

vecteur propre de C (premier par norme deacutecroissante) De mecircme le deuxiegraveme vecteur qui explique la plus grandelt part de lrsquoinertie restante est le deuxiegraveme vecteur propre de C Finalement la question de lrsquoACP se ramegravene agrave un problegraveme de diagonalisation de la matrice de correacutelation

C3 Code Matlab

function [vep vap] = pca(f N) f donneacutees N nombre de composantes agrave garder cor = f f formation de la matrice de correacutelation [vep vap] = eig(cor) calcul des vecteurs (vep) et valeurs (vap) propres [vap ind] = sort(diag(vap)) tri des valeurs propres par ordre croissant vap = flipud(vap) disposition inverse par ordre drsquoimportance vep = vep( flipud(ind)) classement en conseacutequence des vecteurs propres vep = vep( 1N) on ne garde que les N premiers vecteurs propres

Annexe C Analyse en composantes principales 58

59

Annexe D

Analyse en sous-bandes

D1 La transformeacutee de Fourier agrave court terme (TFCT) Pour affiner lrsquoanalyse les signaux sont donc deacutecoupeacutes en bandes de freacutequence par

TFCT La TFCT consiste agrave effectuer des transformeacutees de Fourier discregravetes sur des portions de signal fenecirctreacutees reacuteguliegraverement espaceacutees

On rappelle que la transformeacutee de Fourier drsquoun signal x(t) est deacutefinie (lorsque

lrsquointeacutegrale existe) par

int+infin

infinminus

minus= dtetxfX ftiπ2)()( (D1)

La transformeacutee de Fourier agrave temps discret (TFTD) drsquoun signal x(t) srsquoeacutecrit

sum+infin

minusinfin=

minus=n

fnienxfX π2)()( (D2)

La transformeacutee de Fourier discregravete (TFD) drsquoun signal discret x(k) est deacutefinie par

sum+infin

minusinfin=

minus=

n

Nkni

enxkXπ2

)()( (D3)

La TFCT discregravete est une TFD observeacutee sur une fenecirctre wa de taille N

summinus

=

minus+=

1

0

2)())(()(

N

n

Nnki

aaa enwtnxkXπ

ττ (D4)

ougrave )(taτ est lrsquoinstant drsquoanalyse

Annexe D Analyse en sous-bandes 60

Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT [Laroche 1995]

D2 Synthegravese par addition-recouvrement Lors de la synthegravese apregraves le deacutecoupage et lrsquoanalyse des fenecirctres on cherche agrave

reconstruire le signal temporel agrave partir de sa repreacutesentation freacutequentielle Pour cela on utilise la meacutethode OLA (overlap and add addition-recouvrement) qui consiste agrave prendre la TFCT inverse des spectres Xt puis agrave additionner les signaux obtenus apregraves les avoir multiplieacutes par une fenecirctre de pondeacuteration en les faisant se recouvrir partiellement

Le reacutesultat est donneacute par

sum=

minusminus=T

tsss tnxtnwnx

s1

))((~))(()(~ ττ τ (D5)

avec )()( tt as ττ = et summinus

=

=1

0

2))((~1)(~ N

k

Nkni

s ektXN

nxs

π

τ τ

Lors de la mise en œuvre de ce traitement il faut srsquoassurer drsquoecirctre en mesure de

reconstruire parfaitement un signal lorsqursquoaucune transformation ne lui est appliqueacutee Le critegravere de reconstruction parfaite condition suffisante est alors

sum=

=minusminusT

tasaa tnwtnw

11))(())(( ττ quelque soit n (D6)

D2 Synthegravese par addition-recouvrement 61

Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add [Laroche 1995]

Plusieurs paramegravetres sont agrave choisir avec soin Le premier drsquoentre eux est le type

de fenecirctre agrave utiliser Les diffeacuterentes options qui se preacutesentent agrave nous sont - la fenecirctre rectangulaire qui preacutesente dans son spectre le lobe principal le plus

eacutetroit mais des lobes secondaires non neacutegligeables - la fenecirctre de Hamming au lobe principal un peu plus large mais pour laquelle le

1er lobe secondaire se situe agrave -43 dB - la fenecirctre de Hann (ou cosinus sureacuteleveacute) qui ressemble agrave la preacuteceacutedente avec un

1er lobe secondaire plus fort mais une pente de 18 dB par octave pour les lobes suivants

- les fenecirctres de Blackman-Harris aux lobes secondaires tregraves bas mais au lobe principal plus large

Fenecirctre Lobe 2aire

(dB) Pente

(dBoct) Bande passante

agrave 6 dB (bins) Rectangulaire -13 -6 121 Triangulaire -27 -12 178

Hann -32 -18 200 Hamming -43 -6 181

Blackman-Harris 4 -92 -6 272

Tableau D1 - Caracteacuteristiques des principales fenecirctres drsquoanalyse [Harris 1978] Le meilleur compromis est donc dans notre contexte la fenecirctre de Hann ou celle

de Hamming

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 16: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

Chapitre 1 Ambisonics 10

Cette proprieacuteteacute ne peut pas ecirctre matheacutematiquement veacuterifieacutee en 3D au-delagrave de lrsquoordre 2 autrement dit il nrsquoexiste pas de polyegravedre reacutegulier dont la position des sommets conserve strictement lrsquoorthonormaliteacute des harmoniques spheacuteriques

Visuellement le deacutecodage correspond agrave la reproduction du champ sonore tel qursquoil

aurait eacuteteacute capteacute par un ensemble de N microphones agrave directiviteacutes hyper-cardioiumldes tourneacutes chacun vers lrsquoun des haut-parleurs Leur directiviteacute serait drsquoautant plus preacutecise que lrsquoordre de reproduction est eacuteleveacute

Figure 16 - Prise de son virtuelle eacutequivalente agrave un encodage au 1er ordre et un deacutecodage

basique sur une disposition en 2D hexagonale [Moreau et al 2006] Le gain gl appliqueacute agrave chaque haut-parleur pour une direction de source virtuelle donneacutee

(en vert) est indiqueacute par la longueur des flegraveches et est reporteacutee aux points drsquointersection de la flegraveche verte et des diagrammes de directiviteacute

On peut remarquer que les diagrammes de directiviteacute sont tregraves larges par rapport

agrave lrsquoespacement angulaire des haut-parleurs Le 2nd ordre offrirait des directiviteacutes plus fines et donc une seacutelectiviteacute spatiale accrue Il faudrait alors bien sucircr davantage de haut-parleurs pour ne pas introduire des ldquotrousrdquo entre eux On remarque eacutegalement la preacutesence non neacutegligeable des lobes secondaires utiles pour la reconstruction du champ acoustique (notamment en basses freacutequences) mais qui peuvent ecirctre gecircnants dans certains cas par exemple lorsque lrsquoauditoire est large

Ce deacutecodage est appeleacute deacutecodage basique car il nrsquooptimise pas la restitution en

accord une quelconque hypothegravese et cherche uniquement agrave reproduire fidegravelement le champ acoustique Pour ameacuteliorer la restitution dans des cas critiques comme par exemple en-dehors du sweet spot (centre du dispositif) il faut optimiser le deacutecodage en reacuteduisant par exemple les lobes secondaires Ainsi le deacutecodage max-rE srsquoattache agrave maximiser lrsquoeacutenergie reccedilue de la provenance de la direction souhaiteacutee alors que le deacutecodage in-phase annule complegravetement ces lobes secondaires (voir Annexe B)

13 Critique de la technologie HOA 11

13 Critique de la technologie HOA

131 Bilan On a ainsi vu que la technologie HOA est une repreacutesentation intermeacutediaire du

champ de pression acoustique agrave mi-chemin entre la description directe du champ lui-mecircme et des signaux agrave restituer Cette technologie a de nombreux avantages compareacutee aux autres meacutethodes de reproduction de champ sonore (on trouvera notamment une eacutetude deacutetailleacutee des comparaisons entre HOA et la Wave Field Synthesis (WFS) dans [Daniel et al 2003]) elle permet drsquoeacuteviter le repliement spatial (voir paragraphe suivant) et permet ainsi une reconstruction dans une gamme de freacutequences tregraves large

La qualiteacute de la restitution ambisonique nrsquoest theacuteoriquement limiteacutee que part

lrsquoordre de troncature de la seacuterie de Fourier-Bessel agrave partir du moment ougrave le nombre de haut-parleurs est suffisant Ainsi un ordre tendant vers lrsquoinfini (et un nombre de haut-parleurs au moins aussi grand) permettra une reproduction quasi-parfaite sur lrsquoensemble de la zone drsquoeacutecoute

Mais les principaux avantages de cette technologie sont drsquoune part drsquoecirctre flexible

crsquoest-agrave-dire qursquoon peut agrave loisir adapter le nombre de signaux transmis au canal de transmission Une chute de deacutebit nrsquoentraicircnera pas de coupure de la transmission mais simplement une perte de preacutecision spatiale par lrsquoabandon des composantes drsquoordres les plus eacuteleveacutes Et drsquoautre part elle est indeacutependante du systegraveme de reproduction Ainsi un mecircme signal HOA pourra ecirctre diffuseacute sur toutes les configurations de haut-parleurs il suffira pour cela de calculer la matrice de deacutecodage associeacutee agrave ce systegraveme

132 Limites pratiques Dans la pratique cette technologie a toutefois des limitations Si lrsquoaliasing spectral

est eacuteviteacute on constate aux ordres les plus eacuteleveacutes lrsquoapparition drsquoun repliement spatial lors des enregistrements naturels agrave partir drsquoune freacutequence lieacutee agrave la distance maximale entre 2 capsules du microphone HOA (qui doit ecirctre au plus eacutegale agrave la moitieacute de la plus petite longueur drsquoonde drsquoapregraves Shannon) et au nombre total de capsules (qui doit ecirctre supeacuterieur agrave (M+1)2 M eacutetant lrsquoordre auquel on souhaite enregistrer)

Le repliement spectral repreacutesente la preacutesence importune dans des composantes

ambisoniques de sources qui de part leur position ne devraient qursquoapparaicirctre avec cette importance que dans les composantes drsquoordre plus eacuteleveacute Il est ducirc agrave lrsquointrusion des directiviteacutes drsquoordres supeacuterieurs dans les composantes harmoniques spheacuteriques estimeacutees Comme on le voit sur la Figure 17 les directiviteacutes ne sont pas des cylindres (au sens matheacutematique du terme la base nrsquoeacutetant pas forceacutement un cercle) mais varient en fonction de la freacutequence pour ressembler davantage dans le haut du spectre aux courbes de directiviteacute de lrsquoordre supeacuterieur Ainsi la directiviteacute de lrsquoordre 1 (2egraveme graphique) qui devrait ecirctre un 8 ressemble davantage au-dessus de 10 000 Hz agrave la figure de directiviteacute de lrsquoordre 4 (8 lobes)

Chapitre 1 Ambisonics 12

Figure 17 - Directiviteacutes theacuteoriques (en transparence) et reconstruites (grille) dans le plan horizontal pour des ondes planes horizontales Lrsquoaxe vertical correspond agrave la freacutequence et

les diffeacuterents graphiques aux ordres 0123 et 4 de gauche agrave droite Agrave lrsquoopposeacute la taille reacuteduite du microphone si elle permet de reacuteduire cet aliasing

spatial empecircche la capture des basses freacutequences aux ordres supeacuterieurs (voir 232) La reacutesolution spatiale des basses freacutequences sera donc moindre ce qui implique que en ajoutant lrsquoeffet du repliement en hautes freacutequences les ordres eacuteleveacutes capteacutes avec le micro HOA ne constituent qursquoune plage du spectre assez peu eacutetendue crsquoest cette seule plage qui pourra se targuer drsquoune excellente preacutecision spatiale

13

Chapitre 2

Analyser un contenu HOA

21 Objectifs La reacuteflexion a tout au long du stage eacuteteacute orienteacutee vers deux objectifs le premier

est dans un contexte de transmission de reconstruire une scegravene spatialiseacutee agrave partir du minimum drsquoinformations le deuxiegraveme appliqueacute agrave des ordres plus eacuteleveacutes est drsquoarriver agrave resyntheacutetiser les composantes de lrsquoordre immeacutediatement supeacuterieur

211 Restitution de la spatialisation agrave partir drsquoun downmix mono La premiegravere approche vise donc agrave reconstruire une scegravene spatialiseacutee agrave partir drsquoun

downmix le plus leacuteger possible Un downmix est une reacuteduction du nombre de canaux par fusion lrsquoexemple le plus simple eacutetant le passage drsquoun signal steacutereacuteo agrave un signal mono construit comme la demi-somme des composantes gauche et droite On tente dans cette approche de se restreindre au plus petit nombre de signaux possible un signal eacutetant tregraves coucircteux agrave transmettre en ajoutant parallegravelement agrave ce signal des informations compleacutementaires aidant agrave la reconstruction

Le cas extrecircme est la reacuteduction du flux agrave un signal mono Dans le cas

drsquoambisonics un signal mono comprenant toutes les sources est deacutejagrave preacutesent il srsquoagit de la composante omnidirectionnelle W Il faut donc extraire de la scegravene encodeacutee agrave un certain ordre M des informations permettant la reconstruction drsquoun ordre Mrsquo apregraves transmission Nous verrons que nous allons chercher agrave trouver les positions des sources gracircce agrave une analyse en composantes principales (ou ACP voir Annexe C) effectueacutee par sous-bandes (voir Annexe D)

212 Ameacutelioration de la preacutecision spatiale La deuxiegraveme piste suivie a pour but de reconstituer un ordre ambisonique non

transmis On pourrait qualifier cette approche drsquoupmix ambisonique car elle vise agrave reconstruire un ordre manquant En effet le format ambisonique eacutetant flexible il est bien

Chapitre 2 Analyser un contenu HOA 14

adapteacute agrave la transmission Ainsi si on souhaite transmettre une scegravene encodeacutee agrave lrsquoordre 2 dans le plan horizontal il faudra un canal drsquoun deacutebit minimum (si lrsquoon prend lrsquohypothegravese de pas vouloir compresser les signaux) de 471 Mos Un canal plus petit (par exemple 34 Mos) ne permettra theacuteoriquement de transmettre qursquoun ordre 1 Mais lrsquoanalyse des signaux peut permettre de deacuteterminer les positions des sources agrave partir desquelles on peut syntheacutetiser des composantes du 2nd ordre approchant les composantes drsquoorigine On pourrait mecircme imaginer pouvoir syntheacutetiser un ordre qui nrsquoavait pas eacuteteacute encodeacute agrave lrsquoorigine

Pour cela il est neacutecessaire de deacuteterminer les positions des sources preacutedominantes

dans le champ sonore pour piloter leur encodage spatial aux ordres supeacuterieurs et arriver agrave la synthegravese drsquoune repreacutesentation de reacutesolution spatiale accrue Il srsquoagit dans le mecircme temps drsquoisoler au mieux les signaux associeacutes agrave ces diffeacuterentes sources avant de leur appliquer lrsquoopeacuteration drsquoencodage on se rapproche donc drsquoun problegraveme de seacuteparation de sources

Pour parvenir agrave trouver ces positions deux meacutethodes ont eacuteteacute testeacutees La premiegravere

consiste comme preacuteceacutedemment agrave appliquer en sous-bandes une analyse en composantes principales La seconde implique la formation de directiviteacutes agrave partir des vecteurs propres de la matrice de correacutelation utiliseacutee dans cette analyse

Lrsquoanalyse en composantes principales ou ACP (voir Annexe C) est donc

largement privileacutegieacutee dans nos approches Elle permet en effet tregraves facilement drsquoextraire des informations preacutecises de signaux correacuteleacutes Pour justifier ce choix une autre meacutethode reacutecente a eacutegalement eacuteteacute testeacutee et compareacutee agrave lrsquoACP (voir 11)

22 Principe de lrsquoextraction drsquoinformation spatiale avec une ACP

221 Information spatiale

Nous avons donc tout drsquoabord testeacute lrsquoanalyse en composantes principales sur des

signaux HOA Nous avons choisi dans un premier temps de limiter lrsquoanalyse aux composantes horizontales du premier ordre W X et Y avant de lrsquoeacutetendre agrave la 3egraveme dimension avec Z

Dans un premier test les signaux HOA sont analyseacutes par une ACP dans leur

inteacutegraliteacute LrsquoACP est appliqueacutee sur les signaux X et Y qui contiennent lrsquoinformation spatiale En effet X et Y correspondent aux signaux qui seraient capteacutes par des microphones agrave figure en 8 placeacutes sur lrsquoaxe avant-arriegravere et gauche-droite respectivement

La Figure 21 montre la correacutelation entre X et Y dans le cas drsquoun bruit blanc capteacute

par le microphone ambisonique Les points ne sont pas exactement aligneacutes du fait des artefacts inheacuterents agrave la prise de son (reacuteflexions sur les parois approximations du microphone etc)

22 Principe de lrsquoextraction drsquoinformation spatiale avec une ACP 15

Figure 21 - Y en fonction de X dans le cas drsquoun bruit blanc enregistreacute placeacute agrave 30deg

On remarque que le nuage est eacutetireacute dans la direction de provenance du son indiqueacutee par la flegraveche en pointilleacutes verts

222 Application de lrsquoanalyse en composantes principales La 1egravere composante issue de lrsquoACP appliqueacutee dans le plan (X Y) pointe dans la

direction dans laquelle X et Y ont la plus grande correacutelation Or comme X contient lrsquoinformation placeacutee sur lrsquoaxe avant-arriegravere et Y lrsquoinformation de lrsquoaxe gauche-droite cette direction est directement la direction de la source Par exemple un son situeacute droit devant dans lrsquoaxe (agrave 0deg) aura une composante Y nulle et par conseacutequent les eacutechantillons seront dans le plan tous disposeacutes sur lrsquoaxe horizontal LrsquoACP prendra donc naturellement cet axe comme 1er vecteur propre et il pointe bien vers la position de la source De mecircme un son situeacute agrave 135deg ( π28

3 times rad) aura la proprieacuteteacute Y = -X Les eacutechantillons seront donc placeacutes sur la 2egraveme bissectrice qui fait avec lrsquoaxe Y=0 un angle de 135deg (voir Figure 22)

Figure 22 - Y en fonction de X dans le cas drsquoun son placeacute artificiellement dans la direction

indiqueacutee par la flegraveche en pointilleacutes verts agrave 0deg (agrave gauche) et 135deg (agrave droite)

Chapitre 2 Analyser un contenu HOA 16

Lrsquoanalyse de X et Y ne permet cependant de deacuteterminer lrsquoangle qursquoagrave π pregraves il reste une indeacutetermination (on deacutetermine la direction drsquoun axe qursquoil reste agrave orienter) Pour lever cette ambiguiumlteacute on integravegre W agrave lrsquoanalyse car cette composante pourtant omnidirectionnelle et donc deacutepourvue drsquoinformation spatiale apporte une reacutefeacuterence pour les phases Ainsi notre son placeacute agrave 135deg veacuterifiait (aux eacuteventuels coefficients de normalisation pregraves) Y = -X = W alors qursquoun son placeacute agrave 135 - 180 = -45deg aurait la proprieacuteteacute Y = -X = -W

Pour prendre en compte W dans lrsquoanalyse on peut comparer directement les

phases de ces 3 canaux Algorithmiquement on ramegravene lrsquoangle trouveacute agrave son modulo π2 puis on deacutetermine le vrai cadran par comparaison des phases de W X et Y crsquoest-agrave-dire en comparant le signe des produits W X et W Y Ainsi W X gt 0 signifie que W et X sont en phase et reacuteciproquement (voir Figure 23)

W X lt 0 W Y gt 0

W X gt 0 W Y gt 0

W X lt 0 W Y lt 0

W X gt 0 W Y lt 0

minusπ2

π

π2

0

Figure 23 - Signes de W X et W Y en fonction du cadran On peut eacutegalement inteacutegrer W agrave lrsquoanalyse en appliquant lACP sur le triplet (X Y

W) Le problegraveme drsquoambiguiumlteacute est ainsi reacutesolu la direction rechercheacutee eacutetant celle du vecteur principal dans le demi-espace W gt 0 projeteacutee sur le plan (X Y) Cette meacutethode srsquoavegravere plus robuste et surtout plus geacuteneacuteralisable agrave des ordres plus eacuteleveacutes

Cette analyse permet donc de deacuteterminer la position drsquoune source unique Pour

pouvoir seacuteparer plusieurs sources nous avons appliqueacute lrsquoACP par sous-bandes en supposant que les sources nrsquoont pas des supports freacutequentiels strictement identiques Le principe de cette analyse en sous-bandes est deacuteveloppeacute en Annexe D

23 Meacutethodologie

231 Construction de scegravenes artificielles Pour tester les algorithmes impleacutementeacutes nous avons ducirc creacuteer des scegravenes sonores

spatialiseacutees au format HOA Plusieurs types de scegravenes ont eacuteteacute utiliseacutes de complexiteacutes diffeacuterentes Les premiegraveres ont eacuteteacute des scegravenes virtuelles syntheacutetiseacutees avec Matlab Les premiegraveres scegravenes simplissimes ne comportait qursquoune sinusoiumlde ou un bruit blanc fixe placeacute dans le plan horizontal Puis pour tester lrsquoanalyse par sous-bandes ont eacuteteacute creacuteeacutes des sons polyphoniques composeacutes de 2 sinusoiumldes tout drsquoabord puis de sons complexes (syntheacutetiseacutes par synthegravese FM) dans des gammes freacutequentielles distinctes ou se

23 Meacutethodologie 17

chevauchant Enfin ces sons ont eacuteteacute rendus mobiles en faisant varier leur position dans le temps

Nous avons pu ainsi constater agrave lrsquoaide des sons fixes et de supports freacutequentiels

distincts la preacutecision de lrsquoanalyse et avec les sons mobiles et mecircleacutes sa robustesse Nous nous sommes limiteacutes sous Matlab agrave la geacuteneacuteration de 2 sons simultaneacutes et du 1er ordre et un autre outil Plogue Bidule a eacuteteacute utiliseacute pour composer des scegravenes plus complexes

Bidule est un studio modulaire virtuel ressemblant agrave MAXMSP Des plugins ont

eacuteteacute deacuteveloppeacutes agrave France Teacuteleacutecom pour permettre de manipuler des signaux HOA Ainsi des scegravenes complexes ont pu facilement ecirctre syntheacutetiseacutees agrave des ordres eacuteleveacutes Des scegravenes agrave 3 et 4 sources fixes ou dont 1 source mobile ont eacuteteacute reacutealiseacutees agrave partir de voix deacutemixeacutees placeacutees dans le plan horizontal ou en 3 dimensions

Ces scegravenes eacutetant artificielles elles sont en un sens ideacuteales ne contiennent aucun

signal reacuteverbeacutereacute (effet de salle) ni diffracteacute (par un micro) lrsquoencodage est fait sans artefacts les ondes sont consideacutereacutees comme planes et ont donc une direction bien deacutefinie Si on est ici bien loin de la vraie vie le gros avantage des scegravenes artificielles est qursquoon connaicirct preacuteciseacutement agrave chaque instant la position des sources et qursquoon peut ainsi veacuterifier le reacutesultat de lrsquoanalyse

Figure 24 - Interface graphique du logiciel Bidule avec agrave droite les controcircles des encodeurs

et deacutecodeurs HOA creacuteeacutes agrave France Teacuteleacutecom

Chapitre 2 Analyser un contenu HOA 18

232 Exploitation drsquoenregistrements naturels Une fois des reacutesultats convaincants obtenus avec des scegravenes virtuelles des

enregistrements naturels ont eacuteteacute analyseacutes Ces scegravenes ont eacuteteacute enregistreacutees gracircce au prototype de micro HOA du 4egraveme ordre deacuteveloppeacute agrave France Teacuteleacutecom (voir Figure 12) Ce processus implique des diffeacuterences notables avec un encodage virtuel

Le prototype de microphone contraint en effet agrave quelques compromis pour

optimiser des critegraveres incompatibles La taille du microphone reacutesulte drsquoun compromis entre la preacutecision drsquoestimation des composantes en basses freacutequences qui neacutecessite une taille eacuteleveacutee et la minimisation de lrsquoaliasing spatial qui ne peut ecirctre eacuteviteacute qursquoavec des capsules tregraves proches les unes des autres Leur disposition est eacutegalement irreacuteguliegravere il nrsquoexiste en fait aucune faccedilon de disposer reacuteguliegraverement plus de 20 points sur une sphegravere La configuration qui avait eacuteteacute retenue par les concepteurs [Moreau 2006] est la ldquomoins irreacuteguliegravere possiblerdquo au sens de la preacuteservation de lrsquoorthonormaliteacute des harmoniques spheacuteriques les 32 capsules sont reacuteparties sur une sphegravere de 35 cm de rayon selon un Pentaki-dodeacutecahegravedre polyegravedre semi-reacutegulier dual de lrsquoicosaegravedre tronqueacute (ballon de football)

Ces artefacts sont donc inheacuterents agrave lrsquoutilisation drsquoun reacuteseau de microphones Mais

le monde reacuteel pose eacutegalement des problegravemes deacutelicats La complexiteacute des modes de rayonnement drsquointeraction avec lrsquoenvironnement reacuteclame lrsquointroduction de modegraveles drsquoencodage beaucoup plus complexes que le cas drsquoune onde plane en champ libre et rend lrsquoinformation spatiale moins limpide et univoque au sein de la scegravene encodeacutee (enregistreacutee) en comparaison avec une scegravene virtuelle Les sources ne sont ainsi plus ponctuelles mais eacutetendues elles ne sont plus agrave lrsquoinfini mais agrave une distance finie du microphone (les ondes reccedilues ne sont donc plus planes) En outre chaque source en se reacutefleacutechissant sur les parois et les diffeacuterents objets de la salle creacutee une multitude de sources secondaires Il est enfin souvent difficile de connaicirctre avec preacutecision la position drsquoune source dans lrsquoespace lors drsquoun enregistrement

Des enregistrements en chambre sourde ont eacuteteacute reacutealiseacutes pour se passer des

reacuteflexions de lrsquoenvironnement Afin de connaicirctre avec preacutecision la position de la source un haut-parleur diffusant un bruit blanc nous avons placeacute le microphone sur une table tournante commandeacutee par un plug-in sous Plogue Bidule

233 Visualisations des reacutesultats Lrsquoobservation des reacutesultats a eacuteteacute effectueacutee de plusieurs maniegraveres visuellement et

par lrsquoeacutecoute Les graphiques eacutetant plus commodes crsquoest par cette voie que les premiers essais eacutetaient conclus Plusieurs types de graphiques ont eacuteteacute produits deacutecrivant des paramegravetres diffeacuterents

Les repreacutesentations temps-freacutequence permettent de repreacutesenter une variable agrave 1

dimension sous Matlab Cette voie a eacuteteacute suivie pour visualiser les paramegravetres extraits de chaque sous-bande de chaque fenecirctre notamment les angles lrsquoeacutenergie et la pertinence Malheureusement Matlab ne permet pas de repreacutesenter sur le mecircme graphique une 4egraveme dimension sous la forme drsquoune 2egraveme dimension colorimeacutetrique (on prend geacuteneacuteralement la

23 Meacutethodologie 19

saturation) Cette dimension suppleacutementaire aurait permis de repreacutesenter simultaneacutement les angles et leur pertinence

Figure 25 - Repreacutesentation

et de lrsquoespace col

Pour repreacutesenter s

drsquoabandonner une dimensipouvoir repreacutesenter danrepreacutesenteacutees soit par le niv

Figure 26 - Repreacutesentationdeacutecrite en 332 (en absciss

est repreacutesenteacutee agrave gauc

234 Diffeacuterents modes La visualisation est

indispensable pour veacuterifiesont possibles de ceux-cainsi reconstitueacutee agrave partir d

1 W+Y+02X pour le c

π 0 minusπ

de la table des couleurs dite HSV de Matlab (lineacuteaire agrave gauche) orimeacutetrique HSL (Hue Saturation Luminance agrave droite)

imultaneacutement angles et pertinence il eacutetait donc neacutecessaire on Crsquoest le deacutecoupage freacutequentiel qui a eacuteteacute mis de cocircteacute pour s un plan temps-angles les pertinences Celles-ci sont eau de gris des points soit par leur taille

de la pertinence des angles de la scegravene agrave 4 sources dont 1 mobile e les trames en ordonneacutees les angles en degreacute) La pertinence he par lrsquointensiteacute du bleu et agrave droite par la taille des points

drsquoeacutecoute

un indice preacutecis de reacutesultat mais lrsquoeacutecoute est tout de mecircme r la qualiteacute globale de la synthegravese Plusieurs modes drsquoeacutecoute i lrsquoeacutecoute au casque est la plus aiseacutee Une pseudo-steacutereacuteo est es signaux du 1er ordre1 pour restituer les scegravenes restreintes au

anal gauche et W-Y+02X pour le canal droit

Chapitre 2 Analyser un contenu HOA 20

plan horizontal Pour plus de preacutecision agrave la restitution ou pour des scegravenes en 3D et sans perdre la faciliteacute drsquoune eacutecoute personnelle au casque on peut appliquer des filtres HRTF (Head-Related Transfert Function) pour une reproduction binaurale

Pour appreacutecier pleinement la spatialisation la diffusion sur un systegraveme multi

haut-parleurs est indispensable Deux systegravemes sont installeacutes dans le laboratoire de France Teacuteleacutecom un systegraveme 51 et un systegraveme circulaire de 48 haut-parleurs Ces systegravemes installeacutes dans des studios insonoriseacutes offrent une grande qualiteacute drsquoeacutecoute qui permet de repeacuterer les deacutefauts mecircme minimes de la synthegravese

21

Chapitre 3

Description des analyses

31 Deacutetermination des directions principales

311 Base des algorithmes Nous avons deacuteveloppeacute plusieurs algorithmes reacutepondant aux diffeacuterents objectifs

deacutecrits plus haut Chacun drsquoeux possegravede des particulariteacutes leur permettant de reacutepondre agrave ces objectifs mais on trouve neacuteanmoins une partie commune Ainsi toutes les analyses reposent sur le mecircme modegravele drsquoapplication drsquoune ACP par sous-bandes dont voici le scheacutema geacuteneacuteral

Figure 31 - Scheacutema geacuteneacuteral drsquoanalyse

Les signaux en entreacutee sont les composantes HOA W X et Y dans la plupart des

cas mais peuvent ecirctre eacutegalement des composantes drsquoordre plus eacuteleveacute (voir 11) Sur le fenecirctrage jouent plusieurs paramegravetres comme la taille de la fenecirctre ou encore le pourcentage de recouvrement entre elles Nous avons choisi une fenecirctre en racine de la fenecirctre de Hanning crsquoest-agrave-dire une arche de sinusoiumlde (voir eacutequation (D7) en Annexe D) avec un recouvrement de 50 ce qui veacuterifie le critegravere de reconstruction parfaite (D6) Le filtrage est pour des raisons de rapiditeacute de calcul reacutealiseacute dans le domaine freacutequentiel par une simple multiplication avant de repasser en temporel pour appliquer lrsquoACP

Le banc de filtre utiliseacute est un banc inspireacute des filtres ERB Les filtres ERB

(Equivalent Regular Bandwidth) sont des filtres imitant le comportement de seacuteparation freacutequentielle de lrsquooreille humaine plus preacutecise en basse freacutequence Les filtres utiliseacutes ici ne sont pas directement des filtres ERB le systegraveme nrsquoa pas drsquointeacuterecirct particulier agrave essayer de copier le fonctionnement de lrsquooreille humaine Ces filtres ont eacuteteacute adapteacutes au problegraveme en

Chapitre 3 Description des analyses 22

srsquoassurant en particulier de la finesse des bandes permettant la meilleure discrimination des diffeacuterentes sources crsquoest-agrave-dire autour des fondamentales usuelles (200-1000 Hz) et des harmoniques Les freacutequences aigueumls sont bien discrimineacutees par les filtres ERB (relativement agrave la gamme crsquoest-agrave-dire en eacutechelle logarithmique) le deacutecoupage a donc surtout eacuteteacute densifieacute entre 200 et 800 Hz par rapport aux bandes ERB

Figure 32 - Filtres utiliseacutes inspireacutes des filtres ERB repreacutesenteacutes lineacuteairement (en haut)

et sur une eacutechelle logarithmique (en bas) Les reacutesultats de lrsquoACP sont donc avec cette meacutethode les angles des sources

trouveacutees dans chaque sous-bande ainsi que pour chacun drsquoeux un critegravere de pertinence calculeacute en fonction de lrsquoeacutenergie de la sous-bande dans une fenecirctre donneacutee et de la norme relative de la premiegravere composante de lrsquoACP (voir 342) Les autres vecteurs propres peuvent ecirctre utiliseacutes pour extraire davantage drsquoinformations et mecircme des signaux deacutecorreacuteleacutes comme on le verra au paragraphe 35 mais lrsquoanalyse semble alors moins robuste Srsquoen tenir aux informations donneacutees par la composante principale est un gage de pertinence suppleacutementaire

Ces reacutesultats concernent donc les sources preacutedominantes ou principales mais

laissent de cocircteacute un certain nombre drsquoeacuteveacutenements sonores agrave consideacuterer

312 Traitement du champ reacutesiduel Le champ reacutesiduel regroupe en quelque sorte tout ce qui nrsquoest pas une source

principale Il inclut donc les reacuteflexions et la reacuteverbeacuteration de la piegravece mais aussi les bruits parasites occasionnels ou continus (ventilation etc) Ces bruits ou eacutechos nrsquoont pas de direction de provenance assez distincte pour pouvoir ecirctre mesureacutee preacuteciseacutement Le champ reacutesiduel est eacutegalement composeacute du champ diffus La notion de champ diffus est couramment utiliseacutee mais rarement preacuteciseacutement deacutefinie On trouve dans la litteacuterature des deacutefinitions diverses lrsquoune drsquoelles preacutecisant qursquoil serait un ensemble drsquoeacuteveacutenements sonores proches en temps et provenant de directions eacutequiprobables

Les algorithmes proposeacutes traitent correctement les sources principales mais le

champ reacutesiduel est laisseacute de cocircteacute Il est pourtant tregraves important pour lrsquoimmersion du sujet dans la scegravene une scegravene deacutepourvue de champ sonore sera perccedilue comme artificielle ce qui nuit agrave la perception drsquoespace On sera par exemple davantage conscients drsquoecirctre au centre drsquoun dispositif expeacuterimental et moins sensibles aux variations de profondeur et de perspectives

31 Deacutetermination des directions principales 23

Neacuteanmoins il faut relativiser lrsquoimportance de ce champ reacutesiduel il nrsquoest pas utile pour la localisation des sources principales et ne caracteacuterise que lrsquoenvironnement drsquoenregistrement En outre le champ reacutesiduel qui provient souvent de directions floues et notre but nrsquoest pas de les preacuteciser artificiellement Il nrsquoest degraves lors geacuteneacuteralement pas utile de le transmettre aux ordres eacuteleveacutes

Ainsi certains auteurs [Merimaa and Pulkki 2005] ont choisi de recreacuteer lors drsquoune

synthegravese un champ diffus artificiel baseacute sur une reacuteponse impulsionnelle de salle calculeacutee agrave lrsquoavance Lrsquoavantage est une immersion un enveloppement complets lrsquoinconveacutenient est que lrsquoambiance ainsi recreacuteeacutee est fictive et arbitraire et en outre complegravetement indeacutependante de lrsquoambiance initiale en laissant notamment de cocircteacute les sources secondaires

Nous proposons dans nos algorithmes de ne pas syntheacutetiser le champ diffus aux

ordres eacuteleveacutes mais de nous contenter de la description du champ reacutesiduel fourni par les ordres transmis (1er ordre dans nos exemples) Nous nous limiterons donc agrave preacuteciser par la synthegravese des ordres supeacuterieurs les positions des sources principales

32 Extension agrave la 3D Nous avons pour le moment eacutevoqueacute le cas de repreacutesentations de champ sonore agrave

2 dimensions crsquoest-agrave-dire issus de sources placeacutees dans le plan horizontal Mais certaines repreacutesentations comportent eacutegalement des composantes verticales Pour analyser ces signaux en 3 dimensions il faut inteacutegrer la composante Z On effectue alors simplement une ACP sur X Y Z et W Le 1er vecteur propre sera alors bien dirigeacute dans lrsquoespace (X Y Z) dans la direction de la source lrsquoambiguiumlteacute de frac12 espace eacutetant leveacutee par W

Lrsquoalgorithme est alors complegravetement similaire agrave celui analysant des signaux en 2

dimensions Des tests ont eacuteteacute reacutealiseacutes agrave partir de signaux syntheacutetiques pour lesquels les positions des sources eacutetaient connues pour des raisons pratiques aucune scegravene sonore reacuteelle en 3 dimensions nrsquoa pu ecirctre enregistreacutee avec une connaissance initiale preacutecise des positions des sources

Les visualisations et les eacutecoutes eacutetant plus deacutelicates en 3D et lrsquoextension agrave la 3D

eacutetant immeacutediate nous avons donc concentreacute nos efforts sur lrsquoanalyse de scegravenes en 2D En outre en lrsquoabsence de dispositif spheacuterique ou heacutemispheacuterique de haut-parleurs le seul moyen agrave notre disposition pour eacutecouter une scegravene 3D est lrsquoeacutecoute binaurale crsquoest-agrave-dire au casque avec des fonctions de transfert de tecircte (HRTF) relativement bien adapteacutees agrave lrsquoauditeur

33 Analyse aux ordres supeacuterieurs

331 Description Afin drsquoameacuteliorer la preacutecision de lrsquoanalyse nous avons essayeacute drsquoappliquer une ACP

sur des signaux ambisoniques drsquoordre plus eacuteleveacute (signaux HOA) dans le plan horizontal Deux meacutethodes ont eacuteteacute essayeacutees

Chapitre 3 Description des analyses 24

La premiegravere consiste agrave appliquer une ACP agrave 3 dimensions successivement sur les composantes X Y W (ordre 1 et 0) puis U V W (ordre 2 et 0) et ainsi de suite crsquoest-agrave-dire (en utilisant la notation geacuteneacuterale) sur les composantes et W (ordre m et 0) Les reacutesultats de ces analyses (les directions des 1

)1(0mY )1(

0minus

mYegraveres composantes) sont ensuite regroupeacutees

lrsquoanalyse de lrsquoordre 1 fournissant des reacutesultats modulo 2π lrsquoanalyse de lrsquoordre 2 des reacutesultats plus preacutecis mais modulo π et plus geacuteneacuteralement lrsquoanalyse de lrsquoordre m permettant de trouver des angles modulo mπ2

La limite de cette approche se perccediloit lors de la fusion des reacutesultats les angles

trouveacutes agrave un ordre eacuteleveacute sont plus preacutecis dans des bandes de freacutequences eacuteleveacutees mais la limitation theacuteorique de ces signaux HOA dans les basses freacutequences font que lrsquoanalyse de lrsquoordre 1 reste la plus pertinente dans les premiegraveres bandes Parvenir agrave deacuteterminer agrave partir de quelle freacutequence on peut faire davantage confiance agrave lrsquoordre n+1 qursquoagrave lrsquoordre n nrsquoest pas aiseacute et cette limite provoque des aberrations dans les angles trouveacutes Une source unique pourra par exemple ecirctre interpreacuteteacutee par lrsquoalgorithme des k-moyennes (voir 341) comme 2 sources une en hautes freacutequences et une en basses freacutequences les 2 eacutetant trouveacutes agrave 2 angles diffeacuterents chaque angle relevant drsquoun ordre analyseacute diffeacuterent

La deuxiegraveme meacutethode consiste pour eacuteviter cette fusion des reacutesultats agrave effectuer

une seule ACP sur les composantes U V X Y et W Cette meacutethode souffre drsquoune tregraves grande complexiteacute algorithmique pour une ameacutelioration de la preacutecision peu sensible En effet si cette meacutethode permet drsquoobtenir des reacutesultats plus preacutecis dans certaines bandes de freacutequences elle est sensible aux deacutefauts et les limites des ordres supeacuterieurs (lrsquoabsence de basses freacutequences entre autres) perturbent lrsquoanalyse en composantes principales

332 Illustration sur une scegravene virtuelle La scegravene preacutesenteacutee ici est une scegravene artificielle crsquoest-agrave-dire composeacutee de sons

placeacutes artificiellement agrave diverses positions Elle a une dureacutee totale de 135 s et comporte 4 sources positionneacutees dans le plan horizontal une guitare placeacutee agrave 45deg une basse agrave -70deg une batterie agrave 110deg et une voix feacuteminine qui effectue continucircment un tour complet dans le sens indirect en partant de lrsquoarriegravere (elle passe donc successivement par les positions 180deg 90deg 0deg -90deg et -180deg) La guitare et la batterie srsquoarrecirctent peu avant la fin de la scegravene (12egraveme seconde au 910egraveme du son approximativement)

Figure 33 - Position des sources de la scegravene de test agrave 4 sources dont 1 mobile

33 Analyse aux ordres supeacuterieurs 25

Figure 34 - Angles drsquoune scegravene virtuelle ayant 1 source mobile et 3 sources fixes

(deacutecrite en 332) trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 Pour chaque trame (en abscisse) 20 angles (1 par bande en ordonneacutee et en degreacutes) sont

reporteacutes le diamegravetre du point correspondant agrave un critegravere de pertinence (voir 342)

Figure 35 - Angles de la mecircme scegravene trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 2 Reacutesultats modulo π reacutepliqueacutes pour faciliter la comparaison avec la figure preacuteceacutedente On remarque que les lignes sont plus nettes qursquoil y a moins drsquoangles aberrants et que

les angles corrects sont plus marqueacutes (ils sont deacutetermineacutes comme plus pertinent)

Chapitre 3 Description des analyses 26

20

0

20

0

20

0

Figure 36 - Angles drsquoune scegravene reacuteelle constitueacutee drsquoun bruit parcourant le cercle trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 (en haut) 0 et 2 (au milieu) et 0 et 4 (en bas) Le

numeacutero de trame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On retrouve qursquoune limitation des ordres HOA supeacuterieurs issus drsquoun enregistrement

microphonique est la restitution des basses freacutequences

34 Traitement des donneacutees

341 Algorithme des k-moyennes Agrave lrsquoissue de lrsquoanalyse en composantes principales on reacutecupegravere avec la premiegravere

des meacutethodes exposeacutees au chapitre preacuteceacutedent des angles correspondants aux positions des sources preacutedominantes agrave raison drsquoune valeur par fenecirctre et par bande de freacutequence Il faut agrave partir de ces donneacutees parvenir agrave isoler les sources crsquoest-agrave-dire agrave deacuteterminer quels sont les angles pertinents et examiner quels sont ceux qui agrave une certaine toleacuterance pregraves sont preacutesents dans plusieurs bandes de freacutequence etou plusieurs fenecirctres temporelles

Pour pouvoir exploiter ces donneacutees spatiales nous avons utiliseacute lrsquoalgorithme des

k-moyennes (ou k-means) [MacQueen 1967] sur les angles pondeacutereacutes par des critegraveres de pertinence Cet algorithme fonctionne de la maniegravere suivante

Initialisation choix de k barycentres (les k moyennes) Reacutepeacuteter Associer chaque eacuteleacutement au barycentre le plus proche Recalculer les positions des barycentres Jusqursquoagrave ce que les barycentres soient stables (ou au bout de t iteacuterations)

34 Traitement des donneacutees 27

Lrsquoavantage de cet algorithme est drsquoecirctre peu glouton puisqursquoil converge en O(tkn) ougrave t est le nombre drsquoiteacuterations k le nombre de centres et n le nombre de points (geacuteneacuteralement on a t k ltlt n) Par contre il est plutocirct sensible aux exceptions un point aberrant tirera agrave lui la moyenne auquel il aura eacuteteacute associeacute Il faut donc faire en sorte que ces points erroneacutes soient aussi rares que possibles Crsquoest pourquoi les angles traiteacutes sont pondeacutereacutes par 2 critegraveres de pertinence

La pondeacuteration des angles fournis en entreacutee de lrsquoalgorithme des k-moyennes se

fait de maniegravere simple en reacutepeacutetant ces angles un nombre de fois (de 0 agrave 10) proportionnel agrave un critegravere Ainsi un angle tregraves pertinent sera dupliqueacute et sera preacutesent plusieurs fois dans la liste des donneacutees traiteacutees attirant ainsi agrave lui la position du barycentre le plus proche Au contraire un angle trop peu pertinent ne sera pas reacutepeacuteteacute voir mecircme sera enleveacute de la liste

Le seul problegraveme de cet algorithme est qursquoil neacutecessite la connaissance de k crsquoest-

agrave-dire du nombre de sources qui composent la scegravene Une deacutetermination automatique se basant sur la reacutepeacutetition de lrsquoalgorithme avec un k croissant a eacuteteacute testeacutee mais le critegravere drsquoarrecirct reposant sur la dispersion des points autour des barycentres nrsquoeacutetant pas assez robuste cette meacutethode a provisoirement eacuteteacute mise de cocircteacute

342 Critegraveres de pertinence Les 2 critegraveres de pondeacuteration choisis sont lrsquoeacutenergie de la sous-bande dans la

fenecirctre donneacutee et le rapport de la norme de la 1egravere composante (la composante principale) de lrsquoACP sur la somme des normes de toutes les composantes

En effet un angle est trouveacute dans chaque sous-bande de chaque fenecirctre mecircme si

le signal y est tregraves faible Lrsquoangle trouveacute sera alors tregraves peu repreacutesentatif de la direction drsquoune source puisqursquoil indiquera la direction drsquoun bruit Lrsquoeacutenergie doit donc ecirctre prise en compte pour ne conserver que les angles trouveacutes dans des bandes comportant un signal suffisant

La norme relative de la 1egravere composante de lrsquoACP rend quant agrave elle compte du

poids relatif de cette composante par rapport aux autres Ainsi si 2 sources sont preacutesentes dans une bande donneacutee la 1egravere composante sera agrave peine plus marqueacutee que la 2egraveme Ceci peut ecirctre calculeacute en prenant simplement le rapport de la 1egravere valeur propre sur la somme des valeurs propres

On peut noter que la norme de la 1egravere composante ne se deacutetache nettement que

lorsqursquoun son est preacutesent dans la bande consideacutereacutee On peut alors se demander si lrsquoeacutenergie doit ecirctre prise en compte ou si lrsquoinformation qursquoelle contient nrsquoest comprise dans le 2egraveme critegravere En fait la norme relative est un critegravere tregraves bruiteacute et consideacuterer lrsquoeacutenergie par ailleurs permet de nuancer ces artefacts et constitue une base solide de pondeacuteration

Chapitre 3 Description des analyses 28

80

40

0

Figure 37 - Repreacutesentation temps-freacutequence des angles du son deacutecrit en 332 Letrame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On peut donc v

par trame et par bande chacun eacutetant le reacutesultat drsquoune ACP crsquoest-agrave-dire la 1egravere

Figure 38 - Eacutenergie de ce mecircme son On peut voir une basse en notes tenues uneet une batterie qui produit des sons secs dans un spectre plus aigu

80

40

0

80

40

0

Figure 39 - Norme relative de la 1egravere composante de ce mecircme son Les impacts de batterie (dans lrsquoaigu) ressortent davantage

π 0 minusπ

numeacutero de oir un angle direction

voix aiguumle

34 Traitement des donneacutees 29

Figure 310 - Pondeacuteration appliqueacutee agrave lrsquoentreacutee des k-moyennes calculeacutee ici comme

le simple produit de lrsquoeacutenergie et de la norme relative

80

40

0

343 Lissages

Pour faire face au bruit ineacutevitable dans les reacutesultats il faut lisser les donneacutees Ces

lissages temporels correspondent agrave des hypothegraveses de stabiliteacute des sources qui sont supposeacutees ecirctre fixes ou mobiles relativement lentement (dans une mesure agrave parameacutetrer)

Un premier lissage peut ecirctre opeacutereacute avant le traitement par lrsquoalgorithme des k-

moyennes Le filtre choisi est un filtre meacutedian de maniegravere agrave eacuteliminer les points aberrants tout en conservant les vraies valeurs des points coheacuterents Ce lissage est appliqueacute sur chaque sous-bande aux angles et ne tient pas compte des critegraveres de pertinence Il est donc utiliseacute avec parcimonie et peut mecircme ecirctre eacuteviteacute en reacuteglant de maniegravere adeacutequate les critegraveres de pondeacuteration agrave lrsquoentreacutee des k-moyennes

Le deuxiegraveme lissage srsquoeffectue agrave lrsquoentreacutee des k-moyennes en mecircme temps que les

critegraveres de pondeacuteration Il consiste agrave appliquer les k-moyennes non pas sur une fenecirctre donneacutee mais sur plusieurs fenecirctres conseacutecutives anteacuterieures et posteacuterieures en donnant plus de poids agrave la fenecirctre courante Dans la pratique les poids donneacutes aux diffeacuterentes fenecirctres sont eacutetablis par une gaussienne centreacutee sur la fenecirctre courante et de largeur agrave deacuteterminer (en fonction notamment de la dureacutee drsquoune fenecirctre et du type de scegravene analyseacute)

35 Exploitation de toutes les composantes de lrsquoACP Les analyses preacutesenteacutees preacuteceacutedemment ont toutes exploiteacute uniquement la

composante principale extraite par lrsquoACP Or cette analyse fournit des informations plus complegravetes par lrsquointermeacutediaire des autres composantes dont on peut tirer parti pour isoler plusieurs sources au sein drsquoune mecircme bande Cette approche est toujours en deacuteveloppement dans ce stage et nrsquoa pas encore donneacute pleine mesure des reacutesultats qursquoelle laisse entrevoir

Les composantes de lrsquoACP indiquent des directions qui correspondent aux

diffeacuterentes sources composant la scegravene sonore Les vecteurs propres de la matrice de correacutelation donnent ainsi les combinaisons lineacuteaires des signaux HOA permettant de

Chapitre 3 Description des analyses 30

seacuteparer de la meilleure faccedilon possible ces sons Ces directions peuvent ecirctre alors utiliseacutees pour former des directiviteacutes isolant au mieux ces sources

aBS sdot= (31)

ougrave la matrice a contient les vecteurs propres de la matrice de correacutelation (voir Annexe C) le vecteur B contient les signaux HOA et le vecteur S contient les sources extraites

⎟⎟⎟

⎜⎜⎜

=⎟⎟⎟

⎜⎜⎜

⎛=

⎥⎥⎥

⎢⎢⎢

⎟⎟⎟

⎜⎜⎜

⎟⎟⎟

⎜⎜⎜

⎛=

10

1001

1

ML

N

B

BB

S

SSuua MML (32)

On obtient ainsi des lobes drsquoautant plus eacutetroits que lrsquoordre est eacuteleveacute chacun

dirigeacute vers une source et permettant de lrsquoisoler le plus possible des contributions des autres sources La Figure 311 preacutesente les directiviteacutes ainsi trouveacutees par une ACP en pleine bande Une analyse en sous-bande permet une plus grande distinction des sources mais une seacuteparation diffeacuterente entre les bandes est dangereuse car elle risque de dissocier spatialement plusieurs parties drsquoun mecircme son

Figure 311 - Directiviteacutes seacuteparant ideacutealement 4 sources placeacutees agrave 17 73 195 et -58deg

pour une scegravene virtuelle encodeacutee agrave lrsquoordre 4 Ce principe se heurte neacuteanmoins aux limites de seacuteparation lieacutees agrave lrsquoordre

drsquoencodage en effet 2 sources ne pourront pas ecirctre seacutepareacutees si elles sont trop proches comme en teacutemoigne la largeur des lobes principaux Les lobes secondaires traduisent eacutegalement un meacutelange des sources isoleacutees La figure ci-dessus montre ainsi que la source placeacutee agrave 17deg (en vert) sera preacutesente de maniegravere non neacutegligeable dans le signal senseacute contenir la source placeacutee agrave -58deg (en bleu) en raison du lobe secondaire bleu important

31

Chapitre 4

Reacutesultats et applications

41 Illustration et critique des reacutesultats obtenus

411 Avant-propos Sans notification particuliegravere les reacutesultats preacutesenteacutes ont eacuteteacute obtenus avec un pas

de 50 ms une analyse en 80 bandes avec une FFT sur 8192 points Une taille de FTT plus grande et un plus grand nombre de bande augmente la qualiteacute de lrsquoanalyse un pas plus petit ameacuteliore sa preacutecision temporelle mais les reacutesultats sont moins fiables et un lissage plus important srsquoimpose alors Ces paramegravetres ont eacuteteacute reacutegleacutes apregraves de multiples essais sur des scegravenes diverses

Les reacutesultats sont preacutesenteacutes ici uniquement sous la forme de graphiques nous ne

pouvons donc repreacutesenter que les angles trouveacutes agrave la sortie de lrsquoalgorithme des k-moyennes

412 Scegravene 2D artificielle agrave 4 sources fixes La premiegravere scegravene est une scegravene artificielle composeacutee de 4 sons fixes placeacutes agrave -70

-10 45 et 110deg Ces sons (une basse une voix une guitare et une batterie) ont eacuteteacute choisis pour leur varieacuteteacute spectrale et leur varieacuteteacute drsquoattaque Elle a en outre le meacuterite drsquoecirctre reacutealiste et de constituer une seacutequence musicale (chaque son nrsquoest pas une meacutelodie indeacutependante)

On voit sur la Figure 41 ci-dessous que les angles trouveacutes sont proches des

angles theacuteoriques Lrsquoun des sons (agrave 45deg) est quasiment nul avant la 100egraveme trame sa position est alors moins facile agrave deacuteterminer plus preacuteciseacutement une position approximative est trouveacutee et correspondrait exactement agrave la position du bruit (45deg) si lrsquoincertitude de mesure tregraves grande pour un son aussi faible ne rendait la deacutetermination si ardue On mesure un eacutecart-type de 22deg sur cet exemple (en excluant le deacutebut du son agrave 45deg)

Chapitre 4 Reacutesultats et applications 32

Figure 41 - Angles theacuteoriques (en pointilleacutes rouge) et calculeacutes (en trait bleu) pour une scegravene

constitueacutee de 4 sons fixes longue de 11s

413 Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile

Figure 42 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) de la scegravene agrave

4 sources dont 1 mobile deacutecrite en 332 Cette scegravene est deacutecrite en 332 On a ici demandeacute aux k-moyennes de renvoyer 5 barycentres par trame alors que

seules 4 sources eacutetaient preacutesentes dans le but de se garantir une marge vis-agrave-vis des erreurs de deacutetection Cette 5egraveme direction nrsquoest pas du tout gecircnante elle indique une direction qui ne contient pas de source et crsquoest donc un son tregraves faible qui est ainsi pointeacute Apregraves une eacuteventuelle extraction le signal ne sera donc pas du tout gecircnant

41 Illustration et critique des reacutesultats obtenus 33

On peut remarquer que quand le son mobile se rapproche drsquoun son fixe la deacutetection est moins bonne il y a une fusion entre les 2 sons Mais encore une fois lors de lrsquoextraction lrsquoisolation drsquoun des sons englobera lrsquoautre son ce qui ne posera pas de problegraveme pour les objectifs fixeacutes aucune source nrsquoeacutetant oublieacutee En effet la seacuteparation de sources nrsquoest pas un objectif ici mais un moyen pour preacuteciser les positions des sources ce qui sera fait correctement mecircme si 2 sources sont pointeacutees par 1 seule direction

414 Scegravene 3D artificielle agrave une source et bruit de fond

La scegravene dont la position drsquoune source a eacuteteacute extraite ci-dessous est une scegravene virtuelle en 3D constitueacute drsquoun son (une voix) qursquoon a fait se deacuteplacer par paliers tout drsquoabord vers le haut de 0deg agrave 45deg et vers la gauche de 0deg agrave 90deg puis redescendre jusqursquoagrave 35deg en continuant son cheminement vers la gauche jusqursquoagrave 120deg et enfin finir la descente de 35deg agrave 0deg en la laissant agrave 120deg Agrave cette source a eacuteteacute superposeacutee une ambiance spatialiseacutee de hall drsquoaeacuteroport initialement enregistreacutee en 2D (au format 51) mais transformeacutee pour contenir des composantes verticales Cette ambiance deacutecorreleacutee de la source avait pour but de tester la robustesse de lrsquoanalyse Elle eacutetait agrave 15 dB en-dessous du niveau de la voix

Figure 43 - Azimut et eacuteleacutevation theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun

son en 3D artificiel de 9s placeacute dans une ambiance bruyante On remarque que lrsquoanalyse est tregraves correcte Il nrsquoy a pas drsquoeacutecart important entre

les angles theacuteoriques et ceux calculeacutes On note toutefois que le lissage agrave lrsquoentreacutee des k-moyennes a pour effet de gommer les creacuteneaux et drsquoaplatir quelque peu la courbe drsquoeacuteleacutevation ceci nrsquoest pas vraiment gecircnant car de tels sauts dans la position drsquoune source ne sont pas du tout reacutealistes (ils peuvent caracteacuteriser des bruits de pas mais de tels impacts sont courts et on peut srsquoattendre agrave ce que la courbe suive leur position aux instants ougrave ils sont eacutemis)

Chapitre 4 Reacutesultats et applications 34

415 Scegravene 2D naturelle agrave une source Les scegravenes naturelles sont on lrsquoa vu plus deacutelicates agrave exploiter car on ne peut pas

garantir la preacutecision de la position theacuteorique agrave retrouver par le calcul et on ne peut donc pas calculer la preacutecision de lrsquoanalyse Seuls les enregistrements utilisant la table tournante (voir 232) permettent une mesure preacutecise de la position de lrsquoangle Ces enregistrements on pu confirmer la validiteacute de lrsquoanalyse pour des scegravenes reacuteelles on trouve ici un eacutecart-type de 25deg

Figure 44 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun bruit blanc

tournant autour du micro enregistreacute en chambre sourde Cette analyse a eacuteteacute reacutealiseacutee par sous-bandes mais sur une eacutetendue freacutequentielle

plus reacuteduite puisqursquoon srsquoest limiteacute aux possibiliteacutes offertes par le microphone La scegravene a donc eacuteteacute analyseacutee de 200 agrave 10 000 Hz

42 Quelques applications

421 Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre 2 agrave partir de lrsquoordre 1

Une fois les positions des sources connues la porte est ouverte agrave de nombreuses

applications La connaissance de ces positions permet en effet de syntheacutetiser artificiellement des composantes manquantes ou non transmises La premiegravere synthegravese deacuteveloppeacutee est celle des signaux U et V composant la partie horizontale de lrsquoordre 2 agrave partir de lrsquoordre 1 et de paramegravetres issus de lrsquoanalyse pour une source en 2D (des angles dans de cas)

42 Quelques applications 35

Figure 45 - Principe de lrsquoameacutelioration de la preacutecision spatiale

Le principe de la synthegravese est drsquoextraire les sources originales agrave partir de W X Y

et des angles (un angle par trame et par sous-bande) Ceci peut ecirctre reacutealiseacute de maniegravere approcheacutee en deacutecodant lrsquoordre 1 dans les directions des sources Ce deacutecodage revient agrave calculer les signaux qui devraient alimenter des haut-parleurs qui seraient placeacutes agrave ces positions dans le cas drsquoune restitution (voir 122) crsquoest-agrave-dire agrave former des directiviteacutes dans les directions des sources Dans la plupart des cas ce deacutecodage qui fait intervenir une pseudo-inversion de Moore-Penrose (111) est imparfait les sources se retrouvant leacutegegraverement meacutelangeacutees On peut comparer cette seacuteparation agrave celle que ferait un ensemble de microphones agrave directiviteacute hypercardioiumlde coiumlncidents

Figure 46 - Directiviteacutes eacutequivalentes agrave la seacuteparation de 4 sources agrave lrsquoordre 1 Ces sources seacutepareacutees vont ensuite constituer toujours placeacutees aux angles

deacutetermineacutes agrave lrsquoanalyse une scegravene virtuelle qursquoon va encoder agrave lrsquoordre 2 De cet encodage on ne conservera que les signaux manquants dans notre exemple les signaux du 2nd ordre U et V Ainsi la scegravene spatialiseacutee sera au final constitueacutee des signaux W X et Y drsquoorigine (transmis) et des signaux U et V syntheacutetiseacutes

Chapitre 4 Reacutesultats et applications 36

422 Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave partir de W Reconstruire une scegravene sonore spatialiseacutee agrave partir drsquoun unique canal mono est

alors difficile et le reacutesultat nrsquoest appreacuteciable que pour des scegravenes simples Il faut pour cela que les diffeacuterentes sources composant cette scegravene aient des supports spectraux aussi distincts que possible Les diffeacuterentes sous-bandes sont alors placeacutees agrave un certain angle transmis en parallegravele et crsquoest cette scegravene reconstitueacutee qui va ecirctre encodeacutee au 1er ordre de maniegravere agrave recreacuteer les signaux X et Y

Figure 47 - Principe de la restitution de lrsquoordre 1 agrave partir du signal mono W Ce scheacutema rappelle une meacutethode deacuteveloppeacutee dans le cas steacutereacuteo appeleacutee BCC

(Binaural Cue Coding) [Faller and Baumgarte 2002] Le principe est drsquoextraire et coder des informations permettant la reconstruction binaurale drsquoun signal agrave savoir les diffeacuterences interaurales drsquointensiteacute et de temps (Interaural LevelTime Difference ILD et ITD) qui correspondent dans le cas drsquoune restitution sur un casque aux diffeacuterences drsquointensiteacute et de temps inter-canal (Inter-Channel LevelTime Difference ICLD et ICTD) qui sont mesureacutees agrave partir drsquoune analyse en sous-bandes Les auteurs y ont plus reacutecemment associeacute un indice de correacutelation interaurale mesureacute agrave partir de la correacutelation inter-canal (ICC) afin de caracteacuteriser la preacutecision spatiale (la ldquolargeurrdquo drsquoune source)

Figure 48 - Scheacutema de principe de la meacutethode BCC [Faller and Baumgarte 2003]

On observe en pratique des deacutefauts lieacutes agrave la brutaliteacute de la proceacutedure une sous-

bande ne peut ecirctre que placeacutee agrave la position indiqueacutee et ne peut pas rester floue diffuse ou encore ecirctre placeacutee agrave plusieurs endroits Pour y remeacutedier nous avons ajouteacute 2 traitements agrave la synthegravese Tour drsquoabord nous avons appliqueacute un leacuteger lissage soulageant les effets deacutesagreacuteables dus au saut du contenu drsquoune sous-bande drsquoun endroit agrave un autre entre de 2 fenecirctres conseacutecutives Les positions varient alors de faccedilon plus souple au sein drsquoune mecircme sous-bande traduisant une hypothegravese de continuiteacute spatiale (pas de deacuteplacement brusque) La contrepartie est que cette hypothegravese est lieacutee agrave une hypothegravese de continuiteacute spectrale

42 Quelques applications 37

La 2egraveme ameacutelioration concerne le positionnement des sources En incluant dans la transmission un critegravere de pertinence on peut savoir srsquoil est raisonnable de placer une sous-bande agrave un angle preacutecis ou bien si lrsquoanalyse eacutetait flou agrave son sujet auquel cas un positionnement impreacutecis serait preacutefeacuterable Le paramegravetre choisi est une combinaison des critegraveres eacutevoqueacutes en 342 il nous permet de placer la sous-bande de maniegravere plus ou moins prononceacutee

43 Comparaison avec une meacutethode existante Certains auteurs ont deacutejagrave essayeacute drsquoanalyser un contenu ambisonique pour

retrouver les positions des sources Ville Pulkki a ainsi deacutecrit dans [Pulkki and Faller 2006] une meacutethode drsquoanalyse du B-format baseacutee sur lrsquoeacutetude des amplitudes des signaux W X Y et Z

Figure 49 - X et Y dans le cas drsquoune sinusoiumlde placeacutee agrave 15deg (agrave gauche) et 120deg (agrave droite)

Les figures ci-dessus montrent les relations drsquoamplitudes (algeacutebriques) qui relient

X et Y agrave lrsquoangle de la source On voit que lrsquoanalyse de ces amplitudes respectives permet de retrouver la position de la source en effet on a pour une source unique les relations de lrsquoeacutequation (11) rappeleacutee ici

⎪⎪

⎪⎪

=

=

=

=

δ

δθ

δθ

sin2

cossin2

coscos2

SZ

SY

SX

SW

(41)

On peut donc theacuteoriquement retrouver les valeurs de θ et δ par relations

trigonomeacutetriques Ainsi on a

⎪⎪⎩

⎪⎪⎨

=

=

2)sin(

)tan(

WZ

XY

δ

θ (42)

Chapitre 4 Reacutesultats et applications 38

On peut donc trouver les angles θ et δ agrave π pregraves Pour lever lrsquoambiguiumlteacute une eacutetude de signe est neacutecessaire Mais dans le cas de θ le signe de X et de Y agrave δ fixeacute deacutepend aussi bien de θ que S Il faut srsquointeacuteresser aux signes de θcos et θsin crsquoest-agrave-dire

aux signes de WX et

WY Dans la pratique on srsquointeacuteressera aux signes de et

pour se preacutevenir des divisions par zeacuteros

XW sdot YW sdot

XW sdot et YW sdot sont proportionnels agrave toujours positif

2S

Les auteurs deacutecrivent eacutegalement dans leur article un critegravere appeleacute diffuseness qui

peut ecirctre compareacute agrave un critegravere de pertinence inverseacute Ce paramegravetre calculeacute par agrave 1 - R ougrave R est un rapport de normes est tregraves proche du critegravere de norme relative deacutecrit en 342 Il peut donc ecirctre utiliseacute de la mecircme faccedilon et permettre ainsi une pleine comparaison

Cette meacutethode a eacuteteacute impleacutementeacutee pour pouvoir ecirctre compareacutee avec la meacutethode

par ACP Tous les paramegravetres ont scrupuleusement eacuteteacute gardeacutes identiques et plusieurs reacuteglages ont eacuteteacute testeacutes Les courbes ci-dessous preacutesentent les reacutesultats des analyses de la scegravene deacutecrite en 332 avec un pas de 50ms un overlap de 50 un NFFT de 2048 et 40 bandes freacutequentielles Nous avons repreacutesenteacute tous les angles trouveacutes crsquoest-agrave-dire un par bande et par trame pour srsquoaffranchir de la seacutelection des k-moyennes

π

0

minusπ

Figure 410 - Angles trouveacutes par lrsquoalgorithme de [Pulkki and Faller 2006] Le diamegravetre du point correspondant agrave la pertinence

43 Comparaison avec une meacutethode existante 39

π

0

minusπ

Figure 411 - Angles trouveacutes par une ACP pour la mecircme scegravene On remarque que les points excentriques sont moins nombreux et plus rarement trouveacutes comme pertinents

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee

441 Position du problegraveme

Une application directe de ces analyses a eacuteteacute deacuteveloppeacutee pour la confeacuterence audio

spatialiseacutee La confeacuterence audio utilise en effet la spatialisation pour permettre une meilleure seacuteparation par lrsquooreille des diffeacuterents locuteurs Ainsi si plusieurs personnes parlent en mecircme temps il sera tregraves difficile de comprendre chacun individuellement si ces voix sont restitueacutees en mono mais on pourra focaliser lrsquoattention sur chacune drsquoentre elles si elles sont seacutepareacutees spatialement (crsquoest lrsquoeffet cocktail party [Cherry 1953])

Lrsquoobjectif eacutetait de veacuterifier qursquoil eacutetait possible de conserver la spatialisation drsquoune

confeacuterence en nrsquoayant transmis qursquoun downmix mono des signaux Ce concept semble se rapprocher de celui deacutecrit en 422 mais une diffeacuterence fondamentale les seacutepare la confeacuterence audio spatialiseacutee nrsquoest pas codeacutee au format ambisonic mais les signaux traiteacutes sont directement les sons provenant des diffeacuterents locuteurs crsquoest-agrave-dire les sources elles-mecircmes Ainsi lrsquoanalyse ne porte plus sur une scegravene spatialiseacutee mais sur des signaux seacutepareacutes Il nrsquoy a ainsi plus drsquoindices spatiaux agrave trouver

Avoir accegraves aux sources permet drsquoobtenir des informations plus preacutecises pour

permettre une seacuteparation apregraves la transmission Comme nous lrsquoavons vu lrsquoanalyse drsquoune scegravene spatialiseacutee ne permet que dans drsquoultimes cas agrave la seacuteparation des sources ce qui est ici notre point de deacutepart et sera en fait notre point drsquoarriveacutee En effet nous tenterons de retrouver les sources seacutepareacutees apregraves la transmission de maniegravere agrave pouvoir par la suite les spatialiser agrave loisir (voir Figure 413)

Chapitre 4 Reacutesultats et applications 40

442 Solution proposeacutee Les paramegravetres extraits ne sont donc plus des positions de sources Nous avons

choisi de mesurer puis transmettre lrsquoeacutenergie de chaque signal dans chaque sous-bande en parallegravele du downmix En effet une bonne seacuteparation sera possible si lrsquoon sait quelle proportion de chaque source compose chaque sous-bande du signal mono

Figure 412 - Scheacutema de principe drsquoune confeacuterence audio spatialiseacutee

Figure 413 - Scheacutema ameacutelioreacute (deacutebit reacuteduit)

en pointilleacutes informations compleacutementaires (eacutenergie) Lrsquoanalyse en sous-bandes a lieu dans le serveur (Figure 414) Celui-ci calcule

lrsquoeacutenergie de chaque signal dans chaque sous-bande sur une trame donneacutee Crsquoest ce paramegravetre qui associeacute au signal mono M permettra la seacuteparation des sources dans le terminal (Figure 415) Ce dernier reacutepartira en effet les diffeacuterentes sous-bandes vers chaque signal reconstitueacute proportionnellement agrave cette information pour reconstruire les 4 sources originales

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee 41

Figure 414 - Analyse principe de lrsquoencodage dans le serveur

Figure 415 - Synthegravese principe du deacutecodage dans le client

Afin de reacuteduire au maximum les informations compleacutementaires agrave transmettre on

peut remarquer qursquoau cours drsquoune confeacuterence audio on a tregraves souvent un seul locuteur les participants ne parlent que tregraves rarement tous en mecircme temps Ceci implique que les signaux en entreacutee sont tregraves souvent tous nuls sauf 1 et appliquer un seuil en entreacutee de lrsquoanalyse permet outre lrsquoallegravegement du traitement drsquoavoir moins de paramegravetres agrave transmettre

Ce scheacutema simplifieacute ne tient pas compte des problegravemes de phase rien nrsquoindique

que les eacutenergies des signaux srsquoajoutent bien dans chaque sous-bande lors du downmix on peut tregraves bien avoir des oppositions de phase La solution est drsquoeffectuer le downmix (la somme) des signaux dans chaque sous-bande en prenant soin drsquoavoir recaleacute les phases au preacutealable Ceci nrsquoa un sens que pour des bandes suffisamment eacutetroites Les deacutecalages temporels appliqueacutes pour le recalage sont alors des paramegravetres suppleacutementaires agrave transmettre et sont pris en compte lors de la synthegravese au niveau du reacutepartiteur qui repositionnera la phase de chaque trame pour chaque signal

Chapitre 4 Reacutesultats et applications 42

443 Bilan Le reacutesultat du deacutecodage a pu ecirctre eacutecouteacute de diffeacuterentes maniegraveres les sources

reconstitueacutees individuellement ensemble en steacutereacuteo drsquoamplitude et sur un systegraveme 51 On note que les sources ont eacuteteacute assez bien seacutepareacutees mais que des artefacts sont audibles en particulier lorsque le nombre de locuteurs simultaneacutes augmentent Ces artefacts sont un meacutelange des voix qui nrsquoest gecircnant que lorsqursquoon les eacutecoute de maniegravere seacutepareacutee En effet lrsquoeacutecoute simultaneacutee de ces signaux syntheacutetiseacutes mecircme placeacutes agrave des positions distinctes sur un systegraveme de diffusion multicanal est tout agrave fait satisfaisante

Ce proceacutedeacute pour pouvoir ecirctre appliqueacute doit fonctionner en temps-reacuteel Cette

contrainte nrsquoa pas du tout eacuteteacute prise en compte lrsquoobjectif eacutetant de valider la faisabiliteacute drsquoune reconstruction Les programmes sous Matlab nrsquoont pas eacuteteacute optimiseacutes et ne respectent pas cette contrainte

43

Conclusion Nous avons preacutesenteacute dans ce rapport le principe et lrsquoapplication de plusieurs

meacutethodes drsquoanalyses spatiales de scegravenes ambisoniques conccedilues et reacutealiseacutee pendant le stage Le format HOA est en effet une repreacutesentation du champ acoustique deacutecomposeacute sur une base drsquoharmoniques spheacuteriques jusqursquoagrave un certain ordre agrave la maniegravere drsquoun deacuteveloppement limiteacute Il contient donc de maniegravere indirecte des indications spatiales qursquoon peut extraire avec des analyses comme lrsquoanalyse en composantes principales

Ces analyses nous permettent de deacuteterminer les positions des sources qui

composent la scegravene sonore Nous avons appliqueacute les reacutesultats de ces analyses agrave 2 types de synthegravese lrsquoune destineacutee aux transmissions bas deacutebit lrsquoautre agrave un traitement de restitution de la preacutecision spatiale dans le cas ougrave des ordres supeacuterieurs dont le but est drsquoaffiner la perception de localisation nrsquoauraient pas pu ecirctre transmis Ces algorithmes par le codage drsquoinformations spatiales qursquoils permettent pourront trouver bien drsquoautres applications dans la transmission et le codage ougrave la description du contenu est de plus en plus utiliseacutee (comme par exemple dans la norme MPEG)

Des ameacuteliorations sont possibles sur plusieurs points tout drsquoabord lrsquoexploitation

de toutes les composantes de lrsquoACP est agrave lrsquoeacutetude et semble pouvoir donner des reacutesultats inteacuteressants Drsquoautre part on a vu que le reacutesultat final est tregraves deacutependant de la bonne convergence de lrsquoalgorithme des k-moyennes utiliseacute pour traiter les donneacutees brutes de lrsquoanalyse en sous-bandes Or cet algorithme neacutecessite des reacuteglages tregraves fins et une connaissance a priori du nombre de sources est presque indispensable Drsquoautres algorithmes plus complexes de suivi de formes pourraient ecirctre avantageusement utiliseacutes pour deacutetecter dans tous les angles trouveacutes lesquels sont susceptibles de former une trajectoire

45

Annexe A

Deacuteveloppement du champ acoustique en harmoniques spheacuteriques

A1 Eacutequation drsquoonde en coordonneacutees spheacuteriques On se place dans lrsquoespace euclidien agrave 3 dimensions muni drsquoun systegraveme de

coordonneacutees spheacuteriques Un point M y est repeacutereacute par son rayon r son azimut θ et son eacuteleacutevation δ tels que repreacutesenteacutes sur la figure ci-dessous

- r est la norme du vecteur position rr crsquoest-agrave-dire la distance OM - [20[ πθ isin est lrsquoangle formeacute par le projeteacute du point sur le plan xOy et lrsquoaxe Ox

- ]2

2

[ ππδ minusisin est lrsquoangle formeacute par le plan xOy et le vecteur position2

Figure A1 - Systegraveme de coordonneacutees spheacuteriques

2 Cet angle diffegravere de lrsquoangle polaire usuel δπϕ minus=

2 habituellement pris entre lrsquoaxe Oz et le

vecteur position

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 46

Les relations entre les coordonneacutees spheacuteriques et les coordonneacutees carteacutesiennes sont

⎪⎩

⎪⎨

===

δδθδθ

sincossincoscos

zryrx

(A1)

On srsquointeacuteresse dans ce repegravere agrave lrsquoeacutequation de propagation des ondes acoustiques

de pression On se place dans les conditions classiques drsquoacoustique lineacuteaire (les variations de p sont petites par rapport agrave la pression atmospheacuterique) en supposant que lrsquoair est un fluide parfait (on y neacutegligera les pheacutenomegravenes dissipatifs) Dans une reacutegion de lrsquoespace ne comprenant pas de sources lrsquoeacutequation drsquoonde srsquoeacutecrit alors

0)(12

2

2 =⎟⎟⎠

⎞⎜⎜⎝

⎛partpart

minus∆ trptc

r (A2)

p eacutetant la pression et c la vitesse de propagation du son dans lrsquoair

Cette eacutequation devient dans le domaine freacutequentiel lrsquoeacutequation de Helmholtz

( ) 0)(2 =+∆ ωrpk r (A3)

ck ω

= eacutetant le nombre drsquoonde

En coordonneacutees spheacuteriques cette eacutequation srsquoeacutecrit

0sin1sin

sin11 2

2

2

222

2 =⎥⎦

⎤⎢⎣

⎡+

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart pk

rrrr

rr δθθθ

θθ (A4)

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques Drsquoapregraves [Bruneau 1983] elle admet des solutions agrave variables seacutepareacutees de la forme

)()()( δθ ΦΘ= rRp (A5) Ces solutions sont respectivement - pour la partie radiale une combinaison des fonctions de Bessel spheacuteriques de

premiegravere et seconde espegravece3 jn et nn

)()()( krBnkrAjrR nn += (A6) 3 Les fonctions de Bessel spheacuteriques de seconde espegravece sont eacutegalement appeleacutees fonctions de

Neumann

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 47

Ces fonctions sont deacutefinies comme suit

(A7)

Figure A2 - Fonctions de Bessel spheacuteriques pour les ordres 0 agrave 5 )(krjm

- pour la partie azimutale les fonctions )(θΘ

)sin()cos()( 21 θθθ ncnc +=Θ (A8) Eacutetant donneacute la deacutefinition de lrsquoangle Θ celui-ci doit neacutecessairement ecirctre de

peacuteriode 2π ))2()(( πθθ +Θ=Θ ce qui impose agrave n drsquoecirctre entier

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 48

- pour la partie polaire les fonctions de Legendre associeacutees )(sinδmnP

nm

nn

mn dPdP

)(sin)(sinsin)(sin

δδ

δδ = pour ⎩⎨⎧

gt=

nmavecnm 321

(A9)

ougrave les )(sinδnP sont les polynocircmes de Legendre de degreacute n en δsin deacutefinis par reacutecurrence

( )

11

22

1

0

sin)12()(sin)1(

1cos321)(sin

sin)(sin0)(sin

minus+ minus+=+

minus=

==

mmm mPPmPmet

P

PP

δδ

ϕδ

δδδ

(A10)

et de formule geacuteneacuterale

mm

m

mm dd

mP )1(sin

)(sin21)(sin 2 minus= δ

δδ (A11)

On peut appliquer aux fonctions )(sinδmnP la semi-normalisation de Schmidt

)(sin)()()(sin~ δεδ mnnmn P

nmnmP

+minus

= ougrave 10 =ε et 2=nε pour 1gen (A12)

En appariant les fonctions polaires et azimutales on deacutefinit les harmoniques

spheacuteriques de degreacute et drsquoordre)1(mnY 0gem 4 mnn lele0 et de degreacute et

drsquoordre (voir Figure A3)

)1(minusmnY 1gem

mnn lele1

)(sin~)sin()(

)(sin~)cos()()1(

)1(

δθδθ

δθδθ

mnmn

mnmn

PnY

PnY

=

=minus

(A13)

4 En geacuteneacuteral lorsque le degreacute et lrsquoordre ne sont pas eacutevoqueacutes conjointement on parle par abus de langage drsquoharmoniques drsquoordre m plutocirct que de degreacute m

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 49

soit

1)(sin

)()()12(2sin)(

)(sin)()()12(2cos)(

1)(sin)1()1()12(cos)(

)1(

)1(

1)1(

1

gt

⎪⎪⎩

⎪⎪⎨

+minus

+=

+minus

+=

=+minus

+=

minus

npourP

nmnmmnY

PnmnmmnY

npourPmmmY

mnmn

mnmn

mm

δθδθ

δθδθ

δθδθ

(A14)

La solution angulaire geacuteneacuterale srsquoeacutecrit alors sous la forme drsquoun deacuteveloppement sur

la base drsquoharmoniques spheacuteriques

( ) ( )sum minus

=minus+=Θ

1

1)1()1()( n

m mnmnmnmnn YBYBθ (A15) La solution geacuteneacuterale est alors la seacuterie de Fourier-Bessel

sum sum sum+infin

= = plusmn=

=0 0 1

)()( )()()(m

m

nmnmnm

m YBkrjikrpσ

σσ δθδθ (A16)

ougrave

intint⎪⎩

⎪⎨⎧

minusisin

isin

plusmnplusmn =

]2

2

[

[20[

)1()1( )()1()(

1

ππδ

πθ

δθδθ

S

mnm

mmn dSYpkrji

B (A17)

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 50

Tableau A1 - Expressions analytiques des harmoniques spheacuteriques pour les ordres 0 agrave 3

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 51

Figure A3 - Repreacutesentation des harmoniques spheacuteriques pour les ordres m = 0 agrave 3 Les

couleurs rouge et bleu indiquent respectivement des valeurs positives et neacutegatives

53

Annexe B

Compleacutements theacuteoriques sur le deacutecodage HOA

B1 Vecteur veacutelociteacute et vecteur eacutenergie Le vecteur veacutelociteacute est un indice de la direction apparente drsquoune source introduit

par Gerzon [Gerzon 1992] Il se calcule comme le rapport de la vitesse particulaire sur la pression acoustique

)()(

)()(1

δθδθ

δθδθ

ρ rprp

ki

rprv

cV nabla

minus=minus=rrr

(B1)

Dans le cas drsquoune onde plane le vecteur veacutelociteacute V

rest ainsi directement un

vecteur unitaire orienteacute vers la direction de provenance de lrsquoonde En geacuteneacuteralisant agrave une superposition drsquoondes planes en phase ou opposition de phase eacutemises par L haut-parleurs agrave eacutequidistance du point drsquoobservation on obtient la formule suivante

VVL

ll

L

lll

urg

ugV r

rr

==

sum

sum

=

=

1

1 (B2)

ougrave deacutesigne la direction du llur egraveme haut-parleur auquel est associeacute le gain gl et Vr Vur correspondent respectivement agrave la norme et agrave la direction du vecteur veacutelociteacute

Le vecteur eacutenergie est un autre indice de direction Il est deacutefinit par

EEL

ll

L

lll

urg

ugE r

rr

==

sum

sum

=

=

1

2

1

2

(B3)

Annexe B Compleacutements theacuteoriques sur le deacutecodage HOA 54

Il peut srsquointerpreacuteter comme une indication de la concentration de lrsquoeacutenergie ( ) et de sa direction moyenne de provenance (

Er

Eur ) On a toujours 1ltEr sauf dans le cas ougrave un seul haut-parleur contribue agrave la reconstruction (dans ce cas ) peut ecirctre consideacutereacute comme un indicateur de preacutecision de la localisation

1=Er Er

B2 Deacutecodages optimiseacutes La restitution la plus confortable drsquoun champ sonore veillera donc agrave maximiser

tout en essayant de garder le plus proche possible de 1 Lrsquooptimisation du deacutecodage consiste alors agrave multiplier chaque coefficient de la matrice de deacutecodage D (voir (111) par des gains calculeacutes drsquoapregraves des critegraveres drsquooptimisation

Er Vr

Ainsi le deacutecodage appeleacute max- maximise la norme du vecteur eacutenergie en

sacrifiant celle du vecteur veacutelociteacute puisqursquoon a dans ce deacutecodage (pour des configurations reacuteguliegraveres de haut-parleurs) Ce deacutecodage est donc avantageux par rapport au deacutecodage basique pour les hautes freacutequences ou dans le cas drsquoun auditoire eacutelargi Le deacutecodage in-phase va encore plus loin en cherchant agrave annuler complegravetement les contributions des haut-parleurs placeacutes agrave lrsquoopposeacute de la direction de provenance de lrsquoonde reproduite Ce critegravere est utile dans le cas drsquoune eacutecoute dans une position tregraves excentreacutee agrave laquelle on pourrait percevoir de faccedilon preacutedominante la contribution en opposition de phase drsquoun tel haut-parleur

Er

EV rr =

Ces diffeacuterents deacutecodages ont chacun des avantages et inconveacutenients Ainsi seul le

deacutecodage basique garantit = 1 le deacutecodage max- permet une preacutecision meilleure notamment en haute freacutequence et le deacutecodage in-phase est plus adapteacute agrave un auditoire plus large Jeacuterocircme Daniel [Daniel 2000] propose ainsi de changer le deacutecodage en fonction de la freacutequence et de lrsquoeacutetendue de la zone drsquoeacutecoute deacutesireacutee

Vr Er

Figure B1 - Deacutecodages les plus approprieacutes par sous-bande et en fonction de lrsquoeacutetendue de la

zone drsquoeacutecoute [Daniel 2000]

55

Annexe C

Analyse en composantes principales

C1 Espace des donneacutees Eacutegalement souvent appeleacutee transformeacutee de Karhunen-Loegraveve5 (TKL) lrsquoanalyse en

composantes principales (ACP) est une technique statistique de repreacutesentation drsquoinformation Introduite sur 2 variables par Pearson [Pearson 1900] elle a eacuteteacute eacutetendue par Hotelling [Hotelling 1933] Elle a pour but de caracteacuteriser des donneacutees drsquoun espace agrave N dimensions dans un sous-espace plus petit en minimisant les pertes drsquoinformation due agrave la projection crsquoest-agrave-dire en maximisant la variance projeteacutee Les donneacutees ainsi reacuteorganiseacutees deviennent indeacutependantes Les variables correacuteleacutees sont remplaceacutees par de nouvelles variables deacutecorreacuteleacutees et de variance maximale combinaisons lineacuteaires des variables initiales

Les donneacutees sont constitueacutees de n variables aleacuteatoires (dans notre cas des canaux)

et p reacutealisations ou individus (des eacutechantillons)

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

pn

p

ji

n

xx

x

xx

M

LLL

MOMNM

MLLM

MNMOM

LLL

1

111

(C1)

Ces donneacutees sont geacuteneacuteralement centreacutees et peuvent aussi ecirctre reacuteduites4 (on note

1x la moyenne de la variable et 1x )( 1xσ sa variance) Reacuteduire ou non le nuage de points (ie les p reacutealisations de la variable aleacuteatoire) est un choix de modegravele

5 Quelques rares sources mentionnent une diffeacuterence entre ACP et TKL en placcedilant celle-ci au

niveau du choix de la reacuteduction des donneacutees dans le cas dune ACP les donneacutees seraient centreacutees et reacuteduites alors qursquoelles seraient uniquement centreacutees pour une TKL

Annexe C Analyse en composantes principales 56

- si on ne reacuteduit pas le nuage une variable agrave forte variance pourrait tirer tout lrsquoeffet de lrsquoACP agrave elle

- si on reacuteduit le nuage une variable qui ne serait qursquoun bruit se retrouverait avec une variance apparente eacutegale agrave une variable informative

M est centreacutee

⎥⎥⎥

⎢⎢⎢

minusminusminus

minusminus=

npn

pi

ji

nn

xxxxxx

xxxxM

K

MM

K

11

11

11

ˆ (C2)

M~ est centreacutee et reacuteduite

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

minusminus

minus

minusminus

=

)()(

)(

)()(~

1

11

1

1

111

n

npn

pi

ij

i

n

nn

xxx

xxx

xxx

xxx

xxx

M

σσ

σ

σσ

K

MM

K

(C3)

On multiplie ensuite la matrice obtenue par sa transposeacutee pour obtenir - La matrice de covariance MMC t

vˆˆ sdot=

- La matrice de correacutelation MMC tr

~~ sdot= Ces matrices sont carreacutees (N x N) symeacutetriques et reacuteelles Elles sont donc

diagonalisables dans une base orthonormeacutee 6 Le principe de lrsquoACP est alors de trouver un axe u issu drsquoune combinaison lineacuteaire

des tel que le critegravere drsquoinertie du nuage autour de cet axe soit maximal Le critegravere drsquoinertie couramment utiliseacute est la variance Il faut donc trouver lrsquoaxe qui porte le maximum de variance crsquoest-agrave-dire lrsquoaxe u tel que la projection du nuage sur cet axe ait une variance maximale

nx

6 Nos donneacutees eacutetant ici des valeurs drsquoeacutechantillons elles sont par nature centreacutees et reacuteduites On

formera donc naturellement la matrice de correacutelation

C2 Diagonalisation 57

C2 Diagonalisation Pour alleacuteger lrsquoeacutecriture de la suite de cette partie nous consideacutererons que les

variables ont eacuteteacute centreacutees et si besoin reacuteduites et nous noterons ces variables

transformeacutees (ainsi

ix ix

iii xxx minuslarr ou bien )( i

iii x

xxxσ

minuslarr ) On fera de mecircme pour M

( ou bien MM ˆlarr MM ~larr ) et C ( vCC larr ou bien rCC larr ) La projection drsquoun eacutechantillon sur un axe u srsquoeacutecrit ix

uMxiu sdot=)(π (C4) La variance empirique de )( iu xπ vaut donc

uMMuxx ttiu

tiu sdotsdotsdot=sdot )()( ππ (C5)

Or on a vu que est diagonalisable dans une base orthonormeacutee donc

on peut noter P le changement de base associeacute et ∆ la matrice diagonale formeacutee de son spectre Ainsi

MMC t=

n

i 1)(λ PPMMC tt ∆==

)()()()( PuPuuPPuxx ttt

iut

iu sdot∆sdot=sdot∆sdot=sdotππ (C6) On pose v = Pu Chercher lrsquoaxe u qui maximise )( iu xπ revient donc agrave chercher le

vecteur v qui maximise ougravevvt ∆ )( 1 ndiag λλ K=∆ avec les iλ rangeacutes par ordre deacutecroissant Ce vecteur est trivialement le premier vecteur unitaire et on a alors

1λ=∆vvt

Ainsi le vecteur qui porte la plus grande part drsquoinertie du nuage est le premier

vecteur propre de C (premier par norme deacutecroissante) De mecircme le deuxiegraveme vecteur qui explique la plus grandelt part de lrsquoinertie restante est le deuxiegraveme vecteur propre de C Finalement la question de lrsquoACP se ramegravene agrave un problegraveme de diagonalisation de la matrice de correacutelation

C3 Code Matlab

function [vep vap] = pca(f N) f donneacutees N nombre de composantes agrave garder cor = f f formation de la matrice de correacutelation [vep vap] = eig(cor) calcul des vecteurs (vep) et valeurs (vap) propres [vap ind] = sort(diag(vap)) tri des valeurs propres par ordre croissant vap = flipud(vap) disposition inverse par ordre drsquoimportance vep = vep( flipud(ind)) classement en conseacutequence des vecteurs propres vep = vep( 1N) on ne garde que les N premiers vecteurs propres

Annexe C Analyse en composantes principales 58

59

Annexe D

Analyse en sous-bandes

D1 La transformeacutee de Fourier agrave court terme (TFCT) Pour affiner lrsquoanalyse les signaux sont donc deacutecoupeacutes en bandes de freacutequence par

TFCT La TFCT consiste agrave effectuer des transformeacutees de Fourier discregravetes sur des portions de signal fenecirctreacutees reacuteguliegraverement espaceacutees

On rappelle que la transformeacutee de Fourier drsquoun signal x(t) est deacutefinie (lorsque

lrsquointeacutegrale existe) par

int+infin

infinminus

minus= dtetxfX ftiπ2)()( (D1)

La transformeacutee de Fourier agrave temps discret (TFTD) drsquoun signal x(t) srsquoeacutecrit

sum+infin

minusinfin=

minus=n

fnienxfX π2)()( (D2)

La transformeacutee de Fourier discregravete (TFD) drsquoun signal discret x(k) est deacutefinie par

sum+infin

minusinfin=

minus=

n

Nkni

enxkXπ2

)()( (D3)

La TFCT discregravete est une TFD observeacutee sur une fenecirctre wa de taille N

summinus

=

minus+=

1

0

2)())(()(

N

n

Nnki

aaa enwtnxkXπ

ττ (D4)

ougrave )(taτ est lrsquoinstant drsquoanalyse

Annexe D Analyse en sous-bandes 60

Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT [Laroche 1995]

D2 Synthegravese par addition-recouvrement Lors de la synthegravese apregraves le deacutecoupage et lrsquoanalyse des fenecirctres on cherche agrave

reconstruire le signal temporel agrave partir de sa repreacutesentation freacutequentielle Pour cela on utilise la meacutethode OLA (overlap and add addition-recouvrement) qui consiste agrave prendre la TFCT inverse des spectres Xt puis agrave additionner les signaux obtenus apregraves les avoir multiplieacutes par une fenecirctre de pondeacuteration en les faisant se recouvrir partiellement

Le reacutesultat est donneacute par

sum=

minusminus=T

tsss tnxtnwnx

s1

))((~))(()(~ ττ τ (D5)

avec )()( tt as ττ = et summinus

=

=1

0

2))((~1)(~ N

k

Nkni

s ektXN

nxs

π

τ τ

Lors de la mise en œuvre de ce traitement il faut srsquoassurer drsquoecirctre en mesure de

reconstruire parfaitement un signal lorsqursquoaucune transformation ne lui est appliqueacutee Le critegravere de reconstruction parfaite condition suffisante est alors

sum=

=minusminusT

tasaa tnwtnw

11))(())(( ττ quelque soit n (D6)

D2 Synthegravese par addition-recouvrement 61

Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add [Laroche 1995]

Plusieurs paramegravetres sont agrave choisir avec soin Le premier drsquoentre eux est le type

de fenecirctre agrave utiliser Les diffeacuterentes options qui se preacutesentent agrave nous sont - la fenecirctre rectangulaire qui preacutesente dans son spectre le lobe principal le plus

eacutetroit mais des lobes secondaires non neacutegligeables - la fenecirctre de Hamming au lobe principal un peu plus large mais pour laquelle le

1er lobe secondaire se situe agrave -43 dB - la fenecirctre de Hann (ou cosinus sureacuteleveacute) qui ressemble agrave la preacuteceacutedente avec un

1er lobe secondaire plus fort mais une pente de 18 dB par octave pour les lobes suivants

- les fenecirctres de Blackman-Harris aux lobes secondaires tregraves bas mais au lobe principal plus large

Fenecirctre Lobe 2aire

(dB) Pente

(dBoct) Bande passante

agrave 6 dB (bins) Rectangulaire -13 -6 121 Triangulaire -27 -12 178

Hann -32 -18 200 Hamming -43 -6 181

Blackman-Harris 4 -92 -6 272

Tableau D1 - Caracteacuteristiques des principales fenecirctres drsquoanalyse [Harris 1978] Le meilleur compromis est donc dans notre contexte la fenecirctre de Hann ou celle

de Hamming

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 17: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

13 Critique de la technologie HOA 11

13 Critique de la technologie HOA

131 Bilan On a ainsi vu que la technologie HOA est une repreacutesentation intermeacutediaire du

champ de pression acoustique agrave mi-chemin entre la description directe du champ lui-mecircme et des signaux agrave restituer Cette technologie a de nombreux avantages compareacutee aux autres meacutethodes de reproduction de champ sonore (on trouvera notamment une eacutetude deacutetailleacutee des comparaisons entre HOA et la Wave Field Synthesis (WFS) dans [Daniel et al 2003]) elle permet drsquoeacuteviter le repliement spatial (voir paragraphe suivant) et permet ainsi une reconstruction dans une gamme de freacutequences tregraves large

La qualiteacute de la restitution ambisonique nrsquoest theacuteoriquement limiteacutee que part

lrsquoordre de troncature de la seacuterie de Fourier-Bessel agrave partir du moment ougrave le nombre de haut-parleurs est suffisant Ainsi un ordre tendant vers lrsquoinfini (et un nombre de haut-parleurs au moins aussi grand) permettra une reproduction quasi-parfaite sur lrsquoensemble de la zone drsquoeacutecoute

Mais les principaux avantages de cette technologie sont drsquoune part drsquoecirctre flexible

crsquoest-agrave-dire qursquoon peut agrave loisir adapter le nombre de signaux transmis au canal de transmission Une chute de deacutebit nrsquoentraicircnera pas de coupure de la transmission mais simplement une perte de preacutecision spatiale par lrsquoabandon des composantes drsquoordres les plus eacuteleveacutes Et drsquoautre part elle est indeacutependante du systegraveme de reproduction Ainsi un mecircme signal HOA pourra ecirctre diffuseacute sur toutes les configurations de haut-parleurs il suffira pour cela de calculer la matrice de deacutecodage associeacutee agrave ce systegraveme

132 Limites pratiques Dans la pratique cette technologie a toutefois des limitations Si lrsquoaliasing spectral

est eacuteviteacute on constate aux ordres les plus eacuteleveacutes lrsquoapparition drsquoun repliement spatial lors des enregistrements naturels agrave partir drsquoune freacutequence lieacutee agrave la distance maximale entre 2 capsules du microphone HOA (qui doit ecirctre au plus eacutegale agrave la moitieacute de la plus petite longueur drsquoonde drsquoapregraves Shannon) et au nombre total de capsules (qui doit ecirctre supeacuterieur agrave (M+1)2 M eacutetant lrsquoordre auquel on souhaite enregistrer)

Le repliement spectral repreacutesente la preacutesence importune dans des composantes

ambisoniques de sources qui de part leur position ne devraient qursquoapparaicirctre avec cette importance que dans les composantes drsquoordre plus eacuteleveacute Il est ducirc agrave lrsquointrusion des directiviteacutes drsquoordres supeacuterieurs dans les composantes harmoniques spheacuteriques estimeacutees Comme on le voit sur la Figure 17 les directiviteacutes ne sont pas des cylindres (au sens matheacutematique du terme la base nrsquoeacutetant pas forceacutement un cercle) mais varient en fonction de la freacutequence pour ressembler davantage dans le haut du spectre aux courbes de directiviteacute de lrsquoordre supeacuterieur Ainsi la directiviteacute de lrsquoordre 1 (2egraveme graphique) qui devrait ecirctre un 8 ressemble davantage au-dessus de 10 000 Hz agrave la figure de directiviteacute de lrsquoordre 4 (8 lobes)

Chapitre 1 Ambisonics 12

Figure 17 - Directiviteacutes theacuteoriques (en transparence) et reconstruites (grille) dans le plan horizontal pour des ondes planes horizontales Lrsquoaxe vertical correspond agrave la freacutequence et

les diffeacuterents graphiques aux ordres 0123 et 4 de gauche agrave droite Agrave lrsquoopposeacute la taille reacuteduite du microphone si elle permet de reacuteduire cet aliasing

spatial empecircche la capture des basses freacutequences aux ordres supeacuterieurs (voir 232) La reacutesolution spatiale des basses freacutequences sera donc moindre ce qui implique que en ajoutant lrsquoeffet du repliement en hautes freacutequences les ordres eacuteleveacutes capteacutes avec le micro HOA ne constituent qursquoune plage du spectre assez peu eacutetendue crsquoest cette seule plage qui pourra se targuer drsquoune excellente preacutecision spatiale

13

Chapitre 2

Analyser un contenu HOA

21 Objectifs La reacuteflexion a tout au long du stage eacuteteacute orienteacutee vers deux objectifs le premier

est dans un contexte de transmission de reconstruire une scegravene spatialiseacutee agrave partir du minimum drsquoinformations le deuxiegraveme appliqueacute agrave des ordres plus eacuteleveacutes est drsquoarriver agrave resyntheacutetiser les composantes de lrsquoordre immeacutediatement supeacuterieur

211 Restitution de la spatialisation agrave partir drsquoun downmix mono La premiegravere approche vise donc agrave reconstruire une scegravene spatialiseacutee agrave partir drsquoun

downmix le plus leacuteger possible Un downmix est une reacuteduction du nombre de canaux par fusion lrsquoexemple le plus simple eacutetant le passage drsquoun signal steacutereacuteo agrave un signal mono construit comme la demi-somme des composantes gauche et droite On tente dans cette approche de se restreindre au plus petit nombre de signaux possible un signal eacutetant tregraves coucircteux agrave transmettre en ajoutant parallegravelement agrave ce signal des informations compleacutementaires aidant agrave la reconstruction

Le cas extrecircme est la reacuteduction du flux agrave un signal mono Dans le cas

drsquoambisonics un signal mono comprenant toutes les sources est deacutejagrave preacutesent il srsquoagit de la composante omnidirectionnelle W Il faut donc extraire de la scegravene encodeacutee agrave un certain ordre M des informations permettant la reconstruction drsquoun ordre Mrsquo apregraves transmission Nous verrons que nous allons chercher agrave trouver les positions des sources gracircce agrave une analyse en composantes principales (ou ACP voir Annexe C) effectueacutee par sous-bandes (voir Annexe D)

212 Ameacutelioration de la preacutecision spatiale La deuxiegraveme piste suivie a pour but de reconstituer un ordre ambisonique non

transmis On pourrait qualifier cette approche drsquoupmix ambisonique car elle vise agrave reconstruire un ordre manquant En effet le format ambisonique eacutetant flexible il est bien

Chapitre 2 Analyser un contenu HOA 14

adapteacute agrave la transmission Ainsi si on souhaite transmettre une scegravene encodeacutee agrave lrsquoordre 2 dans le plan horizontal il faudra un canal drsquoun deacutebit minimum (si lrsquoon prend lrsquohypothegravese de pas vouloir compresser les signaux) de 471 Mos Un canal plus petit (par exemple 34 Mos) ne permettra theacuteoriquement de transmettre qursquoun ordre 1 Mais lrsquoanalyse des signaux peut permettre de deacuteterminer les positions des sources agrave partir desquelles on peut syntheacutetiser des composantes du 2nd ordre approchant les composantes drsquoorigine On pourrait mecircme imaginer pouvoir syntheacutetiser un ordre qui nrsquoavait pas eacuteteacute encodeacute agrave lrsquoorigine

Pour cela il est neacutecessaire de deacuteterminer les positions des sources preacutedominantes

dans le champ sonore pour piloter leur encodage spatial aux ordres supeacuterieurs et arriver agrave la synthegravese drsquoune repreacutesentation de reacutesolution spatiale accrue Il srsquoagit dans le mecircme temps drsquoisoler au mieux les signaux associeacutes agrave ces diffeacuterentes sources avant de leur appliquer lrsquoopeacuteration drsquoencodage on se rapproche donc drsquoun problegraveme de seacuteparation de sources

Pour parvenir agrave trouver ces positions deux meacutethodes ont eacuteteacute testeacutees La premiegravere

consiste comme preacuteceacutedemment agrave appliquer en sous-bandes une analyse en composantes principales La seconde implique la formation de directiviteacutes agrave partir des vecteurs propres de la matrice de correacutelation utiliseacutee dans cette analyse

Lrsquoanalyse en composantes principales ou ACP (voir Annexe C) est donc

largement privileacutegieacutee dans nos approches Elle permet en effet tregraves facilement drsquoextraire des informations preacutecises de signaux correacuteleacutes Pour justifier ce choix une autre meacutethode reacutecente a eacutegalement eacuteteacute testeacutee et compareacutee agrave lrsquoACP (voir 11)

22 Principe de lrsquoextraction drsquoinformation spatiale avec une ACP

221 Information spatiale

Nous avons donc tout drsquoabord testeacute lrsquoanalyse en composantes principales sur des

signaux HOA Nous avons choisi dans un premier temps de limiter lrsquoanalyse aux composantes horizontales du premier ordre W X et Y avant de lrsquoeacutetendre agrave la 3egraveme dimension avec Z

Dans un premier test les signaux HOA sont analyseacutes par une ACP dans leur

inteacutegraliteacute LrsquoACP est appliqueacutee sur les signaux X et Y qui contiennent lrsquoinformation spatiale En effet X et Y correspondent aux signaux qui seraient capteacutes par des microphones agrave figure en 8 placeacutes sur lrsquoaxe avant-arriegravere et gauche-droite respectivement

La Figure 21 montre la correacutelation entre X et Y dans le cas drsquoun bruit blanc capteacute

par le microphone ambisonique Les points ne sont pas exactement aligneacutes du fait des artefacts inheacuterents agrave la prise de son (reacuteflexions sur les parois approximations du microphone etc)

22 Principe de lrsquoextraction drsquoinformation spatiale avec une ACP 15

Figure 21 - Y en fonction de X dans le cas drsquoun bruit blanc enregistreacute placeacute agrave 30deg

On remarque que le nuage est eacutetireacute dans la direction de provenance du son indiqueacutee par la flegraveche en pointilleacutes verts

222 Application de lrsquoanalyse en composantes principales La 1egravere composante issue de lrsquoACP appliqueacutee dans le plan (X Y) pointe dans la

direction dans laquelle X et Y ont la plus grande correacutelation Or comme X contient lrsquoinformation placeacutee sur lrsquoaxe avant-arriegravere et Y lrsquoinformation de lrsquoaxe gauche-droite cette direction est directement la direction de la source Par exemple un son situeacute droit devant dans lrsquoaxe (agrave 0deg) aura une composante Y nulle et par conseacutequent les eacutechantillons seront dans le plan tous disposeacutes sur lrsquoaxe horizontal LrsquoACP prendra donc naturellement cet axe comme 1er vecteur propre et il pointe bien vers la position de la source De mecircme un son situeacute agrave 135deg ( π28

3 times rad) aura la proprieacuteteacute Y = -X Les eacutechantillons seront donc placeacutes sur la 2egraveme bissectrice qui fait avec lrsquoaxe Y=0 un angle de 135deg (voir Figure 22)

Figure 22 - Y en fonction de X dans le cas drsquoun son placeacute artificiellement dans la direction

indiqueacutee par la flegraveche en pointilleacutes verts agrave 0deg (agrave gauche) et 135deg (agrave droite)

Chapitre 2 Analyser un contenu HOA 16

Lrsquoanalyse de X et Y ne permet cependant de deacuteterminer lrsquoangle qursquoagrave π pregraves il reste une indeacutetermination (on deacutetermine la direction drsquoun axe qursquoil reste agrave orienter) Pour lever cette ambiguiumlteacute on integravegre W agrave lrsquoanalyse car cette composante pourtant omnidirectionnelle et donc deacutepourvue drsquoinformation spatiale apporte une reacutefeacuterence pour les phases Ainsi notre son placeacute agrave 135deg veacuterifiait (aux eacuteventuels coefficients de normalisation pregraves) Y = -X = W alors qursquoun son placeacute agrave 135 - 180 = -45deg aurait la proprieacuteteacute Y = -X = -W

Pour prendre en compte W dans lrsquoanalyse on peut comparer directement les

phases de ces 3 canaux Algorithmiquement on ramegravene lrsquoangle trouveacute agrave son modulo π2 puis on deacutetermine le vrai cadran par comparaison des phases de W X et Y crsquoest-agrave-dire en comparant le signe des produits W X et W Y Ainsi W X gt 0 signifie que W et X sont en phase et reacuteciproquement (voir Figure 23)

W X lt 0 W Y gt 0

W X gt 0 W Y gt 0

W X lt 0 W Y lt 0

W X gt 0 W Y lt 0

minusπ2

π

π2

0

Figure 23 - Signes de W X et W Y en fonction du cadran On peut eacutegalement inteacutegrer W agrave lrsquoanalyse en appliquant lACP sur le triplet (X Y

W) Le problegraveme drsquoambiguiumlteacute est ainsi reacutesolu la direction rechercheacutee eacutetant celle du vecteur principal dans le demi-espace W gt 0 projeteacutee sur le plan (X Y) Cette meacutethode srsquoavegravere plus robuste et surtout plus geacuteneacuteralisable agrave des ordres plus eacuteleveacutes

Cette analyse permet donc de deacuteterminer la position drsquoune source unique Pour

pouvoir seacuteparer plusieurs sources nous avons appliqueacute lrsquoACP par sous-bandes en supposant que les sources nrsquoont pas des supports freacutequentiels strictement identiques Le principe de cette analyse en sous-bandes est deacuteveloppeacute en Annexe D

23 Meacutethodologie

231 Construction de scegravenes artificielles Pour tester les algorithmes impleacutementeacutes nous avons ducirc creacuteer des scegravenes sonores

spatialiseacutees au format HOA Plusieurs types de scegravenes ont eacuteteacute utiliseacutes de complexiteacutes diffeacuterentes Les premiegraveres ont eacuteteacute des scegravenes virtuelles syntheacutetiseacutees avec Matlab Les premiegraveres scegravenes simplissimes ne comportait qursquoune sinusoiumlde ou un bruit blanc fixe placeacute dans le plan horizontal Puis pour tester lrsquoanalyse par sous-bandes ont eacuteteacute creacuteeacutes des sons polyphoniques composeacutes de 2 sinusoiumldes tout drsquoabord puis de sons complexes (syntheacutetiseacutes par synthegravese FM) dans des gammes freacutequentielles distinctes ou se

23 Meacutethodologie 17

chevauchant Enfin ces sons ont eacuteteacute rendus mobiles en faisant varier leur position dans le temps

Nous avons pu ainsi constater agrave lrsquoaide des sons fixes et de supports freacutequentiels

distincts la preacutecision de lrsquoanalyse et avec les sons mobiles et mecircleacutes sa robustesse Nous nous sommes limiteacutes sous Matlab agrave la geacuteneacuteration de 2 sons simultaneacutes et du 1er ordre et un autre outil Plogue Bidule a eacuteteacute utiliseacute pour composer des scegravenes plus complexes

Bidule est un studio modulaire virtuel ressemblant agrave MAXMSP Des plugins ont

eacuteteacute deacuteveloppeacutes agrave France Teacuteleacutecom pour permettre de manipuler des signaux HOA Ainsi des scegravenes complexes ont pu facilement ecirctre syntheacutetiseacutees agrave des ordres eacuteleveacutes Des scegravenes agrave 3 et 4 sources fixes ou dont 1 source mobile ont eacuteteacute reacutealiseacutees agrave partir de voix deacutemixeacutees placeacutees dans le plan horizontal ou en 3 dimensions

Ces scegravenes eacutetant artificielles elles sont en un sens ideacuteales ne contiennent aucun

signal reacuteverbeacutereacute (effet de salle) ni diffracteacute (par un micro) lrsquoencodage est fait sans artefacts les ondes sont consideacutereacutees comme planes et ont donc une direction bien deacutefinie Si on est ici bien loin de la vraie vie le gros avantage des scegravenes artificielles est qursquoon connaicirct preacuteciseacutement agrave chaque instant la position des sources et qursquoon peut ainsi veacuterifier le reacutesultat de lrsquoanalyse

Figure 24 - Interface graphique du logiciel Bidule avec agrave droite les controcircles des encodeurs

et deacutecodeurs HOA creacuteeacutes agrave France Teacuteleacutecom

Chapitre 2 Analyser un contenu HOA 18

232 Exploitation drsquoenregistrements naturels Une fois des reacutesultats convaincants obtenus avec des scegravenes virtuelles des

enregistrements naturels ont eacuteteacute analyseacutes Ces scegravenes ont eacuteteacute enregistreacutees gracircce au prototype de micro HOA du 4egraveme ordre deacuteveloppeacute agrave France Teacuteleacutecom (voir Figure 12) Ce processus implique des diffeacuterences notables avec un encodage virtuel

Le prototype de microphone contraint en effet agrave quelques compromis pour

optimiser des critegraveres incompatibles La taille du microphone reacutesulte drsquoun compromis entre la preacutecision drsquoestimation des composantes en basses freacutequences qui neacutecessite une taille eacuteleveacutee et la minimisation de lrsquoaliasing spatial qui ne peut ecirctre eacuteviteacute qursquoavec des capsules tregraves proches les unes des autres Leur disposition est eacutegalement irreacuteguliegravere il nrsquoexiste en fait aucune faccedilon de disposer reacuteguliegraverement plus de 20 points sur une sphegravere La configuration qui avait eacuteteacute retenue par les concepteurs [Moreau 2006] est la ldquomoins irreacuteguliegravere possiblerdquo au sens de la preacuteservation de lrsquoorthonormaliteacute des harmoniques spheacuteriques les 32 capsules sont reacuteparties sur une sphegravere de 35 cm de rayon selon un Pentaki-dodeacutecahegravedre polyegravedre semi-reacutegulier dual de lrsquoicosaegravedre tronqueacute (ballon de football)

Ces artefacts sont donc inheacuterents agrave lrsquoutilisation drsquoun reacuteseau de microphones Mais

le monde reacuteel pose eacutegalement des problegravemes deacutelicats La complexiteacute des modes de rayonnement drsquointeraction avec lrsquoenvironnement reacuteclame lrsquointroduction de modegraveles drsquoencodage beaucoup plus complexes que le cas drsquoune onde plane en champ libre et rend lrsquoinformation spatiale moins limpide et univoque au sein de la scegravene encodeacutee (enregistreacutee) en comparaison avec une scegravene virtuelle Les sources ne sont ainsi plus ponctuelles mais eacutetendues elles ne sont plus agrave lrsquoinfini mais agrave une distance finie du microphone (les ondes reccedilues ne sont donc plus planes) En outre chaque source en se reacutefleacutechissant sur les parois et les diffeacuterents objets de la salle creacutee une multitude de sources secondaires Il est enfin souvent difficile de connaicirctre avec preacutecision la position drsquoune source dans lrsquoespace lors drsquoun enregistrement

Des enregistrements en chambre sourde ont eacuteteacute reacutealiseacutes pour se passer des

reacuteflexions de lrsquoenvironnement Afin de connaicirctre avec preacutecision la position de la source un haut-parleur diffusant un bruit blanc nous avons placeacute le microphone sur une table tournante commandeacutee par un plug-in sous Plogue Bidule

233 Visualisations des reacutesultats Lrsquoobservation des reacutesultats a eacuteteacute effectueacutee de plusieurs maniegraveres visuellement et

par lrsquoeacutecoute Les graphiques eacutetant plus commodes crsquoest par cette voie que les premiers essais eacutetaient conclus Plusieurs types de graphiques ont eacuteteacute produits deacutecrivant des paramegravetres diffeacuterents

Les repreacutesentations temps-freacutequence permettent de repreacutesenter une variable agrave 1

dimension sous Matlab Cette voie a eacuteteacute suivie pour visualiser les paramegravetres extraits de chaque sous-bande de chaque fenecirctre notamment les angles lrsquoeacutenergie et la pertinence Malheureusement Matlab ne permet pas de repreacutesenter sur le mecircme graphique une 4egraveme dimension sous la forme drsquoune 2egraveme dimension colorimeacutetrique (on prend geacuteneacuteralement la

23 Meacutethodologie 19

saturation) Cette dimension suppleacutementaire aurait permis de repreacutesenter simultaneacutement les angles et leur pertinence

Figure 25 - Repreacutesentation

et de lrsquoespace col

Pour repreacutesenter s

drsquoabandonner une dimensipouvoir repreacutesenter danrepreacutesenteacutees soit par le niv

Figure 26 - Repreacutesentationdeacutecrite en 332 (en absciss

est repreacutesenteacutee agrave gauc

234 Diffeacuterents modes La visualisation est

indispensable pour veacuterifiesont possibles de ceux-cainsi reconstitueacutee agrave partir d

1 W+Y+02X pour le c

π 0 minusπ

de la table des couleurs dite HSV de Matlab (lineacuteaire agrave gauche) orimeacutetrique HSL (Hue Saturation Luminance agrave droite)

imultaneacutement angles et pertinence il eacutetait donc neacutecessaire on Crsquoest le deacutecoupage freacutequentiel qui a eacuteteacute mis de cocircteacute pour s un plan temps-angles les pertinences Celles-ci sont eau de gris des points soit par leur taille

de la pertinence des angles de la scegravene agrave 4 sources dont 1 mobile e les trames en ordonneacutees les angles en degreacute) La pertinence he par lrsquointensiteacute du bleu et agrave droite par la taille des points

drsquoeacutecoute

un indice preacutecis de reacutesultat mais lrsquoeacutecoute est tout de mecircme r la qualiteacute globale de la synthegravese Plusieurs modes drsquoeacutecoute i lrsquoeacutecoute au casque est la plus aiseacutee Une pseudo-steacutereacuteo est es signaux du 1er ordre1 pour restituer les scegravenes restreintes au

anal gauche et W-Y+02X pour le canal droit

Chapitre 2 Analyser un contenu HOA 20

plan horizontal Pour plus de preacutecision agrave la restitution ou pour des scegravenes en 3D et sans perdre la faciliteacute drsquoune eacutecoute personnelle au casque on peut appliquer des filtres HRTF (Head-Related Transfert Function) pour une reproduction binaurale

Pour appreacutecier pleinement la spatialisation la diffusion sur un systegraveme multi

haut-parleurs est indispensable Deux systegravemes sont installeacutes dans le laboratoire de France Teacuteleacutecom un systegraveme 51 et un systegraveme circulaire de 48 haut-parleurs Ces systegravemes installeacutes dans des studios insonoriseacutes offrent une grande qualiteacute drsquoeacutecoute qui permet de repeacuterer les deacutefauts mecircme minimes de la synthegravese

21

Chapitre 3

Description des analyses

31 Deacutetermination des directions principales

311 Base des algorithmes Nous avons deacuteveloppeacute plusieurs algorithmes reacutepondant aux diffeacuterents objectifs

deacutecrits plus haut Chacun drsquoeux possegravede des particulariteacutes leur permettant de reacutepondre agrave ces objectifs mais on trouve neacuteanmoins une partie commune Ainsi toutes les analyses reposent sur le mecircme modegravele drsquoapplication drsquoune ACP par sous-bandes dont voici le scheacutema geacuteneacuteral

Figure 31 - Scheacutema geacuteneacuteral drsquoanalyse

Les signaux en entreacutee sont les composantes HOA W X et Y dans la plupart des

cas mais peuvent ecirctre eacutegalement des composantes drsquoordre plus eacuteleveacute (voir 11) Sur le fenecirctrage jouent plusieurs paramegravetres comme la taille de la fenecirctre ou encore le pourcentage de recouvrement entre elles Nous avons choisi une fenecirctre en racine de la fenecirctre de Hanning crsquoest-agrave-dire une arche de sinusoiumlde (voir eacutequation (D7) en Annexe D) avec un recouvrement de 50 ce qui veacuterifie le critegravere de reconstruction parfaite (D6) Le filtrage est pour des raisons de rapiditeacute de calcul reacutealiseacute dans le domaine freacutequentiel par une simple multiplication avant de repasser en temporel pour appliquer lrsquoACP

Le banc de filtre utiliseacute est un banc inspireacute des filtres ERB Les filtres ERB

(Equivalent Regular Bandwidth) sont des filtres imitant le comportement de seacuteparation freacutequentielle de lrsquooreille humaine plus preacutecise en basse freacutequence Les filtres utiliseacutes ici ne sont pas directement des filtres ERB le systegraveme nrsquoa pas drsquointeacuterecirct particulier agrave essayer de copier le fonctionnement de lrsquooreille humaine Ces filtres ont eacuteteacute adapteacutes au problegraveme en

Chapitre 3 Description des analyses 22

srsquoassurant en particulier de la finesse des bandes permettant la meilleure discrimination des diffeacuterentes sources crsquoest-agrave-dire autour des fondamentales usuelles (200-1000 Hz) et des harmoniques Les freacutequences aigueumls sont bien discrimineacutees par les filtres ERB (relativement agrave la gamme crsquoest-agrave-dire en eacutechelle logarithmique) le deacutecoupage a donc surtout eacuteteacute densifieacute entre 200 et 800 Hz par rapport aux bandes ERB

Figure 32 - Filtres utiliseacutes inspireacutes des filtres ERB repreacutesenteacutes lineacuteairement (en haut)

et sur une eacutechelle logarithmique (en bas) Les reacutesultats de lrsquoACP sont donc avec cette meacutethode les angles des sources

trouveacutees dans chaque sous-bande ainsi que pour chacun drsquoeux un critegravere de pertinence calculeacute en fonction de lrsquoeacutenergie de la sous-bande dans une fenecirctre donneacutee et de la norme relative de la premiegravere composante de lrsquoACP (voir 342) Les autres vecteurs propres peuvent ecirctre utiliseacutes pour extraire davantage drsquoinformations et mecircme des signaux deacutecorreacuteleacutes comme on le verra au paragraphe 35 mais lrsquoanalyse semble alors moins robuste Srsquoen tenir aux informations donneacutees par la composante principale est un gage de pertinence suppleacutementaire

Ces reacutesultats concernent donc les sources preacutedominantes ou principales mais

laissent de cocircteacute un certain nombre drsquoeacuteveacutenements sonores agrave consideacuterer

312 Traitement du champ reacutesiduel Le champ reacutesiduel regroupe en quelque sorte tout ce qui nrsquoest pas une source

principale Il inclut donc les reacuteflexions et la reacuteverbeacuteration de la piegravece mais aussi les bruits parasites occasionnels ou continus (ventilation etc) Ces bruits ou eacutechos nrsquoont pas de direction de provenance assez distincte pour pouvoir ecirctre mesureacutee preacuteciseacutement Le champ reacutesiduel est eacutegalement composeacute du champ diffus La notion de champ diffus est couramment utiliseacutee mais rarement preacuteciseacutement deacutefinie On trouve dans la litteacuterature des deacutefinitions diverses lrsquoune drsquoelles preacutecisant qursquoil serait un ensemble drsquoeacuteveacutenements sonores proches en temps et provenant de directions eacutequiprobables

Les algorithmes proposeacutes traitent correctement les sources principales mais le

champ reacutesiduel est laisseacute de cocircteacute Il est pourtant tregraves important pour lrsquoimmersion du sujet dans la scegravene une scegravene deacutepourvue de champ sonore sera perccedilue comme artificielle ce qui nuit agrave la perception drsquoespace On sera par exemple davantage conscients drsquoecirctre au centre drsquoun dispositif expeacuterimental et moins sensibles aux variations de profondeur et de perspectives

31 Deacutetermination des directions principales 23

Neacuteanmoins il faut relativiser lrsquoimportance de ce champ reacutesiduel il nrsquoest pas utile pour la localisation des sources principales et ne caracteacuterise que lrsquoenvironnement drsquoenregistrement En outre le champ reacutesiduel qui provient souvent de directions floues et notre but nrsquoest pas de les preacuteciser artificiellement Il nrsquoest degraves lors geacuteneacuteralement pas utile de le transmettre aux ordres eacuteleveacutes

Ainsi certains auteurs [Merimaa and Pulkki 2005] ont choisi de recreacuteer lors drsquoune

synthegravese un champ diffus artificiel baseacute sur une reacuteponse impulsionnelle de salle calculeacutee agrave lrsquoavance Lrsquoavantage est une immersion un enveloppement complets lrsquoinconveacutenient est que lrsquoambiance ainsi recreacuteeacutee est fictive et arbitraire et en outre complegravetement indeacutependante de lrsquoambiance initiale en laissant notamment de cocircteacute les sources secondaires

Nous proposons dans nos algorithmes de ne pas syntheacutetiser le champ diffus aux

ordres eacuteleveacutes mais de nous contenter de la description du champ reacutesiduel fourni par les ordres transmis (1er ordre dans nos exemples) Nous nous limiterons donc agrave preacuteciser par la synthegravese des ordres supeacuterieurs les positions des sources principales

32 Extension agrave la 3D Nous avons pour le moment eacutevoqueacute le cas de repreacutesentations de champ sonore agrave

2 dimensions crsquoest-agrave-dire issus de sources placeacutees dans le plan horizontal Mais certaines repreacutesentations comportent eacutegalement des composantes verticales Pour analyser ces signaux en 3 dimensions il faut inteacutegrer la composante Z On effectue alors simplement une ACP sur X Y Z et W Le 1er vecteur propre sera alors bien dirigeacute dans lrsquoespace (X Y Z) dans la direction de la source lrsquoambiguiumlteacute de frac12 espace eacutetant leveacutee par W

Lrsquoalgorithme est alors complegravetement similaire agrave celui analysant des signaux en 2

dimensions Des tests ont eacuteteacute reacutealiseacutes agrave partir de signaux syntheacutetiques pour lesquels les positions des sources eacutetaient connues pour des raisons pratiques aucune scegravene sonore reacuteelle en 3 dimensions nrsquoa pu ecirctre enregistreacutee avec une connaissance initiale preacutecise des positions des sources

Les visualisations et les eacutecoutes eacutetant plus deacutelicates en 3D et lrsquoextension agrave la 3D

eacutetant immeacutediate nous avons donc concentreacute nos efforts sur lrsquoanalyse de scegravenes en 2D En outre en lrsquoabsence de dispositif spheacuterique ou heacutemispheacuterique de haut-parleurs le seul moyen agrave notre disposition pour eacutecouter une scegravene 3D est lrsquoeacutecoute binaurale crsquoest-agrave-dire au casque avec des fonctions de transfert de tecircte (HRTF) relativement bien adapteacutees agrave lrsquoauditeur

33 Analyse aux ordres supeacuterieurs

331 Description Afin drsquoameacuteliorer la preacutecision de lrsquoanalyse nous avons essayeacute drsquoappliquer une ACP

sur des signaux ambisoniques drsquoordre plus eacuteleveacute (signaux HOA) dans le plan horizontal Deux meacutethodes ont eacuteteacute essayeacutees

Chapitre 3 Description des analyses 24

La premiegravere consiste agrave appliquer une ACP agrave 3 dimensions successivement sur les composantes X Y W (ordre 1 et 0) puis U V W (ordre 2 et 0) et ainsi de suite crsquoest-agrave-dire (en utilisant la notation geacuteneacuterale) sur les composantes et W (ordre m et 0) Les reacutesultats de ces analyses (les directions des 1

)1(0mY )1(

0minus

mYegraveres composantes) sont ensuite regroupeacutees

lrsquoanalyse de lrsquoordre 1 fournissant des reacutesultats modulo 2π lrsquoanalyse de lrsquoordre 2 des reacutesultats plus preacutecis mais modulo π et plus geacuteneacuteralement lrsquoanalyse de lrsquoordre m permettant de trouver des angles modulo mπ2

La limite de cette approche se perccediloit lors de la fusion des reacutesultats les angles

trouveacutes agrave un ordre eacuteleveacute sont plus preacutecis dans des bandes de freacutequences eacuteleveacutees mais la limitation theacuteorique de ces signaux HOA dans les basses freacutequences font que lrsquoanalyse de lrsquoordre 1 reste la plus pertinente dans les premiegraveres bandes Parvenir agrave deacuteterminer agrave partir de quelle freacutequence on peut faire davantage confiance agrave lrsquoordre n+1 qursquoagrave lrsquoordre n nrsquoest pas aiseacute et cette limite provoque des aberrations dans les angles trouveacutes Une source unique pourra par exemple ecirctre interpreacuteteacutee par lrsquoalgorithme des k-moyennes (voir 341) comme 2 sources une en hautes freacutequences et une en basses freacutequences les 2 eacutetant trouveacutes agrave 2 angles diffeacuterents chaque angle relevant drsquoun ordre analyseacute diffeacuterent

La deuxiegraveme meacutethode consiste pour eacuteviter cette fusion des reacutesultats agrave effectuer

une seule ACP sur les composantes U V X Y et W Cette meacutethode souffre drsquoune tregraves grande complexiteacute algorithmique pour une ameacutelioration de la preacutecision peu sensible En effet si cette meacutethode permet drsquoobtenir des reacutesultats plus preacutecis dans certaines bandes de freacutequences elle est sensible aux deacutefauts et les limites des ordres supeacuterieurs (lrsquoabsence de basses freacutequences entre autres) perturbent lrsquoanalyse en composantes principales

332 Illustration sur une scegravene virtuelle La scegravene preacutesenteacutee ici est une scegravene artificielle crsquoest-agrave-dire composeacutee de sons

placeacutes artificiellement agrave diverses positions Elle a une dureacutee totale de 135 s et comporte 4 sources positionneacutees dans le plan horizontal une guitare placeacutee agrave 45deg une basse agrave -70deg une batterie agrave 110deg et une voix feacuteminine qui effectue continucircment un tour complet dans le sens indirect en partant de lrsquoarriegravere (elle passe donc successivement par les positions 180deg 90deg 0deg -90deg et -180deg) La guitare et la batterie srsquoarrecirctent peu avant la fin de la scegravene (12egraveme seconde au 910egraveme du son approximativement)

Figure 33 - Position des sources de la scegravene de test agrave 4 sources dont 1 mobile

33 Analyse aux ordres supeacuterieurs 25

Figure 34 - Angles drsquoune scegravene virtuelle ayant 1 source mobile et 3 sources fixes

(deacutecrite en 332) trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 Pour chaque trame (en abscisse) 20 angles (1 par bande en ordonneacutee et en degreacutes) sont

reporteacutes le diamegravetre du point correspondant agrave un critegravere de pertinence (voir 342)

Figure 35 - Angles de la mecircme scegravene trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 2 Reacutesultats modulo π reacutepliqueacutes pour faciliter la comparaison avec la figure preacuteceacutedente On remarque que les lignes sont plus nettes qursquoil y a moins drsquoangles aberrants et que

les angles corrects sont plus marqueacutes (ils sont deacutetermineacutes comme plus pertinent)

Chapitre 3 Description des analyses 26

20

0

20

0

20

0

Figure 36 - Angles drsquoune scegravene reacuteelle constitueacutee drsquoun bruit parcourant le cercle trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 (en haut) 0 et 2 (au milieu) et 0 et 4 (en bas) Le

numeacutero de trame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On retrouve qursquoune limitation des ordres HOA supeacuterieurs issus drsquoun enregistrement

microphonique est la restitution des basses freacutequences

34 Traitement des donneacutees

341 Algorithme des k-moyennes Agrave lrsquoissue de lrsquoanalyse en composantes principales on reacutecupegravere avec la premiegravere

des meacutethodes exposeacutees au chapitre preacuteceacutedent des angles correspondants aux positions des sources preacutedominantes agrave raison drsquoune valeur par fenecirctre et par bande de freacutequence Il faut agrave partir de ces donneacutees parvenir agrave isoler les sources crsquoest-agrave-dire agrave deacuteterminer quels sont les angles pertinents et examiner quels sont ceux qui agrave une certaine toleacuterance pregraves sont preacutesents dans plusieurs bandes de freacutequence etou plusieurs fenecirctres temporelles

Pour pouvoir exploiter ces donneacutees spatiales nous avons utiliseacute lrsquoalgorithme des

k-moyennes (ou k-means) [MacQueen 1967] sur les angles pondeacutereacutes par des critegraveres de pertinence Cet algorithme fonctionne de la maniegravere suivante

Initialisation choix de k barycentres (les k moyennes) Reacutepeacuteter Associer chaque eacuteleacutement au barycentre le plus proche Recalculer les positions des barycentres Jusqursquoagrave ce que les barycentres soient stables (ou au bout de t iteacuterations)

34 Traitement des donneacutees 27

Lrsquoavantage de cet algorithme est drsquoecirctre peu glouton puisqursquoil converge en O(tkn) ougrave t est le nombre drsquoiteacuterations k le nombre de centres et n le nombre de points (geacuteneacuteralement on a t k ltlt n) Par contre il est plutocirct sensible aux exceptions un point aberrant tirera agrave lui la moyenne auquel il aura eacuteteacute associeacute Il faut donc faire en sorte que ces points erroneacutes soient aussi rares que possibles Crsquoest pourquoi les angles traiteacutes sont pondeacutereacutes par 2 critegraveres de pertinence

La pondeacuteration des angles fournis en entreacutee de lrsquoalgorithme des k-moyennes se

fait de maniegravere simple en reacutepeacutetant ces angles un nombre de fois (de 0 agrave 10) proportionnel agrave un critegravere Ainsi un angle tregraves pertinent sera dupliqueacute et sera preacutesent plusieurs fois dans la liste des donneacutees traiteacutees attirant ainsi agrave lui la position du barycentre le plus proche Au contraire un angle trop peu pertinent ne sera pas reacutepeacuteteacute voir mecircme sera enleveacute de la liste

Le seul problegraveme de cet algorithme est qursquoil neacutecessite la connaissance de k crsquoest-

agrave-dire du nombre de sources qui composent la scegravene Une deacutetermination automatique se basant sur la reacutepeacutetition de lrsquoalgorithme avec un k croissant a eacuteteacute testeacutee mais le critegravere drsquoarrecirct reposant sur la dispersion des points autour des barycentres nrsquoeacutetant pas assez robuste cette meacutethode a provisoirement eacuteteacute mise de cocircteacute

342 Critegraveres de pertinence Les 2 critegraveres de pondeacuteration choisis sont lrsquoeacutenergie de la sous-bande dans la

fenecirctre donneacutee et le rapport de la norme de la 1egravere composante (la composante principale) de lrsquoACP sur la somme des normes de toutes les composantes

En effet un angle est trouveacute dans chaque sous-bande de chaque fenecirctre mecircme si

le signal y est tregraves faible Lrsquoangle trouveacute sera alors tregraves peu repreacutesentatif de la direction drsquoune source puisqursquoil indiquera la direction drsquoun bruit Lrsquoeacutenergie doit donc ecirctre prise en compte pour ne conserver que les angles trouveacutes dans des bandes comportant un signal suffisant

La norme relative de la 1egravere composante de lrsquoACP rend quant agrave elle compte du

poids relatif de cette composante par rapport aux autres Ainsi si 2 sources sont preacutesentes dans une bande donneacutee la 1egravere composante sera agrave peine plus marqueacutee que la 2egraveme Ceci peut ecirctre calculeacute en prenant simplement le rapport de la 1egravere valeur propre sur la somme des valeurs propres

On peut noter que la norme de la 1egravere composante ne se deacutetache nettement que

lorsqursquoun son est preacutesent dans la bande consideacutereacutee On peut alors se demander si lrsquoeacutenergie doit ecirctre prise en compte ou si lrsquoinformation qursquoelle contient nrsquoest comprise dans le 2egraveme critegravere En fait la norme relative est un critegravere tregraves bruiteacute et consideacuterer lrsquoeacutenergie par ailleurs permet de nuancer ces artefacts et constitue une base solide de pondeacuteration

Chapitre 3 Description des analyses 28

80

40

0

Figure 37 - Repreacutesentation temps-freacutequence des angles du son deacutecrit en 332 Letrame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On peut donc v

par trame et par bande chacun eacutetant le reacutesultat drsquoune ACP crsquoest-agrave-dire la 1egravere

Figure 38 - Eacutenergie de ce mecircme son On peut voir une basse en notes tenues uneet une batterie qui produit des sons secs dans un spectre plus aigu

80

40

0

80

40

0

Figure 39 - Norme relative de la 1egravere composante de ce mecircme son Les impacts de batterie (dans lrsquoaigu) ressortent davantage

π 0 minusπ

numeacutero de oir un angle direction

voix aiguumle

34 Traitement des donneacutees 29

Figure 310 - Pondeacuteration appliqueacutee agrave lrsquoentreacutee des k-moyennes calculeacutee ici comme

le simple produit de lrsquoeacutenergie et de la norme relative

80

40

0

343 Lissages

Pour faire face au bruit ineacutevitable dans les reacutesultats il faut lisser les donneacutees Ces

lissages temporels correspondent agrave des hypothegraveses de stabiliteacute des sources qui sont supposeacutees ecirctre fixes ou mobiles relativement lentement (dans une mesure agrave parameacutetrer)

Un premier lissage peut ecirctre opeacutereacute avant le traitement par lrsquoalgorithme des k-

moyennes Le filtre choisi est un filtre meacutedian de maniegravere agrave eacuteliminer les points aberrants tout en conservant les vraies valeurs des points coheacuterents Ce lissage est appliqueacute sur chaque sous-bande aux angles et ne tient pas compte des critegraveres de pertinence Il est donc utiliseacute avec parcimonie et peut mecircme ecirctre eacuteviteacute en reacuteglant de maniegravere adeacutequate les critegraveres de pondeacuteration agrave lrsquoentreacutee des k-moyennes

Le deuxiegraveme lissage srsquoeffectue agrave lrsquoentreacutee des k-moyennes en mecircme temps que les

critegraveres de pondeacuteration Il consiste agrave appliquer les k-moyennes non pas sur une fenecirctre donneacutee mais sur plusieurs fenecirctres conseacutecutives anteacuterieures et posteacuterieures en donnant plus de poids agrave la fenecirctre courante Dans la pratique les poids donneacutes aux diffeacuterentes fenecirctres sont eacutetablis par une gaussienne centreacutee sur la fenecirctre courante et de largeur agrave deacuteterminer (en fonction notamment de la dureacutee drsquoune fenecirctre et du type de scegravene analyseacute)

35 Exploitation de toutes les composantes de lrsquoACP Les analyses preacutesenteacutees preacuteceacutedemment ont toutes exploiteacute uniquement la

composante principale extraite par lrsquoACP Or cette analyse fournit des informations plus complegravetes par lrsquointermeacutediaire des autres composantes dont on peut tirer parti pour isoler plusieurs sources au sein drsquoune mecircme bande Cette approche est toujours en deacuteveloppement dans ce stage et nrsquoa pas encore donneacute pleine mesure des reacutesultats qursquoelle laisse entrevoir

Les composantes de lrsquoACP indiquent des directions qui correspondent aux

diffeacuterentes sources composant la scegravene sonore Les vecteurs propres de la matrice de correacutelation donnent ainsi les combinaisons lineacuteaires des signaux HOA permettant de

Chapitre 3 Description des analyses 30

seacuteparer de la meilleure faccedilon possible ces sons Ces directions peuvent ecirctre alors utiliseacutees pour former des directiviteacutes isolant au mieux ces sources

aBS sdot= (31)

ougrave la matrice a contient les vecteurs propres de la matrice de correacutelation (voir Annexe C) le vecteur B contient les signaux HOA et le vecteur S contient les sources extraites

⎟⎟⎟

⎜⎜⎜

=⎟⎟⎟

⎜⎜⎜

⎛=

⎥⎥⎥

⎢⎢⎢

⎟⎟⎟

⎜⎜⎜

⎟⎟⎟

⎜⎜⎜

⎛=

10

1001

1

ML

N

B

BB

S

SSuua MML (32)

On obtient ainsi des lobes drsquoautant plus eacutetroits que lrsquoordre est eacuteleveacute chacun

dirigeacute vers une source et permettant de lrsquoisoler le plus possible des contributions des autres sources La Figure 311 preacutesente les directiviteacutes ainsi trouveacutees par une ACP en pleine bande Une analyse en sous-bande permet une plus grande distinction des sources mais une seacuteparation diffeacuterente entre les bandes est dangereuse car elle risque de dissocier spatialement plusieurs parties drsquoun mecircme son

Figure 311 - Directiviteacutes seacuteparant ideacutealement 4 sources placeacutees agrave 17 73 195 et -58deg

pour une scegravene virtuelle encodeacutee agrave lrsquoordre 4 Ce principe se heurte neacuteanmoins aux limites de seacuteparation lieacutees agrave lrsquoordre

drsquoencodage en effet 2 sources ne pourront pas ecirctre seacutepareacutees si elles sont trop proches comme en teacutemoigne la largeur des lobes principaux Les lobes secondaires traduisent eacutegalement un meacutelange des sources isoleacutees La figure ci-dessus montre ainsi que la source placeacutee agrave 17deg (en vert) sera preacutesente de maniegravere non neacutegligeable dans le signal senseacute contenir la source placeacutee agrave -58deg (en bleu) en raison du lobe secondaire bleu important

31

Chapitre 4

Reacutesultats et applications

41 Illustration et critique des reacutesultats obtenus

411 Avant-propos Sans notification particuliegravere les reacutesultats preacutesenteacutes ont eacuteteacute obtenus avec un pas

de 50 ms une analyse en 80 bandes avec une FFT sur 8192 points Une taille de FTT plus grande et un plus grand nombre de bande augmente la qualiteacute de lrsquoanalyse un pas plus petit ameacuteliore sa preacutecision temporelle mais les reacutesultats sont moins fiables et un lissage plus important srsquoimpose alors Ces paramegravetres ont eacuteteacute reacutegleacutes apregraves de multiples essais sur des scegravenes diverses

Les reacutesultats sont preacutesenteacutes ici uniquement sous la forme de graphiques nous ne

pouvons donc repreacutesenter que les angles trouveacutes agrave la sortie de lrsquoalgorithme des k-moyennes

412 Scegravene 2D artificielle agrave 4 sources fixes La premiegravere scegravene est une scegravene artificielle composeacutee de 4 sons fixes placeacutes agrave -70

-10 45 et 110deg Ces sons (une basse une voix une guitare et une batterie) ont eacuteteacute choisis pour leur varieacuteteacute spectrale et leur varieacuteteacute drsquoattaque Elle a en outre le meacuterite drsquoecirctre reacutealiste et de constituer une seacutequence musicale (chaque son nrsquoest pas une meacutelodie indeacutependante)

On voit sur la Figure 41 ci-dessous que les angles trouveacutes sont proches des

angles theacuteoriques Lrsquoun des sons (agrave 45deg) est quasiment nul avant la 100egraveme trame sa position est alors moins facile agrave deacuteterminer plus preacuteciseacutement une position approximative est trouveacutee et correspondrait exactement agrave la position du bruit (45deg) si lrsquoincertitude de mesure tregraves grande pour un son aussi faible ne rendait la deacutetermination si ardue On mesure un eacutecart-type de 22deg sur cet exemple (en excluant le deacutebut du son agrave 45deg)

Chapitre 4 Reacutesultats et applications 32

Figure 41 - Angles theacuteoriques (en pointilleacutes rouge) et calculeacutes (en trait bleu) pour une scegravene

constitueacutee de 4 sons fixes longue de 11s

413 Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile

Figure 42 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) de la scegravene agrave

4 sources dont 1 mobile deacutecrite en 332 Cette scegravene est deacutecrite en 332 On a ici demandeacute aux k-moyennes de renvoyer 5 barycentres par trame alors que

seules 4 sources eacutetaient preacutesentes dans le but de se garantir une marge vis-agrave-vis des erreurs de deacutetection Cette 5egraveme direction nrsquoest pas du tout gecircnante elle indique une direction qui ne contient pas de source et crsquoest donc un son tregraves faible qui est ainsi pointeacute Apregraves une eacuteventuelle extraction le signal ne sera donc pas du tout gecircnant

41 Illustration et critique des reacutesultats obtenus 33

On peut remarquer que quand le son mobile se rapproche drsquoun son fixe la deacutetection est moins bonne il y a une fusion entre les 2 sons Mais encore une fois lors de lrsquoextraction lrsquoisolation drsquoun des sons englobera lrsquoautre son ce qui ne posera pas de problegraveme pour les objectifs fixeacutes aucune source nrsquoeacutetant oublieacutee En effet la seacuteparation de sources nrsquoest pas un objectif ici mais un moyen pour preacuteciser les positions des sources ce qui sera fait correctement mecircme si 2 sources sont pointeacutees par 1 seule direction

414 Scegravene 3D artificielle agrave une source et bruit de fond

La scegravene dont la position drsquoune source a eacuteteacute extraite ci-dessous est une scegravene virtuelle en 3D constitueacute drsquoun son (une voix) qursquoon a fait se deacuteplacer par paliers tout drsquoabord vers le haut de 0deg agrave 45deg et vers la gauche de 0deg agrave 90deg puis redescendre jusqursquoagrave 35deg en continuant son cheminement vers la gauche jusqursquoagrave 120deg et enfin finir la descente de 35deg agrave 0deg en la laissant agrave 120deg Agrave cette source a eacuteteacute superposeacutee une ambiance spatialiseacutee de hall drsquoaeacuteroport initialement enregistreacutee en 2D (au format 51) mais transformeacutee pour contenir des composantes verticales Cette ambiance deacutecorreleacutee de la source avait pour but de tester la robustesse de lrsquoanalyse Elle eacutetait agrave 15 dB en-dessous du niveau de la voix

Figure 43 - Azimut et eacuteleacutevation theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun

son en 3D artificiel de 9s placeacute dans une ambiance bruyante On remarque que lrsquoanalyse est tregraves correcte Il nrsquoy a pas drsquoeacutecart important entre

les angles theacuteoriques et ceux calculeacutes On note toutefois que le lissage agrave lrsquoentreacutee des k-moyennes a pour effet de gommer les creacuteneaux et drsquoaplatir quelque peu la courbe drsquoeacuteleacutevation ceci nrsquoest pas vraiment gecircnant car de tels sauts dans la position drsquoune source ne sont pas du tout reacutealistes (ils peuvent caracteacuteriser des bruits de pas mais de tels impacts sont courts et on peut srsquoattendre agrave ce que la courbe suive leur position aux instants ougrave ils sont eacutemis)

Chapitre 4 Reacutesultats et applications 34

415 Scegravene 2D naturelle agrave une source Les scegravenes naturelles sont on lrsquoa vu plus deacutelicates agrave exploiter car on ne peut pas

garantir la preacutecision de la position theacuteorique agrave retrouver par le calcul et on ne peut donc pas calculer la preacutecision de lrsquoanalyse Seuls les enregistrements utilisant la table tournante (voir 232) permettent une mesure preacutecise de la position de lrsquoangle Ces enregistrements on pu confirmer la validiteacute de lrsquoanalyse pour des scegravenes reacuteelles on trouve ici un eacutecart-type de 25deg

Figure 44 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun bruit blanc

tournant autour du micro enregistreacute en chambre sourde Cette analyse a eacuteteacute reacutealiseacutee par sous-bandes mais sur une eacutetendue freacutequentielle

plus reacuteduite puisqursquoon srsquoest limiteacute aux possibiliteacutes offertes par le microphone La scegravene a donc eacuteteacute analyseacutee de 200 agrave 10 000 Hz

42 Quelques applications

421 Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre 2 agrave partir de lrsquoordre 1

Une fois les positions des sources connues la porte est ouverte agrave de nombreuses

applications La connaissance de ces positions permet en effet de syntheacutetiser artificiellement des composantes manquantes ou non transmises La premiegravere synthegravese deacuteveloppeacutee est celle des signaux U et V composant la partie horizontale de lrsquoordre 2 agrave partir de lrsquoordre 1 et de paramegravetres issus de lrsquoanalyse pour une source en 2D (des angles dans de cas)

42 Quelques applications 35

Figure 45 - Principe de lrsquoameacutelioration de la preacutecision spatiale

Le principe de la synthegravese est drsquoextraire les sources originales agrave partir de W X Y

et des angles (un angle par trame et par sous-bande) Ceci peut ecirctre reacutealiseacute de maniegravere approcheacutee en deacutecodant lrsquoordre 1 dans les directions des sources Ce deacutecodage revient agrave calculer les signaux qui devraient alimenter des haut-parleurs qui seraient placeacutes agrave ces positions dans le cas drsquoune restitution (voir 122) crsquoest-agrave-dire agrave former des directiviteacutes dans les directions des sources Dans la plupart des cas ce deacutecodage qui fait intervenir une pseudo-inversion de Moore-Penrose (111) est imparfait les sources se retrouvant leacutegegraverement meacutelangeacutees On peut comparer cette seacuteparation agrave celle que ferait un ensemble de microphones agrave directiviteacute hypercardioiumlde coiumlncidents

Figure 46 - Directiviteacutes eacutequivalentes agrave la seacuteparation de 4 sources agrave lrsquoordre 1 Ces sources seacutepareacutees vont ensuite constituer toujours placeacutees aux angles

deacutetermineacutes agrave lrsquoanalyse une scegravene virtuelle qursquoon va encoder agrave lrsquoordre 2 De cet encodage on ne conservera que les signaux manquants dans notre exemple les signaux du 2nd ordre U et V Ainsi la scegravene spatialiseacutee sera au final constitueacutee des signaux W X et Y drsquoorigine (transmis) et des signaux U et V syntheacutetiseacutes

Chapitre 4 Reacutesultats et applications 36

422 Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave partir de W Reconstruire une scegravene sonore spatialiseacutee agrave partir drsquoun unique canal mono est

alors difficile et le reacutesultat nrsquoest appreacuteciable que pour des scegravenes simples Il faut pour cela que les diffeacuterentes sources composant cette scegravene aient des supports spectraux aussi distincts que possible Les diffeacuterentes sous-bandes sont alors placeacutees agrave un certain angle transmis en parallegravele et crsquoest cette scegravene reconstitueacutee qui va ecirctre encodeacutee au 1er ordre de maniegravere agrave recreacuteer les signaux X et Y

Figure 47 - Principe de la restitution de lrsquoordre 1 agrave partir du signal mono W Ce scheacutema rappelle une meacutethode deacuteveloppeacutee dans le cas steacutereacuteo appeleacutee BCC

(Binaural Cue Coding) [Faller and Baumgarte 2002] Le principe est drsquoextraire et coder des informations permettant la reconstruction binaurale drsquoun signal agrave savoir les diffeacuterences interaurales drsquointensiteacute et de temps (Interaural LevelTime Difference ILD et ITD) qui correspondent dans le cas drsquoune restitution sur un casque aux diffeacuterences drsquointensiteacute et de temps inter-canal (Inter-Channel LevelTime Difference ICLD et ICTD) qui sont mesureacutees agrave partir drsquoune analyse en sous-bandes Les auteurs y ont plus reacutecemment associeacute un indice de correacutelation interaurale mesureacute agrave partir de la correacutelation inter-canal (ICC) afin de caracteacuteriser la preacutecision spatiale (la ldquolargeurrdquo drsquoune source)

Figure 48 - Scheacutema de principe de la meacutethode BCC [Faller and Baumgarte 2003]

On observe en pratique des deacutefauts lieacutes agrave la brutaliteacute de la proceacutedure une sous-

bande ne peut ecirctre que placeacutee agrave la position indiqueacutee et ne peut pas rester floue diffuse ou encore ecirctre placeacutee agrave plusieurs endroits Pour y remeacutedier nous avons ajouteacute 2 traitements agrave la synthegravese Tour drsquoabord nous avons appliqueacute un leacuteger lissage soulageant les effets deacutesagreacuteables dus au saut du contenu drsquoune sous-bande drsquoun endroit agrave un autre entre de 2 fenecirctres conseacutecutives Les positions varient alors de faccedilon plus souple au sein drsquoune mecircme sous-bande traduisant une hypothegravese de continuiteacute spatiale (pas de deacuteplacement brusque) La contrepartie est que cette hypothegravese est lieacutee agrave une hypothegravese de continuiteacute spectrale

42 Quelques applications 37

La 2egraveme ameacutelioration concerne le positionnement des sources En incluant dans la transmission un critegravere de pertinence on peut savoir srsquoil est raisonnable de placer une sous-bande agrave un angle preacutecis ou bien si lrsquoanalyse eacutetait flou agrave son sujet auquel cas un positionnement impreacutecis serait preacutefeacuterable Le paramegravetre choisi est une combinaison des critegraveres eacutevoqueacutes en 342 il nous permet de placer la sous-bande de maniegravere plus ou moins prononceacutee

43 Comparaison avec une meacutethode existante Certains auteurs ont deacutejagrave essayeacute drsquoanalyser un contenu ambisonique pour

retrouver les positions des sources Ville Pulkki a ainsi deacutecrit dans [Pulkki and Faller 2006] une meacutethode drsquoanalyse du B-format baseacutee sur lrsquoeacutetude des amplitudes des signaux W X Y et Z

Figure 49 - X et Y dans le cas drsquoune sinusoiumlde placeacutee agrave 15deg (agrave gauche) et 120deg (agrave droite)

Les figures ci-dessus montrent les relations drsquoamplitudes (algeacutebriques) qui relient

X et Y agrave lrsquoangle de la source On voit que lrsquoanalyse de ces amplitudes respectives permet de retrouver la position de la source en effet on a pour une source unique les relations de lrsquoeacutequation (11) rappeleacutee ici

⎪⎪

⎪⎪

=

=

=

=

δ

δθ

δθ

sin2

cossin2

coscos2

SZ

SY

SX

SW

(41)

On peut donc theacuteoriquement retrouver les valeurs de θ et δ par relations

trigonomeacutetriques Ainsi on a

⎪⎪⎩

⎪⎪⎨

=

=

2)sin(

)tan(

WZ

XY

δ

θ (42)

Chapitre 4 Reacutesultats et applications 38

On peut donc trouver les angles θ et δ agrave π pregraves Pour lever lrsquoambiguiumlteacute une eacutetude de signe est neacutecessaire Mais dans le cas de θ le signe de X et de Y agrave δ fixeacute deacutepend aussi bien de θ que S Il faut srsquointeacuteresser aux signes de θcos et θsin crsquoest-agrave-dire

aux signes de WX et

WY Dans la pratique on srsquointeacuteressera aux signes de et

pour se preacutevenir des divisions par zeacuteros

XW sdot YW sdot

XW sdot et YW sdot sont proportionnels agrave toujours positif

2S

Les auteurs deacutecrivent eacutegalement dans leur article un critegravere appeleacute diffuseness qui

peut ecirctre compareacute agrave un critegravere de pertinence inverseacute Ce paramegravetre calculeacute par agrave 1 - R ougrave R est un rapport de normes est tregraves proche du critegravere de norme relative deacutecrit en 342 Il peut donc ecirctre utiliseacute de la mecircme faccedilon et permettre ainsi une pleine comparaison

Cette meacutethode a eacuteteacute impleacutementeacutee pour pouvoir ecirctre compareacutee avec la meacutethode

par ACP Tous les paramegravetres ont scrupuleusement eacuteteacute gardeacutes identiques et plusieurs reacuteglages ont eacuteteacute testeacutes Les courbes ci-dessous preacutesentent les reacutesultats des analyses de la scegravene deacutecrite en 332 avec un pas de 50ms un overlap de 50 un NFFT de 2048 et 40 bandes freacutequentielles Nous avons repreacutesenteacute tous les angles trouveacutes crsquoest-agrave-dire un par bande et par trame pour srsquoaffranchir de la seacutelection des k-moyennes

π

0

minusπ

Figure 410 - Angles trouveacutes par lrsquoalgorithme de [Pulkki and Faller 2006] Le diamegravetre du point correspondant agrave la pertinence

43 Comparaison avec une meacutethode existante 39

π

0

minusπ

Figure 411 - Angles trouveacutes par une ACP pour la mecircme scegravene On remarque que les points excentriques sont moins nombreux et plus rarement trouveacutes comme pertinents

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee

441 Position du problegraveme

Une application directe de ces analyses a eacuteteacute deacuteveloppeacutee pour la confeacuterence audio

spatialiseacutee La confeacuterence audio utilise en effet la spatialisation pour permettre une meilleure seacuteparation par lrsquooreille des diffeacuterents locuteurs Ainsi si plusieurs personnes parlent en mecircme temps il sera tregraves difficile de comprendre chacun individuellement si ces voix sont restitueacutees en mono mais on pourra focaliser lrsquoattention sur chacune drsquoentre elles si elles sont seacutepareacutees spatialement (crsquoest lrsquoeffet cocktail party [Cherry 1953])

Lrsquoobjectif eacutetait de veacuterifier qursquoil eacutetait possible de conserver la spatialisation drsquoune

confeacuterence en nrsquoayant transmis qursquoun downmix mono des signaux Ce concept semble se rapprocher de celui deacutecrit en 422 mais une diffeacuterence fondamentale les seacutepare la confeacuterence audio spatialiseacutee nrsquoest pas codeacutee au format ambisonic mais les signaux traiteacutes sont directement les sons provenant des diffeacuterents locuteurs crsquoest-agrave-dire les sources elles-mecircmes Ainsi lrsquoanalyse ne porte plus sur une scegravene spatialiseacutee mais sur des signaux seacutepareacutes Il nrsquoy a ainsi plus drsquoindices spatiaux agrave trouver

Avoir accegraves aux sources permet drsquoobtenir des informations plus preacutecises pour

permettre une seacuteparation apregraves la transmission Comme nous lrsquoavons vu lrsquoanalyse drsquoune scegravene spatialiseacutee ne permet que dans drsquoultimes cas agrave la seacuteparation des sources ce qui est ici notre point de deacutepart et sera en fait notre point drsquoarriveacutee En effet nous tenterons de retrouver les sources seacutepareacutees apregraves la transmission de maniegravere agrave pouvoir par la suite les spatialiser agrave loisir (voir Figure 413)

Chapitre 4 Reacutesultats et applications 40

442 Solution proposeacutee Les paramegravetres extraits ne sont donc plus des positions de sources Nous avons

choisi de mesurer puis transmettre lrsquoeacutenergie de chaque signal dans chaque sous-bande en parallegravele du downmix En effet une bonne seacuteparation sera possible si lrsquoon sait quelle proportion de chaque source compose chaque sous-bande du signal mono

Figure 412 - Scheacutema de principe drsquoune confeacuterence audio spatialiseacutee

Figure 413 - Scheacutema ameacutelioreacute (deacutebit reacuteduit)

en pointilleacutes informations compleacutementaires (eacutenergie) Lrsquoanalyse en sous-bandes a lieu dans le serveur (Figure 414) Celui-ci calcule

lrsquoeacutenergie de chaque signal dans chaque sous-bande sur une trame donneacutee Crsquoest ce paramegravetre qui associeacute au signal mono M permettra la seacuteparation des sources dans le terminal (Figure 415) Ce dernier reacutepartira en effet les diffeacuterentes sous-bandes vers chaque signal reconstitueacute proportionnellement agrave cette information pour reconstruire les 4 sources originales

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee 41

Figure 414 - Analyse principe de lrsquoencodage dans le serveur

Figure 415 - Synthegravese principe du deacutecodage dans le client

Afin de reacuteduire au maximum les informations compleacutementaires agrave transmettre on

peut remarquer qursquoau cours drsquoune confeacuterence audio on a tregraves souvent un seul locuteur les participants ne parlent que tregraves rarement tous en mecircme temps Ceci implique que les signaux en entreacutee sont tregraves souvent tous nuls sauf 1 et appliquer un seuil en entreacutee de lrsquoanalyse permet outre lrsquoallegravegement du traitement drsquoavoir moins de paramegravetres agrave transmettre

Ce scheacutema simplifieacute ne tient pas compte des problegravemes de phase rien nrsquoindique

que les eacutenergies des signaux srsquoajoutent bien dans chaque sous-bande lors du downmix on peut tregraves bien avoir des oppositions de phase La solution est drsquoeffectuer le downmix (la somme) des signaux dans chaque sous-bande en prenant soin drsquoavoir recaleacute les phases au preacutealable Ceci nrsquoa un sens que pour des bandes suffisamment eacutetroites Les deacutecalages temporels appliqueacutes pour le recalage sont alors des paramegravetres suppleacutementaires agrave transmettre et sont pris en compte lors de la synthegravese au niveau du reacutepartiteur qui repositionnera la phase de chaque trame pour chaque signal

Chapitre 4 Reacutesultats et applications 42

443 Bilan Le reacutesultat du deacutecodage a pu ecirctre eacutecouteacute de diffeacuterentes maniegraveres les sources

reconstitueacutees individuellement ensemble en steacutereacuteo drsquoamplitude et sur un systegraveme 51 On note que les sources ont eacuteteacute assez bien seacutepareacutees mais que des artefacts sont audibles en particulier lorsque le nombre de locuteurs simultaneacutes augmentent Ces artefacts sont un meacutelange des voix qui nrsquoest gecircnant que lorsqursquoon les eacutecoute de maniegravere seacutepareacutee En effet lrsquoeacutecoute simultaneacutee de ces signaux syntheacutetiseacutes mecircme placeacutes agrave des positions distinctes sur un systegraveme de diffusion multicanal est tout agrave fait satisfaisante

Ce proceacutedeacute pour pouvoir ecirctre appliqueacute doit fonctionner en temps-reacuteel Cette

contrainte nrsquoa pas du tout eacuteteacute prise en compte lrsquoobjectif eacutetant de valider la faisabiliteacute drsquoune reconstruction Les programmes sous Matlab nrsquoont pas eacuteteacute optimiseacutes et ne respectent pas cette contrainte

43

Conclusion Nous avons preacutesenteacute dans ce rapport le principe et lrsquoapplication de plusieurs

meacutethodes drsquoanalyses spatiales de scegravenes ambisoniques conccedilues et reacutealiseacutee pendant le stage Le format HOA est en effet une repreacutesentation du champ acoustique deacutecomposeacute sur une base drsquoharmoniques spheacuteriques jusqursquoagrave un certain ordre agrave la maniegravere drsquoun deacuteveloppement limiteacute Il contient donc de maniegravere indirecte des indications spatiales qursquoon peut extraire avec des analyses comme lrsquoanalyse en composantes principales

Ces analyses nous permettent de deacuteterminer les positions des sources qui

composent la scegravene sonore Nous avons appliqueacute les reacutesultats de ces analyses agrave 2 types de synthegravese lrsquoune destineacutee aux transmissions bas deacutebit lrsquoautre agrave un traitement de restitution de la preacutecision spatiale dans le cas ougrave des ordres supeacuterieurs dont le but est drsquoaffiner la perception de localisation nrsquoauraient pas pu ecirctre transmis Ces algorithmes par le codage drsquoinformations spatiales qursquoils permettent pourront trouver bien drsquoautres applications dans la transmission et le codage ougrave la description du contenu est de plus en plus utiliseacutee (comme par exemple dans la norme MPEG)

Des ameacuteliorations sont possibles sur plusieurs points tout drsquoabord lrsquoexploitation

de toutes les composantes de lrsquoACP est agrave lrsquoeacutetude et semble pouvoir donner des reacutesultats inteacuteressants Drsquoautre part on a vu que le reacutesultat final est tregraves deacutependant de la bonne convergence de lrsquoalgorithme des k-moyennes utiliseacute pour traiter les donneacutees brutes de lrsquoanalyse en sous-bandes Or cet algorithme neacutecessite des reacuteglages tregraves fins et une connaissance a priori du nombre de sources est presque indispensable Drsquoautres algorithmes plus complexes de suivi de formes pourraient ecirctre avantageusement utiliseacutes pour deacutetecter dans tous les angles trouveacutes lesquels sont susceptibles de former une trajectoire

45

Annexe A

Deacuteveloppement du champ acoustique en harmoniques spheacuteriques

A1 Eacutequation drsquoonde en coordonneacutees spheacuteriques On se place dans lrsquoespace euclidien agrave 3 dimensions muni drsquoun systegraveme de

coordonneacutees spheacuteriques Un point M y est repeacutereacute par son rayon r son azimut θ et son eacuteleacutevation δ tels que repreacutesenteacutes sur la figure ci-dessous

- r est la norme du vecteur position rr crsquoest-agrave-dire la distance OM - [20[ πθ isin est lrsquoangle formeacute par le projeteacute du point sur le plan xOy et lrsquoaxe Ox

- ]2

2

[ ππδ minusisin est lrsquoangle formeacute par le plan xOy et le vecteur position2

Figure A1 - Systegraveme de coordonneacutees spheacuteriques

2 Cet angle diffegravere de lrsquoangle polaire usuel δπϕ minus=

2 habituellement pris entre lrsquoaxe Oz et le

vecteur position

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 46

Les relations entre les coordonneacutees spheacuteriques et les coordonneacutees carteacutesiennes sont

⎪⎩

⎪⎨

===

δδθδθ

sincossincoscos

zryrx

(A1)

On srsquointeacuteresse dans ce repegravere agrave lrsquoeacutequation de propagation des ondes acoustiques

de pression On se place dans les conditions classiques drsquoacoustique lineacuteaire (les variations de p sont petites par rapport agrave la pression atmospheacuterique) en supposant que lrsquoair est un fluide parfait (on y neacutegligera les pheacutenomegravenes dissipatifs) Dans une reacutegion de lrsquoespace ne comprenant pas de sources lrsquoeacutequation drsquoonde srsquoeacutecrit alors

0)(12

2

2 =⎟⎟⎠

⎞⎜⎜⎝

⎛partpart

minus∆ trptc

r (A2)

p eacutetant la pression et c la vitesse de propagation du son dans lrsquoair

Cette eacutequation devient dans le domaine freacutequentiel lrsquoeacutequation de Helmholtz

( ) 0)(2 =+∆ ωrpk r (A3)

ck ω

= eacutetant le nombre drsquoonde

En coordonneacutees spheacuteriques cette eacutequation srsquoeacutecrit

0sin1sin

sin11 2

2

2

222

2 =⎥⎦

⎤⎢⎣

⎡+

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart pk

rrrr

rr δθθθ

θθ (A4)

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques Drsquoapregraves [Bruneau 1983] elle admet des solutions agrave variables seacutepareacutees de la forme

)()()( δθ ΦΘ= rRp (A5) Ces solutions sont respectivement - pour la partie radiale une combinaison des fonctions de Bessel spheacuteriques de

premiegravere et seconde espegravece3 jn et nn

)()()( krBnkrAjrR nn += (A6) 3 Les fonctions de Bessel spheacuteriques de seconde espegravece sont eacutegalement appeleacutees fonctions de

Neumann

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 47

Ces fonctions sont deacutefinies comme suit

(A7)

Figure A2 - Fonctions de Bessel spheacuteriques pour les ordres 0 agrave 5 )(krjm

- pour la partie azimutale les fonctions )(θΘ

)sin()cos()( 21 θθθ ncnc +=Θ (A8) Eacutetant donneacute la deacutefinition de lrsquoangle Θ celui-ci doit neacutecessairement ecirctre de

peacuteriode 2π ))2()(( πθθ +Θ=Θ ce qui impose agrave n drsquoecirctre entier

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 48

- pour la partie polaire les fonctions de Legendre associeacutees )(sinδmnP

nm

nn

mn dPdP

)(sin)(sinsin)(sin

δδ

δδ = pour ⎩⎨⎧

gt=

nmavecnm 321

(A9)

ougrave les )(sinδnP sont les polynocircmes de Legendre de degreacute n en δsin deacutefinis par reacutecurrence

( )

11

22

1

0

sin)12()(sin)1(

1cos321)(sin

sin)(sin0)(sin

minus+ minus+=+

minus=

==

mmm mPPmPmet

P

PP

δδ

ϕδ

δδδ

(A10)

et de formule geacuteneacuterale

mm

m

mm dd

mP )1(sin

)(sin21)(sin 2 minus= δ

δδ (A11)

On peut appliquer aux fonctions )(sinδmnP la semi-normalisation de Schmidt

)(sin)()()(sin~ δεδ mnnmn P

nmnmP

+minus

= ougrave 10 =ε et 2=nε pour 1gen (A12)

En appariant les fonctions polaires et azimutales on deacutefinit les harmoniques

spheacuteriques de degreacute et drsquoordre)1(mnY 0gem 4 mnn lele0 et de degreacute et

drsquoordre (voir Figure A3)

)1(minusmnY 1gem

mnn lele1

)(sin~)sin()(

)(sin~)cos()()1(

)1(

δθδθ

δθδθ

mnmn

mnmn

PnY

PnY

=

=minus

(A13)

4 En geacuteneacuteral lorsque le degreacute et lrsquoordre ne sont pas eacutevoqueacutes conjointement on parle par abus de langage drsquoharmoniques drsquoordre m plutocirct que de degreacute m

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 49

soit

1)(sin

)()()12(2sin)(

)(sin)()()12(2cos)(

1)(sin)1()1()12(cos)(

)1(

)1(

1)1(

1

gt

⎪⎪⎩

⎪⎪⎨

+minus

+=

+minus

+=

=+minus

+=

minus

npourP

nmnmmnY

PnmnmmnY

npourPmmmY

mnmn

mnmn

mm

δθδθ

δθδθ

δθδθ

(A14)

La solution angulaire geacuteneacuterale srsquoeacutecrit alors sous la forme drsquoun deacuteveloppement sur

la base drsquoharmoniques spheacuteriques

( ) ( )sum minus

=minus+=Θ

1

1)1()1()( n

m mnmnmnmnn YBYBθ (A15) La solution geacuteneacuterale est alors la seacuterie de Fourier-Bessel

sum sum sum+infin

= = plusmn=

=0 0 1

)()( )()()(m

m

nmnmnm

m YBkrjikrpσ

σσ δθδθ (A16)

ougrave

intint⎪⎩

⎪⎨⎧

minusisin

isin

plusmnplusmn =

]2

2

[

[20[

)1()1( )()1()(

1

ππδ

πθ

δθδθ

S

mnm

mmn dSYpkrji

B (A17)

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 50

Tableau A1 - Expressions analytiques des harmoniques spheacuteriques pour les ordres 0 agrave 3

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 51

Figure A3 - Repreacutesentation des harmoniques spheacuteriques pour les ordres m = 0 agrave 3 Les

couleurs rouge et bleu indiquent respectivement des valeurs positives et neacutegatives

53

Annexe B

Compleacutements theacuteoriques sur le deacutecodage HOA

B1 Vecteur veacutelociteacute et vecteur eacutenergie Le vecteur veacutelociteacute est un indice de la direction apparente drsquoune source introduit

par Gerzon [Gerzon 1992] Il se calcule comme le rapport de la vitesse particulaire sur la pression acoustique

)()(

)()(1

δθδθ

δθδθ

ρ rprp

ki

rprv

cV nabla

minus=minus=rrr

(B1)

Dans le cas drsquoune onde plane le vecteur veacutelociteacute V

rest ainsi directement un

vecteur unitaire orienteacute vers la direction de provenance de lrsquoonde En geacuteneacuteralisant agrave une superposition drsquoondes planes en phase ou opposition de phase eacutemises par L haut-parleurs agrave eacutequidistance du point drsquoobservation on obtient la formule suivante

VVL

ll

L

lll

urg

ugV r

rr

==

sum

sum

=

=

1

1 (B2)

ougrave deacutesigne la direction du llur egraveme haut-parleur auquel est associeacute le gain gl et Vr Vur correspondent respectivement agrave la norme et agrave la direction du vecteur veacutelociteacute

Le vecteur eacutenergie est un autre indice de direction Il est deacutefinit par

EEL

ll

L

lll

urg

ugE r

rr

==

sum

sum

=

=

1

2

1

2

(B3)

Annexe B Compleacutements theacuteoriques sur le deacutecodage HOA 54

Il peut srsquointerpreacuteter comme une indication de la concentration de lrsquoeacutenergie ( ) et de sa direction moyenne de provenance (

Er

Eur ) On a toujours 1ltEr sauf dans le cas ougrave un seul haut-parleur contribue agrave la reconstruction (dans ce cas ) peut ecirctre consideacutereacute comme un indicateur de preacutecision de la localisation

1=Er Er

B2 Deacutecodages optimiseacutes La restitution la plus confortable drsquoun champ sonore veillera donc agrave maximiser

tout en essayant de garder le plus proche possible de 1 Lrsquooptimisation du deacutecodage consiste alors agrave multiplier chaque coefficient de la matrice de deacutecodage D (voir (111) par des gains calculeacutes drsquoapregraves des critegraveres drsquooptimisation

Er Vr

Ainsi le deacutecodage appeleacute max- maximise la norme du vecteur eacutenergie en

sacrifiant celle du vecteur veacutelociteacute puisqursquoon a dans ce deacutecodage (pour des configurations reacuteguliegraveres de haut-parleurs) Ce deacutecodage est donc avantageux par rapport au deacutecodage basique pour les hautes freacutequences ou dans le cas drsquoun auditoire eacutelargi Le deacutecodage in-phase va encore plus loin en cherchant agrave annuler complegravetement les contributions des haut-parleurs placeacutes agrave lrsquoopposeacute de la direction de provenance de lrsquoonde reproduite Ce critegravere est utile dans le cas drsquoune eacutecoute dans une position tregraves excentreacutee agrave laquelle on pourrait percevoir de faccedilon preacutedominante la contribution en opposition de phase drsquoun tel haut-parleur

Er

EV rr =

Ces diffeacuterents deacutecodages ont chacun des avantages et inconveacutenients Ainsi seul le

deacutecodage basique garantit = 1 le deacutecodage max- permet une preacutecision meilleure notamment en haute freacutequence et le deacutecodage in-phase est plus adapteacute agrave un auditoire plus large Jeacuterocircme Daniel [Daniel 2000] propose ainsi de changer le deacutecodage en fonction de la freacutequence et de lrsquoeacutetendue de la zone drsquoeacutecoute deacutesireacutee

Vr Er

Figure B1 - Deacutecodages les plus approprieacutes par sous-bande et en fonction de lrsquoeacutetendue de la

zone drsquoeacutecoute [Daniel 2000]

55

Annexe C

Analyse en composantes principales

C1 Espace des donneacutees Eacutegalement souvent appeleacutee transformeacutee de Karhunen-Loegraveve5 (TKL) lrsquoanalyse en

composantes principales (ACP) est une technique statistique de repreacutesentation drsquoinformation Introduite sur 2 variables par Pearson [Pearson 1900] elle a eacuteteacute eacutetendue par Hotelling [Hotelling 1933] Elle a pour but de caracteacuteriser des donneacutees drsquoun espace agrave N dimensions dans un sous-espace plus petit en minimisant les pertes drsquoinformation due agrave la projection crsquoest-agrave-dire en maximisant la variance projeteacutee Les donneacutees ainsi reacuteorganiseacutees deviennent indeacutependantes Les variables correacuteleacutees sont remplaceacutees par de nouvelles variables deacutecorreacuteleacutees et de variance maximale combinaisons lineacuteaires des variables initiales

Les donneacutees sont constitueacutees de n variables aleacuteatoires (dans notre cas des canaux)

et p reacutealisations ou individus (des eacutechantillons)

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

pn

p

ji

n

xx

x

xx

M

LLL

MOMNM

MLLM

MNMOM

LLL

1

111

(C1)

Ces donneacutees sont geacuteneacuteralement centreacutees et peuvent aussi ecirctre reacuteduites4 (on note

1x la moyenne de la variable et 1x )( 1xσ sa variance) Reacuteduire ou non le nuage de points (ie les p reacutealisations de la variable aleacuteatoire) est un choix de modegravele

5 Quelques rares sources mentionnent une diffeacuterence entre ACP et TKL en placcedilant celle-ci au

niveau du choix de la reacuteduction des donneacutees dans le cas dune ACP les donneacutees seraient centreacutees et reacuteduites alors qursquoelles seraient uniquement centreacutees pour une TKL

Annexe C Analyse en composantes principales 56

- si on ne reacuteduit pas le nuage une variable agrave forte variance pourrait tirer tout lrsquoeffet de lrsquoACP agrave elle

- si on reacuteduit le nuage une variable qui ne serait qursquoun bruit se retrouverait avec une variance apparente eacutegale agrave une variable informative

M est centreacutee

⎥⎥⎥

⎢⎢⎢

minusminusminus

minusminus=

npn

pi

ji

nn

xxxxxx

xxxxM

K

MM

K

11

11

11

ˆ (C2)

M~ est centreacutee et reacuteduite

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

minusminus

minus

minusminus

=

)()(

)(

)()(~

1

11

1

1

111

n

npn

pi

ij

i

n

nn

xxx

xxx

xxx

xxx

xxx

M

σσ

σ

σσ

K

MM

K

(C3)

On multiplie ensuite la matrice obtenue par sa transposeacutee pour obtenir - La matrice de covariance MMC t

vˆˆ sdot=

- La matrice de correacutelation MMC tr

~~ sdot= Ces matrices sont carreacutees (N x N) symeacutetriques et reacuteelles Elles sont donc

diagonalisables dans une base orthonormeacutee 6 Le principe de lrsquoACP est alors de trouver un axe u issu drsquoune combinaison lineacuteaire

des tel que le critegravere drsquoinertie du nuage autour de cet axe soit maximal Le critegravere drsquoinertie couramment utiliseacute est la variance Il faut donc trouver lrsquoaxe qui porte le maximum de variance crsquoest-agrave-dire lrsquoaxe u tel que la projection du nuage sur cet axe ait une variance maximale

nx

6 Nos donneacutees eacutetant ici des valeurs drsquoeacutechantillons elles sont par nature centreacutees et reacuteduites On

formera donc naturellement la matrice de correacutelation

C2 Diagonalisation 57

C2 Diagonalisation Pour alleacuteger lrsquoeacutecriture de la suite de cette partie nous consideacutererons que les

variables ont eacuteteacute centreacutees et si besoin reacuteduites et nous noterons ces variables

transformeacutees (ainsi

ix ix

iii xxx minuslarr ou bien )( i

iii x

xxxσ

minuslarr ) On fera de mecircme pour M

( ou bien MM ˆlarr MM ~larr ) et C ( vCC larr ou bien rCC larr ) La projection drsquoun eacutechantillon sur un axe u srsquoeacutecrit ix

uMxiu sdot=)(π (C4) La variance empirique de )( iu xπ vaut donc

uMMuxx ttiu

tiu sdotsdotsdot=sdot )()( ππ (C5)

Or on a vu que est diagonalisable dans une base orthonormeacutee donc

on peut noter P le changement de base associeacute et ∆ la matrice diagonale formeacutee de son spectre Ainsi

MMC t=

n

i 1)(λ PPMMC tt ∆==

)()()()( PuPuuPPuxx ttt

iut

iu sdot∆sdot=sdot∆sdot=sdotππ (C6) On pose v = Pu Chercher lrsquoaxe u qui maximise )( iu xπ revient donc agrave chercher le

vecteur v qui maximise ougravevvt ∆ )( 1 ndiag λλ K=∆ avec les iλ rangeacutes par ordre deacutecroissant Ce vecteur est trivialement le premier vecteur unitaire et on a alors

1λ=∆vvt

Ainsi le vecteur qui porte la plus grande part drsquoinertie du nuage est le premier

vecteur propre de C (premier par norme deacutecroissante) De mecircme le deuxiegraveme vecteur qui explique la plus grandelt part de lrsquoinertie restante est le deuxiegraveme vecteur propre de C Finalement la question de lrsquoACP se ramegravene agrave un problegraveme de diagonalisation de la matrice de correacutelation

C3 Code Matlab

function [vep vap] = pca(f N) f donneacutees N nombre de composantes agrave garder cor = f f formation de la matrice de correacutelation [vep vap] = eig(cor) calcul des vecteurs (vep) et valeurs (vap) propres [vap ind] = sort(diag(vap)) tri des valeurs propres par ordre croissant vap = flipud(vap) disposition inverse par ordre drsquoimportance vep = vep( flipud(ind)) classement en conseacutequence des vecteurs propres vep = vep( 1N) on ne garde que les N premiers vecteurs propres

Annexe C Analyse en composantes principales 58

59

Annexe D

Analyse en sous-bandes

D1 La transformeacutee de Fourier agrave court terme (TFCT) Pour affiner lrsquoanalyse les signaux sont donc deacutecoupeacutes en bandes de freacutequence par

TFCT La TFCT consiste agrave effectuer des transformeacutees de Fourier discregravetes sur des portions de signal fenecirctreacutees reacuteguliegraverement espaceacutees

On rappelle que la transformeacutee de Fourier drsquoun signal x(t) est deacutefinie (lorsque

lrsquointeacutegrale existe) par

int+infin

infinminus

minus= dtetxfX ftiπ2)()( (D1)

La transformeacutee de Fourier agrave temps discret (TFTD) drsquoun signal x(t) srsquoeacutecrit

sum+infin

minusinfin=

minus=n

fnienxfX π2)()( (D2)

La transformeacutee de Fourier discregravete (TFD) drsquoun signal discret x(k) est deacutefinie par

sum+infin

minusinfin=

minus=

n

Nkni

enxkXπ2

)()( (D3)

La TFCT discregravete est une TFD observeacutee sur une fenecirctre wa de taille N

summinus

=

minus+=

1

0

2)())(()(

N

n

Nnki

aaa enwtnxkXπ

ττ (D4)

ougrave )(taτ est lrsquoinstant drsquoanalyse

Annexe D Analyse en sous-bandes 60

Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT [Laroche 1995]

D2 Synthegravese par addition-recouvrement Lors de la synthegravese apregraves le deacutecoupage et lrsquoanalyse des fenecirctres on cherche agrave

reconstruire le signal temporel agrave partir de sa repreacutesentation freacutequentielle Pour cela on utilise la meacutethode OLA (overlap and add addition-recouvrement) qui consiste agrave prendre la TFCT inverse des spectres Xt puis agrave additionner les signaux obtenus apregraves les avoir multiplieacutes par une fenecirctre de pondeacuteration en les faisant se recouvrir partiellement

Le reacutesultat est donneacute par

sum=

minusminus=T

tsss tnxtnwnx

s1

))((~))(()(~ ττ τ (D5)

avec )()( tt as ττ = et summinus

=

=1

0

2))((~1)(~ N

k

Nkni

s ektXN

nxs

π

τ τ

Lors de la mise en œuvre de ce traitement il faut srsquoassurer drsquoecirctre en mesure de

reconstruire parfaitement un signal lorsqursquoaucune transformation ne lui est appliqueacutee Le critegravere de reconstruction parfaite condition suffisante est alors

sum=

=minusminusT

tasaa tnwtnw

11))(())(( ττ quelque soit n (D6)

D2 Synthegravese par addition-recouvrement 61

Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add [Laroche 1995]

Plusieurs paramegravetres sont agrave choisir avec soin Le premier drsquoentre eux est le type

de fenecirctre agrave utiliser Les diffeacuterentes options qui se preacutesentent agrave nous sont - la fenecirctre rectangulaire qui preacutesente dans son spectre le lobe principal le plus

eacutetroit mais des lobes secondaires non neacutegligeables - la fenecirctre de Hamming au lobe principal un peu plus large mais pour laquelle le

1er lobe secondaire se situe agrave -43 dB - la fenecirctre de Hann (ou cosinus sureacuteleveacute) qui ressemble agrave la preacuteceacutedente avec un

1er lobe secondaire plus fort mais une pente de 18 dB par octave pour les lobes suivants

- les fenecirctres de Blackman-Harris aux lobes secondaires tregraves bas mais au lobe principal plus large

Fenecirctre Lobe 2aire

(dB) Pente

(dBoct) Bande passante

agrave 6 dB (bins) Rectangulaire -13 -6 121 Triangulaire -27 -12 178

Hann -32 -18 200 Hamming -43 -6 181

Blackman-Harris 4 -92 -6 272

Tableau D1 - Caracteacuteristiques des principales fenecirctres drsquoanalyse [Harris 1978] Le meilleur compromis est donc dans notre contexte la fenecirctre de Hann ou celle

de Hamming

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 18: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

Chapitre 1 Ambisonics 12

Figure 17 - Directiviteacutes theacuteoriques (en transparence) et reconstruites (grille) dans le plan horizontal pour des ondes planes horizontales Lrsquoaxe vertical correspond agrave la freacutequence et

les diffeacuterents graphiques aux ordres 0123 et 4 de gauche agrave droite Agrave lrsquoopposeacute la taille reacuteduite du microphone si elle permet de reacuteduire cet aliasing

spatial empecircche la capture des basses freacutequences aux ordres supeacuterieurs (voir 232) La reacutesolution spatiale des basses freacutequences sera donc moindre ce qui implique que en ajoutant lrsquoeffet du repliement en hautes freacutequences les ordres eacuteleveacutes capteacutes avec le micro HOA ne constituent qursquoune plage du spectre assez peu eacutetendue crsquoest cette seule plage qui pourra se targuer drsquoune excellente preacutecision spatiale

13

Chapitre 2

Analyser un contenu HOA

21 Objectifs La reacuteflexion a tout au long du stage eacuteteacute orienteacutee vers deux objectifs le premier

est dans un contexte de transmission de reconstruire une scegravene spatialiseacutee agrave partir du minimum drsquoinformations le deuxiegraveme appliqueacute agrave des ordres plus eacuteleveacutes est drsquoarriver agrave resyntheacutetiser les composantes de lrsquoordre immeacutediatement supeacuterieur

211 Restitution de la spatialisation agrave partir drsquoun downmix mono La premiegravere approche vise donc agrave reconstruire une scegravene spatialiseacutee agrave partir drsquoun

downmix le plus leacuteger possible Un downmix est une reacuteduction du nombre de canaux par fusion lrsquoexemple le plus simple eacutetant le passage drsquoun signal steacutereacuteo agrave un signal mono construit comme la demi-somme des composantes gauche et droite On tente dans cette approche de se restreindre au plus petit nombre de signaux possible un signal eacutetant tregraves coucircteux agrave transmettre en ajoutant parallegravelement agrave ce signal des informations compleacutementaires aidant agrave la reconstruction

Le cas extrecircme est la reacuteduction du flux agrave un signal mono Dans le cas

drsquoambisonics un signal mono comprenant toutes les sources est deacutejagrave preacutesent il srsquoagit de la composante omnidirectionnelle W Il faut donc extraire de la scegravene encodeacutee agrave un certain ordre M des informations permettant la reconstruction drsquoun ordre Mrsquo apregraves transmission Nous verrons que nous allons chercher agrave trouver les positions des sources gracircce agrave une analyse en composantes principales (ou ACP voir Annexe C) effectueacutee par sous-bandes (voir Annexe D)

212 Ameacutelioration de la preacutecision spatiale La deuxiegraveme piste suivie a pour but de reconstituer un ordre ambisonique non

transmis On pourrait qualifier cette approche drsquoupmix ambisonique car elle vise agrave reconstruire un ordre manquant En effet le format ambisonique eacutetant flexible il est bien

Chapitre 2 Analyser un contenu HOA 14

adapteacute agrave la transmission Ainsi si on souhaite transmettre une scegravene encodeacutee agrave lrsquoordre 2 dans le plan horizontal il faudra un canal drsquoun deacutebit minimum (si lrsquoon prend lrsquohypothegravese de pas vouloir compresser les signaux) de 471 Mos Un canal plus petit (par exemple 34 Mos) ne permettra theacuteoriquement de transmettre qursquoun ordre 1 Mais lrsquoanalyse des signaux peut permettre de deacuteterminer les positions des sources agrave partir desquelles on peut syntheacutetiser des composantes du 2nd ordre approchant les composantes drsquoorigine On pourrait mecircme imaginer pouvoir syntheacutetiser un ordre qui nrsquoavait pas eacuteteacute encodeacute agrave lrsquoorigine

Pour cela il est neacutecessaire de deacuteterminer les positions des sources preacutedominantes

dans le champ sonore pour piloter leur encodage spatial aux ordres supeacuterieurs et arriver agrave la synthegravese drsquoune repreacutesentation de reacutesolution spatiale accrue Il srsquoagit dans le mecircme temps drsquoisoler au mieux les signaux associeacutes agrave ces diffeacuterentes sources avant de leur appliquer lrsquoopeacuteration drsquoencodage on se rapproche donc drsquoun problegraveme de seacuteparation de sources

Pour parvenir agrave trouver ces positions deux meacutethodes ont eacuteteacute testeacutees La premiegravere

consiste comme preacuteceacutedemment agrave appliquer en sous-bandes une analyse en composantes principales La seconde implique la formation de directiviteacutes agrave partir des vecteurs propres de la matrice de correacutelation utiliseacutee dans cette analyse

Lrsquoanalyse en composantes principales ou ACP (voir Annexe C) est donc

largement privileacutegieacutee dans nos approches Elle permet en effet tregraves facilement drsquoextraire des informations preacutecises de signaux correacuteleacutes Pour justifier ce choix une autre meacutethode reacutecente a eacutegalement eacuteteacute testeacutee et compareacutee agrave lrsquoACP (voir 11)

22 Principe de lrsquoextraction drsquoinformation spatiale avec une ACP

221 Information spatiale

Nous avons donc tout drsquoabord testeacute lrsquoanalyse en composantes principales sur des

signaux HOA Nous avons choisi dans un premier temps de limiter lrsquoanalyse aux composantes horizontales du premier ordre W X et Y avant de lrsquoeacutetendre agrave la 3egraveme dimension avec Z

Dans un premier test les signaux HOA sont analyseacutes par une ACP dans leur

inteacutegraliteacute LrsquoACP est appliqueacutee sur les signaux X et Y qui contiennent lrsquoinformation spatiale En effet X et Y correspondent aux signaux qui seraient capteacutes par des microphones agrave figure en 8 placeacutes sur lrsquoaxe avant-arriegravere et gauche-droite respectivement

La Figure 21 montre la correacutelation entre X et Y dans le cas drsquoun bruit blanc capteacute

par le microphone ambisonique Les points ne sont pas exactement aligneacutes du fait des artefacts inheacuterents agrave la prise de son (reacuteflexions sur les parois approximations du microphone etc)

22 Principe de lrsquoextraction drsquoinformation spatiale avec une ACP 15

Figure 21 - Y en fonction de X dans le cas drsquoun bruit blanc enregistreacute placeacute agrave 30deg

On remarque que le nuage est eacutetireacute dans la direction de provenance du son indiqueacutee par la flegraveche en pointilleacutes verts

222 Application de lrsquoanalyse en composantes principales La 1egravere composante issue de lrsquoACP appliqueacutee dans le plan (X Y) pointe dans la

direction dans laquelle X et Y ont la plus grande correacutelation Or comme X contient lrsquoinformation placeacutee sur lrsquoaxe avant-arriegravere et Y lrsquoinformation de lrsquoaxe gauche-droite cette direction est directement la direction de la source Par exemple un son situeacute droit devant dans lrsquoaxe (agrave 0deg) aura une composante Y nulle et par conseacutequent les eacutechantillons seront dans le plan tous disposeacutes sur lrsquoaxe horizontal LrsquoACP prendra donc naturellement cet axe comme 1er vecteur propre et il pointe bien vers la position de la source De mecircme un son situeacute agrave 135deg ( π28

3 times rad) aura la proprieacuteteacute Y = -X Les eacutechantillons seront donc placeacutes sur la 2egraveme bissectrice qui fait avec lrsquoaxe Y=0 un angle de 135deg (voir Figure 22)

Figure 22 - Y en fonction de X dans le cas drsquoun son placeacute artificiellement dans la direction

indiqueacutee par la flegraveche en pointilleacutes verts agrave 0deg (agrave gauche) et 135deg (agrave droite)

Chapitre 2 Analyser un contenu HOA 16

Lrsquoanalyse de X et Y ne permet cependant de deacuteterminer lrsquoangle qursquoagrave π pregraves il reste une indeacutetermination (on deacutetermine la direction drsquoun axe qursquoil reste agrave orienter) Pour lever cette ambiguiumlteacute on integravegre W agrave lrsquoanalyse car cette composante pourtant omnidirectionnelle et donc deacutepourvue drsquoinformation spatiale apporte une reacutefeacuterence pour les phases Ainsi notre son placeacute agrave 135deg veacuterifiait (aux eacuteventuels coefficients de normalisation pregraves) Y = -X = W alors qursquoun son placeacute agrave 135 - 180 = -45deg aurait la proprieacuteteacute Y = -X = -W

Pour prendre en compte W dans lrsquoanalyse on peut comparer directement les

phases de ces 3 canaux Algorithmiquement on ramegravene lrsquoangle trouveacute agrave son modulo π2 puis on deacutetermine le vrai cadran par comparaison des phases de W X et Y crsquoest-agrave-dire en comparant le signe des produits W X et W Y Ainsi W X gt 0 signifie que W et X sont en phase et reacuteciproquement (voir Figure 23)

W X lt 0 W Y gt 0

W X gt 0 W Y gt 0

W X lt 0 W Y lt 0

W X gt 0 W Y lt 0

minusπ2

π

π2

0

Figure 23 - Signes de W X et W Y en fonction du cadran On peut eacutegalement inteacutegrer W agrave lrsquoanalyse en appliquant lACP sur le triplet (X Y

W) Le problegraveme drsquoambiguiumlteacute est ainsi reacutesolu la direction rechercheacutee eacutetant celle du vecteur principal dans le demi-espace W gt 0 projeteacutee sur le plan (X Y) Cette meacutethode srsquoavegravere plus robuste et surtout plus geacuteneacuteralisable agrave des ordres plus eacuteleveacutes

Cette analyse permet donc de deacuteterminer la position drsquoune source unique Pour

pouvoir seacuteparer plusieurs sources nous avons appliqueacute lrsquoACP par sous-bandes en supposant que les sources nrsquoont pas des supports freacutequentiels strictement identiques Le principe de cette analyse en sous-bandes est deacuteveloppeacute en Annexe D

23 Meacutethodologie

231 Construction de scegravenes artificielles Pour tester les algorithmes impleacutementeacutes nous avons ducirc creacuteer des scegravenes sonores

spatialiseacutees au format HOA Plusieurs types de scegravenes ont eacuteteacute utiliseacutes de complexiteacutes diffeacuterentes Les premiegraveres ont eacuteteacute des scegravenes virtuelles syntheacutetiseacutees avec Matlab Les premiegraveres scegravenes simplissimes ne comportait qursquoune sinusoiumlde ou un bruit blanc fixe placeacute dans le plan horizontal Puis pour tester lrsquoanalyse par sous-bandes ont eacuteteacute creacuteeacutes des sons polyphoniques composeacutes de 2 sinusoiumldes tout drsquoabord puis de sons complexes (syntheacutetiseacutes par synthegravese FM) dans des gammes freacutequentielles distinctes ou se

23 Meacutethodologie 17

chevauchant Enfin ces sons ont eacuteteacute rendus mobiles en faisant varier leur position dans le temps

Nous avons pu ainsi constater agrave lrsquoaide des sons fixes et de supports freacutequentiels

distincts la preacutecision de lrsquoanalyse et avec les sons mobiles et mecircleacutes sa robustesse Nous nous sommes limiteacutes sous Matlab agrave la geacuteneacuteration de 2 sons simultaneacutes et du 1er ordre et un autre outil Plogue Bidule a eacuteteacute utiliseacute pour composer des scegravenes plus complexes

Bidule est un studio modulaire virtuel ressemblant agrave MAXMSP Des plugins ont

eacuteteacute deacuteveloppeacutes agrave France Teacuteleacutecom pour permettre de manipuler des signaux HOA Ainsi des scegravenes complexes ont pu facilement ecirctre syntheacutetiseacutees agrave des ordres eacuteleveacutes Des scegravenes agrave 3 et 4 sources fixes ou dont 1 source mobile ont eacuteteacute reacutealiseacutees agrave partir de voix deacutemixeacutees placeacutees dans le plan horizontal ou en 3 dimensions

Ces scegravenes eacutetant artificielles elles sont en un sens ideacuteales ne contiennent aucun

signal reacuteverbeacutereacute (effet de salle) ni diffracteacute (par un micro) lrsquoencodage est fait sans artefacts les ondes sont consideacutereacutees comme planes et ont donc une direction bien deacutefinie Si on est ici bien loin de la vraie vie le gros avantage des scegravenes artificielles est qursquoon connaicirct preacuteciseacutement agrave chaque instant la position des sources et qursquoon peut ainsi veacuterifier le reacutesultat de lrsquoanalyse

Figure 24 - Interface graphique du logiciel Bidule avec agrave droite les controcircles des encodeurs

et deacutecodeurs HOA creacuteeacutes agrave France Teacuteleacutecom

Chapitre 2 Analyser un contenu HOA 18

232 Exploitation drsquoenregistrements naturels Une fois des reacutesultats convaincants obtenus avec des scegravenes virtuelles des

enregistrements naturels ont eacuteteacute analyseacutes Ces scegravenes ont eacuteteacute enregistreacutees gracircce au prototype de micro HOA du 4egraveme ordre deacuteveloppeacute agrave France Teacuteleacutecom (voir Figure 12) Ce processus implique des diffeacuterences notables avec un encodage virtuel

Le prototype de microphone contraint en effet agrave quelques compromis pour

optimiser des critegraveres incompatibles La taille du microphone reacutesulte drsquoun compromis entre la preacutecision drsquoestimation des composantes en basses freacutequences qui neacutecessite une taille eacuteleveacutee et la minimisation de lrsquoaliasing spatial qui ne peut ecirctre eacuteviteacute qursquoavec des capsules tregraves proches les unes des autres Leur disposition est eacutegalement irreacuteguliegravere il nrsquoexiste en fait aucune faccedilon de disposer reacuteguliegraverement plus de 20 points sur une sphegravere La configuration qui avait eacuteteacute retenue par les concepteurs [Moreau 2006] est la ldquomoins irreacuteguliegravere possiblerdquo au sens de la preacuteservation de lrsquoorthonormaliteacute des harmoniques spheacuteriques les 32 capsules sont reacuteparties sur une sphegravere de 35 cm de rayon selon un Pentaki-dodeacutecahegravedre polyegravedre semi-reacutegulier dual de lrsquoicosaegravedre tronqueacute (ballon de football)

Ces artefacts sont donc inheacuterents agrave lrsquoutilisation drsquoun reacuteseau de microphones Mais

le monde reacuteel pose eacutegalement des problegravemes deacutelicats La complexiteacute des modes de rayonnement drsquointeraction avec lrsquoenvironnement reacuteclame lrsquointroduction de modegraveles drsquoencodage beaucoup plus complexes que le cas drsquoune onde plane en champ libre et rend lrsquoinformation spatiale moins limpide et univoque au sein de la scegravene encodeacutee (enregistreacutee) en comparaison avec une scegravene virtuelle Les sources ne sont ainsi plus ponctuelles mais eacutetendues elles ne sont plus agrave lrsquoinfini mais agrave une distance finie du microphone (les ondes reccedilues ne sont donc plus planes) En outre chaque source en se reacutefleacutechissant sur les parois et les diffeacuterents objets de la salle creacutee une multitude de sources secondaires Il est enfin souvent difficile de connaicirctre avec preacutecision la position drsquoune source dans lrsquoespace lors drsquoun enregistrement

Des enregistrements en chambre sourde ont eacuteteacute reacutealiseacutes pour se passer des

reacuteflexions de lrsquoenvironnement Afin de connaicirctre avec preacutecision la position de la source un haut-parleur diffusant un bruit blanc nous avons placeacute le microphone sur une table tournante commandeacutee par un plug-in sous Plogue Bidule

233 Visualisations des reacutesultats Lrsquoobservation des reacutesultats a eacuteteacute effectueacutee de plusieurs maniegraveres visuellement et

par lrsquoeacutecoute Les graphiques eacutetant plus commodes crsquoest par cette voie que les premiers essais eacutetaient conclus Plusieurs types de graphiques ont eacuteteacute produits deacutecrivant des paramegravetres diffeacuterents

Les repreacutesentations temps-freacutequence permettent de repreacutesenter une variable agrave 1

dimension sous Matlab Cette voie a eacuteteacute suivie pour visualiser les paramegravetres extraits de chaque sous-bande de chaque fenecirctre notamment les angles lrsquoeacutenergie et la pertinence Malheureusement Matlab ne permet pas de repreacutesenter sur le mecircme graphique une 4egraveme dimension sous la forme drsquoune 2egraveme dimension colorimeacutetrique (on prend geacuteneacuteralement la

23 Meacutethodologie 19

saturation) Cette dimension suppleacutementaire aurait permis de repreacutesenter simultaneacutement les angles et leur pertinence

Figure 25 - Repreacutesentation

et de lrsquoespace col

Pour repreacutesenter s

drsquoabandonner une dimensipouvoir repreacutesenter danrepreacutesenteacutees soit par le niv

Figure 26 - Repreacutesentationdeacutecrite en 332 (en absciss

est repreacutesenteacutee agrave gauc

234 Diffeacuterents modes La visualisation est

indispensable pour veacuterifiesont possibles de ceux-cainsi reconstitueacutee agrave partir d

1 W+Y+02X pour le c

π 0 minusπ

de la table des couleurs dite HSV de Matlab (lineacuteaire agrave gauche) orimeacutetrique HSL (Hue Saturation Luminance agrave droite)

imultaneacutement angles et pertinence il eacutetait donc neacutecessaire on Crsquoest le deacutecoupage freacutequentiel qui a eacuteteacute mis de cocircteacute pour s un plan temps-angles les pertinences Celles-ci sont eau de gris des points soit par leur taille

de la pertinence des angles de la scegravene agrave 4 sources dont 1 mobile e les trames en ordonneacutees les angles en degreacute) La pertinence he par lrsquointensiteacute du bleu et agrave droite par la taille des points

drsquoeacutecoute

un indice preacutecis de reacutesultat mais lrsquoeacutecoute est tout de mecircme r la qualiteacute globale de la synthegravese Plusieurs modes drsquoeacutecoute i lrsquoeacutecoute au casque est la plus aiseacutee Une pseudo-steacutereacuteo est es signaux du 1er ordre1 pour restituer les scegravenes restreintes au

anal gauche et W-Y+02X pour le canal droit

Chapitre 2 Analyser un contenu HOA 20

plan horizontal Pour plus de preacutecision agrave la restitution ou pour des scegravenes en 3D et sans perdre la faciliteacute drsquoune eacutecoute personnelle au casque on peut appliquer des filtres HRTF (Head-Related Transfert Function) pour une reproduction binaurale

Pour appreacutecier pleinement la spatialisation la diffusion sur un systegraveme multi

haut-parleurs est indispensable Deux systegravemes sont installeacutes dans le laboratoire de France Teacuteleacutecom un systegraveme 51 et un systegraveme circulaire de 48 haut-parleurs Ces systegravemes installeacutes dans des studios insonoriseacutes offrent une grande qualiteacute drsquoeacutecoute qui permet de repeacuterer les deacutefauts mecircme minimes de la synthegravese

21

Chapitre 3

Description des analyses

31 Deacutetermination des directions principales

311 Base des algorithmes Nous avons deacuteveloppeacute plusieurs algorithmes reacutepondant aux diffeacuterents objectifs

deacutecrits plus haut Chacun drsquoeux possegravede des particulariteacutes leur permettant de reacutepondre agrave ces objectifs mais on trouve neacuteanmoins une partie commune Ainsi toutes les analyses reposent sur le mecircme modegravele drsquoapplication drsquoune ACP par sous-bandes dont voici le scheacutema geacuteneacuteral

Figure 31 - Scheacutema geacuteneacuteral drsquoanalyse

Les signaux en entreacutee sont les composantes HOA W X et Y dans la plupart des

cas mais peuvent ecirctre eacutegalement des composantes drsquoordre plus eacuteleveacute (voir 11) Sur le fenecirctrage jouent plusieurs paramegravetres comme la taille de la fenecirctre ou encore le pourcentage de recouvrement entre elles Nous avons choisi une fenecirctre en racine de la fenecirctre de Hanning crsquoest-agrave-dire une arche de sinusoiumlde (voir eacutequation (D7) en Annexe D) avec un recouvrement de 50 ce qui veacuterifie le critegravere de reconstruction parfaite (D6) Le filtrage est pour des raisons de rapiditeacute de calcul reacutealiseacute dans le domaine freacutequentiel par une simple multiplication avant de repasser en temporel pour appliquer lrsquoACP

Le banc de filtre utiliseacute est un banc inspireacute des filtres ERB Les filtres ERB

(Equivalent Regular Bandwidth) sont des filtres imitant le comportement de seacuteparation freacutequentielle de lrsquooreille humaine plus preacutecise en basse freacutequence Les filtres utiliseacutes ici ne sont pas directement des filtres ERB le systegraveme nrsquoa pas drsquointeacuterecirct particulier agrave essayer de copier le fonctionnement de lrsquooreille humaine Ces filtres ont eacuteteacute adapteacutes au problegraveme en

Chapitre 3 Description des analyses 22

srsquoassurant en particulier de la finesse des bandes permettant la meilleure discrimination des diffeacuterentes sources crsquoest-agrave-dire autour des fondamentales usuelles (200-1000 Hz) et des harmoniques Les freacutequences aigueumls sont bien discrimineacutees par les filtres ERB (relativement agrave la gamme crsquoest-agrave-dire en eacutechelle logarithmique) le deacutecoupage a donc surtout eacuteteacute densifieacute entre 200 et 800 Hz par rapport aux bandes ERB

Figure 32 - Filtres utiliseacutes inspireacutes des filtres ERB repreacutesenteacutes lineacuteairement (en haut)

et sur une eacutechelle logarithmique (en bas) Les reacutesultats de lrsquoACP sont donc avec cette meacutethode les angles des sources

trouveacutees dans chaque sous-bande ainsi que pour chacun drsquoeux un critegravere de pertinence calculeacute en fonction de lrsquoeacutenergie de la sous-bande dans une fenecirctre donneacutee et de la norme relative de la premiegravere composante de lrsquoACP (voir 342) Les autres vecteurs propres peuvent ecirctre utiliseacutes pour extraire davantage drsquoinformations et mecircme des signaux deacutecorreacuteleacutes comme on le verra au paragraphe 35 mais lrsquoanalyse semble alors moins robuste Srsquoen tenir aux informations donneacutees par la composante principale est un gage de pertinence suppleacutementaire

Ces reacutesultats concernent donc les sources preacutedominantes ou principales mais

laissent de cocircteacute un certain nombre drsquoeacuteveacutenements sonores agrave consideacuterer

312 Traitement du champ reacutesiduel Le champ reacutesiduel regroupe en quelque sorte tout ce qui nrsquoest pas une source

principale Il inclut donc les reacuteflexions et la reacuteverbeacuteration de la piegravece mais aussi les bruits parasites occasionnels ou continus (ventilation etc) Ces bruits ou eacutechos nrsquoont pas de direction de provenance assez distincte pour pouvoir ecirctre mesureacutee preacuteciseacutement Le champ reacutesiduel est eacutegalement composeacute du champ diffus La notion de champ diffus est couramment utiliseacutee mais rarement preacuteciseacutement deacutefinie On trouve dans la litteacuterature des deacutefinitions diverses lrsquoune drsquoelles preacutecisant qursquoil serait un ensemble drsquoeacuteveacutenements sonores proches en temps et provenant de directions eacutequiprobables

Les algorithmes proposeacutes traitent correctement les sources principales mais le

champ reacutesiduel est laisseacute de cocircteacute Il est pourtant tregraves important pour lrsquoimmersion du sujet dans la scegravene une scegravene deacutepourvue de champ sonore sera perccedilue comme artificielle ce qui nuit agrave la perception drsquoespace On sera par exemple davantage conscients drsquoecirctre au centre drsquoun dispositif expeacuterimental et moins sensibles aux variations de profondeur et de perspectives

31 Deacutetermination des directions principales 23

Neacuteanmoins il faut relativiser lrsquoimportance de ce champ reacutesiduel il nrsquoest pas utile pour la localisation des sources principales et ne caracteacuterise que lrsquoenvironnement drsquoenregistrement En outre le champ reacutesiduel qui provient souvent de directions floues et notre but nrsquoest pas de les preacuteciser artificiellement Il nrsquoest degraves lors geacuteneacuteralement pas utile de le transmettre aux ordres eacuteleveacutes

Ainsi certains auteurs [Merimaa and Pulkki 2005] ont choisi de recreacuteer lors drsquoune

synthegravese un champ diffus artificiel baseacute sur une reacuteponse impulsionnelle de salle calculeacutee agrave lrsquoavance Lrsquoavantage est une immersion un enveloppement complets lrsquoinconveacutenient est que lrsquoambiance ainsi recreacuteeacutee est fictive et arbitraire et en outre complegravetement indeacutependante de lrsquoambiance initiale en laissant notamment de cocircteacute les sources secondaires

Nous proposons dans nos algorithmes de ne pas syntheacutetiser le champ diffus aux

ordres eacuteleveacutes mais de nous contenter de la description du champ reacutesiduel fourni par les ordres transmis (1er ordre dans nos exemples) Nous nous limiterons donc agrave preacuteciser par la synthegravese des ordres supeacuterieurs les positions des sources principales

32 Extension agrave la 3D Nous avons pour le moment eacutevoqueacute le cas de repreacutesentations de champ sonore agrave

2 dimensions crsquoest-agrave-dire issus de sources placeacutees dans le plan horizontal Mais certaines repreacutesentations comportent eacutegalement des composantes verticales Pour analyser ces signaux en 3 dimensions il faut inteacutegrer la composante Z On effectue alors simplement une ACP sur X Y Z et W Le 1er vecteur propre sera alors bien dirigeacute dans lrsquoespace (X Y Z) dans la direction de la source lrsquoambiguiumlteacute de frac12 espace eacutetant leveacutee par W

Lrsquoalgorithme est alors complegravetement similaire agrave celui analysant des signaux en 2

dimensions Des tests ont eacuteteacute reacutealiseacutes agrave partir de signaux syntheacutetiques pour lesquels les positions des sources eacutetaient connues pour des raisons pratiques aucune scegravene sonore reacuteelle en 3 dimensions nrsquoa pu ecirctre enregistreacutee avec une connaissance initiale preacutecise des positions des sources

Les visualisations et les eacutecoutes eacutetant plus deacutelicates en 3D et lrsquoextension agrave la 3D

eacutetant immeacutediate nous avons donc concentreacute nos efforts sur lrsquoanalyse de scegravenes en 2D En outre en lrsquoabsence de dispositif spheacuterique ou heacutemispheacuterique de haut-parleurs le seul moyen agrave notre disposition pour eacutecouter une scegravene 3D est lrsquoeacutecoute binaurale crsquoest-agrave-dire au casque avec des fonctions de transfert de tecircte (HRTF) relativement bien adapteacutees agrave lrsquoauditeur

33 Analyse aux ordres supeacuterieurs

331 Description Afin drsquoameacuteliorer la preacutecision de lrsquoanalyse nous avons essayeacute drsquoappliquer une ACP

sur des signaux ambisoniques drsquoordre plus eacuteleveacute (signaux HOA) dans le plan horizontal Deux meacutethodes ont eacuteteacute essayeacutees

Chapitre 3 Description des analyses 24

La premiegravere consiste agrave appliquer une ACP agrave 3 dimensions successivement sur les composantes X Y W (ordre 1 et 0) puis U V W (ordre 2 et 0) et ainsi de suite crsquoest-agrave-dire (en utilisant la notation geacuteneacuterale) sur les composantes et W (ordre m et 0) Les reacutesultats de ces analyses (les directions des 1

)1(0mY )1(

0minus

mYegraveres composantes) sont ensuite regroupeacutees

lrsquoanalyse de lrsquoordre 1 fournissant des reacutesultats modulo 2π lrsquoanalyse de lrsquoordre 2 des reacutesultats plus preacutecis mais modulo π et plus geacuteneacuteralement lrsquoanalyse de lrsquoordre m permettant de trouver des angles modulo mπ2

La limite de cette approche se perccediloit lors de la fusion des reacutesultats les angles

trouveacutes agrave un ordre eacuteleveacute sont plus preacutecis dans des bandes de freacutequences eacuteleveacutees mais la limitation theacuteorique de ces signaux HOA dans les basses freacutequences font que lrsquoanalyse de lrsquoordre 1 reste la plus pertinente dans les premiegraveres bandes Parvenir agrave deacuteterminer agrave partir de quelle freacutequence on peut faire davantage confiance agrave lrsquoordre n+1 qursquoagrave lrsquoordre n nrsquoest pas aiseacute et cette limite provoque des aberrations dans les angles trouveacutes Une source unique pourra par exemple ecirctre interpreacuteteacutee par lrsquoalgorithme des k-moyennes (voir 341) comme 2 sources une en hautes freacutequences et une en basses freacutequences les 2 eacutetant trouveacutes agrave 2 angles diffeacuterents chaque angle relevant drsquoun ordre analyseacute diffeacuterent

La deuxiegraveme meacutethode consiste pour eacuteviter cette fusion des reacutesultats agrave effectuer

une seule ACP sur les composantes U V X Y et W Cette meacutethode souffre drsquoune tregraves grande complexiteacute algorithmique pour une ameacutelioration de la preacutecision peu sensible En effet si cette meacutethode permet drsquoobtenir des reacutesultats plus preacutecis dans certaines bandes de freacutequences elle est sensible aux deacutefauts et les limites des ordres supeacuterieurs (lrsquoabsence de basses freacutequences entre autres) perturbent lrsquoanalyse en composantes principales

332 Illustration sur une scegravene virtuelle La scegravene preacutesenteacutee ici est une scegravene artificielle crsquoest-agrave-dire composeacutee de sons

placeacutes artificiellement agrave diverses positions Elle a une dureacutee totale de 135 s et comporte 4 sources positionneacutees dans le plan horizontal une guitare placeacutee agrave 45deg une basse agrave -70deg une batterie agrave 110deg et une voix feacuteminine qui effectue continucircment un tour complet dans le sens indirect en partant de lrsquoarriegravere (elle passe donc successivement par les positions 180deg 90deg 0deg -90deg et -180deg) La guitare et la batterie srsquoarrecirctent peu avant la fin de la scegravene (12egraveme seconde au 910egraveme du son approximativement)

Figure 33 - Position des sources de la scegravene de test agrave 4 sources dont 1 mobile

33 Analyse aux ordres supeacuterieurs 25

Figure 34 - Angles drsquoune scegravene virtuelle ayant 1 source mobile et 3 sources fixes

(deacutecrite en 332) trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 Pour chaque trame (en abscisse) 20 angles (1 par bande en ordonneacutee et en degreacutes) sont

reporteacutes le diamegravetre du point correspondant agrave un critegravere de pertinence (voir 342)

Figure 35 - Angles de la mecircme scegravene trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 2 Reacutesultats modulo π reacutepliqueacutes pour faciliter la comparaison avec la figure preacuteceacutedente On remarque que les lignes sont plus nettes qursquoil y a moins drsquoangles aberrants et que

les angles corrects sont plus marqueacutes (ils sont deacutetermineacutes comme plus pertinent)

Chapitre 3 Description des analyses 26

20

0

20

0

20

0

Figure 36 - Angles drsquoune scegravene reacuteelle constitueacutee drsquoun bruit parcourant le cercle trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 (en haut) 0 et 2 (au milieu) et 0 et 4 (en bas) Le

numeacutero de trame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On retrouve qursquoune limitation des ordres HOA supeacuterieurs issus drsquoun enregistrement

microphonique est la restitution des basses freacutequences

34 Traitement des donneacutees

341 Algorithme des k-moyennes Agrave lrsquoissue de lrsquoanalyse en composantes principales on reacutecupegravere avec la premiegravere

des meacutethodes exposeacutees au chapitre preacuteceacutedent des angles correspondants aux positions des sources preacutedominantes agrave raison drsquoune valeur par fenecirctre et par bande de freacutequence Il faut agrave partir de ces donneacutees parvenir agrave isoler les sources crsquoest-agrave-dire agrave deacuteterminer quels sont les angles pertinents et examiner quels sont ceux qui agrave une certaine toleacuterance pregraves sont preacutesents dans plusieurs bandes de freacutequence etou plusieurs fenecirctres temporelles

Pour pouvoir exploiter ces donneacutees spatiales nous avons utiliseacute lrsquoalgorithme des

k-moyennes (ou k-means) [MacQueen 1967] sur les angles pondeacutereacutes par des critegraveres de pertinence Cet algorithme fonctionne de la maniegravere suivante

Initialisation choix de k barycentres (les k moyennes) Reacutepeacuteter Associer chaque eacuteleacutement au barycentre le plus proche Recalculer les positions des barycentres Jusqursquoagrave ce que les barycentres soient stables (ou au bout de t iteacuterations)

34 Traitement des donneacutees 27

Lrsquoavantage de cet algorithme est drsquoecirctre peu glouton puisqursquoil converge en O(tkn) ougrave t est le nombre drsquoiteacuterations k le nombre de centres et n le nombre de points (geacuteneacuteralement on a t k ltlt n) Par contre il est plutocirct sensible aux exceptions un point aberrant tirera agrave lui la moyenne auquel il aura eacuteteacute associeacute Il faut donc faire en sorte que ces points erroneacutes soient aussi rares que possibles Crsquoest pourquoi les angles traiteacutes sont pondeacutereacutes par 2 critegraveres de pertinence

La pondeacuteration des angles fournis en entreacutee de lrsquoalgorithme des k-moyennes se

fait de maniegravere simple en reacutepeacutetant ces angles un nombre de fois (de 0 agrave 10) proportionnel agrave un critegravere Ainsi un angle tregraves pertinent sera dupliqueacute et sera preacutesent plusieurs fois dans la liste des donneacutees traiteacutees attirant ainsi agrave lui la position du barycentre le plus proche Au contraire un angle trop peu pertinent ne sera pas reacutepeacuteteacute voir mecircme sera enleveacute de la liste

Le seul problegraveme de cet algorithme est qursquoil neacutecessite la connaissance de k crsquoest-

agrave-dire du nombre de sources qui composent la scegravene Une deacutetermination automatique se basant sur la reacutepeacutetition de lrsquoalgorithme avec un k croissant a eacuteteacute testeacutee mais le critegravere drsquoarrecirct reposant sur la dispersion des points autour des barycentres nrsquoeacutetant pas assez robuste cette meacutethode a provisoirement eacuteteacute mise de cocircteacute

342 Critegraveres de pertinence Les 2 critegraveres de pondeacuteration choisis sont lrsquoeacutenergie de la sous-bande dans la

fenecirctre donneacutee et le rapport de la norme de la 1egravere composante (la composante principale) de lrsquoACP sur la somme des normes de toutes les composantes

En effet un angle est trouveacute dans chaque sous-bande de chaque fenecirctre mecircme si

le signal y est tregraves faible Lrsquoangle trouveacute sera alors tregraves peu repreacutesentatif de la direction drsquoune source puisqursquoil indiquera la direction drsquoun bruit Lrsquoeacutenergie doit donc ecirctre prise en compte pour ne conserver que les angles trouveacutes dans des bandes comportant un signal suffisant

La norme relative de la 1egravere composante de lrsquoACP rend quant agrave elle compte du

poids relatif de cette composante par rapport aux autres Ainsi si 2 sources sont preacutesentes dans une bande donneacutee la 1egravere composante sera agrave peine plus marqueacutee que la 2egraveme Ceci peut ecirctre calculeacute en prenant simplement le rapport de la 1egravere valeur propre sur la somme des valeurs propres

On peut noter que la norme de la 1egravere composante ne se deacutetache nettement que

lorsqursquoun son est preacutesent dans la bande consideacutereacutee On peut alors se demander si lrsquoeacutenergie doit ecirctre prise en compte ou si lrsquoinformation qursquoelle contient nrsquoest comprise dans le 2egraveme critegravere En fait la norme relative est un critegravere tregraves bruiteacute et consideacuterer lrsquoeacutenergie par ailleurs permet de nuancer ces artefacts et constitue une base solide de pondeacuteration

Chapitre 3 Description des analyses 28

80

40

0

Figure 37 - Repreacutesentation temps-freacutequence des angles du son deacutecrit en 332 Letrame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On peut donc v

par trame et par bande chacun eacutetant le reacutesultat drsquoune ACP crsquoest-agrave-dire la 1egravere

Figure 38 - Eacutenergie de ce mecircme son On peut voir une basse en notes tenues uneet une batterie qui produit des sons secs dans un spectre plus aigu

80

40

0

80

40

0

Figure 39 - Norme relative de la 1egravere composante de ce mecircme son Les impacts de batterie (dans lrsquoaigu) ressortent davantage

π 0 minusπ

numeacutero de oir un angle direction

voix aiguumle

34 Traitement des donneacutees 29

Figure 310 - Pondeacuteration appliqueacutee agrave lrsquoentreacutee des k-moyennes calculeacutee ici comme

le simple produit de lrsquoeacutenergie et de la norme relative

80

40

0

343 Lissages

Pour faire face au bruit ineacutevitable dans les reacutesultats il faut lisser les donneacutees Ces

lissages temporels correspondent agrave des hypothegraveses de stabiliteacute des sources qui sont supposeacutees ecirctre fixes ou mobiles relativement lentement (dans une mesure agrave parameacutetrer)

Un premier lissage peut ecirctre opeacutereacute avant le traitement par lrsquoalgorithme des k-

moyennes Le filtre choisi est un filtre meacutedian de maniegravere agrave eacuteliminer les points aberrants tout en conservant les vraies valeurs des points coheacuterents Ce lissage est appliqueacute sur chaque sous-bande aux angles et ne tient pas compte des critegraveres de pertinence Il est donc utiliseacute avec parcimonie et peut mecircme ecirctre eacuteviteacute en reacuteglant de maniegravere adeacutequate les critegraveres de pondeacuteration agrave lrsquoentreacutee des k-moyennes

Le deuxiegraveme lissage srsquoeffectue agrave lrsquoentreacutee des k-moyennes en mecircme temps que les

critegraveres de pondeacuteration Il consiste agrave appliquer les k-moyennes non pas sur une fenecirctre donneacutee mais sur plusieurs fenecirctres conseacutecutives anteacuterieures et posteacuterieures en donnant plus de poids agrave la fenecirctre courante Dans la pratique les poids donneacutes aux diffeacuterentes fenecirctres sont eacutetablis par une gaussienne centreacutee sur la fenecirctre courante et de largeur agrave deacuteterminer (en fonction notamment de la dureacutee drsquoune fenecirctre et du type de scegravene analyseacute)

35 Exploitation de toutes les composantes de lrsquoACP Les analyses preacutesenteacutees preacuteceacutedemment ont toutes exploiteacute uniquement la

composante principale extraite par lrsquoACP Or cette analyse fournit des informations plus complegravetes par lrsquointermeacutediaire des autres composantes dont on peut tirer parti pour isoler plusieurs sources au sein drsquoune mecircme bande Cette approche est toujours en deacuteveloppement dans ce stage et nrsquoa pas encore donneacute pleine mesure des reacutesultats qursquoelle laisse entrevoir

Les composantes de lrsquoACP indiquent des directions qui correspondent aux

diffeacuterentes sources composant la scegravene sonore Les vecteurs propres de la matrice de correacutelation donnent ainsi les combinaisons lineacuteaires des signaux HOA permettant de

Chapitre 3 Description des analyses 30

seacuteparer de la meilleure faccedilon possible ces sons Ces directions peuvent ecirctre alors utiliseacutees pour former des directiviteacutes isolant au mieux ces sources

aBS sdot= (31)

ougrave la matrice a contient les vecteurs propres de la matrice de correacutelation (voir Annexe C) le vecteur B contient les signaux HOA et le vecteur S contient les sources extraites

⎟⎟⎟

⎜⎜⎜

=⎟⎟⎟

⎜⎜⎜

⎛=

⎥⎥⎥

⎢⎢⎢

⎟⎟⎟

⎜⎜⎜

⎟⎟⎟

⎜⎜⎜

⎛=

10

1001

1

ML

N

B

BB

S

SSuua MML (32)

On obtient ainsi des lobes drsquoautant plus eacutetroits que lrsquoordre est eacuteleveacute chacun

dirigeacute vers une source et permettant de lrsquoisoler le plus possible des contributions des autres sources La Figure 311 preacutesente les directiviteacutes ainsi trouveacutees par une ACP en pleine bande Une analyse en sous-bande permet une plus grande distinction des sources mais une seacuteparation diffeacuterente entre les bandes est dangereuse car elle risque de dissocier spatialement plusieurs parties drsquoun mecircme son

Figure 311 - Directiviteacutes seacuteparant ideacutealement 4 sources placeacutees agrave 17 73 195 et -58deg

pour une scegravene virtuelle encodeacutee agrave lrsquoordre 4 Ce principe se heurte neacuteanmoins aux limites de seacuteparation lieacutees agrave lrsquoordre

drsquoencodage en effet 2 sources ne pourront pas ecirctre seacutepareacutees si elles sont trop proches comme en teacutemoigne la largeur des lobes principaux Les lobes secondaires traduisent eacutegalement un meacutelange des sources isoleacutees La figure ci-dessus montre ainsi que la source placeacutee agrave 17deg (en vert) sera preacutesente de maniegravere non neacutegligeable dans le signal senseacute contenir la source placeacutee agrave -58deg (en bleu) en raison du lobe secondaire bleu important

31

Chapitre 4

Reacutesultats et applications

41 Illustration et critique des reacutesultats obtenus

411 Avant-propos Sans notification particuliegravere les reacutesultats preacutesenteacutes ont eacuteteacute obtenus avec un pas

de 50 ms une analyse en 80 bandes avec une FFT sur 8192 points Une taille de FTT plus grande et un plus grand nombre de bande augmente la qualiteacute de lrsquoanalyse un pas plus petit ameacuteliore sa preacutecision temporelle mais les reacutesultats sont moins fiables et un lissage plus important srsquoimpose alors Ces paramegravetres ont eacuteteacute reacutegleacutes apregraves de multiples essais sur des scegravenes diverses

Les reacutesultats sont preacutesenteacutes ici uniquement sous la forme de graphiques nous ne

pouvons donc repreacutesenter que les angles trouveacutes agrave la sortie de lrsquoalgorithme des k-moyennes

412 Scegravene 2D artificielle agrave 4 sources fixes La premiegravere scegravene est une scegravene artificielle composeacutee de 4 sons fixes placeacutes agrave -70

-10 45 et 110deg Ces sons (une basse une voix une guitare et une batterie) ont eacuteteacute choisis pour leur varieacuteteacute spectrale et leur varieacuteteacute drsquoattaque Elle a en outre le meacuterite drsquoecirctre reacutealiste et de constituer une seacutequence musicale (chaque son nrsquoest pas une meacutelodie indeacutependante)

On voit sur la Figure 41 ci-dessous que les angles trouveacutes sont proches des

angles theacuteoriques Lrsquoun des sons (agrave 45deg) est quasiment nul avant la 100egraveme trame sa position est alors moins facile agrave deacuteterminer plus preacuteciseacutement une position approximative est trouveacutee et correspondrait exactement agrave la position du bruit (45deg) si lrsquoincertitude de mesure tregraves grande pour un son aussi faible ne rendait la deacutetermination si ardue On mesure un eacutecart-type de 22deg sur cet exemple (en excluant le deacutebut du son agrave 45deg)

Chapitre 4 Reacutesultats et applications 32

Figure 41 - Angles theacuteoriques (en pointilleacutes rouge) et calculeacutes (en trait bleu) pour une scegravene

constitueacutee de 4 sons fixes longue de 11s

413 Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile

Figure 42 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) de la scegravene agrave

4 sources dont 1 mobile deacutecrite en 332 Cette scegravene est deacutecrite en 332 On a ici demandeacute aux k-moyennes de renvoyer 5 barycentres par trame alors que

seules 4 sources eacutetaient preacutesentes dans le but de se garantir une marge vis-agrave-vis des erreurs de deacutetection Cette 5egraveme direction nrsquoest pas du tout gecircnante elle indique une direction qui ne contient pas de source et crsquoest donc un son tregraves faible qui est ainsi pointeacute Apregraves une eacuteventuelle extraction le signal ne sera donc pas du tout gecircnant

41 Illustration et critique des reacutesultats obtenus 33

On peut remarquer que quand le son mobile se rapproche drsquoun son fixe la deacutetection est moins bonne il y a une fusion entre les 2 sons Mais encore une fois lors de lrsquoextraction lrsquoisolation drsquoun des sons englobera lrsquoautre son ce qui ne posera pas de problegraveme pour les objectifs fixeacutes aucune source nrsquoeacutetant oublieacutee En effet la seacuteparation de sources nrsquoest pas un objectif ici mais un moyen pour preacuteciser les positions des sources ce qui sera fait correctement mecircme si 2 sources sont pointeacutees par 1 seule direction

414 Scegravene 3D artificielle agrave une source et bruit de fond

La scegravene dont la position drsquoune source a eacuteteacute extraite ci-dessous est une scegravene virtuelle en 3D constitueacute drsquoun son (une voix) qursquoon a fait se deacuteplacer par paliers tout drsquoabord vers le haut de 0deg agrave 45deg et vers la gauche de 0deg agrave 90deg puis redescendre jusqursquoagrave 35deg en continuant son cheminement vers la gauche jusqursquoagrave 120deg et enfin finir la descente de 35deg agrave 0deg en la laissant agrave 120deg Agrave cette source a eacuteteacute superposeacutee une ambiance spatialiseacutee de hall drsquoaeacuteroport initialement enregistreacutee en 2D (au format 51) mais transformeacutee pour contenir des composantes verticales Cette ambiance deacutecorreleacutee de la source avait pour but de tester la robustesse de lrsquoanalyse Elle eacutetait agrave 15 dB en-dessous du niveau de la voix

Figure 43 - Azimut et eacuteleacutevation theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun

son en 3D artificiel de 9s placeacute dans une ambiance bruyante On remarque que lrsquoanalyse est tregraves correcte Il nrsquoy a pas drsquoeacutecart important entre

les angles theacuteoriques et ceux calculeacutes On note toutefois que le lissage agrave lrsquoentreacutee des k-moyennes a pour effet de gommer les creacuteneaux et drsquoaplatir quelque peu la courbe drsquoeacuteleacutevation ceci nrsquoest pas vraiment gecircnant car de tels sauts dans la position drsquoune source ne sont pas du tout reacutealistes (ils peuvent caracteacuteriser des bruits de pas mais de tels impacts sont courts et on peut srsquoattendre agrave ce que la courbe suive leur position aux instants ougrave ils sont eacutemis)

Chapitre 4 Reacutesultats et applications 34

415 Scegravene 2D naturelle agrave une source Les scegravenes naturelles sont on lrsquoa vu plus deacutelicates agrave exploiter car on ne peut pas

garantir la preacutecision de la position theacuteorique agrave retrouver par le calcul et on ne peut donc pas calculer la preacutecision de lrsquoanalyse Seuls les enregistrements utilisant la table tournante (voir 232) permettent une mesure preacutecise de la position de lrsquoangle Ces enregistrements on pu confirmer la validiteacute de lrsquoanalyse pour des scegravenes reacuteelles on trouve ici un eacutecart-type de 25deg

Figure 44 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun bruit blanc

tournant autour du micro enregistreacute en chambre sourde Cette analyse a eacuteteacute reacutealiseacutee par sous-bandes mais sur une eacutetendue freacutequentielle

plus reacuteduite puisqursquoon srsquoest limiteacute aux possibiliteacutes offertes par le microphone La scegravene a donc eacuteteacute analyseacutee de 200 agrave 10 000 Hz

42 Quelques applications

421 Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre 2 agrave partir de lrsquoordre 1

Une fois les positions des sources connues la porte est ouverte agrave de nombreuses

applications La connaissance de ces positions permet en effet de syntheacutetiser artificiellement des composantes manquantes ou non transmises La premiegravere synthegravese deacuteveloppeacutee est celle des signaux U et V composant la partie horizontale de lrsquoordre 2 agrave partir de lrsquoordre 1 et de paramegravetres issus de lrsquoanalyse pour une source en 2D (des angles dans de cas)

42 Quelques applications 35

Figure 45 - Principe de lrsquoameacutelioration de la preacutecision spatiale

Le principe de la synthegravese est drsquoextraire les sources originales agrave partir de W X Y

et des angles (un angle par trame et par sous-bande) Ceci peut ecirctre reacutealiseacute de maniegravere approcheacutee en deacutecodant lrsquoordre 1 dans les directions des sources Ce deacutecodage revient agrave calculer les signaux qui devraient alimenter des haut-parleurs qui seraient placeacutes agrave ces positions dans le cas drsquoune restitution (voir 122) crsquoest-agrave-dire agrave former des directiviteacutes dans les directions des sources Dans la plupart des cas ce deacutecodage qui fait intervenir une pseudo-inversion de Moore-Penrose (111) est imparfait les sources se retrouvant leacutegegraverement meacutelangeacutees On peut comparer cette seacuteparation agrave celle que ferait un ensemble de microphones agrave directiviteacute hypercardioiumlde coiumlncidents

Figure 46 - Directiviteacutes eacutequivalentes agrave la seacuteparation de 4 sources agrave lrsquoordre 1 Ces sources seacutepareacutees vont ensuite constituer toujours placeacutees aux angles

deacutetermineacutes agrave lrsquoanalyse une scegravene virtuelle qursquoon va encoder agrave lrsquoordre 2 De cet encodage on ne conservera que les signaux manquants dans notre exemple les signaux du 2nd ordre U et V Ainsi la scegravene spatialiseacutee sera au final constitueacutee des signaux W X et Y drsquoorigine (transmis) et des signaux U et V syntheacutetiseacutes

Chapitre 4 Reacutesultats et applications 36

422 Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave partir de W Reconstruire une scegravene sonore spatialiseacutee agrave partir drsquoun unique canal mono est

alors difficile et le reacutesultat nrsquoest appreacuteciable que pour des scegravenes simples Il faut pour cela que les diffeacuterentes sources composant cette scegravene aient des supports spectraux aussi distincts que possible Les diffeacuterentes sous-bandes sont alors placeacutees agrave un certain angle transmis en parallegravele et crsquoest cette scegravene reconstitueacutee qui va ecirctre encodeacutee au 1er ordre de maniegravere agrave recreacuteer les signaux X et Y

Figure 47 - Principe de la restitution de lrsquoordre 1 agrave partir du signal mono W Ce scheacutema rappelle une meacutethode deacuteveloppeacutee dans le cas steacutereacuteo appeleacutee BCC

(Binaural Cue Coding) [Faller and Baumgarte 2002] Le principe est drsquoextraire et coder des informations permettant la reconstruction binaurale drsquoun signal agrave savoir les diffeacuterences interaurales drsquointensiteacute et de temps (Interaural LevelTime Difference ILD et ITD) qui correspondent dans le cas drsquoune restitution sur un casque aux diffeacuterences drsquointensiteacute et de temps inter-canal (Inter-Channel LevelTime Difference ICLD et ICTD) qui sont mesureacutees agrave partir drsquoune analyse en sous-bandes Les auteurs y ont plus reacutecemment associeacute un indice de correacutelation interaurale mesureacute agrave partir de la correacutelation inter-canal (ICC) afin de caracteacuteriser la preacutecision spatiale (la ldquolargeurrdquo drsquoune source)

Figure 48 - Scheacutema de principe de la meacutethode BCC [Faller and Baumgarte 2003]

On observe en pratique des deacutefauts lieacutes agrave la brutaliteacute de la proceacutedure une sous-

bande ne peut ecirctre que placeacutee agrave la position indiqueacutee et ne peut pas rester floue diffuse ou encore ecirctre placeacutee agrave plusieurs endroits Pour y remeacutedier nous avons ajouteacute 2 traitements agrave la synthegravese Tour drsquoabord nous avons appliqueacute un leacuteger lissage soulageant les effets deacutesagreacuteables dus au saut du contenu drsquoune sous-bande drsquoun endroit agrave un autre entre de 2 fenecirctres conseacutecutives Les positions varient alors de faccedilon plus souple au sein drsquoune mecircme sous-bande traduisant une hypothegravese de continuiteacute spatiale (pas de deacuteplacement brusque) La contrepartie est que cette hypothegravese est lieacutee agrave une hypothegravese de continuiteacute spectrale

42 Quelques applications 37

La 2egraveme ameacutelioration concerne le positionnement des sources En incluant dans la transmission un critegravere de pertinence on peut savoir srsquoil est raisonnable de placer une sous-bande agrave un angle preacutecis ou bien si lrsquoanalyse eacutetait flou agrave son sujet auquel cas un positionnement impreacutecis serait preacutefeacuterable Le paramegravetre choisi est une combinaison des critegraveres eacutevoqueacutes en 342 il nous permet de placer la sous-bande de maniegravere plus ou moins prononceacutee

43 Comparaison avec une meacutethode existante Certains auteurs ont deacutejagrave essayeacute drsquoanalyser un contenu ambisonique pour

retrouver les positions des sources Ville Pulkki a ainsi deacutecrit dans [Pulkki and Faller 2006] une meacutethode drsquoanalyse du B-format baseacutee sur lrsquoeacutetude des amplitudes des signaux W X Y et Z

Figure 49 - X et Y dans le cas drsquoune sinusoiumlde placeacutee agrave 15deg (agrave gauche) et 120deg (agrave droite)

Les figures ci-dessus montrent les relations drsquoamplitudes (algeacutebriques) qui relient

X et Y agrave lrsquoangle de la source On voit que lrsquoanalyse de ces amplitudes respectives permet de retrouver la position de la source en effet on a pour une source unique les relations de lrsquoeacutequation (11) rappeleacutee ici

⎪⎪

⎪⎪

=

=

=

=

δ

δθ

δθ

sin2

cossin2

coscos2

SZ

SY

SX

SW

(41)

On peut donc theacuteoriquement retrouver les valeurs de θ et δ par relations

trigonomeacutetriques Ainsi on a

⎪⎪⎩

⎪⎪⎨

=

=

2)sin(

)tan(

WZ

XY

δ

θ (42)

Chapitre 4 Reacutesultats et applications 38

On peut donc trouver les angles θ et δ agrave π pregraves Pour lever lrsquoambiguiumlteacute une eacutetude de signe est neacutecessaire Mais dans le cas de θ le signe de X et de Y agrave δ fixeacute deacutepend aussi bien de θ que S Il faut srsquointeacuteresser aux signes de θcos et θsin crsquoest-agrave-dire

aux signes de WX et

WY Dans la pratique on srsquointeacuteressera aux signes de et

pour se preacutevenir des divisions par zeacuteros

XW sdot YW sdot

XW sdot et YW sdot sont proportionnels agrave toujours positif

2S

Les auteurs deacutecrivent eacutegalement dans leur article un critegravere appeleacute diffuseness qui

peut ecirctre compareacute agrave un critegravere de pertinence inverseacute Ce paramegravetre calculeacute par agrave 1 - R ougrave R est un rapport de normes est tregraves proche du critegravere de norme relative deacutecrit en 342 Il peut donc ecirctre utiliseacute de la mecircme faccedilon et permettre ainsi une pleine comparaison

Cette meacutethode a eacuteteacute impleacutementeacutee pour pouvoir ecirctre compareacutee avec la meacutethode

par ACP Tous les paramegravetres ont scrupuleusement eacuteteacute gardeacutes identiques et plusieurs reacuteglages ont eacuteteacute testeacutes Les courbes ci-dessous preacutesentent les reacutesultats des analyses de la scegravene deacutecrite en 332 avec un pas de 50ms un overlap de 50 un NFFT de 2048 et 40 bandes freacutequentielles Nous avons repreacutesenteacute tous les angles trouveacutes crsquoest-agrave-dire un par bande et par trame pour srsquoaffranchir de la seacutelection des k-moyennes

π

0

minusπ

Figure 410 - Angles trouveacutes par lrsquoalgorithme de [Pulkki and Faller 2006] Le diamegravetre du point correspondant agrave la pertinence

43 Comparaison avec une meacutethode existante 39

π

0

minusπ

Figure 411 - Angles trouveacutes par une ACP pour la mecircme scegravene On remarque que les points excentriques sont moins nombreux et plus rarement trouveacutes comme pertinents

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee

441 Position du problegraveme

Une application directe de ces analyses a eacuteteacute deacuteveloppeacutee pour la confeacuterence audio

spatialiseacutee La confeacuterence audio utilise en effet la spatialisation pour permettre une meilleure seacuteparation par lrsquooreille des diffeacuterents locuteurs Ainsi si plusieurs personnes parlent en mecircme temps il sera tregraves difficile de comprendre chacun individuellement si ces voix sont restitueacutees en mono mais on pourra focaliser lrsquoattention sur chacune drsquoentre elles si elles sont seacutepareacutees spatialement (crsquoest lrsquoeffet cocktail party [Cherry 1953])

Lrsquoobjectif eacutetait de veacuterifier qursquoil eacutetait possible de conserver la spatialisation drsquoune

confeacuterence en nrsquoayant transmis qursquoun downmix mono des signaux Ce concept semble se rapprocher de celui deacutecrit en 422 mais une diffeacuterence fondamentale les seacutepare la confeacuterence audio spatialiseacutee nrsquoest pas codeacutee au format ambisonic mais les signaux traiteacutes sont directement les sons provenant des diffeacuterents locuteurs crsquoest-agrave-dire les sources elles-mecircmes Ainsi lrsquoanalyse ne porte plus sur une scegravene spatialiseacutee mais sur des signaux seacutepareacutes Il nrsquoy a ainsi plus drsquoindices spatiaux agrave trouver

Avoir accegraves aux sources permet drsquoobtenir des informations plus preacutecises pour

permettre une seacuteparation apregraves la transmission Comme nous lrsquoavons vu lrsquoanalyse drsquoune scegravene spatialiseacutee ne permet que dans drsquoultimes cas agrave la seacuteparation des sources ce qui est ici notre point de deacutepart et sera en fait notre point drsquoarriveacutee En effet nous tenterons de retrouver les sources seacutepareacutees apregraves la transmission de maniegravere agrave pouvoir par la suite les spatialiser agrave loisir (voir Figure 413)

Chapitre 4 Reacutesultats et applications 40

442 Solution proposeacutee Les paramegravetres extraits ne sont donc plus des positions de sources Nous avons

choisi de mesurer puis transmettre lrsquoeacutenergie de chaque signal dans chaque sous-bande en parallegravele du downmix En effet une bonne seacuteparation sera possible si lrsquoon sait quelle proportion de chaque source compose chaque sous-bande du signal mono

Figure 412 - Scheacutema de principe drsquoune confeacuterence audio spatialiseacutee

Figure 413 - Scheacutema ameacutelioreacute (deacutebit reacuteduit)

en pointilleacutes informations compleacutementaires (eacutenergie) Lrsquoanalyse en sous-bandes a lieu dans le serveur (Figure 414) Celui-ci calcule

lrsquoeacutenergie de chaque signal dans chaque sous-bande sur une trame donneacutee Crsquoest ce paramegravetre qui associeacute au signal mono M permettra la seacuteparation des sources dans le terminal (Figure 415) Ce dernier reacutepartira en effet les diffeacuterentes sous-bandes vers chaque signal reconstitueacute proportionnellement agrave cette information pour reconstruire les 4 sources originales

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee 41

Figure 414 - Analyse principe de lrsquoencodage dans le serveur

Figure 415 - Synthegravese principe du deacutecodage dans le client

Afin de reacuteduire au maximum les informations compleacutementaires agrave transmettre on

peut remarquer qursquoau cours drsquoune confeacuterence audio on a tregraves souvent un seul locuteur les participants ne parlent que tregraves rarement tous en mecircme temps Ceci implique que les signaux en entreacutee sont tregraves souvent tous nuls sauf 1 et appliquer un seuil en entreacutee de lrsquoanalyse permet outre lrsquoallegravegement du traitement drsquoavoir moins de paramegravetres agrave transmettre

Ce scheacutema simplifieacute ne tient pas compte des problegravemes de phase rien nrsquoindique

que les eacutenergies des signaux srsquoajoutent bien dans chaque sous-bande lors du downmix on peut tregraves bien avoir des oppositions de phase La solution est drsquoeffectuer le downmix (la somme) des signaux dans chaque sous-bande en prenant soin drsquoavoir recaleacute les phases au preacutealable Ceci nrsquoa un sens que pour des bandes suffisamment eacutetroites Les deacutecalages temporels appliqueacutes pour le recalage sont alors des paramegravetres suppleacutementaires agrave transmettre et sont pris en compte lors de la synthegravese au niveau du reacutepartiteur qui repositionnera la phase de chaque trame pour chaque signal

Chapitre 4 Reacutesultats et applications 42

443 Bilan Le reacutesultat du deacutecodage a pu ecirctre eacutecouteacute de diffeacuterentes maniegraveres les sources

reconstitueacutees individuellement ensemble en steacutereacuteo drsquoamplitude et sur un systegraveme 51 On note que les sources ont eacuteteacute assez bien seacutepareacutees mais que des artefacts sont audibles en particulier lorsque le nombre de locuteurs simultaneacutes augmentent Ces artefacts sont un meacutelange des voix qui nrsquoest gecircnant que lorsqursquoon les eacutecoute de maniegravere seacutepareacutee En effet lrsquoeacutecoute simultaneacutee de ces signaux syntheacutetiseacutes mecircme placeacutes agrave des positions distinctes sur un systegraveme de diffusion multicanal est tout agrave fait satisfaisante

Ce proceacutedeacute pour pouvoir ecirctre appliqueacute doit fonctionner en temps-reacuteel Cette

contrainte nrsquoa pas du tout eacuteteacute prise en compte lrsquoobjectif eacutetant de valider la faisabiliteacute drsquoune reconstruction Les programmes sous Matlab nrsquoont pas eacuteteacute optimiseacutes et ne respectent pas cette contrainte

43

Conclusion Nous avons preacutesenteacute dans ce rapport le principe et lrsquoapplication de plusieurs

meacutethodes drsquoanalyses spatiales de scegravenes ambisoniques conccedilues et reacutealiseacutee pendant le stage Le format HOA est en effet une repreacutesentation du champ acoustique deacutecomposeacute sur une base drsquoharmoniques spheacuteriques jusqursquoagrave un certain ordre agrave la maniegravere drsquoun deacuteveloppement limiteacute Il contient donc de maniegravere indirecte des indications spatiales qursquoon peut extraire avec des analyses comme lrsquoanalyse en composantes principales

Ces analyses nous permettent de deacuteterminer les positions des sources qui

composent la scegravene sonore Nous avons appliqueacute les reacutesultats de ces analyses agrave 2 types de synthegravese lrsquoune destineacutee aux transmissions bas deacutebit lrsquoautre agrave un traitement de restitution de la preacutecision spatiale dans le cas ougrave des ordres supeacuterieurs dont le but est drsquoaffiner la perception de localisation nrsquoauraient pas pu ecirctre transmis Ces algorithmes par le codage drsquoinformations spatiales qursquoils permettent pourront trouver bien drsquoautres applications dans la transmission et le codage ougrave la description du contenu est de plus en plus utiliseacutee (comme par exemple dans la norme MPEG)

Des ameacuteliorations sont possibles sur plusieurs points tout drsquoabord lrsquoexploitation

de toutes les composantes de lrsquoACP est agrave lrsquoeacutetude et semble pouvoir donner des reacutesultats inteacuteressants Drsquoautre part on a vu que le reacutesultat final est tregraves deacutependant de la bonne convergence de lrsquoalgorithme des k-moyennes utiliseacute pour traiter les donneacutees brutes de lrsquoanalyse en sous-bandes Or cet algorithme neacutecessite des reacuteglages tregraves fins et une connaissance a priori du nombre de sources est presque indispensable Drsquoautres algorithmes plus complexes de suivi de formes pourraient ecirctre avantageusement utiliseacutes pour deacutetecter dans tous les angles trouveacutes lesquels sont susceptibles de former une trajectoire

45

Annexe A

Deacuteveloppement du champ acoustique en harmoniques spheacuteriques

A1 Eacutequation drsquoonde en coordonneacutees spheacuteriques On se place dans lrsquoespace euclidien agrave 3 dimensions muni drsquoun systegraveme de

coordonneacutees spheacuteriques Un point M y est repeacutereacute par son rayon r son azimut θ et son eacuteleacutevation δ tels que repreacutesenteacutes sur la figure ci-dessous

- r est la norme du vecteur position rr crsquoest-agrave-dire la distance OM - [20[ πθ isin est lrsquoangle formeacute par le projeteacute du point sur le plan xOy et lrsquoaxe Ox

- ]2

2

[ ππδ minusisin est lrsquoangle formeacute par le plan xOy et le vecteur position2

Figure A1 - Systegraveme de coordonneacutees spheacuteriques

2 Cet angle diffegravere de lrsquoangle polaire usuel δπϕ minus=

2 habituellement pris entre lrsquoaxe Oz et le

vecteur position

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 46

Les relations entre les coordonneacutees spheacuteriques et les coordonneacutees carteacutesiennes sont

⎪⎩

⎪⎨

===

δδθδθ

sincossincoscos

zryrx

(A1)

On srsquointeacuteresse dans ce repegravere agrave lrsquoeacutequation de propagation des ondes acoustiques

de pression On se place dans les conditions classiques drsquoacoustique lineacuteaire (les variations de p sont petites par rapport agrave la pression atmospheacuterique) en supposant que lrsquoair est un fluide parfait (on y neacutegligera les pheacutenomegravenes dissipatifs) Dans une reacutegion de lrsquoespace ne comprenant pas de sources lrsquoeacutequation drsquoonde srsquoeacutecrit alors

0)(12

2

2 =⎟⎟⎠

⎞⎜⎜⎝

⎛partpart

minus∆ trptc

r (A2)

p eacutetant la pression et c la vitesse de propagation du son dans lrsquoair

Cette eacutequation devient dans le domaine freacutequentiel lrsquoeacutequation de Helmholtz

( ) 0)(2 =+∆ ωrpk r (A3)

ck ω

= eacutetant le nombre drsquoonde

En coordonneacutees spheacuteriques cette eacutequation srsquoeacutecrit

0sin1sin

sin11 2

2

2

222

2 =⎥⎦

⎤⎢⎣

⎡+

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart pk

rrrr

rr δθθθ

θθ (A4)

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques Drsquoapregraves [Bruneau 1983] elle admet des solutions agrave variables seacutepareacutees de la forme

)()()( δθ ΦΘ= rRp (A5) Ces solutions sont respectivement - pour la partie radiale une combinaison des fonctions de Bessel spheacuteriques de

premiegravere et seconde espegravece3 jn et nn

)()()( krBnkrAjrR nn += (A6) 3 Les fonctions de Bessel spheacuteriques de seconde espegravece sont eacutegalement appeleacutees fonctions de

Neumann

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 47

Ces fonctions sont deacutefinies comme suit

(A7)

Figure A2 - Fonctions de Bessel spheacuteriques pour les ordres 0 agrave 5 )(krjm

- pour la partie azimutale les fonctions )(θΘ

)sin()cos()( 21 θθθ ncnc +=Θ (A8) Eacutetant donneacute la deacutefinition de lrsquoangle Θ celui-ci doit neacutecessairement ecirctre de

peacuteriode 2π ))2()(( πθθ +Θ=Θ ce qui impose agrave n drsquoecirctre entier

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 48

- pour la partie polaire les fonctions de Legendre associeacutees )(sinδmnP

nm

nn

mn dPdP

)(sin)(sinsin)(sin

δδ

δδ = pour ⎩⎨⎧

gt=

nmavecnm 321

(A9)

ougrave les )(sinδnP sont les polynocircmes de Legendre de degreacute n en δsin deacutefinis par reacutecurrence

( )

11

22

1

0

sin)12()(sin)1(

1cos321)(sin

sin)(sin0)(sin

minus+ minus+=+

minus=

==

mmm mPPmPmet

P

PP

δδ

ϕδ

δδδ

(A10)

et de formule geacuteneacuterale

mm

m

mm dd

mP )1(sin

)(sin21)(sin 2 minus= δ

δδ (A11)

On peut appliquer aux fonctions )(sinδmnP la semi-normalisation de Schmidt

)(sin)()()(sin~ δεδ mnnmn P

nmnmP

+minus

= ougrave 10 =ε et 2=nε pour 1gen (A12)

En appariant les fonctions polaires et azimutales on deacutefinit les harmoniques

spheacuteriques de degreacute et drsquoordre)1(mnY 0gem 4 mnn lele0 et de degreacute et

drsquoordre (voir Figure A3)

)1(minusmnY 1gem

mnn lele1

)(sin~)sin()(

)(sin~)cos()()1(

)1(

δθδθ

δθδθ

mnmn

mnmn

PnY

PnY

=

=minus

(A13)

4 En geacuteneacuteral lorsque le degreacute et lrsquoordre ne sont pas eacutevoqueacutes conjointement on parle par abus de langage drsquoharmoniques drsquoordre m plutocirct que de degreacute m

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 49

soit

1)(sin

)()()12(2sin)(

)(sin)()()12(2cos)(

1)(sin)1()1()12(cos)(

)1(

)1(

1)1(

1

gt

⎪⎪⎩

⎪⎪⎨

+minus

+=

+minus

+=

=+minus

+=

minus

npourP

nmnmmnY

PnmnmmnY

npourPmmmY

mnmn

mnmn

mm

δθδθ

δθδθ

δθδθ

(A14)

La solution angulaire geacuteneacuterale srsquoeacutecrit alors sous la forme drsquoun deacuteveloppement sur

la base drsquoharmoniques spheacuteriques

( ) ( )sum minus

=minus+=Θ

1

1)1()1()( n

m mnmnmnmnn YBYBθ (A15) La solution geacuteneacuterale est alors la seacuterie de Fourier-Bessel

sum sum sum+infin

= = plusmn=

=0 0 1

)()( )()()(m

m

nmnmnm

m YBkrjikrpσ

σσ δθδθ (A16)

ougrave

intint⎪⎩

⎪⎨⎧

minusisin

isin

plusmnplusmn =

]2

2

[

[20[

)1()1( )()1()(

1

ππδ

πθ

δθδθ

S

mnm

mmn dSYpkrji

B (A17)

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 50

Tableau A1 - Expressions analytiques des harmoniques spheacuteriques pour les ordres 0 agrave 3

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 51

Figure A3 - Repreacutesentation des harmoniques spheacuteriques pour les ordres m = 0 agrave 3 Les

couleurs rouge et bleu indiquent respectivement des valeurs positives et neacutegatives

53

Annexe B

Compleacutements theacuteoriques sur le deacutecodage HOA

B1 Vecteur veacutelociteacute et vecteur eacutenergie Le vecteur veacutelociteacute est un indice de la direction apparente drsquoune source introduit

par Gerzon [Gerzon 1992] Il se calcule comme le rapport de la vitesse particulaire sur la pression acoustique

)()(

)()(1

δθδθ

δθδθ

ρ rprp

ki

rprv

cV nabla

minus=minus=rrr

(B1)

Dans le cas drsquoune onde plane le vecteur veacutelociteacute V

rest ainsi directement un

vecteur unitaire orienteacute vers la direction de provenance de lrsquoonde En geacuteneacuteralisant agrave une superposition drsquoondes planes en phase ou opposition de phase eacutemises par L haut-parleurs agrave eacutequidistance du point drsquoobservation on obtient la formule suivante

VVL

ll

L

lll

urg

ugV r

rr

==

sum

sum

=

=

1

1 (B2)

ougrave deacutesigne la direction du llur egraveme haut-parleur auquel est associeacute le gain gl et Vr Vur correspondent respectivement agrave la norme et agrave la direction du vecteur veacutelociteacute

Le vecteur eacutenergie est un autre indice de direction Il est deacutefinit par

EEL

ll

L

lll

urg

ugE r

rr

==

sum

sum

=

=

1

2

1

2

(B3)

Annexe B Compleacutements theacuteoriques sur le deacutecodage HOA 54

Il peut srsquointerpreacuteter comme une indication de la concentration de lrsquoeacutenergie ( ) et de sa direction moyenne de provenance (

Er

Eur ) On a toujours 1ltEr sauf dans le cas ougrave un seul haut-parleur contribue agrave la reconstruction (dans ce cas ) peut ecirctre consideacutereacute comme un indicateur de preacutecision de la localisation

1=Er Er

B2 Deacutecodages optimiseacutes La restitution la plus confortable drsquoun champ sonore veillera donc agrave maximiser

tout en essayant de garder le plus proche possible de 1 Lrsquooptimisation du deacutecodage consiste alors agrave multiplier chaque coefficient de la matrice de deacutecodage D (voir (111) par des gains calculeacutes drsquoapregraves des critegraveres drsquooptimisation

Er Vr

Ainsi le deacutecodage appeleacute max- maximise la norme du vecteur eacutenergie en

sacrifiant celle du vecteur veacutelociteacute puisqursquoon a dans ce deacutecodage (pour des configurations reacuteguliegraveres de haut-parleurs) Ce deacutecodage est donc avantageux par rapport au deacutecodage basique pour les hautes freacutequences ou dans le cas drsquoun auditoire eacutelargi Le deacutecodage in-phase va encore plus loin en cherchant agrave annuler complegravetement les contributions des haut-parleurs placeacutes agrave lrsquoopposeacute de la direction de provenance de lrsquoonde reproduite Ce critegravere est utile dans le cas drsquoune eacutecoute dans une position tregraves excentreacutee agrave laquelle on pourrait percevoir de faccedilon preacutedominante la contribution en opposition de phase drsquoun tel haut-parleur

Er

EV rr =

Ces diffeacuterents deacutecodages ont chacun des avantages et inconveacutenients Ainsi seul le

deacutecodage basique garantit = 1 le deacutecodage max- permet une preacutecision meilleure notamment en haute freacutequence et le deacutecodage in-phase est plus adapteacute agrave un auditoire plus large Jeacuterocircme Daniel [Daniel 2000] propose ainsi de changer le deacutecodage en fonction de la freacutequence et de lrsquoeacutetendue de la zone drsquoeacutecoute deacutesireacutee

Vr Er

Figure B1 - Deacutecodages les plus approprieacutes par sous-bande et en fonction de lrsquoeacutetendue de la

zone drsquoeacutecoute [Daniel 2000]

55

Annexe C

Analyse en composantes principales

C1 Espace des donneacutees Eacutegalement souvent appeleacutee transformeacutee de Karhunen-Loegraveve5 (TKL) lrsquoanalyse en

composantes principales (ACP) est une technique statistique de repreacutesentation drsquoinformation Introduite sur 2 variables par Pearson [Pearson 1900] elle a eacuteteacute eacutetendue par Hotelling [Hotelling 1933] Elle a pour but de caracteacuteriser des donneacutees drsquoun espace agrave N dimensions dans un sous-espace plus petit en minimisant les pertes drsquoinformation due agrave la projection crsquoest-agrave-dire en maximisant la variance projeteacutee Les donneacutees ainsi reacuteorganiseacutees deviennent indeacutependantes Les variables correacuteleacutees sont remplaceacutees par de nouvelles variables deacutecorreacuteleacutees et de variance maximale combinaisons lineacuteaires des variables initiales

Les donneacutees sont constitueacutees de n variables aleacuteatoires (dans notre cas des canaux)

et p reacutealisations ou individus (des eacutechantillons)

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

pn

p

ji

n

xx

x

xx

M

LLL

MOMNM

MLLM

MNMOM

LLL

1

111

(C1)

Ces donneacutees sont geacuteneacuteralement centreacutees et peuvent aussi ecirctre reacuteduites4 (on note

1x la moyenne de la variable et 1x )( 1xσ sa variance) Reacuteduire ou non le nuage de points (ie les p reacutealisations de la variable aleacuteatoire) est un choix de modegravele

5 Quelques rares sources mentionnent une diffeacuterence entre ACP et TKL en placcedilant celle-ci au

niveau du choix de la reacuteduction des donneacutees dans le cas dune ACP les donneacutees seraient centreacutees et reacuteduites alors qursquoelles seraient uniquement centreacutees pour une TKL

Annexe C Analyse en composantes principales 56

- si on ne reacuteduit pas le nuage une variable agrave forte variance pourrait tirer tout lrsquoeffet de lrsquoACP agrave elle

- si on reacuteduit le nuage une variable qui ne serait qursquoun bruit se retrouverait avec une variance apparente eacutegale agrave une variable informative

M est centreacutee

⎥⎥⎥

⎢⎢⎢

minusminusminus

minusminus=

npn

pi

ji

nn

xxxxxx

xxxxM

K

MM

K

11

11

11

ˆ (C2)

M~ est centreacutee et reacuteduite

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

minusminus

minus

minusminus

=

)()(

)(

)()(~

1

11

1

1

111

n

npn

pi

ij

i

n

nn

xxx

xxx

xxx

xxx

xxx

M

σσ

σ

σσ

K

MM

K

(C3)

On multiplie ensuite la matrice obtenue par sa transposeacutee pour obtenir - La matrice de covariance MMC t

vˆˆ sdot=

- La matrice de correacutelation MMC tr

~~ sdot= Ces matrices sont carreacutees (N x N) symeacutetriques et reacuteelles Elles sont donc

diagonalisables dans une base orthonormeacutee 6 Le principe de lrsquoACP est alors de trouver un axe u issu drsquoune combinaison lineacuteaire

des tel que le critegravere drsquoinertie du nuage autour de cet axe soit maximal Le critegravere drsquoinertie couramment utiliseacute est la variance Il faut donc trouver lrsquoaxe qui porte le maximum de variance crsquoest-agrave-dire lrsquoaxe u tel que la projection du nuage sur cet axe ait une variance maximale

nx

6 Nos donneacutees eacutetant ici des valeurs drsquoeacutechantillons elles sont par nature centreacutees et reacuteduites On

formera donc naturellement la matrice de correacutelation

C2 Diagonalisation 57

C2 Diagonalisation Pour alleacuteger lrsquoeacutecriture de la suite de cette partie nous consideacutererons que les

variables ont eacuteteacute centreacutees et si besoin reacuteduites et nous noterons ces variables

transformeacutees (ainsi

ix ix

iii xxx minuslarr ou bien )( i

iii x

xxxσ

minuslarr ) On fera de mecircme pour M

( ou bien MM ˆlarr MM ~larr ) et C ( vCC larr ou bien rCC larr ) La projection drsquoun eacutechantillon sur un axe u srsquoeacutecrit ix

uMxiu sdot=)(π (C4) La variance empirique de )( iu xπ vaut donc

uMMuxx ttiu

tiu sdotsdotsdot=sdot )()( ππ (C5)

Or on a vu que est diagonalisable dans une base orthonormeacutee donc

on peut noter P le changement de base associeacute et ∆ la matrice diagonale formeacutee de son spectre Ainsi

MMC t=

n

i 1)(λ PPMMC tt ∆==

)()()()( PuPuuPPuxx ttt

iut

iu sdot∆sdot=sdot∆sdot=sdotππ (C6) On pose v = Pu Chercher lrsquoaxe u qui maximise )( iu xπ revient donc agrave chercher le

vecteur v qui maximise ougravevvt ∆ )( 1 ndiag λλ K=∆ avec les iλ rangeacutes par ordre deacutecroissant Ce vecteur est trivialement le premier vecteur unitaire et on a alors

1λ=∆vvt

Ainsi le vecteur qui porte la plus grande part drsquoinertie du nuage est le premier

vecteur propre de C (premier par norme deacutecroissante) De mecircme le deuxiegraveme vecteur qui explique la plus grandelt part de lrsquoinertie restante est le deuxiegraveme vecteur propre de C Finalement la question de lrsquoACP se ramegravene agrave un problegraveme de diagonalisation de la matrice de correacutelation

C3 Code Matlab

function [vep vap] = pca(f N) f donneacutees N nombre de composantes agrave garder cor = f f formation de la matrice de correacutelation [vep vap] = eig(cor) calcul des vecteurs (vep) et valeurs (vap) propres [vap ind] = sort(diag(vap)) tri des valeurs propres par ordre croissant vap = flipud(vap) disposition inverse par ordre drsquoimportance vep = vep( flipud(ind)) classement en conseacutequence des vecteurs propres vep = vep( 1N) on ne garde que les N premiers vecteurs propres

Annexe C Analyse en composantes principales 58

59

Annexe D

Analyse en sous-bandes

D1 La transformeacutee de Fourier agrave court terme (TFCT) Pour affiner lrsquoanalyse les signaux sont donc deacutecoupeacutes en bandes de freacutequence par

TFCT La TFCT consiste agrave effectuer des transformeacutees de Fourier discregravetes sur des portions de signal fenecirctreacutees reacuteguliegraverement espaceacutees

On rappelle que la transformeacutee de Fourier drsquoun signal x(t) est deacutefinie (lorsque

lrsquointeacutegrale existe) par

int+infin

infinminus

minus= dtetxfX ftiπ2)()( (D1)

La transformeacutee de Fourier agrave temps discret (TFTD) drsquoun signal x(t) srsquoeacutecrit

sum+infin

minusinfin=

minus=n

fnienxfX π2)()( (D2)

La transformeacutee de Fourier discregravete (TFD) drsquoun signal discret x(k) est deacutefinie par

sum+infin

minusinfin=

minus=

n

Nkni

enxkXπ2

)()( (D3)

La TFCT discregravete est une TFD observeacutee sur une fenecirctre wa de taille N

summinus

=

minus+=

1

0

2)())(()(

N

n

Nnki

aaa enwtnxkXπ

ττ (D4)

ougrave )(taτ est lrsquoinstant drsquoanalyse

Annexe D Analyse en sous-bandes 60

Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT [Laroche 1995]

D2 Synthegravese par addition-recouvrement Lors de la synthegravese apregraves le deacutecoupage et lrsquoanalyse des fenecirctres on cherche agrave

reconstruire le signal temporel agrave partir de sa repreacutesentation freacutequentielle Pour cela on utilise la meacutethode OLA (overlap and add addition-recouvrement) qui consiste agrave prendre la TFCT inverse des spectres Xt puis agrave additionner les signaux obtenus apregraves les avoir multiplieacutes par une fenecirctre de pondeacuteration en les faisant se recouvrir partiellement

Le reacutesultat est donneacute par

sum=

minusminus=T

tsss tnxtnwnx

s1

))((~))(()(~ ττ τ (D5)

avec )()( tt as ττ = et summinus

=

=1

0

2))((~1)(~ N

k

Nkni

s ektXN

nxs

π

τ τ

Lors de la mise en œuvre de ce traitement il faut srsquoassurer drsquoecirctre en mesure de

reconstruire parfaitement un signal lorsqursquoaucune transformation ne lui est appliqueacutee Le critegravere de reconstruction parfaite condition suffisante est alors

sum=

=minusminusT

tasaa tnwtnw

11))(())(( ττ quelque soit n (D6)

D2 Synthegravese par addition-recouvrement 61

Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add [Laroche 1995]

Plusieurs paramegravetres sont agrave choisir avec soin Le premier drsquoentre eux est le type

de fenecirctre agrave utiliser Les diffeacuterentes options qui se preacutesentent agrave nous sont - la fenecirctre rectangulaire qui preacutesente dans son spectre le lobe principal le plus

eacutetroit mais des lobes secondaires non neacutegligeables - la fenecirctre de Hamming au lobe principal un peu plus large mais pour laquelle le

1er lobe secondaire se situe agrave -43 dB - la fenecirctre de Hann (ou cosinus sureacuteleveacute) qui ressemble agrave la preacuteceacutedente avec un

1er lobe secondaire plus fort mais une pente de 18 dB par octave pour les lobes suivants

- les fenecirctres de Blackman-Harris aux lobes secondaires tregraves bas mais au lobe principal plus large

Fenecirctre Lobe 2aire

(dB) Pente

(dBoct) Bande passante

agrave 6 dB (bins) Rectangulaire -13 -6 121 Triangulaire -27 -12 178

Hann -32 -18 200 Hamming -43 -6 181

Blackman-Harris 4 -92 -6 272

Tableau D1 - Caracteacuteristiques des principales fenecirctres drsquoanalyse [Harris 1978] Le meilleur compromis est donc dans notre contexte la fenecirctre de Hann ou celle

de Hamming

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 19: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

13

Chapitre 2

Analyser un contenu HOA

21 Objectifs La reacuteflexion a tout au long du stage eacuteteacute orienteacutee vers deux objectifs le premier

est dans un contexte de transmission de reconstruire une scegravene spatialiseacutee agrave partir du minimum drsquoinformations le deuxiegraveme appliqueacute agrave des ordres plus eacuteleveacutes est drsquoarriver agrave resyntheacutetiser les composantes de lrsquoordre immeacutediatement supeacuterieur

211 Restitution de la spatialisation agrave partir drsquoun downmix mono La premiegravere approche vise donc agrave reconstruire une scegravene spatialiseacutee agrave partir drsquoun

downmix le plus leacuteger possible Un downmix est une reacuteduction du nombre de canaux par fusion lrsquoexemple le plus simple eacutetant le passage drsquoun signal steacutereacuteo agrave un signal mono construit comme la demi-somme des composantes gauche et droite On tente dans cette approche de se restreindre au plus petit nombre de signaux possible un signal eacutetant tregraves coucircteux agrave transmettre en ajoutant parallegravelement agrave ce signal des informations compleacutementaires aidant agrave la reconstruction

Le cas extrecircme est la reacuteduction du flux agrave un signal mono Dans le cas

drsquoambisonics un signal mono comprenant toutes les sources est deacutejagrave preacutesent il srsquoagit de la composante omnidirectionnelle W Il faut donc extraire de la scegravene encodeacutee agrave un certain ordre M des informations permettant la reconstruction drsquoun ordre Mrsquo apregraves transmission Nous verrons que nous allons chercher agrave trouver les positions des sources gracircce agrave une analyse en composantes principales (ou ACP voir Annexe C) effectueacutee par sous-bandes (voir Annexe D)

212 Ameacutelioration de la preacutecision spatiale La deuxiegraveme piste suivie a pour but de reconstituer un ordre ambisonique non

transmis On pourrait qualifier cette approche drsquoupmix ambisonique car elle vise agrave reconstruire un ordre manquant En effet le format ambisonique eacutetant flexible il est bien

Chapitre 2 Analyser un contenu HOA 14

adapteacute agrave la transmission Ainsi si on souhaite transmettre une scegravene encodeacutee agrave lrsquoordre 2 dans le plan horizontal il faudra un canal drsquoun deacutebit minimum (si lrsquoon prend lrsquohypothegravese de pas vouloir compresser les signaux) de 471 Mos Un canal plus petit (par exemple 34 Mos) ne permettra theacuteoriquement de transmettre qursquoun ordre 1 Mais lrsquoanalyse des signaux peut permettre de deacuteterminer les positions des sources agrave partir desquelles on peut syntheacutetiser des composantes du 2nd ordre approchant les composantes drsquoorigine On pourrait mecircme imaginer pouvoir syntheacutetiser un ordre qui nrsquoavait pas eacuteteacute encodeacute agrave lrsquoorigine

Pour cela il est neacutecessaire de deacuteterminer les positions des sources preacutedominantes

dans le champ sonore pour piloter leur encodage spatial aux ordres supeacuterieurs et arriver agrave la synthegravese drsquoune repreacutesentation de reacutesolution spatiale accrue Il srsquoagit dans le mecircme temps drsquoisoler au mieux les signaux associeacutes agrave ces diffeacuterentes sources avant de leur appliquer lrsquoopeacuteration drsquoencodage on se rapproche donc drsquoun problegraveme de seacuteparation de sources

Pour parvenir agrave trouver ces positions deux meacutethodes ont eacuteteacute testeacutees La premiegravere

consiste comme preacuteceacutedemment agrave appliquer en sous-bandes une analyse en composantes principales La seconde implique la formation de directiviteacutes agrave partir des vecteurs propres de la matrice de correacutelation utiliseacutee dans cette analyse

Lrsquoanalyse en composantes principales ou ACP (voir Annexe C) est donc

largement privileacutegieacutee dans nos approches Elle permet en effet tregraves facilement drsquoextraire des informations preacutecises de signaux correacuteleacutes Pour justifier ce choix une autre meacutethode reacutecente a eacutegalement eacuteteacute testeacutee et compareacutee agrave lrsquoACP (voir 11)

22 Principe de lrsquoextraction drsquoinformation spatiale avec une ACP

221 Information spatiale

Nous avons donc tout drsquoabord testeacute lrsquoanalyse en composantes principales sur des

signaux HOA Nous avons choisi dans un premier temps de limiter lrsquoanalyse aux composantes horizontales du premier ordre W X et Y avant de lrsquoeacutetendre agrave la 3egraveme dimension avec Z

Dans un premier test les signaux HOA sont analyseacutes par une ACP dans leur

inteacutegraliteacute LrsquoACP est appliqueacutee sur les signaux X et Y qui contiennent lrsquoinformation spatiale En effet X et Y correspondent aux signaux qui seraient capteacutes par des microphones agrave figure en 8 placeacutes sur lrsquoaxe avant-arriegravere et gauche-droite respectivement

La Figure 21 montre la correacutelation entre X et Y dans le cas drsquoun bruit blanc capteacute

par le microphone ambisonique Les points ne sont pas exactement aligneacutes du fait des artefacts inheacuterents agrave la prise de son (reacuteflexions sur les parois approximations du microphone etc)

22 Principe de lrsquoextraction drsquoinformation spatiale avec une ACP 15

Figure 21 - Y en fonction de X dans le cas drsquoun bruit blanc enregistreacute placeacute agrave 30deg

On remarque que le nuage est eacutetireacute dans la direction de provenance du son indiqueacutee par la flegraveche en pointilleacutes verts

222 Application de lrsquoanalyse en composantes principales La 1egravere composante issue de lrsquoACP appliqueacutee dans le plan (X Y) pointe dans la

direction dans laquelle X et Y ont la plus grande correacutelation Or comme X contient lrsquoinformation placeacutee sur lrsquoaxe avant-arriegravere et Y lrsquoinformation de lrsquoaxe gauche-droite cette direction est directement la direction de la source Par exemple un son situeacute droit devant dans lrsquoaxe (agrave 0deg) aura une composante Y nulle et par conseacutequent les eacutechantillons seront dans le plan tous disposeacutes sur lrsquoaxe horizontal LrsquoACP prendra donc naturellement cet axe comme 1er vecteur propre et il pointe bien vers la position de la source De mecircme un son situeacute agrave 135deg ( π28

3 times rad) aura la proprieacuteteacute Y = -X Les eacutechantillons seront donc placeacutes sur la 2egraveme bissectrice qui fait avec lrsquoaxe Y=0 un angle de 135deg (voir Figure 22)

Figure 22 - Y en fonction de X dans le cas drsquoun son placeacute artificiellement dans la direction

indiqueacutee par la flegraveche en pointilleacutes verts agrave 0deg (agrave gauche) et 135deg (agrave droite)

Chapitre 2 Analyser un contenu HOA 16

Lrsquoanalyse de X et Y ne permet cependant de deacuteterminer lrsquoangle qursquoagrave π pregraves il reste une indeacutetermination (on deacutetermine la direction drsquoun axe qursquoil reste agrave orienter) Pour lever cette ambiguiumlteacute on integravegre W agrave lrsquoanalyse car cette composante pourtant omnidirectionnelle et donc deacutepourvue drsquoinformation spatiale apporte une reacutefeacuterence pour les phases Ainsi notre son placeacute agrave 135deg veacuterifiait (aux eacuteventuels coefficients de normalisation pregraves) Y = -X = W alors qursquoun son placeacute agrave 135 - 180 = -45deg aurait la proprieacuteteacute Y = -X = -W

Pour prendre en compte W dans lrsquoanalyse on peut comparer directement les

phases de ces 3 canaux Algorithmiquement on ramegravene lrsquoangle trouveacute agrave son modulo π2 puis on deacutetermine le vrai cadran par comparaison des phases de W X et Y crsquoest-agrave-dire en comparant le signe des produits W X et W Y Ainsi W X gt 0 signifie que W et X sont en phase et reacuteciproquement (voir Figure 23)

W X lt 0 W Y gt 0

W X gt 0 W Y gt 0

W X lt 0 W Y lt 0

W X gt 0 W Y lt 0

minusπ2

π

π2

0

Figure 23 - Signes de W X et W Y en fonction du cadran On peut eacutegalement inteacutegrer W agrave lrsquoanalyse en appliquant lACP sur le triplet (X Y

W) Le problegraveme drsquoambiguiumlteacute est ainsi reacutesolu la direction rechercheacutee eacutetant celle du vecteur principal dans le demi-espace W gt 0 projeteacutee sur le plan (X Y) Cette meacutethode srsquoavegravere plus robuste et surtout plus geacuteneacuteralisable agrave des ordres plus eacuteleveacutes

Cette analyse permet donc de deacuteterminer la position drsquoune source unique Pour

pouvoir seacuteparer plusieurs sources nous avons appliqueacute lrsquoACP par sous-bandes en supposant que les sources nrsquoont pas des supports freacutequentiels strictement identiques Le principe de cette analyse en sous-bandes est deacuteveloppeacute en Annexe D

23 Meacutethodologie

231 Construction de scegravenes artificielles Pour tester les algorithmes impleacutementeacutes nous avons ducirc creacuteer des scegravenes sonores

spatialiseacutees au format HOA Plusieurs types de scegravenes ont eacuteteacute utiliseacutes de complexiteacutes diffeacuterentes Les premiegraveres ont eacuteteacute des scegravenes virtuelles syntheacutetiseacutees avec Matlab Les premiegraveres scegravenes simplissimes ne comportait qursquoune sinusoiumlde ou un bruit blanc fixe placeacute dans le plan horizontal Puis pour tester lrsquoanalyse par sous-bandes ont eacuteteacute creacuteeacutes des sons polyphoniques composeacutes de 2 sinusoiumldes tout drsquoabord puis de sons complexes (syntheacutetiseacutes par synthegravese FM) dans des gammes freacutequentielles distinctes ou se

23 Meacutethodologie 17

chevauchant Enfin ces sons ont eacuteteacute rendus mobiles en faisant varier leur position dans le temps

Nous avons pu ainsi constater agrave lrsquoaide des sons fixes et de supports freacutequentiels

distincts la preacutecision de lrsquoanalyse et avec les sons mobiles et mecircleacutes sa robustesse Nous nous sommes limiteacutes sous Matlab agrave la geacuteneacuteration de 2 sons simultaneacutes et du 1er ordre et un autre outil Plogue Bidule a eacuteteacute utiliseacute pour composer des scegravenes plus complexes

Bidule est un studio modulaire virtuel ressemblant agrave MAXMSP Des plugins ont

eacuteteacute deacuteveloppeacutes agrave France Teacuteleacutecom pour permettre de manipuler des signaux HOA Ainsi des scegravenes complexes ont pu facilement ecirctre syntheacutetiseacutees agrave des ordres eacuteleveacutes Des scegravenes agrave 3 et 4 sources fixes ou dont 1 source mobile ont eacuteteacute reacutealiseacutees agrave partir de voix deacutemixeacutees placeacutees dans le plan horizontal ou en 3 dimensions

Ces scegravenes eacutetant artificielles elles sont en un sens ideacuteales ne contiennent aucun

signal reacuteverbeacutereacute (effet de salle) ni diffracteacute (par un micro) lrsquoencodage est fait sans artefacts les ondes sont consideacutereacutees comme planes et ont donc une direction bien deacutefinie Si on est ici bien loin de la vraie vie le gros avantage des scegravenes artificielles est qursquoon connaicirct preacuteciseacutement agrave chaque instant la position des sources et qursquoon peut ainsi veacuterifier le reacutesultat de lrsquoanalyse

Figure 24 - Interface graphique du logiciel Bidule avec agrave droite les controcircles des encodeurs

et deacutecodeurs HOA creacuteeacutes agrave France Teacuteleacutecom

Chapitre 2 Analyser un contenu HOA 18

232 Exploitation drsquoenregistrements naturels Une fois des reacutesultats convaincants obtenus avec des scegravenes virtuelles des

enregistrements naturels ont eacuteteacute analyseacutes Ces scegravenes ont eacuteteacute enregistreacutees gracircce au prototype de micro HOA du 4egraveme ordre deacuteveloppeacute agrave France Teacuteleacutecom (voir Figure 12) Ce processus implique des diffeacuterences notables avec un encodage virtuel

Le prototype de microphone contraint en effet agrave quelques compromis pour

optimiser des critegraveres incompatibles La taille du microphone reacutesulte drsquoun compromis entre la preacutecision drsquoestimation des composantes en basses freacutequences qui neacutecessite une taille eacuteleveacutee et la minimisation de lrsquoaliasing spatial qui ne peut ecirctre eacuteviteacute qursquoavec des capsules tregraves proches les unes des autres Leur disposition est eacutegalement irreacuteguliegravere il nrsquoexiste en fait aucune faccedilon de disposer reacuteguliegraverement plus de 20 points sur une sphegravere La configuration qui avait eacuteteacute retenue par les concepteurs [Moreau 2006] est la ldquomoins irreacuteguliegravere possiblerdquo au sens de la preacuteservation de lrsquoorthonormaliteacute des harmoniques spheacuteriques les 32 capsules sont reacuteparties sur une sphegravere de 35 cm de rayon selon un Pentaki-dodeacutecahegravedre polyegravedre semi-reacutegulier dual de lrsquoicosaegravedre tronqueacute (ballon de football)

Ces artefacts sont donc inheacuterents agrave lrsquoutilisation drsquoun reacuteseau de microphones Mais

le monde reacuteel pose eacutegalement des problegravemes deacutelicats La complexiteacute des modes de rayonnement drsquointeraction avec lrsquoenvironnement reacuteclame lrsquointroduction de modegraveles drsquoencodage beaucoup plus complexes que le cas drsquoune onde plane en champ libre et rend lrsquoinformation spatiale moins limpide et univoque au sein de la scegravene encodeacutee (enregistreacutee) en comparaison avec une scegravene virtuelle Les sources ne sont ainsi plus ponctuelles mais eacutetendues elles ne sont plus agrave lrsquoinfini mais agrave une distance finie du microphone (les ondes reccedilues ne sont donc plus planes) En outre chaque source en se reacutefleacutechissant sur les parois et les diffeacuterents objets de la salle creacutee une multitude de sources secondaires Il est enfin souvent difficile de connaicirctre avec preacutecision la position drsquoune source dans lrsquoespace lors drsquoun enregistrement

Des enregistrements en chambre sourde ont eacuteteacute reacutealiseacutes pour se passer des

reacuteflexions de lrsquoenvironnement Afin de connaicirctre avec preacutecision la position de la source un haut-parleur diffusant un bruit blanc nous avons placeacute le microphone sur une table tournante commandeacutee par un plug-in sous Plogue Bidule

233 Visualisations des reacutesultats Lrsquoobservation des reacutesultats a eacuteteacute effectueacutee de plusieurs maniegraveres visuellement et

par lrsquoeacutecoute Les graphiques eacutetant plus commodes crsquoest par cette voie que les premiers essais eacutetaient conclus Plusieurs types de graphiques ont eacuteteacute produits deacutecrivant des paramegravetres diffeacuterents

Les repreacutesentations temps-freacutequence permettent de repreacutesenter une variable agrave 1

dimension sous Matlab Cette voie a eacuteteacute suivie pour visualiser les paramegravetres extraits de chaque sous-bande de chaque fenecirctre notamment les angles lrsquoeacutenergie et la pertinence Malheureusement Matlab ne permet pas de repreacutesenter sur le mecircme graphique une 4egraveme dimension sous la forme drsquoune 2egraveme dimension colorimeacutetrique (on prend geacuteneacuteralement la

23 Meacutethodologie 19

saturation) Cette dimension suppleacutementaire aurait permis de repreacutesenter simultaneacutement les angles et leur pertinence

Figure 25 - Repreacutesentation

et de lrsquoespace col

Pour repreacutesenter s

drsquoabandonner une dimensipouvoir repreacutesenter danrepreacutesenteacutees soit par le niv

Figure 26 - Repreacutesentationdeacutecrite en 332 (en absciss

est repreacutesenteacutee agrave gauc

234 Diffeacuterents modes La visualisation est

indispensable pour veacuterifiesont possibles de ceux-cainsi reconstitueacutee agrave partir d

1 W+Y+02X pour le c

π 0 minusπ

de la table des couleurs dite HSV de Matlab (lineacuteaire agrave gauche) orimeacutetrique HSL (Hue Saturation Luminance agrave droite)

imultaneacutement angles et pertinence il eacutetait donc neacutecessaire on Crsquoest le deacutecoupage freacutequentiel qui a eacuteteacute mis de cocircteacute pour s un plan temps-angles les pertinences Celles-ci sont eau de gris des points soit par leur taille

de la pertinence des angles de la scegravene agrave 4 sources dont 1 mobile e les trames en ordonneacutees les angles en degreacute) La pertinence he par lrsquointensiteacute du bleu et agrave droite par la taille des points

drsquoeacutecoute

un indice preacutecis de reacutesultat mais lrsquoeacutecoute est tout de mecircme r la qualiteacute globale de la synthegravese Plusieurs modes drsquoeacutecoute i lrsquoeacutecoute au casque est la plus aiseacutee Une pseudo-steacutereacuteo est es signaux du 1er ordre1 pour restituer les scegravenes restreintes au

anal gauche et W-Y+02X pour le canal droit

Chapitre 2 Analyser un contenu HOA 20

plan horizontal Pour plus de preacutecision agrave la restitution ou pour des scegravenes en 3D et sans perdre la faciliteacute drsquoune eacutecoute personnelle au casque on peut appliquer des filtres HRTF (Head-Related Transfert Function) pour une reproduction binaurale

Pour appreacutecier pleinement la spatialisation la diffusion sur un systegraveme multi

haut-parleurs est indispensable Deux systegravemes sont installeacutes dans le laboratoire de France Teacuteleacutecom un systegraveme 51 et un systegraveme circulaire de 48 haut-parleurs Ces systegravemes installeacutes dans des studios insonoriseacutes offrent une grande qualiteacute drsquoeacutecoute qui permet de repeacuterer les deacutefauts mecircme minimes de la synthegravese

21

Chapitre 3

Description des analyses

31 Deacutetermination des directions principales

311 Base des algorithmes Nous avons deacuteveloppeacute plusieurs algorithmes reacutepondant aux diffeacuterents objectifs

deacutecrits plus haut Chacun drsquoeux possegravede des particulariteacutes leur permettant de reacutepondre agrave ces objectifs mais on trouve neacuteanmoins une partie commune Ainsi toutes les analyses reposent sur le mecircme modegravele drsquoapplication drsquoune ACP par sous-bandes dont voici le scheacutema geacuteneacuteral

Figure 31 - Scheacutema geacuteneacuteral drsquoanalyse

Les signaux en entreacutee sont les composantes HOA W X et Y dans la plupart des

cas mais peuvent ecirctre eacutegalement des composantes drsquoordre plus eacuteleveacute (voir 11) Sur le fenecirctrage jouent plusieurs paramegravetres comme la taille de la fenecirctre ou encore le pourcentage de recouvrement entre elles Nous avons choisi une fenecirctre en racine de la fenecirctre de Hanning crsquoest-agrave-dire une arche de sinusoiumlde (voir eacutequation (D7) en Annexe D) avec un recouvrement de 50 ce qui veacuterifie le critegravere de reconstruction parfaite (D6) Le filtrage est pour des raisons de rapiditeacute de calcul reacutealiseacute dans le domaine freacutequentiel par une simple multiplication avant de repasser en temporel pour appliquer lrsquoACP

Le banc de filtre utiliseacute est un banc inspireacute des filtres ERB Les filtres ERB

(Equivalent Regular Bandwidth) sont des filtres imitant le comportement de seacuteparation freacutequentielle de lrsquooreille humaine plus preacutecise en basse freacutequence Les filtres utiliseacutes ici ne sont pas directement des filtres ERB le systegraveme nrsquoa pas drsquointeacuterecirct particulier agrave essayer de copier le fonctionnement de lrsquooreille humaine Ces filtres ont eacuteteacute adapteacutes au problegraveme en

Chapitre 3 Description des analyses 22

srsquoassurant en particulier de la finesse des bandes permettant la meilleure discrimination des diffeacuterentes sources crsquoest-agrave-dire autour des fondamentales usuelles (200-1000 Hz) et des harmoniques Les freacutequences aigueumls sont bien discrimineacutees par les filtres ERB (relativement agrave la gamme crsquoest-agrave-dire en eacutechelle logarithmique) le deacutecoupage a donc surtout eacuteteacute densifieacute entre 200 et 800 Hz par rapport aux bandes ERB

Figure 32 - Filtres utiliseacutes inspireacutes des filtres ERB repreacutesenteacutes lineacuteairement (en haut)

et sur une eacutechelle logarithmique (en bas) Les reacutesultats de lrsquoACP sont donc avec cette meacutethode les angles des sources

trouveacutees dans chaque sous-bande ainsi que pour chacun drsquoeux un critegravere de pertinence calculeacute en fonction de lrsquoeacutenergie de la sous-bande dans une fenecirctre donneacutee et de la norme relative de la premiegravere composante de lrsquoACP (voir 342) Les autres vecteurs propres peuvent ecirctre utiliseacutes pour extraire davantage drsquoinformations et mecircme des signaux deacutecorreacuteleacutes comme on le verra au paragraphe 35 mais lrsquoanalyse semble alors moins robuste Srsquoen tenir aux informations donneacutees par la composante principale est un gage de pertinence suppleacutementaire

Ces reacutesultats concernent donc les sources preacutedominantes ou principales mais

laissent de cocircteacute un certain nombre drsquoeacuteveacutenements sonores agrave consideacuterer

312 Traitement du champ reacutesiduel Le champ reacutesiduel regroupe en quelque sorte tout ce qui nrsquoest pas une source

principale Il inclut donc les reacuteflexions et la reacuteverbeacuteration de la piegravece mais aussi les bruits parasites occasionnels ou continus (ventilation etc) Ces bruits ou eacutechos nrsquoont pas de direction de provenance assez distincte pour pouvoir ecirctre mesureacutee preacuteciseacutement Le champ reacutesiduel est eacutegalement composeacute du champ diffus La notion de champ diffus est couramment utiliseacutee mais rarement preacuteciseacutement deacutefinie On trouve dans la litteacuterature des deacutefinitions diverses lrsquoune drsquoelles preacutecisant qursquoil serait un ensemble drsquoeacuteveacutenements sonores proches en temps et provenant de directions eacutequiprobables

Les algorithmes proposeacutes traitent correctement les sources principales mais le

champ reacutesiduel est laisseacute de cocircteacute Il est pourtant tregraves important pour lrsquoimmersion du sujet dans la scegravene une scegravene deacutepourvue de champ sonore sera perccedilue comme artificielle ce qui nuit agrave la perception drsquoespace On sera par exemple davantage conscients drsquoecirctre au centre drsquoun dispositif expeacuterimental et moins sensibles aux variations de profondeur et de perspectives

31 Deacutetermination des directions principales 23

Neacuteanmoins il faut relativiser lrsquoimportance de ce champ reacutesiduel il nrsquoest pas utile pour la localisation des sources principales et ne caracteacuterise que lrsquoenvironnement drsquoenregistrement En outre le champ reacutesiduel qui provient souvent de directions floues et notre but nrsquoest pas de les preacuteciser artificiellement Il nrsquoest degraves lors geacuteneacuteralement pas utile de le transmettre aux ordres eacuteleveacutes

Ainsi certains auteurs [Merimaa and Pulkki 2005] ont choisi de recreacuteer lors drsquoune

synthegravese un champ diffus artificiel baseacute sur une reacuteponse impulsionnelle de salle calculeacutee agrave lrsquoavance Lrsquoavantage est une immersion un enveloppement complets lrsquoinconveacutenient est que lrsquoambiance ainsi recreacuteeacutee est fictive et arbitraire et en outre complegravetement indeacutependante de lrsquoambiance initiale en laissant notamment de cocircteacute les sources secondaires

Nous proposons dans nos algorithmes de ne pas syntheacutetiser le champ diffus aux

ordres eacuteleveacutes mais de nous contenter de la description du champ reacutesiduel fourni par les ordres transmis (1er ordre dans nos exemples) Nous nous limiterons donc agrave preacuteciser par la synthegravese des ordres supeacuterieurs les positions des sources principales

32 Extension agrave la 3D Nous avons pour le moment eacutevoqueacute le cas de repreacutesentations de champ sonore agrave

2 dimensions crsquoest-agrave-dire issus de sources placeacutees dans le plan horizontal Mais certaines repreacutesentations comportent eacutegalement des composantes verticales Pour analyser ces signaux en 3 dimensions il faut inteacutegrer la composante Z On effectue alors simplement une ACP sur X Y Z et W Le 1er vecteur propre sera alors bien dirigeacute dans lrsquoespace (X Y Z) dans la direction de la source lrsquoambiguiumlteacute de frac12 espace eacutetant leveacutee par W

Lrsquoalgorithme est alors complegravetement similaire agrave celui analysant des signaux en 2

dimensions Des tests ont eacuteteacute reacutealiseacutes agrave partir de signaux syntheacutetiques pour lesquels les positions des sources eacutetaient connues pour des raisons pratiques aucune scegravene sonore reacuteelle en 3 dimensions nrsquoa pu ecirctre enregistreacutee avec une connaissance initiale preacutecise des positions des sources

Les visualisations et les eacutecoutes eacutetant plus deacutelicates en 3D et lrsquoextension agrave la 3D

eacutetant immeacutediate nous avons donc concentreacute nos efforts sur lrsquoanalyse de scegravenes en 2D En outre en lrsquoabsence de dispositif spheacuterique ou heacutemispheacuterique de haut-parleurs le seul moyen agrave notre disposition pour eacutecouter une scegravene 3D est lrsquoeacutecoute binaurale crsquoest-agrave-dire au casque avec des fonctions de transfert de tecircte (HRTF) relativement bien adapteacutees agrave lrsquoauditeur

33 Analyse aux ordres supeacuterieurs

331 Description Afin drsquoameacuteliorer la preacutecision de lrsquoanalyse nous avons essayeacute drsquoappliquer une ACP

sur des signaux ambisoniques drsquoordre plus eacuteleveacute (signaux HOA) dans le plan horizontal Deux meacutethodes ont eacuteteacute essayeacutees

Chapitre 3 Description des analyses 24

La premiegravere consiste agrave appliquer une ACP agrave 3 dimensions successivement sur les composantes X Y W (ordre 1 et 0) puis U V W (ordre 2 et 0) et ainsi de suite crsquoest-agrave-dire (en utilisant la notation geacuteneacuterale) sur les composantes et W (ordre m et 0) Les reacutesultats de ces analyses (les directions des 1

)1(0mY )1(

0minus

mYegraveres composantes) sont ensuite regroupeacutees

lrsquoanalyse de lrsquoordre 1 fournissant des reacutesultats modulo 2π lrsquoanalyse de lrsquoordre 2 des reacutesultats plus preacutecis mais modulo π et plus geacuteneacuteralement lrsquoanalyse de lrsquoordre m permettant de trouver des angles modulo mπ2

La limite de cette approche se perccediloit lors de la fusion des reacutesultats les angles

trouveacutes agrave un ordre eacuteleveacute sont plus preacutecis dans des bandes de freacutequences eacuteleveacutees mais la limitation theacuteorique de ces signaux HOA dans les basses freacutequences font que lrsquoanalyse de lrsquoordre 1 reste la plus pertinente dans les premiegraveres bandes Parvenir agrave deacuteterminer agrave partir de quelle freacutequence on peut faire davantage confiance agrave lrsquoordre n+1 qursquoagrave lrsquoordre n nrsquoest pas aiseacute et cette limite provoque des aberrations dans les angles trouveacutes Une source unique pourra par exemple ecirctre interpreacuteteacutee par lrsquoalgorithme des k-moyennes (voir 341) comme 2 sources une en hautes freacutequences et une en basses freacutequences les 2 eacutetant trouveacutes agrave 2 angles diffeacuterents chaque angle relevant drsquoun ordre analyseacute diffeacuterent

La deuxiegraveme meacutethode consiste pour eacuteviter cette fusion des reacutesultats agrave effectuer

une seule ACP sur les composantes U V X Y et W Cette meacutethode souffre drsquoune tregraves grande complexiteacute algorithmique pour une ameacutelioration de la preacutecision peu sensible En effet si cette meacutethode permet drsquoobtenir des reacutesultats plus preacutecis dans certaines bandes de freacutequences elle est sensible aux deacutefauts et les limites des ordres supeacuterieurs (lrsquoabsence de basses freacutequences entre autres) perturbent lrsquoanalyse en composantes principales

332 Illustration sur une scegravene virtuelle La scegravene preacutesenteacutee ici est une scegravene artificielle crsquoest-agrave-dire composeacutee de sons

placeacutes artificiellement agrave diverses positions Elle a une dureacutee totale de 135 s et comporte 4 sources positionneacutees dans le plan horizontal une guitare placeacutee agrave 45deg une basse agrave -70deg une batterie agrave 110deg et une voix feacuteminine qui effectue continucircment un tour complet dans le sens indirect en partant de lrsquoarriegravere (elle passe donc successivement par les positions 180deg 90deg 0deg -90deg et -180deg) La guitare et la batterie srsquoarrecirctent peu avant la fin de la scegravene (12egraveme seconde au 910egraveme du son approximativement)

Figure 33 - Position des sources de la scegravene de test agrave 4 sources dont 1 mobile

33 Analyse aux ordres supeacuterieurs 25

Figure 34 - Angles drsquoune scegravene virtuelle ayant 1 source mobile et 3 sources fixes

(deacutecrite en 332) trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 Pour chaque trame (en abscisse) 20 angles (1 par bande en ordonneacutee et en degreacutes) sont

reporteacutes le diamegravetre du point correspondant agrave un critegravere de pertinence (voir 342)

Figure 35 - Angles de la mecircme scegravene trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 2 Reacutesultats modulo π reacutepliqueacutes pour faciliter la comparaison avec la figure preacuteceacutedente On remarque que les lignes sont plus nettes qursquoil y a moins drsquoangles aberrants et que

les angles corrects sont plus marqueacutes (ils sont deacutetermineacutes comme plus pertinent)

Chapitre 3 Description des analyses 26

20

0

20

0

20

0

Figure 36 - Angles drsquoune scegravene reacuteelle constitueacutee drsquoun bruit parcourant le cercle trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 (en haut) 0 et 2 (au milieu) et 0 et 4 (en bas) Le

numeacutero de trame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On retrouve qursquoune limitation des ordres HOA supeacuterieurs issus drsquoun enregistrement

microphonique est la restitution des basses freacutequences

34 Traitement des donneacutees

341 Algorithme des k-moyennes Agrave lrsquoissue de lrsquoanalyse en composantes principales on reacutecupegravere avec la premiegravere

des meacutethodes exposeacutees au chapitre preacuteceacutedent des angles correspondants aux positions des sources preacutedominantes agrave raison drsquoune valeur par fenecirctre et par bande de freacutequence Il faut agrave partir de ces donneacutees parvenir agrave isoler les sources crsquoest-agrave-dire agrave deacuteterminer quels sont les angles pertinents et examiner quels sont ceux qui agrave une certaine toleacuterance pregraves sont preacutesents dans plusieurs bandes de freacutequence etou plusieurs fenecirctres temporelles

Pour pouvoir exploiter ces donneacutees spatiales nous avons utiliseacute lrsquoalgorithme des

k-moyennes (ou k-means) [MacQueen 1967] sur les angles pondeacutereacutes par des critegraveres de pertinence Cet algorithme fonctionne de la maniegravere suivante

Initialisation choix de k barycentres (les k moyennes) Reacutepeacuteter Associer chaque eacuteleacutement au barycentre le plus proche Recalculer les positions des barycentres Jusqursquoagrave ce que les barycentres soient stables (ou au bout de t iteacuterations)

34 Traitement des donneacutees 27

Lrsquoavantage de cet algorithme est drsquoecirctre peu glouton puisqursquoil converge en O(tkn) ougrave t est le nombre drsquoiteacuterations k le nombre de centres et n le nombre de points (geacuteneacuteralement on a t k ltlt n) Par contre il est plutocirct sensible aux exceptions un point aberrant tirera agrave lui la moyenne auquel il aura eacuteteacute associeacute Il faut donc faire en sorte que ces points erroneacutes soient aussi rares que possibles Crsquoest pourquoi les angles traiteacutes sont pondeacutereacutes par 2 critegraveres de pertinence

La pondeacuteration des angles fournis en entreacutee de lrsquoalgorithme des k-moyennes se

fait de maniegravere simple en reacutepeacutetant ces angles un nombre de fois (de 0 agrave 10) proportionnel agrave un critegravere Ainsi un angle tregraves pertinent sera dupliqueacute et sera preacutesent plusieurs fois dans la liste des donneacutees traiteacutees attirant ainsi agrave lui la position du barycentre le plus proche Au contraire un angle trop peu pertinent ne sera pas reacutepeacuteteacute voir mecircme sera enleveacute de la liste

Le seul problegraveme de cet algorithme est qursquoil neacutecessite la connaissance de k crsquoest-

agrave-dire du nombre de sources qui composent la scegravene Une deacutetermination automatique se basant sur la reacutepeacutetition de lrsquoalgorithme avec un k croissant a eacuteteacute testeacutee mais le critegravere drsquoarrecirct reposant sur la dispersion des points autour des barycentres nrsquoeacutetant pas assez robuste cette meacutethode a provisoirement eacuteteacute mise de cocircteacute

342 Critegraveres de pertinence Les 2 critegraveres de pondeacuteration choisis sont lrsquoeacutenergie de la sous-bande dans la

fenecirctre donneacutee et le rapport de la norme de la 1egravere composante (la composante principale) de lrsquoACP sur la somme des normes de toutes les composantes

En effet un angle est trouveacute dans chaque sous-bande de chaque fenecirctre mecircme si

le signal y est tregraves faible Lrsquoangle trouveacute sera alors tregraves peu repreacutesentatif de la direction drsquoune source puisqursquoil indiquera la direction drsquoun bruit Lrsquoeacutenergie doit donc ecirctre prise en compte pour ne conserver que les angles trouveacutes dans des bandes comportant un signal suffisant

La norme relative de la 1egravere composante de lrsquoACP rend quant agrave elle compte du

poids relatif de cette composante par rapport aux autres Ainsi si 2 sources sont preacutesentes dans une bande donneacutee la 1egravere composante sera agrave peine plus marqueacutee que la 2egraveme Ceci peut ecirctre calculeacute en prenant simplement le rapport de la 1egravere valeur propre sur la somme des valeurs propres

On peut noter que la norme de la 1egravere composante ne se deacutetache nettement que

lorsqursquoun son est preacutesent dans la bande consideacutereacutee On peut alors se demander si lrsquoeacutenergie doit ecirctre prise en compte ou si lrsquoinformation qursquoelle contient nrsquoest comprise dans le 2egraveme critegravere En fait la norme relative est un critegravere tregraves bruiteacute et consideacuterer lrsquoeacutenergie par ailleurs permet de nuancer ces artefacts et constitue une base solide de pondeacuteration

Chapitre 3 Description des analyses 28

80

40

0

Figure 37 - Repreacutesentation temps-freacutequence des angles du son deacutecrit en 332 Letrame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On peut donc v

par trame et par bande chacun eacutetant le reacutesultat drsquoune ACP crsquoest-agrave-dire la 1egravere

Figure 38 - Eacutenergie de ce mecircme son On peut voir une basse en notes tenues uneet une batterie qui produit des sons secs dans un spectre plus aigu

80

40

0

80

40

0

Figure 39 - Norme relative de la 1egravere composante de ce mecircme son Les impacts de batterie (dans lrsquoaigu) ressortent davantage

π 0 minusπ

numeacutero de oir un angle direction

voix aiguumle

34 Traitement des donneacutees 29

Figure 310 - Pondeacuteration appliqueacutee agrave lrsquoentreacutee des k-moyennes calculeacutee ici comme

le simple produit de lrsquoeacutenergie et de la norme relative

80

40

0

343 Lissages

Pour faire face au bruit ineacutevitable dans les reacutesultats il faut lisser les donneacutees Ces

lissages temporels correspondent agrave des hypothegraveses de stabiliteacute des sources qui sont supposeacutees ecirctre fixes ou mobiles relativement lentement (dans une mesure agrave parameacutetrer)

Un premier lissage peut ecirctre opeacutereacute avant le traitement par lrsquoalgorithme des k-

moyennes Le filtre choisi est un filtre meacutedian de maniegravere agrave eacuteliminer les points aberrants tout en conservant les vraies valeurs des points coheacuterents Ce lissage est appliqueacute sur chaque sous-bande aux angles et ne tient pas compte des critegraveres de pertinence Il est donc utiliseacute avec parcimonie et peut mecircme ecirctre eacuteviteacute en reacuteglant de maniegravere adeacutequate les critegraveres de pondeacuteration agrave lrsquoentreacutee des k-moyennes

Le deuxiegraveme lissage srsquoeffectue agrave lrsquoentreacutee des k-moyennes en mecircme temps que les

critegraveres de pondeacuteration Il consiste agrave appliquer les k-moyennes non pas sur une fenecirctre donneacutee mais sur plusieurs fenecirctres conseacutecutives anteacuterieures et posteacuterieures en donnant plus de poids agrave la fenecirctre courante Dans la pratique les poids donneacutes aux diffeacuterentes fenecirctres sont eacutetablis par une gaussienne centreacutee sur la fenecirctre courante et de largeur agrave deacuteterminer (en fonction notamment de la dureacutee drsquoune fenecirctre et du type de scegravene analyseacute)

35 Exploitation de toutes les composantes de lrsquoACP Les analyses preacutesenteacutees preacuteceacutedemment ont toutes exploiteacute uniquement la

composante principale extraite par lrsquoACP Or cette analyse fournit des informations plus complegravetes par lrsquointermeacutediaire des autres composantes dont on peut tirer parti pour isoler plusieurs sources au sein drsquoune mecircme bande Cette approche est toujours en deacuteveloppement dans ce stage et nrsquoa pas encore donneacute pleine mesure des reacutesultats qursquoelle laisse entrevoir

Les composantes de lrsquoACP indiquent des directions qui correspondent aux

diffeacuterentes sources composant la scegravene sonore Les vecteurs propres de la matrice de correacutelation donnent ainsi les combinaisons lineacuteaires des signaux HOA permettant de

Chapitre 3 Description des analyses 30

seacuteparer de la meilleure faccedilon possible ces sons Ces directions peuvent ecirctre alors utiliseacutees pour former des directiviteacutes isolant au mieux ces sources

aBS sdot= (31)

ougrave la matrice a contient les vecteurs propres de la matrice de correacutelation (voir Annexe C) le vecteur B contient les signaux HOA et le vecteur S contient les sources extraites

⎟⎟⎟

⎜⎜⎜

=⎟⎟⎟

⎜⎜⎜

⎛=

⎥⎥⎥

⎢⎢⎢

⎟⎟⎟

⎜⎜⎜

⎟⎟⎟

⎜⎜⎜

⎛=

10

1001

1

ML

N

B

BB

S

SSuua MML (32)

On obtient ainsi des lobes drsquoautant plus eacutetroits que lrsquoordre est eacuteleveacute chacun

dirigeacute vers une source et permettant de lrsquoisoler le plus possible des contributions des autres sources La Figure 311 preacutesente les directiviteacutes ainsi trouveacutees par une ACP en pleine bande Une analyse en sous-bande permet une plus grande distinction des sources mais une seacuteparation diffeacuterente entre les bandes est dangereuse car elle risque de dissocier spatialement plusieurs parties drsquoun mecircme son

Figure 311 - Directiviteacutes seacuteparant ideacutealement 4 sources placeacutees agrave 17 73 195 et -58deg

pour une scegravene virtuelle encodeacutee agrave lrsquoordre 4 Ce principe se heurte neacuteanmoins aux limites de seacuteparation lieacutees agrave lrsquoordre

drsquoencodage en effet 2 sources ne pourront pas ecirctre seacutepareacutees si elles sont trop proches comme en teacutemoigne la largeur des lobes principaux Les lobes secondaires traduisent eacutegalement un meacutelange des sources isoleacutees La figure ci-dessus montre ainsi que la source placeacutee agrave 17deg (en vert) sera preacutesente de maniegravere non neacutegligeable dans le signal senseacute contenir la source placeacutee agrave -58deg (en bleu) en raison du lobe secondaire bleu important

31

Chapitre 4

Reacutesultats et applications

41 Illustration et critique des reacutesultats obtenus

411 Avant-propos Sans notification particuliegravere les reacutesultats preacutesenteacutes ont eacuteteacute obtenus avec un pas

de 50 ms une analyse en 80 bandes avec une FFT sur 8192 points Une taille de FTT plus grande et un plus grand nombre de bande augmente la qualiteacute de lrsquoanalyse un pas plus petit ameacuteliore sa preacutecision temporelle mais les reacutesultats sont moins fiables et un lissage plus important srsquoimpose alors Ces paramegravetres ont eacuteteacute reacutegleacutes apregraves de multiples essais sur des scegravenes diverses

Les reacutesultats sont preacutesenteacutes ici uniquement sous la forme de graphiques nous ne

pouvons donc repreacutesenter que les angles trouveacutes agrave la sortie de lrsquoalgorithme des k-moyennes

412 Scegravene 2D artificielle agrave 4 sources fixes La premiegravere scegravene est une scegravene artificielle composeacutee de 4 sons fixes placeacutes agrave -70

-10 45 et 110deg Ces sons (une basse une voix une guitare et une batterie) ont eacuteteacute choisis pour leur varieacuteteacute spectrale et leur varieacuteteacute drsquoattaque Elle a en outre le meacuterite drsquoecirctre reacutealiste et de constituer une seacutequence musicale (chaque son nrsquoest pas une meacutelodie indeacutependante)

On voit sur la Figure 41 ci-dessous que les angles trouveacutes sont proches des

angles theacuteoriques Lrsquoun des sons (agrave 45deg) est quasiment nul avant la 100egraveme trame sa position est alors moins facile agrave deacuteterminer plus preacuteciseacutement une position approximative est trouveacutee et correspondrait exactement agrave la position du bruit (45deg) si lrsquoincertitude de mesure tregraves grande pour un son aussi faible ne rendait la deacutetermination si ardue On mesure un eacutecart-type de 22deg sur cet exemple (en excluant le deacutebut du son agrave 45deg)

Chapitre 4 Reacutesultats et applications 32

Figure 41 - Angles theacuteoriques (en pointilleacutes rouge) et calculeacutes (en trait bleu) pour une scegravene

constitueacutee de 4 sons fixes longue de 11s

413 Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile

Figure 42 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) de la scegravene agrave

4 sources dont 1 mobile deacutecrite en 332 Cette scegravene est deacutecrite en 332 On a ici demandeacute aux k-moyennes de renvoyer 5 barycentres par trame alors que

seules 4 sources eacutetaient preacutesentes dans le but de se garantir une marge vis-agrave-vis des erreurs de deacutetection Cette 5egraveme direction nrsquoest pas du tout gecircnante elle indique une direction qui ne contient pas de source et crsquoest donc un son tregraves faible qui est ainsi pointeacute Apregraves une eacuteventuelle extraction le signal ne sera donc pas du tout gecircnant

41 Illustration et critique des reacutesultats obtenus 33

On peut remarquer que quand le son mobile se rapproche drsquoun son fixe la deacutetection est moins bonne il y a une fusion entre les 2 sons Mais encore une fois lors de lrsquoextraction lrsquoisolation drsquoun des sons englobera lrsquoautre son ce qui ne posera pas de problegraveme pour les objectifs fixeacutes aucune source nrsquoeacutetant oublieacutee En effet la seacuteparation de sources nrsquoest pas un objectif ici mais un moyen pour preacuteciser les positions des sources ce qui sera fait correctement mecircme si 2 sources sont pointeacutees par 1 seule direction

414 Scegravene 3D artificielle agrave une source et bruit de fond

La scegravene dont la position drsquoune source a eacuteteacute extraite ci-dessous est une scegravene virtuelle en 3D constitueacute drsquoun son (une voix) qursquoon a fait se deacuteplacer par paliers tout drsquoabord vers le haut de 0deg agrave 45deg et vers la gauche de 0deg agrave 90deg puis redescendre jusqursquoagrave 35deg en continuant son cheminement vers la gauche jusqursquoagrave 120deg et enfin finir la descente de 35deg agrave 0deg en la laissant agrave 120deg Agrave cette source a eacuteteacute superposeacutee une ambiance spatialiseacutee de hall drsquoaeacuteroport initialement enregistreacutee en 2D (au format 51) mais transformeacutee pour contenir des composantes verticales Cette ambiance deacutecorreleacutee de la source avait pour but de tester la robustesse de lrsquoanalyse Elle eacutetait agrave 15 dB en-dessous du niveau de la voix

Figure 43 - Azimut et eacuteleacutevation theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun

son en 3D artificiel de 9s placeacute dans une ambiance bruyante On remarque que lrsquoanalyse est tregraves correcte Il nrsquoy a pas drsquoeacutecart important entre

les angles theacuteoriques et ceux calculeacutes On note toutefois que le lissage agrave lrsquoentreacutee des k-moyennes a pour effet de gommer les creacuteneaux et drsquoaplatir quelque peu la courbe drsquoeacuteleacutevation ceci nrsquoest pas vraiment gecircnant car de tels sauts dans la position drsquoune source ne sont pas du tout reacutealistes (ils peuvent caracteacuteriser des bruits de pas mais de tels impacts sont courts et on peut srsquoattendre agrave ce que la courbe suive leur position aux instants ougrave ils sont eacutemis)

Chapitre 4 Reacutesultats et applications 34

415 Scegravene 2D naturelle agrave une source Les scegravenes naturelles sont on lrsquoa vu plus deacutelicates agrave exploiter car on ne peut pas

garantir la preacutecision de la position theacuteorique agrave retrouver par le calcul et on ne peut donc pas calculer la preacutecision de lrsquoanalyse Seuls les enregistrements utilisant la table tournante (voir 232) permettent une mesure preacutecise de la position de lrsquoangle Ces enregistrements on pu confirmer la validiteacute de lrsquoanalyse pour des scegravenes reacuteelles on trouve ici un eacutecart-type de 25deg

Figure 44 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun bruit blanc

tournant autour du micro enregistreacute en chambre sourde Cette analyse a eacuteteacute reacutealiseacutee par sous-bandes mais sur une eacutetendue freacutequentielle

plus reacuteduite puisqursquoon srsquoest limiteacute aux possibiliteacutes offertes par le microphone La scegravene a donc eacuteteacute analyseacutee de 200 agrave 10 000 Hz

42 Quelques applications

421 Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre 2 agrave partir de lrsquoordre 1

Une fois les positions des sources connues la porte est ouverte agrave de nombreuses

applications La connaissance de ces positions permet en effet de syntheacutetiser artificiellement des composantes manquantes ou non transmises La premiegravere synthegravese deacuteveloppeacutee est celle des signaux U et V composant la partie horizontale de lrsquoordre 2 agrave partir de lrsquoordre 1 et de paramegravetres issus de lrsquoanalyse pour une source en 2D (des angles dans de cas)

42 Quelques applications 35

Figure 45 - Principe de lrsquoameacutelioration de la preacutecision spatiale

Le principe de la synthegravese est drsquoextraire les sources originales agrave partir de W X Y

et des angles (un angle par trame et par sous-bande) Ceci peut ecirctre reacutealiseacute de maniegravere approcheacutee en deacutecodant lrsquoordre 1 dans les directions des sources Ce deacutecodage revient agrave calculer les signaux qui devraient alimenter des haut-parleurs qui seraient placeacutes agrave ces positions dans le cas drsquoune restitution (voir 122) crsquoest-agrave-dire agrave former des directiviteacutes dans les directions des sources Dans la plupart des cas ce deacutecodage qui fait intervenir une pseudo-inversion de Moore-Penrose (111) est imparfait les sources se retrouvant leacutegegraverement meacutelangeacutees On peut comparer cette seacuteparation agrave celle que ferait un ensemble de microphones agrave directiviteacute hypercardioiumlde coiumlncidents

Figure 46 - Directiviteacutes eacutequivalentes agrave la seacuteparation de 4 sources agrave lrsquoordre 1 Ces sources seacutepareacutees vont ensuite constituer toujours placeacutees aux angles

deacutetermineacutes agrave lrsquoanalyse une scegravene virtuelle qursquoon va encoder agrave lrsquoordre 2 De cet encodage on ne conservera que les signaux manquants dans notre exemple les signaux du 2nd ordre U et V Ainsi la scegravene spatialiseacutee sera au final constitueacutee des signaux W X et Y drsquoorigine (transmis) et des signaux U et V syntheacutetiseacutes

Chapitre 4 Reacutesultats et applications 36

422 Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave partir de W Reconstruire une scegravene sonore spatialiseacutee agrave partir drsquoun unique canal mono est

alors difficile et le reacutesultat nrsquoest appreacuteciable que pour des scegravenes simples Il faut pour cela que les diffeacuterentes sources composant cette scegravene aient des supports spectraux aussi distincts que possible Les diffeacuterentes sous-bandes sont alors placeacutees agrave un certain angle transmis en parallegravele et crsquoest cette scegravene reconstitueacutee qui va ecirctre encodeacutee au 1er ordre de maniegravere agrave recreacuteer les signaux X et Y

Figure 47 - Principe de la restitution de lrsquoordre 1 agrave partir du signal mono W Ce scheacutema rappelle une meacutethode deacuteveloppeacutee dans le cas steacutereacuteo appeleacutee BCC

(Binaural Cue Coding) [Faller and Baumgarte 2002] Le principe est drsquoextraire et coder des informations permettant la reconstruction binaurale drsquoun signal agrave savoir les diffeacuterences interaurales drsquointensiteacute et de temps (Interaural LevelTime Difference ILD et ITD) qui correspondent dans le cas drsquoune restitution sur un casque aux diffeacuterences drsquointensiteacute et de temps inter-canal (Inter-Channel LevelTime Difference ICLD et ICTD) qui sont mesureacutees agrave partir drsquoune analyse en sous-bandes Les auteurs y ont plus reacutecemment associeacute un indice de correacutelation interaurale mesureacute agrave partir de la correacutelation inter-canal (ICC) afin de caracteacuteriser la preacutecision spatiale (la ldquolargeurrdquo drsquoune source)

Figure 48 - Scheacutema de principe de la meacutethode BCC [Faller and Baumgarte 2003]

On observe en pratique des deacutefauts lieacutes agrave la brutaliteacute de la proceacutedure une sous-

bande ne peut ecirctre que placeacutee agrave la position indiqueacutee et ne peut pas rester floue diffuse ou encore ecirctre placeacutee agrave plusieurs endroits Pour y remeacutedier nous avons ajouteacute 2 traitements agrave la synthegravese Tour drsquoabord nous avons appliqueacute un leacuteger lissage soulageant les effets deacutesagreacuteables dus au saut du contenu drsquoune sous-bande drsquoun endroit agrave un autre entre de 2 fenecirctres conseacutecutives Les positions varient alors de faccedilon plus souple au sein drsquoune mecircme sous-bande traduisant une hypothegravese de continuiteacute spatiale (pas de deacuteplacement brusque) La contrepartie est que cette hypothegravese est lieacutee agrave une hypothegravese de continuiteacute spectrale

42 Quelques applications 37

La 2egraveme ameacutelioration concerne le positionnement des sources En incluant dans la transmission un critegravere de pertinence on peut savoir srsquoil est raisonnable de placer une sous-bande agrave un angle preacutecis ou bien si lrsquoanalyse eacutetait flou agrave son sujet auquel cas un positionnement impreacutecis serait preacutefeacuterable Le paramegravetre choisi est une combinaison des critegraveres eacutevoqueacutes en 342 il nous permet de placer la sous-bande de maniegravere plus ou moins prononceacutee

43 Comparaison avec une meacutethode existante Certains auteurs ont deacutejagrave essayeacute drsquoanalyser un contenu ambisonique pour

retrouver les positions des sources Ville Pulkki a ainsi deacutecrit dans [Pulkki and Faller 2006] une meacutethode drsquoanalyse du B-format baseacutee sur lrsquoeacutetude des amplitudes des signaux W X Y et Z

Figure 49 - X et Y dans le cas drsquoune sinusoiumlde placeacutee agrave 15deg (agrave gauche) et 120deg (agrave droite)

Les figures ci-dessus montrent les relations drsquoamplitudes (algeacutebriques) qui relient

X et Y agrave lrsquoangle de la source On voit que lrsquoanalyse de ces amplitudes respectives permet de retrouver la position de la source en effet on a pour une source unique les relations de lrsquoeacutequation (11) rappeleacutee ici

⎪⎪

⎪⎪

=

=

=

=

δ

δθ

δθ

sin2

cossin2

coscos2

SZ

SY

SX

SW

(41)

On peut donc theacuteoriquement retrouver les valeurs de θ et δ par relations

trigonomeacutetriques Ainsi on a

⎪⎪⎩

⎪⎪⎨

=

=

2)sin(

)tan(

WZ

XY

δ

θ (42)

Chapitre 4 Reacutesultats et applications 38

On peut donc trouver les angles θ et δ agrave π pregraves Pour lever lrsquoambiguiumlteacute une eacutetude de signe est neacutecessaire Mais dans le cas de θ le signe de X et de Y agrave δ fixeacute deacutepend aussi bien de θ que S Il faut srsquointeacuteresser aux signes de θcos et θsin crsquoest-agrave-dire

aux signes de WX et

WY Dans la pratique on srsquointeacuteressera aux signes de et

pour se preacutevenir des divisions par zeacuteros

XW sdot YW sdot

XW sdot et YW sdot sont proportionnels agrave toujours positif

2S

Les auteurs deacutecrivent eacutegalement dans leur article un critegravere appeleacute diffuseness qui

peut ecirctre compareacute agrave un critegravere de pertinence inverseacute Ce paramegravetre calculeacute par agrave 1 - R ougrave R est un rapport de normes est tregraves proche du critegravere de norme relative deacutecrit en 342 Il peut donc ecirctre utiliseacute de la mecircme faccedilon et permettre ainsi une pleine comparaison

Cette meacutethode a eacuteteacute impleacutementeacutee pour pouvoir ecirctre compareacutee avec la meacutethode

par ACP Tous les paramegravetres ont scrupuleusement eacuteteacute gardeacutes identiques et plusieurs reacuteglages ont eacuteteacute testeacutes Les courbes ci-dessous preacutesentent les reacutesultats des analyses de la scegravene deacutecrite en 332 avec un pas de 50ms un overlap de 50 un NFFT de 2048 et 40 bandes freacutequentielles Nous avons repreacutesenteacute tous les angles trouveacutes crsquoest-agrave-dire un par bande et par trame pour srsquoaffranchir de la seacutelection des k-moyennes

π

0

minusπ

Figure 410 - Angles trouveacutes par lrsquoalgorithme de [Pulkki and Faller 2006] Le diamegravetre du point correspondant agrave la pertinence

43 Comparaison avec une meacutethode existante 39

π

0

minusπ

Figure 411 - Angles trouveacutes par une ACP pour la mecircme scegravene On remarque que les points excentriques sont moins nombreux et plus rarement trouveacutes comme pertinents

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee

441 Position du problegraveme

Une application directe de ces analyses a eacuteteacute deacuteveloppeacutee pour la confeacuterence audio

spatialiseacutee La confeacuterence audio utilise en effet la spatialisation pour permettre une meilleure seacuteparation par lrsquooreille des diffeacuterents locuteurs Ainsi si plusieurs personnes parlent en mecircme temps il sera tregraves difficile de comprendre chacun individuellement si ces voix sont restitueacutees en mono mais on pourra focaliser lrsquoattention sur chacune drsquoentre elles si elles sont seacutepareacutees spatialement (crsquoest lrsquoeffet cocktail party [Cherry 1953])

Lrsquoobjectif eacutetait de veacuterifier qursquoil eacutetait possible de conserver la spatialisation drsquoune

confeacuterence en nrsquoayant transmis qursquoun downmix mono des signaux Ce concept semble se rapprocher de celui deacutecrit en 422 mais une diffeacuterence fondamentale les seacutepare la confeacuterence audio spatialiseacutee nrsquoest pas codeacutee au format ambisonic mais les signaux traiteacutes sont directement les sons provenant des diffeacuterents locuteurs crsquoest-agrave-dire les sources elles-mecircmes Ainsi lrsquoanalyse ne porte plus sur une scegravene spatialiseacutee mais sur des signaux seacutepareacutes Il nrsquoy a ainsi plus drsquoindices spatiaux agrave trouver

Avoir accegraves aux sources permet drsquoobtenir des informations plus preacutecises pour

permettre une seacuteparation apregraves la transmission Comme nous lrsquoavons vu lrsquoanalyse drsquoune scegravene spatialiseacutee ne permet que dans drsquoultimes cas agrave la seacuteparation des sources ce qui est ici notre point de deacutepart et sera en fait notre point drsquoarriveacutee En effet nous tenterons de retrouver les sources seacutepareacutees apregraves la transmission de maniegravere agrave pouvoir par la suite les spatialiser agrave loisir (voir Figure 413)

Chapitre 4 Reacutesultats et applications 40

442 Solution proposeacutee Les paramegravetres extraits ne sont donc plus des positions de sources Nous avons

choisi de mesurer puis transmettre lrsquoeacutenergie de chaque signal dans chaque sous-bande en parallegravele du downmix En effet une bonne seacuteparation sera possible si lrsquoon sait quelle proportion de chaque source compose chaque sous-bande du signal mono

Figure 412 - Scheacutema de principe drsquoune confeacuterence audio spatialiseacutee

Figure 413 - Scheacutema ameacutelioreacute (deacutebit reacuteduit)

en pointilleacutes informations compleacutementaires (eacutenergie) Lrsquoanalyse en sous-bandes a lieu dans le serveur (Figure 414) Celui-ci calcule

lrsquoeacutenergie de chaque signal dans chaque sous-bande sur une trame donneacutee Crsquoest ce paramegravetre qui associeacute au signal mono M permettra la seacuteparation des sources dans le terminal (Figure 415) Ce dernier reacutepartira en effet les diffeacuterentes sous-bandes vers chaque signal reconstitueacute proportionnellement agrave cette information pour reconstruire les 4 sources originales

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee 41

Figure 414 - Analyse principe de lrsquoencodage dans le serveur

Figure 415 - Synthegravese principe du deacutecodage dans le client

Afin de reacuteduire au maximum les informations compleacutementaires agrave transmettre on

peut remarquer qursquoau cours drsquoune confeacuterence audio on a tregraves souvent un seul locuteur les participants ne parlent que tregraves rarement tous en mecircme temps Ceci implique que les signaux en entreacutee sont tregraves souvent tous nuls sauf 1 et appliquer un seuil en entreacutee de lrsquoanalyse permet outre lrsquoallegravegement du traitement drsquoavoir moins de paramegravetres agrave transmettre

Ce scheacutema simplifieacute ne tient pas compte des problegravemes de phase rien nrsquoindique

que les eacutenergies des signaux srsquoajoutent bien dans chaque sous-bande lors du downmix on peut tregraves bien avoir des oppositions de phase La solution est drsquoeffectuer le downmix (la somme) des signaux dans chaque sous-bande en prenant soin drsquoavoir recaleacute les phases au preacutealable Ceci nrsquoa un sens que pour des bandes suffisamment eacutetroites Les deacutecalages temporels appliqueacutes pour le recalage sont alors des paramegravetres suppleacutementaires agrave transmettre et sont pris en compte lors de la synthegravese au niveau du reacutepartiteur qui repositionnera la phase de chaque trame pour chaque signal

Chapitre 4 Reacutesultats et applications 42

443 Bilan Le reacutesultat du deacutecodage a pu ecirctre eacutecouteacute de diffeacuterentes maniegraveres les sources

reconstitueacutees individuellement ensemble en steacutereacuteo drsquoamplitude et sur un systegraveme 51 On note que les sources ont eacuteteacute assez bien seacutepareacutees mais que des artefacts sont audibles en particulier lorsque le nombre de locuteurs simultaneacutes augmentent Ces artefacts sont un meacutelange des voix qui nrsquoest gecircnant que lorsqursquoon les eacutecoute de maniegravere seacutepareacutee En effet lrsquoeacutecoute simultaneacutee de ces signaux syntheacutetiseacutes mecircme placeacutes agrave des positions distinctes sur un systegraveme de diffusion multicanal est tout agrave fait satisfaisante

Ce proceacutedeacute pour pouvoir ecirctre appliqueacute doit fonctionner en temps-reacuteel Cette

contrainte nrsquoa pas du tout eacuteteacute prise en compte lrsquoobjectif eacutetant de valider la faisabiliteacute drsquoune reconstruction Les programmes sous Matlab nrsquoont pas eacuteteacute optimiseacutes et ne respectent pas cette contrainte

43

Conclusion Nous avons preacutesenteacute dans ce rapport le principe et lrsquoapplication de plusieurs

meacutethodes drsquoanalyses spatiales de scegravenes ambisoniques conccedilues et reacutealiseacutee pendant le stage Le format HOA est en effet une repreacutesentation du champ acoustique deacutecomposeacute sur une base drsquoharmoniques spheacuteriques jusqursquoagrave un certain ordre agrave la maniegravere drsquoun deacuteveloppement limiteacute Il contient donc de maniegravere indirecte des indications spatiales qursquoon peut extraire avec des analyses comme lrsquoanalyse en composantes principales

Ces analyses nous permettent de deacuteterminer les positions des sources qui

composent la scegravene sonore Nous avons appliqueacute les reacutesultats de ces analyses agrave 2 types de synthegravese lrsquoune destineacutee aux transmissions bas deacutebit lrsquoautre agrave un traitement de restitution de la preacutecision spatiale dans le cas ougrave des ordres supeacuterieurs dont le but est drsquoaffiner la perception de localisation nrsquoauraient pas pu ecirctre transmis Ces algorithmes par le codage drsquoinformations spatiales qursquoils permettent pourront trouver bien drsquoautres applications dans la transmission et le codage ougrave la description du contenu est de plus en plus utiliseacutee (comme par exemple dans la norme MPEG)

Des ameacuteliorations sont possibles sur plusieurs points tout drsquoabord lrsquoexploitation

de toutes les composantes de lrsquoACP est agrave lrsquoeacutetude et semble pouvoir donner des reacutesultats inteacuteressants Drsquoautre part on a vu que le reacutesultat final est tregraves deacutependant de la bonne convergence de lrsquoalgorithme des k-moyennes utiliseacute pour traiter les donneacutees brutes de lrsquoanalyse en sous-bandes Or cet algorithme neacutecessite des reacuteglages tregraves fins et une connaissance a priori du nombre de sources est presque indispensable Drsquoautres algorithmes plus complexes de suivi de formes pourraient ecirctre avantageusement utiliseacutes pour deacutetecter dans tous les angles trouveacutes lesquels sont susceptibles de former une trajectoire

45

Annexe A

Deacuteveloppement du champ acoustique en harmoniques spheacuteriques

A1 Eacutequation drsquoonde en coordonneacutees spheacuteriques On se place dans lrsquoespace euclidien agrave 3 dimensions muni drsquoun systegraveme de

coordonneacutees spheacuteriques Un point M y est repeacutereacute par son rayon r son azimut θ et son eacuteleacutevation δ tels que repreacutesenteacutes sur la figure ci-dessous

- r est la norme du vecteur position rr crsquoest-agrave-dire la distance OM - [20[ πθ isin est lrsquoangle formeacute par le projeteacute du point sur le plan xOy et lrsquoaxe Ox

- ]2

2

[ ππδ minusisin est lrsquoangle formeacute par le plan xOy et le vecteur position2

Figure A1 - Systegraveme de coordonneacutees spheacuteriques

2 Cet angle diffegravere de lrsquoangle polaire usuel δπϕ minus=

2 habituellement pris entre lrsquoaxe Oz et le

vecteur position

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 46

Les relations entre les coordonneacutees spheacuteriques et les coordonneacutees carteacutesiennes sont

⎪⎩

⎪⎨

===

δδθδθ

sincossincoscos

zryrx

(A1)

On srsquointeacuteresse dans ce repegravere agrave lrsquoeacutequation de propagation des ondes acoustiques

de pression On se place dans les conditions classiques drsquoacoustique lineacuteaire (les variations de p sont petites par rapport agrave la pression atmospheacuterique) en supposant que lrsquoair est un fluide parfait (on y neacutegligera les pheacutenomegravenes dissipatifs) Dans une reacutegion de lrsquoespace ne comprenant pas de sources lrsquoeacutequation drsquoonde srsquoeacutecrit alors

0)(12

2

2 =⎟⎟⎠

⎞⎜⎜⎝

⎛partpart

minus∆ trptc

r (A2)

p eacutetant la pression et c la vitesse de propagation du son dans lrsquoair

Cette eacutequation devient dans le domaine freacutequentiel lrsquoeacutequation de Helmholtz

( ) 0)(2 =+∆ ωrpk r (A3)

ck ω

= eacutetant le nombre drsquoonde

En coordonneacutees spheacuteriques cette eacutequation srsquoeacutecrit

0sin1sin

sin11 2

2

2

222

2 =⎥⎦

⎤⎢⎣

⎡+

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart pk

rrrr

rr δθθθ

θθ (A4)

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques Drsquoapregraves [Bruneau 1983] elle admet des solutions agrave variables seacutepareacutees de la forme

)()()( δθ ΦΘ= rRp (A5) Ces solutions sont respectivement - pour la partie radiale une combinaison des fonctions de Bessel spheacuteriques de

premiegravere et seconde espegravece3 jn et nn

)()()( krBnkrAjrR nn += (A6) 3 Les fonctions de Bessel spheacuteriques de seconde espegravece sont eacutegalement appeleacutees fonctions de

Neumann

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 47

Ces fonctions sont deacutefinies comme suit

(A7)

Figure A2 - Fonctions de Bessel spheacuteriques pour les ordres 0 agrave 5 )(krjm

- pour la partie azimutale les fonctions )(θΘ

)sin()cos()( 21 θθθ ncnc +=Θ (A8) Eacutetant donneacute la deacutefinition de lrsquoangle Θ celui-ci doit neacutecessairement ecirctre de

peacuteriode 2π ))2()(( πθθ +Θ=Θ ce qui impose agrave n drsquoecirctre entier

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 48

- pour la partie polaire les fonctions de Legendre associeacutees )(sinδmnP

nm

nn

mn dPdP

)(sin)(sinsin)(sin

δδ

δδ = pour ⎩⎨⎧

gt=

nmavecnm 321

(A9)

ougrave les )(sinδnP sont les polynocircmes de Legendre de degreacute n en δsin deacutefinis par reacutecurrence

( )

11

22

1

0

sin)12()(sin)1(

1cos321)(sin

sin)(sin0)(sin

minus+ minus+=+

minus=

==

mmm mPPmPmet

P

PP

δδ

ϕδ

δδδ

(A10)

et de formule geacuteneacuterale

mm

m

mm dd

mP )1(sin

)(sin21)(sin 2 minus= δ

δδ (A11)

On peut appliquer aux fonctions )(sinδmnP la semi-normalisation de Schmidt

)(sin)()()(sin~ δεδ mnnmn P

nmnmP

+minus

= ougrave 10 =ε et 2=nε pour 1gen (A12)

En appariant les fonctions polaires et azimutales on deacutefinit les harmoniques

spheacuteriques de degreacute et drsquoordre)1(mnY 0gem 4 mnn lele0 et de degreacute et

drsquoordre (voir Figure A3)

)1(minusmnY 1gem

mnn lele1

)(sin~)sin()(

)(sin~)cos()()1(

)1(

δθδθ

δθδθ

mnmn

mnmn

PnY

PnY

=

=minus

(A13)

4 En geacuteneacuteral lorsque le degreacute et lrsquoordre ne sont pas eacutevoqueacutes conjointement on parle par abus de langage drsquoharmoniques drsquoordre m plutocirct que de degreacute m

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 49

soit

1)(sin

)()()12(2sin)(

)(sin)()()12(2cos)(

1)(sin)1()1()12(cos)(

)1(

)1(

1)1(

1

gt

⎪⎪⎩

⎪⎪⎨

+minus

+=

+minus

+=

=+minus

+=

minus

npourP

nmnmmnY

PnmnmmnY

npourPmmmY

mnmn

mnmn

mm

δθδθ

δθδθ

δθδθ

(A14)

La solution angulaire geacuteneacuterale srsquoeacutecrit alors sous la forme drsquoun deacuteveloppement sur

la base drsquoharmoniques spheacuteriques

( ) ( )sum minus

=minus+=Θ

1

1)1()1()( n

m mnmnmnmnn YBYBθ (A15) La solution geacuteneacuterale est alors la seacuterie de Fourier-Bessel

sum sum sum+infin

= = plusmn=

=0 0 1

)()( )()()(m

m

nmnmnm

m YBkrjikrpσ

σσ δθδθ (A16)

ougrave

intint⎪⎩

⎪⎨⎧

minusisin

isin

plusmnplusmn =

]2

2

[

[20[

)1()1( )()1()(

1

ππδ

πθ

δθδθ

S

mnm

mmn dSYpkrji

B (A17)

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 50

Tableau A1 - Expressions analytiques des harmoniques spheacuteriques pour les ordres 0 agrave 3

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 51

Figure A3 - Repreacutesentation des harmoniques spheacuteriques pour les ordres m = 0 agrave 3 Les

couleurs rouge et bleu indiquent respectivement des valeurs positives et neacutegatives

53

Annexe B

Compleacutements theacuteoriques sur le deacutecodage HOA

B1 Vecteur veacutelociteacute et vecteur eacutenergie Le vecteur veacutelociteacute est un indice de la direction apparente drsquoune source introduit

par Gerzon [Gerzon 1992] Il se calcule comme le rapport de la vitesse particulaire sur la pression acoustique

)()(

)()(1

δθδθ

δθδθ

ρ rprp

ki

rprv

cV nabla

minus=minus=rrr

(B1)

Dans le cas drsquoune onde plane le vecteur veacutelociteacute V

rest ainsi directement un

vecteur unitaire orienteacute vers la direction de provenance de lrsquoonde En geacuteneacuteralisant agrave une superposition drsquoondes planes en phase ou opposition de phase eacutemises par L haut-parleurs agrave eacutequidistance du point drsquoobservation on obtient la formule suivante

VVL

ll

L

lll

urg

ugV r

rr

==

sum

sum

=

=

1

1 (B2)

ougrave deacutesigne la direction du llur egraveme haut-parleur auquel est associeacute le gain gl et Vr Vur correspondent respectivement agrave la norme et agrave la direction du vecteur veacutelociteacute

Le vecteur eacutenergie est un autre indice de direction Il est deacutefinit par

EEL

ll

L

lll

urg

ugE r

rr

==

sum

sum

=

=

1

2

1

2

(B3)

Annexe B Compleacutements theacuteoriques sur le deacutecodage HOA 54

Il peut srsquointerpreacuteter comme une indication de la concentration de lrsquoeacutenergie ( ) et de sa direction moyenne de provenance (

Er

Eur ) On a toujours 1ltEr sauf dans le cas ougrave un seul haut-parleur contribue agrave la reconstruction (dans ce cas ) peut ecirctre consideacutereacute comme un indicateur de preacutecision de la localisation

1=Er Er

B2 Deacutecodages optimiseacutes La restitution la plus confortable drsquoun champ sonore veillera donc agrave maximiser

tout en essayant de garder le plus proche possible de 1 Lrsquooptimisation du deacutecodage consiste alors agrave multiplier chaque coefficient de la matrice de deacutecodage D (voir (111) par des gains calculeacutes drsquoapregraves des critegraveres drsquooptimisation

Er Vr

Ainsi le deacutecodage appeleacute max- maximise la norme du vecteur eacutenergie en

sacrifiant celle du vecteur veacutelociteacute puisqursquoon a dans ce deacutecodage (pour des configurations reacuteguliegraveres de haut-parleurs) Ce deacutecodage est donc avantageux par rapport au deacutecodage basique pour les hautes freacutequences ou dans le cas drsquoun auditoire eacutelargi Le deacutecodage in-phase va encore plus loin en cherchant agrave annuler complegravetement les contributions des haut-parleurs placeacutes agrave lrsquoopposeacute de la direction de provenance de lrsquoonde reproduite Ce critegravere est utile dans le cas drsquoune eacutecoute dans une position tregraves excentreacutee agrave laquelle on pourrait percevoir de faccedilon preacutedominante la contribution en opposition de phase drsquoun tel haut-parleur

Er

EV rr =

Ces diffeacuterents deacutecodages ont chacun des avantages et inconveacutenients Ainsi seul le

deacutecodage basique garantit = 1 le deacutecodage max- permet une preacutecision meilleure notamment en haute freacutequence et le deacutecodage in-phase est plus adapteacute agrave un auditoire plus large Jeacuterocircme Daniel [Daniel 2000] propose ainsi de changer le deacutecodage en fonction de la freacutequence et de lrsquoeacutetendue de la zone drsquoeacutecoute deacutesireacutee

Vr Er

Figure B1 - Deacutecodages les plus approprieacutes par sous-bande et en fonction de lrsquoeacutetendue de la

zone drsquoeacutecoute [Daniel 2000]

55

Annexe C

Analyse en composantes principales

C1 Espace des donneacutees Eacutegalement souvent appeleacutee transformeacutee de Karhunen-Loegraveve5 (TKL) lrsquoanalyse en

composantes principales (ACP) est une technique statistique de repreacutesentation drsquoinformation Introduite sur 2 variables par Pearson [Pearson 1900] elle a eacuteteacute eacutetendue par Hotelling [Hotelling 1933] Elle a pour but de caracteacuteriser des donneacutees drsquoun espace agrave N dimensions dans un sous-espace plus petit en minimisant les pertes drsquoinformation due agrave la projection crsquoest-agrave-dire en maximisant la variance projeteacutee Les donneacutees ainsi reacuteorganiseacutees deviennent indeacutependantes Les variables correacuteleacutees sont remplaceacutees par de nouvelles variables deacutecorreacuteleacutees et de variance maximale combinaisons lineacuteaires des variables initiales

Les donneacutees sont constitueacutees de n variables aleacuteatoires (dans notre cas des canaux)

et p reacutealisations ou individus (des eacutechantillons)

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

pn

p

ji

n

xx

x

xx

M

LLL

MOMNM

MLLM

MNMOM

LLL

1

111

(C1)

Ces donneacutees sont geacuteneacuteralement centreacutees et peuvent aussi ecirctre reacuteduites4 (on note

1x la moyenne de la variable et 1x )( 1xσ sa variance) Reacuteduire ou non le nuage de points (ie les p reacutealisations de la variable aleacuteatoire) est un choix de modegravele

5 Quelques rares sources mentionnent une diffeacuterence entre ACP et TKL en placcedilant celle-ci au

niveau du choix de la reacuteduction des donneacutees dans le cas dune ACP les donneacutees seraient centreacutees et reacuteduites alors qursquoelles seraient uniquement centreacutees pour une TKL

Annexe C Analyse en composantes principales 56

- si on ne reacuteduit pas le nuage une variable agrave forte variance pourrait tirer tout lrsquoeffet de lrsquoACP agrave elle

- si on reacuteduit le nuage une variable qui ne serait qursquoun bruit se retrouverait avec une variance apparente eacutegale agrave une variable informative

M est centreacutee

⎥⎥⎥

⎢⎢⎢

minusminusminus

minusminus=

npn

pi

ji

nn

xxxxxx

xxxxM

K

MM

K

11

11

11

ˆ (C2)

M~ est centreacutee et reacuteduite

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

minusminus

minus

minusminus

=

)()(

)(

)()(~

1

11

1

1

111

n

npn

pi

ij

i

n

nn

xxx

xxx

xxx

xxx

xxx

M

σσ

σ

σσ

K

MM

K

(C3)

On multiplie ensuite la matrice obtenue par sa transposeacutee pour obtenir - La matrice de covariance MMC t

vˆˆ sdot=

- La matrice de correacutelation MMC tr

~~ sdot= Ces matrices sont carreacutees (N x N) symeacutetriques et reacuteelles Elles sont donc

diagonalisables dans une base orthonormeacutee 6 Le principe de lrsquoACP est alors de trouver un axe u issu drsquoune combinaison lineacuteaire

des tel que le critegravere drsquoinertie du nuage autour de cet axe soit maximal Le critegravere drsquoinertie couramment utiliseacute est la variance Il faut donc trouver lrsquoaxe qui porte le maximum de variance crsquoest-agrave-dire lrsquoaxe u tel que la projection du nuage sur cet axe ait une variance maximale

nx

6 Nos donneacutees eacutetant ici des valeurs drsquoeacutechantillons elles sont par nature centreacutees et reacuteduites On

formera donc naturellement la matrice de correacutelation

C2 Diagonalisation 57

C2 Diagonalisation Pour alleacuteger lrsquoeacutecriture de la suite de cette partie nous consideacutererons que les

variables ont eacuteteacute centreacutees et si besoin reacuteduites et nous noterons ces variables

transformeacutees (ainsi

ix ix

iii xxx minuslarr ou bien )( i

iii x

xxxσ

minuslarr ) On fera de mecircme pour M

( ou bien MM ˆlarr MM ~larr ) et C ( vCC larr ou bien rCC larr ) La projection drsquoun eacutechantillon sur un axe u srsquoeacutecrit ix

uMxiu sdot=)(π (C4) La variance empirique de )( iu xπ vaut donc

uMMuxx ttiu

tiu sdotsdotsdot=sdot )()( ππ (C5)

Or on a vu que est diagonalisable dans une base orthonormeacutee donc

on peut noter P le changement de base associeacute et ∆ la matrice diagonale formeacutee de son spectre Ainsi

MMC t=

n

i 1)(λ PPMMC tt ∆==

)()()()( PuPuuPPuxx ttt

iut

iu sdot∆sdot=sdot∆sdot=sdotππ (C6) On pose v = Pu Chercher lrsquoaxe u qui maximise )( iu xπ revient donc agrave chercher le

vecteur v qui maximise ougravevvt ∆ )( 1 ndiag λλ K=∆ avec les iλ rangeacutes par ordre deacutecroissant Ce vecteur est trivialement le premier vecteur unitaire et on a alors

1λ=∆vvt

Ainsi le vecteur qui porte la plus grande part drsquoinertie du nuage est le premier

vecteur propre de C (premier par norme deacutecroissante) De mecircme le deuxiegraveme vecteur qui explique la plus grandelt part de lrsquoinertie restante est le deuxiegraveme vecteur propre de C Finalement la question de lrsquoACP se ramegravene agrave un problegraveme de diagonalisation de la matrice de correacutelation

C3 Code Matlab

function [vep vap] = pca(f N) f donneacutees N nombre de composantes agrave garder cor = f f formation de la matrice de correacutelation [vep vap] = eig(cor) calcul des vecteurs (vep) et valeurs (vap) propres [vap ind] = sort(diag(vap)) tri des valeurs propres par ordre croissant vap = flipud(vap) disposition inverse par ordre drsquoimportance vep = vep( flipud(ind)) classement en conseacutequence des vecteurs propres vep = vep( 1N) on ne garde que les N premiers vecteurs propres

Annexe C Analyse en composantes principales 58

59

Annexe D

Analyse en sous-bandes

D1 La transformeacutee de Fourier agrave court terme (TFCT) Pour affiner lrsquoanalyse les signaux sont donc deacutecoupeacutes en bandes de freacutequence par

TFCT La TFCT consiste agrave effectuer des transformeacutees de Fourier discregravetes sur des portions de signal fenecirctreacutees reacuteguliegraverement espaceacutees

On rappelle que la transformeacutee de Fourier drsquoun signal x(t) est deacutefinie (lorsque

lrsquointeacutegrale existe) par

int+infin

infinminus

minus= dtetxfX ftiπ2)()( (D1)

La transformeacutee de Fourier agrave temps discret (TFTD) drsquoun signal x(t) srsquoeacutecrit

sum+infin

minusinfin=

minus=n

fnienxfX π2)()( (D2)

La transformeacutee de Fourier discregravete (TFD) drsquoun signal discret x(k) est deacutefinie par

sum+infin

minusinfin=

minus=

n

Nkni

enxkXπ2

)()( (D3)

La TFCT discregravete est une TFD observeacutee sur une fenecirctre wa de taille N

summinus

=

minus+=

1

0

2)())(()(

N

n

Nnki

aaa enwtnxkXπ

ττ (D4)

ougrave )(taτ est lrsquoinstant drsquoanalyse

Annexe D Analyse en sous-bandes 60

Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT [Laroche 1995]

D2 Synthegravese par addition-recouvrement Lors de la synthegravese apregraves le deacutecoupage et lrsquoanalyse des fenecirctres on cherche agrave

reconstruire le signal temporel agrave partir de sa repreacutesentation freacutequentielle Pour cela on utilise la meacutethode OLA (overlap and add addition-recouvrement) qui consiste agrave prendre la TFCT inverse des spectres Xt puis agrave additionner les signaux obtenus apregraves les avoir multiplieacutes par une fenecirctre de pondeacuteration en les faisant se recouvrir partiellement

Le reacutesultat est donneacute par

sum=

minusminus=T

tsss tnxtnwnx

s1

))((~))(()(~ ττ τ (D5)

avec )()( tt as ττ = et summinus

=

=1

0

2))((~1)(~ N

k

Nkni

s ektXN

nxs

π

τ τ

Lors de la mise en œuvre de ce traitement il faut srsquoassurer drsquoecirctre en mesure de

reconstruire parfaitement un signal lorsqursquoaucune transformation ne lui est appliqueacutee Le critegravere de reconstruction parfaite condition suffisante est alors

sum=

=minusminusT

tasaa tnwtnw

11))(())(( ττ quelque soit n (D6)

D2 Synthegravese par addition-recouvrement 61

Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add [Laroche 1995]

Plusieurs paramegravetres sont agrave choisir avec soin Le premier drsquoentre eux est le type

de fenecirctre agrave utiliser Les diffeacuterentes options qui se preacutesentent agrave nous sont - la fenecirctre rectangulaire qui preacutesente dans son spectre le lobe principal le plus

eacutetroit mais des lobes secondaires non neacutegligeables - la fenecirctre de Hamming au lobe principal un peu plus large mais pour laquelle le

1er lobe secondaire se situe agrave -43 dB - la fenecirctre de Hann (ou cosinus sureacuteleveacute) qui ressemble agrave la preacuteceacutedente avec un

1er lobe secondaire plus fort mais une pente de 18 dB par octave pour les lobes suivants

- les fenecirctres de Blackman-Harris aux lobes secondaires tregraves bas mais au lobe principal plus large

Fenecirctre Lobe 2aire

(dB) Pente

(dBoct) Bande passante

agrave 6 dB (bins) Rectangulaire -13 -6 121 Triangulaire -27 -12 178

Hann -32 -18 200 Hamming -43 -6 181

Blackman-Harris 4 -92 -6 272

Tableau D1 - Caracteacuteristiques des principales fenecirctres drsquoanalyse [Harris 1978] Le meilleur compromis est donc dans notre contexte la fenecirctre de Hann ou celle

de Hamming

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 20: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

Chapitre 2 Analyser un contenu HOA 14

adapteacute agrave la transmission Ainsi si on souhaite transmettre une scegravene encodeacutee agrave lrsquoordre 2 dans le plan horizontal il faudra un canal drsquoun deacutebit minimum (si lrsquoon prend lrsquohypothegravese de pas vouloir compresser les signaux) de 471 Mos Un canal plus petit (par exemple 34 Mos) ne permettra theacuteoriquement de transmettre qursquoun ordre 1 Mais lrsquoanalyse des signaux peut permettre de deacuteterminer les positions des sources agrave partir desquelles on peut syntheacutetiser des composantes du 2nd ordre approchant les composantes drsquoorigine On pourrait mecircme imaginer pouvoir syntheacutetiser un ordre qui nrsquoavait pas eacuteteacute encodeacute agrave lrsquoorigine

Pour cela il est neacutecessaire de deacuteterminer les positions des sources preacutedominantes

dans le champ sonore pour piloter leur encodage spatial aux ordres supeacuterieurs et arriver agrave la synthegravese drsquoune repreacutesentation de reacutesolution spatiale accrue Il srsquoagit dans le mecircme temps drsquoisoler au mieux les signaux associeacutes agrave ces diffeacuterentes sources avant de leur appliquer lrsquoopeacuteration drsquoencodage on se rapproche donc drsquoun problegraveme de seacuteparation de sources

Pour parvenir agrave trouver ces positions deux meacutethodes ont eacuteteacute testeacutees La premiegravere

consiste comme preacuteceacutedemment agrave appliquer en sous-bandes une analyse en composantes principales La seconde implique la formation de directiviteacutes agrave partir des vecteurs propres de la matrice de correacutelation utiliseacutee dans cette analyse

Lrsquoanalyse en composantes principales ou ACP (voir Annexe C) est donc

largement privileacutegieacutee dans nos approches Elle permet en effet tregraves facilement drsquoextraire des informations preacutecises de signaux correacuteleacutes Pour justifier ce choix une autre meacutethode reacutecente a eacutegalement eacuteteacute testeacutee et compareacutee agrave lrsquoACP (voir 11)

22 Principe de lrsquoextraction drsquoinformation spatiale avec une ACP

221 Information spatiale

Nous avons donc tout drsquoabord testeacute lrsquoanalyse en composantes principales sur des

signaux HOA Nous avons choisi dans un premier temps de limiter lrsquoanalyse aux composantes horizontales du premier ordre W X et Y avant de lrsquoeacutetendre agrave la 3egraveme dimension avec Z

Dans un premier test les signaux HOA sont analyseacutes par une ACP dans leur

inteacutegraliteacute LrsquoACP est appliqueacutee sur les signaux X et Y qui contiennent lrsquoinformation spatiale En effet X et Y correspondent aux signaux qui seraient capteacutes par des microphones agrave figure en 8 placeacutes sur lrsquoaxe avant-arriegravere et gauche-droite respectivement

La Figure 21 montre la correacutelation entre X et Y dans le cas drsquoun bruit blanc capteacute

par le microphone ambisonique Les points ne sont pas exactement aligneacutes du fait des artefacts inheacuterents agrave la prise de son (reacuteflexions sur les parois approximations du microphone etc)

22 Principe de lrsquoextraction drsquoinformation spatiale avec une ACP 15

Figure 21 - Y en fonction de X dans le cas drsquoun bruit blanc enregistreacute placeacute agrave 30deg

On remarque que le nuage est eacutetireacute dans la direction de provenance du son indiqueacutee par la flegraveche en pointilleacutes verts

222 Application de lrsquoanalyse en composantes principales La 1egravere composante issue de lrsquoACP appliqueacutee dans le plan (X Y) pointe dans la

direction dans laquelle X et Y ont la plus grande correacutelation Or comme X contient lrsquoinformation placeacutee sur lrsquoaxe avant-arriegravere et Y lrsquoinformation de lrsquoaxe gauche-droite cette direction est directement la direction de la source Par exemple un son situeacute droit devant dans lrsquoaxe (agrave 0deg) aura une composante Y nulle et par conseacutequent les eacutechantillons seront dans le plan tous disposeacutes sur lrsquoaxe horizontal LrsquoACP prendra donc naturellement cet axe comme 1er vecteur propre et il pointe bien vers la position de la source De mecircme un son situeacute agrave 135deg ( π28

3 times rad) aura la proprieacuteteacute Y = -X Les eacutechantillons seront donc placeacutes sur la 2egraveme bissectrice qui fait avec lrsquoaxe Y=0 un angle de 135deg (voir Figure 22)

Figure 22 - Y en fonction de X dans le cas drsquoun son placeacute artificiellement dans la direction

indiqueacutee par la flegraveche en pointilleacutes verts agrave 0deg (agrave gauche) et 135deg (agrave droite)

Chapitre 2 Analyser un contenu HOA 16

Lrsquoanalyse de X et Y ne permet cependant de deacuteterminer lrsquoangle qursquoagrave π pregraves il reste une indeacutetermination (on deacutetermine la direction drsquoun axe qursquoil reste agrave orienter) Pour lever cette ambiguiumlteacute on integravegre W agrave lrsquoanalyse car cette composante pourtant omnidirectionnelle et donc deacutepourvue drsquoinformation spatiale apporte une reacutefeacuterence pour les phases Ainsi notre son placeacute agrave 135deg veacuterifiait (aux eacuteventuels coefficients de normalisation pregraves) Y = -X = W alors qursquoun son placeacute agrave 135 - 180 = -45deg aurait la proprieacuteteacute Y = -X = -W

Pour prendre en compte W dans lrsquoanalyse on peut comparer directement les

phases de ces 3 canaux Algorithmiquement on ramegravene lrsquoangle trouveacute agrave son modulo π2 puis on deacutetermine le vrai cadran par comparaison des phases de W X et Y crsquoest-agrave-dire en comparant le signe des produits W X et W Y Ainsi W X gt 0 signifie que W et X sont en phase et reacuteciproquement (voir Figure 23)

W X lt 0 W Y gt 0

W X gt 0 W Y gt 0

W X lt 0 W Y lt 0

W X gt 0 W Y lt 0

minusπ2

π

π2

0

Figure 23 - Signes de W X et W Y en fonction du cadran On peut eacutegalement inteacutegrer W agrave lrsquoanalyse en appliquant lACP sur le triplet (X Y

W) Le problegraveme drsquoambiguiumlteacute est ainsi reacutesolu la direction rechercheacutee eacutetant celle du vecteur principal dans le demi-espace W gt 0 projeteacutee sur le plan (X Y) Cette meacutethode srsquoavegravere plus robuste et surtout plus geacuteneacuteralisable agrave des ordres plus eacuteleveacutes

Cette analyse permet donc de deacuteterminer la position drsquoune source unique Pour

pouvoir seacuteparer plusieurs sources nous avons appliqueacute lrsquoACP par sous-bandes en supposant que les sources nrsquoont pas des supports freacutequentiels strictement identiques Le principe de cette analyse en sous-bandes est deacuteveloppeacute en Annexe D

23 Meacutethodologie

231 Construction de scegravenes artificielles Pour tester les algorithmes impleacutementeacutes nous avons ducirc creacuteer des scegravenes sonores

spatialiseacutees au format HOA Plusieurs types de scegravenes ont eacuteteacute utiliseacutes de complexiteacutes diffeacuterentes Les premiegraveres ont eacuteteacute des scegravenes virtuelles syntheacutetiseacutees avec Matlab Les premiegraveres scegravenes simplissimes ne comportait qursquoune sinusoiumlde ou un bruit blanc fixe placeacute dans le plan horizontal Puis pour tester lrsquoanalyse par sous-bandes ont eacuteteacute creacuteeacutes des sons polyphoniques composeacutes de 2 sinusoiumldes tout drsquoabord puis de sons complexes (syntheacutetiseacutes par synthegravese FM) dans des gammes freacutequentielles distinctes ou se

23 Meacutethodologie 17

chevauchant Enfin ces sons ont eacuteteacute rendus mobiles en faisant varier leur position dans le temps

Nous avons pu ainsi constater agrave lrsquoaide des sons fixes et de supports freacutequentiels

distincts la preacutecision de lrsquoanalyse et avec les sons mobiles et mecircleacutes sa robustesse Nous nous sommes limiteacutes sous Matlab agrave la geacuteneacuteration de 2 sons simultaneacutes et du 1er ordre et un autre outil Plogue Bidule a eacuteteacute utiliseacute pour composer des scegravenes plus complexes

Bidule est un studio modulaire virtuel ressemblant agrave MAXMSP Des plugins ont

eacuteteacute deacuteveloppeacutes agrave France Teacuteleacutecom pour permettre de manipuler des signaux HOA Ainsi des scegravenes complexes ont pu facilement ecirctre syntheacutetiseacutees agrave des ordres eacuteleveacutes Des scegravenes agrave 3 et 4 sources fixes ou dont 1 source mobile ont eacuteteacute reacutealiseacutees agrave partir de voix deacutemixeacutees placeacutees dans le plan horizontal ou en 3 dimensions

Ces scegravenes eacutetant artificielles elles sont en un sens ideacuteales ne contiennent aucun

signal reacuteverbeacutereacute (effet de salle) ni diffracteacute (par un micro) lrsquoencodage est fait sans artefacts les ondes sont consideacutereacutees comme planes et ont donc une direction bien deacutefinie Si on est ici bien loin de la vraie vie le gros avantage des scegravenes artificielles est qursquoon connaicirct preacuteciseacutement agrave chaque instant la position des sources et qursquoon peut ainsi veacuterifier le reacutesultat de lrsquoanalyse

Figure 24 - Interface graphique du logiciel Bidule avec agrave droite les controcircles des encodeurs

et deacutecodeurs HOA creacuteeacutes agrave France Teacuteleacutecom

Chapitre 2 Analyser un contenu HOA 18

232 Exploitation drsquoenregistrements naturels Une fois des reacutesultats convaincants obtenus avec des scegravenes virtuelles des

enregistrements naturels ont eacuteteacute analyseacutes Ces scegravenes ont eacuteteacute enregistreacutees gracircce au prototype de micro HOA du 4egraveme ordre deacuteveloppeacute agrave France Teacuteleacutecom (voir Figure 12) Ce processus implique des diffeacuterences notables avec un encodage virtuel

Le prototype de microphone contraint en effet agrave quelques compromis pour

optimiser des critegraveres incompatibles La taille du microphone reacutesulte drsquoun compromis entre la preacutecision drsquoestimation des composantes en basses freacutequences qui neacutecessite une taille eacuteleveacutee et la minimisation de lrsquoaliasing spatial qui ne peut ecirctre eacuteviteacute qursquoavec des capsules tregraves proches les unes des autres Leur disposition est eacutegalement irreacuteguliegravere il nrsquoexiste en fait aucune faccedilon de disposer reacuteguliegraverement plus de 20 points sur une sphegravere La configuration qui avait eacuteteacute retenue par les concepteurs [Moreau 2006] est la ldquomoins irreacuteguliegravere possiblerdquo au sens de la preacuteservation de lrsquoorthonormaliteacute des harmoniques spheacuteriques les 32 capsules sont reacuteparties sur une sphegravere de 35 cm de rayon selon un Pentaki-dodeacutecahegravedre polyegravedre semi-reacutegulier dual de lrsquoicosaegravedre tronqueacute (ballon de football)

Ces artefacts sont donc inheacuterents agrave lrsquoutilisation drsquoun reacuteseau de microphones Mais

le monde reacuteel pose eacutegalement des problegravemes deacutelicats La complexiteacute des modes de rayonnement drsquointeraction avec lrsquoenvironnement reacuteclame lrsquointroduction de modegraveles drsquoencodage beaucoup plus complexes que le cas drsquoune onde plane en champ libre et rend lrsquoinformation spatiale moins limpide et univoque au sein de la scegravene encodeacutee (enregistreacutee) en comparaison avec une scegravene virtuelle Les sources ne sont ainsi plus ponctuelles mais eacutetendues elles ne sont plus agrave lrsquoinfini mais agrave une distance finie du microphone (les ondes reccedilues ne sont donc plus planes) En outre chaque source en se reacutefleacutechissant sur les parois et les diffeacuterents objets de la salle creacutee une multitude de sources secondaires Il est enfin souvent difficile de connaicirctre avec preacutecision la position drsquoune source dans lrsquoespace lors drsquoun enregistrement

Des enregistrements en chambre sourde ont eacuteteacute reacutealiseacutes pour se passer des

reacuteflexions de lrsquoenvironnement Afin de connaicirctre avec preacutecision la position de la source un haut-parleur diffusant un bruit blanc nous avons placeacute le microphone sur une table tournante commandeacutee par un plug-in sous Plogue Bidule

233 Visualisations des reacutesultats Lrsquoobservation des reacutesultats a eacuteteacute effectueacutee de plusieurs maniegraveres visuellement et

par lrsquoeacutecoute Les graphiques eacutetant plus commodes crsquoest par cette voie que les premiers essais eacutetaient conclus Plusieurs types de graphiques ont eacuteteacute produits deacutecrivant des paramegravetres diffeacuterents

Les repreacutesentations temps-freacutequence permettent de repreacutesenter une variable agrave 1

dimension sous Matlab Cette voie a eacuteteacute suivie pour visualiser les paramegravetres extraits de chaque sous-bande de chaque fenecirctre notamment les angles lrsquoeacutenergie et la pertinence Malheureusement Matlab ne permet pas de repreacutesenter sur le mecircme graphique une 4egraveme dimension sous la forme drsquoune 2egraveme dimension colorimeacutetrique (on prend geacuteneacuteralement la

23 Meacutethodologie 19

saturation) Cette dimension suppleacutementaire aurait permis de repreacutesenter simultaneacutement les angles et leur pertinence

Figure 25 - Repreacutesentation

et de lrsquoespace col

Pour repreacutesenter s

drsquoabandonner une dimensipouvoir repreacutesenter danrepreacutesenteacutees soit par le niv

Figure 26 - Repreacutesentationdeacutecrite en 332 (en absciss

est repreacutesenteacutee agrave gauc

234 Diffeacuterents modes La visualisation est

indispensable pour veacuterifiesont possibles de ceux-cainsi reconstitueacutee agrave partir d

1 W+Y+02X pour le c

π 0 minusπ

de la table des couleurs dite HSV de Matlab (lineacuteaire agrave gauche) orimeacutetrique HSL (Hue Saturation Luminance agrave droite)

imultaneacutement angles et pertinence il eacutetait donc neacutecessaire on Crsquoest le deacutecoupage freacutequentiel qui a eacuteteacute mis de cocircteacute pour s un plan temps-angles les pertinences Celles-ci sont eau de gris des points soit par leur taille

de la pertinence des angles de la scegravene agrave 4 sources dont 1 mobile e les trames en ordonneacutees les angles en degreacute) La pertinence he par lrsquointensiteacute du bleu et agrave droite par la taille des points

drsquoeacutecoute

un indice preacutecis de reacutesultat mais lrsquoeacutecoute est tout de mecircme r la qualiteacute globale de la synthegravese Plusieurs modes drsquoeacutecoute i lrsquoeacutecoute au casque est la plus aiseacutee Une pseudo-steacutereacuteo est es signaux du 1er ordre1 pour restituer les scegravenes restreintes au

anal gauche et W-Y+02X pour le canal droit

Chapitre 2 Analyser un contenu HOA 20

plan horizontal Pour plus de preacutecision agrave la restitution ou pour des scegravenes en 3D et sans perdre la faciliteacute drsquoune eacutecoute personnelle au casque on peut appliquer des filtres HRTF (Head-Related Transfert Function) pour une reproduction binaurale

Pour appreacutecier pleinement la spatialisation la diffusion sur un systegraveme multi

haut-parleurs est indispensable Deux systegravemes sont installeacutes dans le laboratoire de France Teacuteleacutecom un systegraveme 51 et un systegraveme circulaire de 48 haut-parleurs Ces systegravemes installeacutes dans des studios insonoriseacutes offrent une grande qualiteacute drsquoeacutecoute qui permet de repeacuterer les deacutefauts mecircme minimes de la synthegravese

21

Chapitre 3

Description des analyses

31 Deacutetermination des directions principales

311 Base des algorithmes Nous avons deacuteveloppeacute plusieurs algorithmes reacutepondant aux diffeacuterents objectifs

deacutecrits plus haut Chacun drsquoeux possegravede des particulariteacutes leur permettant de reacutepondre agrave ces objectifs mais on trouve neacuteanmoins une partie commune Ainsi toutes les analyses reposent sur le mecircme modegravele drsquoapplication drsquoune ACP par sous-bandes dont voici le scheacutema geacuteneacuteral

Figure 31 - Scheacutema geacuteneacuteral drsquoanalyse

Les signaux en entreacutee sont les composantes HOA W X et Y dans la plupart des

cas mais peuvent ecirctre eacutegalement des composantes drsquoordre plus eacuteleveacute (voir 11) Sur le fenecirctrage jouent plusieurs paramegravetres comme la taille de la fenecirctre ou encore le pourcentage de recouvrement entre elles Nous avons choisi une fenecirctre en racine de la fenecirctre de Hanning crsquoest-agrave-dire une arche de sinusoiumlde (voir eacutequation (D7) en Annexe D) avec un recouvrement de 50 ce qui veacuterifie le critegravere de reconstruction parfaite (D6) Le filtrage est pour des raisons de rapiditeacute de calcul reacutealiseacute dans le domaine freacutequentiel par une simple multiplication avant de repasser en temporel pour appliquer lrsquoACP

Le banc de filtre utiliseacute est un banc inspireacute des filtres ERB Les filtres ERB

(Equivalent Regular Bandwidth) sont des filtres imitant le comportement de seacuteparation freacutequentielle de lrsquooreille humaine plus preacutecise en basse freacutequence Les filtres utiliseacutes ici ne sont pas directement des filtres ERB le systegraveme nrsquoa pas drsquointeacuterecirct particulier agrave essayer de copier le fonctionnement de lrsquooreille humaine Ces filtres ont eacuteteacute adapteacutes au problegraveme en

Chapitre 3 Description des analyses 22

srsquoassurant en particulier de la finesse des bandes permettant la meilleure discrimination des diffeacuterentes sources crsquoest-agrave-dire autour des fondamentales usuelles (200-1000 Hz) et des harmoniques Les freacutequences aigueumls sont bien discrimineacutees par les filtres ERB (relativement agrave la gamme crsquoest-agrave-dire en eacutechelle logarithmique) le deacutecoupage a donc surtout eacuteteacute densifieacute entre 200 et 800 Hz par rapport aux bandes ERB

Figure 32 - Filtres utiliseacutes inspireacutes des filtres ERB repreacutesenteacutes lineacuteairement (en haut)

et sur une eacutechelle logarithmique (en bas) Les reacutesultats de lrsquoACP sont donc avec cette meacutethode les angles des sources

trouveacutees dans chaque sous-bande ainsi que pour chacun drsquoeux un critegravere de pertinence calculeacute en fonction de lrsquoeacutenergie de la sous-bande dans une fenecirctre donneacutee et de la norme relative de la premiegravere composante de lrsquoACP (voir 342) Les autres vecteurs propres peuvent ecirctre utiliseacutes pour extraire davantage drsquoinformations et mecircme des signaux deacutecorreacuteleacutes comme on le verra au paragraphe 35 mais lrsquoanalyse semble alors moins robuste Srsquoen tenir aux informations donneacutees par la composante principale est un gage de pertinence suppleacutementaire

Ces reacutesultats concernent donc les sources preacutedominantes ou principales mais

laissent de cocircteacute un certain nombre drsquoeacuteveacutenements sonores agrave consideacuterer

312 Traitement du champ reacutesiduel Le champ reacutesiduel regroupe en quelque sorte tout ce qui nrsquoest pas une source

principale Il inclut donc les reacuteflexions et la reacuteverbeacuteration de la piegravece mais aussi les bruits parasites occasionnels ou continus (ventilation etc) Ces bruits ou eacutechos nrsquoont pas de direction de provenance assez distincte pour pouvoir ecirctre mesureacutee preacuteciseacutement Le champ reacutesiduel est eacutegalement composeacute du champ diffus La notion de champ diffus est couramment utiliseacutee mais rarement preacuteciseacutement deacutefinie On trouve dans la litteacuterature des deacutefinitions diverses lrsquoune drsquoelles preacutecisant qursquoil serait un ensemble drsquoeacuteveacutenements sonores proches en temps et provenant de directions eacutequiprobables

Les algorithmes proposeacutes traitent correctement les sources principales mais le

champ reacutesiduel est laisseacute de cocircteacute Il est pourtant tregraves important pour lrsquoimmersion du sujet dans la scegravene une scegravene deacutepourvue de champ sonore sera perccedilue comme artificielle ce qui nuit agrave la perception drsquoespace On sera par exemple davantage conscients drsquoecirctre au centre drsquoun dispositif expeacuterimental et moins sensibles aux variations de profondeur et de perspectives

31 Deacutetermination des directions principales 23

Neacuteanmoins il faut relativiser lrsquoimportance de ce champ reacutesiduel il nrsquoest pas utile pour la localisation des sources principales et ne caracteacuterise que lrsquoenvironnement drsquoenregistrement En outre le champ reacutesiduel qui provient souvent de directions floues et notre but nrsquoest pas de les preacuteciser artificiellement Il nrsquoest degraves lors geacuteneacuteralement pas utile de le transmettre aux ordres eacuteleveacutes

Ainsi certains auteurs [Merimaa and Pulkki 2005] ont choisi de recreacuteer lors drsquoune

synthegravese un champ diffus artificiel baseacute sur une reacuteponse impulsionnelle de salle calculeacutee agrave lrsquoavance Lrsquoavantage est une immersion un enveloppement complets lrsquoinconveacutenient est que lrsquoambiance ainsi recreacuteeacutee est fictive et arbitraire et en outre complegravetement indeacutependante de lrsquoambiance initiale en laissant notamment de cocircteacute les sources secondaires

Nous proposons dans nos algorithmes de ne pas syntheacutetiser le champ diffus aux

ordres eacuteleveacutes mais de nous contenter de la description du champ reacutesiduel fourni par les ordres transmis (1er ordre dans nos exemples) Nous nous limiterons donc agrave preacuteciser par la synthegravese des ordres supeacuterieurs les positions des sources principales

32 Extension agrave la 3D Nous avons pour le moment eacutevoqueacute le cas de repreacutesentations de champ sonore agrave

2 dimensions crsquoest-agrave-dire issus de sources placeacutees dans le plan horizontal Mais certaines repreacutesentations comportent eacutegalement des composantes verticales Pour analyser ces signaux en 3 dimensions il faut inteacutegrer la composante Z On effectue alors simplement une ACP sur X Y Z et W Le 1er vecteur propre sera alors bien dirigeacute dans lrsquoespace (X Y Z) dans la direction de la source lrsquoambiguiumlteacute de frac12 espace eacutetant leveacutee par W

Lrsquoalgorithme est alors complegravetement similaire agrave celui analysant des signaux en 2

dimensions Des tests ont eacuteteacute reacutealiseacutes agrave partir de signaux syntheacutetiques pour lesquels les positions des sources eacutetaient connues pour des raisons pratiques aucune scegravene sonore reacuteelle en 3 dimensions nrsquoa pu ecirctre enregistreacutee avec une connaissance initiale preacutecise des positions des sources

Les visualisations et les eacutecoutes eacutetant plus deacutelicates en 3D et lrsquoextension agrave la 3D

eacutetant immeacutediate nous avons donc concentreacute nos efforts sur lrsquoanalyse de scegravenes en 2D En outre en lrsquoabsence de dispositif spheacuterique ou heacutemispheacuterique de haut-parleurs le seul moyen agrave notre disposition pour eacutecouter une scegravene 3D est lrsquoeacutecoute binaurale crsquoest-agrave-dire au casque avec des fonctions de transfert de tecircte (HRTF) relativement bien adapteacutees agrave lrsquoauditeur

33 Analyse aux ordres supeacuterieurs

331 Description Afin drsquoameacuteliorer la preacutecision de lrsquoanalyse nous avons essayeacute drsquoappliquer une ACP

sur des signaux ambisoniques drsquoordre plus eacuteleveacute (signaux HOA) dans le plan horizontal Deux meacutethodes ont eacuteteacute essayeacutees

Chapitre 3 Description des analyses 24

La premiegravere consiste agrave appliquer une ACP agrave 3 dimensions successivement sur les composantes X Y W (ordre 1 et 0) puis U V W (ordre 2 et 0) et ainsi de suite crsquoest-agrave-dire (en utilisant la notation geacuteneacuterale) sur les composantes et W (ordre m et 0) Les reacutesultats de ces analyses (les directions des 1

)1(0mY )1(

0minus

mYegraveres composantes) sont ensuite regroupeacutees

lrsquoanalyse de lrsquoordre 1 fournissant des reacutesultats modulo 2π lrsquoanalyse de lrsquoordre 2 des reacutesultats plus preacutecis mais modulo π et plus geacuteneacuteralement lrsquoanalyse de lrsquoordre m permettant de trouver des angles modulo mπ2

La limite de cette approche se perccediloit lors de la fusion des reacutesultats les angles

trouveacutes agrave un ordre eacuteleveacute sont plus preacutecis dans des bandes de freacutequences eacuteleveacutees mais la limitation theacuteorique de ces signaux HOA dans les basses freacutequences font que lrsquoanalyse de lrsquoordre 1 reste la plus pertinente dans les premiegraveres bandes Parvenir agrave deacuteterminer agrave partir de quelle freacutequence on peut faire davantage confiance agrave lrsquoordre n+1 qursquoagrave lrsquoordre n nrsquoest pas aiseacute et cette limite provoque des aberrations dans les angles trouveacutes Une source unique pourra par exemple ecirctre interpreacuteteacutee par lrsquoalgorithme des k-moyennes (voir 341) comme 2 sources une en hautes freacutequences et une en basses freacutequences les 2 eacutetant trouveacutes agrave 2 angles diffeacuterents chaque angle relevant drsquoun ordre analyseacute diffeacuterent

La deuxiegraveme meacutethode consiste pour eacuteviter cette fusion des reacutesultats agrave effectuer

une seule ACP sur les composantes U V X Y et W Cette meacutethode souffre drsquoune tregraves grande complexiteacute algorithmique pour une ameacutelioration de la preacutecision peu sensible En effet si cette meacutethode permet drsquoobtenir des reacutesultats plus preacutecis dans certaines bandes de freacutequences elle est sensible aux deacutefauts et les limites des ordres supeacuterieurs (lrsquoabsence de basses freacutequences entre autres) perturbent lrsquoanalyse en composantes principales

332 Illustration sur une scegravene virtuelle La scegravene preacutesenteacutee ici est une scegravene artificielle crsquoest-agrave-dire composeacutee de sons

placeacutes artificiellement agrave diverses positions Elle a une dureacutee totale de 135 s et comporte 4 sources positionneacutees dans le plan horizontal une guitare placeacutee agrave 45deg une basse agrave -70deg une batterie agrave 110deg et une voix feacuteminine qui effectue continucircment un tour complet dans le sens indirect en partant de lrsquoarriegravere (elle passe donc successivement par les positions 180deg 90deg 0deg -90deg et -180deg) La guitare et la batterie srsquoarrecirctent peu avant la fin de la scegravene (12egraveme seconde au 910egraveme du son approximativement)

Figure 33 - Position des sources de la scegravene de test agrave 4 sources dont 1 mobile

33 Analyse aux ordres supeacuterieurs 25

Figure 34 - Angles drsquoune scegravene virtuelle ayant 1 source mobile et 3 sources fixes

(deacutecrite en 332) trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 Pour chaque trame (en abscisse) 20 angles (1 par bande en ordonneacutee et en degreacutes) sont

reporteacutes le diamegravetre du point correspondant agrave un critegravere de pertinence (voir 342)

Figure 35 - Angles de la mecircme scegravene trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 2 Reacutesultats modulo π reacutepliqueacutes pour faciliter la comparaison avec la figure preacuteceacutedente On remarque que les lignes sont plus nettes qursquoil y a moins drsquoangles aberrants et que

les angles corrects sont plus marqueacutes (ils sont deacutetermineacutes comme plus pertinent)

Chapitre 3 Description des analyses 26

20

0

20

0

20

0

Figure 36 - Angles drsquoune scegravene reacuteelle constitueacutee drsquoun bruit parcourant le cercle trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 (en haut) 0 et 2 (au milieu) et 0 et 4 (en bas) Le

numeacutero de trame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On retrouve qursquoune limitation des ordres HOA supeacuterieurs issus drsquoun enregistrement

microphonique est la restitution des basses freacutequences

34 Traitement des donneacutees

341 Algorithme des k-moyennes Agrave lrsquoissue de lrsquoanalyse en composantes principales on reacutecupegravere avec la premiegravere

des meacutethodes exposeacutees au chapitre preacuteceacutedent des angles correspondants aux positions des sources preacutedominantes agrave raison drsquoune valeur par fenecirctre et par bande de freacutequence Il faut agrave partir de ces donneacutees parvenir agrave isoler les sources crsquoest-agrave-dire agrave deacuteterminer quels sont les angles pertinents et examiner quels sont ceux qui agrave une certaine toleacuterance pregraves sont preacutesents dans plusieurs bandes de freacutequence etou plusieurs fenecirctres temporelles

Pour pouvoir exploiter ces donneacutees spatiales nous avons utiliseacute lrsquoalgorithme des

k-moyennes (ou k-means) [MacQueen 1967] sur les angles pondeacutereacutes par des critegraveres de pertinence Cet algorithme fonctionne de la maniegravere suivante

Initialisation choix de k barycentres (les k moyennes) Reacutepeacuteter Associer chaque eacuteleacutement au barycentre le plus proche Recalculer les positions des barycentres Jusqursquoagrave ce que les barycentres soient stables (ou au bout de t iteacuterations)

34 Traitement des donneacutees 27

Lrsquoavantage de cet algorithme est drsquoecirctre peu glouton puisqursquoil converge en O(tkn) ougrave t est le nombre drsquoiteacuterations k le nombre de centres et n le nombre de points (geacuteneacuteralement on a t k ltlt n) Par contre il est plutocirct sensible aux exceptions un point aberrant tirera agrave lui la moyenne auquel il aura eacuteteacute associeacute Il faut donc faire en sorte que ces points erroneacutes soient aussi rares que possibles Crsquoest pourquoi les angles traiteacutes sont pondeacutereacutes par 2 critegraveres de pertinence

La pondeacuteration des angles fournis en entreacutee de lrsquoalgorithme des k-moyennes se

fait de maniegravere simple en reacutepeacutetant ces angles un nombre de fois (de 0 agrave 10) proportionnel agrave un critegravere Ainsi un angle tregraves pertinent sera dupliqueacute et sera preacutesent plusieurs fois dans la liste des donneacutees traiteacutees attirant ainsi agrave lui la position du barycentre le plus proche Au contraire un angle trop peu pertinent ne sera pas reacutepeacuteteacute voir mecircme sera enleveacute de la liste

Le seul problegraveme de cet algorithme est qursquoil neacutecessite la connaissance de k crsquoest-

agrave-dire du nombre de sources qui composent la scegravene Une deacutetermination automatique se basant sur la reacutepeacutetition de lrsquoalgorithme avec un k croissant a eacuteteacute testeacutee mais le critegravere drsquoarrecirct reposant sur la dispersion des points autour des barycentres nrsquoeacutetant pas assez robuste cette meacutethode a provisoirement eacuteteacute mise de cocircteacute

342 Critegraveres de pertinence Les 2 critegraveres de pondeacuteration choisis sont lrsquoeacutenergie de la sous-bande dans la

fenecirctre donneacutee et le rapport de la norme de la 1egravere composante (la composante principale) de lrsquoACP sur la somme des normes de toutes les composantes

En effet un angle est trouveacute dans chaque sous-bande de chaque fenecirctre mecircme si

le signal y est tregraves faible Lrsquoangle trouveacute sera alors tregraves peu repreacutesentatif de la direction drsquoune source puisqursquoil indiquera la direction drsquoun bruit Lrsquoeacutenergie doit donc ecirctre prise en compte pour ne conserver que les angles trouveacutes dans des bandes comportant un signal suffisant

La norme relative de la 1egravere composante de lrsquoACP rend quant agrave elle compte du

poids relatif de cette composante par rapport aux autres Ainsi si 2 sources sont preacutesentes dans une bande donneacutee la 1egravere composante sera agrave peine plus marqueacutee que la 2egraveme Ceci peut ecirctre calculeacute en prenant simplement le rapport de la 1egravere valeur propre sur la somme des valeurs propres

On peut noter que la norme de la 1egravere composante ne se deacutetache nettement que

lorsqursquoun son est preacutesent dans la bande consideacutereacutee On peut alors se demander si lrsquoeacutenergie doit ecirctre prise en compte ou si lrsquoinformation qursquoelle contient nrsquoest comprise dans le 2egraveme critegravere En fait la norme relative est un critegravere tregraves bruiteacute et consideacuterer lrsquoeacutenergie par ailleurs permet de nuancer ces artefacts et constitue une base solide de pondeacuteration

Chapitre 3 Description des analyses 28

80

40

0

Figure 37 - Repreacutesentation temps-freacutequence des angles du son deacutecrit en 332 Letrame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On peut donc v

par trame et par bande chacun eacutetant le reacutesultat drsquoune ACP crsquoest-agrave-dire la 1egravere

Figure 38 - Eacutenergie de ce mecircme son On peut voir une basse en notes tenues uneet une batterie qui produit des sons secs dans un spectre plus aigu

80

40

0

80

40

0

Figure 39 - Norme relative de la 1egravere composante de ce mecircme son Les impacts de batterie (dans lrsquoaigu) ressortent davantage

π 0 minusπ

numeacutero de oir un angle direction

voix aiguumle

34 Traitement des donneacutees 29

Figure 310 - Pondeacuteration appliqueacutee agrave lrsquoentreacutee des k-moyennes calculeacutee ici comme

le simple produit de lrsquoeacutenergie et de la norme relative

80

40

0

343 Lissages

Pour faire face au bruit ineacutevitable dans les reacutesultats il faut lisser les donneacutees Ces

lissages temporels correspondent agrave des hypothegraveses de stabiliteacute des sources qui sont supposeacutees ecirctre fixes ou mobiles relativement lentement (dans une mesure agrave parameacutetrer)

Un premier lissage peut ecirctre opeacutereacute avant le traitement par lrsquoalgorithme des k-

moyennes Le filtre choisi est un filtre meacutedian de maniegravere agrave eacuteliminer les points aberrants tout en conservant les vraies valeurs des points coheacuterents Ce lissage est appliqueacute sur chaque sous-bande aux angles et ne tient pas compte des critegraveres de pertinence Il est donc utiliseacute avec parcimonie et peut mecircme ecirctre eacuteviteacute en reacuteglant de maniegravere adeacutequate les critegraveres de pondeacuteration agrave lrsquoentreacutee des k-moyennes

Le deuxiegraveme lissage srsquoeffectue agrave lrsquoentreacutee des k-moyennes en mecircme temps que les

critegraveres de pondeacuteration Il consiste agrave appliquer les k-moyennes non pas sur une fenecirctre donneacutee mais sur plusieurs fenecirctres conseacutecutives anteacuterieures et posteacuterieures en donnant plus de poids agrave la fenecirctre courante Dans la pratique les poids donneacutes aux diffeacuterentes fenecirctres sont eacutetablis par une gaussienne centreacutee sur la fenecirctre courante et de largeur agrave deacuteterminer (en fonction notamment de la dureacutee drsquoune fenecirctre et du type de scegravene analyseacute)

35 Exploitation de toutes les composantes de lrsquoACP Les analyses preacutesenteacutees preacuteceacutedemment ont toutes exploiteacute uniquement la

composante principale extraite par lrsquoACP Or cette analyse fournit des informations plus complegravetes par lrsquointermeacutediaire des autres composantes dont on peut tirer parti pour isoler plusieurs sources au sein drsquoune mecircme bande Cette approche est toujours en deacuteveloppement dans ce stage et nrsquoa pas encore donneacute pleine mesure des reacutesultats qursquoelle laisse entrevoir

Les composantes de lrsquoACP indiquent des directions qui correspondent aux

diffeacuterentes sources composant la scegravene sonore Les vecteurs propres de la matrice de correacutelation donnent ainsi les combinaisons lineacuteaires des signaux HOA permettant de

Chapitre 3 Description des analyses 30

seacuteparer de la meilleure faccedilon possible ces sons Ces directions peuvent ecirctre alors utiliseacutees pour former des directiviteacutes isolant au mieux ces sources

aBS sdot= (31)

ougrave la matrice a contient les vecteurs propres de la matrice de correacutelation (voir Annexe C) le vecteur B contient les signaux HOA et le vecteur S contient les sources extraites

⎟⎟⎟

⎜⎜⎜

=⎟⎟⎟

⎜⎜⎜

⎛=

⎥⎥⎥

⎢⎢⎢

⎟⎟⎟

⎜⎜⎜

⎟⎟⎟

⎜⎜⎜

⎛=

10

1001

1

ML

N

B

BB

S

SSuua MML (32)

On obtient ainsi des lobes drsquoautant plus eacutetroits que lrsquoordre est eacuteleveacute chacun

dirigeacute vers une source et permettant de lrsquoisoler le plus possible des contributions des autres sources La Figure 311 preacutesente les directiviteacutes ainsi trouveacutees par une ACP en pleine bande Une analyse en sous-bande permet une plus grande distinction des sources mais une seacuteparation diffeacuterente entre les bandes est dangereuse car elle risque de dissocier spatialement plusieurs parties drsquoun mecircme son

Figure 311 - Directiviteacutes seacuteparant ideacutealement 4 sources placeacutees agrave 17 73 195 et -58deg

pour une scegravene virtuelle encodeacutee agrave lrsquoordre 4 Ce principe se heurte neacuteanmoins aux limites de seacuteparation lieacutees agrave lrsquoordre

drsquoencodage en effet 2 sources ne pourront pas ecirctre seacutepareacutees si elles sont trop proches comme en teacutemoigne la largeur des lobes principaux Les lobes secondaires traduisent eacutegalement un meacutelange des sources isoleacutees La figure ci-dessus montre ainsi que la source placeacutee agrave 17deg (en vert) sera preacutesente de maniegravere non neacutegligeable dans le signal senseacute contenir la source placeacutee agrave -58deg (en bleu) en raison du lobe secondaire bleu important

31

Chapitre 4

Reacutesultats et applications

41 Illustration et critique des reacutesultats obtenus

411 Avant-propos Sans notification particuliegravere les reacutesultats preacutesenteacutes ont eacuteteacute obtenus avec un pas

de 50 ms une analyse en 80 bandes avec une FFT sur 8192 points Une taille de FTT plus grande et un plus grand nombre de bande augmente la qualiteacute de lrsquoanalyse un pas plus petit ameacuteliore sa preacutecision temporelle mais les reacutesultats sont moins fiables et un lissage plus important srsquoimpose alors Ces paramegravetres ont eacuteteacute reacutegleacutes apregraves de multiples essais sur des scegravenes diverses

Les reacutesultats sont preacutesenteacutes ici uniquement sous la forme de graphiques nous ne

pouvons donc repreacutesenter que les angles trouveacutes agrave la sortie de lrsquoalgorithme des k-moyennes

412 Scegravene 2D artificielle agrave 4 sources fixes La premiegravere scegravene est une scegravene artificielle composeacutee de 4 sons fixes placeacutes agrave -70

-10 45 et 110deg Ces sons (une basse une voix une guitare et une batterie) ont eacuteteacute choisis pour leur varieacuteteacute spectrale et leur varieacuteteacute drsquoattaque Elle a en outre le meacuterite drsquoecirctre reacutealiste et de constituer une seacutequence musicale (chaque son nrsquoest pas une meacutelodie indeacutependante)

On voit sur la Figure 41 ci-dessous que les angles trouveacutes sont proches des

angles theacuteoriques Lrsquoun des sons (agrave 45deg) est quasiment nul avant la 100egraveme trame sa position est alors moins facile agrave deacuteterminer plus preacuteciseacutement une position approximative est trouveacutee et correspondrait exactement agrave la position du bruit (45deg) si lrsquoincertitude de mesure tregraves grande pour un son aussi faible ne rendait la deacutetermination si ardue On mesure un eacutecart-type de 22deg sur cet exemple (en excluant le deacutebut du son agrave 45deg)

Chapitre 4 Reacutesultats et applications 32

Figure 41 - Angles theacuteoriques (en pointilleacutes rouge) et calculeacutes (en trait bleu) pour une scegravene

constitueacutee de 4 sons fixes longue de 11s

413 Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile

Figure 42 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) de la scegravene agrave

4 sources dont 1 mobile deacutecrite en 332 Cette scegravene est deacutecrite en 332 On a ici demandeacute aux k-moyennes de renvoyer 5 barycentres par trame alors que

seules 4 sources eacutetaient preacutesentes dans le but de se garantir une marge vis-agrave-vis des erreurs de deacutetection Cette 5egraveme direction nrsquoest pas du tout gecircnante elle indique une direction qui ne contient pas de source et crsquoest donc un son tregraves faible qui est ainsi pointeacute Apregraves une eacuteventuelle extraction le signal ne sera donc pas du tout gecircnant

41 Illustration et critique des reacutesultats obtenus 33

On peut remarquer que quand le son mobile se rapproche drsquoun son fixe la deacutetection est moins bonne il y a une fusion entre les 2 sons Mais encore une fois lors de lrsquoextraction lrsquoisolation drsquoun des sons englobera lrsquoautre son ce qui ne posera pas de problegraveme pour les objectifs fixeacutes aucune source nrsquoeacutetant oublieacutee En effet la seacuteparation de sources nrsquoest pas un objectif ici mais un moyen pour preacuteciser les positions des sources ce qui sera fait correctement mecircme si 2 sources sont pointeacutees par 1 seule direction

414 Scegravene 3D artificielle agrave une source et bruit de fond

La scegravene dont la position drsquoune source a eacuteteacute extraite ci-dessous est une scegravene virtuelle en 3D constitueacute drsquoun son (une voix) qursquoon a fait se deacuteplacer par paliers tout drsquoabord vers le haut de 0deg agrave 45deg et vers la gauche de 0deg agrave 90deg puis redescendre jusqursquoagrave 35deg en continuant son cheminement vers la gauche jusqursquoagrave 120deg et enfin finir la descente de 35deg agrave 0deg en la laissant agrave 120deg Agrave cette source a eacuteteacute superposeacutee une ambiance spatialiseacutee de hall drsquoaeacuteroport initialement enregistreacutee en 2D (au format 51) mais transformeacutee pour contenir des composantes verticales Cette ambiance deacutecorreleacutee de la source avait pour but de tester la robustesse de lrsquoanalyse Elle eacutetait agrave 15 dB en-dessous du niveau de la voix

Figure 43 - Azimut et eacuteleacutevation theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun

son en 3D artificiel de 9s placeacute dans une ambiance bruyante On remarque que lrsquoanalyse est tregraves correcte Il nrsquoy a pas drsquoeacutecart important entre

les angles theacuteoriques et ceux calculeacutes On note toutefois que le lissage agrave lrsquoentreacutee des k-moyennes a pour effet de gommer les creacuteneaux et drsquoaplatir quelque peu la courbe drsquoeacuteleacutevation ceci nrsquoest pas vraiment gecircnant car de tels sauts dans la position drsquoune source ne sont pas du tout reacutealistes (ils peuvent caracteacuteriser des bruits de pas mais de tels impacts sont courts et on peut srsquoattendre agrave ce que la courbe suive leur position aux instants ougrave ils sont eacutemis)

Chapitre 4 Reacutesultats et applications 34

415 Scegravene 2D naturelle agrave une source Les scegravenes naturelles sont on lrsquoa vu plus deacutelicates agrave exploiter car on ne peut pas

garantir la preacutecision de la position theacuteorique agrave retrouver par le calcul et on ne peut donc pas calculer la preacutecision de lrsquoanalyse Seuls les enregistrements utilisant la table tournante (voir 232) permettent une mesure preacutecise de la position de lrsquoangle Ces enregistrements on pu confirmer la validiteacute de lrsquoanalyse pour des scegravenes reacuteelles on trouve ici un eacutecart-type de 25deg

Figure 44 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun bruit blanc

tournant autour du micro enregistreacute en chambre sourde Cette analyse a eacuteteacute reacutealiseacutee par sous-bandes mais sur une eacutetendue freacutequentielle

plus reacuteduite puisqursquoon srsquoest limiteacute aux possibiliteacutes offertes par le microphone La scegravene a donc eacuteteacute analyseacutee de 200 agrave 10 000 Hz

42 Quelques applications

421 Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre 2 agrave partir de lrsquoordre 1

Une fois les positions des sources connues la porte est ouverte agrave de nombreuses

applications La connaissance de ces positions permet en effet de syntheacutetiser artificiellement des composantes manquantes ou non transmises La premiegravere synthegravese deacuteveloppeacutee est celle des signaux U et V composant la partie horizontale de lrsquoordre 2 agrave partir de lrsquoordre 1 et de paramegravetres issus de lrsquoanalyse pour une source en 2D (des angles dans de cas)

42 Quelques applications 35

Figure 45 - Principe de lrsquoameacutelioration de la preacutecision spatiale

Le principe de la synthegravese est drsquoextraire les sources originales agrave partir de W X Y

et des angles (un angle par trame et par sous-bande) Ceci peut ecirctre reacutealiseacute de maniegravere approcheacutee en deacutecodant lrsquoordre 1 dans les directions des sources Ce deacutecodage revient agrave calculer les signaux qui devraient alimenter des haut-parleurs qui seraient placeacutes agrave ces positions dans le cas drsquoune restitution (voir 122) crsquoest-agrave-dire agrave former des directiviteacutes dans les directions des sources Dans la plupart des cas ce deacutecodage qui fait intervenir une pseudo-inversion de Moore-Penrose (111) est imparfait les sources se retrouvant leacutegegraverement meacutelangeacutees On peut comparer cette seacuteparation agrave celle que ferait un ensemble de microphones agrave directiviteacute hypercardioiumlde coiumlncidents

Figure 46 - Directiviteacutes eacutequivalentes agrave la seacuteparation de 4 sources agrave lrsquoordre 1 Ces sources seacutepareacutees vont ensuite constituer toujours placeacutees aux angles

deacutetermineacutes agrave lrsquoanalyse une scegravene virtuelle qursquoon va encoder agrave lrsquoordre 2 De cet encodage on ne conservera que les signaux manquants dans notre exemple les signaux du 2nd ordre U et V Ainsi la scegravene spatialiseacutee sera au final constitueacutee des signaux W X et Y drsquoorigine (transmis) et des signaux U et V syntheacutetiseacutes

Chapitre 4 Reacutesultats et applications 36

422 Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave partir de W Reconstruire une scegravene sonore spatialiseacutee agrave partir drsquoun unique canal mono est

alors difficile et le reacutesultat nrsquoest appreacuteciable que pour des scegravenes simples Il faut pour cela que les diffeacuterentes sources composant cette scegravene aient des supports spectraux aussi distincts que possible Les diffeacuterentes sous-bandes sont alors placeacutees agrave un certain angle transmis en parallegravele et crsquoest cette scegravene reconstitueacutee qui va ecirctre encodeacutee au 1er ordre de maniegravere agrave recreacuteer les signaux X et Y

Figure 47 - Principe de la restitution de lrsquoordre 1 agrave partir du signal mono W Ce scheacutema rappelle une meacutethode deacuteveloppeacutee dans le cas steacutereacuteo appeleacutee BCC

(Binaural Cue Coding) [Faller and Baumgarte 2002] Le principe est drsquoextraire et coder des informations permettant la reconstruction binaurale drsquoun signal agrave savoir les diffeacuterences interaurales drsquointensiteacute et de temps (Interaural LevelTime Difference ILD et ITD) qui correspondent dans le cas drsquoune restitution sur un casque aux diffeacuterences drsquointensiteacute et de temps inter-canal (Inter-Channel LevelTime Difference ICLD et ICTD) qui sont mesureacutees agrave partir drsquoune analyse en sous-bandes Les auteurs y ont plus reacutecemment associeacute un indice de correacutelation interaurale mesureacute agrave partir de la correacutelation inter-canal (ICC) afin de caracteacuteriser la preacutecision spatiale (la ldquolargeurrdquo drsquoune source)

Figure 48 - Scheacutema de principe de la meacutethode BCC [Faller and Baumgarte 2003]

On observe en pratique des deacutefauts lieacutes agrave la brutaliteacute de la proceacutedure une sous-

bande ne peut ecirctre que placeacutee agrave la position indiqueacutee et ne peut pas rester floue diffuse ou encore ecirctre placeacutee agrave plusieurs endroits Pour y remeacutedier nous avons ajouteacute 2 traitements agrave la synthegravese Tour drsquoabord nous avons appliqueacute un leacuteger lissage soulageant les effets deacutesagreacuteables dus au saut du contenu drsquoune sous-bande drsquoun endroit agrave un autre entre de 2 fenecirctres conseacutecutives Les positions varient alors de faccedilon plus souple au sein drsquoune mecircme sous-bande traduisant une hypothegravese de continuiteacute spatiale (pas de deacuteplacement brusque) La contrepartie est que cette hypothegravese est lieacutee agrave une hypothegravese de continuiteacute spectrale

42 Quelques applications 37

La 2egraveme ameacutelioration concerne le positionnement des sources En incluant dans la transmission un critegravere de pertinence on peut savoir srsquoil est raisonnable de placer une sous-bande agrave un angle preacutecis ou bien si lrsquoanalyse eacutetait flou agrave son sujet auquel cas un positionnement impreacutecis serait preacutefeacuterable Le paramegravetre choisi est une combinaison des critegraveres eacutevoqueacutes en 342 il nous permet de placer la sous-bande de maniegravere plus ou moins prononceacutee

43 Comparaison avec une meacutethode existante Certains auteurs ont deacutejagrave essayeacute drsquoanalyser un contenu ambisonique pour

retrouver les positions des sources Ville Pulkki a ainsi deacutecrit dans [Pulkki and Faller 2006] une meacutethode drsquoanalyse du B-format baseacutee sur lrsquoeacutetude des amplitudes des signaux W X Y et Z

Figure 49 - X et Y dans le cas drsquoune sinusoiumlde placeacutee agrave 15deg (agrave gauche) et 120deg (agrave droite)

Les figures ci-dessus montrent les relations drsquoamplitudes (algeacutebriques) qui relient

X et Y agrave lrsquoangle de la source On voit que lrsquoanalyse de ces amplitudes respectives permet de retrouver la position de la source en effet on a pour une source unique les relations de lrsquoeacutequation (11) rappeleacutee ici

⎪⎪

⎪⎪

=

=

=

=

δ

δθ

δθ

sin2

cossin2

coscos2

SZ

SY

SX

SW

(41)

On peut donc theacuteoriquement retrouver les valeurs de θ et δ par relations

trigonomeacutetriques Ainsi on a

⎪⎪⎩

⎪⎪⎨

=

=

2)sin(

)tan(

WZ

XY

δ

θ (42)

Chapitre 4 Reacutesultats et applications 38

On peut donc trouver les angles θ et δ agrave π pregraves Pour lever lrsquoambiguiumlteacute une eacutetude de signe est neacutecessaire Mais dans le cas de θ le signe de X et de Y agrave δ fixeacute deacutepend aussi bien de θ que S Il faut srsquointeacuteresser aux signes de θcos et θsin crsquoest-agrave-dire

aux signes de WX et

WY Dans la pratique on srsquointeacuteressera aux signes de et

pour se preacutevenir des divisions par zeacuteros

XW sdot YW sdot

XW sdot et YW sdot sont proportionnels agrave toujours positif

2S

Les auteurs deacutecrivent eacutegalement dans leur article un critegravere appeleacute diffuseness qui

peut ecirctre compareacute agrave un critegravere de pertinence inverseacute Ce paramegravetre calculeacute par agrave 1 - R ougrave R est un rapport de normes est tregraves proche du critegravere de norme relative deacutecrit en 342 Il peut donc ecirctre utiliseacute de la mecircme faccedilon et permettre ainsi une pleine comparaison

Cette meacutethode a eacuteteacute impleacutementeacutee pour pouvoir ecirctre compareacutee avec la meacutethode

par ACP Tous les paramegravetres ont scrupuleusement eacuteteacute gardeacutes identiques et plusieurs reacuteglages ont eacuteteacute testeacutes Les courbes ci-dessous preacutesentent les reacutesultats des analyses de la scegravene deacutecrite en 332 avec un pas de 50ms un overlap de 50 un NFFT de 2048 et 40 bandes freacutequentielles Nous avons repreacutesenteacute tous les angles trouveacutes crsquoest-agrave-dire un par bande et par trame pour srsquoaffranchir de la seacutelection des k-moyennes

π

0

minusπ

Figure 410 - Angles trouveacutes par lrsquoalgorithme de [Pulkki and Faller 2006] Le diamegravetre du point correspondant agrave la pertinence

43 Comparaison avec une meacutethode existante 39

π

0

minusπ

Figure 411 - Angles trouveacutes par une ACP pour la mecircme scegravene On remarque que les points excentriques sont moins nombreux et plus rarement trouveacutes comme pertinents

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee

441 Position du problegraveme

Une application directe de ces analyses a eacuteteacute deacuteveloppeacutee pour la confeacuterence audio

spatialiseacutee La confeacuterence audio utilise en effet la spatialisation pour permettre une meilleure seacuteparation par lrsquooreille des diffeacuterents locuteurs Ainsi si plusieurs personnes parlent en mecircme temps il sera tregraves difficile de comprendre chacun individuellement si ces voix sont restitueacutees en mono mais on pourra focaliser lrsquoattention sur chacune drsquoentre elles si elles sont seacutepareacutees spatialement (crsquoest lrsquoeffet cocktail party [Cherry 1953])

Lrsquoobjectif eacutetait de veacuterifier qursquoil eacutetait possible de conserver la spatialisation drsquoune

confeacuterence en nrsquoayant transmis qursquoun downmix mono des signaux Ce concept semble se rapprocher de celui deacutecrit en 422 mais une diffeacuterence fondamentale les seacutepare la confeacuterence audio spatialiseacutee nrsquoest pas codeacutee au format ambisonic mais les signaux traiteacutes sont directement les sons provenant des diffeacuterents locuteurs crsquoest-agrave-dire les sources elles-mecircmes Ainsi lrsquoanalyse ne porte plus sur une scegravene spatialiseacutee mais sur des signaux seacutepareacutes Il nrsquoy a ainsi plus drsquoindices spatiaux agrave trouver

Avoir accegraves aux sources permet drsquoobtenir des informations plus preacutecises pour

permettre une seacuteparation apregraves la transmission Comme nous lrsquoavons vu lrsquoanalyse drsquoune scegravene spatialiseacutee ne permet que dans drsquoultimes cas agrave la seacuteparation des sources ce qui est ici notre point de deacutepart et sera en fait notre point drsquoarriveacutee En effet nous tenterons de retrouver les sources seacutepareacutees apregraves la transmission de maniegravere agrave pouvoir par la suite les spatialiser agrave loisir (voir Figure 413)

Chapitre 4 Reacutesultats et applications 40

442 Solution proposeacutee Les paramegravetres extraits ne sont donc plus des positions de sources Nous avons

choisi de mesurer puis transmettre lrsquoeacutenergie de chaque signal dans chaque sous-bande en parallegravele du downmix En effet une bonne seacuteparation sera possible si lrsquoon sait quelle proportion de chaque source compose chaque sous-bande du signal mono

Figure 412 - Scheacutema de principe drsquoune confeacuterence audio spatialiseacutee

Figure 413 - Scheacutema ameacutelioreacute (deacutebit reacuteduit)

en pointilleacutes informations compleacutementaires (eacutenergie) Lrsquoanalyse en sous-bandes a lieu dans le serveur (Figure 414) Celui-ci calcule

lrsquoeacutenergie de chaque signal dans chaque sous-bande sur une trame donneacutee Crsquoest ce paramegravetre qui associeacute au signal mono M permettra la seacuteparation des sources dans le terminal (Figure 415) Ce dernier reacutepartira en effet les diffeacuterentes sous-bandes vers chaque signal reconstitueacute proportionnellement agrave cette information pour reconstruire les 4 sources originales

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee 41

Figure 414 - Analyse principe de lrsquoencodage dans le serveur

Figure 415 - Synthegravese principe du deacutecodage dans le client

Afin de reacuteduire au maximum les informations compleacutementaires agrave transmettre on

peut remarquer qursquoau cours drsquoune confeacuterence audio on a tregraves souvent un seul locuteur les participants ne parlent que tregraves rarement tous en mecircme temps Ceci implique que les signaux en entreacutee sont tregraves souvent tous nuls sauf 1 et appliquer un seuil en entreacutee de lrsquoanalyse permet outre lrsquoallegravegement du traitement drsquoavoir moins de paramegravetres agrave transmettre

Ce scheacutema simplifieacute ne tient pas compte des problegravemes de phase rien nrsquoindique

que les eacutenergies des signaux srsquoajoutent bien dans chaque sous-bande lors du downmix on peut tregraves bien avoir des oppositions de phase La solution est drsquoeffectuer le downmix (la somme) des signaux dans chaque sous-bande en prenant soin drsquoavoir recaleacute les phases au preacutealable Ceci nrsquoa un sens que pour des bandes suffisamment eacutetroites Les deacutecalages temporels appliqueacutes pour le recalage sont alors des paramegravetres suppleacutementaires agrave transmettre et sont pris en compte lors de la synthegravese au niveau du reacutepartiteur qui repositionnera la phase de chaque trame pour chaque signal

Chapitre 4 Reacutesultats et applications 42

443 Bilan Le reacutesultat du deacutecodage a pu ecirctre eacutecouteacute de diffeacuterentes maniegraveres les sources

reconstitueacutees individuellement ensemble en steacutereacuteo drsquoamplitude et sur un systegraveme 51 On note que les sources ont eacuteteacute assez bien seacutepareacutees mais que des artefacts sont audibles en particulier lorsque le nombre de locuteurs simultaneacutes augmentent Ces artefacts sont un meacutelange des voix qui nrsquoest gecircnant que lorsqursquoon les eacutecoute de maniegravere seacutepareacutee En effet lrsquoeacutecoute simultaneacutee de ces signaux syntheacutetiseacutes mecircme placeacutes agrave des positions distinctes sur un systegraveme de diffusion multicanal est tout agrave fait satisfaisante

Ce proceacutedeacute pour pouvoir ecirctre appliqueacute doit fonctionner en temps-reacuteel Cette

contrainte nrsquoa pas du tout eacuteteacute prise en compte lrsquoobjectif eacutetant de valider la faisabiliteacute drsquoune reconstruction Les programmes sous Matlab nrsquoont pas eacuteteacute optimiseacutes et ne respectent pas cette contrainte

43

Conclusion Nous avons preacutesenteacute dans ce rapport le principe et lrsquoapplication de plusieurs

meacutethodes drsquoanalyses spatiales de scegravenes ambisoniques conccedilues et reacutealiseacutee pendant le stage Le format HOA est en effet une repreacutesentation du champ acoustique deacutecomposeacute sur une base drsquoharmoniques spheacuteriques jusqursquoagrave un certain ordre agrave la maniegravere drsquoun deacuteveloppement limiteacute Il contient donc de maniegravere indirecte des indications spatiales qursquoon peut extraire avec des analyses comme lrsquoanalyse en composantes principales

Ces analyses nous permettent de deacuteterminer les positions des sources qui

composent la scegravene sonore Nous avons appliqueacute les reacutesultats de ces analyses agrave 2 types de synthegravese lrsquoune destineacutee aux transmissions bas deacutebit lrsquoautre agrave un traitement de restitution de la preacutecision spatiale dans le cas ougrave des ordres supeacuterieurs dont le but est drsquoaffiner la perception de localisation nrsquoauraient pas pu ecirctre transmis Ces algorithmes par le codage drsquoinformations spatiales qursquoils permettent pourront trouver bien drsquoautres applications dans la transmission et le codage ougrave la description du contenu est de plus en plus utiliseacutee (comme par exemple dans la norme MPEG)

Des ameacuteliorations sont possibles sur plusieurs points tout drsquoabord lrsquoexploitation

de toutes les composantes de lrsquoACP est agrave lrsquoeacutetude et semble pouvoir donner des reacutesultats inteacuteressants Drsquoautre part on a vu que le reacutesultat final est tregraves deacutependant de la bonne convergence de lrsquoalgorithme des k-moyennes utiliseacute pour traiter les donneacutees brutes de lrsquoanalyse en sous-bandes Or cet algorithme neacutecessite des reacuteglages tregraves fins et une connaissance a priori du nombre de sources est presque indispensable Drsquoautres algorithmes plus complexes de suivi de formes pourraient ecirctre avantageusement utiliseacutes pour deacutetecter dans tous les angles trouveacutes lesquels sont susceptibles de former une trajectoire

45

Annexe A

Deacuteveloppement du champ acoustique en harmoniques spheacuteriques

A1 Eacutequation drsquoonde en coordonneacutees spheacuteriques On se place dans lrsquoespace euclidien agrave 3 dimensions muni drsquoun systegraveme de

coordonneacutees spheacuteriques Un point M y est repeacutereacute par son rayon r son azimut θ et son eacuteleacutevation δ tels que repreacutesenteacutes sur la figure ci-dessous

- r est la norme du vecteur position rr crsquoest-agrave-dire la distance OM - [20[ πθ isin est lrsquoangle formeacute par le projeteacute du point sur le plan xOy et lrsquoaxe Ox

- ]2

2

[ ππδ minusisin est lrsquoangle formeacute par le plan xOy et le vecteur position2

Figure A1 - Systegraveme de coordonneacutees spheacuteriques

2 Cet angle diffegravere de lrsquoangle polaire usuel δπϕ minus=

2 habituellement pris entre lrsquoaxe Oz et le

vecteur position

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 46

Les relations entre les coordonneacutees spheacuteriques et les coordonneacutees carteacutesiennes sont

⎪⎩

⎪⎨

===

δδθδθ

sincossincoscos

zryrx

(A1)

On srsquointeacuteresse dans ce repegravere agrave lrsquoeacutequation de propagation des ondes acoustiques

de pression On se place dans les conditions classiques drsquoacoustique lineacuteaire (les variations de p sont petites par rapport agrave la pression atmospheacuterique) en supposant que lrsquoair est un fluide parfait (on y neacutegligera les pheacutenomegravenes dissipatifs) Dans une reacutegion de lrsquoespace ne comprenant pas de sources lrsquoeacutequation drsquoonde srsquoeacutecrit alors

0)(12

2

2 =⎟⎟⎠

⎞⎜⎜⎝

⎛partpart

minus∆ trptc

r (A2)

p eacutetant la pression et c la vitesse de propagation du son dans lrsquoair

Cette eacutequation devient dans le domaine freacutequentiel lrsquoeacutequation de Helmholtz

( ) 0)(2 =+∆ ωrpk r (A3)

ck ω

= eacutetant le nombre drsquoonde

En coordonneacutees spheacuteriques cette eacutequation srsquoeacutecrit

0sin1sin

sin11 2

2

2

222

2 =⎥⎦

⎤⎢⎣

⎡+

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart pk

rrrr

rr δθθθ

θθ (A4)

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques Drsquoapregraves [Bruneau 1983] elle admet des solutions agrave variables seacutepareacutees de la forme

)()()( δθ ΦΘ= rRp (A5) Ces solutions sont respectivement - pour la partie radiale une combinaison des fonctions de Bessel spheacuteriques de

premiegravere et seconde espegravece3 jn et nn

)()()( krBnkrAjrR nn += (A6) 3 Les fonctions de Bessel spheacuteriques de seconde espegravece sont eacutegalement appeleacutees fonctions de

Neumann

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 47

Ces fonctions sont deacutefinies comme suit

(A7)

Figure A2 - Fonctions de Bessel spheacuteriques pour les ordres 0 agrave 5 )(krjm

- pour la partie azimutale les fonctions )(θΘ

)sin()cos()( 21 θθθ ncnc +=Θ (A8) Eacutetant donneacute la deacutefinition de lrsquoangle Θ celui-ci doit neacutecessairement ecirctre de

peacuteriode 2π ))2()(( πθθ +Θ=Θ ce qui impose agrave n drsquoecirctre entier

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 48

- pour la partie polaire les fonctions de Legendre associeacutees )(sinδmnP

nm

nn

mn dPdP

)(sin)(sinsin)(sin

δδ

δδ = pour ⎩⎨⎧

gt=

nmavecnm 321

(A9)

ougrave les )(sinδnP sont les polynocircmes de Legendre de degreacute n en δsin deacutefinis par reacutecurrence

( )

11

22

1

0

sin)12()(sin)1(

1cos321)(sin

sin)(sin0)(sin

minus+ minus+=+

minus=

==

mmm mPPmPmet

P

PP

δδ

ϕδ

δδδ

(A10)

et de formule geacuteneacuterale

mm

m

mm dd

mP )1(sin

)(sin21)(sin 2 minus= δ

δδ (A11)

On peut appliquer aux fonctions )(sinδmnP la semi-normalisation de Schmidt

)(sin)()()(sin~ δεδ mnnmn P

nmnmP

+minus

= ougrave 10 =ε et 2=nε pour 1gen (A12)

En appariant les fonctions polaires et azimutales on deacutefinit les harmoniques

spheacuteriques de degreacute et drsquoordre)1(mnY 0gem 4 mnn lele0 et de degreacute et

drsquoordre (voir Figure A3)

)1(minusmnY 1gem

mnn lele1

)(sin~)sin()(

)(sin~)cos()()1(

)1(

δθδθ

δθδθ

mnmn

mnmn

PnY

PnY

=

=minus

(A13)

4 En geacuteneacuteral lorsque le degreacute et lrsquoordre ne sont pas eacutevoqueacutes conjointement on parle par abus de langage drsquoharmoniques drsquoordre m plutocirct que de degreacute m

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 49

soit

1)(sin

)()()12(2sin)(

)(sin)()()12(2cos)(

1)(sin)1()1()12(cos)(

)1(

)1(

1)1(

1

gt

⎪⎪⎩

⎪⎪⎨

+minus

+=

+minus

+=

=+minus

+=

minus

npourP

nmnmmnY

PnmnmmnY

npourPmmmY

mnmn

mnmn

mm

δθδθ

δθδθ

δθδθ

(A14)

La solution angulaire geacuteneacuterale srsquoeacutecrit alors sous la forme drsquoun deacuteveloppement sur

la base drsquoharmoniques spheacuteriques

( ) ( )sum minus

=minus+=Θ

1

1)1()1()( n

m mnmnmnmnn YBYBθ (A15) La solution geacuteneacuterale est alors la seacuterie de Fourier-Bessel

sum sum sum+infin

= = plusmn=

=0 0 1

)()( )()()(m

m

nmnmnm

m YBkrjikrpσ

σσ δθδθ (A16)

ougrave

intint⎪⎩

⎪⎨⎧

minusisin

isin

plusmnplusmn =

]2

2

[

[20[

)1()1( )()1()(

1

ππδ

πθ

δθδθ

S

mnm

mmn dSYpkrji

B (A17)

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 50

Tableau A1 - Expressions analytiques des harmoniques spheacuteriques pour les ordres 0 agrave 3

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 51

Figure A3 - Repreacutesentation des harmoniques spheacuteriques pour les ordres m = 0 agrave 3 Les

couleurs rouge et bleu indiquent respectivement des valeurs positives et neacutegatives

53

Annexe B

Compleacutements theacuteoriques sur le deacutecodage HOA

B1 Vecteur veacutelociteacute et vecteur eacutenergie Le vecteur veacutelociteacute est un indice de la direction apparente drsquoune source introduit

par Gerzon [Gerzon 1992] Il se calcule comme le rapport de la vitesse particulaire sur la pression acoustique

)()(

)()(1

δθδθ

δθδθ

ρ rprp

ki

rprv

cV nabla

minus=minus=rrr

(B1)

Dans le cas drsquoune onde plane le vecteur veacutelociteacute V

rest ainsi directement un

vecteur unitaire orienteacute vers la direction de provenance de lrsquoonde En geacuteneacuteralisant agrave une superposition drsquoondes planes en phase ou opposition de phase eacutemises par L haut-parleurs agrave eacutequidistance du point drsquoobservation on obtient la formule suivante

VVL

ll

L

lll

urg

ugV r

rr

==

sum

sum

=

=

1

1 (B2)

ougrave deacutesigne la direction du llur egraveme haut-parleur auquel est associeacute le gain gl et Vr Vur correspondent respectivement agrave la norme et agrave la direction du vecteur veacutelociteacute

Le vecteur eacutenergie est un autre indice de direction Il est deacutefinit par

EEL

ll

L

lll

urg

ugE r

rr

==

sum

sum

=

=

1

2

1

2

(B3)

Annexe B Compleacutements theacuteoriques sur le deacutecodage HOA 54

Il peut srsquointerpreacuteter comme une indication de la concentration de lrsquoeacutenergie ( ) et de sa direction moyenne de provenance (

Er

Eur ) On a toujours 1ltEr sauf dans le cas ougrave un seul haut-parleur contribue agrave la reconstruction (dans ce cas ) peut ecirctre consideacutereacute comme un indicateur de preacutecision de la localisation

1=Er Er

B2 Deacutecodages optimiseacutes La restitution la plus confortable drsquoun champ sonore veillera donc agrave maximiser

tout en essayant de garder le plus proche possible de 1 Lrsquooptimisation du deacutecodage consiste alors agrave multiplier chaque coefficient de la matrice de deacutecodage D (voir (111) par des gains calculeacutes drsquoapregraves des critegraveres drsquooptimisation

Er Vr

Ainsi le deacutecodage appeleacute max- maximise la norme du vecteur eacutenergie en

sacrifiant celle du vecteur veacutelociteacute puisqursquoon a dans ce deacutecodage (pour des configurations reacuteguliegraveres de haut-parleurs) Ce deacutecodage est donc avantageux par rapport au deacutecodage basique pour les hautes freacutequences ou dans le cas drsquoun auditoire eacutelargi Le deacutecodage in-phase va encore plus loin en cherchant agrave annuler complegravetement les contributions des haut-parleurs placeacutes agrave lrsquoopposeacute de la direction de provenance de lrsquoonde reproduite Ce critegravere est utile dans le cas drsquoune eacutecoute dans une position tregraves excentreacutee agrave laquelle on pourrait percevoir de faccedilon preacutedominante la contribution en opposition de phase drsquoun tel haut-parleur

Er

EV rr =

Ces diffeacuterents deacutecodages ont chacun des avantages et inconveacutenients Ainsi seul le

deacutecodage basique garantit = 1 le deacutecodage max- permet une preacutecision meilleure notamment en haute freacutequence et le deacutecodage in-phase est plus adapteacute agrave un auditoire plus large Jeacuterocircme Daniel [Daniel 2000] propose ainsi de changer le deacutecodage en fonction de la freacutequence et de lrsquoeacutetendue de la zone drsquoeacutecoute deacutesireacutee

Vr Er

Figure B1 - Deacutecodages les plus approprieacutes par sous-bande et en fonction de lrsquoeacutetendue de la

zone drsquoeacutecoute [Daniel 2000]

55

Annexe C

Analyse en composantes principales

C1 Espace des donneacutees Eacutegalement souvent appeleacutee transformeacutee de Karhunen-Loegraveve5 (TKL) lrsquoanalyse en

composantes principales (ACP) est une technique statistique de repreacutesentation drsquoinformation Introduite sur 2 variables par Pearson [Pearson 1900] elle a eacuteteacute eacutetendue par Hotelling [Hotelling 1933] Elle a pour but de caracteacuteriser des donneacutees drsquoun espace agrave N dimensions dans un sous-espace plus petit en minimisant les pertes drsquoinformation due agrave la projection crsquoest-agrave-dire en maximisant la variance projeteacutee Les donneacutees ainsi reacuteorganiseacutees deviennent indeacutependantes Les variables correacuteleacutees sont remplaceacutees par de nouvelles variables deacutecorreacuteleacutees et de variance maximale combinaisons lineacuteaires des variables initiales

Les donneacutees sont constitueacutees de n variables aleacuteatoires (dans notre cas des canaux)

et p reacutealisations ou individus (des eacutechantillons)

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

pn

p

ji

n

xx

x

xx

M

LLL

MOMNM

MLLM

MNMOM

LLL

1

111

(C1)

Ces donneacutees sont geacuteneacuteralement centreacutees et peuvent aussi ecirctre reacuteduites4 (on note

1x la moyenne de la variable et 1x )( 1xσ sa variance) Reacuteduire ou non le nuage de points (ie les p reacutealisations de la variable aleacuteatoire) est un choix de modegravele

5 Quelques rares sources mentionnent une diffeacuterence entre ACP et TKL en placcedilant celle-ci au

niveau du choix de la reacuteduction des donneacutees dans le cas dune ACP les donneacutees seraient centreacutees et reacuteduites alors qursquoelles seraient uniquement centreacutees pour une TKL

Annexe C Analyse en composantes principales 56

- si on ne reacuteduit pas le nuage une variable agrave forte variance pourrait tirer tout lrsquoeffet de lrsquoACP agrave elle

- si on reacuteduit le nuage une variable qui ne serait qursquoun bruit se retrouverait avec une variance apparente eacutegale agrave une variable informative

M est centreacutee

⎥⎥⎥

⎢⎢⎢

minusminusminus

minusminus=

npn

pi

ji

nn

xxxxxx

xxxxM

K

MM

K

11

11

11

ˆ (C2)

M~ est centreacutee et reacuteduite

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

minusminus

minus

minusminus

=

)()(

)(

)()(~

1

11

1

1

111

n

npn

pi

ij

i

n

nn

xxx

xxx

xxx

xxx

xxx

M

σσ

σ

σσ

K

MM

K

(C3)

On multiplie ensuite la matrice obtenue par sa transposeacutee pour obtenir - La matrice de covariance MMC t

vˆˆ sdot=

- La matrice de correacutelation MMC tr

~~ sdot= Ces matrices sont carreacutees (N x N) symeacutetriques et reacuteelles Elles sont donc

diagonalisables dans une base orthonormeacutee 6 Le principe de lrsquoACP est alors de trouver un axe u issu drsquoune combinaison lineacuteaire

des tel que le critegravere drsquoinertie du nuage autour de cet axe soit maximal Le critegravere drsquoinertie couramment utiliseacute est la variance Il faut donc trouver lrsquoaxe qui porte le maximum de variance crsquoest-agrave-dire lrsquoaxe u tel que la projection du nuage sur cet axe ait une variance maximale

nx

6 Nos donneacutees eacutetant ici des valeurs drsquoeacutechantillons elles sont par nature centreacutees et reacuteduites On

formera donc naturellement la matrice de correacutelation

C2 Diagonalisation 57

C2 Diagonalisation Pour alleacuteger lrsquoeacutecriture de la suite de cette partie nous consideacutererons que les

variables ont eacuteteacute centreacutees et si besoin reacuteduites et nous noterons ces variables

transformeacutees (ainsi

ix ix

iii xxx minuslarr ou bien )( i

iii x

xxxσ

minuslarr ) On fera de mecircme pour M

( ou bien MM ˆlarr MM ~larr ) et C ( vCC larr ou bien rCC larr ) La projection drsquoun eacutechantillon sur un axe u srsquoeacutecrit ix

uMxiu sdot=)(π (C4) La variance empirique de )( iu xπ vaut donc

uMMuxx ttiu

tiu sdotsdotsdot=sdot )()( ππ (C5)

Or on a vu que est diagonalisable dans une base orthonormeacutee donc

on peut noter P le changement de base associeacute et ∆ la matrice diagonale formeacutee de son spectre Ainsi

MMC t=

n

i 1)(λ PPMMC tt ∆==

)()()()( PuPuuPPuxx ttt

iut

iu sdot∆sdot=sdot∆sdot=sdotππ (C6) On pose v = Pu Chercher lrsquoaxe u qui maximise )( iu xπ revient donc agrave chercher le

vecteur v qui maximise ougravevvt ∆ )( 1 ndiag λλ K=∆ avec les iλ rangeacutes par ordre deacutecroissant Ce vecteur est trivialement le premier vecteur unitaire et on a alors

1λ=∆vvt

Ainsi le vecteur qui porte la plus grande part drsquoinertie du nuage est le premier

vecteur propre de C (premier par norme deacutecroissante) De mecircme le deuxiegraveme vecteur qui explique la plus grandelt part de lrsquoinertie restante est le deuxiegraveme vecteur propre de C Finalement la question de lrsquoACP se ramegravene agrave un problegraveme de diagonalisation de la matrice de correacutelation

C3 Code Matlab

function [vep vap] = pca(f N) f donneacutees N nombre de composantes agrave garder cor = f f formation de la matrice de correacutelation [vep vap] = eig(cor) calcul des vecteurs (vep) et valeurs (vap) propres [vap ind] = sort(diag(vap)) tri des valeurs propres par ordre croissant vap = flipud(vap) disposition inverse par ordre drsquoimportance vep = vep( flipud(ind)) classement en conseacutequence des vecteurs propres vep = vep( 1N) on ne garde que les N premiers vecteurs propres

Annexe C Analyse en composantes principales 58

59

Annexe D

Analyse en sous-bandes

D1 La transformeacutee de Fourier agrave court terme (TFCT) Pour affiner lrsquoanalyse les signaux sont donc deacutecoupeacutes en bandes de freacutequence par

TFCT La TFCT consiste agrave effectuer des transformeacutees de Fourier discregravetes sur des portions de signal fenecirctreacutees reacuteguliegraverement espaceacutees

On rappelle que la transformeacutee de Fourier drsquoun signal x(t) est deacutefinie (lorsque

lrsquointeacutegrale existe) par

int+infin

infinminus

minus= dtetxfX ftiπ2)()( (D1)

La transformeacutee de Fourier agrave temps discret (TFTD) drsquoun signal x(t) srsquoeacutecrit

sum+infin

minusinfin=

minus=n

fnienxfX π2)()( (D2)

La transformeacutee de Fourier discregravete (TFD) drsquoun signal discret x(k) est deacutefinie par

sum+infin

minusinfin=

minus=

n

Nkni

enxkXπ2

)()( (D3)

La TFCT discregravete est une TFD observeacutee sur une fenecirctre wa de taille N

summinus

=

minus+=

1

0

2)())(()(

N

n

Nnki

aaa enwtnxkXπ

ττ (D4)

ougrave )(taτ est lrsquoinstant drsquoanalyse

Annexe D Analyse en sous-bandes 60

Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT [Laroche 1995]

D2 Synthegravese par addition-recouvrement Lors de la synthegravese apregraves le deacutecoupage et lrsquoanalyse des fenecirctres on cherche agrave

reconstruire le signal temporel agrave partir de sa repreacutesentation freacutequentielle Pour cela on utilise la meacutethode OLA (overlap and add addition-recouvrement) qui consiste agrave prendre la TFCT inverse des spectres Xt puis agrave additionner les signaux obtenus apregraves les avoir multiplieacutes par une fenecirctre de pondeacuteration en les faisant se recouvrir partiellement

Le reacutesultat est donneacute par

sum=

minusminus=T

tsss tnxtnwnx

s1

))((~))(()(~ ττ τ (D5)

avec )()( tt as ττ = et summinus

=

=1

0

2))((~1)(~ N

k

Nkni

s ektXN

nxs

π

τ τ

Lors de la mise en œuvre de ce traitement il faut srsquoassurer drsquoecirctre en mesure de

reconstruire parfaitement un signal lorsqursquoaucune transformation ne lui est appliqueacutee Le critegravere de reconstruction parfaite condition suffisante est alors

sum=

=minusminusT

tasaa tnwtnw

11))(())(( ττ quelque soit n (D6)

D2 Synthegravese par addition-recouvrement 61

Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add [Laroche 1995]

Plusieurs paramegravetres sont agrave choisir avec soin Le premier drsquoentre eux est le type

de fenecirctre agrave utiliser Les diffeacuterentes options qui se preacutesentent agrave nous sont - la fenecirctre rectangulaire qui preacutesente dans son spectre le lobe principal le plus

eacutetroit mais des lobes secondaires non neacutegligeables - la fenecirctre de Hamming au lobe principal un peu plus large mais pour laquelle le

1er lobe secondaire se situe agrave -43 dB - la fenecirctre de Hann (ou cosinus sureacuteleveacute) qui ressemble agrave la preacuteceacutedente avec un

1er lobe secondaire plus fort mais une pente de 18 dB par octave pour les lobes suivants

- les fenecirctres de Blackman-Harris aux lobes secondaires tregraves bas mais au lobe principal plus large

Fenecirctre Lobe 2aire

(dB) Pente

(dBoct) Bande passante

agrave 6 dB (bins) Rectangulaire -13 -6 121 Triangulaire -27 -12 178

Hann -32 -18 200 Hamming -43 -6 181

Blackman-Harris 4 -92 -6 272

Tableau D1 - Caracteacuteristiques des principales fenecirctres drsquoanalyse [Harris 1978] Le meilleur compromis est donc dans notre contexte la fenecirctre de Hann ou celle

de Hamming

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 21: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

22 Principe de lrsquoextraction drsquoinformation spatiale avec une ACP 15

Figure 21 - Y en fonction de X dans le cas drsquoun bruit blanc enregistreacute placeacute agrave 30deg

On remarque que le nuage est eacutetireacute dans la direction de provenance du son indiqueacutee par la flegraveche en pointilleacutes verts

222 Application de lrsquoanalyse en composantes principales La 1egravere composante issue de lrsquoACP appliqueacutee dans le plan (X Y) pointe dans la

direction dans laquelle X et Y ont la plus grande correacutelation Or comme X contient lrsquoinformation placeacutee sur lrsquoaxe avant-arriegravere et Y lrsquoinformation de lrsquoaxe gauche-droite cette direction est directement la direction de la source Par exemple un son situeacute droit devant dans lrsquoaxe (agrave 0deg) aura une composante Y nulle et par conseacutequent les eacutechantillons seront dans le plan tous disposeacutes sur lrsquoaxe horizontal LrsquoACP prendra donc naturellement cet axe comme 1er vecteur propre et il pointe bien vers la position de la source De mecircme un son situeacute agrave 135deg ( π28

3 times rad) aura la proprieacuteteacute Y = -X Les eacutechantillons seront donc placeacutes sur la 2egraveme bissectrice qui fait avec lrsquoaxe Y=0 un angle de 135deg (voir Figure 22)

Figure 22 - Y en fonction de X dans le cas drsquoun son placeacute artificiellement dans la direction

indiqueacutee par la flegraveche en pointilleacutes verts agrave 0deg (agrave gauche) et 135deg (agrave droite)

Chapitre 2 Analyser un contenu HOA 16

Lrsquoanalyse de X et Y ne permet cependant de deacuteterminer lrsquoangle qursquoagrave π pregraves il reste une indeacutetermination (on deacutetermine la direction drsquoun axe qursquoil reste agrave orienter) Pour lever cette ambiguiumlteacute on integravegre W agrave lrsquoanalyse car cette composante pourtant omnidirectionnelle et donc deacutepourvue drsquoinformation spatiale apporte une reacutefeacuterence pour les phases Ainsi notre son placeacute agrave 135deg veacuterifiait (aux eacuteventuels coefficients de normalisation pregraves) Y = -X = W alors qursquoun son placeacute agrave 135 - 180 = -45deg aurait la proprieacuteteacute Y = -X = -W

Pour prendre en compte W dans lrsquoanalyse on peut comparer directement les

phases de ces 3 canaux Algorithmiquement on ramegravene lrsquoangle trouveacute agrave son modulo π2 puis on deacutetermine le vrai cadran par comparaison des phases de W X et Y crsquoest-agrave-dire en comparant le signe des produits W X et W Y Ainsi W X gt 0 signifie que W et X sont en phase et reacuteciproquement (voir Figure 23)

W X lt 0 W Y gt 0

W X gt 0 W Y gt 0

W X lt 0 W Y lt 0

W X gt 0 W Y lt 0

minusπ2

π

π2

0

Figure 23 - Signes de W X et W Y en fonction du cadran On peut eacutegalement inteacutegrer W agrave lrsquoanalyse en appliquant lACP sur le triplet (X Y

W) Le problegraveme drsquoambiguiumlteacute est ainsi reacutesolu la direction rechercheacutee eacutetant celle du vecteur principal dans le demi-espace W gt 0 projeteacutee sur le plan (X Y) Cette meacutethode srsquoavegravere plus robuste et surtout plus geacuteneacuteralisable agrave des ordres plus eacuteleveacutes

Cette analyse permet donc de deacuteterminer la position drsquoune source unique Pour

pouvoir seacuteparer plusieurs sources nous avons appliqueacute lrsquoACP par sous-bandes en supposant que les sources nrsquoont pas des supports freacutequentiels strictement identiques Le principe de cette analyse en sous-bandes est deacuteveloppeacute en Annexe D

23 Meacutethodologie

231 Construction de scegravenes artificielles Pour tester les algorithmes impleacutementeacutes nous avons ducirc creacuteer des scegravenes sonores

spatialiseacutees au format HOA Plusieurs types de scegravenes ont eacuteteacute utiliseacutes de complexiteacutes diffeacuterentes Les premiegraveres ont eacuteteacute des scegravenes virtuelles syntheacutetiseacutees avec Matlab Les premiegraveres scegravenes simplissimes ne comportait qursquoune sinusoiumlde ou un bruit blanc fixe placeacute dans le plan horizontal Puis pour tester lrsquoanalyse par sous-bandes ont eacuteteacute creacuteeacutes des sons polyphoniques composeacutes de 2 sinusoiumldes tout drsquoabord puis de sons complexes (syntheacutetiseacutes par synthegravese FM) dans des gammes freacutequentielles distinctes ou se

23 Meacutethodologie 17

chevauchant Enfin ces sons ont eacuteteacute rendus mobiles en faisant varier leur position dans le temps

Nous avons pu ainsi constater agrave lrsquoaide des sons fixes et de supports freacutequentiels

distincts la preacutecision de lrsquoanalyse et avec les sons mobiles et mecircleacutes sa robustesse Nous nous sommes limiteacutes sous Matlab agrave la geacuteneacuteration de 2 sons simultaneacutes et du 1er ordre et un autre outil Plogue Bidule a eacuteteacute utiliseacute pour composer des scegravenes plus complexes

Bidule est un studio modulaire virtuel ressemblant agrave MAXMSP Des plugins ont

eacuteteacute deacuteveloppeacutes agrave France Teacuteleacutecom pour permettre de manipuler des signaux HOA Ainsi des scegravenes complexes ont pu facilement ecirctre syntheacutetiseacutees agrave des ordres eacuteleveacutes Des scegravenes agrave 3 et 4 sources fixes ou dont 1 source mobile ont eacuteteacute reacutealiseacutees agrave partir de voix deacutemixeacutees placeacutees dans le plan horizontal ou en 3 dimensions

Ces scegravenes eacutetant artificielles elles sont en un sens ideacuteales ne contiennent aucun

signal reacuteverbeacutereacute (effet de salle) ni diffracteacute (par un micro) lrsquoencodage est fait sans artefacts les ondes sont consideacutereacutees comme planes et ont donc une direction bien deacutefinie Si on est ici bien loin de la vraie vie le gros avantage des scegravenes artificielles est qursquoon connaicirct preacuteciseacutement agrave chaque instant la position des sources et qursquoon peut ainsi veacuterifier le reacutesultat de lrsquoanalyse

Figure 24 - Interface graphique du logiciel Bidule avec agrave droite les controcircles des encodeurs

et deacutecodeurs HOA creacuteeacutes agrave France Teacuteleacutecom

Chapitre 2 Analyser un contenu HOA 18

232 Exploitation drsquoenregistrements naturels Une fois des reacutesultats convaincants obtenus avec des scegravenes virtuelles des

enregistrements naturels ont eacuteteacute analyseacutes Ces scegravenes ont eacuteteacute enregistreacutees gracircce au prototype de micro HOA du 4egraveme ordre deacuteveloppeacute agrave France Teacuteleacutecom (voir Figure 12) Ce processus implique des diffeacuterences notables avec un encodage virtuel

Le prototype de microphone contraint en effet agrave quelques compromis pour

optimiser des critegraveres incompatibles La taille du microphone reacutesulte drsquoun compromis entre la preacutecision drsquoestimation des composantes en basses freacutequences qui neacutecessite une taille eacuteleveacutee et la minimisation de lrsquoaliasing spatial qui ne peut ecirctre eacuteviteacute qursquoavec des capsules tregraves proches les unes des autres Leur disposition est eacutegalement irreacuteguliegravere il nrsquoexiste en fait aucune faccedilon de disposer reacuteguliegraverement plus de 20 points sur une sphegravere La configuration qui avait eacuteteacute retenue par les concepteurs [Moreau 2006] est la ldquomoins irreacuteguliegravere possiblerdquo au sens de la preacuteservation de lrsquoorthonormaliteacute des harmoniques spheacuteriques les 32 capsules sont reacuteparties sur une sphegravere de 35 cm de rayon selon un Pentaki-dodeacutecahegravedre polyegravedre semi-reacutegulier dual de lrsquoicosaegravedre tronqueacute (ballon de football)

Ces artefacts sont donc inheacuterents agrave lrsquoutilisation drsquoun reacuteseau de microphones Mais

le monde reacuteel pose eacutegalement des problegravemes deacutelicats La complexiteacute des modes de rayonnement drsquointeraction avec lrsquoenvironnement reacuteclame lrsquointroduction de modegraveles drsquoencodage beaucoup plus complexes que le cas drsquoune onde plane en champ libre et rend lrsquoinformation spatiale moins limpide et univoque au sein de la scegravene encodeacutee (enregistreacutee) en comparaison avec une scegravene virtuelle Les sources ne sont ainsi plus ponctuelles mais eacutetendues elles ne sont plus agrave lrsquoinfini mais agrave une distance finie du microphone (les ondes reccedilues ne sont donc plus planes) En outre chaque source en se reacutefleacutechissant sur les parois et les diffeacuterents objets de la salle creacutee une multitude de sources secondaires Il est enfin souvent difficile de connaicirctre avec preacutecision la position drsquoune source dans lrsquoespace lors drsquoun enregistrement

Des enregistrements en chambre sourde ont eacuteteacute reacutealiseacutes pour se passer des

reacuteflexions de lrsquoenvironnement Afin de connaicirctre avec preacutecision la position de la source un haut-parleur diffusant un bruit blanc nous avons placeacute le microphone sur une table tournante commandeacutee par un plug-in sous Plogue Bidule

233 Visualisations des reacutesultats Lrsquoobservation des reacutesultats a eacuteteacute effectueacutee de plusieurs maniegraveres visuellement et

par lrsquoeacutecoute Les graphiques eacutetant plus commodes crsquoest par cette voie que les premiers essais eacutetaient conclus Plusieurs types de graphiques ont eacuteteacute produits deacutecrivant des paramegravetres diffeacuterents

Les repreacutesentations temps-freacutequence permettent de repreacutesenter une variable agrave 1

dimension sous Matlab Cette voie a eacuteteacute suivie pour visualiser les paramegravetres extraits de chaque sous-bande de chaque fenecirctre notamment les angles lrsquoeacutenergie et la pertinence Malheureusement Matlab ne permet pas de repreacutesenter sur le mecircme graphique une 4egraveme dimension sous la forme drsquoune 2egraveme dimension colorimeacutetrique (on prend geacuteneacuteralement la

23 Meacutethodologie 19

saturation) Cette dimension suppleacutementaire aurait permis de repreacutesenter simultaneacutement les angles et leur pertinence

Figure 25 - Repreacutesentation

et de lrsquoespace col

Pour repreacutesenter s

drsquoabandonner une dimensipouvoir repreacutesenter danrepreacutesenteacutees soit par le niv

Figure 26 - Repreacutesentationdeacutecrite en 332 (en absciss

est repreacutesenteacutee agrave gauc

234 Diffeacuterents modes La visualisation est

indispensable pour veacuterifiesont possibles de ceux-cainsi reconstitueacutee agrave partir d

1 W+Y+02X pour le c

π 0 minusπ

de la table des couleurs dite HSV de Matlab (lineacuteaire agrave gauche) orimeacutetrique HSL (Hue Saturation Luminance agrave droite)

imultaneacutement angles et pertinence il eacutetait donc neacutecessaire on Crsquoest le deacutecoupage freacutequentiel qui a eacuteteacute mis de cocircteacute pour s un plan temps-angles les pertinences Celles-ci sont eau de gris des points soit par leur taille

de la pertinence des angles de la scegravene agrave 4 sources dont 1 mobile e les trames en ordonneacutees les angles en degreacute) La pertinence he par lrsquointensiteacute du bleu et agrave droite par la taille des points

drsquoeacutecoute

un indice preacutecis de reacutesultat mais lrsquoeacutecoute est tout de mecircme r la qualiteacute globale de la synthegravese Plusieurs modes drsquoeacutecoute i lrsquoeacutecoute au casque est la plus aiseacutee Une pseudo-steacutereacuteo est es signaux du 1er ordre1 pour restituer les scegravenes restreintes au

anal gauche et W-Y+02X pour le canal droit

Chapitre 2 Analyser un contenu HOA 20

plan horizontal Pour plus de preacutecision agrave la restitution ou pour des scegravenes en 3D et sans perdre la faciliteacute drsquoune eacutecoute personnelle au casque on peut appliquer des filtres HRTF (Head-Related Transfert Function) pour une reproduction binaurale

Pour appreacutecier pleinement la spatialisation la diffusion sur un systegraveme multi

haut-parleurs est indispensable Deux systegravemes sont installeacutes dans le laboratoire de France Teacuteleacutecom un systegraveme 51 et un systegraveme circulaire de 48 haut-parleurs Ces systegravemes installeacutes dans des studios insonoriseacutes offrent une grande qualiteacute drsquoeacutecoute qui permet de repeacuterer les deacutefauts mecircme minimes de la synthegravese

21

Chapitre 3

Description des analyses

31 Deacutetermination des directions principales

311 Base des algorithmes Nous avons deacuteveloppeacute plusieurs algorithmes reacutepondant aux diffeacuterents objectifs

deacutecrits plus haut Chacun drsquoeux possegravede des particulariteacutes leur permettant de reacutepondre agrave ces objectifs mais on trouve neacuteanmoins une partie commune Ainsi toutes les analyses reposent sur le mecircme modegravele drsquoapplication drsquoune ACP par sous-bandes dont voici le scheacutema geacuteneacuteral

Figure 31 - Scheacutema geacuteneacuteral drsquoanalyse

Les signaux en entreacutee sont les composantes HOA W X et Y dans la plupart des

cas mais peuvent ecirctre eacutegalement des composantes drsquoordre plus eacuteleveacute (voir 11) Sur le fenecirctrage jouent plusieurs paramegravetres comme la taille de la fenecirctre ou encore le pourcentage de recouvrement entre elles Nous avons choisi une fenecirctre en racine de la fenecirctre de Hanning crsquoest-agrave-dire une arche de sinusoiumlde (voir eacutequation (D7) en Annexe D) avec un recouvrement de 50 ce qui veacuterifie le critegravere de reconstruction parfaite (D6) Le filtrage est pour des raisons de rapiditeacute de calcul reacutealiseacute dans le domaine freacutequentiel par une simple multiplication avant de repasser en temporel pour appliquer lrsquoACP

Le banc de filtre utiliseacute est un banc inspireacute des filtres ERB Les filtres ERB

(Equivalent Regular Bandwidth) sont des filtres imitant le comportement de seacuteparation freacutequentielle de lrsquooreille humaine plus preacutecise en basse freacutequence Les filtres utiliseacutes ici ne sont pas directement des filtres ERB le systegraveme nrsquoa pas drsquointeacuterecirct particulier agrave essayer de copier le fonctionnement de lrsquooreille humaine Ces filtres ont eacuteteacute adapteacutes au problegraveme en

Chapitre 3 Description des analyses 22

srsquoassurant en particulier de la finesse des bandes permettant la meilleure discrimination des diffeacuterentes sources crsquoest-agrave-dire autour des fondamentales usuelles (200-1000 Hz) et des harmoniques Les freacutequences aigueumls sont bien discrimineacutees par les filtres ERB (relativement agrave la gamme crsquoest-agrave-dire en eacutechelle logarithmique) le deacutecoupage a donc surtout eacuteteacute densifieacute entre 200 et 800 Hz par rapport aux bandes ERB

Figure 32 - Filtres utiliseacutes inspireacutes des filtres ERB repreacutesenteacutes lineacuteairement (en haut)

et sur une eacutechelle logarithmique (en bas) Les reacutesultats de lrsquoACP sont donc avec cette meacutethode les angles des sources

trouveacutees dans chaque sous-bande ainsi que pour chacun drsquoeux un critegravere de pertinence calculeacute en fonction de lrsquoeacutenergie de la sous-bande dans une fenecirctre donneacutee et de la norme relative de la premiegravere composante de lrsquoACP (voir 342) Les autres vecteurs propres peuvent ecirctre utiliseacutes pour extraire davantage drsquoinformations et mecircme des signaux deacutecorreacuteleacutes comme on le verra au paragraphe 35 mais lrsquoanalyse semble alors moins robuste Srsquoen tenir aux informations donneacutees par la composante principale est un gage de pertinence suppleacutementaire

Ces reacutesultats concernent donc les sources preacutedominantes ou principales mais

laissent de cocircteacute un certain nombre drsquoeacuteveacutenements sonores agrave consideacuterer

312 Traitement du champ reacutesiduel Le champ reacutesiduel regroupe en quelque sorte tout ce qui nrsquoest pas une source

principale Il inclut donc les reacuteflexions et la reacuteverbeacuteration de la piegravece mais aussi les bruits parasites occasionnels ou continus (ventilation etc) Ces bruits ou eacutechos nrsquoont pas de direction de provenance assez distincte pour pouvoir ecirctre mesureacutee preacuteciseacutement Le champ reacutesiduel est eacutegalement composeacute du champ diffus La notion de champ diffus est couramment utiliseacutee mais rarement preacuteciseacutement deacutefinie On trouve dans la litteacuterature des deacutefinitions diverses lrsquoune drsquoelles preacutecisant qursquoil serait un ensemble drsquoeacuteveacutenements sonores proches en temps et provenant de directions eacutequiprobables

Les algorithmes proposeacutes traitent correctement les sources principales mais le

champ reacutesiduel est laisseacute de cocircteacute Il est pourtant tregraves important pour lrsquoimmersion du sujet dans la scegravene une scegravene deacutepourvue de champ sonore sera perccedilue comme artificielle ce qui nuit agrave la perception drsquoespace On sera par exemple davantage conscients drsquoecirctre au centre drsquoun dispositif expeacuterimental et moins sensibles aux variations de profondeur et de perspectives

31 Deacutetermination des directions principales 23

Neacuteanmoins il faut relativiser lrsquoimportance de ce champ reacutesiduel il nrsquoest pas utile pour la localisation des sources principales et ne caracteacuterise que lrsquoenvironnement drsquoenregistrement En outre le champ reacutesiduel qui provient souvent de directions floues et notre but nrsquoest pas de les preacuteciser artificiellement Il nrsquoest degraves lors geacuteneacuteralement pas utile de le transmettre aux ordres eacuteleveacutes

Ainsi certains auteurs [Merimaa and Pulkki 2005] ont choisi de recreacuteer lors drsquoune

synthegravese un champ diffus artificiel baseacute sur une reacuteponse impulsionnelle de salle calculeacutee agrave lrsquoavance Lrsquoavantage est une immersion un enveloppement complets lrsquoinconveacutenient est que lrsquoambiance ainsi recreacuteeacutee est fictive et arbitraire et en outre complegravetement indeacutependante de lrsquoambiance initiale en laissant notamment de cocircteacute les sources secondaires

Nous proposons dans nos algorithmes de ne pas syntheacutetiser le champ diffus aux

ordres eacuteleveacutes mais de nous contenter de la description du champ reacutesiduel fourni par les ordres transmis (1er ordre dans nos exemples) Nous nous limiterons donc agrave preacuteciser par la synthegravese des ordres supeacuterieurs les positions des sources principales

32 Extension agrave la 3D Nous avons pour le moment eacutevoqueacute le cas de repreacutesentations de champ sonore agrave

2 dimensions crsquoest-agrave-dire issus de sources placeacutees dans le plan horizontal Mais certaines repreacutesentations comportent eacutegalement des composantes verticales Pour analyser ces signaux en 3 dimensions il faut inteacutegrer la composante Z On effectue alors simplement une ACP sur X Y Z et W Le 1er vecteur propre sera alors bien dirigeacute dans lrsquoespace (X Y Z) dans la direction de la source lrsquoambiguiumlteacute de frac12 espace eacutetant leveacutee par W

Lrsquoalgorithme est alors complegravetement similaire agrave celui analysant des signaux en 2

dimensions Des tests ont eacuteteacute reacutealiseacutes agrave partir de signaux syntheacutetiques pour lesquels les positions des sources eacutetaient connues pour des raisons pratiques aucune scegravene sonore reacuteelle en 3 dimensions nrsquoa pu ecirctre enregistreacutee avec une connaissance initiale preacutecise des positions des sources

Les visualisations et les eacutecoutes eacutetant plus deacutelicates en 3D et lrsquoextension agrave la 3D

eacutetant immeacutediate nous avons donc concentreacute nos efforts sur lrsquoanalyse de scegravenes en 2D En outre en lrsquoabsence de dispositif spheacuterique ou heacutemispheacuterique de haut-parleurs le seul moyen agrave notre disposition pour eacutecouter une scegravene 3D est lrsquoeacutecoute binaurale crsquoest-agrave-dire au casque avec des fonctions de transfert de tecircte (HRTF) relativement bien adapteacutees agrave lrsquoauditeur

33 Analyse aux ordres supeacuterieurs

331 Description Afin drsquoameacuteliorer la preacutecision de lrsquoanalyse nous avons essayeacute drsquoappliquer une ACP

sur des signaux ambisoniques drsquoordre plus eacuteleveacute (signaux HOA) dans le plan horizontal Deux meacutethodes ont eacuteteacute essayeacutees

Chapitre 3 Description des analyses 24

La premiegravere consiste agrave appliquer une ACP agrave 3 dimensions successivement sur les composantes X Y W (ordre 1 et 0) puis U V W (ordre 2 et 0) et ainsi de suite crsquoest-agrave-dire (en utilisant la notation geacuteneacuterale) sur les composantes et W (ordre m et 0) Les reacutesultats de ces analyses (les directions des 1

)1(0mY )1(

0minus

mYegraveres composantes) sont ensuite regroupeacutees

lrsquoanalyse de lrsquoordre 1 fournissant des reacutesultats modulo 2π lrsquoanalyse de lrsquoordre 2 des reacutesultats plus preacutecis mais modulo π et plus geacuteneacuteralement lrsquoanalyse de lrsquoordre m permettant de trouver des angles modulo mπ2

La limite de cette approche se perccediloit lors de la fusion des reacutesultats les angles

trouveacutes agrave un ordre eacuteleveacute sont plus preacutecis dans des bandes de freacutequences eacuteleveacutees mais la limitation theacuteorique de ces signaux HOA dans les basses freacutequences font que lrsquoanalyse de lrsquoordre 1 reste la plus pertinente dans les premiegraveres bandes Parvenir agrave deacuteterminer agrave partir de quelle freacutequence on peut faire davantage confiance agrave lrsquoordre n+1 qursquoagrave lrsquoordre n nrsquoest pas aiseacute et cette limite provoque des aberrations dans les angles trouveacutes Une source unique pourra par exemple ecirctre interpreacuteteacutee par lrsquoalgorithme des k-moyennes (voir 341) comme 2 sources une en hautes freacutequences et une en basses freacutequences les 2 eacutetant trouveacutes agrave 2 angles diffeacuterents chaque angle relevant drsquoun ordre analyseacute diffeacuterent

La deuxiegraveme meacutethode consiste pour eacuteviter cette fusion des reacutesultats agrave effectuer

une seule ACP sur les composantes U V X Y et W Cette meacutethode souffre drsquoune tregraves grande complexiteacute algorithmique pour une ameacutelioration de la preacutecision peu sensible En effet si cette meacutethode permet drsquoobtenir des reacutesultats plus preacutecis dans certaines bandes de freacutequences elle est sensible aux deacutefauts et les limites des ordres supeacuterieurs (lrsquoabsence de basses freacutequences entre autres) perturbent lrsquoanalyse en composantes principales

332 Illustration sur une scegravene virtuelle La scegravene preacutesenteacutee ici est une scegravene artificielle crsquoest-agrave-dire composeacutee de sons

placeacutes artificiellement agrave diverses positions Elle a une dureacutee totale de 135 s et comporte 4 sources positionneacutees dans le plan horizontal une guitare placeacutee agrave 45deg une basse agrave -70deg une batterie agrave 110deg et une voix feacuteminine qui effectue continucircment un tour complet dans le sens indirect en partant de lrsquoarriegravere (elle passe donc successivement par les positions 180deg 90deg 0deg -90deg et -180deg) La guitare et la batterie srsquoarrecirctent peu avant la fin de la scegravene (12egraveme seconde au 910egraveme du son approximativement)

Figure 33 - Position des sources de la scegravene de test agrave 4 sources dont 1 mobile

33 Analyse aux ordres supeacuterieurs 25

Figure 34 - Angles drsquoune scegravene virtuelle ayant 1 source mobile et 3 sources fixes

(deacutecrite en 332) trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 Pour chaque trame (en abscisse) 20 angles (1 par bande en ordonneacutee et en degreacutes) sont

reporteacutes le diamegravetre du point correspondant agrave un critegravere de pertinence (voir 342)

Figure 35 - Angles de la mecircme scegravene trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 2 Reacutesultats modulo π reacutepliqueacutes pour faciliter la comparaison avec la figure preacuteceacutedente On remarque que les lignes sont plus nettes qursquoil y a moins drsquoangles aberrants et que

les angles corrects sont plus marqueacutes (ils sont deacutetermineacutes comme plus pertinent)

Chapitre 3 Description des analyses 26

20

0

20

0

20

0

Figure 36 - Angles drsquoune scegravene reacuteelle constitueacutee drsquoun bruit parcourant le cercle trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 (en haut) 0 et 2 (au milieu) et 0 et 4 (en bas) Le

numeacutero de trame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On retrouve qursquoune limitation des ordres HOA supeacuterieurs issus drsquoun enregistrement

microphonique est la restitution des basses freacutequences

34 Traitement des donneacutees

341 Algorithme des k-moyennes Agrave lrsquoissue de lrsquoanalyse en composantes principales on reacutecupegravere avec la premiegravere

des meacutethodes exposeacutees au chapitre preacuteceacutedent des angles correspondants aux positions des sources preacutedominantes agrave raison drsquoune valeur par fenecirctre et par bande de freacutequence Il faut agrave partir de ces donneacutees parvenir agrave isoler les sources crsquoest-agrave-dire agrave deacuteterminer quels sont les angles pertinents et examiner quels sont ceux qui agrave une certaine toleacuterance pregraves sont preacutesents dans plusieurs bandes de freacutequence etou plusieurs fenecirctres temporelles

Pour pouvoir exploiter ces donneacutees spatiales nous avons utiliseacute lrsquoalgorithme des

k-moyennes (ou k-means) [MacQueen 1967] sur les angles pondeacutereacutes par des critegraveres de pertinence Cet algorithme fonctionne de la maniegravere suivante

Initialisation choix de k barycentres (les k moyennes) Reacutepeacuteter Associer chaque eacuteleacutement au barycentre le plus proche Recalculer les positions des barycentres Jusqursquoagrave ce que les barycentres soient stables (ou au bout de t iteacuterations)

34 Traitement des donneacutees 27

Lrsquoavantage de cet algorithme est drsquoecirctre peu glouton puisqursquoil converge en O(tkn) ougrave t est le nombre drsquoiteacuterations k le nombre de centres et n le nombre de points (geacuteneacuteralement on a t k ltlt n) Par contre il est plutocirct sensible aux exceptions un point aberrant tirera agrave lui la moyenne auquel il aura eacuteteacute associeacute Il faut donc faire en sorte que ces points erroneacutes soient aussi rares que possibles Crsquoest pourquoi les angles traiteacutes sont pondeacutereacutes par 2 critegraveres de pertinence

La pondeacuteration des angles fournis en entreacutee de lrsquoalgorithme des k-moyennes se

fait de maniegravere simple en reacutepeacutetant ces angles un nombre de fois (de 0 agrave 10) proportionnel agrave un critegravere Ainsi un angle tregraves pertinent sera dupliqueacute et sera preacutesent plusieurs fois dans la liste des donneacutees traiteacutees attirant ainsi agrave lui la position du barycentre le plus proche Au contraire un angle trop peu pertinent ne sera pas reacutepeacuteteacute voir mecircme sera enleveacute de la liste

Le seul problegraveme de cet algorithme est qursquoil neacutecessite la connaissance de k crsquoest-

agrave-dire du nombre de sources qui composent la scegravene Une deacutetermination automatique se basant sur la reacutepeacutetition de lrsquoalgorithme avec un k croissant a eacuteteacute testeacutee mais le critegravere drsquoarrecirct reposant sur la dispersion des points autour des barycentres nrsquoeacutetant pas assez robuste cette meacutethode a provisoirement eacuteteacute mise de cocircteacute

342 Critegraveres de pertinence Les 2 critegraveres de pondeacuteration choisis sont lrsquoeacutenergie de la sous-bande dans la

fenecirctre donneacutee et le rapport de la norme de la 1egravere composante (la composante principale) de lrsquoACP sur la somme des normes de toutes les composantes

En effet un angle est trouveacute dans chaque sous-bande de chaque fenecirctre mecircme si

le signal y est tregraves faible Lrsquoangle trouveacute sera alors tregraves peu repreacutesentatif de la direction drsquoune source puisqursquoil indiquera la direction drsquoun bruit Lrsquoeacutenergie doit donc ecirctre prise en compte pour ne conserver que les angles trouveacutes dans des bandes comportant un signal suffisant

La norme relative de la 1egravere composante de lrsquoACP rend quant agrave elle compte du

poids relatif de cette composante par rapport aux autres Ainsi si 2 sources sont preacutesentes dans une bande donneacutee la 1egravere composante sera agrave peine plus marqueacutee que la 2egraveme Ceci peut ecirctre calculeacute en prenant simplement le rapport de la 1egravere valeur propre sur la somme des valeurs propres

On peut noter que la norme de la 1egravere composante ne se deacutetache nettement que

lorsqursquoun son est preacutesent dans la bande consideacutereacutee On peut alors se demander si lrsquoeacutenergie doit ecirctre prise en compte ou si lrsquoinformation qursquoelle contient nrsquoest comprise dans le 2egraveme critegravere En fait la norme relative est un critegravere tregraves bruiteacute et consideacuterer lrsquoeacutenergie par ailleurs permet de nuancer ces artefacts et constitue une base solide de pondeacuteration

Chapitre 3 Description des analyses 28

80

40

0

Figure 37 - Repreacutesentation temps-freacutequence des angles du son deacutecrit en 332 Letrame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On peut donc v

par trame et par bande chacun eacutetant le reacutesultat drsquoune ACP crsquoest-agrave-dire la 1egravere

Figure 38 - Eacutenergie de ce mecircme son On peut voir une basse en notes tenues uneet une batterie qui produit des sons secs dans un spectre plus aigu

80

40

0

80

40

0

Figure 39 - Norme relative de la 1egravere composante de ce mecircme son Les impacts de batterie (dans lrsquoaigu) ressortent davantage

π 0 minusπ

numeacutero de oir un angle direction

voix aiguumle

34 Traitement des donneacutees 29

Figure 310 - Pondeacuteration appliqueacutee agrave lrsquoentreacutee des k-moyennes calculeacutee ici comme

le simple produit de lrsquoeacutenergie et de la norme relative

80

40

0

343 Lissages

Pour faire face au bruit ineacutevitable dans les reacutesultats il faut lisser les donneacutees Ces

lissages temporels correspondent agrave des hypothegraveses de stabiliteacute des sources qui sont supposeacutees ecirctre fixes ou mobiles relativement lentement (dans une mesure agrave parameacutetrer)

Un premier lissage peut ecirctre opeacutereacute avant le traitement par lrsquoalgorithme des k-

moyennes Le filtre choisi est un filtre meacutedian de maniegravere agrave eacuteliminer les points aberrants tout en conservant les vraies valeurs des points coheacuterents Ce lissage est appliqueacute sur chaque sous-bande aux angles et ne tient pas compte des critegraveres de pertinence Il est donc utiliseacute avec parcimonie et peut mecircme ecirctre eacuteviteacute en reacuteglant de maniegravere adeacutequate les critegraveres de pondeacuteration agrave lrsquoentreacutee des k-moyennes

Le deuxiegraveme lissage srsquoeffectue agrave lrsquoentreacutee des k-moyennes en mecircme temps que les

critegraveres de pondeacuteration Il consiste agrave appliquer les k-moyennes non pas sur une fenecirctre donneacutee mais sur plusieurs fenecirctres conseacutecutives anteacuterieures et posteacuterieures en donnant plus de poids agrave la fenecirctre courante Dans la pratique les poids donneacutes aux diffeacuterentes fenecirctres sont eacutetablis par une gaussienne centreacutee sur la fenecirctre courante et de largeur agrave deacuteterminer (en fonction notamment de la dureacutee drsquoune fenecirctre et du type de scegravene analyseacute)

35 Exploitation de toutes les composantes de lrsquoACP Les analyses preacutesenteacutees preacuteceacutedemment ont toutes exploiteacute uniquement la

composante principale extraite par lrsquoACP Or cette analyse fournit des informations plus complegravetes par lrsquointermeacutediaire des autres composantes dont on peut tirer parti pour isoler plusieurs sources au sein drsquoune mecircme bande Cette approche est toujours en deacuteveloppement dans ce stage et nrsquoa pas encore donneacute pleine mesure des reacutesultats qursquoelle laisse entrevoir

Les composantes de lrsquoACP indiquent des directions qui correspondent aux

diffeacuterentes sources composant la scegravene sonore Les vecteurs propres de la matrice de correacutelation donnent ainsi les combinaisons lineacuteaires des signaux HOA permettant de

Chapitre 3 Description des analyses 30

seacuteparer de la meilleure faccedilon possible ces sons Ces directions peuvent ecirctre alors utiliseacutees pour former des directiviteacutes isolant au mieux ces sources

aBS sdot= (31)

ougrave la matrice a contient les vecteurs propres de la matrice de correacutelation (voir Annexe C) le vecteur B contient les signaux HOA et le vecteur S contient les sources extraites

⎟⎟⎟

⎜⎜⎜

=⎟⎟⎟

⎜⎜⎜

⎛=

⎥⎥⎥

⎢⎢⎢

⎟⎟⎟

⎜⎜⎜

⎟⎟⎟

⎜⎜⎜

⎛=

10

1001

1

ML

N

B

BB

S

SSuua MML (32)

On obtient ainsi des lobes drsquoautant plus eacutetroits que lrsquoordre est eacuteleveacute chacun

dirigeacute vers une source et permettant de lrsquoisoler le plus possible des contributions des autres sources La Figure 311 preacutesente les directiviteacutes ainsi trouveacutees par une ACP en pleine bande Une analyse en sous-bande permet une plus grande distinction des sources mais une seacuteparation diffeacuterente entre les bandes est dangereuse car elle risque de dissocier spatialement plusieurs parties drsquoun mecircme son

Figure 311 - Directiviteacutes seacuteparant ideacutealement 4 sources placeacutees agrave 17 73 195 et -58deg

pour une scegravene virtuelle encodeacutee agrave lrsquoordre 4 Ce principe se heurte neacuteanmoins aux limites de seacuteparation lieacutees agrave lrsquoordre

drsquoencodage en effet 2 sources ne pourront pas ecirctre seacutepareacutees si elles sont trop proches comme en teacutemoigne la largeur des lobes principaux Les lobes secondaires traduisent eacutegalement un meacutelange des sources isoleacutees La figure ci-dessus montre ainsi que la source placeacutee agrave 17deg (en vert) sera preacutesente de maniegravere non neacutegligeable dans le signal senseacute contenir la source placeacutee agrave -58deg (en bleu) en raison du lobe secondaire bleu important

31

Chapitre 4

Reacutesultats et applications

41 Illustration et critique des reacutesultats obtenus

411 Avant-propos Sans notification particuliegravere les reacutesultats preacutesenteacutes ont eacuteteacute obtenus avec un pas

de 50 ms une analyse en 80 bandes avec une FFT sur 8192 points Une taille de FTT plus grande et un plus grand nombre de bande augmente la qualiteacute de lrsquoanalyse un pas plus petit ameacuteliore sa preacutecision temporelle mais les reacutesultats sont moins fiables et un lissage plus important srsquoimpose alors Ces paramegravetres ont eacuteteacute reacutegleacutes apregraves de multiples essais sur des scegravenes diverses

Les reacutesultats sont preacutesenteacutes ici uniquement sous la forme de graphiques nous ne

pouvons donc repreacutesenter que les angles trouveacutes agrave la sortie de lrsquoalgorithme des k-moyennes

412 Scegravene 2D artificielle agrave 4 sources fixes La premiegravere scegravene est une scegravene artificielle composeacutee de 4 sons fixes placeacutes agrave -70

-10 45 et 110deg Ces sons (une basse une voix une guitare et une batterie) ont eacuteteacute choisis pour leur varieacuteteacute spectrale et leur varieacuteteacute drsquoattaque Elle a en outre le meacuterite drsquoecirctre reacutealiste et de constituer une seacutequence musicale (chaque son nrsquoest pas une meacutelodie indeacutependante)

On voit sur la Figure 41 ci-dessous que les angles trouveacutes sont proches des

angles theacuteoriques Lrsquoun des sons (agrave 45deg) est quasiment nul avant la 100egraveme trame sa position est alors moins facile agrave deacuteterminer plus preacuteciseacutement une position approximative est trouveacutee et correspondrait exactement agrave la position du bruit (45deg) si lrsquoincertitude de mesure tregraves grande pour un son aussi faible ne rendait la deacutetermination si ardue On mesure un eacutecart-type de 22deg sur cet exemple (en excluant le deacutebut du son agrave 45deg)

Chapitre 4 Reacutesultats et applications 32

Figure 41 - Angles theacuteoriques (en pointilleacutes rouge) et calculeacutes (en trait bleu) pour une scegravene

constitueacutee de 4 sons fixes longue de 11s

413 Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile

Figure 42 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) de la scegravene agrave

4 sources dont 1 mobile deacutecrite en 332 Cette scegravene est deacutecrite en 332 On a ici demandeacute aux k-moyennes de renvoyer 5 barycentres par trame alors que

seules 4 sources eacutetaient preacutesentes dans le but de se garantir une marge vis-agrave-vis des erreurs de deacutetection Cette 5egraveme direction nrsquoest pas du tout gecircnante elle indique une direction qui ne contient pas de source et crsquoest donc un son tregraves faible qui est ainsi pointeacute Apregraves une eacuteventuelle extraction le signal ne sera donc pas du tout gecircnant

41 Illustration et critique des reacutesultats obtenus 33

On peut remarquer que quand le son mobile se rapproche drsquoun son fixe la deacutetection est moins bonne il y a une fusion entre les 2 sons Mais encore une fois lors de lrsquoextraction lrsquoisolation drsquoun des sons englobera lrsquoautre son ce qui ne posera pas de problegraveme pour les objectifs fixeacutes aucune source nrsquoeacutetant oublieacutee En effet la seacuteparation de sources nrsquoest pas un objectif ici mais un moyen pour preacuteciser les positions des sources ce qui sera fait correctement mecircme si 2 sources sont pointeacutees par 1 seule direction

414 Scegravene 3D artificielle agrave une source et bruit de fond

La scegravene dont la position drsquoune source a eacuteteacute extraite ci-dessous est une scegravene virtuelle en 3D constitueacute drsquoun son (une voix) qursquoon a fait se deacuteplacer par paliers tout drsquoabord vers le haut de 0deg agrave 45deg et vers la gauche de 0deg agrave 90deg puis redescendre jusqursquoagrave 35deg en continuant son cheminement vers la gauche jusqursquoagrave 120deg et enfin finir la descente de 35deg agrave 0deg en la laissant agrave 120deg Agrave cette source a eacuteteacute superposeacutee une ambiance spatialiseacutee de hall drsquoaeacuteroport initialement enregistreacutee en 2D (au format 51) mais transformeacutee pour contenir des composantes verticales Cette ambiance deacutecorreleacutee de la source avait pour but de tester la robustesse de lrsquoanalyse Elle eacutetait agrave 15 dB en-dessous du niveau de la voix

Figure 43 - Azimut et eacuteleacutevation theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun

son en 3D artificiel de 9s placeacute dans une ambiance bruyante On remarque que lrsquoanalyse est tregraves correcte Il nrsquoy a pas drsquoeacutecart important entre

les angles theacuteoriques et ceux calculeacutes On note toutefois que le lissage agrave lrsquoentreacutee des k-moyennes a pour effet de gommer les creacuteneaux et drsquoaplatir quelque peu la courbe drsquoeacuteleacutevation ceci nrsquoest pas vraiment gecircnant car de tels sauts dans la position drsquoune source ne sont pas du tout reacutealistes (ils peuvent caracteacuteriser des bruits de pas mais de tels impacts sont courts et on peut srsquoattendre agrave ce que la courbe suive leur position aux instants ougrave ils sont eacutemis)

Chapitre 4 Reacutesultats et applications 34

415 Scegravene 2D naturelle agrave une source Les scegravenes naturelles sont on lrsquoa vu plus deacutelicates agrave exploiter car on ne peut pas

garantir la preacutecision de la position theacuteorique agrave retrouver par le calcul et on ne peut donc pas calculer la preacutecision de lrsquoanalyse Seuls les enregistrements utilisant la table tournante (voir 232) permettent une mesure preacutecise de la position de lrsquoangle Ces enregistrements on pu confirmer la validiteacute de lrsquoanalyse pour des scegravenes reacuteelles on trouve ici un eacutecart-type de 25deg

Figure 44 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun bruit blanc

tournant autour du micro enregistreacute en chambre sourde Cette analyse a eacuteteacute reacutealiseacutee par sous-bandes mais sur une eacutetendue freacutequentielle

plus reacuteduite puisqursquoon srsquoest limiteacute aux possibiliteacutes offertes par le microphone La scegravene a donc eacuteteacute analyseacutee de 200 agrave 10 000 Hz

42 Quelques applications

421 Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre 2 agrave partir de lrsquoordre 1

Une fois les positions des sources connues la porte est ouverte agrave de nombreuses

applications La connaissance de ces positions permet en effet de syntheacutetiser artificiellement des composantes manquantes ou non transmises La premiegravere synthegravese deacuteveloppeacutee est celle des signaux U et V composant la partie horizontale de lrsquoordre 2 agrave partir de lrsquoordre 1 et de paramegravetres issus de lrsquoanalyse pour une source en 2D (des angles dans de cas)

42 Quelques applications 35

Figure 45 - Principe de lrsquoameacutelioration de la preacutecision spatiale

Le principe de la synthegravese est drsquoextraire les sources originales agrave partir de W X Y

et des angles (un angle par trame et par sous-bande) Ceci peut ecirctre reacutealiseacute de maniegravere approcheacutee en deacutecodant lrsquoordre 1 dans les directions des sources Ce deacutecodage revient agrave calculer les signaux qui devraient alimenter des haut-parleurs qui seraient placeacutes agrave ces positions dans le cas drsquoune restitution (voir 122) crsquoest-agrave-dire agrave former des directiviteacutes dans les directions des sources Dans la plupart des cas ce deacutecodage qui fait intervenir une pseudo-inversion de Moore-Penrose (111) est imparfait les sources se retrouvant leacutegegraverement meacutelangeacutees On peut comparer cette seacuteparation agrave celle que ferait un ensemble de microphones agrave directiviteacute hypercardioiumlde coiumlncidents

Figure 46 - Directiviteacutes eacutequivalentes agrave la seacuteparation de 4 sources agrave lrsquoordre 1 Ces sources seacutepareacutees vont ensuite constituer toujours placeacutees aux angles

deacutetermineacutes agrave lrsquoanalyse une scegravene virtuelle qursquoon va encoder agrave lrsquoordre 2 De cet encodage on ne conservera que les signaux manquants dans notre exemple les signaux du 2nd ordre U et V Ainsi la scegravene spatialiseacutee sera au final constitueacutee des signaux W X et Y drsquoorigine (transmis) et des signaux U et V syntheacutetiseacutes

Chapitre 4 Reacutesultats et applications 36

422 Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave partir de W Reconstruire une scegravene sonore spatialiseacutee agrave partir drsquoun unique canal mono est

alors difficile et le reacutesultat nrsquoest appreacuteciable que pour des scegravenes simples Il faut pour cela que les diffeacuterentes sources composant cette scegravene aient des supports spectraux aussi distincts que possible Les diffeacuterentes sous-bandes sont alors placeacutees agrave un certain angle transmis en parallegravele et crsquoest cette scegravene reconstitueacutee qui va ecirctre encodeacutee au 1er ordre de maniegravere agrave recreacuteer les signaux X et Y

Figure 47 - Principe de la restitution de lrsquoordre 1 agrave partir du signal mono W Ce scheacutema rappelle une meacutethode deacuteveloppeacutee dans le cas steacutereacuteo appeleacutee BCC

(Binaural Cue Coding) [Faller and Baumgarte 2002] Le principe est drsquoextraire et coder des informations permettant la reconstruction binaurale drsquoun signal agrave savoir les diffeacuterences interaurales drsquointensiteacute et de temps (Interaural LevelTime Difference ILD et ITD) qui correspondent dans le cas drsquoune restitution sur un casque aux diffeacuterences drsquointensiteacute et de temps inter-canal (Inter-Channel LevelTime Difference ICLD et ICTD) qui sont mesureacutees agrave partir drsquoune analyse en sous-bandes Les auteurs y ont plus reacutecemment associeacute un indice de correacutelation interaurale mesureacute agrave partir de la correacutelation inter-canal (ICC) afin de caracteacuteriser la preacutecision spatiale (la ldquolargeurrdquo drsquoune source)

Figure 48 - Scheacutema de principe de la meacutethode BCC [Faller and Baumgarte 2003]

On observe en pratique des deacutefauts lieacutes agrave la brutaliteacute de la proceacutedure une sous-

bande ne peut ecirctre que placeacutee agrave la position indiqueacutee et ne peut pas rester floue diffuse ou encore ecirctre placeacutee agrave plusieurs endroits Pour y remeacutedier nous avons ajouteacute 2 traitements agrave la synthegravese Tour drsquoabord nous avons appliqueacute un leacuteger lissage soulageant les effets deacutesagreacuteables dus au saut du contenu drsquoune sous-bande drsquoun endroit agrave un autre entre de 2 fenecirctres conseacutecutives Les positions varient alors de faccedilon plus souple au sein drsquoune mecircme sous-bande traduisant une hypothegravese de continuiteacute spatiale (pas de deacuteplacement brusque) La contrepartie est que cette hypothegravese est lieacutee agrave une hypothegravese de continuiteacute spectrale

42 Quelques applications 37

La 2egraveme ameacutelioration concerne le positionnement des sources En incluant dans la transmission un critegravere de pertinence on peut savoir srsquoil est raisonnable de placer une sous-bande agrave un angle preacutecis ou bien si lrsquoanalyse eacutetait flou agrave son sujet auquel cas un positionnement impreacutecis serait preacutefeacuterable Le paramegravetre choisi est une combinaison des critegraveres eacutevoqueacutes en 342 il nous permet de placer la sous-bande de maniegravere plus ou moins prononceacutee

43 Comparaison avec une meacutethode existante Certains auteurs ont deacutejagrave essayeacute drsquoanalyser un contenu ambisonique pour

retrouver les positions des sources Ville Pulkki a ainsi deacutecrit dans [Pulkki and Faller 2006] une meacutethode drsquoanalyse du B-format baseacutee sur lrsquoeacutetude des amplitudes des signaux W X Y et Z

Figure 49 - X et Y dans le cas drsquoune sinusoiumlde placeacutee agrave 15deg (agrave gauche) et 120deg (agrave droite)

Les figures ci-dessus montrent les relations drsquoamplitudes (algeacutebriques) qui relient

X et Y agrave lrsquoangle de la source On voit que lrsquoanalyse de ces amplitudes respectives permet de retrouver la position de la source en effet on a pour une source unique les relations de lrsquoeacutequation (11) rappeleacutee ici

⎪⎪

⎪⎪

=

=

=

=

δ

δθ

δθ

sin2

cossin2

coscos2

SZ

SY

SX

SW

(41)

On peut donc theacuteoriquement retrouver les valeurs de θ et δ par relations

trigonomeacutetriques Ainsi on a

⎪⎪⎩

⎪⎪⎨

=

=

2)sin(

)tan(

WZ

XY

δ

θ (42)

Chapitre 4 Reacutesultats et applications 38

On peut donc trouver les angles θ et δ agrave π pregraves Pour lever lrsquoambiguiumlteacute une eacutetude de signe est neacutecessaire Mais dans le cas de θ le signe de X et de Y agrave δ fixeacute deacutepend aussi bien de θ que S Il faut srsquointeacuteresser aux signes de θcos et θsin crsquoest-agrave-dire

aux signes de WX et

WY Dans la pratique on srsquointeacuteressera aux signes de et

pour se preacutevenir des divisions par zeacuteros

XW sdot YW sdot

XW sdot et YW sdot sont proportionnels agrave toujours positif

2S

Les auteurs deacutecrivent eacutegalement dans leur article un critegravere appeleacute diffuseness qui

peut ecirctre compareacute agrave un critegravere de pertinence inverseacute Ce paramegravetre calculeacute par agrave 1 - R ougrave R est un rapport de normes est tregraves proche du critegravere de norme relative deacutecrit en 342 Il peut donc ecirctre utiliseacute de la mecircme faccedilon et permettre ainsi une pleine comparaison

Cette meacutethode a eacuteteacute impleacutementeacutee pour pouvoir ecirctre compareacutee avec la meacutethode

par ACP Tous les paramegravetres ont scrupuleusement eacuteteacute gardeacutes identiques et plusieurs reacuteglages ont eacuteteacute testeacutes Les courbes ci-dessous preacutesentent les reacutesultats des analyses de la scegravene deacutecrite en 332 avec un pas de 50ms un overlap de 50 un NFFT de 2048 et 40 bandes freacutequentielles Nous avons repreacutesenteacute tous les angles trouveacutes crsquoest-agrave-dire un par bande et par trame pour srsquoaffranchir de la seacutelection des k-moyennes

π

0

minusπ

Figure 410 - Angles trouveacutes par lrsquoalgorithme de [Pulkki and Faller 2006] Le diamegravetre du point correspondant agrave la pertinence

43 Comparaison avec une meacutethode existante 39

π

0

minusπ

Figure 411 - Angles trouveacutes par une ACP pour la mecircme scegravene On remarque que les points excentriques sont moins nombreux et plus rarement trouveacutes comme pertinents

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee

441 Position du problegraveme

Une application directe de ces analyses a eacuteteacute deacuteveloppeacutee pour la confeacuterence audio

spatialiseacutee La confeacuterence audio utilise en effet la spatialisation pour permettre une meilleure seacuteparation par lrsquooreille des diffeacuterents locuteurs Ainsi si plusieurs personnes parlent en mecircme temps il sera tregraves difficile de comprendre chacun individuellement si ces voix sont restitueacutees en mono mais on pourra focaliser lrsquoattention sur chacune drsquoentre elles si elles sont seacutepareacutees spatialement (crsquoest lrsquoeffet cocktail party [Cherry 1953])

Lrsquoobjectif eacutetait de veacuterifier qursquoil eacutetait possible de conserver la spatialisation drsquoune

confeacuterence en nrsquoayant transmis qursquoun downmix mono des signaux Ce concept semble se rapprocher de celui deacutecrit en 422 mais une diffeacuterence fondamentale les seacutepare la confeacuterence audio spatialiseacutee nrsquoest pas codeacutee au format ambisonic mais les signaux traiteacutes sont directement les sons provenant des diffeacuterents locuteurs crsquoest-agrave-dire les sources elles-mecircmes Ainsi lrsquoanalyse ne porte plus sur une scegravene spatialiseacutee mais sur des signaux seacutepareacutes Il nrsquoy a ainsi plus drsquoindices spatiaux agrave trouver

Avoir accegraves aux sources permet drsquoobtenir des informations plus preacutecises pour

permettre une seacuteparation apregraves la transmission Comme nous lrsquoavons vu lrsquoanalyse drsquoune scegravene spatialiseacutee ne permet que dans drsquoultimes cas agrave la seacuteparation des sources ce qui est ici notre point de deacutepart et sera en fait notre point drsquoarriveacutee En effet nous tenterons de retrouver les sources seacutepareacutees apregraves la transmission de maniegravere agrave pouvoir par la suite les spatialiser agrave loisir (voir Figure 413)

Chapitre 4 Reacutesultats et applications 40

442 Solution proposeacutee Les paramegravetres extraits ne sont donc plus des positions de sources Nous avons

choisi de mesurer puis transmettre lrsquoeacutenergie de chaque signal dans chaque sous-bande en parallegravele du downmix En effet une bonne seacuteparation sera possible si lrsquoon sait quelle proportion de chaque source compose chaque sous-bande du signal mono

Figure 412 - Scheacutema de principe drsquoune confeacuterence audio spatialiseacutee

Figure 413 - Scheacutema ameacutelioreacute (deacutebit reacuteduit)

en pointilleacutes informations compleacutementaires (eacutenergie) Lrsquoanalyse en sous-bandes a lieu dans le serveur (Figure 414) Celui-ci calcule

lrsquoeacutenergie de chaque signal dans chaque sous-bande sur une trame donneacutee Crsquoest ce paramegravetre qui associeacute au signal mono M permettra la seacuteparation des sources dans le terminal (Figure 415) Ce dernier reacutepartira en effet les diffeacuterentes sous-bandes vers chaque signal reconstitueacute proportionnellement agrave cette information pour reconstruire les 4 sources originales

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee 41

Figure 414 - Analyse principe de lrsquoencodage dans le serveur

Figure 415 - Synthegravese principe du deacutecodage dans le client

Afin de reacuteduire au maximum les informations compleacutementaires agrave transmettre on

peut remarquer qursquoau cours drsquoune confeacuterence audio on a tregraves souvent un seul locuteur les participants ne parlent que tregraves rarement tous en mecircme temps Ceci implique que les signaux en entreacutee sont tregraves souvent tous nuls sauf 1 et appliquer un seuil en entreacutee de lrsquoanalyse permet outre lrsquoallegravegement du traitement drsquoavoir moins de paramegravetres agrave transmettre

Ce scheacutema simplifieacute ne tient pas compte des problegravemes de phase rien nrsquoindique

que les eacutenergies des signaux srsquoajoutent bien dans chaque sous-bande lors du downmix on peut tregraves bien avoir des oppositions de phase La solution est drsquoeffectuer le downmix (la somme) des signaux dans chaque sous-bande en prenant soin drsquoavoir recaleacute les phases au preacutealable Ceci nrsquoa un sens que pour des bandes suffisamment eacutetroites Les deacutecalages temporels appliqueacutes pour le recalage sont alors des paramegravetres suppleacutementaires agrave transmettre et sont pris en compte lors de la synthegravese au niveau du reacutepartiteur qui repositionnera la phase de chaque trame pour chaque signal

Chapitre 4 Reacutesultats et applications 42

443 Bilan Le reacutesultat du deacutecodage a pu ecirctre eacutecouteacute de diffeacuterentes maniegraveres les sources

reconstitueacutees individuellement ensemble en steacutereacuteo drsquoamplitude et sur un systegraveme 51 On note que les sources ont eacuteteacute assez bien seacutepareacutees mais que des artefacts sont audibles en particulier lorsque le nombre de locuteurs simultaneacutes augmentent Ces artefacts sont un meacutelange des voix qui nrsquoest gecircnant que lorsqursquoon les eacutecoute de maniegravere seacutepareacutee En effet lrsquoeacutecoute simultaneacutee de ces signaux syntheacutetiseacutes mecircme placeacutes agrave des positions distinctes sur un systegraveme de diffusion multicanal est tout agrave fait satisfaisante

Ce proceacutedeacute pour pouvoir ecirctre appliqueacute doit fonctionner en temps-reacuteel Cette

contrainte nrsquoa pas du tout eacuteteacute prise en compte lrsquoobjectif eacutetant de valider la faisabiliteacute drsquoune reconstruction Les programmes sous Matlab nrsquoont pas eacuteteacute optimiseacutes et ne respectent pas cette contrainte

43

Conclusion Nous avons preacutesenteacute dans ce rapport le principe et lrsquoapplication de plusieurs

meacutethodes drsquoanalyses spatiales de scegravenes ambisoniques conccedilues et reacutealiseacutee pendant le stage Le format HOA est en effet une repreacutesentation du champ acoustique deacutecomposeacute sur une base drsquoharmoniques spheacuteriques jusqursquoagrave un certain ordre agrave la maniegravere drsquoun deacuteveloppement limiteacute Il contient donc de maniegravere indirecte des indications spatiales qursquoon peut extraire avec des analyses comme lrsquoanalyse en composantes principales

Ces analyses nous permettent de deacuteterminer les positions des sources qui

composent la scegravene sonore Nous avons appliqueacute les reacutesultats de ces analyses agrave 2 types de synthegravese lrsquoune destineacutee aux transmissions bas deacutebit lrsquoautre agrave un traitement de restitution de la preacutecision spatiale dans le cas ougrave des ordres supeacuterieurs dont le but est drsquoaffiner la perception de localisation nrsquoauraient pas pu ecirctre transmis Ces algorithmes par le codage drsquoinformations spatiales qursquoils permettent pourront trouver bien drsquoautres applications dans la transmission et le codage ougrave la description du contenu est de plus en plus utiliseacutee (comme par exemple dans la norme MPEG)

Des ameacuteliorations sont possibles sur plusieurs points tout drsquoabord lrsquoexploitation

de toutes les composantes de lrsquoACP est agrave lrsquoeacutetude et semble pouvoir donner des reacutesultats inteacuteressants Drsquoautre part on a vu que le reacutesultat final est tregraves deacutependant de la bonne convergence de lrsquoalgorithme des k-moyennes utiliseacute pour traiter les donneacutees brutes de lrsquoanalyse en sous-bandes Or cet algorithme neacutecessite des reacuteglages tregraves fins et une connaissance a priori du nombre de sources est presque indispensable Drsquoautres algorithmes plus complexes de suivi de formes pourraient ecirctre avantageusement utiliseacutes pour deacutetecter dans tous les angles trouveacutes lesquels sont susceptibles de former une trajectoire

45

Annexe A

Deacuteveloppement du champ acoustique en harmoniques spheacuteriques

A1 Eacutequation drsquoonde en coordonneacutees spheacuteriques On se place dans lrsquoespace euclidien agrave 3 dimensions muni drsquoun systegraveme de

coordonneacutees spheacuteriques Un point M y est repeacutereacute par son rayon r son azimut θ et son eacuteleacutevation δ tels que repreacutesenteacutes sur la figure ci-dessous

- r est la norme du vecteur position rr crsquoest-agrave-dire la distance OM - [20[ πθ isin est lrsquoangle formeacute par le projeteacute du point sur le plan xOy et lrsquoaxe Ox

- ]2

2

[ ππδ minusisin est lrsquoangle formeacute par le plan xOy et le vecteur position2

Figure A1 - Systegraveme de coordonneacutees spheacuteriques

2 Cet angle diffegravere de lrsquoangle polaire usuel δπϕ minus=

2 habituellement pris entre lrsquoaxe Oz et le

vecteur position

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 46

Les relations entre les coordonneacutees spheacuteriques et les coordonneacutees carteacutesiennes sont

⎪⎩

⎪⎨

===

δδθδθ

sincossincoscos

zryrx

(A1)

On srsquointeacuteresse dans ce repegravere agrave lrsquoeacutequation de propagation des ondes acoustiques

de pression On se place dans les conditions classiques drsquoacoustique lineacuteaire (les variations de p sont petites par rapport agrave la pression atmospheacuterique) en supposant que lrsquoair est un fluide parfait (on y neacutegligera les pheacutenomegravenes dissipatifs) Dans une reacutegion de lrsquoespace ne comprenant pas de sources lrsquoeacutequation drsquoonde srsquoeacutecrit alors

0)(12

2

2 =⎟⎟⎠

⎞⎜⎜⎝

⎛partpart

minus∆ trptc

r (A2)

p eacutetant la pression et c la vitesse de propagation du son dans lrsquoair

Cette eacutequation devient dans le domaine freacutequentiel lrsquoeacutequation de Helmholtz

( ) 0)(2 =+∆ ωrpk r (A3)

ck ω

= eacutetant le nombre drsquoonde

En coordonneacutees spheacuteriques cette eacutequation srsquoeacutecrit

0sin1sin

sin11 2

2

2

222

2 =⎥⎦

⎤⎢⎣

⎡+

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart pk

rrrr

rr δθθθ

θθ (A4)

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques Drsquoapregraves [Bruneau 1983] elle admet des solutions agrave variables seacutepareacutees de la forme

)()()( δθ ΦΘ= rRp (A5) Ces solutions sont respectivement - pour la partie radiale une combinaison des fonctions de Bessel spheacuteriques de

premiegravere et seconde espegravece3 jn et nn

)()()( krBnkrAjrR nn += (A6) 3 Les fonctions de Bessel spheacuteriques de seconde espegravece sont eacutegalement appeleacutees fonctions de

Neumann

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 47

Ces fonctions sont deacutefinies comme suit

(A7)

Figure A2 - Fonctions de Bessel spheacuteriques pour les ordres 0 agrave 5 )(krjm

- pour la partie azimutale les fonctions )(θΘ

)sin()cos()( 21 θθθ ncnc +=Θ (A8) Eacutetant donneacute la deacutefinition de lrsquoangle Θ celui-ci doit neacutecessairement ecirctre de

peacuteriode 2π ))2()(( πθθ +Θ=Θ ce qui impose agrave n drsquoecirctre entier

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 48

- pour la partie polaire les fonctions de Legendre associeacutees )(sinδmnP

nm

nn

mn dPdP

)(sin)(sinsin)(sin

δδ

δδ = pour ⎩⎨⎧

gt=

nmavecnm 321

(A9)

ougrave les )(sinδnP sont les polynocircmes de Legendre de degreacute n en δsin deacutefinis par reacutecurrence

( )

11

22

1

0

sin)12()(sin)1(

1cos321)(sin

sin)(sin0)(sin

minus+ minus+=+

minus=

==

mmm mPPmPmet

P

PP

δδ

ϕδ

δδδ

(A10)

et de formule geacuteneacuterale

mm

m

mm dd

mP )1(sin

)(sin21)(sin 2 minus= δ

δδ (A11)

On peut appliquer aux fonctions )(sinδmnP la semi-normalisation de Schmidt

)(sin)()()(sin~ δεδ mnnmn P

nmnmP

+minus

= ougrave 10 =ε et 2=nε pour 1gen (A12)

En appariant les fonctions polaires et azimutales on deacutefinit les harmoniques

spheacuteriques de degreacute et drsquoordre)1(mnY 0gem 4 mnn lele0 et de degreacute et

drsquoordre (voir Figure A3)

)1(minusmnY 1gem

mnn lele1

)(sin~)sin()(

)(sin~)cos()()1(

)1(

δθδθ

δθδθ

mnmn

mnmn

PnY

PnY

=

=minus

(A13)

4 En geacuteneacuteral lorsque le degreacute et lrsquoordre ne sont pas eacutevoqueacutes conjointement on parle par abus de langage drsquoharmoniques drsquoordre m plutocirct que de degreacute m

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 49

soit

1)(sin

)()()12(2sin)(

)(sin)()()12(2cos)(

1)(sin)1()1()12(cos)(

)1(

)1(

1)1(

1

gt

⎪⎪⎩

⎪⎪⎨

+minus

+=

+minus

+=

=+minus

+=

minus

npourP

nmnmmnY

PnmnmmnY

npourPmmmY

mnmn

mnmn

mm

δθδθ

δθδθ

δθδθ

(A14)

La solution angulaire geacuteneacuterale srsquoeacutecrit alors sous la forme drsquoun deacuteveloppement sur

la base drsquoharmoniques spheacuteriques

( ) ( )sum minus

=minus+=Θ

1

1)1()1()( n

m mnmnmnmnn YBYBθ (A15) La solution geacuteneacuterale est alors la seacuterie de Fourier-Bessel

sum sum sum+infin

= = plusmn=

=0 0 1

)()( )()()(m

m

nmnmnm

m YBkrjikrpσ

σσ δθδθ (A16)

ougrave

intint⎪⎩

⎪⎨⎧

minusisin

isin

plusmnplusmn =

]2

2

[

[20[

)1()1( )()1()(

1

ππδ

πθ

δθδθ

S

mnm

mmn dSYpkrji

B (A17)

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 50

Tableau A1 - Expressions analytiques des harmoniques spheacuteriques pour les ordres 0 agrave 3

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 51

Figure A3 - Repreacutesentation des harmoniques spheacuteriques pour les ordres m = 0 agrave 3 Les

couleurs rouge et bleu indiquent respectivement des valeurs positives et neacutegatives

53

Annexe B

Compleacutements theacuteoriques sur le deacutecodage HOA

B1 Vecteur veacutelociteacute et vecteur eacutenergie Le vecteur veacutelociteacute est un indice de la direction apparente drsquoune source introduit

par Gerzon [Gerzon 1992] Il se calcule comme le rapport de la vitesse particulaire sur la pression acoustique

)()(

)()(1

δθδθ

δθδθ

ρ rprp

ki

rprv

cV nabla

minus=minus=rrr

(B1)

Dans le cas drsquoune onde plane le vecteur veacutelociteacute V

rest ainsi directement un

vecteur unitaire orienteacute vers la direction de provenance de lrsquoonde En geacuteneacuteralisant agrave une superposition drsquoondes planes en phase ou opposition de phase eacutemises par L haut-parleurs agrave eacutequidistance du point drsquoobservation on obtient la formule suivante

VVL

ll

L

lll

urg

ugV r

rr

==

sum

sum

=

=

1

1 (B2)

ougrave deacutesigne la direction du llur egraveme haut-parleur auquel est associeacute le gain gl et Vr Vur correspondent respectivement agrave la norme et agrave la direction du vecteur veacutelociteacute

Le vecteur eacutenergie est un autre indice de direction Il est deacutefinit par

EEL

ll

L

lll

urg

ugE r

rr

==

sum

sum

=

=

1

2

1

2

(B3)

Annexe B Compleacutements theacuteoriques sur le deacutecodage HOA 54

Il peut srsquointerpreacuteter comme une indication de la concentration de lrsquoeacutenergie ( ) et de sa direction moyenne de provenance (

Er

Eur ) On a toujours 1ltEr sauf dans le cas ougrave un seul haut-parleur contribue agrave la reconstruction (dans ce cas ) peut ecirctre consideacutereacute comme un indicateur de preacutecision de la localisation

1=Er Er

B2 Deacutecodages optimiseacutes La restitution la plus confortable drsquoun champ sonore veillera donc agrave maximiser

tout en essayant de garder le plus proche possible de 1 Lrsquooptimisation du deacutecodage consiste alors agrave multiplier chaque coefficient de la matrice de deacutecodage D (voir (111) par des gains calculeacutes drsquoapregraves des critegraveres drsquooptimisation

Er Vr

Ainsi le deacutecodage appeleacute max- maximise la norme du vecteur eacutenergie en

sacrifiant celle du vecteur veacutelociteacute puisqursquoon a dans ce deacutecodage (pour des configurations reacuteguliegraveres de haut-parleurs) Ce deacutecodage est donc avantageux par rapport au deacutecodage basique pour les hautes freacutequences ou dans le cas drsquoun auditoire eacutelargi Le deacutecodage in-phase va encore plus loin en cherchant agrave annuler complegravetement les contributions des haut-parleurs placeacutes agrave lrsquoopposeacute de la direction de provenance de lrsquoonde reproduite Ce critegravere est utile dans le cas drsquoune eacutecoute dans une position tregraves excentreacutee agrave laquelle on pourrait percevoir de faccedilon preacutedominante la contribution en opposition de phase drsquoun tel haut-parleur

Er

EV rr =

Ces diffeacuterents deacutecodages ont chacun des avantages et inconveacutenients Ainsi seul le

deacutecodage basique garantit = 1 le deacutecodage max- permet une preacutecision meilleure notamment en haute freacutequence et le deacutecodage in-phase est plus adapteacute agrave un auditoire plus large Jeacuterocircme Daniel [Daniel 2000] propose ainsi de changer le deacutecodage en fonction de la freacutequence et de lrsquoeacutetendue de la zone drsquoeacutecoute deacutesireacutee

Vr Er

Figure B1 - Deacutecodages les plus approprieacutes par sous-bande et en fonction de lrsquoeacutetendue de la

zone drsquoeacutecoute [Daniel 2000]

55

Annexe C

Analyse en composantes principales

C1 Espace des donneacutees Eacutegalement souvent appeleacutee transformeacutee de Karhunen-Loegraveve5 (TKL) lrsquoanalyse en

composantes principales (ACP) est une technique statistique de repreacutesentation drsquoinformation Introduite sur 2 variables par Pearson [Pearson 1900] elle a eacuteteacute eacutetendue par Hotelling [Hotelling 1933] Elle a pour but de caracteacuteriser des donneacutees drsquoun espace agrave N dimensions dans un sous-espace plus petit en minimisant les pertes drsquoinformation due agrave la projection crsquoest-agrave-dire en maximisant la variance projeteacutee Les donneacutees ainsi reacuteorganiseacutees deviennent indeacutependantes Les variables correacuteleacutees sont remplaceacutees par de nouvelles variables deacutecorreacuteleacutees et de variance maximale combinaisons lineacuteaires des variables initiales

Les donneacutees sont constitueacutees de n variables aleacuteatoires (dans notre cas des canaux)

et p reacutealisations ou individus (des eacutechantillons)

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

pn

p

ji

n

xx

x

xx

M

LLL

MOMNM

MLLM

MNMOM

LLL

1

111

(C1)

Ces donneacutees sont geacuteneacuteralement centreacutees et peuvent aussi ecirctre reacuteduites4 (on note

1x la moyenne de la variable et 1x )( 1xσ sa variance) Reacuteduire ou non le nuage de points (ie les p reacutealisations de la variable aleacuteatoire) est un choix de modegravele

5 Quelques rares sources mentionnent une diffeacuterence entre ACP et TKL en placcedilant celle-ci au

niveau du choix de la reacuteduction des donneacutees dans le cas dune ACP les donneacutees seraient centreacutees et reacuteduites alors qursquoelles seraient uniquement centreacutees pour une TKL

Annexe C Analyse en composantes principales 56

- si on ne reacuteduit pas le nuage une variable agrave forte variance pourrait tirer tout lrsquoeffet de lrsquoACP agrave elle

- si on reacuteduit le nuage une variable qui ne serait qursquoun bruit se retrouverait avec une variance apparente eacutegale agrave une variable informative

M est centreacutee

⎥⎥⎥

⎢⎢⎢

minusminusminus

minusminus=

npn

pi

ji

nn

xxxxxx

xxxxM

K

MM

K

11

11

11

ˆ (C2)

M~ est centreacutee et reacuteduite

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

minusminus

minus

minusminus

=

)()(

)(

)()(~

1

11

1

1

111

n

npn

pi

ij

i

n

nn

xxx

xxx

xxx

xxx

xxx

M

σσ

σ

σσ

K

MM

K

(C3)

On multiplie ensuite la matrice obtenue par sa transposeacutee pour obtenir - La matrice de covariance MMC t

vˆˆ sdot=

- La matrice de correacutelation MMC tr

~~ sdot= Ces matrices sont carreacutees (N x N) symeacutetriques et reacuteelles Elles sont donc

diagonalisables dans une base orthonormeacutee 6 Le principe de lrsquoACP est alors de trouver un axe u issu drsquoune combinaison lineacuteaire

des tel que le critegravere drsquoinertie du nuage autour de cet axe soit maximal Le critegravere drsquoinertie couramment utiliseacute est la variance Il faut donc trouver lrsquoaxe qui porte le maximum de variance crsquoest-agrave-dire lrsquoaxe u tel que la projection du nuage sur cet axe ait une variance maximale

nx

6 Nos donneacutees eacutetant ici des valeurs drsquoeacutechantillons elles sont par nature centreacutees et reacuteduites On

formera donc naturellement la matrice de correacutelation

C2 Diagonalisation 57

C2 Diagonalisation Pour alleacuteger lrsquoeacutecriture de la suite de cette partie nous consideacutererons que les

variables ont eacuteteacute centreacutees et si besoin reacuteduites et nous noterons ces variables

transformeacutees (ainsi

ix ix

iii xxx minuslarr ou bien )( i

iii x

xxxσ

minuslarr ) On fera de mecircme pour M

( ou bien MM ˆlarr MM ~larr ) et C ( vCC larr ou bien rCC larr ) La projection drsquoun eacutechantillon sur un axe u srsquoeacutecrit ix

uMxiu sdot=)(π (C4) La variance empirique de )( iu xπ vaut donc

uMMuxx ttiu

tiu sdotsdotsdot=sdot )()( ππ (C5)

Or on a vu que est diagonalisable dans une base orthonormeacutee donc

on peut noter P le changement de base associeacute et ∆ la matrice diagonale formeacutee de son spectre Ainsi

MMC t=

n

i 1)(λ PPMMC tt ∆==

)()()()( PuPuuPPuxx ttt

iut

iu sdot∆sdot=sdot∆sdot=sdotππ (C6) On pose v = Pu Chercher lrsquoaxe u qui maximise )( iu xπ revient donc agrave chercher le

vecteur v qui maximise ougravevvt ∆ )( 1 ndiag λλ K=∆ avec les iλ rangeacutes par ordre deacutecroissant Ce vecteur est trivialement le premier vecteur unitaire et on a alors

1λ=∆vvt

Ainsi le vecteur qui porte la plus grande part drsquoinertie du nuage est le premier

vecteur propre de C (premier par norme deacutecroissante) De mecircme le deuxiegraveme vecteur qui explique la plus grandelt part de lrsquoinertie restante est le deuxiegraveme vecteur propre de C Finalement la question de lrsquoACP se ramegravene agrave un problegraveme de diagonalisation de la matrice de correacutelation

C3 Code Matlab

function [vep vap] = pca(f N) f donneacutees N nombre de composantes agrave garder cor = f f formation de la matrice de correacutelation [vep vap] = eig(cor) calcul des vecteurs (vep) et valeurs (vap) propres [vap ind] = sort(diag(vap)) tri des valeurs propres par ordre croissant vap = flipud(vap) disposition inverse par ordre drsquoimportance vep = vep( flipud(ind)) classement en conseacutequence des vecteurs propres vep = vep( 1N) on ne garde que les N premiers vecteurs propres

Annexe C Analyse en composantes principales 58

59

Annexe D

Analyse en sous-bandes

D1 La transformeacutee de Fourier agrave court terme (TFCT) Pour affiner lrsquoanalyse les signaux sont donc deacutecoupeacutes en bandes de freacutequence par

TFCT La TFCT consiste agrave effectuer des transformeacutees de Fourier discregravetes sur des portions de signal fenecirctreacutees reacuteguliegraverement espaceacutees

On rappelle que la transformeacutee de Fourier drsquoun signal x(t) est deacutefinie (lorsque

lrsquointeacutegrale existe) par

int+infin

infinminus

minus= dtetxfX ftiπ2)()( (D1)

La transformeacutee de Fourier agrave temps discret (TFTD) drsquoun signal x(t) srsquoeacutecrit

sum+infin

minusinfin=

minus=n

fnienxfX π2)()( (D2)

La transformeacutee de Fourier discregravete (TFD) drsquoun signal discret x(k) est deacutefinie par

sum+infin

minusinfin=

minus=

n

Nkni

enxkXπ2

)()( (D3)

La TFCT discregravete est une TFD observeacutee sur une fenecirctre wa de taille N

summinus

=

minus+=

1

0

2)())(()(

N

n

Nnki

aaa enwtnxkXπ

ττ (D4)

ougrave )(taτ est lrsquoinstant drsquoanalyse

Annexe D Analyse en sous-bandes 60

Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT [Laroche 1995]

D2 Synthegravese par addition-recouvrement Lors de la synthegravese apregraves le deacutecoupage et lrsquoanalyse des fenecirctres on cherche agrave

reconstruire le signal temporel agrave partir de sa repreacutesentation freacutequentielle Pour cela on utilise la meacutethode OLA (overlap and add addition-recouvrement) qui consiste agrave prendre la TFCT inverse des spectres Xt puis agrave additionner les signaux obtenus apregraves les avoir multiplieacutes par une fenecirctre de pondeacuteration en les faisant se recouvrir partiellement

Le reacutesultat est donneacute par

sum=

minusminus=T

tsss tnxtnwnx

s1

))((~))(()(~ ττ τ (D5)

avec )()( tt as ττ = et summinus

=

=1

0

2))((~1)(~ N

k

Nkni

s ektXN

nxs

π

τ τ

Lors de la mise en œuvre de ce traitement il faut srsquoassurer drsquoecirctre en mesure de

reconstruire parfaitement un signal lorsqursquoaucune transformation ne lui est appliqueacutee Le critegravere de reconstruction parfaite condition suffisante est alors

sum=

=minusminusT

tasaa tnwtnw

11))(())(( ττ quelque soit n (D6)

D2 Synthegravese par addition-recouvrement 61

Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add [Laroche 1995]

Plusieurs paramegravetres sont agrave choisir avec soin Le premier drsquoentre eux est le type

de fenecirctre agrave utiliser Les diffeacuterentes options qui se preacutesentent agrave nous sont - la fenecirctre rectangulaire qui preacutesente dans son spectre le lobe principal le plus

eacutetroit mais des lobes secondaires non neacutegligeables - la fenecirctre de Hamming au lobe principal un peu plus large mais pour laquelle le

1er lobe secondaire se situe agrave -43 dB - la fenecirctre de Hann (ou cosinus sureacuteleveacute) qui ressemble agrave la preacuteceacutedente avec un

1er lobe secondaire plus fort mais une pente de 18 dB par octave pour les lobes suivants

- les fenecirctres de Blackman-Harris aux lobes secondaires tregraves bas mais au lobe principal plus large

Fenecirctre Lobe 2aire

(dB) Pente

(dBoct) Bande passante

agrave 6 dB (bins) Rectangulaire -13 -6 121 Triangulaire -27 -12 178

Hann -32 -18 200 Hamming -43 -6 181

Blackman-Harris 4 -92 -6 272

Tableau D1 - Caracteacuteristiques des principales fenecirctres drsquoanalyse [Harris 1978] Le meilleur compromis est donc dans notre contexte la fenecirctre de Hann ou celle

de Hamming

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 22: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

Chapitre 2 Analyser un contenu HOA 16

Lrsquoanalyse de X et Y ne permet cependant de deacuteterminer lrsquoangle qursquoagrave π pregraves il reste une indeacutetermination (on deacutetermine la direction drsquoun axe qursquoil reste agrave orienter) Pour lever cette ambiguiumlteacute on integravegre W agrave lrsquoanalyse car cette composante pourtant omnidirectionnelle et donc deacutepourvue drsquoinformation spatiale apporte une reacutefeacuterence pour les phases Ainsi notre son placeacute agrave 135deg veacuterifiait (aux eacuteventuels coefficients de normalisation pregraves) Y = -X = W alors qursquoun son placeacute agrave 135 - 180 = -45deg aurait la proprieacuteteacute Y = -X = -W

Pour prendre en compte W dans lrsquoanalyse on peut comparer directement les

phases de ces 3 canaux Algorithmiquement on ramegravene lrsquoangle trouveacute agrave son modulo π2 puis on deacutetermine le vrai cadran par comparaison des phases de W X et Y crsquoest-agrave-dire en comparant le signe des produits W X et W Y Ainsi W X gt 0 signifie que W et X sont en phase et reacuteciproquement (voir Figure 23)

W X lt 0 W Y gt 0

W X gt 0 W Y gt 0

W X lt 0 W Y lt 0

W X gt 0 W Y lt 0

minusπ2

π

π2

0

Figure 23 - Signes de W X et W Y en fonction du cadran On peut eacutegalement inteacutegrer W agrave lrsquoanalyse en appliquant lACP sur le triplet (X Y

W) Le problegraveme drsquoambiguiumlteacute est ainsi reacutesolu la direction rechercheacutee eacutetant celle du vecteur principal dans le demi-espace W gt 0 projeteacutee sur le plan (X Y) Cette meacutethode srsquoavegravere plus robuste et surtout plus geacuteneacuteralisable agrave des ordres plus eacuteleveacutes

Cette analyse permet donc de deacuteterminer la position drsquoune source unique Pour

pouvoir seacuteparer plusieurs sources nous avons appliqueacute lrsquoACP par sous-bandes en supposant que les sources nrsquoont pas des supports freacutequentiels strictement identiques Le principe de cette analyse en sous-bandes est deacuteveloppeacute en Annexe D

23 Meacutethodologie

231 Construction de scegravenes artificielles Pour tester les algorithmes impleacutementeacutes nous avons ducirc creacuteer des scegravenes sonores

spatialiseacutees au format HOA Plusieurs types de scegravenes ont eacuteteacute utiliseacutes de complexiteacutes diffeacuterentes Les premiegraveres ont eacuteteacute des scegravenes virtuelles syntheacutetiseacutees avec Matlab Les premiegraveres scegravenes simplissimes ne comportait qursquoune sinusoiumlde ou un bruit blanc fixe placeacute dans le plan horizontal Puis pour tester lrsquoanalyse par sous-bandes ont eacuteteacute creacuteeacutes des sons polyphoniques composeacutes de 2 sinusoiumldes tout drsquoabord puis de sons complexes (syntheacutetiseacutes par synthegravese FM) dans des gammes freacutequentielles distinctes ou se

23 Meacutethodologie 17

chevauchant Enfin ces sons ont eacuteteacute rendus mobiles en faisant varier leur position dans le temps

Nous avons pu ainsi constater agrave lrsquoaide des sons fixes et de supports freacutequentiels

distincts la preacutecision de lrsquoanalyse et avec les sons mobiles et mecircleacutes sa robustesse Nous nous sommes limiteacutes sous Matlab agrave la geacuteneacuteration de 2 sons simultaneacutes et du 1er ordre et un autre outil Plogue Bidule a eacuteteacute utiliseacute pour composer des scegravenes plus complexes

Bidule est un studio modulaire virtuel ressemblant agrave MAXMSP Des plugins ont

eacuteteacute deacuteveloppeacutes agrave France Teacuteleacutecom pour permettre de manipuler des signaux HOA Ainsi des scegravenes complexes ont pu facilement ecirctre syntheacutetiseacutees agrave des ordres eacuteleveacutes Des scegravenes agrave 3 et 4 sources fixes ou dont 1 source mobile ont eacuteteacute reacutealiseacutees agrave partir de voix deacutemixeacutees placeacutees dans le plan horizontal ou en 3 dimensions

Ces scegravenes eacutetant artificielles elles sont en un sens ideacuteales ne contiennent aucun

signal reacuteverbeacutereacute (effet de salle) ni diffracteacute (par un micro) lrsquoencodage est fait sans artefacts les ondes sont consideacutereacutees comme planes et ont donc une direction bien deacutefinie Si on est ici bien loin de la vraie vie le gros avantage des scegravenes artificielles est qursquoon connaicirct preacuteciseacutement agrave chaque instant la position des sources et qursquoon peut ainsi veacuterifier le reacutesultat de lrsquoanalyse

Figure 24 - Interface graphique du logiciel Bidule avec agrave droite les controcircles des encodeurs

et deacutecodeurs HOA creacuteeacutes agrave France Teacuteleacutecom

Chapitre 2 Analyser un contenu HOA 18

232 Exploitation drsquoenregistrements naturels Une fois des reacutesultats convaincants obtenus avec des scegravenes virtuelles des

enregistrements naturels ont eacuteteacute analyseacutes Ces scegravenes ont eacuteteacute enregistreacutees gracircce au prototype de micro HOA du 4egraveme ordre deacuteveloppeacute agrave France Teacuteleacutecom (voir Figure 12) Ce processus implique des diffeacuterences notables avec un encodage virtuel

Le prototype de microphone contraint en effet agrave quelques compromis pour

optimiser des critegraveres incompatibles La taille du microphone reacutesulte drsquoun compromis entre la preacutecision drsquoestimation des composantes en basses freacutequences qui neacutecessite une taille eacuteleveacutee et la minimisation de lrsquoaliasing spatial qui ne peut ecirctre eacuteviteacute qursquoavec des capsules tregraves proches les unes des autres Leur disposition est eacutegalement irreacuteguliegravere il nrsquoexiste en fait aucune faccedilon de disposer reacuteguliegraverement plus de 20 points sur une sphegravere La configuration qui avait eacuteteacute retenue par les concepteurs [Moreau 2006] est la ldquomoins irreacuteguliegravere possiblerdquo au sens de la preacuteservation de lrsquoorthonormaliteacute des harmoniques spheacuteriques les 32 capsules sont reacuteparties sur une sphegravere de 35 cm de rayon selon un Pentaki-dodeacutecahegravedre polyegravedre semi-reacutegulier dual de lrsquoicosaegravedre tronqueacute (ballon de football)

Ces artefacts sont donc inheacuterents agrave lrsquoutilisation drsquoun reacuteseau de microphones Mais

le monde reacuteel pose eacutegalement des problegravemes deacutelicats La complexiteacute des modes de rayonnement drsquointeraction avec lrsquoenvironnement reacuteclame lrsquointroduction de modegraveles drsquoencodage beaucoup plus complexes que le cas drsquoune onde plane en champ libre et rend lrsquoinformation spatiale moins limpide et univoque au sein de la scegravene encodeacutee (enregistreacutee) en comparaison avec une scegravene virtuelle Les sources ne sont ainsi plus ponctuelles mais eacutetendues elles ne sont plus agrave lrsquoinfini mais agrave une distance finie du microphone (les ondes reccedilues ne sont donc plus planes) En outre chaque source en se reacutefleacutechissant sur les parois et les diffeacuterents objets de la salle creacutee une multitude de sources secondaires Il est enfin souvent difficile de connaicirctre avec preacutecision la position drsquoune source dans lrsquoespace lors drsquoun enregistrement

Des enregistrements en chambre sourde ont eacuteteacute reacutealiseacutes pour se passer des

reacuteflexions de lrsquoenvironnement Afin de connaicirctre avec preacutecision la position de la source un haut-parleur diffusant un bruit blanc nous avons placeacute le microphone sur une table tournante commandeacutee par un plug-in sous Plogue Bidule

233 Visualisations des reacutesultats Lrsquoobservation des reacutesultats a eacuteteacute effectueacutee de plusieurs maniegraveres visuellement et

par lrsquoeacutecoute Les graphiques eacutetant plus commodes crsquoest par cette voie que les premiers essais eacutetaient conclus Plusieurs types de graphiques ont eacuteteacute produits deacutecrivant des paramegravetres diffeacuterents

Les repreacutesentations temps-freacutequence permettent de repreacutesenter une variable agrave 1

dimension sous Matlab Cette voie a eacuteteacute suivie pour visualiser les paramegravetres extraits de chaque sous-bande de chaque fenecirctre notamment les angles lrsquoeacutenergie et la pertinence Malheureusement Matlab ne permet pas de repreacutesenter sur le mecircme graphique une 4egraveme dimension sous la forme drsquoune 2egraveme dimension colorimeacutetrique (on prend geacuteneacuteralement la

23 Meacutethodologie 19

saturation) Cette dimension suppleacutementaire aurait permis de repreacutesenter simultaneacutement les angles et leur pertinence

Figure 25 - Repreacutesentation

et de lrsquoespace col

Pour repreacutesenter s

drsquoabandonner une dimensipouvoir repreacutesenter danrepreacutesenteacutees soit par le niv

Figure 26 - Repreacutesentationdeacutecrite en 332 (en absciss

est repreacutesenteacutee agrave gauc

234 Diffeacuterents modes La visualisation est

indispensable pour veacuterifiesont possibles de ceux-cainsi reconstitueacutee agrave partir d

1 W+Y+02X pour le c

π 0 minusπ

de la table des couleurs dite HSV de Matlab (lineacuteaire agrave gauche) orimeacutetrique HSL (Hue Saturation Luminance agrave droite)

imultaneacutement angles et pertinence il eacutetait donc neacutecessaire on Crsquoest le deacutecoupage freacutequentiel qui a eacuteteacute mis de cocircteacute pour s un plan temps-angles les pertinences Celles-ci sont eau de gris des points soit par leur taille

de la pertinence des angles de la scegravene agrave 4 sources dont 1 mobile e les trames en ordonneacutees les angles en degreacute) La pertinence he par lrsquointensiteacute du bleu et agrave droite par la taille des points

drsquoeacutecoute

un indice preacutecis de reacutesultat mais lrsquoeacutecoute est tout de mecircme r la qualiteacute globale de la synthegravese Plusieurs modes drsquoeacutecoute i lrsquoeacutecoute au casque est la plus aiseacutee Une pseudo-steacutereacuteo est es signaux du 1er ordre1 pour restituer les scegravenes restreintes au

anal gauche et W-Y+02X pour le canal droit

Chapitre 2 Analyser un contenu HOA 20

plan horizontal Pour plus de preacutecision agrave la restitution ou pour des scegravenes en 3D et sans perdre la faciliteacute drsquoune eacutecoute personnelle au casque on peut appliquer des filtres HRTF (Head-Related Transfert Function) pour une reproduction binaurale

Pour appreacutecier pleinement la spatialisation la diffusion sur un systegraveme multi

haut-parleurs est indispensable Deux systegravemes sont installeacutes dans le laboratoire de France Teacuteleacutecom un systegraveme 51 et un systegraveme circulaire de 48 haut-parleurs Ces systegravemes installeacutes dans des studios insonoriseacutes offrent une grande qualiteacute drsquoeacutecoute qui permet de repeacuterer les deacutefauts mecircme minimes de la synthegravese

21

Chapitre 3

Description des analyses

31 Deacutetermination des directions principales

311 Base des algorithmes Nous avons deacuteveloppeacute plusieurs algorithmes reacutepondant aux diffeacuterents objectifs

deacutecrits plus haut Chacun drsquoeux possegravede des particulariteacutes leur permettant de reacutepondre agrave ces objectifs mais on trouve neacuteanmoins une partie commune Ainsi toutes les analyses reposent sur le mecircme modegravele drsquoapplication drsquoune ACP par sous-bandes dont voici le scheacutema geacuteneacuteral

Figure 31 - Scheacutema geacuteneacuteral drsquoanalyse

Les signaux en entreacutee sont les composantes HOA W X et Y dans la plupart des

cas mais peuvent ecirctre eacutegalement des composantes drsquoordre plus eacuteleveacute (voir 11) Sur le fenecirctrage jouent plusieurs paramegravetres comme la taille de la fenecirctre ou encore le pourcentage de recouvrement entre elles Nous avons choisi une fenecirctre en racine de la fenecirctre de Hanning crsquoest-agrave-dire une arche de sinusoiumlde (voir eacutequation (D7) en Annexe D) avec un recouvrement de 50 ce qui veacuterifie le critegravere de reconstruction parfaite (D6) Le filtrage est pour des raisons de rapiditeacute de calcul reacutealiseacute dans le domaine freacutequentiel par une simple multiplication avant de repasser en temporel pour appliquer lrsquoACP

Le banc de filtre utiliseacute est un banc inspireacute des filtres ERB Les filtres ERB

(Equivalent Regular Bandwidth) sont des filtres imitant le comportement de seacuteparation freacutequentielle de lrsquooreille humaine plus preacutecise en basse freacutequence Les filtres utiliseacutes ici ne sont pas directement des filtres ERB le systegraveme nrsquoa pas drsquointeacuterecirct particulier agrave essayer de copier le fonctionnement de lrsquooreille humaine Ces filtres ont eacuteteacute adapteacutes au problegraveme en

Chapitre 3 Description des analyses 22

srsquoassurant en particulier de la finesse des bandes permettant la meilleure discrimination des diffeacuterentes sources crsquoest-agrave-dire autour des fondamentales usuelles (200-1000 Hz) et des harmoniques Les freacutequences aigueumls sont bien discrimineacutees par les filtres ERB (relativement agrave la gamme crsquoest-agrave-dire en eacutechelle logarithmique) le deacutecoupage a donc surtout eacuteteacute densifieacute entre 200 et 800 Hz par rapport aux bandes ERB

Figure 32 - Filtres utiliseacutes inspireacutes des filtres ERB repreacutesenteacutes lineacuteairement (en haut)

et sur une eacutechelle logarithmique (en bas) Les reacutesultats de lrsquoACP sont donc avec cette meacutethode les angles des sources

trouveacutees dans chaque sous-bande ainsi que pour chacun drsquoeux un critegravere de pertinence calculeacute en fonction de lrsquoeacutenergie de la sous-bande dans une fenecirctre donneacutee et de la norme relative de la premiegravere composante de lrsquoACP (voir 342) Les autres vecteurs propres peuvent ecirctre utiliseacutes pour extraire davantage drsquoinformations et mecircme des signaux deacutecorreacuteleacutes comme on le verra au paragraphe 35 mais lrsquoanalyse semble alors moins robuste Srsquoen tenir aux informations donneacutees par la composante principale est un gage de pertinence suppleacutementaire

Ces reacutesultats concernent donc les sources preacutedominantes ou principales mais

laissent de cocircteacute un certain nombre drsquoeacuteveacutenements sonores agrave consideacuterer

312 Traitement du champ reacutesiduel Le champ reacutesiduel regroupe en quelque sorte tout ce qui nrsquoest pas une source

principale Il inclut donc les reacuteflexions et la reacuteverbeacuteration de la piegravece mais aussi les bruits parasites occasionnels ou continus (ventilation etc) Ces bruits ou eacutechos nrsquoont pas de direction de provenance assez distincte pour pouvoir ecirctre mesureacutee preacuteciseacutement Le champ reacutesiduel est eacutegalement composeacute du champ diffus La notion de champ diffus est couramment utiliseacutee mais rarement preacuteciseacutement deacutefinie On trouve dans la litteacuterature des deacutefinitions diverses lrsquoune drsquoelles preacutecisant qursquoil serait un ensemble drsquoeacuteveacutenements sonores proches en temps et provenant de directions eacutequiprobables

Les algorithmes proposeacutes traitent correctement les sources principales mais le

champ reacutesiduel est laisseacute de cocircteacute Il est pourtant tregraves important pour lrsquoimmersion du sujet dans la scegravene une scegravene deacutepourvue de champ sonore sera perccedilue comme artificielle ce qui nuit agrave la perception drsquoespace On sera par exemple davantage conscients drsquoecirctre au centre drsquoun dispositif expeacuterimental et moins sensibles aux variations de profondeur et de perspectives

31 Deacutetermination des directions principales 23

Neacuteanmoins il faut relativiser lrsquoimportance de ce champ reacutesiduel il nrsquoest pas utile pour la localisation des sources principales et ne caracteacuterise que lrsquoenvironnement drsquoenregistrement En outre le champ reacutesiduel qui provient souvent de directions floues et notre but nrsquoest pas de les preacuteciser artificiellement Il nrsquoest degraves lors geacuteneacuteralement pas utile de le transmettre aux ordres eacuteleveacutes

Ainsi certains auteurs [Merimaa and Pulkki 2005] ont choisi de recreacuteer lors drsquoune

synthegravese un champ diffus artificiel baseacute sur une reacuteponse impulsionnelle de salle calculeacutee agrave lrsquoavance Lrsquoavantage est une immersion un enveloppement complets lrsquoinconveacutenient est que lrsquoambiance ainsi recreacuteeacutee est fictive et arbitraire et en outre complegravetement indeacutependante de lrsquoambiance initiale en laissant notamment de cocircteacute les sources secondaires

Nous proposons dans nos algorithmes de ne pas syntheacutetiser le champ diffus aux

ordres eacuteleveacutes mais de nous contenter de la description du champ reacutesiduel fourni par les ordres transmis (1er ordre dans nos exemples) Nous nous limiterons donc agrave preacuteciser par la synthegravese des ordres supeacuterieurs les positions des sources principales

32 Extension agrave la 3D Nous avons pour le moment eacutevoqueacute le cas de repreacutesentations de champ sonore agrave

2 dimensions crsquoest-agrave-dire issus de sources placeacutees dans le plan horizontal Mais certaines repreacutesentations comportent eacutegalement des composantes verticales Pour analyser ces signaux en 3 dimensions il faut inteacutegrer la composante Z On effectue alors simplement une ACP sur X Y Z et W Le 1er vecteur propre sera alors bien dirigeacute dans lrsquoespace (X Y Z) dans la direction de la source lrsquoambiguiumlteacute de frac12 espace eacutetant leveacutee par W

Lrsquoalgorithme est alors complegravetement similaire agrave celui analysant des signaux en 2

dimensions Des tests ont eacuteteacute reacutealiseacutes agrave partir de signaux syntheacutetiques pour lesquels les positions des sources eacutetaient connues pour des raisons pratiques aucune scegravene sonore reacuteelle en 3 dimensions nrsquoa pu ecirctre enregistreacutee avec une connaissance initiale preacutecise des positions des sources

Les visualisations et les eacutecoutes eacutetant plus deacutelicates en 3D et lrsquoextension agrave la 3D

eacutetant immeacutediate nous avons donc concentreacute nos efforts sur lrsquoanalyse de scegravenes en 2D En outre en lrsquoabsence de dispositif spheacuterique ou heacutemispheacuterique de haut-parleurs le seul moyen agrave notre disposition pour eacutecouter une scegravene 3D est lrsquoeacutecoute binaurale crsquoest-agrave-dire au casque avec des fonctions de transfert de tecircte (HRTF) relativement bien adapteacutees agrave lrsquoauditeur

33 Analyse aux ordres supeacuterieurs

331 Description Afin drsquoameacuteliorer la preacutecision de lrsquoanalyse nous avons essayeacute drsquoappliquer une ACP

sur des signaux ambisoniques drsquoordre plus eacuteleveacute (signaux HOA) dans le plan horizontal Deux meacutethodes ont eacuteteacute essayeacutees

Chapitre 3 Description des analyses 24

La premiegravere consiste agrave appliquer une ACP agrave 3 dimensions successivement sur les composantes X Y W (ordre 1 et 0) puis U V W (ordre 2 et 0) et ainsi de suite crsquoest-agrave-dire (en utilisant la notation geacuteneacuterale) sur les composantes et W (ordre m et 0) Les reacutesultats de ces analyses (les directions des 1

)1(0mY )1(

0minus

mYegraveres composantes) sont ensuite regroupeacutees

lrsquoanalyse de lrsquoordre 1 fournissant des reacutesultats modulo 2π lrsquoanalyse de lrsquoordre 2 des reacutesultats plus preacutecis mais modulo π et plus geacuteneacuteralement lrsquoanalyse de lrsquoordre m permettant de trouver des angles modulo mπ2

La limite de cette approche se perccediloit lors de la fusion des reacutesultats les angles

trouveacutes agrave un ordre eacuteleveacute sont plus preacutecis dans des bandes de freacutequences eacuteleveacutees mais la limitation theacuteorique de ces signaux HOA dans les basses freacutequences font que lrsquoanalyse de lrsquoordre 1 reste la plus pertinente dans les premiegraveres bandes Parvenir agrave deacuteterminer agrave partir de quelle freacutequence on peut faire davantage confiance agrave lrsquoordre n+1 qursquoagrave lrsquoordre n nrsquoest pas aiseacute et cette limite provoque des aberrations dans les angles trouveacutes Une source unique pourra par exemple ecirctre interpreacuteteacutee par lrsquoalgorithme des k-moyennes (voir 341) comme 2 sources une en hautes freacutequences et une en basses freacutequences les 2 eacutetant trouveacutes agrave 2 angles diffeacuterents chaque angle relevant drsquoun ordre analyseacute diffeacuterent

La deuxiegraveme meacutethode consiste pour eacuteviter cette fusion des reacutesultats agrave effectuer

une seule ACP sur les composantes U V X Y et W Cette meacutethode souffre drsquoune tregraves grande complexiteacute algorithmique pour une ameacutelioration de la preacutecision peu sensible En effet si cette meacutethode permet drsquoobtenir des reacutesultats plus preacutecis dans certaines bandes de freacutequences elle est sensible aux deacutefauts et les limites des ordres supeacuterieurs (lrsquoabsence de basses freacutequences entre autres) perturbent lrsquoanalyse en composantes principales

332 Illustration sur une scegravene virtuelle La scegravene preacutesenteacutee ici est une scegravene artificielle crsquoest-agrave-dire composeacutee de sons

placeacutes artificiellement agrave diverses positions Elle a une dureacutee totale de 135 s et comporte 4 sources positionneacutees dans le plan horizontal une guitare placeacutee agrave 45deg une basse agrave -70deg une batterie agrave 110deg et une voix feacuteminine qui effectue continucircment un tour complet dans le sens indirect en partant de lrsquoarriegravere (elle passe donc successivement par les positions 180deg 90deg 0deg -90deg et -180deg) La guitare et la batterie srsquoarrecirctent peu avant la fin de la scegravene (12egraveme seconde au 910egraveme du son approximativement)

Figure 33 - Position des sources de la scegravene de test agrave 4 sources dont 1 mobile

33 Analyse aux ordres supeacuterieurs 25

Figure 34 - Angles drsquoune scegravene virtuelle ayant 1 source mobile et 3 sources fixes

(deacutecrite en 332) trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 Pour chaque trame (en abscisse) 20 angles (1 par bande en ordonneacutee et en degreacutes) sont

reporteacutes le diamegravetre du point correspondant agrave un critegravere de pertinence (voir 342)

Figure 35 - Angles de la mecircme scegravene trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 2 Reacutesultats modulo π reacutepliqueacutes pour faciliter la comparaison avec la figure preacuteceacutedente On remarque que les lignes sont plus nettes qursquoil y a moins drsquoangles aberrants et que

les angles corrects sont plus marqueacutes (ils sont deacutetermineacutes comme plus pertinent)

Chapitre 3 Description des analyses 26

20

0

20

0

20

0

Figure 36 - Angles drsquoune scegravene reacuteelle constitueacutee drsquoun bruit parcourant le cercle trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 (en haut) 0 et 2 (au milieu) et 0 et 4 (en bas) Le

numeacutero de trame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On retrouve qursquoune limitation des ordres HOA supeacuterieurs issus drsquoun enregistrement

microphonique est la restitution des basses freacutequences

34 Traitement des donneacutees

341 Algorithme des k-moyennes Agrave lrsquoissue de lrsquoanalyse en composantes principales on reacutecupegravere avec la premiegravere

des meacutethodes exposeacutees au chapitre preacuteceacutedent des angles correspondants aux positions des sources preacutedominantes agrave raison drsquoune valeur par fenecirctre et par bande de freacutequence Il faut agrave partir de ces donneacutees parvenir agrave isoler les sources crsquoest-agrave-dire agrave deacuteterminer quels sont les angles pertinents et examiner quels sont ceux qui agrave une certaine toleacuterance pregraves sont preacutesents dans plusieurs bandes de freacutequence etou plusieurs fenecirctres temporelles

Pour pouvoir exploiter ces donneacutees spatiales nous avons utiliseacute lrsquoalgorithme des

k-moyennes (ou k-means) [MacQueen 1967] sur les angles pondeacutereacutes par des critegraveres de pertinence Cet algorithme fonctionne de la maniegravere suivante

Initialisation choix de k barycentres (les k moyennes) Reacutepeacuteter Associer chaque eacuteleacutement au barycentre le plus proche Recalculer les positions des barycentres Jusqursquoagrave ce que les barycentres soient stables (ou au bout de t iteacuterations)

34 Traitement des donneacutees 27

Lrsquoavantage de cet algorithme est drsquoecirctre peu glouton puisqursquoil converge en O(tkn) ougrave t est le nombre drsquoiteacuterations k le nombre de centres et n le nombre de points (geacuteneacuteralement on a t k ltlt n) Par contre il est plutocirct sensible aux exceptions un point aberrant tirera agrave lui la moyenne auquel il aura eacuteteacute associeacute Il faut donc faire en sorte que ces points erroneacutes soient aussi rares que possibles Crsquoest pourquoi les angles traiteacutes sont pondeacutereacutes par 2 critegraveres de pertinence

La pondeacuteration des angles fournis en entreacutee de lrsquoalgorithme des k-moyennes se

fait de maniegravere simple en reacutepeacutetant ces angles un nombre de fois (de 0 agrave 10) proportionnel agrave un critegravere Ainsi un angle tregraves pertinent sera dupliqueacute et sera preacutesent plusieurs fois dans la liste des donneacutees traiteacutees attirant ainsi agrave lui la position du barycentre le plus proche Au contraire un angle trop peu pertinent ne sera pas reacutepeacuteteacute voir mecircme sera enleveacute de la liste

Le seul problegraveme de cet algorithme est qursquoil neacutecessite la connaissance de k crsquoest-

agrave-dire du nombre de sources qui composent la scegravene Une deacutetermination automatique se basant sur la reacutepeacutetition de lrsquoalgorithme avec un k croissant a eacuteteacute testeacutee mais le critegravere drsquoarrecirct reposant sur la dispersion des points autour des barycentres nrsquoeacutetant pas assez robuste cette meacutethode a provisoirement eacuteteacute mise de cocircteacute

342 Critegraveres de pertinence Les 2 critegraveres de pondeacuteration choisis sont lrsquoeacutenergie de la sous-bande dans la

fenecirctre donneacutee et le rapport de la norme de la 1egravere composante (la composante principale) de lrsquoACP sur la somme des normes de toutes les composantes

En effet un angle est trouveacute dans chaque sous-bande de chaque fenecirctre mecircme si

le signal y est tregraves faible Lrsquoangle trouveacute sera alors tregraves peu repreacutesentatif de la direction drsquoune source puisqursquoil indiquera la direction drsquoun bruit Lrsquoeacutenergie doit donc ecirctre prise en compte pour ne conserver que les angles trouveacutes dans des bandes comportant un signal suffisant

La norme relative de la 1egravere composante de lrsquoACP rend quant agrave elle compte du

poids relatif de cette composante par rapport aux autres Ainsi si 2 sources sont preacutesentes dans une bande donneacutee la 1egravere composante sera agrave peine plus marqueacutee que la 2egraveme Ceci peut ecirctre calculeacute en prenant simplement le rapport de la 1egravere valeur propre sur la somme des valeurs propres

On peut noter que la norme de la 1egravere composante ne se deacutetache nettement que

lorsqursquoun son est preacutesent dans la bande consideacutereacutee On peut alors se demander si lrsquoeacutenergie doit ecirctre prise en compte ou si lrsquoinformation qursquoelle contient nrsquoest comprise dans le 2egraveme critegravere En fait la norme relative est un critegravere tregraves bruiteacute et consideacuterer lrsquoeacutenergie par ailleurs permet de nuancer ces artefacts et constitue une base solide de pondeacuteration

Chapitre 3 Description des analyses 28

80

40

0

Figure 37 - Repreacutesentation temps-freacutequence des angles du son deacutecrit en 332 Letrame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On peut donc v

par trame et par bande chacun eacutetant le reacutesultat drsquoune ACP crsquoest-agrave-dire la 1egravere

Figure 38 - Eacutenergie de ce mecircme son On peut voir une basse en notes tenues uneet une batterie qui produit des sons secs dans un spectre plus aigu

80

40

0

80

40

0

Figure 39 - Norme relative de la 1egravere composante de ce mecircme son Les impacts de batterie (dans lrsquoaigu) ressortent davantage

π 0 minusπ

numeacutero de oir un angle direction

voix aiguumle

34 Traitement des donneacutees 29

Figure 310 - Pondeacuteration appliqueacutee agrave lrsquoentreacutee des k-moyennes calculeacutee ici comme

le simple produit de lrsquoeacutenergie et de la norme relative

80

40

0

343 Lissages

Pour faire face au bruit ineacutevitable dans les reacutesultats il faut lisser les donneacutees Ces

lissages temporels correspondent agrave des hypothegraveses de stabiliteacute des sources qui sont supposeacutees ecirctre fixes ou mobiles relativement lentement (dans une mesure agrave parameacutetrer)

Un premier lissage peut ecirctre opeacutereacute avant le traitement par lrsquoalgorithme des k-

moyennes Le filtre choisi est un filtre meacutedian de maniegravere agrave eacuteliminer les points aberrants tout en conservant les vraies valeurs des points coheacuterents Ce lissage est appliqueacute sur chaque sous-bande aux angles et ne tient pas compte des critegraveres de pertinence Il est donc utiliseacute avec parcimonie et peut mecircme ecirctre eacuteviteacute en reacuteglant de maniegravere adeacutequate les critegraveres de pondeacuteration agrave lrsquoentreacutee des k-moyennes

Le deuxiegraveme lissage srsquoeffectue agrave lrsquoentreacutee des k-moyennes en mecircme temps que les

critegraveres de pondeacuteration Il consiste agrave appliquer les k-moyennes non pas sur une fenecirctre donneacutee mais sur plusieurs fenecirctres conseacutecutives anteacuterieures et posteacuterieures en donnant plus de poids agrave la fenecirctre courante Dans la pratique les poids donneacutes aux diffeacuterentes fenecirctres sont eacutetablis par une gaussienne centreacutee sur la fenecirctre courante et de largeur agrave deacuteterminer (en fonction notamment de la dureacutee drsquoune fenecirctre et du type de scegravene analyseacute)

35 Exploitation de toutes les composantes de lrsquoACP Les analyses preacutesenteacutees preacuteceacutedemment ont toutes exploiteacute uniquement la

composante principale extraite par lrsquoACP Or cette analyse fournit des informations plus complegravetes par lrsquointermeacutediaire des autres composantes dont on peut tirer parti pour isoler plusieurs sources au sein drsquoune mecircme bande Cette approche est toujours en deacuteveloppement dans ce stage et nrsquoa pas encore donneacute pleine mesure des reacutesultats qursquoelle laisse entrevoir

Les composantes de lrsquoACP indiquent des directions qui correspondent aux

diffeacuterentes sources composant la scegravene sonore Les vecteurs propres de la matrice de correacutelation donnent ainsi les combinaisons lineacuteaires des signaux HOA permettant de

Chapitre 3 Description des analyses 30

seacuteparer de la meilleure faccedilon possible ces sons Ces directions peuvent ecirctre alors utiliseacutees pour former des directiviteacutes isolant au mieux ces sources

aBS sdot= (31)

ougrave la matrice a contient les vecteurs propres de la matrice de correacutelation (voir Annexe C) le vecteur B contient les signaux HOA et le vecteur S contient les sources extraites

⎟⎟⎟

⎜⎜⎜

=⎟⎟⎟

⎜⎜⎜

⎛=

⎥⎥⎥

⎢⎢⎢

⎟⎟⎟

⎜⎜⎜

⎟⎟⎟

⎜⎜⎜

⎛=

10

1001

1

ML

N

B

BB

S

SSuua MML (32)

On obtient ainsi des lobes drsquoautant plus eacutetroits que lrsquoordre est eacuteleveacute chacun

dirigeacute vers une source et permettant de lrsquoisoler le plus possible des contributions des autres sources La Figure 311 preacutesente les directiviteacutes ainsi trouveacutees par une ACP en pleine bande Une analyse en sous-bande permet une plus grande distinction des sources mais une seacuteparation diffeacuterente entre les bandes est dangereuse car elle risque de dissocier spatialement plusieurs parties drsquoun mecircme son

Figure 311 - Directiviteacutes seacuteparant ideacutealement 4 sources placeacutees agrave 17 73 195 et -58deg

pour une scegravene virtuelle encodeacutee agrave lrsquoordre 4 Ce principe se heurte neacuteanmoins aux limites de seacuteparation lieacutees agrave lrsquoordre

drsquoencodage en effet 2 sources ne pourront pas ecirctre seacutepareacutees si elles sont trop proches comme en teacutemoigne la largeur des lobes principaux Les lobes secondaires traduisent eacutegalement un meacutelange des sources isoleacutees La figure ci-dessus montre ainsi que la source placeacutee agrave 17deg (en vert) sera preacutesente de maniegravere non neacutegligeable dans le signal senseacute contenir la source placeacutee agrave -58deg (en bleu) en raison du lobe secondaire bleu important

31

Chapitre 4

Reacutesultats et applications

41 Illustration et critique des reacutesultats obtenus

411 Avant-propos Sans notification particuliegravere les reacutesultats preacutesenteacutes ont eacuteteacute obtenus avec un pas

de 50 ms une analyse en 80 bandes avec une FFT sur 8192 points Une taille de FTT plus grande et un plus grand nombre de bande augmente la qualiteacute de lrsquoanalyse un pas plus petit ameacuteliore sa preacutecision temporelle mais les reacutesultats sont moins fiables et un lissage plus important srsquoimpose alors Ces paramegravetres ont eacuteteacute reacutegleacutes apregraves de multiples essais sur des scegravenes diverses

Les reacutesultats sont preacutesenteacutes ici uniquement sous la forme de graphiques nous ne

pouvons donc repreacutesenter que les angles trouveacutes agrave la sortie de lrsquoalgorithme des k-moyennes

412 Scegravene 2D artificielle agrave 4 sources fixes La premiegravere scegravene est une scegravene artificielle composeacutee de 4 sons fixes placeacutes agrave -70

-10 45 et 110deg Ces sons (une basse une voix une guitare et une batterie) ont eacuteteacute choisis pour leur varieacuteteacute spectrale et leur varieacuteteacute drsquoattaque Elle a en outre le meacuterite drsquoecirctre reacutealiste et de constituer une seacutequence musicale (chaque son nrsquoest pas une meacutelodie indeacutependante)

On voit sur la Figure 41 ci-dessous que les angles trouveacutes sont proches des

angles theacuteoriques Lrsquoun des sons (agrave 45deg) est quasiment nul avant la 100egraveme trame sa position est alors moins facile agrave deacuteterminer plus preacuteciseacutement une position approximative est trouveacutee et correspondrait exactement agrave la position du bruit (45deg) si lrsquoincertitude de mesure tregraves grande pour un son aussi faible ne rendait la deacutetermination si ardue On mesure un eacutecart-type de 22deg sur cet exemple (en excluant le deacutebut du son agrave 45deg)

Chapitre 4 Reacutesultats et applications 32

Figure 41 - Angles theacuteoriques (en pointilleacutes rouge) et calculeacutes (en trait bleu) pour une scegravene

constitueacutee de 4 sons fixes longue de 11s

413 Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile

Figure 42 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) de la scegravene agrave

4 sources dont 1 mobile deacutecrite en 332 Cette scegravene est deacutecrite en 332 On a ici demandeacute aux k-moyennes de renvoyer 5 barycentres par trame alors que

seules 4 sources eacutetaient preacutesentes dans le but de se garantir une marge vis-agrave-vis des erreurs de deacutetection Cette 5egraveme direction nrsquoest pas du tout gecircnante elle indique une direction qui ne contient pas de source et crsquoest donc un son tregraves faible qui est ainsi pointeacute Apregraves une eacuteventuelle extraction le signal ne sera donc pas du tout gecircnant

41 Illustration et critique des reacutesultats obtenus 33

On peut remarquer que quand le son mobile se rapproche drsquoun son fixe la deacutetection est moins bonne il y a une fusion entre les 2 sons Mais encore une fois lors de lrsquoextraction lrsquoisolation drsquoun des sons englobera lrsquoautre son ce qui ne posera pas de problegraveme pour les objectifs fixeacutes aucune source nrsquoeacutetant oublieacutee En effet la seacuteparation de sources nrsquoest pas un objectif ici mais un moyen pour preacuteciser les positions des sources ce qui sera fait correctement mecircme si 2 sources sont pointeacutees par 1 seule direction

414 Scegravene 3D artificielle agrave une source et bruit de fond

La scegravene dont la position drsquoune source a eacuteteacute extraite ci-dessous est une scegravene virtuelle en 3D constitueacute drsquoun son (une voix) qursquoon a fait se deacuteplacer par paliers tout drsquoabord vers le haut de 0deg agrave 45deg et vers la gauche de 0deg agrave 90deg puis redescendre jusqursquoagrave 35deg en continuant son cheminement vers la gauche jusqursquoagrave 120deg et enfin finir la descente de 35deg agrave 0deg en la laissant agrave 120deg Agrave cette source a eacuteteacute superposeacutee une ambiance spatialiseacutee de hall drsquoaeacuteroport initialement enregistreacutee en 2D (au format 51) mais transformeacutee pour contenir des composantes verticales Cette ambiance deacutecorreleacutee de la source avait pour but de tester la robustesse de lrsquoanalyse Elle eacutetait agrave 15 dB en-dessous du niveau de la voix

Figure 43 - Azimut et eacuteleacutevation theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun

son en 3D artificiel de 9s placeacute dans une ambiance bruyante On remarque que lrsquoanalyse est tregraves correcte Il nrsquoy a pas drsquoeacutecart important entre

les angles theacuteoriques et ceux calculeacutes On note toutefois que le lissage agrave lrsquoentreacutee des k-moyennes a pour effet de gommer les creacuteneaux et drsquoaplatir quelque peu la courbe drsquoeacuteleacutevation ceci nrsquoest pas vraiment gecircnant car de tels sauts dans la position drsquoune source ne sont pas du tout reacutealistes (ils peuvent caracteacuteriser des bruits de pas mais de tels impacts sont courts et on peut srsquoattendre agrave ce que la courbe suive leur position aux instants ougrave ils sont eacutemis)

Chapitre 4 Reacutesultats et applications 34

415 Scegravene 2D naturelle agrave une source Les scegravenes naturelles sont on lrsquoa vu plus deacutelicates agrave exploiter car on ne peut pas

garantir la preacutecision de la position theacuteorique agrave retrouver par le calcul et on ne peut donc pas calculer la preacutecision de lrsquoanalyse Seuls les enregistrements utilisant la table tournante (voir 232) permettent une mesure preacutecise de la position de lrsquoangle Ces enregistrements on pu confirmer la validiteacute de lrsquoanalyse pour des scegravenes reacuteelles on trouve ici un eacutecart-type de 25deg

Figure 44 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun bruit blanc

tournant autour du micro enregistreacute en chambre sourde Cette analyse a eacuteteacute reacutealiseacutee par sous-bandes mais sur une eacutetendue freacutequentielle

plus reacuteduite puisqursquoon srsquoest limiteacute aux possibiliteacutes offertes par le microphone La scegravene a donc eacuteteacute analyseacutee de 200 agrave 10 000 Hz

42 Quelques applications

421 Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre 2 agrave partir de lrsquoordre 1

Une fois les positions des sources connues la porte est ouverte agrave de nombreuses

applications La connaissance de ces positions permet en effet de syntheacutetiser artificiellement des composantes manquantes ou non transmises La premiegravere synthegravese deacuteveloppeacutee est celle des signaux U et V composant la partie horizontale de lrsquoordre 2 agrave partir de lrsquoordre 1 et de paramegravetres issus de lrsquoanalyse pour une source en 2D (des angles dans de cas)

42 Quelques applications 35

Figure 45 - Principe de lrsquoameacutelioration de la preacutecision spatiale

Le principe de la synthegravese est drsquoextraire les sources originales agrave partir de W X Y

et des angles (un angle par trame et par sous-bande) Ceci peut ecirctre reacutealiseacute de maniegravere approcheacutee en deacutecodant lrsquoordre 1 dans les directions des sources Ce deacutecodage revient agrave calculer les signaux qui devraient alimenter des haut-parleurs qui seraient placeacutes agrave ces positions dans le cas drsquoune restitution (voir 122) crsquoest-agrave-dire agrave former des directiviteacutes dans les directions des sources Dans la plupart des cas ce deacutecodage qui fait intervenir une pseudo-inversion de Moore-Penrose (111) est imparfait les sources se retrouvant leacutegegraverement meacutelangeacutees On peut comparer cette seacuteparation agrave celle que ferait un ensemble de microphones agrave directiviteacute hypercardioiumlde coiumlncidents

Figure 46 - Directiviteacutes eacutequivalentes agrave la seacuteparation de 4 sources agrave lrsquoordre 1 Ces sources seacutepareacutees vont ensuite constituer toujours placeacutees aux angles

deacutetermineacutes agrave lrsquoanalyse une scegravene virtuelle qursquoon va encoder agrave lrsquoordre 2 De cet encodage on ne conservera que les signaux manquants dans notre exemple les signaux du 2nd ordre U et V Ainsi la scegravene spatialiseacutee sera au final constitueacutee des signaux W X et Y drsquoorigine (transmis) et des signaux U et V syntheacutetiseacutes

Chapitre 4 Reacutesultats et applications 36

422 Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave partir de W Reconstruire une scegravene sonore spatialiseacutee agrave partir drsquoun unique canal mono est

alors difficile et le reacutesultat nrsquoest appreacuteciable que pour des scegravenes simples Il faut pour cela que les diffeacuterentes sources composant cette scegravene aient des supports spectraux aussi distincts que possible Les diffeacuterentes sous-bandes sont alors placeacutees agrave un certain angle transmis en parallegravele et crsquoest cette scegravene reconstitueacutee qui va ecirctre encodeacutee au 1er ordre de maniegravere agrave recreacuteer les signaux X et Y

Figure 47 - Principe de la restitution de lrsquoordre 1 agrave partir du signal mono W Ce scheacutema rappelle une meacutethode deacuteveloppeacutee dans le cas steacutereacuteo appeleacutee BCC

(Binaural Cue Coding) [Faller and Baumgarte 2002] Le principe est drsquoextraire et coder des informations permettant la reconstruction binaurale drsquoun signal agrave savoir les diffeacuterences interaurales drsquointensiteacute et de temps (Interaural LevelTime Difference ILD et ITD) qui correspondent dans le cas drsquoune restitution sur un casque aux diffeacuterences drsquointensiteacute et de temps inter-canal (Inter-Channel LevelTime Difference ICLD et ICTD) qui sont mesureacutees agrave partir drsquoune analyse en sous-bandes Les auteurs y ont plus reacutecemment associeacute un indice de correacutelation interaurale mesureacute agrave partir de la correacutelation inter-canal (ICC) afin de caracteacuteriser la preacutecision spatiale (la ldquolargeurrdquo drsquoune source)

Figure 48 - Scheacutema de principe de la meacutethode BCC [Faller and Baumgarte 2003]

On observe en pratique des deacutefauts lieacutes agrave la brutaliteacute de la proceacutedure une sous-

bande ne peut ecirctre que placeacutee agrave la position indiqueacutee et ne peut pas rester floue diffuse ou encore ecirctre placeacutee agrave plusieurs endroits Pour y remeacutedier nous avons ajouteacute 2 traitements agrave la synthegravese Tour drsquoabord nous avons appliqueacute un leacuteger lissage soulageant les effets deacutesagreacuteables dus au saut du contenu drsquoune sous-bande drsquoun endroit agrave un autre entre de 2 fenecirctres conseacutecutives Les positions varient alors de faccedilon plus souple au sein drsquoune mecircme sous-bande traduisant une hypothegravese de continuiteacute spatiale (pas de deacuteplacement brusque) La contrepartie est que cette hypothegravese est lieacutee agrave une hypothegravese de continuiteacute spectrale

42 Quelques applications 37

La 2egraveme ameacutelioration concerne le positionnement des sources En incluant dans la transmission un critegravere de pertinence on peut savoir srsquoil est raisonnable de placer une sous-bande agrave un angle preacutecis ou bien si lrsquoanalyse eacutetait flou agrave son sujet auquel cas un positionnement impreacutecis serait preacutefeacuterable Le paramegravetre choisi est une combinaison des critegraveres eacutevoqueacutes en 342 il nous permet de placer la sous-bande de maniegravere plus ou moins prononceacutee

43 Comparaison avec une meacutethode existante Certains auteurs ont deacutejagrave essayeacute drsquoanalyser un contenu ambisonique pour

retrouver les positions des sources Ville Pulkki a ainsi deacutecrit dans [Pulkki and Faller 2006] une meacutethode drsquoanalyse du B-format baseacutee sur lrsquoeacutetude des amplitudes des signaux W X Y et Z

Figure 49 - X et Y dans le cas drsquoune sinusoiumlde placeacutee agrave 15deg (agrave gauche) et 120deg (agrave droite)

Les figures ci-dessus montrent les relations drsquoamplitudes (algeacutebriques) qui relient

X et Y agrave lrsquoangle de la source On voit que lrsquoanalyse de ces amplitudes respectives permet de retrouver la position de la source en effet on a pour une source unique les relations de lrsquoeacutequation (11) rappeleacutee ici

⎪⎪

⎪⎪

=

=

=

=

δ

δθ

δθ

sin2

cossin2

coscos2

SZ

SY

SX

SW

(41)

On peut donc theacuteoriquement retrouver les valeurs de θ et δ par relations

trigonomeacutetriques Ainsi on a

⎪⎪⎩

⎪⎪⎨

=

=

2)sin(

)tan(

WZ

XY

δ

θ (42)

Chapitre 4 Reacutesultats et applications 38

On peut donc trouver les angles θ et δ agrave π pregraves Pour lever lrsquoambiguiumlteacute une eacutetude de signe est neacutecessaire Mais dans le cas de θ le signe de X et de Y agrave δ fixeacute deacutepend aussi bien de θ que S Il faut srsquointeacuteresser aux signes de θcos et θsin crsquoest-agrave-dire

aux signes de WX et

WY Dans la pratique on srsquointeacuteressera aux signes de et

pour se preacutevenir des divisions par zeacuteros

XW sdot YW sdot

XW sdot et YW sdot sont proportionnels agrave toujours positif

2S

Les auteurs deacutecrivent eacutegalement dans leur article un critegravere appeleacute diffuseness qui

peut ecirctre compareacute agrave un critegravere de pertinence inverseacute Ce paramegravetre calculeacute par agrave 1 - R ougrave R est un rapport de normes est tregraves proche du critegravere de norme relative deacutecrit en 342 Il peut donc ecirctre utiliseacute de la mecircme faccedilon et permettre ainsi une pleine comparaison

Cette meacutethode a eacuteteacute impleacutementeacutee pour pouvoir ecirctre compareacutee avec la meacutethode

par ACP Tous les paramegravetres ont scrupuleusement eacuteteacute gardeacutes identiques et plusieurs reacuteglages ont eacuteteacute testeacutes Les courbes ci-dessous preacutesentent les reacutesultats des analyses de la scegravene deacutecrite en 332 avec un pas de 50ms un overlap de 50 un NFFT de 2048 et 40 bandes freacutequentielles Nous avons repreacutesenteacute tous les angles trouveacutes crsquoest-agrave-dire un par bande et par trame pour srsquoaffranchir de la seacutelection des k-moyennes

π

0

minusπ

Figure 410 - Angles trouveacutes par lrsquoalgorithme de [Pulkki and Faller 2006] Le diamegravetre du point correspondant agrave la pertinence

43 Comparaison avec une meacutethode existante 39

π

0

minusπ

Figure 411 - Angles trouveacutes par une ACP pour la mecircme scegravene On remarque que les points excentriques sont moins nombreux et plus rarement trouveacutes comme pertinents

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee

441 Position du problegraveme

Une application directe de ces analyses a eacuteteacute deacuteveloppeacutee pour la confeacuterence audio

spatialiseacutee La confeacuterence audio utilise en effet la spatialisation pour permettre une meilleure seacuteparation par lrsquooreille des diffeacuterents locuteurs Ainsi si plusieurs personnes parlent en mecircme temps il sera tregraves difficile de comprendre chacun individuellement si ces voix sont restitueacutees en mono mais on pourra focaliser lrsquoattention sur chacune drsquoentre elles si elles sont seacutepareacutees spatialement (crsquoest lrsquoeffet cocktail party [Cherry 1953])

Lrsquoobjectif eacutetait de veacuterifier qursquoil eacutetait possible de conserver la spatialisation drsquoune

confeacuterence en nrsquoayant transmis qursquoun downmix mono des signaux Ce concept semble se rapprocher de celui deacutecrit en 422 mais une diffeacuterence fondamentale les seacutepare la confeacuterence audio spatialiseacutee nrsquoest pas codeacutee au format ambisonic mais les signaux traiteacutes sont directement les sons provenant des diffeacuterents locuteurs crsquoest-agrave-dire les sources elles-mecircmes Ainsi lrsquoanalyse ne porte plus sur une scegravene spatialiseacutee mais sur des signaux seacutepareacutes Il nrsquoy a ainsi plus drsquoindices spatiaux agrave trouver

Avoir accegraves aux sources permet drsquoobtenir des informations plus preacutecises pour

permettre une seacuteparation apregraves la transmission Comme nous lrsquoavons vu lrsquoanalyse drsquoune scegravene spatialiseacutee ne permet que dans drsquoultimes cas agrave la seacuteparation des sources ce qui est ici notre point de deacutepart et sera en fait notre point drsquoarriveacutee En effet nous tenterons de retrouver les sources seacutepareacutees apregraves la transmission de maniegravere agrave pouvoir par la suite les spatialiser agrave loisir (voir Figure 413)

Chapitre 4 Reacutesultats et applications 40

442 Solution proposeacutee Les paramegravetres extraits ne sont donc plus des positions de sources Nous avons

choisi de mesurer puis transmettre lrsquoeacutenergie de chaque signal dans chaque sous-bande en parallegravele du downmix En effet une bonne seacuteparation sera possible si lrsquoon sait quelle proportion de chaque source compose chaque sous-bande du signal mono

Figure 412 - Scheacutema de principe drsquoune confeacuterence audio spatialiseacutee

Figure 413 - Scheacutema ameacutelioreacute (deacutebit reacuteduit)

en pointilleacutes informations compleacutementaires (eacutenergie) Lrsquoanalyse en sous-bandes a lieu dans le serveur (Figure 414) Celui-ci calcule

lrsquoeacutenergie de chaque signal dans chaque sous-bande sur une trame donneacutee Crsquoest ce paramegravetre qui associeacute au signal mono M permettra la seacuteparation des sources dans le terminal (Figure 415) Ce dernier reacutepartira en effet les diffeacuterentes sous-bandes vers chaque signal reconstitueacute proportionnellement agrave cette information pour reconstruire les 4 sources originales

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee 41

Figure 414 - Analyse principe de lrsquoencodage dans le serveur

Figure 415 - Synthegravese principe du deacutecodage dans le client

Afin de reacuteduire au maximum les informations compleacutementaires agrave transmettre on

peut remarquer qursquoau cours drsquoune confeacuterence audio on a tregraves souvent un seul locuteur les participants ne parlent que tregraves rarement tous en mecircme temps Ceci implique que les signaux en entreacutee sont tregraves souvent tous nuls sauf 1 et appliquer un seuil en entreacutee de lrsquoanalyse permet outre lrsquoallegravegement du traitement drsquoavoir moins de paramegravetres agrave transmettre

Ce scheacutema simplifieacute ne tient pas compte des problegravemes de phase rien nrsquoindique

que les eacutenergies des signaux srsquoajoutent bien dans chaque sous-bande lors du downmix on peut tregraves bien avoir des oppositions de phase La solution est drsquoeffectuer le downmix (la somme) des signaux dans chaque sous-bande en prenant soin drsquoavoir recaleacute les phases au preacutealable Ceci nrsquoa un sens que pour des bandes suffisamment eacutetroites Les deacutecalages temporels appliqueacutes pour le recalage sont alors des paramegravetres suppleacutementaires agrave transmettre et sont pris en compte lors de la synthegravese au niveau du reacutepartiteur qui repositionnera la phase de chaque trame pour chaque signal

Chapitre 4 Reacutesultats et applications 42

443 Bilan Le reacutesultat du deacutecodage a pu ecirctre eacutecouteacute de diffeacuterentes maniegraveres les sources

reconstitueacutees individuellement ensemble en steacutereacuteo drsquoamplitude et sur un systegraveme 51 On note que les sources ont eacuteteacute assez bien seacutepareacutees mais que des artefacts sont audibles en particulier lorsque le nombre de locuteurs simultaneacutes augmentent Ces artefacts sont un meacutelange des voix qui nrsquoest gecircnant que lorsqursquoon les eacutecoute de maniegravere seacutepareacutee En effet lrsquoeacutecoute simultaneacutee de ces signaux syntheacutetiseacutes mecircme placeacutes agrave des positions distinctes sur un systegraveme de diffusion multicanal est tout agrave fait satisfaisante

Ce proceacutedeacute pour pouvoir ecirctre appliqueacute doit fonctionner en temps-reacuteel Cette

contrainte nrsquoa pas du tout eacuteteacute prise en compte lrsquoobjectif eacutetant de valider la faisabiliteacute drsquoune reconstruction Les programmes sous Matlab nrsquoont pas eacuteteacute optimiseacutes et ne respectent pas cette contrainte

43

Conclusion Nous avons preacutesenteacute dans ce rapport le principe et lrsquoapplication de plusieurs

meacutethodes drsquoanalyses spatiales de scegravenes ambisoniques conccedilues et reacutealiseacutee pendant le stage Le format HOA est en effet une repreacutesentation du champ acoustique deacutecomposeacute sur une base drsquoharmoniques spheacuteriques jusqursquoagrave un certain ordre agrave la maniegravere drsquoun deacuteveloppement limiteacute Il contient donc de maniegravere indirecte des indications spatiales qursquoon peut extraire avec des analyses comme lrsquoanalyse en composantes principales

Ces analyses nous permettent de deacuteterminer les positions des sources qui

composent la scegravene sonore Nous avons appliqueacute les reacutesultats de ces analyses agrave 2 types de synthegravese lrsquoune destineacutee aux transmissions bas deacutebit lrsquoautre agrave un traitement de restitution de la preacutecision spatiale dans le cas ougrave des ordres supeacuterieurs dont le but est drsquoaffiner la perception de localisation nrsquoauraient pas pu ecirctre transmis Ces algorithmes par le codage drsquoinformations spatiales qursquoils permettent pourront trouver bien drsquoautres applications dans la transmission et le codage ougrave la description du contenu est de plus en plus utiliseacutee (comme par exemple dans la norme MPEG)

Des ameacuteliorations sont possibles sur plusieurs points tout drsquoabord lrsquoexploitation

de toutes les composantes de lrsquoACP est agrave lrsquoeacutetude et semble pouvoir donner des reacutesultats inteacuteressants Drsquoautre part on a vu que le reacutesultat final est tregraves deacutependant de la bonne convergence de lrsquoalgorithme des k-moyennes utiliseacute pour traiter les donneacutees brutes de lrsquoanalyse en sous-bandes Or cet algorithme neacutecessite des reacuteglages tregraves fins et une connaissance a priori du nombre de sources est presque indispensable Drsquoautres algorithmes plus complexes de suivi de formes pourraient ecirctre avantageusement utiliseacutes pour deacutetecter dans tous les angles trouveacutes lesquels sont susceptibles de former une trajectoire

45

Annexe A

Deacuteveloppement du champ acoustique en harmoniques spheacuteriques

A1 Eacutequation drsquoonde en coordonneacutees spheacuteriques On se place dans lrsquoespace euclidien agrave 3 dimensions muni drsquoun systegraveme de

coordonneacutees spheacuteriques Un point M y est repeacutereacute par son rayon r son azimut θ et son eacuteleacutevation δ tels que repreacutesenteacutes sur la figure ci-dessous

- r est la norme du vecteur position rr crsquoest-agrave-dire la distance OM - [20[ πθ isin est lrsquoangle formeacute par le projeteacute du point sur le plan xOy et lrsquoaxe Ox

- ]2

2

[ ππδ minusisin est lrsquoangle formeacute par le plan xOy et le vecteur position2

Figure A1 - Systegraveme de coordonneacutees spheacuteriques

2 Cet angle diffegravere de lrsquoangle polaire usuel δπϕ minus=

2 habituellement pris entre lrsquoaxe Oz et le

vecteur position

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 46

Les relations entre les coordonneacutees spheacuteriques et les coordonneacutees carteacutesiennes sont

⎪⎩

⎪⎨

===

δδθδθ

sincossincoscos

zryrx

(A1)

On srsquointeacuteresse dans ce repegravere agrave lrsquoeacutequation de propagation des ondes acoustiques

de pression On se place dans les conditions classiques drsquoacoustique lineacuteaire (les variations de p sont petites par rapport agrave la pression atmospheacuterique) en supposant que lrsquoair est un fluide parfait (on y neacutegligera les pheacutenomegravenes dissipatifs) Dans une reacutegion de lrsquoespace ne comprenant pas de sources lrsquoeacutequation drsquoonde srsquoeacutecrit alors

0)(12

2

2 =⎟⎟⎠

⎞⎜⎜⎝

⎛partpart

minus∆ trptc

r (A2)

p eacutetant la pression et c la vitesse de propagation du son dans lrsquoair

Cette eacutequation devient dans le domaine freacutequentiel lrsquoeacutequation de Helmholtz

( ) 0)(2 =+∆ ωrpk r (A3)

ck ω

= eacutetant le nombre drsquoonde

En coordonneacutees spheacuteriques cette eacutequation srsquoeacutecrit

0sin1sin

sin11 2

2

2

222

2 =⎥⎦

⎤⎢⎣

⎡+

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart pk

rrrr

rr δθθθ

θθ (A4)

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques Drsquoapregraves [Bruneau 1983] elle admet des solutions agrave variables seacutepareacutees de la forme

)()()( δθ ΦΘ= rRp (A5) Ces solutions sont respectivement - pour la partie radiale une combinaison des fonctions de Bessel spheacuteriques de

premiegravere et seconde espegravece3 jn et nn

)()()( krBnkrAjrR nn += (A6) 3 Les fonctions de Bessel spheacuteriques de seconde espegravece sont eacutegalement appeleacutees fonctions de

Neumann

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 47

Ces fonctions sont deacutefinies comme suit

(A7)

Figure A2 - Fonctions de Bessel spheacuteriques pour les ordres 0 agrave 5 )(krjm

- pour la partie azimutale les fonctions )(θΘ

)sin()cos()( 21 θθθ ncnc +=Θ (A8) Eacutetant donneacute la deacutefinition de lrsquoangle Θ celui-ci doit neacutecessairement ecirctre de

peacuteriode 2π ))2()(( πθθ +Θ=Θ ce qui impose agrave n drsquoecirctre entier

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 48

- pour la partie polaire les fonctions de Legendre associeacutees )(sinδmnP

nm

nn

mn dPdP

)(sin)(sinsin)(sin

δδ

δδ = pour ⎩⎨⎧

gt=

nmavecnm 321

(A9)

ougrave les )(sinδnP sont les polynocircmes de Legendre de degreacute n en δsin deacutefinis par reacutecurrence

( )

11

22

1

0

sin)12()(sin)1(

1cos321)(sin

sin)(sin0)(sin

minus+ minus+=+

minus=

==

mmm mPPmPmet

P

PP

δδ

ϕδ

δδδ

(A10)

et de formule geacuteneacuterale

mm

m

mm dd

mP )1(sin

)(sin21)(sin 2 minus= δ

δδ (A11)

On peut appliquer aux fonctions )(sinδmnP la semi-normalisation de Schmidt

)(sin)()()(sin~ δεδ mnnmn P

nmnmP

+minus

= ougrave 10 =ε et 2=nε pour 1gen (A12)

En appariant les fonctions polaires et azimutales on deacutefinit les harmoniques

spheacuteriques de degreacute et drsquoordre)1(mnY 0gem 4 mnn lele0 et de degreacute et

drsquoordre (voir Figure A3)

)1(minusmnY 1gem

mnn lele1

)(sin~)sin()(

)(sin~)cos()()1(

)1(

δθδθ

δθδθ

mnmn

mnmn

PnY

PnY

=

=minus

(A13)

4 En geacuteneacuteral lorsque le degreacute et lrsquoordre ne sont pas eacutevoqueacutes conjointement on parle par abus de langage drsquoharmoniques drsquoordre m plutocirct que de degreacute m

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 49

soit

1)(sin

)()()12(2sin)(

)(sin)()()12(2cos)(

1)(sin)1()1()12(cos)(

)1(

)1(

1)1(

1

gt

⎪⎪⎩

⎪⎪⎨

+minus

+=

+minus

+=

=+minus

+=

minus

npourP

nmnmmnY

PnmnmmnY

npourPmmmY

mnmn

mnmn

mm

δθδθ

δθδθ

δθδθ

(A14)

La solution angulaire geacuteneacuterale srsquoeacutecrit alors sous la forme drsquoun deacuteveloppement sur

la base drsquoharmoniques spheacuteriques

( ) ( )sum minus

=minus+=Θ

1

1)1()1()( n

m mnmnmnmnn YBYBθ (A15) La solution geacuteneacuterale est alors la seacuterie de Fourier-Bessel

sum sum sum+infin

= = plusmn=

=0 0 1

)()( )()()(m

m

nmnmnm

m YBkrjikrpσ

σσ δθδθ (A16)

ougrave

intint⎪⎩

⎪⎨⎧

minusisin

isin

plusmnplusmn =

]2

2

[

[20[

)1()1( )()1()(

1

ππδ

πθ

δθδθ

S

mnm

mmn dSYpkrji

B (A17)

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 50

Tableau A1 - Expressions analytiques des harmoniques spheacuteriques pour les ordres 0 agrave 3

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 51

Figure A3 - Repreacutesentation des harmoniques spheacuteriques pour les ordres m = 0 agrave 3 Les

couleurs rouge et bleu indiquent respectivement des valeurs positives et neacutegatives

53

Annexe B

Compleacutements theacuteoriques sur le deacutecodage HOA

B1 Vecteur veacutelociteacute et vecteur eacutenergie Le vecteur veacutelociteacute est un indice de la direction apparente drsquoune source introduit

par Gerzon [Gerzon 1992] Il se calcule comme le rapport de la vitesse particulaire sur la pression acoustique

)()(

)()(1

δθδθ

δθδθ

ρ rprp

ki

rprv

cV nabla

minus=minus=rrr

(B1)

Dans le cas drsquoune onde plane le vecteur veacutelociteacute V

rest ainsi directement un

vecteur unitaire orienteacute vers la direction de provenance de lrsquoonde En geacuteneacuteralisant agrave une superposition drsquoondes planes en phase ou opposition de phase eacutemises par L haut-parleurs agrave eacutequidistance du point drsquoobservation on obtient la formule suivante

VVL

ll

L

lll

urg

ugV r

rr

==

sum

sum

=

=

1

1 (B2)

ougrave deacutesigne la direction du llur egraveme haut-parleur auquel est associeacute le gain gl et Vr Vur correspondent respectivement agrave la norme et agrave la direction du vecteur veacutelociteacute

Le vecteur eacutenergie est un autre indice de direction Il est deacutefinit par

EEL

ll

L

lll

urg

ugE r

rr

==

sum

sum

=

=

1

2

1

2

(B3)

Annexe B Compleacutements theacuteoriques sur le deacutecodage HOA 54

Il peut srsquointerpreacuteter comme une indication de la concentration de lrsquoeacutenergie ( ) et de sa direction moyenne de provenance (

Er

Eur ) On a toujours 1ltEr sauf dans le cas ougrave un seul haut-parleur contribue agrave la reconstruction (dans ce cas ) peut ecirctre consideacutereacute comme un indicateur de preacutecision de la localisation

1=Er Er

B2 Deacutecodages optimiseacutes La restitution la plus confortable drsquoun champ sonore veillera donc agrave maximiser

tout en essayant de garder le plus proche possible de 1 Lrsquooptimisation du deacutecodage consiste alors agrave multiplier chaque coefficient de la matrice de deacutecodage D (voir (111) par des gains calculeacutes drsquoapregraves des critegraveres drsquooptimisation

Er Vr

Ainsi le deacutecodage appeleacute max- maximise la norme du vecteur eacutenergie en

sacrifiant celle du vecteur veacutelociteacute puisqursquoon a dans ce deacutecodage (pour des configurations reacuteguliegraveres de haut-parleurs) Ce deacutecodage est donc avantageux par rapport au deacutecodage basique pour les hautes freacutequences ou dans le cas drsquoun auditoire eacutelargi Le deacutecodage in-phase va encore plus loin en cherchant agrave annuler complegravetement les contributions des haut-parleurs placeacutes agrave lrsquoopposeacute de la direction de provenance de lrsquoonde reproduite Ce critegravere est utile dans le cas drsquoune eacutecoute dans une position tregraves excentreacutee agrave laquelle on pourrait percevoir de faccedilon preacutedominante la contribution en opposition de phase drsquoun tel haut-parleur

Er

EV rr =

Ces diffeacuterents deacutecodages ont chacun des avantages et inconveacutenients Ainsi seul le

deacutecodage basique garantit = 1 le deacutecodage max- permet une preacutecision meilleure notamment en haute freacutequence et le deacutecodage in-phase est plus adapteacute agrave un auditoire plus large Jeacuterocircme Daniel [Daniel 2000] propose ainsi de changer le deacutecodage en fonction de la freacutequence et de lrsquoeacutetendue de la zone drsquoeacutecoute deacutesireacutee

Vr Er

Figure B1 - Deacutecodages les plus approprieacutes par sous-bande et en fonction de lrsquoeacutetendue de la

zone drsquoeacutecoute [Daniel 2000]

55

Annexe C

Analyse en composantes principales

C1 Espace des donneacutees Eacutegalement souvent appeleacutee transformeacutee de Karhunen-Loegraveve5 (TKL) lrsquoanalyse en

composantes principales (ACP) est une technique statistique de repreacutesentation drsquoinformation Introduite sur 2 variables par Pearson [Pearson 1900] elle a eacuteteacute eacutetendue par Hotelling [Hotelling 1933] Elle a pour but de caracteacuteriser des donneacutees drsquoun espace agrave N dimensions dans un sous-espace plus petit en minimisant les pertes drsquoinformation due agrave la projection crsquoest-agrave-dire en maximisant la variance projeteacutee Les donneacutees ainsi reacuteorganiseacutees deviennent indeacutependantes Les variables correacuteleacutees sont remplaceacutees par de nouvelles variables deacutecorreacuteleacutees et de variance maximale combinaisons lineacuteaires des variables initiales

Les donneacutees sont constitueacutees de n variables aleacuteatoires (dans notre cas des canaux)

et p reacutealisations ou individus (des eacutechantillons)

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

pn

p

ji

n

xx

x

xx

M

LLL

MOMNM

MLLM

MNMOM

LLL

1

111

(C1)

Ces donneacutees sont geacuteneacuteralement centreacutees et peuvent aussi ecirctre reacuteduites4 (on note

1x la moyenne de la variable et 1x )( 1xσ sa variance) Reacuteduire ou non le nuage de points (ie les p reacutealisations de la variable aleacuteatoire) est un choix de modegravele

5 Quelques rares sources mentionnent une diffeacuterence entre ACP et TKL en placcedilant celle-ci au

niveau du choix de la reacuteduction des donneacutees dans le cas dune ACP les donneacutees seraient centreacutees et reacuteduites alors qursquoelles seraient uniquement centreacutees pour une TKL

Annexe C Analyse en composantes principales 56

- si on ne reacuteduit pas le nuage une variable agrave forte variance pourrait tirer tout lrsquoeffet de lrsquoACP agrave elle

- si on reacuteduit le nuage une variable qui ne serait qursquoun bruit se retrouverait avec une variance apparente eacutegale agrave une variable informative

M est centreacutee

⎥⎥⎥

⎢⎢⎢

minusminusminus

minusminus=

npn

pi

ji

nn

xxxxxx

xxxxM

K

MM

K

11

11

11

ˆ (C2)

M~ est centreacutee et reacuteduite

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

minusminus

minus

minusminus

=

)()(

)(

)()(~

1

11

1

1

111

n

npn

pi

ij

i

n

nn

xxx

xxx

xxx

xxx

xxx

M

σσ

σ

σσ

K

MM

K

(C3)

On multiplie ensuite la matrice obtenue par sa transposeacutee pour obtenir - La matrice de covariance MMC t

vˆˆ sdot=

- La matrice de correacutelation MMC tr

~~ sdot= Ces matrices sont carreacutees (N x N) symeacutetriques et reacuteelles Elles sont donc

diagonalisables dans une base orthonormeacutee 6 Le principe de lrsquoACP est alors de trouver un axe u issu drsquoune combinaison lineacuteaire

des tel que le critegravere drsquoinertie du nuage autour de cet axe soit maximal Le critegravere drsquoinertie couramment utiliseacute est la variance Il faut donc trouver lrsquoaxe qui porte le maximum de variance crsquoest-agrave-dire lrsquoaxe u tel que la projection du nuage sur cet axe ait une variance maximale

nx

6 Nos donneacutees eacutetant ici des valeurs drsquoeacutechantillons elles sont par nature centreacutees et reacuteduites On

formera donc naturellement la matrice de correacutelation

C2 Diagonalisation 57

C2 Diagonalisation Pour alleacuteger lrsquoeacutecriture de la suite de cette partie nous consideacutererons que les

variables ont eacuteteacute centreacutees et si besoin reacuteduites et nous noterons ces variables

transformeacutees (ainsi

ix ix

iii xxx minuslarr ou bien )( i

iii x

xxxσ

minuslarr ) On fera de mecircme pour M

( ou bien MM ˆlarr MM ~larr ) et C ( vCC larr ou bien rCC larr ) La projection drsquoun eacutechantillon sur un axe u srsquoeacutecrit ix

uMxiu sdot=)(π (C4) La variance empirique de )( iu xπ vaut donc

uMMuxx ttiu

tiu sdotsdotsdot=sdot )()( ππ (C5)

Or on a vu que est diagonalisable dans une base orthonormeacutee donc

on peut noter P le changement de base associeacute et ∆ la matrice diagonale formeacutee de son spectre Ainsi

MMC t=

n

i 1)(λ PPMMC tt ∆==

)()()()( PuPuuPPuxx ttt

iut

iu sdot∆sdot=sdot∆sdot=sdotππ (C6) On pose v = Pu Chercher lrsquoaxe u qui maximise )( iu xπ revient donc agrave chercher le

vecteur v qui maximise ougravevvt ∆ )( 1 ndiag λλ K=∆ avec les iλ rangeacutes par ordre deacutecroissant Ce vecteur est trivialement le premier vecteur unitaire et on a alors

1λ=∆vvt

Ainsi le vecteur qui porte la plus grande part drsquoinertie du nuage est le premier

vecteur propre de C (premier par norme deacutecroissante) De mecircme le deuxiegraveme vecteur qui explique la plus grandelt part de lrsquoinertie restante est le deuxiegraveme vecteur propre de C Finalement la question de lrsquoACP se ramegravene agrave un problegraveme de diagonalisation de la matrice de correacutelation

C3 Code Matlab

function [vep vap] = pca(f N) f donneacutees N nombre de composantes agrave garder cor = f f formation de la matrice de correacutelation [vep vap] = eig(cor) calcul des vecteurs (vep) et valeurs (vap) propres [vap ind] = sort(diag(vap)) tri des valeurs propres par ordre croissant vap = flipud(vap) disposition inverse par ordre drsquoimportance vep = vep( flipud(ind)) classement en conseacutequence des vecteurs propres vep = vep( 1N) on ne garde que les N premiers vecteurs propres

Annexe C Analyse en composantes principales 58

59

Annexe D

Analyse en sous-bandes

D1 La transformeacutee de Fourier agrave court terme (TFCT) Pour affiner lrsquoanalyse les signaux sont donc deacutecoupeacutes en bandes de freacutequence par

TFCT La TFCT consiste agrave effectuer des transformeacutees de Fourier discregravetes sur des portions de signal fenecirctreacutees reacuteguliegraverement espaceacutees

On rappelle que la transformeacutee de Fourier drsquoun signal x(t) est deacutefinie (lorsque

lrsquointeacutegrale existe) par

int+infin

infinminus

minus= dtetxfX ftiπ2)()( (D1)

La transformeacutee de Fourier agrave temps discret (TFTD) drsquoun signal x(t) srsquoeacutecrit

sum+infin

minusinfin=

minus=n

fnienxfX π2)()( (D2)

La transformeacutee de Fourier discregravete (TFD) drsquoun signal discret x(k) est deacutefinie par

sum+infin

minusinfin=

minus=

n

Nkni

enxkXπ2

)()( (D3)

La TFCT discregravete est une TFD observeacutee sur une fenecirctre wa de taille N

summinus

=

minus+=

1

0

2)())(()(

N

n

Nnki

aaa enwtnxkXπ

ττ (D4)

ougrave )(taτ est lrsquoinstant drsquoanalyse

Annexe D Analyse en sous-bandes 60

Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT [Laroche 1995]

D2 Synthegravese par addition-recouvrement Lors de la synthegravese apregraves le deacutecoupage et lrsquoanalyse des fenecirctres on cherche agrave

reconstruire le signal temporel agrave partir de sa repreacutesentation freacutequentielle Pour cela on utilise la meacutethode OLA (overlap and add addition-recouvrement) qui consiste agrave prendre la TFCT inverse des spectres Xt puis agrave additionner les signaux obtenus apregraves les avoir multiplieacutes par une fenecirctre de pondeacuteration en les faisant se recouvrir partiellement

Le reacutesultat est donneacute par

sum=

minusminus=T

tsss tnxtnwnx

s1

))((~))(()(~ ττ τ (D5)

avec )()( tt as ττ = et summinus

=

=1

0

2))((~1)(~ N

k

Nkni

s ektXN

nxs

π

τ τ

Lors de la mise en œuvre de ce traitement il faut srsquoassurer drsquoecirctre en mesure de

reconstruire parfaitement un signal lorsqursquoaucune transformation ne lui est appliqueacutee Le critegravere de reconstruction parfaite condition suffisante est alors

sum=

=minusminusT

tasaa tnwtnw

11))(())(( ττ quelque soit n (D6)

D2 Synthegravese par addition-recouvrement 61

Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add [Laroche 1995]

Plusieurs paramegravetres sont agrave choisir avec soin Le premier drsquoentre eux est le type

de fenecirctre agrave utiliser Les diffeacuterentes options qui se preacutesentent agrave nous sont - la fenecirctre rectangulaire qui preacutesente dans son spectre le lobe principal le plus

eacutetroit mais des lobes secondaires non neacutegligeables - la fenecirctre de Hamming au lobe principal un peu plus large mais pour laquelle le

1er lobe secondaire se situe agrave -43 dB - la fenecirctre de Hann (ou cosinus sureacuteleveacute) qui ressemble agrave la preacuteceacutedente avec un

1er lobe secondaire plus fort mais une pente de 18 dB par octave pour les lobes suivants

- les fenecirctres de Blackman-Harris aux lobes secondaires tregraves bas mais au lobe principal plus large

Fenecirctre Lobe 2aire

(dB) Pente

(dBoct) Bande passante

agrave 6 dB (bins) Rectangulaire -13 -6 121 Triangulaire -27 -12 178

Hann -32 -18 200 Hamming -43 -6 181

Blackman-Harris 4 -92 -6 272

Tableau D1 - Caracteacuteristiques des principales fenecirctres drsquoanalyse [Harris 1978] Le meilleur compromis est donc dans notre contexte la fenecirctre de Hann ou celle

de Hamming

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 23: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

23 Meacutethodologie 17

chevauchant Enfin ces sons ont eacuteteacute rendus mobiles en faisant varier leur position dans le temps

Nous avons pu ainsi constater agrave lrsquoaide des sons fixes et de supports freacutequentiels

distincts la preacutecision de lrsquoanalyse et avec les sons mobiles et mecircleacutes sa robustesse Nous nous sommes limiteacutes sous Matlab agrave la geacuteneacuteration de 2 sons simultaneacutes et du 1er ordre et un autre outil Plogue Bidule a eacuteteacute utiliseacute pour composer des scegravenes plus complexes

Bidule est un studio modulaire virtuel ressemblant agrave MAXMSP Des plugins ont

eacuteteacute deacuteveloppeacutes agrave France Teacuteleacutecom pour permettre de manipuler des signaux HOA Ainsi des scegravenes complexes ont pu facilement ecirctre syntheacutetiseacutees agrave des ordres eacuteleveacutes Des scegravenes agrave 3 et 4 sources fixes ou dont 1 source mobile ont eacuteteacute reacutealiseacutees agrave partir de voix deacutemixeacutees placeacutees dans le plan horizontal ou en 3 dimensions

Ces scegravenes eacutetant artificielles elles sont en un sens ideacuteales ne contiennent aucun

signal reacuteverbeacutereacute (effet de salle) ni diffracteacute (par un micro) lrsquoencodage est fait sans artefacts les ondes sont consideacutereacutees comme planes et ont donc une direction bien deacutefinie Si on est ici bien loin de la vraie vie le gros avantage des scegravenes artificielles est qursquoon connaicirct preacuteciseacutement agrave chaque instant la position des sources et qursquoon peut ainsi veacuterifier le reacutesultat de lrsquoanalyse

Figure 24 - Interface graphique du logiciel Bidule avec agrave droite les controcircles des encodeurs

et deacutecodeurs HOA creacuteeacutes agrave France Teacuteleacutecom

Chapitre 2 Analyser un contenu HOA 18

232 Exploitation drsquoenregistrements naturels Une fois des reacutesultats convaincants obtenus avec des scegravenes virtuelles des

enregistrements naturels ont eacuteteacute analyseacutes Ces scegravenes ont eacuteteacute enregistreacutees gracircce au prototype de micro HOA du 4egraveme ordre deacuteveloppeacute agrave France Teacuteleacutecom (voir Figure 12) Ce processus implique des diffeacuterences notables avec un encodage virtuel

Le prototype de microphone contraint en effet agrave quelques compromis pour

optimiser des critegraveres incompatibles La taille du microphone reacutesulte drsquoun compromis entre la preacutecision drsquoestimation des composantes en basses freacutequences qui neacutecessite une taille eacuteleveacutee et la minimisation de lrsquoaliasing spatial qui ne peut ecirctre eacuteviteacute qursquoavec des capsules tregraves proches les unes des autres Leur disposition est eacutegalement irreacuteguliegravere il nrsquoexiste en fait aucune faccedilon de disposer reacuteguliegraverement plus de 20 points sur une sphegravere La configuration qui avait eacuteteacute retenue par les concepteurs [Moreau 2006] est la ldquomoins irreacuteguliegravere possiblerdquo au sens de la preacuteservation de lrsquoorthonormaliteacute des harmoniques spheacuteriques les 32 capsules sont reacuteparties sur une sphegravere de 35 cm de rayon selon un Pentaki-dodeacutecahegravedre polyegravedre semi-reacutegulier dual de lrsquoicosaegravedre tronqueacute (ballon de football)

Ces artefacts sont donc inheacuterents agrave lrsquoutilisation drsquoun reacuteseau de microphones Mais

le monde reacuteel pose eacutegalement des problegravemes deacutelicats La complexiteacute des modes de rayonnement drsquointeraction avec lrsquoenvironnement reacuteclame lrsquointroduction de modegraveles drsquoencodage beaucoup plus complexes que le cas drsquoune onde plane en champ libre et rend lrsquoinformation spatiale moins limpide et univoque au sein de la scegravene encodeacutee (enregistreacutee) en comparaison avec une scegravene virtuelle Les sources ne sont ainsi plus ponctuelles mais eacutetendues elles ne sont plus agrave lrsquoinfini mais agrave une distance finie du microphone (les ondes reccedilues ne sont donc plus planes) En outre chaque source en se reacutefleacutechissant sur les parois et les diffeacuterents objets de la salle creacutee une multitude de sources secondaires Il est enfin souvent difficile de connaicirctre avec preacutecision la position drsquoune source dans lrsquoespace lors drsquoun enregistrement

Des enregistrements en chambre sourde ont eacuteteacute reacutealiseacutes pour se passer des

reacuteflexions de lrsquoenvironnement Afin de connaicirctre avec preacutecision la position de la source un haut-parleur diffusant un bruit blanc nous avons placeacute le microphone sur une table tournante commandeacutee par un plug-in sous Plogue Bidule

233 Visualisations des reacutesultats Lrsquoobservation des reacutesultats a eacuteteacute effectueacutee de plusieurs maniegraveres visuellement et

par lrsquoeacutecoute Les graphiques eacutetant plus commodes crsquoest par cette voie que les premiers essais eacutetaient conclus Plusieurs types de graphiques ont eacuteteacute produits deacutecrivant des paramegravetres diffeacuterents

Les repreacutesentations temps-freacutequence permettent de repreacutesenter une variable agrave 1

dimension sous Matlab Cette voie a eacuteteacute suivie pour visualiser les paramegravetres extraits de chaque sous-bande de chaque fenecirctre notamment les angles lrsquoeacutenergie et la pertinence Malheureusement Matlab ne permet pas de repreacutesenter sur le mecircme graphique une 4egraveme dimension sous la forme drsquoune 2egraveme dimension colorimeacutetrique (on prend geacuteneacuteralement la

23 Meacutethodologie 19

saturation) Cette dimension suppleacutementaire aurait permis de repreacutesenter simultaneacutement les angles et leur pertinence

Figure 25 - Repreacutesentation

et de lrsquoespace col

Pour repreacutesenter s

drsquoabandonner une dimensipouvoir repreacutesenter danrepreacutesenteacutees soit par le niv

Figure 26 - Repreacutesentationdeacutecrite en 332 (en absciss

est repreacutesenteacutee agrave gauc

234 Diffeacuterents modes La visualisation est

indispensable pour veacuterifiesont possibles de ceux-cainsi reconstitueacutee agrave partir d

1 W+Y+02X pour le c

π 0 minusπ

de la table des couleurs dite HSV de Matlab (lineacuteaire agrave gauche) orimeacutetrique HSL (Hue Saturation Luminance agrave droite)

imultaneacutement angles et pertinence il eacutetait donc neacutecessaire on Crsquoest le deacutecoupage freacutequentiel qui a eacuteteacute mis de cocircteacute pour s un plan temps-angles les pertinences Celles-ci sont eau de gris des points soit par leur taille

de la pertinence des angles de la scegravene agrave 4 sources dont 1 mobile e les trames en ordonneacutees les angles en degreacute) La pertinence he par lrsquointensiteacute du bleu et agrave droite par la taille des points

drsquoeacutecoute

un indice preacutecis de reacutesultat mais lrsquoeacutecoute est tout de mecircme r la qualiteacute globale de la synthegravese Plusieurs modes drsquoeacutecoute i lrsquoeacutecoute au casque est la plus aiseacutee Une pseudo-steacutereacuteo est es signaux du 1er ordre1 pour restituer les scegravenes restreintes au

anal gauche et W-Y+02X pour le canal droit

Chapitre 2 Analyser un contenu HOA 20

plan horizontal Pour plus de preacutecision agrave la restitution ou pour des scegravenes en 3D et sans perdre la faciliteacute drsquoune eacutecoute personnelle au casque on peut appliquer des filtres HRTF (Head-Related Transfert Function) pour une reproduction binaurale

Pour appreacutecier pleinement la spatialisation la diffusion sur un systegraveme multi

haut-parleurs est indispensable Deux systegravemes sont installeacutes dans le laboratoire de France Teacuteleacutecom un systegraveme 51 et un systegraveme circulaire de 48 haut-parleurs Ces systegravemes installeacutes dans des studios insonoriseacutes offrent une grande qualiteacute drsquoeacutecoute qui permet de repeacuterer les deacutefauts mecircme minimes de la synthegravese

21

Chapitre 3

Description des analyses

31 Deacutetermination des directions principales

311 Base des algorithmes Nous avons deacuteveloppeacute plusieurs algorithmes reacutepondant aux diffeacuterents objectifs

deacutecrits plus haut Chacun drsquoeux possegravede des particulariteacutes leur permettant de reacutepondre agrave ces objectifs mais on trouve neacuteanmoins une partie commune Ainsi toutes les analyses reposent sur le mecircme modegravele drsquoapplication drsquoune ACP par sous-bandes dont voici le scheacutema geacuteneacuteral

Figure 31 - Scheacutema geacuteneacuteral drsquoanalyse

Les signaux en entreacutee sont les composantes HOA W X et Y dans la plupart des

cas mais peuvent ecirctre eacutegalement des composantes drsquoordre plus eacuteleveacute (voir 11) Sur le fenecirctrage jouent plusieurs paramegravetres comme la taille de la fenecirctre ou encore le pourcentage de recouvrement entre elles Nous avons choisi une fenecirctre en racine de la fenecirctre de Hanning crsquoest-agrave-dire une arche de sinusoiumlde (voir eacutequation (D7) en Annexe D) avec un recouvrement de 50 ce qui veacuterifie le critegravere de reconstruction parfaite (D6) Le filtrage est pour des raisons de rapiditeacute de calcul reacutealiseacute dans le domaine freacutequentiel par une simple multiplication avant de repasser en temporel pour appliquer lrsquoACP

Le banc de filtre utiliseacute est un banc inspireacute des filtres ERB Les filtres ERB

(Equivalent Regular Bandwidth) sont des filtres imitant le comportement de seacuteparation freacutequentielle de lrsquooreille humaine plus preacutecise en basse freacutequence Les filtres utiliseacutes ici ne sont pas directement des filtres ERB le systegraveme nrsquoa pas drsquointeacuterecirct particulier agrave essayer de copier le fonctionnement de lrsquooreille humaine Ces filtres ont eacuteteacute adapteacutes au problegraveme en

Chapitre 3 Description des analyses 22

srsquoassurant en particulier de la finesse des bandes permettant la meilleure discrimination des diffeacuterentes sources crsquoest-agrave-dire autour des fondamentales usuelles (200-1000 Hz) et des harmoniques Les freacutequences aigueumls sont bien discrimineacutees par les filtres ERB (relativement agrave la gamme crsquoest-agrave-dire en eacutechelle logarithmique) le deacutecoupage a donc surtout eacuteteacute densifieacute entre 200 et 800 Hz par rapport aux bandes ERB

Figure 32 - Filtres utiliseacutes inspireacutes des filtres ERB repreacutesenteacutes lineacuteairement (en haut)

et sur une eacutechelle logarithmique (en bas) Les reacutesultats de lrsquoACP sont donc avec cette meacutethode les angles des sources

trouveacutees dans chaque sous-bande ainsi que pour chacun drsquoeux un critegravere de pertinence calculeacute en fonction de lrsquoeacutenergie de la sous-bande dans une fenecirctre donneacutee et de la norme relative de la premiegravere composante de lrsquoACP (voir 342) Les autres vecteurs propres peuvent ecirctre utiliseacutes pour extraire davantage drsquoinformations et mecircme des signaux deacutecorreacuteleacutes comme on le verra au paragraphe 35 mais lrsquoanalyse semble alors moins robuste Srsquoen tenir aux informations donneacutees par la composante principale est un gage de pertinence suppleacutementaire

Ces reacutesultats concernent donc les sources preacutedominantes ou principales mais

laissent de cocircteacute un certain nombre drsquoeacuteveacutenements sonores agrave consideacuterer

312 Traitement du champ reacutesiduel Le champ reacutesiduel regroupe en quelque sorte tout ce qui nrsquoest pas une source

principale Il inclut donc les reacuteflexions et la reacuteverbeacuteration de la piegravece mais aussi les bruits parasites occasionnels ou continus (ventilation etc) Ces bruits ou eacutechos nrsquoont pas de direction de provenance assez distincte pour pouvoir ecirctre mesureacutee preacuteciseacutement Le champ reacutesiduel est eacutegalement composeacute du champ diffus La notion de champ diffus est couramment utiliseacutee mais rarement preacuteciseacutement deacutefinie On trouve dans la litteacuterature des deacutefinitions diverses lrsquoune drsquoelles preacutecisant qursquoil serait un ensemble drsquoeacuteveacutenements sonores proches en temps et provenant de directions eacutequiprobables

Les algorithmes proposeacutes traitent correctement les sources principales mais le

champ reacutesiduel est laisseacute de cocircteacute Il est pourtant tregraves important pour lrsquoimmersion du sujet dans la scegravene une scegravene deacutepourvue de champ sonore sera perccedilue comme artificielle ce qui nuit agrave la perception drsquoespace On sera par exemple davantage conscients drsquoecirctre au centre drsquoun dispositif expeacuterimental et moins sensibles aux variations de profondeur et de perspectives

31 Deacutetermination des directions principales 23

Neacuteanmoins il faut relativiser lrsquoimportance de ce champ reacutesiduel il nrsquoest pas utile pour la localisation des sources principales et ne caracteacuterise que lrsquoenvironnement drsquoenregistrement En outre le champ reacutesiduel qui provient souvent de directions floues et notre but nrsquoest pas de les preacuteciser artificiellement Il nrsquoest degraves lors geacuteneacuteralement pas utile de le transmettre aux ordres eacuteleveacutes

Ainsi certains auteurs [Merimaa and Pulkki 2005] ont choisi de recreacuteer lors drsquoune

synthegravese un champ diffus artificiel baseacute sur une reacuteponse impulsionnelle de salle calculeacutee agrave lrsquoavance Lrsquoavantage est une immersion un enveloppement complets lrsquoinconveacutenient est que lrsquoambiance ainsi recreacuteeacutee est fictive et arbitraire et en outre complegravetement indeacutependante de lrsquoambiance initiale en laissant notamment de cocircteacute les sources secondaires

Nous proposons dans nos algorithmes de ne pas syntheacutetiser le champ diffus aux

ordres eacuteleveacutes mais de nous contenter de la description du champ reacutesiduel fourni par les ordres transmis (1er ordre dans nos exemples) Nous nous limiterons donc agrave preacuteciser par la synthegravese des ordres supeacuterieurs les positions des sources principales

32 Extension agrave la 3D Nous avons pour le moment eacutevoqueacute le cas de repreacutesentations de champ sonore agrave

2 dimensions crsquoest-agrave-dire issus de sources placeacutees dans le plan horizontal Mais certaines repreacutesentations comportent eacutegalement des composantes verticales Pour analyser ces signaux en 3 dimensions il faut inteacutegrer la composante Z On effectue alors simplement une ACP sur X Y Z et W Le 1er vecteur propre sera alors bien dirigeacute dans lrsquoespace (X Y Z) dans la direction de la source lrsquoambiguiumlteacute de frac12 espace eacutetant leveacutee par W

Lrsquoalgorithme est alors complegravetement similaire agrave celui analysant des signaux en 2

dimensions Des tests ont eacuteteacute reacutealiseacutes agrave partir de signaux syntheacutetiques pour lesquels les positions des sources eacutetaient connues pour des raisons pratiques aucune scegravene sonore reacuteelle en 3 dimensions nrsquoa pu ecirctre enregistreacutee avec une connaissance initiale preacutecise des positions des sources

Les visualisations et les eacutecoutes eacutetant plus deacutelicates en 3D et lrsquoextension agrave la 3D

eacutetant immeacutediate nous avons donc concentreacute nos efforts sur lrsquoanalyse de scegravenes en 2D En outre en lrsquoabsence de dispositif spheacuterique ou heacutemispheacuterique de haut-parleurs le seul moyen agrave notre disposition pour eacutecouter une scegravene 3D est lrsquoeacutecoute binaurale crsquoest-agrave-dire au casque avec des fonctions de transfert de tecircte (HRTF) relativement bien adapteacutees agrave lrsquoauditeur

33 Analyse aux ordres supeacuterieurs

331 Description Afin drsquoameacuteliorer la preacutecision de lrsquoanalyse nous avons essayeacute drsquoappliquer une ACP

sur des signaux ambisoniques drsquoordre plus eacuteleveacute (signaux HOA) dans le plan horizontal Deux meacutethodes ont eacuteteacute essayeacutees

Chapitre 3 Description des analyses 24

La premiegravere consiste agrave appliquer une ACP agrave 3 dimensions successivement sur les composantes X Y W (ordre 1 et 0) puis U V W (ordre 2 et 0) et ainsi de suite crsquoest-agrave-dire (en utilisant la notation geacuteneacuterale) sur les composantes et W (ordre m et 0) Les reacutesultats de ces analyses (les directions des 1

)1(0mY )1(

0minus

mYegraveres composantes) sont ensuite regroupeacutees

lrsquoanalyse de lrsquoordre 1 fournissant des reacutesultats modulo 2π lrsquoanalyse de lrsquoordre 2 des reacutesultats plus preacutecis mais modulo π et plus geacuteneacuteralement lrsquoanalyse de lrsquoordre m permettant de trouver des angles modulo mπ2

La limite de cette approche se perccediloit lors de la fusion des reacutesultats les angles

trouveacutes agrave un ordre eacuteleveacute sont plus preacutecis dans des bandes de freacutequences eacuteleveacutees mais la limitation theacuteorique de ces signaux HOA dans les basses freacutequences font que lrsquoanalyse de lrsquoordre 1 reste la plus pertinente dans les premiegraveres bandes Parvenir agrave deacuteterminer agrave partir de quelle freacutequence on peut faire davantage confiance agrave lrsquoordre n+1 qursquoagrave lrsquoordre n nrsquoest pas aiseacute et cette limite provoque des aberrations dans les angles trouveacutes Une source unique pourra par exemple ecirctre interpreacuteteacutee par lrsquoalgorithme des k-moyennes (voir 341) comme 2 sources une en hautes freacutequences et une en basses freacutequences les 2 eacutetant trouveacutes agrave 2 angles diffeacuterents chaque angle relevant drsquoun ordre analyseacute diffeacuterent

La deuxiegraveme meacutethode consiste pour eacuteviter cette fusion des reacutesultats agrave effectuer

une seule ACP sur les composantes U V X Y et W Cette meacutethode souffre drsquoune tregraves grande complexiteacute algorithmique pour une ameacutelioration de la preacutecision peu sensible En effet si cette meacutethode permet drsquoobtenir des reacutesultats plus preacutecis dans certaines bandes de freacutequences elle est sensible aux deacutefauts et les limites des ordres supeacuterieurs (lrsquoabsence de basses freacutequences entre autres) perturbent lrsquoanalyse en composantes principales

332 Illustration sur une scegravene virtuelle La scegravene preacutesenteacutee ici est une scegravene artificielle crsquoest-agrave-dire composeacutee de sons

placeacutes artificiellement agrave diverses positions Elle a une dureacutee totale de 135 s et comporte 4 sources positionneacutees dans le plan horizontal une guitare placeacutee agrave 45deg une basse agrave -70deg une batterie agrave 110deg et une voix feacuteminine qui effectue continucircment un tour complet dans le sens indirect en partant de lrsquoarriegravere (elle passe donc successivement par les positions 180deg 90deg 0deg -90deg et -180deg) La guitare et la batterie srsquoarrecirctent peu avant la fin de la scegravene (12egraveme seconde au 910egraveme du son approximativement)

Figure 33 - Position des sources de la scegravene de test agrave 4 sources dont 1 mobile

33 Analyse aux ordres supeacuterieurs 25

Figure 34 - Angles drsquoune scegravene virtuelle ayant 1 source mobile et 3 sources fixes

(deacutecrite en 332) trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 Pour chaque trame (en abscisse) 20 angles (1 par bande en ordonneacutee et en degreacutes) sont

reporteacutes le diamegravetre du point correspondant agrave un critegravere de pertinence (voir 342)

Figure 35 - Angles de la mecircme scegravene trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 2 Reacutesultats modulo π reacutepliqueacutes pour faciliter la comparaison avec la figure preacuteceacutedente On remarque que les lignes sont plus nettes qursquoil y a moins drsquoangles aberrants et que

les angles corrects sont plus marqueacutes (ils sont deacutetermineacutes comme plus pertinent)

Chapitre 3 Description des analyses 26

20

0

20

0

20

0

Figure 36 - Angles drsquoune scegravene reacuteelle constitueacutee drsquoun bruit parcourant le cercle trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 (en haut) 0 et 2 (au milieu) et 0 et 4 (en bas) Le

numeacutero de trame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On retrouve qursquoune limitation des ordres HOA supeacuterieurs issus drsquoun enregistrement

microphonique est la restitution des basses freacutequences

34 Traitement des donneacutees

341 Algorithme des k-moyennes Agrave lrsquoissue de lrsquoanalyse en composantes principales on reacutecupegravere avec la premiegravere

des meacutethodes exposeacutees au chapitre preacuteceacutedent des angles correspondants aux positions des sources preacutedominantes agrave raison drsquoune valeur par fenecirctre et par bande de freacutequence Il faut agrave partir de ces donneacutees parvenir agrave isoler les sources crsquoest-agrave-dire agrave deacuteterminer quels sont les angles pertinents et examiner quels sont ceux qui agrave une certaine toleacuterance pregraves sont preacutesents dans plusieurs bandes de freacutequence etou plusieurs fenecirctres temporelles

Pour pouvoir exploiter ces donneacutees spatiales nous avons utiliseacute lrsquoalgorithme des

k-moyennes (ou k-means) [MacQueen 1967] sur les angles pondeacutereacutes par des critegraveres de pertinence Cet algorithme fonctionne de la maniegravere suivante

Initialisation choix de k barycentres (les k moyennes) Reacutepeacuteter Associer chaque eacuteleacutement au barycentre le plus proche Recalculer les positions des barycentres Jusqursquoagrave ce que les barycentres soient stables (ou au bout de t iteacuterations)

34 Traitement des donneacutees 27

Lrsquoavantage de cet algorithme est drsquoecirctre peu glouton puisqursquoil converge en O(tkn) ougrave t est le nombre drsquoiteacuterations k le nombre de centres et n le nombre de points (geacuteneacuteralement on a t k ltlt n) Par contre il est plutocirct sensible aux exceptions un point aberrant tirera agrave lui la moyenne auquel il aura eacuteteacute associeacute Il faut donc faire en sorte que ces points erroneacutes soient aussi rares que possibles Crsquoest pourquoi les angles traiteacutes sont pondeacutereacutes par 2 critegraveres de pertinence

La pondeacuteration des angles fournis en entreacutee de lrsquoalgorithme des k-moyennes se

fait de maniegravere simple en reacutepeacutetant ces angles un nombre de fois (de 0 agrave 10) proportionnel agrave un critegravere Ainsi un angle tregraves pertinent sera dupliqueacute et sera preacutesent plusieurs fois dans la liste des donneacutees traiteacutees attirant ainsi agrave lui la position du barycentre le plus proche Au contraire un angle trop peu pertinent ne sera pas reacutepeacuteteacute voir mecircme sera enleveacute de la liste

Le seul problegraveme de cet algorithme est qursquoil neacutecessite la connaissance de k crsquoest-

agrave-dire du nombre de sources qui composent la scegravene Une deacutetermination automatique se basant sur la reacutepeacutetition de lrsquoalgorithme avec un k croissant a eacuteteacute testeacutee mais le critegravere drsquoarrecirct reposant sur la dispersion des points autour des barycentres nrsquoeacutetant pas assez robuste cette meacutethode a provisoirement eacuteteacute mise de cocircteacute

342 Critegraveres de pertinence Les 2 critegraveres de pondeacuteration choisis sont lrsquoeacutenergie de la sous-bande dans la

fenecirctre donneacutee et le rapport de la norme de la 1egravere composante (la composante principale) de lrsquoACP sur la somme des normes de toutes les composantes

En effet un angle est trouveacute dans chaque sous-bande de chaque fenecirctre mecircme si

le signal y est tregraves faible Lrsquoangle trouveacute sera alors tregraves peu repreacutesentatif de la direction drsquoune source puisqursquoil indiquera la direction drsquoun bruit Lrsquoeacutenergie doit donc ecirctre prise en compte pour ne conserver que les angles trouveacutes dans des bandes comportant un signal suffisant

La norme relative de la 1egravere composante de lrsquoACP rend quant agrave elle compte du

poids relatif de cette composante par rapport aux autres Ainsi si 2 sources sont preacutesentes dans une bande donneacutee la 1egravere composante sera agrave peine plus marqueacutee que la 2egraveme Ceci peut ecirctre calculeacute en prenant simplement le rapport de la 1egravere valeur propre sur la somme des valeurs propres

On peut noter que la norme de la 1egravere composante ne se deacutetache nettement que

lorsqursquoun son est preacutesent dans la bande consideacutereacutee On peut alors se demander si lrsquoeacutenergie doit ecirctre prise en compte ou si lrsquoinformation qursquoelle contient nrsquoest comprise dans le 2egraveme critegravere En fait la norme relative est un critegravere tregraves bruiteacute et consideacuterer lrsquoeacutenergie par ailleurs permet de nuancer ces artefacts et constitue une base solide de pondeacuteration

Chapitre 3 Description des analyses 28

80

40

0

Figure 37 - Repreacutesentation temps-freacutequence des angles du son deacutecrit en 332 Letrame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On peut donc v

par trame et par bande chacun eacutetant le reacutesultat drsquoune ACP crsquoest-agrave-dire la 1egravere

Figure 38 - Eacutenergie de ce mecircme son On peut voir une basse en notes tenues uneet une batterie qui produit des sons secs dans un spectre plus aigu

80

40

0

80

40

0

Figure 39 - Norme relative de la 1egravere composante de ce mecircme son Les impacts de batterie (dans lrsquoaigu) ressortent davantage

π 0 minusπ

numeacutero de oir un angle direction

voix aiguumle

34 Traitement des donneacutees 29

Figure 310 - Pondeacuteration appliqueacutee agrave lrsquoentreacutee des k-moyennes calculeacutee ici comme

le simple produit de lrsquoeacutenergie et de la norme relative

80

40

0

343 Lissages

Pour faire face au bruit ineacutevitable dans les reacutesultats il faut lisser les donneacutees Ces

lissages temporels correspondent agrave des hypothegraveses de stabiliteacute des sources qui sont supposeacutees ecirctre fixes ou mobiles relativement lentement (dans une mesure agrave parameacutetrer)

Un premier lissage peut ecirctre opeacutereacute avant le traitement par lrsquoalgorithme des k-

moyennes Le filtre choisi est un filtre meacutedian de maniegravere agrave eacuteliminer les points aberrants tout en conservant les vraies valeurs des points coheacuterents Ce lissage est appliqueacute sur chaque sous-bande aux angles et ne tient pas compte des critegraveres de pertinence Il est donc utiliseacute avec parcimonie et peut mecircme ecirctre eacuteviteacute en reacuteglant de maniegravere adeacutequate les critegraveres de pondeacuteration agrave lrsquoentreacutee des k-moyennes

Le deuxiegraveme lissage srsquoeffectue agrave lrsquoentreacutee des k-moyennes en mecircme temps que les

critegraveres de pondeacuteration Il consiste agrave appliquer les k-moyennes non pas sur une fenecirctre donneacutee mais sur plusieurs fenecirctres conseacutecutives anteacuterieures et posteacuterieures en donnant plus de poids agrave la fenecirctre courante Dans la pratique les poids donneacutes aux diffeacuterentes fenecirctres sont eacutetablis par une gaussienne centreacutee sur la fenecirctre courante et de largeur agrave deacuteterminer (en fonction notamment de la dureacutee drsquoune fenecirctre et du type de scegravene analyseacute)

35 Exploitation de toutes les composantes de lrsquoACP Les analyses preacutesenteacutees preacuteceacutedemment ont toutes exploiteacute uniquement la

composante principale extraite par lrsquoACP Or cette analyse fournit des informations plus complegravetes par lrsquointermeacutediaire des autres composantes dont on peut tirer parti pour isoler plusieurs sources au sein drsquoune mecircme bande Cette approche est toujours en deacuteveloppement dans ce stage et nrsquoa pas encore donneacute pleine mesure des reacutesultats qursquoelle laisse entrevoir

Les composantes de lrsquoACP indiquent des directions qui correspondent aux

diffeacuterentes sources composant la scegravene sonore Les vecteurs propres de la matrice de correacutelation donnent ainsi les combinaisons lineacuteaires des signaux HOA permettant de

Chapitre 3 Description des analyses 30

seacuteparer de la meilleure faccedilon possible ces sons Ces directions peuvent ecirctre alors utiliseacutees pour former des directiviteacutes isolant au mieux ces sources

aBS sdot= (31)

ougrave la matrice a contient les vecteurs propres de la matrice de correacutelation (voir Annexe C) le vecteur B contient les signaux HOA et le vecteur S contient les sources extraites

⎟⎟⎟

⎜⎜⎜

=⎟⎟⎟

⎜⎜⎜

⎛=

⎥⎥⎥

⎢⎢⎢

⎟⎟⎟

⎜⎜⎜

⎟⎟⎟

⎜⎜⎜

⎛=

10

1001

1

ML

N

B

BB

S

SSuua MML (32)

On obtient ainsi des lobes drsquoautant plus eacutetroits que lrsquoordre est eacuteleveacute chacun

dirigeacute vers une source et permettant de lrsquoisoler le plus possible des contributions des autres sources La Figure 311 preacutesente les directiviteacutes ainsi trouveacutees par une ACP en pleine bande Une analyse en sous-bande permet une plus grande distinction des sources mais une seacuteparation diffeacuterente entre les bandes est dangereuse car elle risque de dissocier spatialement plusieurs parties drsquoun mecircme son

Figure 311 - Directiviteacutes seacuteparant ideacutealement 4 sources placeacutees agrave 17 73 195 et -58deg

pour une scegravene virtuelle encodeacutee agrave lrsquoordre 4 Ce principe se heurte neacuteanmoins aux limites de seacuteparation lieacutees agrave lrsquoordre

drsquoencodage en effet 2 sources ne pourront pas ecirctre seacutepareacutees si elles sont trop proches comme en teacutemoigne la largeur des lobes principaux Les lobes secondaires traduisent eacutegalement un meacutelange des sources isoleacutees La figure ci-dessus montre ainsi que la source placeacutee agrave 17deg (en vert) sera preacutesente de maniegravere non neacutegligeable dans le signal senseacute contenir la source placeacutee agrave -58deg (en bleu) en raison du lobe secondaire bleu important

31

Chapitre 4

Reacutesultats et applications

41 Illustration et critique des reacutesultats obtenus

411 Avant-propos Sans notification particuliegravere les reacutesultats preacutesenteacutes ont eacuteteacute obtenus avec un pas

de 50 ms une analyse en 80 bandes avec une FFT sur 8192 points Une taille de FTT plus grande et un plus grand nombre de bande augmente la qualiteacute de lrsquoanalyse un pas plus petit ameacuteliore sa preacutecision temporelle mais les reacutesultats sont moins fiables et un lissage plus important srsquoimpose alors Ces paramegravetres ont eacuteteacute reacutegleacutes apregraves de multiples essais sur des scegravenes diverses

Les reacutesultats sont preacutesenteacutes ici uniquement sous la forme de graphiques nous ne

pouvons donc repreacutesenter que les angles trouveacutes agrave la sortie de lrsquoalgorithme des k-moyennes

412 Scegravene 2D artificielle agrave 4 sources fixes La premiegravere scegravene est une scegravene artificielle composeacutee de 4 sons fixes placeacutes agrave -70

-10 45 et 110deg Ces sons (une basse une voix une guitare et une batterie) ont eacuteteacute choisis pour leur varieacuteteacute spectrale et leur varieacuteteacute drsquoattaque Elle a en outre le meacuterite drsquoecirctre reacutealiste et de constituer une seacutequence musicale (chaque son nrsquoest pas une meacutelodie indeacutependante)

On voit sur la Figure 41 ci-dessous que les angles trouveacutes sont proches des

angles theacuteoriques Lrsquoun des sons (agrave 45deg) est quasiment nul avant la 100egraveme trame sa position est alors moins facile agrave deacuteterminer plus preacuteciseacutement une position approximative est trouveacutee et correspondrait exactement agrave la position du bruit (45deg) si lrsquoincertitude de mesure tregraves grande pour un son aussi faible ne rendait la deacutetermination si ardue On mesure un eacutecart-type de 22deg sur cet exemple (en excluant le deacutebut du son agrave 45deg)

Chapitre 4 Reacutesultats et applications 32

Figure 41 - Angles theacuteoriques (en pointilleacutes rouge) et calculeacutes (en trait bleu) pour une scegravene

constitueacutee de 4 sons fixes longue de 11s

413 Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile

Figure 42 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) de la scegravene agrave

4 sources dont 1 mobile deacutecrite en 332 Cette scegravene est deacutecrite en 332 On a ici demandeacute aux k-moyennes de renvoyer 5 barycentres par trame alors que

seules 4 sources eacutetaient preacutesentes dans le but de se garantir une marge vis-agrave-vis des erreurs de deacutetection Cette 5egraveme direction nrsquoest pas du tout gecircnante elle indique une direction qui ne contient pas de source et crsquoest donc un son tregraves faible qui est ainsi pointeacute Apregraves une eacuteventuelle extraction le signal ne sera donc pas du tout gecircnant

41 Illustration et critique des reacutesultats obtenus 33

On peut remarquer que quand le son mobile se rapproche drsquoun son fixe la deacutetection est moins bonne il y a une fusion entre les 2 sons Mais encore une fois lors de lrsquoextraction lrsquoisolation drsquoun des sons englobera lrsquoautre son ce qui ne posera pas de problegraveme pour les objectifs fixeacutes aucune source nrsquoeacutetant oublieacutee En effet la seacuteparation de sources nrsquoest pas un objectif ici mais un moyen pour preacuteciser les positions des sources ce qui sera fait correctement mecircme si 2 sources sont pointeacutees par 1 seule direction

414 Scegravene 3D artificielle agrave une source et bruit de fond

La scegravene dont la position drsquoune source a eacuteteacute extraite ci-dessous est une scegravene virtuelle en 3D constitueacute drsquoun son (une voix) qursquoon a fait se deacuteplacer par paliers tout drsquoabord vers le haut de 0deg agrave 45deg et vers la gauche de 0deg agrave 90deg puis redescendre jusqursquoagrave 35deg en continuant son cheminement vers la gauche jusqursquoagrave 120deg et enfin finir la descente de 35deg agrave 0deg en la laissant agrave 120deg Agrave cette source a eacuteteacute superposeacutee une ambiance spatialiseacutee de hall drsquoaeacuteroport initialement enregistreacutee en 2D (au format 51) mais transformeacutee pour contenir des composantes verticales Cette ambiance deacutecorreleacutee de la source avait pour but de tester la robustesse de lrsquoanalyse Elle eacutetait agrave 15 dB en-dessous du niveau de la voix

Figure 43 - Azimut et eacuteleacutevation theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun

son en 3D artificiel de 9s placeacute dans une ambiance bruyante On remarque que lrsquoanalyse est tregraves correcte Il nrsquoy a pas drsquoeacutecart important entre

les angles theacuteoriques et ceux calculeacutes On note toutefois que le lissage agrave lrsquoentreacutee des k-moyennes a pour effet de gommer les creacuteneaux et drsquoaplatir quelque peu la courbe drsquoeacuteleacutevation ceci nrsquoest pas vraiment gecircnant car de tels sauts dans la position drsquoune source ne sont pas du tout reacutealistes (ils peuvent caracteacuteriser des bruits de pas mais de tels impacts sont courts et on peut srsquoattendre agrave ce que la courbe suive leur position aux instants ougrave ils sont eacutemis)

Chapitre 4 Reacutesultats et applications 34

415 Scegravene 2D naturelle agrave une source Les scegravenes naturelles sont on lrsquoa vu plus deacutelicates agrave exploiter car on ne peut pas

garantir la preacutecision de la position theacuteorique agrave retrouver par le calcul et on ne peut donc pas calculer la preacutecision de lrsquoanalyse Seuls les enregistrements utilisant la table tournante (voir 232) permettent une mesure preacutecise de la position de lrsquoangle Ces enregistrements on pu confirmer la validiteacute de lrsquoanalyse pour des scegravenes reacuteelles on trouve ici un eacutecart-type de 25deg

Figure 44 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun bruit blanc

tournant autour du micro enregistreacute en chambre sourde Cette analyse a eacuteteacute reacutealiseacutee par sous-bandes mais sur une eacutetendue freacutequentielle

plus reacuteduite puisqursquoon srsquoest limiteacute aux possibiliteacutes offertes par le microphone La scegravene a donc eacuteteacute analyseacutee de 200 agrave 10 000 Hz

42 Quelques applications

421 Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre 2 agrave partir de lrsquoordre 1

Une fois les positions des sources connues la porte est ouverte agrave de nombreuses

applications La connaissance de ces positions permet en effet de syntheacutetiser artificiellement des composantes manquantes ou non transmises La premiegravere synthegravese deacuteveloppeacutee est celle des signaux U et V composant la partie horizontale de lrsquoordre 2 agrave partir de lrsquoordre 1 et de paramegravetres issus de lrsquoanalyse pour une source en 2D (des angles dans de cas)

42 Quelques applications 35

Figure 45 - Principe de lrsquoameacutelioration de la preacutecision spatiale

Le principe de la synthegravese est drsquoextraire les sources originales agrave partir de W X Y

et des angles (un angle par trame et par sous-bande) Ceci peut ecirctre reacutealiseacute de maniegravere approcheacutee en deacutecodant lrsquoordre 1 dans les directions des sources Ce deacutecodage revient agrave calculer les signaux qui devraient alimenter des haut-parleurs qui seraient placeacutes agrave ces positions dans le cas drsquoune restitution (voir 122) crsquoest-agrave-dire agrave former des directiviteacutes dans les directions des sources Dans la plupart des cas ce deacutecodage qui fait intervenir une pseudo-inversion de Moore-Penrose (111) est imparfait les sources se retrouvant leacutegegraverement meacutelangeacutees On peut comparer cette seacuteparation agrave celle que ferait un ensemble de microphones agrave directiviteacute hypercardioiumlde coiumlncidents

Figure 46 - Directiviteacutes eacutequivalentes agrave la seacuteparation de 4 sources agrave lrsquoordre 1 Ces sources seacutepareacutees vont ensuite constituer toujours placeacutees aux angles

deacutetermineacutes agrave lrsquoanalyse une scegravene virtuelle qursquoon va encoder agrave lrsquoordre 2 De cet encodage on ne conservera que les signaux manquants dans notre exemple les signaux du 2nd ordre U et V Ainsi la scegravene spatialiseacutee sera au final constitueacutee des signaux W X et Y drsquoorigine (transmis) et des signaux U et V syntheacutetiseacutes

Chapitre 4 Reacutesultats et applications 36

422 Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave partir de W Reconstruire une scegravene sonore spatialiseacutee agrave partir drsquoun unique canal mono est

alors difficile et le reacutesultat nrsquoest appreacuteciable que pour des scegravenes simples Il faut pour cela que les diffeacuterentes sources composant cette scegravene aient des supports spectraux aussi distincts que possible Les diffeacuterentes sous-bandes sont alors placeacutees agrave un certain angle transmis en parallegravele et crsquoest cette scegravene reconstitueacutee qui va ecirctre encodeacutee au 1er ordre de maniegravere agrave recreacuteer les signaux X et Y

Figure 47 - Principe de la restitution de lrsquoordre 1 agrave partir du signal mono W Ce scheacutema rappelle une meacutethode deacuteveloppeacutee dans le cas steacutereacuteo appeleacutee BCC

(Binaural Cue Coding) [Faller and Baumgarte 2002] Le principe est drsquoextraire et coder des informations permettant la reconstruction binaurale drsquoun signal agrave savoir les diffeacuterences interaurales drsquointensiteacute et de temps (Interaural LevelTime Difference ILD et ITD) qui correspondent dans le cas drsquoune restitution sur un casque aux diffeacuterences drsquointensiteacute et de temps inter-canal (Inter-Channel LevelTime Difference ICLD et ICTD) qui sont mesureacutees agrave partir drsquoune analyse en sous-bandes Les auteurs y ont plus reacutecemment associeacute un indice de correacutelation interaurale mesureacute agrave partir de la correacutelation inter-canal (ICC) afin de caracteacuteriser la preacutecision spatiale (la ldquolargeurrdquo drsquoune source)

Figure 48 - Scheacutema de principe de la meacutethode BCC [Faller and Baumgarte 2003]

On observe en pratique des deacutefauts lieacutes agrave la brutaliteacute de la proceacutedure une sous-

bande ne peut ecirctre que placeacutee agrave la position indiqueacutee et ne peut pas rester floue diffuse ou encore ecirctre placeacutee agrave plusieurs endroits Pour y remeacutedier nous avons ajouteacute 2 traitements agrave la synthegravese Tour drsquoabord nous avons appliqueacute un leacuteger lissage soulageant les effets deacutesagreacuteables dus au saut du contenu drsquoune sous-bande drsquoun endroit agrave un autre entre de 2 fenecirctres conseacutecutives Les positions varient alors de faccedilon plus souple au sein drsquoune mecircme sous-bande traduisant une hypothegravese de continuiteacute spatiale (pas de deacuteplacement brusque) La contrepartie est que cette hypothegravese est lieacutee agrave une hypothegravese de continuiteacute spectrale

42 Quelques applications 37

La 2egraveme ameacutelioration concerne le positionnement des sources En incluant dans la transmission un critegravere de pertinence on peut savoir srsquoil est raisonnable de placer une sous-bande agrave un angle preacutecis ou bien si lrsquoanalyse eacutetait flou agrave son sujet auquel cas un positionnement impreacutecis serait preacutefeacuterable Le paramegravetre choisi est une combinaison des critegraveres eacutevoqueacutes en 342 il nous permet de placer la sous-bande de maniegravere plus ou moins prononceacutee

43 Comparaison avec une meacutethode existante Certains auteurs ont deacutejagrave essayeacute drsquoanalyser un contenu ambisonique pour

retrouver les positions des sources Ville Pulkki a ainsi deacutecrit dans [Pulkki and Faller 2006] une meacutethode drsquoanalyse du B-format baseacutee sur lrsquoeacutetude des amplitudes des signaux W X Y et Z

Figure 49 - X et Y dans le cas drsquoune sinusoiumlde placeacutee agrave 15deg (agrave gauche) et 120deg (agrave droite)

Les figures ci-dessus montrent les relations drsquoamplitudes (algeacutebriques) qui relient

X et Y agrave lrsquoangle de la source On voit que lrsquoanalyse de ces amplitudes respectives permet de retrouver la position de la source en effet on a pour une source unique les relations de lrsquoeacutequation (11) rappeleacutee ici

⎪⎪

⎪⎪

=

=

=

=

δ

δθ

δθ

sin2

cossin2

coscos2

SZ

SY

SX

SW

(41)

On peut donc theacuteoriquement retrouver les valeurs de θ et δ par relations

trigonomeacutetriques Ainsi on a

⎪⎪⎩

⎪⎪⎨

=

=

2)sin(

)tan(

WZ

XY

δ

θ (42)

Chapitre 4 Reacutesultats et applications 38

On peut donc trouver les angles θ et δ agrave π pregraves Pour lever lrsquoambiguiumlteacute une eacutetude de signe est neacutecessaire Mais dans le cas de θ le signe de X et de Y agrave δ fixeacute deacutepend aussi bien de θ que S Il faut srsquointeacuteresser aux signes de θcos et θsin crsquoest-agrave-dire

aux signes de WX et

WY Dans la pratique on srsquointeacuteressera aux signes de et

pour se preacutevenir des divisions par zeacuteros

XW sdot YW sdot

XW sdot et YW sdot sont proportionnels agrave toujours positif

2S

Les auteurs deacutecrivent eacutegalement dans leur article un critegravere appeleacute diffuseness qui

peut ecirctre compareacute agrave un critegravere de pertinence inverseacute Ce paramegravetre calculeacute par agrave 1 - R ougrave R est un rapport de normes est tregraves proche du critegravere de norme relative deacutecrit en 342 Il peut donc ecirctre utiliseacute de la mecircme faccedilon et permettre ainsi une pleine comparaison

Cette meacutethode a eacuteteacute impleacutementeacutee pour pouvoir ecirctre compareacutee avec la meacutethode

par ACP Tous les paramegravetres ont scrupuleusement eacuteteacute gardeacutes identiques et plusieurs reacuteglages ont eacuteteacute testeacutes Les courbes ci-dessous preacutesentent les reacutesultats des analyses de la scegravene deacutecrite en 332 avec un pas de 50ms un overlap de 50 un NFFT de 2048 et 40 bandes freacutequentielles Nous avons repreacutesenteacute tous les angles trouveacutes crsquoest-agrave-dire un par bande et par trame pour srsquoaffranchir de la seacutelection des k-moyennes

π

0

minusπ

Figure 410 - Angles trouveacutes par lrsquoalgorithme de [Pulkki and Faller 2006] Le diamegravetre du point correspondant agrave la pertinence

43 Comparaison avec une meacutethode existante 39

π

0

minusπ

Figure 411 - Angles trouveacutes par une ACP pour la mecircme scegravene On remarque que les points excentriques sont moins nombreux et plus rarement trouveacutes comme pertinents

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee

441 Position du problegraveme

Une application directe de ces analyses a eacuteteacute deacuteveloppeacutee pour la confeacuterence audio

spatialiseacutee La confeacuterence audio utilise en effet la spatialisation pour permettre une meilleure seacuteparation par lrsquooreille des diffeacuterents locuteurs Ainsi si plusieurs personnes parlent en mecircme temps il sera tregraves difficile de comprendre chacun individuellement si ces voix sont restitueacutees en mono mais on pourra focaliser lrsquoattention sur chacune drsquoentre elles si elles sont seacutepareacutees spatialement (crsquoest lrsquoeffet cocktail party [Cherry 1953])

Lrsquoobjectif eacutetait de veacuterifier qursquoil eacutetait possible de conserver la spatialisation drsquoune

confeacuterence en nrsquoayant transmis qursquoun downmix mono des signaux Ce concept semble se rapprocher de celui deacutecrit en 422 mais une diffeacuterence fondamentale les seacutepare la confeacuterence audio spatialiseacutee nrsquoest pas codeacutee au format ambisonic mais les signaux traiteacutes sont directement les sons provenant des diffeacuterents locuteurs crsquoest-agrave-dire les sources elles-mecircmes Ainsi lrsquoanalyse ne porte plus sur une scegravene spatialiseacutee mais sur des signaux seacutepareacutes Il nrsquoy a ainsi plus drsquoindices spatiaux agrave trouver

Avoir accegraves aux sources permet drsquoobtenir des informations plus preacutecises pour

permettre une seacuteparation apregraves la transmission Comme nous lrsquoavons vu lrsquoanalyse drsquoune scegravene spatialiseacutee ne permet que dans drsquoultimes cas agrave la seacuteparation des sources ce qui est ici notre point de deacutepart et sera en fait notre point drsquoarriveacutee En effet nous tenterons de retrouver les sources seacutepareacutees apregraves la transmission de maniegravere agrave pouvoir par la suite les spatialiser agrave loisir (voir Figure 413)

Chapitre 4 Reacutesultats et applications 40

442 Solution proposeacutee Les paramegravetres extraits ne sont donc plus des positions de sources Nous avons

choisi de mesurer puis transmettre lrsquoeacutenergie de chaque signal dans chaque sous-bande en parallegravele du downmix En effet une bonne seacuteparation sera possible si lrsquoon sait quelle proportion de chaque source compose chaque sous-bande du signal mono

Figure 412 - Scheacutema de principe drsquoune confeacuterence audio spatialiseacutee

Figure 413 - Scheacutema ameacutelioreacute (deacutebit reacuteduit)

en pointilleacutes informations compleacutementaires (eacutenergie) Lrsquoanalyse en sous-bandes a lieu dans le serveur (Figure 414) Celui-ci calcule

lrsquoeacutenergie de chaque signal dans chaque sous-bande sur une trame donneacutee Crsquoest ce paramegravetre qui associeacute au signal mono M permettra la seacuteparation des sources dans le terminal (Figure 415) Ce dernier reacutepartira en effet les diffeacuterentes sous-bandes vers chaque signal reconstitueacute proportionnellement agrave cette information pour reconstruire les 4 sources originales

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee 41

Figure 414 - Analyse principe de lrsquoencodage dans le serveur

Figure 415 - Synthegravese principe du deacutecodage dans le client

Afin de reacuteduire au maximum les informations compleacutementaires agrave transmettre on

peut remarquer qursquoau cours drsquoune confeacuterence audio on a tregraves souvent un seul locuteur les participants ne parlent que tregraves rarement tous en mecircme temps Ceci implique que les signaux en entreacutee sont tregraves souvent tous nuls sauf 1 et appliquer un seuil en entreacutee de lrsquoanalyse permet outre lrsquoallegravegement du traitement drsquoavoir moins de paramegravetres agrave transmettre

Ce scheacutema simplifieacute ne tient pas compte des problegravemes de phase rien nrsquoindique

que les eacutenergies des signaux srsquoajoutent bien dans chaque sous-bande lors du downmix on peut tregraves bien avoir des oppositions de phase La solution est drsquoeffectuer le downmix (la somme) des signaux dans chaque sous-bande en prenant soin drsquoavoir recaleacute les phases au preacutealable Ceci nrsquoa un sens que pour des bandes suffisamment eacutetroites Les deacutecalages temporels appliqueacutes pour le recalage sont alors des paramegravetres suppleacutementaires agrave transmettre et sont pris en compte lors de la synthegravese au niveau du reacutepartiteur qui repositionnera la phase de chaque trame pour chaque signal

Chapitre 4 Reacutesultats et applications 42

443 Bilan Le reacutesultat du deacutecodage a pu ecirctre eacutecouteacute de diffeacuterentes maniegraveres les sources

reconstitueacutees individuellement ensemble en steacutereacuteo drsquoamplitude et sur un systegraveme 51 On note que les sources ont eacuteteacute assez bien seacutepareacutees mais que des artefacts sont audibles en particulier lorsque le nombre de locuteurs simultaneacutes augmentent Ces artefacts sont un meacutelange des voix qui nrsquoest gecircnant que lorsqursquoon les eacutecoute de maniegravere seacutepareacutee En effet lrsquoeacutecoute simultaneacutee de ces signaux syntheacutetiseacutes mecircme placeacutes agrave des positions distinctes sur un systegraveme de diffusion multicanal est tout agrave fait satisfaisante

Ce proceacutedeacute pour pouvoir ecirctre appliqueacute doit fonctionner en temps-reacuteel Cette

contrainte nrsquoa pas du tout eacuteteacute prise en compte lrsquoobjectif eacutetant de valider la faisabiliteacute drsquoune reconstruction Les programmes sous Matlab nrsquoont pas eacuteteacute optimiseacutes et ne respectent pas cette contrainte

43

Conclusion Nous avons preacutesenteacute dans ce rapport le principe et lrsquoapplication de plusieurs

meacutethodes drsquoanalyses spatiales de scegravenes ambisoniques conccedilues et reacutealiseacutee pendant le stage Le format HOA est en effet une repreacutesentation du champ acoustique deacutecomposeacute sur une base drsquoharmoniques spheacuteriques jusqursquoagrave un certain ordre agrave la maniegravere drsquoun deacuteveloppement limiteacute Il contient donc de maniegravere indirecte des indications spatiales qursquoon peut extraire avec des analyses comme lrsquoanalyse en composantes principales

Ces analyses nous permettent de deacuteterminer les positions des sources qui

composent la scegravene sonore Nous avons appliqueacute les reacutesultats de ces analyses agrave 2 types de synthegravese lrsquoune destineacutee aux transmissions bas deacutebit lrsquoautre agrave un traitement de restitution de la preacutecision spatiale dans le cas ougrave des ordres supeacuterieurs dont le but est drsquoaffiner la perception de localisation nrsquoauraient pas pu ecirctre transmis Ces algorithmes par le codage drsquoinformations spatiales qursquoils permettent pourront trouver bien drsquoautres applications dans la transmission et le codage ougrave la description du contenu est de plus en plus utiliseacutee (comme par exemple dans la norme MPEG)

Des ameacuteliorations sont possibles sur plusieurs points tout drsquoabord lrsquoexploitation

de toutes les composantes de lrsquoACP est agrave lrsquoeacutetude et semble pouvoir donner des reacutesultats inteacuteressants Drsquoautre part on a vu que le reacutesultat final est tregraves deacutependant de la bonne convergence de lrsquoalgorithme des k-moyennes utiliseacute pour traiter les donneacutees brutes de lrsquoanalyse en sous-bandes Or cet algorithme neacutecessite des reacuteglages tregraves fins et une connaissance a priori du nombre de sources est presque indispensable Drsquoautres algorithmes plus complexes de suivi de formes pourraient ecirctre avantageusement utiliseacutes pour deacutetecter dans tous les angles trouveacutes lesquels sont susceptibles de former une trajectoire

45

Annexe A

Deacuteveloppement du champ acoustique en harmoniques spheacuteriques

A1 Eacutequation drsquoonde en coordonneacutees spheacuteriques On se place dans lrsquoespace euclidien agrave 3 dimensions muni drsquoun systegraveme de

coordonneacutees spheacuteriques Un point M y est repeacutereacute par son rayon r son azimut θ et son eacuteleacutevation δ tels que repreacutesenteacutes sur la figure ci-dessous

- r est la norme du vecteur position rr crsquoest-agrave-dire la distance OM - [20[ πθ isin est lrsquoangle formeacute par le projeteacute du point sur le plan xOy et lrsquoaxe Ox

- ]2

2

[ ππδ minusisin est lrsquoangle formeacute par le plan xOy et le vecteur position2

Figure A1 - Systegraveme de coordonneacutees spheacuteriques

2 Cet angle diffegravere de lrsquoangle polaire usuel δπϕ minus=

2 habituellement pris entre lrsquoaxe Oz et le

vecteur position

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 46

Les relations entre les coordonneacutees spheacuteriques et les coordonneacutees carteacutesiennes sont

⎪⎩

⎪⎨

===

δδθδθ

sincossincoscos

zryrx

(A1)

On srsquointeacuteresse dans ce repegravere agrave lrsquoeacutequation de propagation des ondes acoustiques

de pression On se place dans les conditions classiques drsquoacoustique lineacuteaire (les variations de p sont petites par rapport agrave la pression atmospheacuterique) en supposant que lrsquoair est un fluide parfait (on y neacutegligera les pheacutenomegravenes dissipatifs) Dans une reacutegion de lrsquoespace ne comprenant pas de sources lrsquoeacutequation drsquoonde srsquoeacutecrit alors

0)(12

2

2 =⎟⎟⎠

⎞⎜⎜⎝

⎛partpart

minus∆ trptc

r (A2)

p eacutetant la pression et c la vitesse de propagation du son dans lrsquoair

Cette eacutequation devient dans le domaine freacutequentiel lrsquoeacutequation de Helmholtz

( ) 0)(2 =+∆ ωrpk r (A3)

ck ω

= eacutetant le nombre drsquoonde

En coordonneacutees spheacuteriques cette eacutequation srsquoeacutecrit

0sin1sin

sin11 2

2

2

222

2 =⎥⎦

⎤⎢⎣

⎡+

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart pk

rrrr

rr δθθθ

θθ (A4)

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques Drsquoapregraves [Bruneau 1983] elle admet des solutions agrave variables seacutepareacutees de la forme

)()()( δθ ΦΘ= rRp (A5) Ces solutions sont respectivement - pour la partie radiale une combinaison des fonctions de Bessel spheacuteriques de

premiegravere et seconde espegravece3 jn et nn

)()()( krBnkrAjrR nn += (A6) 3 Les fonctions de Bessel spheacuteriques de seconde espegravece sont eacutegalement appeleacutees fonctions de

Neumann

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 47

Ces fonctions sont deacutefinies comme suit

(A7)

Figure A2 - Fonctions de Bessel spheacuteriques pour les ordres 0 agrave 5 )(krjm

- pour la partie azimutale les fonctions )(θΘ

)sin()cos()( 21 θθθ ncnc +=Θ (A8) Eacutetant donneacute la deacutefinition de lrsquoangle Θ celui-ci doit neacutecessairement ecirctre de

peacuteriode 2π ))2()(( πθθ +Θ=Θ ce qui impose agrave n drsquoecirctre entier

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 48

- pour la partie polaire les fonctions de Legendre associeacutees )(sinδmnP

nm

nn

mn dPdP

)(sin)(sinsin)(sin

δδ

δδ = pour ⎩⎨⎧

gt=

nmavecnm 321

(A9)

ougrave les )(sinδnP sont les polynocircmes de Legendre de degreacute n en δsin deacutefinis par reacutecurrence

( )

11

22

1

0

sin)12()(sin)1(

1cos321)(sin

sin)(sin0)(sin

minus+ minus+=+

minus=

==

mmm mPPmPmet

P

PP

δδ

ϕδ

δδδ

(A10)

et de formule geacuteneacuterale

mm

m

mm dd

mP )1(sin

)(sin21)(sin 2 minus= δ

δδ (A11)

On peut appliquer aux fonctions )(sinδmnP la semi-normalisation de Schmidt

)(sin)()()(sin~ δεδ mnnmn P

nmnmP

+minus

= ougrave 10 =ε et 2=nε pour 1gen (A12)

En appariant les fonctions polaires et azimutales on deacutefinit les harmoniques

spheacuteriques de degreacute et drsquoordre)1(mnY 0gem 4 mnn lele0 et de degreacute et

drsquoordre (voir Figure A3)

)1(minusmnY 1gem

mnn lele1

)(sin~)sin()(

)(sin~)cos()()1(

)1(

δθδθ

δθδθ

mnmn

mnmn

PnY

PnY

=

=minus

(A13)

4 En geacuteneacuteral lorsque le degreacute et lrsquoordre ne sont pas eacutevoqueacutes conjointement on parle par abus de langage drsquoharmoniques drsquoordre m plutocirct que de degreacute m

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 49

soit

1)(sin

)()()12(2sin)(

)(sin)()()12(2cos)(

1)(sin)1()1()12(cos)(

)1(

)1(

1)1(

1

gt

⎪⎪⎩

⎪⎪⎨

+minus

+=

+minus

+=

=+minus

+=

minus

npourP

nmnmmnY

PnmnmmnY

npourPmmmY

mnmn

mnmn

mm

δθδθ

δθδθ

δθδθ

(A14)

La solution angulaire geacuteneacuterale srsquoeacutecrit alors sous la forme drsquoun deacuteveloppement sur

la base drsquoharmoniques spheacuteriques

( ) ( )sum minus

=minus+=Θ

1

1)1()1()( n

m mnmnmnmnn YBYBθ (A15) La solution geacuteneacuterale est alors la seacuterie de Fourier-Bessel

sum sum sum+infin

= = plusmn=

=0 0 1

)()( )()()(m

m

nmnmnm

m YBkrjikrpσ

σσ δθδθ (A16)

ougrave

intint⎪⎩

⎪⎨⎧

minusisin

isin

plusmnplusmn =

]2

2

[

[20[

)1()1( )()1()(

1

ππδ

πθ

δθδθ

S

mnm

mmn dSYpkrji

B (A17)

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 50

Tableau A1 - Expressions analytiques des harmoniques spheacuteriques pour les ordres 0 agrave 3

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 51

Figure A3 - Repreacutesentation des harmoniques spheacuteriques pour les ordres m = 0 agrave 3 Les

couleurs rouge et bleu indiquent respectivement des valeurs positives et neacutegatives

53

Annexe B

Compleacutements theacuteoriques sur le deacutecodage HOA

B1 Vecteur veacutelociteacute et vecteur eacutenergie Le vecteur veacutelociteacute est un indice de la direction apparente drsquoune source introduit

par Gerzon [Gerzon 1992] Il se calcule comme le rapport de la vitesse particulaire sur la pression acoustique

)()(

)()(1

δθδθ

δθδθ

ρ rprp

ki

rprv

cV nabla

minus=minus=rrr

(B1)

Dans le cas drsquoune onde plane le vecteur veacutelociteacute V

rest ainsi directement un

vecteur unitaire orienteacute vers la direction de provenance de lrsquoonde En geacuteneacuteralisant agrave une superposition drsquoondes planes en phase ou opposition de phase eacutemises par L haut-parleurs agrave eacutequidistance du point drsquoobservation on obtient la formule suivante

VVL

ll

L

lll

urg

ugV r

rr

==

sum

sum

=

=

1

1 (B2)

ougrave deacutesigne la direction du llur egraveme haut-parleur auquel est associeacute le gain gl et Vr Vur correspondent respectivement agrave la norme et agrave la direction du vecteur veacutelociteacute

Le vecteur eacutenergie est un autre indice de direction Il est deacutefinit par

EEL

ll

L

lll

urg

ugE r

rr

==

sum

sum

=

=

1

2

1

2

(B3)

Annexe B Compleacutements theacuteoriques sur le deacutecodage HOA 54

Il peut srsquointerpreacuteter comme une indication de la concentration de lrsquoeacutenergie ( ) et de sa direction moyenne de provenance (

Er

Eur ) On a toujours 1ltEr sauf dans le cas ougrave un seul haut-parleur contribue agrave la reconstruction (dans ce cas ) peut ecirctre consideacutereacute comme un indicateur de preacutecision de la localisation

1=Er Er

B2 Deacutecodages optimiseacutes La restitution la plus confortable drsquoun champ sonore veillera donc agrave maximiser

tout en essayant de garder le plus proche possible de 1 Lrsquooptimisation du deacutecodage consiste alors agrave multiplier chaque coefficient de la matrice de deacutecodage D (voir (111) par des gains calculeacutes drsquoapregraves des critegraveres drsquooptimisation

Er Vr

Ainsi le deacutecodage appeleacute max- maximise la norme du vecteur eacutenergie en

sacrifiant celle du vecteur veacutelociteacute puisqursquoon a dans ce deacutecodage (pour des configurations reacuteguliegraveres de haut-parleurs) Ce deacutecodage est donc avantageux par rapport au deacutecodage basique pour les hautes freacutequences ou dans le cas drsquoun auditoire eacutelargi Le deacutecodage in-phase va encore plus loin en cherchant agrave annuler complegravetement les contributions des haut-parleurs placeacutes agrave lrsquoopposeacute de la direction de provenance de lrsquoonde reproduite Ce critegravere est utile dans le cas drsquoune eacutecoute dans une position tregraves excentreacutee agrave laquelle on pourrait percevoir de faccedilon preacutedominante la contribution en opposition de phase drsquoun tel haut-parleur

Er

EV rr =

Ces diffeacuterents deacutecodages ont chacun des avantages et inconveacutenients Ainsi seul le

deacutecodage basique garantit = 1 le deacutecodage max- permet une preacutecision meilleure notamment en haute freacutequence et le deacutecodage in-phase est plus adapteacute agrave un auditoire plus large Jeacuterocircme Daniel [Daniel 2000] propose ainsi de changer le deacutecodage en fonction de la freacutequence et de lrsquoeacutetendue de la zone drsquoeacutecoute deacutesireacutee

Vr Er

Figure B1 - Deacutecodages les plus approprieacutes par sous-bande et en fonction de lrsquoeacutetendue de la

zone drsquoeacutecoute [Daniel 2000]

55

Annexe C

Analyse en composantes principales

C1 Espace des donneacutees Eacutegalement souvent appeleacutee transformeacutee de Karhunen-Loegraveve5 (TKL) lrsquoanalyse en

composantes principales (ACP) est une technique statistique de repreacutesentation drsquoinformation Introduite sur 2 variables par Pearson [Pearson 1900] elle a eacuteteacute eacutetendue par Hotelling [Hotelling 1933] Elle a pour but de caracteacuteriser des donneacutees drsquoun espace agrave N dimensions dans un sous-espace plus petit en minimisant les pertes drsquoinformation due agrave la projection crsquoest-agrave-dire en maximisant la variance projeteacutee Les donneacutees ainsi reacuteorganiseacutees deviennent indeacutependantes Les variables correacuteleacutees sont remplaceacutees par de nouvelles variables deacutecorreacuteleacutees et de variance maximale combinaisons lineacuteaires des variables initiales

Les donneacutees sont constitueacutees de n variables aleacuteatoires (dans notre cas des canaux)

et p reacutealisations ou individus (des eacutechantillons)

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

pn

p

ji

n

xx

x

xx

M

LLL

MOMNM

MLLM

MNMOM

LLL

1

111

(C1)

Ces donneacutees sont geacuteneacuteralement centreacutees et peuvent aussi ecirctre reacuteduites4 (on note

1x la moyenne de la variable et 1x )( 1xσ sa variance) Reacuteduire ou non le nuage de points (ie les p reacutealisations de la variable aleacuteatoire) est un choix de modegravele

5 Quelques rares sources mentionnent une diffeacuterence entre ACP et TKL en placcedilant celle-ci au

niveau du choix de la reacuteduction des donneacutees dans le cas dune ACP les donneacutees seraient centreacutees et reacuteduites alors qursquoelles seraient uniquement centreacutees pour une TKL

Annexe C Analyse en composantes principales 56

- si on ne reacuteduit pas le nuage une variable agrave forte variance pourrait tirer tout lrsquoeffet de lrsquoACP agrave elle

- si on reacuteduit le nuage une variable qui ne serait qursquoun bruit se retrouverait avec une variance apparente eacutegale agrave une variable informative

M est centreacutee

⎥⎥⎥

⎢⎢⎢

minusminusminus

minusminus=

npn

pi

ji

nn

xxxxxx

xxxxM

K

MM

K

11

11

11

ˆ (C2)

M~ est centreacutee et reacuteduite

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

minusminus

minus

minusminus

=

)()(

)(

)()(~

1

11

1

1

111

n

npn

pi

ij

i

n

nn

xxx

xxx

xxx

xxx

xxx

M

σσ

σ

σσ

K

MM

K

(C3)

On multiplie ensuite la matrice obtenue par sa transposeacutee pour obtenir - La matrice de covariance MMC t

vˆˆ sdot=

- La matrice de correacutelation MMC tr

~~ sdot= Ces matrices sont carreacutees (N x N) symeacutetriques et reacuteelles Elles sont donc

diagonalisables dans une base orthonormeacutee 6 Le principe de lrsquoACP est alors de trouver un axe u issu drsquoune combinaison lineacuteaire

des tel que le critegravere drsquoinertie du nuage autour de cet axe soit maximal Le critegravere drsquoinertie couramment utiliseacute est la variance Il faut donc trouver lrsquoaxe qui porte le maximum de variance crsquoest-agrave-dire lrsquoaxe u tel que la projection du nuage sur cet axe ait une variance maximale

nx

6 Nos donneacutees eacutetant ici des valeurs drsquoeacutechantillons elles sont par nature centreacutees et reacuteduites On

formera donc naturellement la matrice de correacutelation

C2 Diagonalisation 57

C2 Diagonalisation Pour alleacuteger lrsquoeacutecriture de la suite de cette partie nous consideacutererons que les

variables ont eacuteteacute centreacutees et si besoin reacuteduites et nous noterons ces variables

transformeacutees (ainsi

ix ix

iii xxx minuslarr ou bien )( i

iii x

xxxσ

minuslarr ) On fera de mecircme pour M

( ou bien MM ˆlarr MM ~larr ) et C ( vCC larr ou bien rCC larr ) La projection drsquoun eacutechantillon sur un axe u srsquoeacutecrit ix

uMxiu sdot=)(π (C4) La variance empirique de )( iu xπ vaut donc

uMMuxx ttiu

tiu sdotsdotsdot=sdot )()( ππ (C5)

Or on a vu que est diagonalisable dans une base orthonormeacutee donc

on peut noter P le changement de base associeacute et ∆ la matrice diagonale formeacutee de son spectre Ainsi

MMC t=

n

i 1)(λ PPMMC tt ∆==

)()()()( PuPuuPPuxx ttt

iut

iu sdot∆sdot=sdot∆sdot=sdotππ (C6) On pose v = Pu Chercher lrsquoaxe u qui maximise )( iu xπ revient donc agrave chercher le

vecteur v qui maximise ougravevvt ∆ )( 1 ndiag λλ K=∆ avec les iλ rangeacutes par ordre deacutecroissant Ce vecteur est trivialement le premier vecteur unitaire et on a alors

1λ=∆vvt

Ainsi le vecteur qui porte la plus grande part drsquoinertie du nuage est le premier

vecteur propre de C (premier par norme deacutecroissante) De mecircme le deuxiegraveme vecteur qui explique la plus grandelt part de lrsquoinertie restante est le deuxiegraveme vecteur propre de C Finalement la question de lrsquoACP se ramegravene agrave un problegraveme de diagonalisation de la matrice de correacutelation

C3 Code Matlab

function [vep vap] = pca(f N) f donneacutees N nombre de composantes agrave garder cor = f f formation de la matrice de correacutelation [vep vap] = eig(cor) calcul des vecteurs (vep) et valeurs (vap) propres [vap ind] = sort(diag(vap)) tri des valeurs propres par ordre croissant vap = flipud(vap) disposition inverse par ordre drsquoimportance vep = vep( flipud(ind)) classement en conseacutequence des vecteurs propres vep = vep( 1N) on ne garde que les N premiers vecteurs propres

Annexe C Analyse en composantes principales 58

59

Annexe D

Analyse en sous-bandes

D1 La transformeacutee de Fourier agrave court terme (TFCT) Pour affiner lrsquoanalyse les signaux sont donc deacutecoupeacutes en bandes de freacutequence par

TFCT La TFCT consiste agrave effectuer des transformeacutees de Fourier discregravetes sur des portions de signal fenecirctreacutees reacuteguliegraverement espaceacutees

On rappelle que la transformeacutee de Fourier drsquoun signal x(t) est deacutefinie (lorsque

lrsquointeacutegrale existe) par

int+infin

infinminus

minus= dtetxfX ftiπ2)()( (D1)

La transformeacutee de Fourier agrave temps discret (TFTD) drsquoun signal x(t) srsquoeacutecrit

sum+infin

minusinfin=

minus=n

fnienxfX π2)()( (D2)

La transformeacutee de Fourier discregravete (TFD) drsquoun signal discret x(k) est deacutefinie par

sum+infin

minusinfin=

minus=

n

Nkni

enxkXπ2

)()( (D3)

La TFCT discregravete est une TFD observeacutee sur une fenecirctre wa de taille N

summinus

=

minus+=

1

0

2)())(()(

N

n

Nnki

aaa enwtnxkXπ

ττ (D4)

ougrave )(taτ est lrsquoinstant drsquoanalyse

Annexe D Analyse en sous-bandes 60

Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT [Laroche 1995]

D2 Synthegravese par addition-recouvrement Lors de la synthegravese apregraves le deacutecoupage et lrsquoanalyse des fenecirctres on cherche agrave

reconstruire le signal temporel agrave partir de sa repreacutesentation freacutequentielle Pour cela on utilise la meacutethode OLA (overlap and add addition-recouvrement) qui consiste agrave prendre la TFCT inverse des spectres Xt puis agrave additionner les signaux obtenus apregraves les avoir multiplieacutes par une fenecirctre de pondeacuteration en les faisant se recouvrir partiellement

Le reacutesultat est donneacute par

sum=

minusminus=T

tsss tnxtnwnx

s1

))((~))(()(~ ττ τ (D5)

avec )()( tt as ττ = et summinus

=

=1

0

2))((~1)(~ N

k

Nkni

s ektXN

nxs

π

τ τ

Lors de la mise en œuvre de ce traitement il faut srsquoassurer drsquoecirctre en mesure de

reconstruire parfaitement un signal lorsqursquoaucune transformation ne lui est appliqueacutee Le critegravere de reconstruction parfaite condition suffisante est alors

sum=

=minusminusT

tasaa tnwtnw

11))(())(( ττ quelque soit n (D6)

D2 Synthegravese par addition-recouvrement 61

Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add [Laroche 1995]

Plusieurs paramegravetres sont agrave choisir avec soin Le premier drsquoentre eux est le type

de fenecirctre agrave utiliser Les diffeacuterentes options qui se preacutesentent agrave nous sont - la fenecirctre rectangulaire qui preacutesente dans son spectre le lobe principal le plus

eacutetroit mais des lobes secondaires non neacutegligeables - la fenecirctre de Hamming au lobe principal un peu plus large mais pour laquelle le

1er lobe secondaire se situe agrave -43 dB - la fenecirctre de Hann (ou cosinus sureacuteleveacute) qui ressemble agrave la preacuteceacutedente avec un

1er lobe secondaire plus fort mais une pente de 18 dB par octave pour les lobes suivants

- les fenecirctres de Blackman-Harris aux lobes secondaires tregraves bas mais au lobe principal plus large

Fenecirctre Lobe 2aire

(dB) Pente

(dBoct) Bande passante

agrave 6 dB (bins) Rectangulaire -13 -6 121 Triangulaire -27 -12 178

Hann -32 -18 200 Hamming -43 -6 181

Blackman-Harris 4 -92 -6 272

Tableau D1 - Caracteacuteristiques des principales fenecirctres drsquoanalyse [Harris 1978] Le meilleur compromis est donc dans notre contexte la fenecirctre de Hann ou celle

de Hamming

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 24: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

Chapitre 2 Analyser un contenu HOA 18

232 Exploitation drsquoenregistrements naturels Une fois des reacutesultats convaincants obtenus avec des scegravenes virtuelles des

enregistrements naturels ont eacuteteacute analyseacutes Ces scegravenes ont eacuteteacute enregistreacutees gracircce au prototype de micro HOA du 4egraveme ordre deacuteveloppeacute agrave France Teacuteleacutecom (voir Figure 12) Ce processus implique des diffeacuterences notables avec un encodage virtuel

Le prototype de microphone contraint en effet agrave quelques compromis pour

optimiser des critegraveres incompatibles La taille du microphone reacutesulte drsquoun compromis entre la preacutecision drsquoestimation des composantes en basses freacutequences qui neacutecessite une taille eacuteleveacutee et la minimisation de lrsquoaliasing spatial qui ne peut ecirctre eacuteviteacute qursquoavec des capsules tregraves proches les unes des autres Leur disposition est eacutegalement irreacuteguliegravere il nrsquoexiste en fait aucune faccedilon de disposer reacuteguliegraverement plus de 20 points sur une sphegravere La configuration qui avait eacuteteacute retenue par les concepteurs [Moreau 2006] est la ldquomoins irreacuteguliegravere possiblerdquo au sens de la preacuteservation de lrsquoorthonormaliteacute des harmoniques spheacuteriques les 32 capsules sont reacuteparties sur une sphegravere de 35 cm de rayon selon un Pentaki-dodeacutecahegravedre polyegravedre semi-reacutegulier dual de lrsquoicosaegravedre tronqueacute (ballon de football)

Ces artefacts sont donc inheacuterents agrave lrsquoutilisation drsquoun reacuteseau de microphones Mais

le monde reacuteel pose eacutegalement des problegravemes deacutelicats La complexiteacute des modes de rayonnement drsquointeraction avec lrsquoenvironnement reacuteclame lrsquointroduction de modegraveles drsquoencodage beaucoup plus complexes que le cas drsquoune onde plane en champ libre et rend lrsquoinformation spatiale moins limpide et univoque au sein de la scegravene encodeacutee (enregistreacutee) en comparaison avec une scegravene virtuelle Les sources ne sont ainsi plus ponctuelles mais eacutetendues elles ne sont plus agrave lrsquoinfini mais agrave une distance finie du microphone (les ondes reccedilues ne sont donc plus planes) En outre chaque source en se reacutefleacutechissant sur les parois et les diffeacuterents objets de la salle creacutee une multitude de sources secondaires Il est enfin souvent difficile de connaicirctre avec preacutecision la position drsquoune source dans lrsquoespace lors drsquoun enregistrement

Des enregistrements en chambre sourde ont eacuteteacute reacutealiseacutes pour se passer des

reacuteflexions de lrsquoenvironnement Afin de connaicirctre avec preacutecision la position de la source un haut-parleur diffusant un bruit blanc nous avons placeacute le microphone sur une table tournante commandeacutee par un plug-in sous Plogue Bidule

233 Visualisations des reacutesultats Lrsquoobservation des reacutesultats a eacuteteacute effectueacutee de plusieurs maniegraveres visuellement et

par lrsquoeacutecoute Les graphiques eacutetant plus commodes crsquoest par cette voie que les premiers essais eacutetaient conclus Plusieurs types de graphiques ont eacuteteacute produits deacutecrivant des paramegravetres diffeacuterents

Les repreacutesentations temps-freacutequence permettent de repreacutesenter une variable agrave 1

dimension sous Matlab Cette voie a eacuteteacute suivie pour visualiser les paramegravetres extraits de chaque sous-bande de chaque fenecirctre notamment les angles lrsquoeacutenergie et la pertinence Malheureusement Matlab ne permet pas de repreacutesenter sur le mecircme graphique une 4egraveme dimension sous la forme drsquoune 2egraveme dimension colorimeacutetrique (on prend geacuteneacuteralement la

23 Meacutethodologie 19

saturation) Cette dimension suppleacutementaire aurait permis de repreacutesenter simultaneacutement les angles et leur pertinence

Figure 25 - Repreacutesentation

et de lrsquoespace col

Pour repreacutesenter s

drsquoabandonner une dimensipouvoir repreacutesenter danrepreacutesenteacutees soit par le niv

Figure 26 - Repreacutesentationdeacutecrite en 332 (en absciss

est repreacutesenteacutee agrave gauc

234 Diffeacuterents modes La visualisation est

indispensable pour veacuterifiesont possibles de ceux-cainsi reconstitueacutee agrave partir d

1 W+Y+02X pour le c

π 0 minusπ

de la table des couleurs dite HSV de Matlab (lineacuteaire agrave gauche) orimeacutetrique HSL (Hue Saturation Luminance agrave droite)

imultaneacutement angles et pertinence il eacutetait donc neacutecessaire on Crsquoest le deacutecoupage freacutequentiel qui a eacuteteacute mis de cocircteacute pour s un plan temps-angles les pertinences Celles-ci sont eau de gris des points soit par leur taille

de la pertinence des angles de la scegravene agrave 4 sources dont 1 mobile e les trames en ordonneacutees les angles en degreacute) La pertinence he par lrsquointensiteacute du bleu et agrave droite par la taille des points

drsquoeacutecoute

un indice preacutecis de reacutesultat mais lrsquoeacutecoute est tout de mecircme r la qualiteacute globale de la synthegravese Plusieurs modes drsquoeacutecoute i lrsquoeacutecoute au casque est la plus aiseacutee Une pseudo-steacutereacuteo est es signaux du 1er ordre1 pour restituer les scegravenes restreintes au

anal gauche et W-Y+02X pour le canal droit

Chapitre 2 Analyser un contenu HOA 20

plan horizontal Pour plus de preacutecision agrave la restitution ou pour des scegravenes en 3D et sans perdre la faciliteacute drsquoune eacutecoute personnelle au casque on peut appliquer des filtres HRTF (Head-Related Transfert Function) pour une reproduction binaurale

Pour appreacutecier pleinement la spatialisation la diffusion sur un systegraveme multi

haut-parleurs est indispensable Deux systegravemes sont installeacutes dans le laboratoire de France Teacuteleacutecom un systegraveme 51 et un systegraveme circulaire de 48 haut-parleurs Ces systegravemes installeacutes dans des studios insonoriseacutes offrent une grande qualiteacute drsquoeacutecoute qui permet de repeacuterer les deacutefauts mecircme minimes de la synthegravese

21

Chapitre 3

Description des analyses

31 Deacutetermination des directions principales

311 Base des algorithmes Nous avons deacuteveloppeacute plusieurs algorithmes reacutepondant aux diffeacuterents objectifs

deacutecrits plus haut Chacun drsquoeux possegravede des particulariteacutes leur permettant de reacutepondre agrave ces objectifs mais on trouve neacuteanmoins une partie commune Ainsi toutes les analyses reposent sur le mecircme modegravele drsquoapplication drsquoune ACP par sous-bandes dont voici le scheacutema geacuteneacuteral

Figure 31 - Scheacutema geacuteneacuteral drsquoanalyse

Les signaux en entreacutee sont les composantes HOA W X et Y dans la plupart des

cas mais peuvent ecirctre eacutegalement des composantes drsquoordre plus eacuteleveacute (voir 11) Sur le fenecirctrage jouent plusieurs paramegravetres comme la taille de la fenecirctre ou encore le pourcentage de recouvrement entre elles Nous avons choisi une fenecirctre en racine de la fenecirctre de Hanning crsquoest-agrave-dire une arche de sinusoiumlde (voir eacutequation (D7) en Annexe D) avec un recouvrement de 50 ce qui veacuterifie le critegravere de reconstruction parfaite (D6) Le filtrage est pour des raisons de rapiditeacute de calcul reacutealiseacute dans le domaine freacutequentiel par une simple multiplication avant de repasser en temporel pour appliquer lrsquoACP

Le banc de filtre utiliseacute est un banc inspireacute des filtres ERB Les filtres ERB

(Equivalent Regular Bandwidth) sont des filtres imitant le comportement de seacuteparation freacutequentielle de lrsquooreille humaine plus preacutecise en basse freacutequence Les filtres utiliseacutes ici ne sont pas directement des filtres ERB le systegraveme nrsquoa pas drsquointeacuterecirct particulier agrave essayer de copier le fonctionnement de lrsquooreille humaine Ces filtres ont eacuteteacute adapteacutes au problegraveme en

Chapitre 3 Description des analyses 22

srsquoassurant en particulier de la finesse des bandes permettant la meilleure discrimination des diffeacuterentes sources crsquoest-agrave-dire autour des fondamentales usuelles (200-1000 Hz) et des harmoniques Les freacutequences aigueumls sont bien discrimineacutees par les filtres ERB (relativement agrave la gamme crsquoest-agrave-dire en eacutechelle logarithmique) le deacutecoupage a donc surtout eacuteteacute densifieacute entre 200 et 800 Hz par rapport aux bandes ERB

Figure 32 - Filtres utiliseacutes inspireacutes des filtres ERB repreacutesenteacutes lineacuteairement (en haut)

et sur une eacutechelle logarithmique (en bas) Les reacutesultats de lrsquoACP sont donc avec cette meacutethode les angles des sources

trouveacutees dans chaque sous-bande ainsi que pour chacun drsquoeux un critegravere de pertinence calculeacute en fonction de lrsquoeacutenergie de la sous-bande dans une fenecirctre donneacutee et de la norme relative de la premiegravere composante de lrsquoACP (voir 342) Les autres vecteurs propres peuvent ecirctre utiliseacutes pour extraire davantage drsquoinformations et mecircme des signaux deacutecorreacuteleacutes comme on le verra au paragraphe 35 mais lrsquoanalyse semble alors moins robuste Srsquoen tenir aux informations donneacutees par la composante principale est un gage de pertinence suppleacutementaire

Ces reacutesultats concernent donc les sources preacutedominantes ou principales mais

laissent de cocircteacute un certain nombre drsquoeacuteveacutenements sonores agrave consideacuterer

312 Traitement du champ reacutesiduel Le champ reacutesiduel regroupe en quelque sorte tout ce qui nrsquoest pas une source

principale Il inclut donc les reacuteflexions et la reacuteverbeacuteration de la piegravece mais aussi les bruits parasites occasionnels ou continus (ventilation etc) Ces bruits ou eacutechos nrsquoont pas de direction de provenance assez distincte pour pouvoir ecirctre mesureacutee preacuteciseacutement Le champ reacutesiduel est eacutegalement composeacute du champ diffus La notion de champ diffus est couramment utiliseacutee mais rarement preacuteciseacutement deacutefinie On trouve dans la litteacuterature des deacutefinitions diverses lrsquoune drsquoelles preacutecisant qursquoil serait un ensemble drsquoeacuteveacutenements sonores proches en temps et provenant de directions eacutequiprobables

Les algorithmes proposeacutes traitent correctement les sources principales mais le

champ reacutesiduel est laisseacute de cocircteacute Il est pourtant tregraves important pour lrsquoimmersion du sujet dans la scegravene une scegravene deacutepourvue de champ sonore sera perccedilue comme artificielle ce qui nuit agrave la perception drsquoespace On sera par exemple davantage conscients drsquoecirctre au centre drsquoun dispositif expeacuterimental et moins sensibles aux variations de profondeur et de perspectives

31 Deacutetermination des directions principales 23

Neacuteanmoins il faut relativiser lrsquoimportance de ce champ reacutesiduel il nrsquoest pas utile pour la localisation des sources principales et ne caracteacuterise que lrsquoenvironnement drsquoenregistrement En outre le champ reacutesiduel qui provient souvent de directions floues et notre but nrsquoest pas de les preacuteciser artificiellement Il nrsquoest degraves lors geacuteneacuteralement pas utile de le transmettre aux ordres eacuteleveacutes

Ainsi certains auteurs [Merimaa and Pulkki 2005] ont choisi de recreacuteer lors drsquoune

synthegravese un champ diffus artificiel baseacute sur une reacuteponse impulsionnelle de salle calculeacutee agrave lrsquoavance Lrsquoavantage est une immersion un enveloppement complets lrsquoinconveacutenient est que lrsquoambiance ainsi recreacuteeacutee est fictive et arbitraire et en outre complegravetement indeacutependante de lrsquoambiance initiale en laissant notamment de cocircteacute les sources secondaires

Nous proposons dans nos algorithmes de ne pas syntheacutetiser le champ diffus aux

ordres eacuteleveacutes mais de nous contenter de la description du champ reacutesiduel fourni par les ordres transmis (1er ordre dans nos exemples) Nous nous limiterons donc agrave preacuteciser par la synthegravese des ordres supeacuterieurs les positions des sources principales

32 Extension agrave la 3D Nous avons pour le moment eacutevoqueacute le cas de repreacutesentations de champ sonore agrave

2 dimensions crsquoest-agrave-dire issus de sources placeacutees dans le plan horizontal Mais certaines repreacutesentations comportent eacutegalement des composantes verticales Pour analyser ces signaux en 3 dimensions il faut inteacutegrer la composante Z On effectue alors simplement une ACP sur X Y Z et W Le 1er vecteur propre sera alors bien dirigeacute dans lrsquoespace (X Y Z) dans la direction de la source lrsquoambiguiumlteacute de frac12 espace eacutetant leveacutee par W

Lrsquoalgorithme est alors complegravetement similaire agrave celui analysant des signaux en 2

dimensions Des tests ont eacuteteacute reacutealiseacutes agrave partir de signaux syntheacutetiques pour lesquels les positions des sources eacutetaient connues pour des raisons pratiques aucune scegravene sonore reacuteelle en 3 dimensions nrsquoa pu ecirctre enregistreacutee avec une connaissance initiale preacutecise des positions des sources

Les visualisations et les eacutecoutes eacutetant plus deacutelicates en 3D et lrsquoextension agrave la 3D

eacutetant immeacutediate nous avons donc concentreacute nos efforts sur lrsquoanalyse de scegravenes en 2D En outre en lrsquoabsence de dispositif spheacuterique ou heacutemispheacuterique de haut-parleurs le seul moyen agrave notre disposition pour eacutecouter une scegravene 3D est lrsquoeacutecoute binaurale crsquoest-agrave-dire au casque avec des fonctions de transfert de tecircte (HRTF) relativement bien adapteacutees agrave lrsquoauditeur

33 Analyse aux ordres supeacuterieurs

331 Description Afin drsquoameacuteliorer la preacutecision de lrsquoanalyse nous avons essayeacute drsquoappliquer une ACP

sur des signaux ambisoniques drsquoordre plus eacuteleveacute (signaux HOA) dans le plan horizontal Deux meacutethodes ont eacuteteacute essayeacutees

Chapitre 3 Description des analyses 24

La premiegravere consiste agrave appliquer une ACP agrave 3 dimensions successivement sur les composantes X Y W (ordre 1 et 0) puis U V W (ordre 2 et 0) et ainsi de suite crsquoest-agrave-dire (en utilisant la notation geacuteneacuterale) sur les composantes et W (ordre m et 0) Les reacutesultats de ces analyses (les directions des 1

)1(0mY )1(

0minus

mYegraveres composantes) sont ensuite regroupeacutees

lrsquoanalyse de lrsquoordre 1 fournissant des reacutesultats modulo 2π lrsquoanalyse de lrsquoordre 2 des reacutesultats plus preacutecis mais modulo π et plus geacuteneacuteralement lrsquoanalyse de lrsquoordre m permettant de trouver des angles modulo mπ2

La limite de cette approche se perccediloit lors de la fusion des reacutesultats les angles

trouveacutes agrave un ordre eacuteleveacute sont plus preacutecis dans des bandes de freacutequences eacuteleveacutees mais la limitation theacuteorique de ces signaux HOA dans les basses freacutequences font que lrsquoanalyse de lrsquoordre 1 reste la plus pertinente dans les premiegraveres bandes Parvenir agrave deacuteterminer agrave partir de quelle freacutequence on peut faire davantage confiance agrave lrsquoordre n+1 qursquoagrave lrsquoordre n nrsquoest pas aiseacute et cette limite provoque des aberrations dans les angles trouveacutes Une source unique pourra par exemple ecirctre interpreacuteteacutee par lrsquoalgorithme des k-moyennes (voir 341) comme 2 sources une en hautes freacutequences et une en basses freacutequences les 2 eacutetant trouveacutes agrave 2 angles diffeacuterents chaque angle relevant drsquoun ordre analyseacute diffeacuterent

La deuxiegraveme meacutethode consiste pour eacuteviter cette fusion des reacutesultats agrave effectuer

une seule ACP sur les composantes U V X Y et W Cette meacutethode souffre drsquoune tregraves grande complexiteacute algorithmique pour une ameacutelioration de la preacutecision peu sensible En effet si cette meacutethode permet drsquoobtenir des reacutesultats plus preacutecis dans certaines bandes de freacutequences elle est sensible aux deacutefauts et les limites des ordres supeacuterieurs (lrsquoabsence de basses freacutequences entre autres) perturbent lrsquoanalyse en composantes principales

332 Illustration sur une scegravene virtuelle La scegravene preacutesenteacutee ici est une scegravene artificielle crsquoest-agrave-dire composeacutee de sons

placeacutes artificiellement agrave diverses positions Elle a une dureacutee totale de 135 s et comporte 4 sources positionneacutees dans le plan horizontal une guitare placeacutee agrave 45deg une basse agrave -70deg une batterie agrave 110deg et une voix feacuteminine qui effectue continucircment un tour complet dans le sens indirect en partant de lrsquoarriegravere (elle passe donc successivement par les positions 180deg 90deg 0deg -90deg et -180deg) La guitare et la batterie srsquoarrecirctent peu avant la fin de la scegravene (12egraveme seconde au 910egraveme du son approximativement)

Figure 33 - Position des sources de la scegravene de test agrave 4 sources dont 1 mobile

33 Analyse aux ordres supeacuterieurs 25

Figure 34 - Angles drsquoune scegravene virtuelle ayant 1 source mobile et 3 sources fixes

(deacutecrite en 332) trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 Pour chaque trame (en abscisse) 20 angles (1 par bande en ordonneacutee et en degreacutes) sont

reporteacutes le diamegravetre du point correspondant agrave un critegravere de pertinence (voir 342)

Figure 35 - Angles de la mecircme scegravene trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 2 Reacutesultats modulo π reacutepliqueacutes pour faciliter la comparaison avec la figure preacuteceacutedente On remarque que les lignes sont plus nettes qursquoil y a moins drsquoangles aberrants et que

les angles corrects sont plus marqueacutes (ils sont deacutetermineacutes comme plus pertinent)

Chapitre 3 Description des analyses 26

20

0

20

0

20

0

Figure 36 - Angles drsquoune scegravene reacuteelle constitueacutee drsquoun bruit parcourant le cercle trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 (en haut) 0 et 2 (au milieu) et 0 et 4 (en bas) Le

numeacutero de trame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On retrouve qursquoune limitation des ordres HOA supeacuterieurs issus drsquoun enregistrement

microphonique est la restitution des basses freacutequences

34 Traitement des donneacutees

341 Algorithme des k-moyennes Agrave lrsquoissue de lrsquoanalyse en composantes principales on reacutecupegravere avec la premiegravere

des meacutethodes exposeacutees au chapitre preacuteceacutedent des angles correspondants aux positions des sources preacutedominantes agrave raison drsquoune valeur par fenecirctre et par bande de freacutequence Il faut agrave partir de ces donneacutees parvenir agrave isoler les sources crsquoest-agrave-dire agrave deacuteterminer quels sont les angles pertinents et examiner quels sont ceux qui agrave une certaine toleacuterance pregraves sont preacutesents dans plusieurs bandes de freacutequence etou plusieurs fenecirctres temporelles

Pour pouvoir exploiter ces donneacutees spatiales nous avons utiliseacute lrsquoalgorithme des

k-moyennes (ou k-means) [MacQueen 1967] sur les angles pondeacutereacutes par des critegraveres de pertinence Cet algorithme fonctionne de la maniegravere suivante

Initialisation choix de k barycentres (les k moyennes) Reacutepeacuteter Associer chaque eacuteleacutement au barycentre le plus proche Recalculer les positions des barycentres Jusqursquoagrave ce que les barycentres soient stables (ou au bout de t iteacuterations)

34 Traitement des donneacutees 27

Lrsquoavantage de cet algorithme est drsquoecirctre peu glouton puisqursquoil converge en O(tkn) ougrave t est le nombre drsquoiteacuterations k le nombre de centres et n le nombre de points (geacuteneacuteralement on a t k ltlt n) Par contre il est plutocirct sensible aux exceptions un point aberrant tirera agrave lui la moyenne auquel il aura eacuteteacute associeacute Il faut donc faire en sorte que ces points erroneacutes soient aussi rares que possibles Crsquoest pourquoi les angles traiteacutes sont pondeacutereacutes par 2 critegraveres de pertinence

La pondeacuteration des angles fournis en entreacutee de lrsquoalgorithme des k-moyennes se

fait de maniegravere simple en reacutepeacutetant ces angles un nombre de fois (de 0 agrave 10) proportionnel agrave un critegravere Ainsi un angle tregraves pertinent sera dupliqueacute et sera preacutesent plusieurs fois dans la liste des donneacutees traiteacutees attirant ainsi agrave lui la position du barycentre le plus proche Au contraire un angle trop peu pertinent ne sera pas reacutepeacuteteacute voir mecircme sera enleveacute de la liste

Le seul problegraveme de cet algorithme est qursquoil neacutecessite la connaissance de k crsquoest-

agrave-dire du nombre de sources qui composent la scegravene Une deacutetermination automatique se basant sur la reacutepeacutetition de lrsquoalgorithme avec un k croissant a eacuteteacute testeacutee mais le critegravere drsquoarrecirct reposant sur la dispersion des points autour des barycentres nrsquoeacutetant pas assez robuste cette meacutethode a provisoirement eacuteteacute mise de cocircteacute

342 Critegraveres de pertinence Les 2 critegraveres de pondeacuteration choisis sont lrsquoeacutenergie de la sous-bande dans la

fenecirctre donneacutee et le rapport de la norme de la 1egravere composante (la composante principale) de lrsquoACP sur la somme des normes de toutes les composantes

En effet un angle est trouveacute dans chaque sous-bande de chaque fenecirctre mecircme si

le signal y est tregraves faible Lrsquoangle trouveacute sera alors tregraves peu repreacutesentatif de la direction drsquoune source puisqursquoil indiquera la direction drsquoun bruit Lrsquoeacutenergie doit donc ecirctre prise en compte pour ne conserver que les angles trouveacutes dans des bandes comportant un signal suffisant

La norme relative de la 1egravere composante de lrsquoACP rend quant agrave elle compte du

poids relatif de cette composante par rapport aux autres Ainsi si 2 sources sont preacutesentes dans une bande donneacutee la 1egravere composante sera agrave peine plus marqueacutee que la 2egraveme Ceci peut ecirctre calculeacute en prenant simplement le rapport de la 1egravere valeur propre sur la somme des valeurs propres

On peut noter que la norme de la 1egravere composante ne se deacutetache nettement que

lorsqursquoun son est preacutesent dans la bande consideacutereacutee On peut alors se demander si lrsquoeacutenergie doit ecirctre prise en compte ou si lrsquoinformation qursquoelle contient nrsquoest comprise dans le 2egraveme critegravere En fait la norme relative est un critegravere tregraves bruiteacute et consideacuterer lrsquoeacutenergie par ailleurs permet de nuancer ces artefacts et constitue une base solide de pondeacuteration

Chapitre 3 Description des analyses 28

80

40

0

Figure 37 - Repreacutesentation temps-freacutequence des angles du son deacutecrit en 332 Letrame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On peut donc v

par trame et par bande chacun eacutetant le reacutesultat drsquoune ACP crsquoest-agrave-dire la 1egravere

Figure 38 - Eacutenergie de ce mecircme son On peut voir une basse en notes tenues uneet une batterie qui produit des sons secs dans un spectre plus aigu

80

40

0

80

40

0

Figure 39 - Norme relative de la 1egravere composante de ce mecircme son Les impacts de batterie (dans lrsquoaigu) ressortent davantage

π 0 minusπ

numeacutero de oir un angle direction

voix aiguumle

34 Traitement des donneacutees 29

Figure 310 - Pondeacuteration appliqueacutee agrave lrsquoentreacutee des k-moyennes calculeacutee ici comme

le simple produit de lrsquoeacutenergie et de la norme relative

80

40

0

343 Lissages

Pour faire face au bruit ineacutevitable dans les reacutesultats il faut lisser les donneacutees Ces

lissages temporels correspondent agrave des hypothegraveses de stabiliteacute des sources qui sont supposeacutees ecirctre fixes ou mobiles relativement lentement (dans une mesure agrave parameacutetrer)

Un premier lissage peut ecirctre opeacutereacute avant le traitement par lrsquoalgorithme des k-

moyennes Le filtre choisi est un filtre meacutedian de maniegravere agrave eacuteliminer les points aberrants tout en conservant les vraies valeurs des points coheacuterents Ce lissage est appliqueacute sur chaque sous-bande aux angles et ne tient pas compte des critegraveres de pertinence Il est donc utiliseacute avec parcimonie et peut mecircme ecirctre eacuteviteacute en reacuteglant de maniegravere adeacutequate les critegraveres de pondeacuteration agrave lrsquoentreacutee des k-moyennes

Le deuxiegraveme lissage srsquoeffectue agrave lrsquoentreacutee des k-moyennes en mecircme temps que les

critegraveres de pondeacuteration Il consiste agrave appliquer les k-moyennes non pas sur une fenecirctre donneacutee mais sur plusieurs fenecirctres conseacutecutives anteacuterieures et posteacuterieures en donnant plus de poids agrave la fenecirctre courante Dans la pratique les poids donneacutes aux diffeacuterentes fenecirctres sont eacutetablis par une gaussienne centreacutee sur la fenecirctre courante et de largeur agrave deacuteterminer (en fonction notamment de la dureacutee drsquoune fenecirctre et du type de scegravene analyseacute)

35 Exploitation de toutes les composantes de lrsquoACP Les analyses preacutesenteacutees preacuteceacutedemment ont toutes exploiteacute uniquement la

composante principale extraite par lrsquoACP Or cette analyse fournit des informations plus complegravetes par lrsquointermeacutediaire des autres composantes dont on peut tirer parti pour isoler plusieurs sources au sein drsquoune mecircme bande Cette approche est toujours en deacuteveloppement dans ce stage et nrsquoa pas encore donneacute pleine mesure des reacutesultats qursquoelle laisse entrevoir

Les composantes de lrsquoACP indiquent des directions qui correspondent aux

diffeacuterentes sources composant la scegravene sonore Les vecteurs propres de la matrice de correacutelation donnent ainsi les combinaisons lineacuteaires des signaux HOA permettant de

Chapitre 3 Description des analyses 30

seacuteparer de la meilleure faccedilon possible ces sons Ces directions peuvent ecirctre alors utiliseacutees pour former des directiviteacutes isolant au mieux ces sources

aBS sdot= (31)

ougrave la matrice a contient les vecteurs propres de la matrice de correacutelation (voir Annexe C) le vecteur B contient les signaux HOA et le vecteur S contient les sources extraites

⎟⎟⎟

⎜⎜⎜

=⎟⎟⎟

⎜⎜⎜

⎛=

⎥⎥⎥

⎢⎢⎢

⎟⎟⎟

⎜⎜⎜

⎟⎟⎟

⎜⎜⎜

⎛=

10

1001

1

ML

N

B

BB

S

SSuua MML (32)

On obtient ainsi des lobes drsquoautant plus eacutetroits que lrsquoordre est eacuteleveacute chacun

dirigeacute vers une source et permettant de lrsquoisoler le plus possible des contributions des autres sources La Figure 311 preacutesente les directiviteacutes ainsi trouveacutees par une ACP en pleine bande Une analyse en sous-bande permet une plus grande distinction des sources mais une seacuteparation diffeacuterente entre les bandes est dangereuse car elle risque de dissocier spatialement plusieurs parties drsquoun mecircme son

Figure 311 - Directiviteacutes seacuteparant ideacutealement 4 sources placeacutees agrave 17 73 195 et -58deg

pour une scegravene virtuelle encodeacutee agrave lrsquoordre 4 Ce principe se heurte neacuteanmoins aux limites de seacuteparation lieacutees agrave lrsquoordre

drsquoencodage en effet 2 sources ne pourront pas ecirctre seacutepareacutees si elles sont trop proches comme en teacutemoigne la largeur des lobes principaux Les lobes secondaires traduisent eacutegalement un meacutelange des sources isoleacutees La figure ci-dessus montre ainsi que la source placeacutee agrave 17deg (en vert) sera preacutesente de maniegravere non neacutegligeable dans le signal senseacute contenir la source placeacutee agrave -58deg (en bleu) en raison du lobe secondaire bleu important

31

Chapitre 4

Reacutesultats et applications

41 Illustration et critique des reacutesultats obtenus

411 Avant-propos Sans notification particuliegravere les reacutesultats preacutesenteacutes ont eacuteteacute obtenus avec un pas

de 50 ms une analyse en 80 bandes avec une FFT sur 8192 points Une taille de FTT plus grande et un plus grand nombre de bande augmente la qualiteacute de lrsquoanalyse un pas plus petit ameacuteliore sa preacutecision temporelle mais les reacutesultats sont moins fiables et un lissage plus important srsquoimpose alors Ces paramegravetres ont eacuteteacute reacutegleacutes apregraves de multiples essais sur des scegravenes diverses

Les reacutesultats sont preacutesenteacutes ici uniquement sous la forme de graphiques nous ne

pouvons donc repreacutesenter que les angles trouveacutes agrave la sortie de lrsquoalgorithme des k-moyennes

412 Scegravene 2D artificielle agrave 4 sources fixes La premiegravere scegravene est une scegravene artificielle composeacutee de 4 sons fixes placeacutes agrave -70

-10 45 et 110deg Ces sons (une basse une voix une guitare et une batterie) ont eacuteteacute choisis pour leur varieacuteteacute spectrale et leur varieacuteteacute drsquoattaque Elle a en outre le meacuterite drsquoecirctre reacutealiste et de constituer une seacutequence musicale (chaque son nrsquoest pas une meacutelodie indeacutependante)

On voit sur la Figure 41 ci-dessous que les angles trouveacutes sont proches des

angles theacuteoriques Lrsquoun des sons (agrave 45deg) est quasiment nul avant la 100egraveme trame sa position est alors moins facile agrave deacuteterminer plus preacuteciseacutement une position approximative est trouveacutee et correspondrait exactement agrave la position du bruit (45deg) si lrsquoincertitude de mesure tregraves grande pour un son aussi faible ne rendait la deacutetermination si ardue On mesure un eacutecart-type de 22deg sur cet exemple (en excluant le deacutebut du son agrave 45deg)

Chapitre 4 Reacutesultats et applications 32

Figure 41 - Angles theacuteoriques (en pointilleacutes rouge) et calculeacutes (en trait bleu) pour une scegravene

constitueacutee de 4 sons fixes longue de 11s

413 Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile

Figure 42 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) de la scegravene agrave

4 sources dont 1 mobile deacutecrite en 332 Cette scegravene est deacutecrite en 332 On a ici demandeacute aux k-moyennes de renvoyer 5 barycentres par trame alors que

seules 4 sources eacutetaient preacutesentes dans le but de se garantir une marge vis-agrave-vis des erreurs de deacutetection Cette 5egraveme direction nrsquoest pas du tout gecircnante elle indique une direction qui ne contient pas de source et crsquoest donc un son tregraves faible qui est ainsi pointeacute Apregraves une eacuteventuelle extraction le signal ne sera donc pas du tout gecircnant

41 Illustration et critique des reacutesultats obtenus 33

On peut remarquer que quand le son mobile se rapproche drsquoun son fixe la deacutetection est moins bonne il y a une fusion entre les 2 sons Mais encore une fois lors de lrsquoextraction lrsquoisolation drsquoun des sons englobera lrsquoautre son ce qui ne posera pas de problegraveme pour les objectifs fixeacutes aucune source nrsquoeacutetant oublieacutee En effet la seacuteparation de sources nrsquoest pas un objectif ici mais un moyen pour preacuteciser les positions des sources ce qui sera fait correctement mecircme si 2 sources sont pointeacutees par 1 seule direction

414 Scegravene 3D artificielle agrave une source et bruit de fond

La scegravene dont la position drsquoune source a eacuteteacute extraite ci-dessous est une scegravene virtuelle en 3D constitueacute drsquoun son (une voix) qursquoon a fait se deacuteplacer par paliers tout drsquoabord vers le haut de 0deg agrave 45deg et vers la gauche de 0deg agrave 90deg puis redescendre jusqursquoagrave 35deg en continuant son cheminement vers la gauche jusqursquoagrave 120deg et enfin finir la descente de 35deg agrave 0deg en la laissant agrave 120deg Agrave cette source a eacuteteacute superposeacutee une ambiance spatialiseacutee de hall drsquoaeacuteroport initialement enregistreacutee en 2D (au format 51) mais transformeacutee pour contenir des composantes verticales Cette ambiance deacutecorreleacutee de la source avait pour but de tester la robustesse de lrsquoanalyse Elle eacutetait agrave 15 dB en-dessous du niveau de la voix

Figure 43 - Azimut et eacuteleacutevation theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun

son en 3D artificiel de 9s placeacute dans une ambiance bruyante On remarque que lrsquoanalyse est tregraves correcte Il nrsquoy a pas drsquoeacutecart important entre

les angles theacuteoriques et ceux calculeacutes On note toutefois que le lissage agrave lrsquoentreacutee des k-moyennes a pour effet de gommer les creacuteneaux et drsquoaplatir quelque peu la courbe drsquoeacuteleacutevation ceci nrsquoest pas vraiment gecircnant car de tels sauts dans la position drsquoune source ne sont pas du tout reacutealistes (ils peuvent caracteacuteriser des bruits de pas mais de tels impacts sont courts et on peut srsquoattendre agrave ce que la courbe suive leur position aux instants ougrave ils sont eacutemis)

Chapitre 4 Reacutesultats et applications 34

415 Scegravene 2D naturelle agrave une source Les scegravenes naturelles sont on lrsquoa vu plus deacutelicates agrave exploiter car on ne peut pas

garantir la preacutecision de la position theacuteorique agrave retrouver par le calcul et on ne peut donc pas calculer la preacutecision de lrsquoanalyse Seuls les enregistrements utilisant la table tournante (voir 232) permettent une mesure preacutecise de la position de lrsquoangle Ces enregistrements on pu confirmer la validiteacute de lrsquoanalyse pour des scegravenes reacuteelles on trouve ici un eacutecart-type de 25deg

Figure 44 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun bruit blanc

tournant autour du micro enregistreacute en chambre sourde Cette analyse a eacuteteacute reacutealiseacutee par sous-bandes mais sur une eacutetendue freacutequentielle

plus reacuteduite puisqursquoon srsquoest limiteacute aux possibiliteacutes offertes par le microphone La scegravene a donc eacuteteacute analyseacutee de 200 agrave 10 000 Hz

42 Quelques applications

421 Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre 2 agrave partir de lrsquoordre 1

Une fois les positions des sources connues la porte est ouverte agrave de nombreuses

applications La connaissance de ces positions permet en effet de syntheacutetiser artificiellement des composantes manquantes ou non transmises La premiegravere synthegravese deacuteveloppeacutee est celle des signaux U et V composant la partie horizontale de lrsquoordre 2 agrave partir de lrsquoordre 1 et de paramegravetres issus de lrsquoanalyse pour une source en 2D (des angles dans de cas)

42 Quelques applications 35

Figure 45 - Principe de lrsquoameacutelioration de la preacutecision spatiale

Le principe de la synthegravese est drsquoextraire les sources originales agrave partir de W X Y

et des angles (un angle par trame et par sous-bande) Ceci peut ecirctre reacutealiseacute de maniegravere approcheacutee en deacutecodant lrsquoordre 1 dans les directions des sources Ce deacutecodage revient agrave calculer les signaux qui devraient alimenter des haut-parleurs qui seraient placeacutes agrave ces positions dans le cas drsquoune restitution (voir 122) crsquoest-agrave-dire agrave former des directiviteacutes dans les directions des sources Dans la plupart des cas ce deacutecodage qui fait intervenir une pseudo-inversion de Moore-Penrose (111) est imparfait les sources se retrouvant leacutegegraverement meacutelangeacutees On peut comparer cette seacuteparation agrave celle que ferait un ensemble de microphones agrave directiviteacute hypercardioiumlde coiumlncidents

Figure 46 - Directiviteacutes eacutequivalentes agrave la seacuteparation de 4 sources agrave lrsquoordre 1 Ces sources seacutepareacutees vont ensuite constituer toujours placeacutees aux angles

deacutetermineacutes agrave lrsquoanalyse une scegravene virtuelle qursquoon va encoder agrave lrsquoordre 2 De cet encodage on ne conservera que les signaux manquants dans notre exemple les signaux du 2nd ordre U et V Ainsi la scegravene spatialiseacutee sera au final constitueacutee des signaux W X et Y drsquoorigine (transmis) et des signaux U et V syntheacutetiseacutes

Chapitre 4 Reacutesultats et applications 36

422 Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave partir de W Reconstruire une scegravene sonore spatialiseacutee agrave partir drsquoun unique canal mono est

alors difficile et le reacutesultat nrsquoest appreacuteciable que pour des scegravenes simples Il faut pour cela que les diffeacuterentes sources composant cette scegravene aient des supports spectraux aussi distincts que possible Les diffeacuterentes sous-bandes sont alors placeacutees agrave un certain angle transmis en parallegravele et crsquoest cette scegravene reconstitueacutee qui va ecirctre encodeacutee au 1er ordre de maniegravere agrave recreacuteer les signaux X et Y

Figure 47 - Principe de la restitution de lrsquoordre 1 agrave partir du signal mono W Ce scheacutema rappelle une meacutethode deacuteveloppeacutee dans le cas steacutereacuteo appeleacutee BCC

(Binaural Cue Coding) [Faller and Baumgarte 2002] Le principe est drsquoextraire et coder des informations permettant la reconstruction binaurale drsquoun signal agrave savoir les diffeacuterences interaurales drsquointensiteacute et de temps (Interaural LevelTime Difference ILD et ITD) qui correspondent dans le cas drsquoune restitution sur un casque aux diffeacuterences drsquointensiteacute et de temps inter-canal (Inter-Channel LevelTime Difference ICLD et ICTD) qui sont mesureacutees agrave partir drsquoune analyse en sous-bandes Les auteurs y ont plus reacutecemment associeacute un indice de correacutelation interaurale mesureacute agrave partir de la correacutelation inter-canal (ICC) afin de caracteacuteriser la preacutecision spatiale (la ldquolargeurrdquo drsquoune source)

Figure 48 - Scheacutema de principe de la meacutethode BCC [Faller and Baumgarte 2003]

On observe en pratique des deacutefauts lieacutes agrave la brutaliteacute de la proceacutedure une sous-

bande ne peut ecirctre que placeacutee agrave la position indiqueacutee et ne peut pas rester floue diffuse ou encore ecirctre placeacutee agrave plusieurs endroits Pour y remeacutedier nous avons ajouteacute 2 traitements agrave la synthegravese Tour drsquoabord nous avons appliqueacute un leacuteger lissage soulageant les effets deacutesagreacuteables dus au saut du contenu drsquoune sous-bande drsquoun endroit agrave un autre entre de 2 fenecirctres conseacutecutives Les positions varient alors de faccedilon plus souple au sein drsquoune mecircme sous-bande traduisant une hypothegravese de continuiteacute spatiale (pas de deacuteplacement brusque) La contrepartie est que cette hypothegravese est lieacutee agrave une hypothegravese de continuiteacute spectrale

42 Quelques applications 37

La 2egraveme ameacutelioration concerne le positionnement des sources En incluant dans la transmission un critegravere de pertinence on peut savoir srsquoil est raisonnable de placer une sous-bande agrave un angle preacutecis ou bien si lrsquoanalyse eacutetait flou agrave son sujet auquel cas un positionnement impreacutecis serait preacutefeacuterable Le paramegravetre choisi est une combinaison des critegraveres eacutevoqueacutes en 342 il nous permet de placer la sous-bande de maniegravere plus ou moins prononceacutee

43 Comparaison avec une meacutethode existante Certains auteurs ont deacutejagrave essayeacute drsquoanalyser un contenu ambisonique pour

retrouver les positions des sources Ville Pulkki a ainsi deacutecrit dans [Pulkki and Faller 2006] une meacutethode drsquoanalyse du B-format baseacutee sur lrsquoeacutetude des amplitudes des signaux W X Y et Z

Figure 49 - X et Y dans le cas drsquoune sinusoiumlde placeacutee agrave 15deg (agrave gauche) et 120deg (agrave droite)

Les figures ci-dessus montrent les relations drsquoamplitudes (algeacutebriques) qui relient

X et Y agrave lrsquoangle de la source On voit que lrsquoanalyse de ces amplitudes respectives permet de retrouver la position de la source en effet on a pour une source unique les relations de lrsquoeacutequation (11) rappeleacutee ici

⎪⎪

⎪⎪

=

=

=

=

δ

δθ

δθ

sin2

cossin2

coscos2

SZ

SY

SX

SW

(41)

On peut donc theacuteoriquement retrouver les valeurs de θ et δ par relations

trigonomeacutetriques Ainsi on a

⎪⎪⎩

⎪⎪⎨

=

=

2)sin(

)tan(

WZ

XY

δ

θ (42)

Chapitre 4 Reacutesultats et applications 38

On peut donc trouver les angles θ et δ agrave π pregraves Pour lever lrsquoambiguiumlteacute une eacutetude de signe est neacutecessaire Mais dans le cas de θ le signe de X et de Y agrave δ fixeacute deacutepend aussi bien de θ que S Il faut srsquointeacuteresser aux signes de θcos et θsin crsquoest-agrave-dire

aux signes de WX et

WY Dans la pratique on srsquointeacuteressera aux signes de et

pour se preacutevenir des divisions par zeacuteros

XW sdot YW sdot

XW sdot et YW sdot sont proportionnels agrave toujours positif

2S

Les auteurs deacutecrivent eacutegalement dans leur article un critegravere appeleacute diffuseness qui

peut ecirctre compareacute agrave un critegravere de pertinence inverseacute Ce paramegravetre calculeacute par agrave 1 - R ougrave R est un rapport de normes est tregraves proche du critegravere de norme relative deacutecrit en 342 Il peut donc ecirctre utiliseacute de la mecircme faccedilon et permettre ainsi une pleine comparaison

Cette meacutethode a eacuteteacute impleacutementeacutee pour pouvoir ecirctre compareacutee avec la meacutethode

par ACP Tous les paramegravetres ont scrupuleusement eacuteteacute gardeacutes identiques et plusieurs reacuteglages ont eacuteteacute testeacutes Les courbes ci-dessous preacutesentent les reacutesultats des analyses de la scegravene deacutecrite en 332 avec un pas de 50ms un overlap de 50 un NFFT de 2048 et 40 bandes freacutequentielles Nous avons repreacutesenteacute tous les angles trouveacutes crsquoest-agrave-dire un par bande et par trame pour srsquoaffranchir de la seacutelection des k-moyennes

π

0

minusπ

Figure 410 - Angles trouveacutes par lrsquoalgorithme de [Pulkki and Faller 2006] Le diamegravetre du point correspondant agrave la pertinence

43 Comparaison avec une meacutethode existante 39

π

0

minusπ

Figure 411 - Angles trouveacutes par une ACP pour la mecircme scegravene On remarque que les points excentriques sont moins nombreux et plus rarement trouveacutes comme pertinents

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee

441 Position du problegraveme

Une application directe de ces analyses a eacuteteacute deacuteveloppeacutee pour la confeacuterence audio

spatialiseacutee La confeacuterence audio utilise en effet la spatialisation pour permettre une meilleure seacuteparation par lrsquooreille des diffeacuterents locuteurs Ainsi si plusieurs personnes parlent en mecircme temps il sera tregraves difficile de comprendre chacun individuellement si ces voix sont restitueacutees en mono mais on pourra focaliser lrsquoattention sur chacune drsquoentre elles si elles sont seacutepareacutees spatialement (crsquoest lrsquoeffet cocktail party [Cherry 1953])

Lrsquoobjectif eacutetait de veacuterifier qursquoil eacutetait possible de conserver la spatialisation drsquoune

confeacuterence en nrsquoayant transmis qursquoun downmix mono des signaux Ce concept semble se rapprocher de celui deacutecrit en 422 mais une diffeacuterence fondamentale les seacutepare la confeacuterence audio spatialiseacutee nrsquoest pas codeacutee au format ambisonic mais les signaux traiteacutes sont directement les sons provenant des diffeacuterents locuteurs crsquoest-agrave-dire les sources elles-mecircmes Ainsi lrsquoanalyse ne porte plus sur une scegravene spatialiseacutee mais sur des signaux seacutepareacutes Il nrsquoy a ainsi plus drsquoindices spatiaux agrave trouver

Avoir accegraves aux sources permet drsquoobtenir des informations plus preacutecises pour

permettre une seacuteparation apregraves la transmission Comme nous lrsquoavons vu lrsquoanalyse drsquoune scegravene spatialiseacutee ne permet que dans drsquoultimes cas agrave la seacuteparation des sources ce qui est ici notre point de deacutepart et sera en fait notre point drsquoarriveacutee En effet nous tenterons de retrouver les sources seacutepareacutees apregraves la transmission de maniegravere agrave pouvoir par la suite les spatialiser agrave loisir (voir Figure 413)

Chapitre 4 Reacutesultats et applications 40

442 Solution proposeacutee Les paramegravetres extraits ne sont donc plus des positions de sources Nous avons

choisi de mesurer puis transmettre lrsquoeacutenergie de chaque signal dans chaque sous-bande en parallegravele du downmix En effet une bonne seacuteparation sera possible si lrsquoon sait quelle proportion de chaque source compose chaque sous-bande du signal mono

Figure 412 - Scheacutema de principe drsquoune confeacuterence audio spatialiseacutee

Figure 413 - Scheacutema ameacutelioreacute (deacutebit reacuteduit)

en pointilleacutes informations compleacutementaires (eacutenergie) Lrsquoanalyse en sous-bandes a lieu dans le serveur (Figure 414) Celui-ci calcule

lrsquoeacutenergie de chaque signal dans chaque sous-bande sur une trame donneacutee Crsquoest ce paramegravetre qui associeacute au signal mono M permettra la seacuteparation des sources dans le terminal (Figure 415) Ce dernier reacutepartira en effet les diffeacuterentes sous-bandes vers chaque signal reconstitueacute proportionnellement agrave cette information pour reconstruire les 4 sources originales

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee 41

Figure 414 - Analyse principe de lrsquoencodage dans le serveur

Figure 415 - Synthegravese principe du deacutecodage dans le client

Afin de reacuteduire au maximum les informations compleacutementaires agrave transmettre on

peut remarquer qursquoau cours drsquoune confeacuterence audio on a tregraves souvent un seul locuteur les participants ne parlent que tregraves rarement tous en mecircme temps Ceci implique que les signaux en entreacutee sont tregraves souvent tous nuls sauf 1 et appliquer un seuil en entreacutee de lrsquoanalyse permet outre lrsquoallegravegement du traitement drsquoavoir moins de paramegravetres agrave transmettre

Ce scheacutema simplifieacute ne tient pas compte des problegravemes de phase rien nrsquoindique

que les eacutenergies des signaux srsquoajoutent bien dans chaque sous-bande lors du downmix on peut tregraves bien avoir des oppositions de phase La solution est drsquoeffectuer le downmix (la somme) des signaux dans chaque sous-bande en prenant soin drsquoavoir recaleacute les phases au preacutealable Ceci nrsquoa un sens que pour des bandes suffisamment eacutetroites Les deacutecalages temporels appliqueacutes pour le recalage sont alors des paramegravetres suppleacutementaires agrave transmettre et sont pris en compte lors de la synthegravese au niveau du reacutepartiteur qui repositionnera la phase de chaque trame pour chaque signal

Chapitre 4 Reacutesultats et applications 42

443 Bilan Le reacutesultat du deacutecodage a pu ecirctre eacutecouteacute de diffeacuterentes maniegraveres les sources

reconstitueacutees individuellement ensemble en steacutereacuteo drsquoamplitude et sur un systegraveme 51 On note que les sources ont eacuteteacute assez bien seacutepareacutees mais que des artefacts sont audibles en particulier lorsque le nombre de locuteurs simultaneacutes augmentent Ces artefacts sont un meacutelange des voix qui nrsquoest gecircnant que lorsqursquoon les eacutecoute de maniegravere seacutepareacutee En effet lrsquoeacutecoute simultaneacutee de ces signaux syntheacutetiseacutes mecircme placeacutes agrave des positions distinctes sur un systegraveme de diffusion multicanal est tout agrave fait satisfaisante

Ce proceacutedeacute pour pouvoir ecirctre appliqueacute doit fonctionner en temps-reacuteel Cette

contrainte nrsquoa pas du tout eacuteteacute prise en compte lrsquoobjectif eacutetant de valider la faisabiliteacute drsquoune reconstruction Les programmes sous Matlab nrsquoont pas eacuteteacute optimiseacutes et ne respectent pas cette contrainte

43

Conclusion Nous avons preacutesenteacute dans ce rapport le principe et lrsquoapplication de plusieurs

meacutethodes drsquoanalyses spatiales de scegravenes ambisoniques conccedilues et reacutealiseacutee pendant le stage Le format HOA est en effet une repreacutesentation du champ acoustique deacutecomposeacute sur une base drsquoharmoniques spheacuteriques jusqursquoagrave un certain ordre agrave la maniegravere drsquoun deacuteveloppement limiteacute Il contient donc de maniegravere indirecte des indications spatiales qursquoon peut extraire avec des analyses comme lrsquoanalyse en composantes principales

Ces analyses nous permettent de deacuteterminer les positions des sources qui

composent la scegravene sonore Nous avons appliqueacute les reacutesultats de ces analyses agrave 2 types de synthegravese lrsquoune destineacutee aux transmissions bas deacutebit lrsquoautre agrave un traitement de restitution de la preacutecision spatiale dans le cas ougrave des ordres supeacuterieurs dont le but est drsquoaffiner la perception de localisation nrsquoauraient pas pu ecirctre transmis Ces algorithmes par le codage drsquoinformations spatiales qursquoils permettent pourront trouver bien drsquoautres applications dans la transmission et le codage ougrave la description du contenu est de plus en plus utiliseacutee (comme par exemple dans la norme MPEG)

Des ameacuteliorations sont possibles sur plusieurs points tout drsquoabord lrsquoexploitation

de toutes les composantes de lrsquoACP est agrave lrsquoeacutetude et semble pouvoir donner des reacutesultats inteacuteressants Drsquoautre part on a vu que le reacutesultat final est tregraves deacutependant de la bonne convergence de lrsquoalgorithme des k-moyennes utiliseacute pour traiter les donneacutees brutes de lrsquoanalyse en sous-bandes Or cet algorithme neacutecessite des reacuteglages tregraves fins et une connaissance a priori du nombre de sources est presque indispensable Drsquoautres algorithmes plus complexes de suivi de formes pourraient ecirctre avantageusement utiliseacutes pour deacutetecter dans tous les angles trouveacutes lesquels sont susceptibles de former une trajectoire

45

Annexe A

Deacuteveloppement du champ acoustique en harmoniques spheacuteriques

A1 Eacutequation drsquoonde en coordonneacutees spheacuteriques On se place dans lrsquoespace euclidien agrave 3 dimensions muni drsquoun systegraveme de

coordonneacutees spheacuteriques Un point M y est repeacutereacute par son rayon r son azimut θ et son eacuteleacutevation δ tels que repreacutesenteacutes sur la figure ci-dessous

- r est la norme du vecteur position rr crsquoest-agrave-dire la distance OM - [20[ πθ isin est lrsquoangle formeacute par le projeteacute du point sur le plan xOy et lrsquoaxe Ox

- ]2

2

[ ππδ minusisin est lrsquoangle formeacute par le plan xOy et le vecteur position2

Figure A1 - Systegraveme de coordonneacutees spheacuteriques

2 Cet angle diffegravere de lrsquoangle polaire usuel δπϕ minus=

2 habituellement pris entre lrsquoaxe Oz et le

vecteur position

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 46

Les relations entre les coordonneacutees spheacuteriques et les coordonneacutees carteacutesiennes sont

⎪⎩

⎪⎨

===

δδθδθ

sincossincoscos

zryrx

(A1)

On srsquointeacuteresse dans ce repegravere agrave lrsquoeacutequation de propagation des ondes acoustiques

de pression On se place dans les conditions classiques drsquoacoustique lineacuteaire (les variations de p sont petites par rapport agrave la pression atmospheacuterique) en supposant que lrsquoair est un fluide parfait (on y neacutegligera les pheacutenomegravenes dissipatifs) Dans une reacutegion de lrsquoespace ne comprenant pas de sources lrsquoeacutequation drsquoonde srsquoeacutecrit alors

0)(12

2

2 =⎟⎟⎠

⎞⎜⎜⎝

⎛partpart

minus∆ trptc

r (A2)

p eacutetant la pression et c la vitesse de propagation du son dans lrsquoair

Cette eacutequation devient dans le domaine freacutequentiel lrsquoeacutequation de Helmholtz

( ) 0)(2 =+∆ ωrpk r (A3)

ck ω

= eacutetant le nombre drsquoonde

En coordonneacutees spheacuteriques cette eacutequation srsquoeacutecrit

0sin1sin

sin11 2

2

2

222

2 =⎥⎦

⎤⎢⎣

⎡+

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart pk

rrrr

rr δθθθ

θθ (A4)

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques Drsquoapregraves [Bruneau 1983] elle admet des solutions agrave variables seacutepareacutees de la forme

)()()( δθ ΦΘ= rRp (A5) Ces solutions sont respectivement - pour la partie radiale une combinaison des fonctions de Bessel spheacuteriques de

premiegravere et seconde espegravece3 jn et nn

)()()( krBnkrAjrR nn += (A6) 3 Les fonctions de Bessel spheacuteriques de seconde espegravece sont eacutegalement appeleacutees fonctions de

Neumann

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 47

Ces fonctions sont deacutefinies comme suit

(A7)

Figure A2 - Fonctions de Bessel spheacuteriques pour les ordres 0 agrave 5 )(krjm

- pour la partie azimutale les fonctions )(θΘ

)sin()cos()( 21 θθθ ncnc +=Θ (A8) Eacutetant donneacute la deacutefinition de lrsquoangle Θ celui-ci doit neacutecessairement ecirctre de

peacuteriode 2π ))2()(( πθθ +Θ=Θ ce qui impose agrave n drsquoecirctre entier

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 48

- pour la partie polaire les fonctions de Legendre associeacutees )(sinδmnP

nm

nn

mn dPdP

)(sin)(sinsin)(sin

δδ

δδ = pour ⎩⎨⎧

gt=

nmavecnm 321

(A9)

ougrave les )(sinδnP sont les polynocircmes de Legendre de degreacute n en δsin deacutefinis par reacutecurrence

( )

11

22

1

0

sin)12()(sin)1(

1cos321)(sin

sin)(sin0)(sin

minus+ minus+=+

minus=

==

mmm mPPmPmet

P

PP

δδ

ϕδ

δδδ

(A10)

et de formule geacuteneacuterale

mm

m

mm dd

mP )1(sin

)(sin21)(sin 2 minus= δ

δδ (A11)

On peut appliquer aux fonctions )(sinδmnP la semi-normalisation de Schmidt

)(sin)()()(sin~ δεδ mnnmn P

nmnmP

+minus

= ougrave 10 =ε et 2=nε pour 1gen (A12)

En appariant les fonctions polaires et azimutales on deacutefinit les harmoniques

spheacuteriques de degreacute et drsquoordre)1(mnY 0gem 4 mnn lele0 et de degreacute et

drsquoordre (voir Figure A3)

)1(minusmnY 1gem

mnn lele1

)(sin~)sin()(

)(sin~)cos()()1(

)1(

δθδθ

δθδθ

mnmn

mnmn

PnY

PnY

=

=minus

(A13)

4 En geacuteneacuteral lorsque le degreacute et lrsquoordre ne sont pas eacutevoqueacutes conjointement on parle par abus de langage drsquoharmoniques drsquoordre m plutocirct que de degreacute m

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 49

soit

1)(sin

)()()12(2sin)(

)(sin)()()12(2cos)(

1)(sin)1()1()12(cos)(

)1(

)1(

1)1(

1

gt

⎪⎪⎩

⎪⎪⎨

+minus

+=

+minus

+=

=+minus

+=

minus

npourP

nmnmmnY

PnmnmmnY

npourPmmmY

mnmn

mnmn

mm

δθδθ

δθδθ

δθδθ

(A14)

La solution angulaire geacuteneacuterale srsquoeacutecrit alors sous la forme drsquoun deacuteveloppement sur

la base drsquoharmoniques spheacuteriques

( ) ( )sum minus

=minus+=Θ

1

1)1()1()( n

m mnmnmnmnn YBYBθ (A15) La solution geacuteneacuterale est alors la seacuterie de Fourier-Bessel

sum sum sum+infin

= = plusmn=

=0 0 1

)()( )()()(m

m

nmnmnm

m YBkrjikrpσ

σσ δθδθ (A16)

ougrave

intint⎪⎩

⎪⎨⎧

minusisin

isin

plusmnplusmn =

]2

2

[

[20[

)1()1( )()1()(

1

ππδ

πθ

δθδθ

S

mnm

mmn dSYpkrji

B (A17)

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 50

Tableau A1 - Expressions analytiques des harmoniques spheacuteriques pour les ordres 0 agrave 3

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 51

Figure A3 - Repreacutesentation des harmoniques spheacuteriques pour les ordres m = 0 agrave 3 Les

couleurs rouge et bleu indiquent respectivement des valeurs positives et neacutegatives

53

Annexe B

Compleacutements theacuteoriques sur le deacutecodage HOA

B1 Vecteur veacutelociteacute et vecteur eacutenergie Le vecteur veacutelociteacute est un indice de la direction apparente drsquoune source introduit

par Gerzon [Gerzon 1992] Il se calcule comme le rapport de la vitesse particulaire sur la pression acoustique

)()(

)()(1

δθδθ

δθδθ

ρ rprp

ki

rprv

cV nabla

minus=minus=rrr

(B1)

Dans le cas drsquoune onde plane le vecteur veacutelociteacute V

rest ainsi directement un

vecteur unitaire orienteacute vers la direction de provenance de lrsquoonde En geacuteneacuteralisant agrave une superposition drsquoondes planes en phase ou opposition de phase eacutemises par L haut-parleurs agrave eacutequidistance du point drsquoobservation on obtient la formule suivante

VVL

ll

L

lll

urg

ugV r

rr

==

sum

sum

=

=

1

1 (B2)

ougrave deacutesigne la direction du llur egraveme haut-parleur auquel est associeacute le gain gl et Vr Vur correspondent respectivement agrave la norme et agrave la direction du vecteur veacutelociteacute

Le vecteur eacutenergie est un autre indice de direction Il est deacutefinit par

EEL

ll

L

lll

urg

ugE r

rr

==

sum

sum

=

=

1

2

1

2

(B3)

Annexe B Compleacutements theacuteoriques sur le deacutecodage HOA 54

Il peut srsquointerpreacuteter comme une indication de la concentration de lrsquoeacutenergie ( ) et de sa direction moyenne de provenance (

Er

Eur ) On a toujours 1ltEr sauf dans le cas ougrave un seul haut-parleur contribue agrave la reconstruction (dans ce cas ) peut ecirctre consideacutereacute comme un indicateur de preacutecision de la localisation

1=Er Er

B2 Deacutecodages optimiseacutes La restitution la plus confortable drsquoun champ sonore veillera donc agrave maximiser

tout en essayant de garder le plus proche possible de 1 Lrsquooptimisation du deacutecodage consiste alors agrave multiplier chaque coefficient de la matrice de deacutecodage D (voir (111) par des gains calculeacutes drsquoapregraves des critegraveres drsquooptimisation

Er Vr

Ainsi le deacutecodage appeleacute max- maximise la norme du vecteur eacutenergie en

sacrifiant celle du vecteur veacutelociteacute puisqursquoon a dans ce deacutecodage (pour des configurations reacuteguliegraveres de haut-parleurs) Ce deacutecodage est donc avantageux par rapport au deacutecodage basique pour les hautes freacutequences ou dans le cas drsquoun auditoire eacutelargi Le deacutecodage in-phase va encore plus loin en cherchant agrave annuler complegravetement les contributions des haut-parleurs placeacutes agrave lrsquoopposeacute de la direction de provenance de lrsquoonde reproduite Ce critegravere est utile dans le cas drsquoune eacutecoute dans une position tregraves excentreacutee agrave laquelle on pourrait percevoir de faccedilon preacutedominante la contribution en opposition de phase drsquoun tel haut-parleur

Er

EV rr =

Ces diffeacuterents deacutecodages ont chacun des avantages et inconveacutenients Ainsi seul le

deacutecodage basique garantit = 1 le deacutecodage max- permet une preacutecision meilleure notamment en haute freacutequence et le deacutecodage in-phase est plus adapteacute agrave un auditoire plus large Jeacuterocircme Daniel [Daniel 2000] propose ainsi de changer le deacutecodage en fonction de la freacutequence et de lrsquoeacutetendue de la zone drsquoeacutecoute deacutesireacutee

Vr Er

Figure B1 - Deacutecodages les plus approprieacutes par sous-bande et en fonction de lrsquoeacutetendue de la

zone drsquoeacutecoute [Daniel 2000]

55

Annexe C

Analyse en composantes principales

C1 Espace des donneacutees Eacutegalement souvent appeleacutee transformeacutee de Karhunen-Loegraveve5 (TKL) lrsquoanalyse en

composantes principales (ACP) est une technique statistique de repreacutesentation drsquoinformation Introduite sur 2 variables par Pearson [Pearson 1900] elle a eacuteteacute eacutetendue par Hotelling [Hotelling 1933] Elle a pour but de caracteacuteriser des donneacutees drsquoun espace agrave N dimensions dans un sous-espace plus petit en minimisant les pertes drsquoinformation due agrave la projection crsquoest-agrave-dire en maximisant la variance projeteacutee Les donneacutees ainsi reacuteorganiseacutees deviennent indeacutependantes Les variables correacuteleacutees sont remplaceacutees par de nouvelles variables deacutecorreacuteleacutees et de variance maximale combinaisons lineacuteaires des variables initiales

Les donneacutees sont constitueacutees de n variables aleacuteatoires (dans notre cas des canaux)

et p reacutealisations ou individus (des eacutechantillons)

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

pn

p

ji

n

xx

x

xx

M

LLL

MOMNM

MLLM

MNMOM

LLL

1

111

(C1)

Ces donneacutees sont geacuteneacuteralement centreacutees et peuvent aussi ecirctre reacuteduites4 (on note

1x la moyenne de la variable et 1x )( 1xσ sa variance) Reacuteduire ou non le nuage de points (ie les p reacutealisations de la variable aleacuteatoire) est un choix de modegravele

5 Quelques rares sources mentionnent une diffeacuterence entre ACP et TKL en placcedilant celle-ci au

niveau du choix de la reacuteduction des donneacutees dans le cas dune ACP les donneacutees seraient centreacutees et reacuteduites alors qursquoelles seraient uniquement centreacutees pour une TKL

Annexe C Analyse en composantes principales 56

- si on ne reacuteduit pas le nuage une variable agrave forte variance pourrait tirer tout lrsquoeffet de lrsquoACP agrave elle

- si on reacuteduit le nuage une variable qui ne serait qursquoun bruit se retrouverait avec une variance apparente eacutegale agrave une variable informative

M est centreacutee

⎥⎥⎥

⎢⎢⎢

minusminusminus

minusminus=

npn

pi

ji

nn

xxxxxx

xxxxM

K

MM

K

11

11

11

ˆ (C2)

M~ est centreacutee et reacuteduite

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

minusminus

minus

minusminus

=

)()(

)(

)()(~

1

11

1

1

111

n

npn

pi

ij

i

n

nn

xxx

xxx

xxx

xxx

xxx

M

σσ

σ

σσ

K

MM

K

(C3)

On multiplie ensuite la matrice obtenue par sa transposeacutee pour obtenir - La matrice de covariance MMC t

vˆˆ sdot=

- La matrice de correacutelation MMC tr

~~ sdot= Ces matrices sont carreacutees (N x N) symeacutetriques et reacuteelles Elles sont donc

diagonalisables dans une base orthonormeacutee 6 Le principe de lrsquoACP est alors de trouver un axe u issu drsquoune combinaison lineacuteaire

des tel que le critegravere drsquoinertie du nuage autour de cet axe soit maximal Le critegravere drsquoinertie couramment utiliseacute est la variance Il faut donc trouver lrsquoaxe qui porte le maximum de variance crsquoest-agrave-dire lrsquoaxe u tel que la projection du nuage sur cet axe ait une variance maximale

nx

6 Nos donneacutees eacutetant ici des valeurs drsquoeacutechantillons elles sont par nature centreacutees et reacuteduites On

formera donc naturellement la matrice de correacutelation

C2 Diagonalisation 57

C2 Diagonalisation Pour alleacuteger lrsquoeacutecriture de la suite de cette partie nous consideacutererons que les

variables ont eacuteteacute centreacutees et si besoin reacuteduites et nous noterons ces variables

transformeacutees (ainsi

ix ix

iii xxx minuslarr ou bien )( i

iii x

xxxσ

minuslarr ) On fera de mecircme pour M

( ou bien MM ˆlarr MM ~larr ) et C ( vCC larr ou bien rCC larr ) La projection drsquoun eacutechantillon sur un axe u srsquoeacutecrit ix

uMxiu sdot=)(π (C4) La variance empirique de )( iu xπ vaut donc

uMMuxx ttiu

tiu sdotsdotsdot=sdot )()( ππ (C5)

Or on a vu que est diagonalisable dans une base orthonormeacutee donc

on peut noter P le changement de base associeacute et ∆ la matrice diagonale formeacutee de son spectre Ainsi

MMC t=

n

i 1)(λ PPMMC tt ∆==

)()()()( PuPuuPPuxx ttt

iut

iu sdot∆sdot=sdot∆sdot=sdotππ (C6) On pose v = Pu Chercher lrsquoaxe u qui maximise )( iu xπ revient donc agrave chercher le

vecteur v qui maximise ougravevvt ∆ )( 1 ndiag λλ K=∆ avec les iλ rangeacutes par ordre deacutecroissant Ce vecteur est trivialement le premier vecteur unitaire et on a alors

1λ=∆vvt

Ainsi le vecteur qui porte la plus grande part drsquoinertie du nuage est le premier

vecteur propre de C (premier par norme deacutecroissante) De mecircme le deuxiegraveme vecteur qui explique la plus grandelt part de lrsquoinertie restante est le deuxiegraveme vecteur propre de C Finalement la question de lrsquoACP se ramegravene agrave un problegraveme de diagonalisation de la matrice de correacutelation

C3 Code Matlab

function [vep vap] = pca(f N) f donneacutees N nombre de composantes agrave garder cor = f f formation de la matrice de correacutelation [vep vap] = eig(cor) calcul des vecteurs (vep) et valeurs (vap) propres [vap ind] = sort(diag(vap)) tri des valeurs propres par ordre croissant vap = flipud(vap) disposition inverse par ordre drsquoimportance vep = vep( flipud(ind)) classement en conseacutequence des vecteurs propres vep = vep( 1N) on ne garde que les N premiers vecteurs propres

Annexe C Analyse en composantes principales 58

59

Annexe D

Analyse en sous-bandes

D1 La transformeacutee de Fourier agrave court terme (TFCT) Pour affiner lrsquoanalyse les signaux sont donc deacutecoupeacutes en bandes de freacutequence par

TFCT La TFCT consiste agrave effectuer des transformeacutees de Fourier discregravetes sur des portions de signal fenecirctreacutees reacuteguliegraverement espaceacutees

On rappelle que la transformeacutee de Fourier drsquoun signal x(t) est deacutefinie (lorsque

lrsquointeacutegrale existe) par

int+infin

infinminus

minus= dtetxfX ftiπ2)()( (D1)

La transformeacutee de Fourier agrave temps discret (TFTD) drsquoun signal x(t) srsquoeacutecrit

sum+infin

minusinfin=

minus=n

fnienxfX π2)()( (D2)

La transformeacutee de Fourier discregravete (TFD) drsquoun signal discret x(k) est deacutefinie par

sum+infin

minusinfin=

minus=

n

Nkni

enxkXπ2

)()( (D3)

La TFCT discregravete est une TFD observeacutee sur une fenecirctre wa de taille N

summinus

=

minus+=

1

0

2)())(()(

N

n

Nnki

aaa enwtnxkXπ

ττ (D4)

ougrave )(taτ est lrsquoinstant drsquoanalyse

Annexe D Analyse en sous-bandes 60

Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT [Laroche 1995]

D2 Synthegravese par addition-recouvrement Lors de la synthegravese apregraves le deacutecoupage et lrsquoanalyse des fenecirctres on cherche agrave

reconstruire le signal temporel agrave partir de sa repreacutesentation freacutequentielle Pour cela on utilise la meacutethode OLA (overlap and add addition-recouvrement) qui consiste agrave prendre la TFCT inverse des spectres Xt puis agrave additionner les signaux obtenus apregraves les avoir multiplieacutes par une fenecirctre de pondeacuteration en les faisant se recouvrir partiellement

Le reacutesultat est donneacute par

sum=

minusminus=T

tsss tnxtnwnx

s1

))((~))(()(~ ττ τ (D5)

avec )()( tt as ττ = et summinus

=

=1

0

2))((~1)(~ N

k

Nkni

s ektXN

nxs

π

τ τ

Lors de la mise en œuvre de ce traitement il faut srsquoassurer drsquoecirctre en mesure de

reconstruire parfaitement un signal lorsqursquoaucune transformation ne lui est appliqueacutee Le critegravere de reconstruction parfaite condition suffisante est alors

sum=

=minusminusT

tasaa tnwtnw

11))(())(( ττ quelque soit n (D6)

D2 Synthegravese par addition-recouvrement 61

Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add [Laroche 1995]

Plusieurs paramegravetres sont agrave choisir avec soin Le premier drsquoentre eux est le type

de fenecirctre agrave utiliser Les diffeacuterentes options qui se preacutesentent agrave nous sont - la fenecirctre rectangulaire qui preacutesente dans son spectre le lobe principal le plus

eacutetroit mais des lobes secondaires non neacutegligeables - la fenecirctre de Hamming au lobe principal un peu plus large mais pour laquelle le

1er lobe secondaire se situe agrave -43 dB - la fenecirctre de Hann (ou cosinus sureacuteleveacute) qui ressemble agrave la preacuteceacutedente avec un

1er lobe secondaire plus fort mais une pente de 18 dB par octave pour les lobes suivants

- les fenecirctres de Blackman-Harris aux lobes secondaires tregraves bas mais au lobe principal plus large

Fenecirctre Lobe 2aire

(dB) Pente

(dBoct) Bande passante

agrave 6 dB (bins) Rectangulaire -13 -6 121 Triangulaire -27 -12 178

Hann -32 -18 200 Hamming -43 -6 181

Blackman-Harris 4 -92 -6 272

Tableau D1 - Caracteacuteristiques des principales fenecirctres drsquoanalyse [Harris 1978] Le meilleur compromis est donc dans notre contexte la fenecirctre de Hann ou celle

de Hamming

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 25: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

23 Meacutethodologie 19

saturation) Cette dimension suppleacutementaire aurait permis de repreacutesenter simultaneacutement les angles et leur pertinence

Figure 25 - Repreacutesentation

et de lrsquoespace col

Pour repreacutesenter s

drsquoabandonner une dimensipouvoir repreacutesenter danrepreacutesenteacutees soit par le niv

Figure 26 - Repreacutesentationdeacutecrite en 332 (en absciss

est repreacutesenteacutee agrave gauc

234 Diffeacuterents modes La visualisation est

indispensable pour veacuterifiesont possibles de ceux-cainsi reconstitueacutee agrave partir d

1 W+Y+02X pour le c

π 0 minusπ

de la table des couleurs dite HSV de Matlab (lineacuteaire agrave gauche) orimeacutetrique HSL (Hue Saturation Luminance agrave droite)

imultaneacutement angles et pertinence il eacutetait donc neacutecessaire on Crsquoest le deacutecoupage freacutequentiel qui a eacuteteacute mis de cocircteacute pour s un plan temps-angles les pertinences Celles-ci sont eau de gris des points soit par leur taille

de la pertinence des angles de la scegravene agrave 4 sources dont 1 mobile e les trames en ordonneacutees les angles en degreacute) La pertinence he par lrsquointensiteacute du bleu et agrave droite par la taille des points

drsquoeacutecoute

un indice preacutecis de reacutesultat mais lrsquoeacutecoute est tout de mecircme r la qualiteacute globale de la synthegravese Plusieurs modes drsquoeacutecoute i lrsquoeacutecoute au casque est la plus aiseacutee Une pseudo-steacutereacuteo est es signaux du 1er ordre1 pour restituer les scegravenes restreintes au

anal gauche et W-Y+02X pour le canal droit

Chapitre 2 Analyser un contenu HOA 20

plan horizontal Pour plus de preacutecision agrave la restitution ou pour des scegravenes en 3D et sans perdre la faciliteacute drsquoune eacutecoute personnelle au casque on peut appliquer des filtres HRTF (Head-Related Transfert Function) pour une reproduction binaurale

Pour appreacutecier pleinement la spatialisation la diffusion sur un systegraveme multi

haut-parleurs est indispensable Deux systegravemes sont installeacutes dans le laboratoire de France Teacuteleacutecom un systegraveme 51 et un systegraveme circulaire de 48 haut-parleurs Ces systegravemes installeacutes dans des studios insonoriseacutes offrent une grande qualiteacute drsquoeacutecoute qui permet de repeacuterer les deacutefauts mecircme minimes de la synthegravese

21

Chapitre 3

Description des analyses

31 Deacutetermination des directions principales

311 Base des algorithmes Nous avons deacuteveloppeacute plusieurs algorithmes reacutepondant aux diffeacuterents objectifs

deacutecrits plus haut Chacun drsquoeux possegravede des particulariteacutes leur permettant de reacutepondre agrave ces objectifs mais on trouve neacuteanmoins une partie commune Ainsi toutes les analyses reposent sur le mecircme modegravele drsquoapplication drsquoune ACP par sous-bandes dont voici le scheacutema geacuteneacuteral

Figure 31 - Scheacutema geacuteneacuteral drsquoanalyse

Les signaux en entreacutee sont les composantes HOA W X et Y dans la plupart des

cas mais peuvent ecirctre eacutegalement des composantes drsquoordre plus eacuteleveacute (voir 11) Sur le fenecirctrage jouent plusieurs paramegravetres comme la taille de la fenecirctre ou encore le pourcentage de recouvrement entre elles Nous avons choisi une fenecirctre en racine de la fenecirctre de Hanning crsquoest-agrave-dire une arche de sinusoiumlde (voir eacutequation (D7) en Annexe D) avec un recouvrement de 50 ce qui veacuterifie le critegravere de reconstruction parfaite (D6) Le filtrage est pour des raisons de rapiditeacute de calcul reacutealiseacute dans le domaine freacutequentiel par une simple multiplication avant de repasser en temporel pour appliquer lrsquoACP

Le banc de filtre utiliseacute est un banc inspireacute des filtres ERB Les filtres ERB

(Equivalent Regular Bandwidth) sont des filtres imitant le comportement de seacuteparation freacutequentielle de lrsquooreille humaine plus preacutecise en basse freacutequence Les filtres utiliseacutes ici ne sont pas directement des filtres ERB le systegraveme nrsquoa pas drsquointeacuterecirct particulier agrave essayer de copier le fonctionnement de lrsquooreille humaine Ces filtres ont eacuteteacute adapteacutes au problegraveme en

Chapitre 3 Description des analyses 22

srsquoassurant en particulier de la finesse des bandes permettant la meilleure discrimination des diffeacuterentes sources crsquoest-agrave-dire autour des fondamentales usuelles (200-1000 Hz) et des harmoniques Les freacutequences aigueumls sont bien discrimineacutees par les filtres ERB (relativement agrave la gamme crsquoest-agrave-dire en eacutechelle logarithmique) le deacutecoupage a donc surtout eacuteteacute densifieacute entre 200 et 800 Hz par rapport aux bandes ERB

Figure 32 - Filtres utiliseacutes inspireacutes des filtres ERB repreacutesenteacutes lineacuteairement (en haut)

et sur une eacutechelle logarithmique (en bas) Les reacutesultats de lrsquoACP sont donc avec cette meacutethode les angles des sources

trouveacutees dans chaque sous-bande ainsi que pour chacun drsquoeux un critegravere de pertinence calculeacute en fonction de lrsquoeacutenergie de la sous-bande dans une fenecirctre donneacutee et de la norme relative de la premiegravere composante de lrsquoACP (voir 342) Les autres vecteurs propres peuvent ecirctre utiliseacutes pour extraire davantage drsquoinformations et mecircme des signaux deacutecorreacuteleacutes comme on le verra au paragraphe 35 mais lrsquoanalyse semble alors moins robuste Srsquoen tenir aux informations donneacutees par la composante principale est un gage de pertinence suppleacutementaire

Ces reacutesultats concernent donc les sources preacutedominantes ou principales mais

laissent de cocircteacute un certain nombre drsquoeacuteveacutenements sonores agrave consideacuterer

312 Traitement du champ reacutesiduel Le champ reacutesiduel regroupe en quelque sorte tout ce qui nrsquoest pas une source

principale Il inclut donc les reacuteflexions et la reacuteverbeacuteration de la piegravece mais aussi les bruits parasites occasionnels ou continus (ventilation etc) Ces bruits ou eacutechos nrsquoont pas de direction de provenance assez distincte pour pouvoir ecirctre mesureacutee preacuteciseacutement Le champ reacutesiduel est eacutegalement composeacute du champ diffus La notion de champ diffus est couramment utiliseacutee mais rarement preacuteciseacutement deacutefinie On trouve dans la litteacuterature des deacutefinitions diverses lrsquoune drsquoelles preacutecisant qursquoil serait un ensemble drsquoeacuteveacutenements sonores proches en temps et provenant de directions eacutequiprobables

Les algorithmes proposeacutes traitent correctement les sources principales mais le

champ reacutesiduel est laisseacute de cocircteacute Il est pourtant tregraves important pour lrsquoimmersion du sujet dans la scegravene une scegravene deacutepourvue de champ sonore sera perccedilue comme artificielle ce qui nuit agrave la perception drsquoespace On sera par exemple davantage conscients drsquoecirctre au centre drsquoun dispositif expeacuterimental et moins sensibles aux variations de profondeur et de perspectives

31 Deacutetermination des directions principales 23

Neacuteanmoins il faut relativiser lrsquoimportance de ce champ reacutesiduel il nrsquoest pas utile pour la localisation des sources principales et ne caracteacuterise que lrsquoenvironnement drsquoenregistrement En outre le champ reacutesiduel qui provient souvent de directions floues et notre but nrsquoest pas de les preacuteciser artificiellement Il nrsquoest degraves lors geacuteneacuteralement pas utile de le transmettre aux ordres eacuteleveacutes

Ainsi certains auteurs [Merimaa and Pulkki 2005] ont choisi de recreacuteer lors drsquoune

synthegravese un champ diffus artificiel baseacute sur une reacuteponse impulsionnelle de salle calculeacutee agrave lrsquoavance Lrsquoavantage est une immersion un enveloppement complets lrsquoinconveacutenient est que lrsquoambiance ainsi recreacuteeacutee est fictive et arbitraire et en outre complegravetement indeacutependante de lrsquoambiance initiale en laissant notamment de cocircteacute les sources secondaires

Nous proposons dans nos algorithmes de ne pas syntheacutetiser le champ diffus aux

ordres eacuteleveacutes mais de nous contenter de la description du champ reacutesiduel fourni par les ordres transmis (1er ordre dans nos exemples) Nous nous limiterons donc agrave preacuteciser par la synthegravese des ordres supeacuterieurs les positions des sources principales

32 Extension agrave la 3D Nous avons pour le moment eacutevoqueacute le cas de repreacutesentations de champ sonore agrave

2 dimensions crsquoest-agrave-dire issus de sources placeacutees dans le plan horizontal Mais certaines repreacutesentations comportent eacutegalement des composantes verticales Pour analyser ces signaux en 3 dimensions il faut inteacutegrer la composante Z On effectue alors simplement une ACP sur X Y Z et W Le 1er vecteur propre sera alors bien dirigeacute dans lrsquoespace (X Y Z) dans la direction de la source lrsquoambiguiumlteacute de frac12 espace eacutetant leveacutee par W

Lrsquoalgorithme est alors complegravetement similaire agrave celui analysant des signaux en 2

dimensions Des tests ont eacuteteacute reacutealiseacutes agrave partir de signaux syntheacutetiques pour lesquels les positions des sources eacutetaient connues pour des raisons pratiques aucune scegravene sonore reacuteelle en 3 dimensions nrsquoa pu ecirctre enregistreacutee avec une connaissance initiale preacutecise des positions des sources

Les visualisations et les eacutecoutes eacutetant plus deacutelicates en 3D et lrsquoextension agrave la 3D

eacutetant immeacutediate nous avons donc concentreacute nos efforts sur lrsquoanalyse de scegravenes en 2D En outre en lrsquoabsence de dispositif spheacuterique ou heacutemispheacuterique de haut-parleurs le seul moyen agrave notre disposition pour eacutecouter une scegravene 3D est lrsquoeacutecoute binaurale crsquoest-agrave-dire au casque avec des fonctions de transfert de tecircte (HRTF) relativement bien adapteacutees agrave lrsquoauditeur

33 Analyse aux ordres supeacuterieurs

331 Description Afin drsquoameacuteliorer la preacutecision de lrsquoanalyse nous avons essayeacute drsquoappliquer une ACP

sur des signaux ambisoniques drsquoordre plus eacuteleveacute (signaux HOA) dans le plan horizontal Deux meacutethodes ont eacuteteacute essayeacutees

Chapitre 3 Description des analyses 24

La premiegravere consiste agrave appliquer une ACP agrave 3 dimensions successivement sur les composantes X Y W (ordre 1 et 0) puis U V W (ordre 2 et 0) et ainsi de suite crsquoest-agrave-dire (en utilisant la notation geacuteneacuterale) sur les composantes et W (ordre m et 0) Les reacutesultats de ces analyses (les directions des 1

)1(0mY )1(

0minus

mYegraveres composantes) sont ensuite regroupeacutees

lrsquoanalyse de lrsquoordre 1 fournissant des reacutesultats modulo 2π lrsquoanalyse de lrsquoordre 2 des reacutesultats plus preacutecis mais modulo π et plus geacuteneacuteralement lrsquoanalyse de lrsquoordre m permettant de trouver des angles modulo mπ2

La limite de cette approche se perccediloit lors de la fusion des reacutesultats les angles

trouveacutes agrave un ordre eacuteleveacute sont plus preacutecis dans des bandes de freacutequences eacuteleveacutees mais la limitation theacuteorique de ces signaux HOA dans les basses freacutequences font que lrsquoanalyse de lrsquoordre 1 reste la plus pertinente dans les premiegraveres bandes Parvenir agrave deacuteterminer agrave partir de quelle freacutequence on peut faire davantage confiance agrave lrsquoordre n+1 qursquoagrave lrsquoordre n nrsquoest pas aiseacute et cette limite provoque des aberrations dans les angles trouveacutes Une source unique pourra par exemple ecirctre interpreacuteteacutee par lrsquoalgorithme des k-moyennes (voir 341) comme 2 sources une en hautes freacutequences et une en basses freacutequences les 2 eacutetant trouveacutes agrave 2 angles diffeacuterents chaque angle relevant drsquoun ordre analyseacute diffeacuterent

La deuxiegraveme meacutethode consiste pour eacuteviter cette fusion des reacutesultats agrave effectuer

une seule ACP sur les composantes U V X Y et W Cette meacutethode souffre drsquoune tregraves grande complexiteacute algorithmique pour une ameacutelioration de la preacutecision peu sensible En effet si cette meacutethode permet drsquoobtenir des reacutesultats plus preacutecis dans certaines bandes de freacutequences elle est sensible aux deacutefauts et les limites des ordres supeacuterieurs (lrsquoabsence de basses freacutequences entre autres) perturbent lrsquoanalyse en composantes principales

332 Illustration sur une scegravene virtuelle La scegravene preacutesenteacutee ici est une scegravene artificielle crsquoest-agrave-dire composeacutee de sons

placeacutes artificiellement agrave diverses positions Elle a une dureacutee totale de 135 s et comporte 4 sources positionneacutees dans le plan horizontal une guitare placeacutee agrave 45deg une basse agrave -70deg une batterie agrave 110deg et une voix feacuteminine qui effectue continucircment un tour complet dans le sens indirect en partant de lrsquoarriegravere (elle passe donc successivement par les positions 180deg 90deg 0deg -90deg et -180deg) La guitare et la batterie srsquoarrecirctent peu avant la fin de la scegravene (12egraveme seconde au 910egraveme du son approximativement)

Figure 33 - Position des sources de la scegravene de test agrave 4 sources dont 1 mobile

33 Analyse aux ordres supeacuterieurs 25

Figure 34 - Angles drsquoune scegravene virtuelle ayant 1 source mobile et 3 sources fixes

(deacutecrite en 332) trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 Pour chaque trame (en abscisse) 20 angles (1 par bande en ordonneacutee et en degreacutes) sont

reporteacutes le diamegravetre du point correspondant agrave un critegravere de pertinence (voir 342)

Figure 35 - Angles de la mecircme scegravene trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 2 Reacutesultats modulo π reacutepliqueacutes pour faciliter la comparaison avec la figure preacuteceacutedente On remarque que les lignes sont plus nettes qursquoil y a moins drsquoangles aberrants et que

les angles corrects sont plus marqueacutes (ils sont deacutetermineacutes comme plus pertinent)

Chapitre 3 Description des analyses 26

20

0

20

0

20

0

Figure 36 - Angles drsquoune scegravene reacuteelle constitueacutee drsquoun bruit parcourant le cercle trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 (en haut) 0 et 2 (au milieu) et 0 et 4 (en bas) Le

numeacutero de trame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On retrouve qursquoune limitation des ordres HOA supeacuterieurs issus drsquoun enregistrement

microphonique est la restitution des basses freacutequences

34 Traitement des donneacutees

341 Algorithme des k-moyennes Agrave lrsquoissue de lrsquoanalyse en composantes principales on reacutecupegravere avec la premiegravere

des meacutethodes exposeacutees au chapitre preacuteceacutedent des angles correspondants aux positions des sources preacutedominantes agrave raison drsquoune valeur par fenecirctre et par bande de freacutequence Il faut agrave partir de ces donneacutees parvenir agrave isoler les sources crsquoest-agrave-dire agrave deacuteterminer quels sont les angles pertinents et examiner quels sont ceux qui agrave une certaine toleacuterance pregraves sont preacutesents dans plusieurs bandes de freacutequence etou plusieurs fenecirctres temporelles

Pour pouvoir exploiter ces donneacutees spatiales nous avons utiliseacute lrsquoalgorithme des

k-moyennes (ou k-means) [MacQueen 1967] sur les angles pondeacutereacutes par des critegraveres de pertinence Cet algorithme fonctionne de la maniegravere suivante

Initialisation choix de k barycentres (les k moyennes) Reacutepeacuteter Associer chaque eacuteleacutement au barycentre le plus proche Recalculer les positions des barycentres Jusqursquoagrave ce que les barycentres soient stables (ou au bout de t iteacuterations)

34 Traitement des donneacutees 27

Lrsquoavantage de cet algorithme est drsquoecirctre peu glouton puisqursquoil converge en O(tkn) ougrave t est le nombre drsquoiteacuterations k le nombre de centres et n le nombre de points (geacuteneacuteralement on a t k ltlt n) Par contre il est plutocirct sensible aux exceptions un point aberrant tirera agrave lui la moyenne auquel il aura eacuteteacute associeacute Il faut donc faire en sorte que ces points erroneacutes soient aussi rares que possibles Crsquoest pourquoi les angles traiteacutes sont pondeacutereacutes par 2 critegraveres de pertinence

La pondeacuteration des angles fournis en entreacutee de lrsquoalgorithme des k-moyennes se

fait de maniegravere simple en reacutepeacutetant ces angles un nombre de fois (de 0 agrave 10) proportionnel agrave un critegravere Ainsi un angle tregraves pertinent sera dupliqueacute et sera preacutesent plusieurs fois dans la liste des donneacutees traiteacutees attirant ainsi agrave lui la position du barycentre le plus proche Au contraire un angle trop peu pertinent ne sera pas reacutepeacuteteacute voir mecircme sera enleveacute de la liste

Le seul problegraveme de cet algorithme est qursquoil neacutecessite la connaissance de k crsquoest-

agrave-dire du nombre de sources qui composent la scegravene Une deacutetermination automatique se basant sur la reacutepeacutetition de lrsquoalgorithme avec un k croissant a eacuteteacute testeacutee mais le critegravere drsquoarrecirct reposant sur la dispersion des points autour des barycentres nrsquoeacutetant pas assez robuste cette meacutethode a provisoirement eacuteteacute mise de cocircteacute

342 Critegraveres de pertinence Les 2 critegraveres de pondeacuteration choisis sont lrsquoeacutenergie de la sous-bande dans la

fenecirctre donneacutee et le rapport de la norme de la 1egravere composante (la composante principale) de lrsquoACP sur la somme des normes de toutes les composantes

En effet un angle est trouveacute dans chaque sous-bande de chaque fenecirctre mecircme si

le signal y est tregraves faible Lrsquoangle trouveacute sera alors tregraves peu repreacutesentatif de la direction drsquoune source puisqursquoil indiquera la direction drsquoun bruit Lrsquoeacutenergie doit donc ecirctre prise en compte pour ne conserver que les angles trouveacutes dans des bandes comportant un signal suffisant

La norme relative de la 1egravere composante de lrsquoACP rend quant agrave elle compte du

poids relatif de cette composante par rapport aux autres Ainsi si 2 sources sont preacutesentes dans une bande donneacutee la 1egravere composante sera agrave peine plus marqueacutee que la 2egraveme Ceci peut ecirctre calculeacute en prenant simplement le rapport de la 1egravere valeur propre sur la somme des valeurs propres

On peut noter que la norme de la 1egravere composante ne se deacutetache nettement que

lorsqursquoun son est preacutesent dans la bande consideacutereacutee On peut alors se demander si lrsquoeacutenergie doit ecirctre prise en compte ou si lrsquoinformation qursquoelle contient nrsquoest comprise dans le 2egraveme critegravere En fait la norme relative est un critegravere tregraves bruiteacute et consideacuterer lrsquoeacutenergie par ailleurs permet de nuancer ces artefacts et constitue une base solide de pondeacuteration

Chapitre 3 Description des analyses 28

80

40

0

Figure 37 - Repreacutesentation temps-freacutequence des angles du son deacutecrit en 332 Letrame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On peut donc v

par trame et par bande chacun eacutetant le reacutesultat drsquoune ACP crsquoest-agrave-dire la 1egravere

Figure 38 - Eacutenergie de ce mecircme son On peut voir une basse en notes tenues uneet une batterie qui produit des sons secs dans un spectre plus aigu

80

40

0

80

40

0

Figure 39 - Norme relative de la 1egravere composante de ce mecircme son Les impacts de batterie (dans lrsquoaigu) ressortent davantage

π 0 minusπ

numeacutero de oir un angle direction

voix aiguumle

34 Traitement des donneacutees 29

Figure 310 - Pondeacuteration appliqueacutee agrave lrsquoentreacutee des k-moyennes calculeacutee ici comme

le simple produit de lrsquoeacutenergie et de la norme relative

80

40

0

343 Lissages

Pour faire face au bruit ineacutevitable dans les reacutesultats il faut lisser les donneacutees Ces

lissages temporels correspondent agrave des hypothegraveses de stabiliteacute des sources qui sont supposeacutees ecirctre fixes ou mobiles relativement lentement (dans une mesure agrave parameacutetrer)

Un premier lissage peut ecirctre opeacutereacute avant le traitement par lrsquoalgorithme des k-

moyennes Le filtre choisi est un filtre meacutedian de maniegravere agrave eacuteliminer les points aberrants tout en conservant les vraies valeurs des points coheacuterents Ce lissage est appliqueacute sur chaque sous-bande aux angles et ne tient pas compte des critegraveres de pertinence Il est donc utiliseacute avec parcimonie et peut mecircme ecirctre eacuteviteacute en reacuteglant de maniegravere adeacutequate les critegraveres de pondeacuteration agrave lrsquoentreacutee des k-moyennes

Le deuxiegraveme lissage srsquoeffectue agrave lrsquoentreacutee des k-moyennes en mecircme temps que les

critegraveres de pondeacuteration Il consiste agrave appliquer les k-moyennes non pas sur une fenecirctre donneacutee mais sur plusieurs fenecirctres conseacutecutives anteacuterieures et posteacuterieures en donnant plus de poids agrave la fenecirctre courante Dans la pratique les poids donneacutes aux diffeacuterentes fenecirctres sont eacutetablis par une gaussienne centreacutee sur la fenecirctre courante et de largeur agrave deacuteterminer (en fonction notamment de la dureacutee drsquoune fenecirctre et du type de scegravene analyseacute)

35 Exploitation de toutes les composantes de lrsquoACP Les analyses preacutesenteacutees preacuteceacutedemment ont toutes exploiteacute uniquement la

composante principale extraite par lrsquoACP Or cette analyse fournit des informations plus complegravetes par lrsquointermeacutediaire des autres composantes dont on peut tirer parti pour isoler plusieurs sources au sein drsquoune mecircme bande Cette approche est toujours en deacuteveloppement dans ce stage et nrsquoa pas encore donneacute pleine mesure des reacutesultats qursquoelle laisse entrevoir

Les composantes de lrsquoACP indiquent des directions qui correspondent aux

diffeacuterentes sources composant la scegravene sonore Les vecteurs propres de la matrice de correacutelation donnent ainsi les combinaisons lineacuteaires des signaux HOA permettant de

Chapitre 3 Description des analyses 30

seacuteparer de la meilleure faccedilon possible ces sons Ces directions peuvent ecirctre alors utiliseacutees pour former des directiviteacutes isolant au mieux ces sources

aBS sdot= (31)

ougrave la matrice a contient les vecteurs propres de la matrice de correacutelation (voir Annexe C) le vecteur B contient les signaux HOA et le vecteur S contient les sources extraites

⎟⎟⎟

⎜⎜⎜

=⎟⎟⎟

⎜⎜⎜

⎛=

⎥⎥⎥

⎢⎢⎢

⎟⎟⎟

⎜⎜⎜

⎟⎟⎟

⎜⎜⎜

⎛=

10

1001

1

ML

N

B

BB

S

SSuua MML (32)

On obtient ainsi des lobes drsquoautant plus eacutetroits que lrsquoordre est eacuteleveacute chacun

dirigeacute vers une source et permettant de lrsquoisoler le plus possible des contributions des autres sources La Figure 311 preacutesente les directiviteacutes ainsi trouveacutees par une ACP en pleine bande Une analyse en sous-bande permet une plus grande distinction des sources mais une seacuteparation diffeacuterente entre les bandes est dangereuse car elle risque de dissocier spatialement plusieurs parties drsquoun mecircme son

Figure 311 - Directiviteacutes seacuteparant ideacutealement 4 sources placeacutees agrave 17 73 195 et -58deg

pour une scegravene virtuelle encodeacutee agrave lrsquoordre 4 Ce principe se heurte neacuteanmoins aux limites de seacuteparation lieacutees agrave lrsquoordre

drsquoencodage en effet 2 sources ne pourront pas ecirctre seacutepareacutees si elles sont trop proches comme en teacutemoigne la largeur des lobes principaux Les lobes secondaires traduisent eacutegalement un meacutelange des sources isoleacutees La figure ci-dessus montre ainsi que la source placeacutee agrave 17deg (en vert) sera preacutesente de maniegravere non neacutegligeable dans le signal senseacute contenir la source placeacutee agrave -58deg (en bleu) en raison du lobe secondaire bleu important

31

Chapitre 4

Reacutesultats et applications

41 Illustration et critique des reacutesultats obtenus

411 Avant-propos Sans notification particuliegravere les reacutesultats preacutesenteacutes ont eacuteteacute obtenus avec un pas

de 50 ms une analyse en 80 bandes avec une FFT sur 8192 points Une taille de FTT plus grande et un plus grand nombre de bande augmente la qualiteacute de lrsquoanalyse un pas plus petit ameacuteliore sa preacutecision temporelle mais les reacutesultats sont moins fiables et un lissage plus important srsquoimpose alors Ces paramegravetres ont eacuteteacute reacutegleacutes apregraves de multiples essais sur des scegravenes diverses

Les reacutesultats sont preacutesenteacutes ici uniquement sous la forme de graphiques nous ne

pouvons donc repreacutesenter que les angles trouveacutes agrave la sortie de lrsquoalgorithme des k-moyennes

412 Scegravene 2D artificielle agrave 4 sources fixes La premiegravere scegravene est une scegravene artificielle composeacutee de 4 sons fixes placeacutes agrave -70

-10 45 et 110deg Ces sons (une basse une voix une guitare et une batterie) ont eacuteteacute choisis pour leur varieacuteteacute spectrale et leur varieacuteteacute drsquoattaque Elle a en outre le meacuterite drsquoecirctre reacutealiste et de constituer une seacutequence musicale (chaque son nrsquoest pas une meacutelodie indeacutependante)

On voit sur la Figure 41 ci-dessous que les angles trouveacutes sont proches des

angles theacuteoriques Lrsquoun des sons (agrave 45deg) est quasiment nul avant la 100egraveme trame sa position est alors moins facile agrave deacuteterminer plus preacuteciseacutement une position approximative est trouveacutee et correspondrait exactement agrave la position du bruit (45deg) si lrsquoincertitude de mesure tregraves grande pour un son aussi faible ne rendait la deacutetermination si ardue On mesure un eacutecart-type de 22deg sur cet exemple (en excluant le deacutebut du son agrave 45deg)

Chapitre 4 Reacutesultats et applications 32

Figure 41 - Angles theacuteoriques (en pointilleacutes rouge) et calculeacutes (en trait bleu) pour une scegravene

constitueacutee de 4 sons fixes longue de 11s

413 Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile

Figure 42 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) de la scegravene agrave

4 sources dont 1 mobile deacutecrite en 332 Cette scegravene est deacutecrite en 332 On a ici demandeacute aux k-moyennes de renvoyer 5 barycentres par trame alors que

seules 4 sources eacutetaient preacutesentes dans le but de se garantir une marge vis-agrave-vis des erreurs de deacutetection Cette 5egraveme direction nrsquoest pas du tout gecircnante elle indique une direction qui ne contient pas de source et crsquoest donc un son tregraves faible qui est ainsi pointeacute Apregraves une eacuteventuelle extraction le signal ne sera donc pas du tout gecircnant

41 Illustration et critique des reacutesultats obtenus 33

On peut remarquer que quand le son mobile se rapproche drsquoun son fixe la deacutetection est moins bonne il y a une fusion entre les 2 sons Mais encore une fois lors de lrsquoextraction lrsquoisolation drsquoun des sons englobera lrsquoautre son ce qui ne posera pas de problegraveme pour les objectifs fixeacutes aucune source nrsquoeacutetant oublieacutee En effet la seacuteparation de sources nrsquoest pas un objectif ici mais un moyen pour preacuteciser les positions des sources ce qui sera fait correctement mecircme si 2 sources sont pointeacutees par 1 seule direction

414 Scegravene 3D artificielle agrave une source et bruit de fond

La scegravene dont la position drsquoune source a eacuteteacute extraite ci-dessous est une scegravene virtuelle en 3D constitueacute drsquoun son (une voix) qursquoon a fait se deacuteplacer par paliers tout drsquoabord vers le haut de 0deg agrave 45deg et vers la gauche de 0deg agrave 90deg puis redescendre jusqursquoagrave 35deg en continuant son cheminement vers la gauche jusqursquoagrave 120deg et enfin finir la descente de 35deg agrave 0deg en la laissant agrave 120deg Agrave cette source a eacuteteacute superposeacutee une ambiance spatialiseacutee de hall drsquoaeacuteroport initialement enregistreacutee en 2D (au format 51) mais transformeacutee pour contenir des composantes verticales Cette ambiance deacutecorreleacutee de la source avait pour but de tester la robustesse de lrsquoanalyse Elle eacutetait agrave 15 dB en-dessous du niveau de la voix

Figure 43 - Azimut et eacuteleacutevation theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun

son en 3D artificiel de 9s placeacute dans une ambiance bruyante On remarque que lrsquoanalyse est tregraves correcte Il nrsquoy a pas drsquoeacutecart important entre

les angles theacuteoriques et ceux calculeacutes On note toutefois que le lissage agrave lrsquoentreacutee des k-moyennes a pour effet de gommer les creacuteneaux et drsquoaplatir quelque peu la courbe drsquoeacuteleacutevation ceci nrsquoest pas vraiment gecircnant car de tels sauts dans la position drsquoune source ne sont pas du tout reacutealistes (ils peuvent caracteacuteriser des bruits de pas mais de tels impacts sont courts et on peut srsquoattendre agrave ce que la courbe suive leur position aux instants ougrave ils sont eacutemis)

Chapitre 4 Reacutesultats et applications 34

415 Scegravene 2D naturelle agrave une source Les scegravenes naturelles sont on lrsquoa vu plus deacutelicates agrave exploiter car on ne peut pas

garantir la preacutecision de la position theacuteorique agrave retrouver par le calcul et on ne peut donc pas calculer la preacutecision de lrsquoanalyse Seuls les enregistrements utilisant la table tournante (voir 232) permettent une mesure preacutecise de la position de lrsquoangle Ces enregistrements on pu confirmer la validiteacute de lrsquoanalyse pour des scegravenes reacuteelles on trouve ici un eacutecart-type de 25deg

Figure 44 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun bruit blanc

tournant autour du micro enregistreacute en chambre sourde Cette analyse a eacuteteacute reacutealiseacutee par sous-bandes mais sur une eacutetendue freacutequentielle

plus reacuteduite puisqursquoon srsquoest limiteacute aux possibiliteacutes offertes par le microphone La scegravene a donc eacuteteacute analyseacutee de 200 agrave 10 000 Hz

42 Quelques applications

421 Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre 2 agrave partir de lrsquoordre 1

Une fois les positions des sources connues la porte est ouverte agrave de nombreuses

applications La connaissance de ces positions permet en effet de syntheacutetiser artificiellement des composantes manquantes ou non transmises La premiegravere synthegravese deacuteveloppeacutee est celle des signaux U et V composant la partie horizontale de lrsquoordre 2 agrave partir de lrsquoordre 1 et de paramegravetres issus de lrsquoanalyse pour une source en 2D (des angles dans de cas)

42 Quelques applications 35

Figure 45 - Principe de lrsquoameacutelioration de la preacutecision spatiale

Le principe de la synthegravese est drsquoextraire les sources originales agrave partir de W X Y

et des angles (un angle par trame et par sous-bande) Ceci peut ecirctre reacutealiseacute de maniegravere approcheacutee en deacutecodant lrsquoordre 1 dans les directions des sources Ce deacutecodage revient agrave calculer les signaux qui devraient alimenter des haut-parleurs qui seraient placeacutes agrave ces positions dans le cas drsquoune restitution (voir 122) crsquoest-agrave-dire agrave former des directiviteacutes dans les directions des sources Dans la plupart des cas ce deacutecodage qui fait intervenir une pseudo-inversion de Moore-Penrose (111) est imparfait les sources se retrouvant leacutegegraverement meacutelangeacutees On peut comparer cette seacuteparation agrave celle que ferait un ensemble de microphones agrave directiviteacute hypercardioiumlde coiumlncidents

Figure 46 - Directiviteacutes eacutequivalentes agrave la seacuteparation de 4 sources agrave lrsquoordre 1 Ces sources seacutepareacutees vont ensuite constituer toujours placeacutees aux angles

deacutetermineacutes agrave lrsquoanalyse une scegravene virtuelle qursquoon va encoder agrave lrsquoordre 2 De cet encodage on ne conservera que les signaux manquants dans notre exemple les signaux du 2nd ordre U et V Ainsi la scegravene spatialiseacutee sera au final constitueacutee des signaux W X et Y drsquoorigine (transmis) et des signaux U et V syntheacutetiseacutes

Chapitre 4 Reacutesultats et applications 36

422 Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave partir de W Reconstruire une scegravene sonore spatialiseacutee agrave partir drsquoun unique canal mono est

alors difficile et le reacutesultat nrsquoest appreacuteciable que pour des scegravenes simples Il faut pour cela que les diffeacuterentes sources composant cette scegravene aient des supports spectraux aussi distincts que possible Les diffeacuterentes sous-bandes sont alors placeacutees agrave un certain angle transmis en parallegravele et crsquoest cette scegravene reconstitueacutee qui va ecirctre encodeacutee au 1er ordre de maniegravere agrave recreacuteer les signaux X et Y

Figure 47 - Principe de la restitution de lrsquoordre 1 agrave partir du signal mono W Ce scheacutema rappelle une meacutethode deacuteveloppeacutee dans le cas steacutereacuteo appeleacutee BCC

(Binaural Cue Coding) [Faller and Baumgarte 2002] Le principe est drsquoextraire et coder des informations permettant la reconstruction binaurale drsquoun signal agrave savoir les diffeacuterences interaurales drsquointensiteacute et de temps (Interaural LevelTime Difference ILD et ITD) qui correspondent dans le cas drsquoune restitution sur un casque aux diffeacuterences drsquointensiteacute et de temps inter-canal (Inter-Channel LevelTime Difference ICLD et ICTD) qui sont mesureacutees agrave partir drsquoune analyse en sous-bandes Les auteurs y ont plus reacutecemment associeacute un indice de correacutelation interaurale mesureacute agrave partir de la correacutelation inter-canal (ICC) afin de caracteacuteriser la preacutecision spatiale (la ldquolargeurrdquo drsquoune source)

Figure 48 - Scheacutema de principe de la meacutethode BCC [Faller and Baumgarte 2003]

On observe en pratique des deacutefauts lieacutes agrave la brutaliteacute de la proceacutedure une sous-

bande ne peut ecirctre que placeacutee agrave la position indiqueacutee et ne peut pas rester floue diffuse ou encore ecirctre placeacutee agrave plusieurs endroits Pour y remeacutedier nous avons ajouteacute 2 traitements agrave la synthegravese Tour drsquoabord nous avons appliqueacute un leacuteger lissage soulageant les effets deacutesagreacuteables dus au saut du contenu drsquoune sous-bande drsquoun endroit agrave un autre entre de 2 fenecirctres conseacutecutives Les positions varient alors de faccedilon plus souple au sein drsquoune mecircme sous-bande traduisant une hypothegravese de continuiteacute spatiale (pas de deacuteplacement brusque) La contrepartie est que cette hypothegravese est lieacutee agrave une hypothegravese de continuiteacute spectrale

42 Quelques applications 37

La 2egraveme ameacutelioration concerne le positionnement des sources En incluant dans la transmission un critegravere de pertinence on peut savoir srsquoil est raisonnable de placer une sous-bande agrave un angle preacutecis ou bien si lrsquoanalyse eacutetait flou agrave son sujet auquel cas un positionnement impreacutecis serait preacutefeacuterable Le paramegravetre choisi est une combinaison des critegraveres eacutevoqueacutes en 342 il nous permet de placer la sous-bande de maniegravere plus ou moins prononceacutee

43 Comparaison avec une meacutethode existante Certains auteurs ont deacutejagrave essayeacute drsquoanalyser un contenu ambisonique pour

retrouver les positions des sources Ville Pulkki a ainsi deacutecrit dans [Pulkki and Faller 2006] une meacutethode drsquoanalyse du B-format baseacutee sur lrsquoeacutetude des amplitudes des signaux W X Y et Z

Figure 49 - X et Y dans le cas drsquoune sinusoiumlde placeacutee agrave 15deg (agrave gauche) et 120deg (agrave droite)

Les figures ci-dessus montrent les relations drsquoamplitudes (algeacutebriques) qui relient

X et Y agrave lrsquoangle de la source On voit que lrsquoanalyse de ces amplitudes respectives permet de retrouver la position de la source en effet on a pour une source unique les relations de lrsquoeacutequation (11) rappeleacutee ici

⎪⎪

⎪⎪

=

=

=

=

δ

δθ

δθ

sin2

cossin2

coscos2

SZ

SY

SX

SW

(41)

On peut donc theacuteoriquement retrouver les valeurs de θ et δ par relations

trigonomeacutetriques Ainsi on a

⎪⎪⎩

⎪⎪⎨

=

=

2)sin(

)tan(

WZ

XY

δ

θ (42)

Chapitre 4 Reacutesultats et applications 38

On peut donc trouver les angles θ et δ agrave π pregraves Pour lever lrsquoambiguiumlteacute une eacutetude de signe est neacutecessaire Mais dans le cas de θ le signe de X et de Y agrave δ fixeacute deacutepend aussi bien de θ que S Il faut srsquointeacuteresser aux signes de θcos et θsin crsquoest-agrave-dire

aux signes de WX et

WY Dans la pratique on srsquointeacuteressera aux signes de et

pour se preacutevenir des divisions par zeacuteros

XW sdot YW sdot

XW sdot et YW sdot sont proportionnels agrave toujours positif

2S

Les auteurs deacutecrivent eacutegalement dans leur article un critegravere appeleacute diffuseness qui

peut ecirctre compareacute agrave un critegravere de pertinence inverseacute Ce paramegravetre calculeacute par agrave 1 - R ougrave R est un rapport de normes est tregraves proche du critegravere de norme relative deacutecrit en 342 Il peut donc ecirctre utiliseacute de la mecircme faccedilon et permettre ainsi une pleine comparaison

Cette meacutethode a eacuteteacute impleacutementeacutee pour pouvoir ecirctre compareacutee avec la meacutethode

par ACP Tous les paramegravetres ont scrupuleusement eacuteteacute gardeacutes identiques et plusieurs reacuteglages ont eacuteteacute testeacutes Les courbes ci-dessous preacutesentent les reacutesultats des analyses de la scegravene deacutecrite en 332 avec un pas de 50ms un overlap de 50 un NFFT de 2048 et 40 bandes freacutequentielles Nous avons repreacutesenteacute tous les angles trouveacutes crsquoest-agrave-dire un par bande et par trame pour srsquoaffranchir de la seacutelection des k-moyennes

π

0

minusπ

Figure 410 - Angles trouveacutes par lrsquoalgorithme de [Pulkki and Faller 2006] Le diamegravetre du point correspondant agrave la pertinence

43 Comparaison avec une meacutethode existante 39

π

0

minusπ

Figure 411 - Angles trouveacutes par une ACP pour la mecircme scegravene On remarque que les points excentriques sont moins nombreux et plus rarement trouveacutes comme pertinents

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee

441 Position du problegraveme

Une application directe de ces analyses a eacuteteacute deacuteveloppeacutee pour la confeacuterence audio

spatialiseacutee La confeacuterence audio utilise en effet la spatialisation pour permettre une meilleure seacuteparation par lrsquooreille des diffeacuterents locuteurs Ainsi si plusieurs personnes parlent en mecircme temps il sera tregraves difficile de comprendre chacun individuellement si ces voix sont restitueacutees en mono mais on pourra focaliser lrsquoattention sur chacune drsquoentre elles si elles sont seacutepareacutees spatialement (crsquoest lrsquoeffet cocktail party [Cherry 1953])

Lrsquoobjectif eacutetait de veacuterifier qursquoil eacutetait possible de conserver la spatialisation drsquoune

confeacuterence en nrsquoayant transmis qursquoun downmix mono des signaux Ce concept semble se rapprocher de celui deacutecrit en 422 mais une diffeacuterence fondamentale les seacutepare la confeacuterence audio spatialiseacutee nrsquoest pas codeacutee au format ambisonic mais les signaux traiteacutes sont directement les sons provenant des diffeacuterents locuteurs crsquoest-agrave-dire les sources elles-mecircmes Ainsi lrsquoanalyse ne porte plus sur une scegravene spatialiseacutee mais sur des signaux seacutepareacutes Il nrsquoy a ainsi plus drsquoindices spatiaux agrave trouver

Avoir accegraves aux sources permet drsquoobtenir des informations plus preacutecises pour

permettre une seacuteparation apregraves la transmission Comme nous lrsquoavons vu lrsquoanalyse drsquoune scegravene spatialiseacutee ne permet que dans drsquoultimes cas agrave la seacuteparation des sources ce qui est ici notre point de deacutepart et sera en fait notre point drsquoarriveacutee En effet nous tenterons de retrouver les sources seacutepareacutees apregraves la transmission de maniegravere agrave pouvoir par la suite les spatialiser agrave loisir (voir Figure 413)

Chapitre 4 Reacutesultats et applications 40

442 Solution proposeacutee Les paramegravetres extraits ne sont donc plus des positions de sources Nous avons

choisi de mesurer puis transmettre lrsquoeacutenergie de chaque signal dans chaque sous-bande en parallegravele du downmix En effet une bonne seacuteparation sera possible si lrsquoon sait quelle proportion de chaque source compose chaque sous-bande du signal mono

Figure 412 - Scheacutema de principe drsquoune confeacuterence audio spatialiseacutee

Figure 413 - Scheacutema ameacutelioreacute (deacutebit reacuteduit)

en pointilleacutes informations compleacutementaires (eacutenergie) Lrsquoanalyse en sous-bandes a lieu dans le serveur (Figure 414) Celui-ci calcule

lrsquoeacutenergie de chaque signal dans chaque sous-bande sur une trame donneacutee Crsquoest ce paramegravetre qui associeacute au signal mono M permettra la seacuteparation des sources dans le terminal (Figure 415) Ce dernier reacutepartira en effet les diffeacuterentes sous-bandes vers chaque signal reconstitueacute proportionnellement agrave cette information pour reconstruire les 4 sources originales

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee 41

Figure 414 - Analyse principe de lrsquoencodage dans le serveur

Figure 415 - Synthegravese principe du deacutecodage dans le client

Afin de reacuteduire au maximum les informations compleacutementaires agrave transmettre on

peut remarquer qursquoau cours drsquoune confeacuterence audio on a tregraves souvent un seul locuteur les participants ne parlent que tregraves rarement tous en mecircme temps Ceci implique que les signaux en entreacutee sont tregraves souvent tous nuls sauf 1 et appliquer un seuil en entreacutee de lrsquoanalyse permet outre lrsquoallegravegement du traitement drsquoavoir moins de paramegravetres agrave transmettre

Ce scheacutema simplifieacute ne tient pas compte des problegravemes de phase rien nrsquoindique

que les eacutenergies des signaux srsquoajoutent bien dans chaque sous-bande lors du downmix on peut tregraves bien avoir des oppositions de phase La solution est drsquoeffectuer le downmix (la somme) des signaux dans chaque sous-bande en prenant soin drsquoavoir recaleacute les phases au preacutealable Ceci nrsquoa un sens que pour des bandes suffisamment eacutetroites Les deacutecalages temporels appliqueacutes pour le recalage sont alors des paramegravetres suppleacutementaires agrave transmettre et sont pris en compte lors de la synthegravese au niveau du reacutepartiteur qui repositionnera la phase de chaque trame pour chaque signal

Chapitre 4 Reacutesultats et applications 42

443 Bilan Le reacutesultat du deacutecodage a pu ecirctre eacutecouteacute de diffeacuterentes maniegraveres les sources

reconstitueacutees individuellement ensemble en steacutereacuteo drsquoamplitude et sur un systegraveme 51 On note que les sources ont eacuteteacute assez bien seacutepareacutees mais que des artefacts sont audibles en particulier lorsque le nombre de locuteurs simultaneacutes augmentent Ces artefacts sont un meacutelange des voix qui nrsquoest gecircnant que lorsqursquoon les eacutecoute de maniegravere seacutepareacutee En effet lrsquoeacutecoute simultaneacutee de ces signaux syntheacutetiseacutes mecircme placeacutes agrave des positions distinctes sur un systegraveme de diffusion multicanal est tout agrave fait satisfaisante

Ce proceacutedeacute pour pouvoir ecirctre appliqueacute doit fonctionner en temps-reacuteel Cette

contrainte nrsquoa pas du tout eacuteteacute prise en compte lrsquoobjectif eacutetant de valider la faisabiliteacute drsquoune reconstruction Les programmes sous Matlab nrsquoont pas eacuteteacute optimiseacutes et ne respectent pas cette contrainte

43

Conclusion Nous avons preacutesenteacute dans ce rapport le principe et lrsquoapplication de plusieurs

meacutethodes drsquoanalyses spatiales de scegravenes ambisoniques conccedilues et reacutealiseacutee pendant le stage Le format HOA est en effet une repreacutesentation du champ acoustique deacutecomposeacute sur une base drsquoharmoniques spheacuteriques jusqursquoagrave un certain ordre agrave la maniegravere drsquoun deacuteveloppement limiteacute Il contient donc de maniegravere indirecte des indications spatiales qursquoon peut extraire avec des analyses comme lrsquoanalyse en composantes principales

Ces analyses nous permettent de deacuteterminer les positions des sources qui

composent la scegravene sonore Nous avons appliqueacute les reacutesultats de ces analyses agrave 2 types de synthegravese lrsquoune destineacutee aux transmissions bas deacutebit lrsquoautre agrave un traitement de restitution de la preacutecision spatiale dans le cas ougrave des ordres supeacuterieurs dont le but est drsquoaffiner la perception de localisation nrsquoauraient pas pu ecirctre transmis Ces algorithmes par le codage drsquoinformations spatiales qursquoils permettent pourront trouver bien drsquoautres applications dans la transmission et le codage ougrave la description du contenu est de plus en plus utiliseacutee (comme par exemple dans la norme MPEG)

Des ameacuteliorations sont possibles sur plusieurs points tout drsquoabord lrsquoexploitation

de toutes les composantes de lrsquoACP est agrave lrsquoeacutetude et semble pouvoir donner des reacutesultats inteacuteressants Drsquoautre part on a vu que le reacutesultat final est tregraves deacutependant de la bonne convergence de lrsquoalgorithme des k-moyennes utiliseacute pour traiter les donneacutees brutes de lrsquoanalyse en sous-bandes Or cet algorithme neacutecessite des reacuteglages tregraves fins et une connaissance a priori du nombre de sources est presque indispensable Drsquoautres algorithmes plus complexes de suivi de formes pourraient ecirctre avantageusement utiliseacutes pour deacutetecter dans tous les angles trouveacutes lesquels sont susceptibles de former une trajectoire

45

Annexe A

Deacuteveloppement du champ acoustique en harmoniques spheacuteriques

A1 Eacutequation drsquoonde en coordonneacutees spheacuteriques On se place dans lrsquoespace euclidien agrave 3 dimensions muni drsquoun systegraveme de

coordonneacutees spheacuteriques Un point M y est repeacutereacute par son rayon r son azimut θ et son eacuteleacutevation δ tels que repreacutesenteacutes sur la figure ci-dessous

- r est la norme du vecteur position rr crsquoest-agrave-dire la distance OM - [20[ πθ isin est lrsquoangle formeacute par le projeteacute du point sur le plan xOy et lrsquoaxe Ox

- ]2

2

[ ππδ minusisin est lrsquoangle formeacute par le plan xOy et le vecteur position2

Figure A1 - Systegraveme de coordonneacutees spheacuteriques

2 Cet angle diffegravere de lrsquoangle polaire usuel δπϕ minus=

2 habituellement pris entre lrsquoaxe Oz et le

vecteur position

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 46

Les relations entre les coordonneacutees spheacuteriques et les coordonneacutees carteacutesiennes sont

⎪⎩

⎪⎨

===

δδθδθ

sincossincoscos

zryrx

(A1)

On srsquointeacuteresse dans ce repegravere agrave lrsquoeacutequation de propagation des ondes acoustiques

de pression On se place dans les conditions classiques drsquoacoustique lineacuteaire (les variations de p sont petites par rapport agrave la pression atmospheacuterique) en supposant que lrsquoair est un fluide parfait (on y neacutegligera les pheacutenomegravenes dissipatifs) Dans une reacutegion de lrsquoespace ne comprenant pas de sources lrsquoeacutequation drsquoonde srsquoeacutecrit alors

0)(12

2

2 =⎟⎟⎠

⎞⎜⎜⎝

⎛partpart

minus∆ trptc

r (A2)

p eacutetant la pression et c la vitesse de propagation du son dans lrsquoair

Cette eacutequation devient dans le domaine freacutequentiel lrsquoeacutequation de Helmholtz

( ) 0)(2 =+∆ ωrpk r (A3)

ck ω

= eacutetant le nombre drsquoonde

En coordonneacutees spheacuteriques cette eacutequation srsquoeacutecrit

0sin1sin

sin11 2

2

2

222

2 =⎥⎦

⎤⎢⎣

⎡+

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart pk

rrrr

rr δθθθ

θθ (A4)

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques Drsquoapregraves [Bruneau 1983] elle admet des solutions agrave variables seacutepareacutees de la forme

)()()( δθ ΦΘ= rRp (A5) Ces solutions sont respectivement - pour la partie radiale une combinaison des fonctions de Bessel spheacuteriques de

premiegravere et seconde espegravece3 jn et nn

)()()( krBnkrAjrR nn += (A6) 3 Les fonctions de Bessel spheacuteriques de seconde espegravece sont eacutegalement appeleacutees fonctions de

Neumann

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 47

Ces fonctions sont deacutefinies comme suit

(A7)

Figure A2 - Fonctions de Bessel spheacuteriques pour les ordres 0 agrave 5 )(krjm

- pour la partie azimutale les fonctions )(θΘ

)sin()cos()( 21 θθθ ncnc +=Θ (A8) Eacutetant donneacute la deacutefinition de lrsquoangle Θ celui-ci doit neacutecessairement ecirctre de

peacuteriode 2π ))2()(( πθθ +Θ=Θ ce qui impose agrave n drsquoecirctre entier

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 48

- pour la partie polaire les fonctions de Legendre associeacutees )(sinδmnP

nm

nn

mn dPdP

)(sin)(sinsin)(sin

δδ

δδ = pour ⎩⎨⎧

gt=

nmavecnm 321

(A9)

ougrave les )(sinδnP sont les polynocircmes de Legendre de degreacute n en δsin deacutefinis par reacutecurrence

( )

11

22

1

0

sin)12()(sin)1(

1cos321)(sin

sin)(sin0)(sin

minus+ minus+=+

minus=

==

mmm mPPmPmet

P

PP

δδ

ϕδ

δδδ

(A10)

et de formule geacuteneacuterale

mm

m

mm dd

mP )1(sin

)(sin21)(sin 2 minus= δ

δδ (A11)

On peut appliquer aux fonctions )(sinδmnP la semi-normalisation de Schmidt

)(sin)()()(sin~ δεδ mnnmn P

nmnmP

+minus

= ougrave 10 =ε et 2=nε pour 1gen (A12)

En appariant les fonctions polaires et azimutales on deacutefinit les harmoniques

spheacuteriques de degreacute et drsquoordre)1(mnY 0gem 4 mnn lele0 et de degreacute et

drsquoordre (voir Figure A3)

)1(minusmnY 1gem

mnn lele1

)(sin~)sin()(

)(sin~)cos()()1(

)1(

δθδθ

δθδθ

mnmn

mnmn

PnY

PnY

=

=minus

(A13)

4 En geacuteneacuteral lorsque le degreacute et lrsquoordre ne sont pas eacutevoqueacutes conjointement on parle par abus de langage drsquoharmoniques drsquoordre m plutocirct que de degreacute m

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 49

soit

1)(sin

)()()12(2sin)(

)(sin)()()12(2cos)(

1)(sin)1()1()12(cos)(

)1(

)1(

1)1(

1

gt

⎪⎪⎩

⎪⎪⎨

+minus

+=

+minus

+=

=+minus

+=

minus

npourP

nmnmmnY

PnmnmmnY

npourPmmmY

mnmn

mnmn

mm

δθδθ

δθδθ

δθδθ

(A14)

La solution angulaire geacuteneacuterale srsquoeacutecrit alors sous la forme drsquoun deacuteveloppement sur

la base drsquoharmoniques spheacuteriques

( ) ( )sum minus

=minus+=Θ

1

1)1()1()( n

m mnmnmnmnn YBYBθ (A15) La solution geacuteneacuterale est alors la seacuterie de Fourier-Bessel

sum sum sum+infin

= = plusmn=

=0 0 1

)()( )()()(m

m

nmnmnm

m YBkrjikrpσ

σσ δθδθ (A16)

ougrave

intint⎪⎩

⎪⎨⎧

minusisin

isin

plusmnplusmn =

]2

2

[

[20[

)1()1( )()1()(

1

ππδ

πθ

δθδθ

S

mnm

mmn dSYpkrji

B (A17)

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 50

Tableau A1 - Expressions analytiques des harmoniques spheacuteriques pour les ordres 0 agrave 3

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 51

Figure A3 - Repreacutesentation des harmoniques spheacuteriques pour les ordres m = 0 agrave 3 Les

couleurs rouge et bleu indiquent respectivement des valeurs positives et neacutegatives

53

Annexe B

Compleacutements theacuteoriques sur le deacutecodage HOA

B1 Vecteur veacutelociteacute et vecteur eacutenergie Le vecteur veacutelociteacute est un indice de la direction apparente drsquoune source introduit

par Gerzon [Gerzon 1992] Il se calcule comme le rapport de la vitesse particulaire sur la pression acoustique

)()(

)()(1

δθδθ

δθδθ

ρ rprp

ki

rprv

cV nabla

minus=minus=rrr

(B1)

Dans le cas drsquoune onde plane le vecteur veacutelociteacute V

rest ainsi directement un

vecteur unitaire orienteacute vers la direction de provenance de lrsquoonde En geacuteneacuteralisant agrave une superposition drsquoondes planes en phase ou opposition de phase eacutemises par L haut-parleurs agrave eacutequidistance du point drsquoobservation on obtient la formule suivante

VVL

ll

L

lll

urg

ugV r

rr

==

sum

sum

=

=

1

1 (B2)

ougrave deacutesigne la direction du llur egraveme haut-parleur auquel est associeacute le gain gl et Vr Vur correspondent respectivement agrave la norme et agrave la direction du vecteur veacutelociteacute

Le vecteur eacutenergie est un autre indice de direction Il est deacutefinit par

EEL

ll

L

lll

urg

ugE r

rr

==

sum

sum

=

=

1

2

1

2

(B3)

Annexe B Compleacutements theacuteoriques sur le deacutecodage HOA 54

Il peut srsquointerpreacuteter comme une indication de la concentration de lrsquoeacutenergie ( ) et de sa direction moyenne de provenance (

Er

Eur ) On a toujours 1ltEr sauf dans le cas ougrave un seul haut-parleur contribue agrave la reconstruction (dans ce cas ) peut ecirctre consideacutereacute comme un indicateur de preacutecision de la localisation

1=Er Er

B2 Deacutecodages optimiseacutes La restitution la plus confortable drsquoun champ sonore veillera donc agrave maximiser

tout en essayant de garder le plus proche possible de 1 Lrsquooptimisation du deacutecodage consiste alors agrave multiplier chaque coefficient de la matrice de deacutecodage D (voir (111) par des gains calculeacutes drsquoapregraves des critegraveres drsquooptimisation

Er Vr

Ainsi le deacutecodage appeleacute max- maximise la norme du vecteur eacutenergie en

sacrifiant celle du vecteur veacutelociteacute puisqursquoon a dans ce deacutecodage (pour des configurations reacuteguliegraveres de haut-parleurs) Ce deacutecodage est donc avantageux par rapport au deacutecodage basique pour les hautes freacutequences ou dans le cas drsquoun auditoire eacutelargi Le deacutecodage in-phase va encore plus loin en cherchant agrave annuler complegravetement les contributions des haut-parleurs placeacutes agrave lrsquoopposeacute de la direction de provenance de lrsquoonde reproduite Ce critegravere est utile dans le cas drsquoune eacutecoute dans une position tregraves excentreacutee agrave laquelle on pourrait percevoir de faccedilon preacutedominante la contribution en opposition de phase drsquoun tel haut-parleur

Er

EV rr =

Ces diffeacuterents deacutecodages ont chacun des avantages et inconveacutenients Ainsi seul le

deacutecodage basique garantit = 1 le deacutecodage max- permet une preacutecision meilleure notamment en haute freacutequence et le deacutecodage in-phase est plus adapteacute agrave un auditoire plus large Jeacuterocircme Daniel [Daniel 2000] propose ainsi de changer le deacutecodage en fonction de la freacutequence et de lrsquoeacutetendue de la zone drsquoeacutecoute deacutesireacutee

Vr Er

Figure B1 - Deacutecodages les plus approprieacutes par sous-bande et en fonction de lrsquoeacutetendue de la

zone drsquoeacutecoute [Daniel 2000]

55

Annexe C

Analyse en composantes principales

C1 Espace des donneacutees Eacutegalement souvent appeleacutee transformeacutee de Karhunen-Loegraveve5 (TKL) lrsquoanalyse en

composantes principales (ACP) est une technique statistique de repreacutesentation drsquoinformation Introduite sur 2 variables par Pearson [Pearson 1900] elle a eacuteteacute eacutetendue par Hotelling [Hotelling 1933] Elle a pour but de caracteacuteriser des donneacutees drsquoun espace agrave N dimensions dans un sous-espace plus petit en minimisant les pertes drsquoinformation due agrave la projection crsquoest-agrave-dire en maximisant la variance projeteacutee Les donneacutees ainsi reacuteorganiseacutees deviennent indeacutependantes Les variables correacuteleacutees sont remplaceacutees par de nouvelles variables deacutecorreacuteleacutees et de variance maximale combinaisons lineacuteaires des variables initiales

Les donneacutees sont constitueacutees de n variables aleacuteatoires (dans notre cas des canaux)

et p reacutealisations ou individus (des eacutechantillons)

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

pn

p

ji

n

xx

x

xx

M

LLL

MOMNM

MLLM

MNMOM

LLL

1

111

(C1)

Ces donneacutees sont geacuteneacuteralement centreacutees et peuvent aussi ecirctre reacuteduites4 (on note

1x la moyenne de la variable et 1x )( 1xσ sa variance) Reacuteduire ou non le nuage de points (ie les p reacutealisations de la variable aleacuteatoire) est un choix de modegravele

5 Quelques rares sources mentionnent une diffeacuterence entre ACP et TKL en placcedilant celle-ci au

niveau du choix de la reacuteduction des donneacutees dans le cas dune ACP les donneacutees seraient centreacutees et reacuteduites alors qursquoelles seraient uniquement centreacutees pour une TKL

Annexe C Analyse en composantes principales 56

- si on ne reacuteduit pas le nuage une variable agrave forte variance pourrait tirer tout lrsquoeffet de lrsquoACP agrave elle

- si on reacuteduit le nuage une variable qui ne serait qursquoun bruit se retrouverait avec une variance apparente eacutegale agrave une variable informative

M est centreacutee

⎥⎥⎥

⎢⎢⎢

minusminusminus

minusminus=

npn

pi

ji

nn

xxxxxx

xxxxM

K

MM

K

11

11

11

ˆ (C2)

M~ est centreacutee et reacuteduite

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

minusminus

minus

minusminus

=

)()(

)(

)()(~

1

11

1

1

111

n

npn

pi

ij

i

n

nn

xxx

xxx

xxx

xxx

xxx

M

σσ

σ

σσ

K

MM

K

(C3)

On multiplie ensuite la matrice obtenue par sa transposeacutee pour obtenir - La matrice de covariance MMC t

vˆˆ sdot=

- La matrice de correacutelation MMC tr

~~ sdot= Ces matrices sont carreacutees (N x N) symeacutetriques et reacuteelles Elles sont donc

diagonalisables dans une base orthonormeacutee 6 Le principe de lrsquoACP est alors de trouver un axe u issu drsquoune combinaison lineacuteaire

des tel que le critegravere drsquoinertie du nuage autour de cet axe soit maximal Le critegravere drsquoinertie couramment utiliseacute est la variance Il faut donc trouver lrsquoaxe qui porte le maximum de variance crsquoest-agrave-dire lrsquoaxe u tel que la projection du nuage sur cet axe ait une variance maximale

nx

6 Nos donneacutees eacutetant ici des valeurs drsquoeacutechantillons elles sont par nature centreacutees et reacuteduites On

formera donc naturellement la matrice de correacutelation

C2 Diagonalisation 57

C2 Diagonalisation Pour alleacuteger lrsquoeacutecriture de la suite de cette partie nous consideacutererons que les

variables ont eacuteteacute centreacutees et si besoin reacuteduites et nous noterons ces variables

transformeacutees (ainsi

ix ix

iii xxx minuslarr ou bien )( i

iii x

xxxσ

minuslarr ) On fera de mecircme pour M

( ou bien MM ˆlarr MM ~larr ) et C ( vCC larr ou bien rCC larr ) La projection drsquoun eacutechantillon sur un axe u srsquoeacutecrit ix

uMxiu sdot=)(π (C4) La variance empirique de )( iu xπ vaut donc

uMMuxx ttiu

tiu sdotsdotsdot=sdot )()( ππ (C5)

Or on a vu que est diagonalisable dans une base orthonormeacutee donc

on peut noter P le changement de base associeacute et ∆ la matrice diagonale formeacutee de son spectre Ainsi

MMC t=

n

i 1)(λ PPMMC tt ∆==

)()()()( PuPuuPPuxx ttt

iut

iu sdot∆sdot=sdot∆sdot=sdotππ (C6) On pose v = Pu Chercher lrsquoaxe u qui maximise )( iu xπ revient donc agrave chercher le

vecteur v qui maximise ougravevvt ∆ )( 1 ndiag λλ K=∆ avec les iλ rangeacutes par ordre deacutecroissant Ce vecteur est trivialement le premier vecteur unitaire et on a alors

1λ=∆vvt

Ainsi le vecteur qui porte la plus grande part drsquoinertie du nuage est le premier

vecteur propre de C (premier par norme deacutecroissante) De mecircme le deuxiegraveme vecteur qui explique la plus grandelt part de lrsquoinertie restante est le deuxiegraveme vecteur propre de C Finalement la question de lrsquoACP se ramegravene agrave un problegraveme de diagonalisation de la matrice de correacutelation

C3 Code Matlab

function [vep vap] = pca(f N) f donneacutees N nombre de composantes agrave garder cor = f f formation de la matrice de correacutelation [vep vap] = eig(cor) calcul des vecteurs (vep) et valeurs (vap) propres [vap ind] = sort(diag(vap)) tri des valeurs propres par ordre croissant vap = flipud(vap) disposition inverse par ordre drsquoimportance vep = vep( flipud(ind)) classement en conseacutequence des vecteurs propres vep = vep( 1N) on ne garde que les N premiers vecteurs propres

Annexe C Analyse en composantes principales 58

59

Annexe D

Analyse en sous-bandes

D1 La transformeacutee de Fourier agrave court terme (TFCT) Pour affiner lrsquoanalyse les signaux sont donc deacutecoupeacutes en bandes de freacutequence par

TFCT La TFCT consiste agrave effectuer des transformeacutees de Fourier discregravetes sur des portions de signal fenecirctreacutees reacuteguliegraverement espaceacutees

On rappelle que la transformeacutee de Fourier drsquoun signal x(t) est deacutefinie (lorsque

lrsquointeacutegrale existe) par

int+infin

infinminus

minus= dtetxfX ftiπ2)()( (D1)

La transformeacutee de Fourier agrave temps discret (TFTD) drsquoun signal x(t) srsquoeacutecrit

sum+infin

minusinfin=

minus=n

fnienxfX π2)()( (D2)

La transformeacutee de Fourier discregravete (TFD) drsquoun signal discret x(k) est deacutefinie par

sum+infin

minusinfin=

minus=

n

Nkni

enxkXπ2

)()( (D3)

La TFCT discregravete est une TFD observeacutee sur une fenecirctre wa de taille N

summinus

=

minus+=

1

0

2)())(()(

N

n

Nnki

aaa enwtnxkXπ

ττ (D4)

ougrave )(taτ est lrsquoinstant drsquoanalyse

Annexe D Analyse en sous-bandes 60

Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT [Laroche 1995]

D2 Synthegravese par addition-recouvrement Lors de la synthegravese apregraves le deacutecoupage et lrsquoanalyse des fenecirctres on cherche agrave

reconstruire le signal temporel agrave partir de sa repreacutesentation freacutequentielle Pour cela on utilise la meacutethode OLA (overlap and add addition-recouvrement) qui consiste agrave prendre la TFCT inverse des spectres Xt puis agrave additionner les signaux obtenus apregraves les avoir multiplieacutes par une fenecirctre de pondeacuteration en les faisant se recouvrir partiellement

Le reacutesultat est donneacute par

sum=

minusminus=T

tsss tnxtnwnx

s1

))((~))(()(~ ττ τ (D5)

avec )()( tt as ττ = et summinus

=

=1

0

2))((~1)(~ N

k

Nkni

s ektXN

nxs

π

τ τ

Lors de la mise en œuvre de ce traitement il faut srsquoassurer drsquoecirctre en mesure de

reconstruire parfaitement un signal lorsqursquoaucune transformation ne lui est appliqueacutee Le critegravere de reconstruction parfaite condition suffisante est alors

sum=

=minusminusT

tasaa tnwtnw

11))(())(( ττ quelque soit n (D6)

D2 Synthegravese par addition-recouvrement 61

Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add [Laroche 1995]

Plusieurs paramegravetres sont agrave choisir avec soin Le premier drsquoentre eux est le type

de fenecirctre agrave utiliser Les diffeacuterentes options qui se preacutesentent agrave nous sont - la fenecirctre rectangulaire qui preacutesente dans son spectre le lobe principal le plus

eacutetroit mais des lobes secondaires non neacutegligeables - la fenecirctre de Hamming au lobe principal un peu plus large mais pour laquelle le

1er lobe secondaire se situe agrave -43 dB - la fenecirctre de Hann (ou cosinus sureacuteleveacute) qui ressemble agrave la preacuteceacutedente avec un

1er lobe secondaire plus fort mais une pente de 18 dB par octave pour les lobes suivants

- les fenecirctres de Blackman-Harris aux lobes secondaires tregraves bas mais au lobe principal plus large

Fenecirctre Lobe 2aire

(dB) Pente

(dBoct) Bande passante

agrave 6 dB (bins) Rectangulaire -13 -6 121 Triangulaire -27 -12 178

Hann -32 -18 200 Hamming -43 -6 181

Blackman-Harris 4 -92 -6 272

Tableau D1 - Caracteacuteristiques des principales fenecirctres drsquoanalyse [Harris 1978] Le meilleur compromis est donc dans notre contexte la fenecirctre de Hann ou celle

de Hamming

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 26: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

Chapitre 2 Analyser un contenu HOA 20

plan horizontal Pour plus de preacutecision agrave la restitution ou pour des scegravenes en 3D et sans perdre la faciliteacute drsquoune eacutecoute personnelle au casque on peut appliquer des filtres HRTF (Head-Related Transfert Function) pour une reproduction binaurale

Pour appreacutecier pleinement la spatialisation la diffusion sur un systegraveme multi

haut-parleurs est indispensable Deux systegravemes sont installeacutes dans le laboratoire de France Teacuteleacutecom un systegraveme 51 et un systegraveme circulaire de 48 haut-parleurs Ces systegravemes installeacutes dans des studios insonoriseacutes offrent une grande qualiteacute drsquoeacutecoute qui permet de repeacuterer les deacutefauts mecircme minimes de la synthegravese

21

Chapitre 3

Description des analyses

31 Deacutetermination des directions principales

311 Base des algorithmes Nous avons deacuteveloppeacute plusieurs algorithmes reacutepondant aux diffeacuterents objectifs

deacutecrits plus haut Chacun drsquoeux possegravede des particulariteacutes leur permettant de reacutepondre agrave ces objectifs mais on trouve neacuteanmoins une partie commune Ainsi toutes les analyses reposent sur le mecircme modegravele drsquoapplication drsquoune ACP par sous-bandes dont voici le scheacutema geacuteneacuteral

Figure 31 - Scheacutema geacuteneacuteral drsquoanalyse

Les signaux en entreacutee sont les composantes HOA W X et Y dans la plupart des

cas mais peuvent ecirctre eacutegalement des composantes drsquoordre plus eacuteleveacute (voir 11) Sur le fenecirctrage jouent plusieurs paramegravetres comme la taille de la fenecirctre ou encore le pourcentage de recouvrement entre elles Nous avons choisi une fenecirctre en racine de la fenecirctre de Hanning crsquoest-agrave-dire une arche de sinusoiumlde (voir eacutequation (D7) en Annexe D) avec un recouvrement de 50 ce qui veacuterifie le critegravere de reconstruction parfaite (D6) Le filtrage est pour des raisons de rapiditeacute de calcul reacutealiseacute dans le domaine freacutequentiel par une simple multiplication avant de repasser en temporel pour appliquer lrsquoACP

Le banc de filtre utiliseacute est un banc inspireacute des filtres ERB Les filtres ERB

(Equivalent Regular Bandwidth) sont des filtres imitant le comportement de seacuteparation freacutequentielle de lrsquooreille humaine plus preacutecise en basse freacutequence Les filtres utiliseacutes ici ne sont pas directement des filtres ERB le systegraveme nrsquoa pas drsquointeacuterecirct particulier agrave essayer de copier le fonctionnement de lrsquooreille humaine Ces filtres ont eacuteteacute adapteacutes au problegraveme en

Chapitre 3 Description des analyses 22

srsquoassurant en particulier de la finesse des bandes permettant la meilleure discrimination des diffeacuterentes sources crsquoest-agrave-dire autour des fondamentales usuelles (200-1000 Hz) et des harmoniques Les freacutequences aigueumls sont bien discrimineacutees par les filtres ERB (relativement agrave la gamme crsquoest-agrave-dire en eacutechelle logarithmique) le deacutecoupage a donc surtout eacuteteacute densifieacute entre 200 et 800 Hz par rapport aux bandes ERB

Figure 32 - Filtres utiliseacutes inspireacutes des filtres ERB repreacutesenteacutes lineacuteairement (en haut)

et sur une eacutechelle logarithmique (en bas) Les reacutesultats de lrsquoACP sont donc avec cette meacutethode les angles des sources

trouveacutees dans chaque sous-bande ainsi que pour chacun drsquoeux un critegravere de pertinence calculeacute en fonction de lrsquoeacutenergie de la sous-bande dans une fenecirctre donneacutee et de la norme relative de la premiegravere composante de lrsquoACP (voir 342) Les autres vecteurs propres peuvent ecirctre utiliseacutes pour extraire davantage drsquoinformations et mecircme des signaux deacutecorreacuteleacutes comme on le verra au paragraphe 35 mais lrsquoanalyse semble alors moins robuste Srsquoen tenir aux informations donneacutees par la composante principale est un gage de pertinence suppleacutementaire

Ces reacutesultats concernent donc les sources preacutedominantes ou principales mais

laissent de cocircteacute un certain nombre drsquoeacuteveacutenements sonores agrave consideacuterer

312 Traitement du champ reacutesiduel Le champ reacutesiduel regroupe en quelque sorte tout ce qui nrsquoest pas une source

principale Il inclut donc les reacuteflexions et la reacuteverbeacuteration de la piegravece mais aussi les bruits parasites occasionnels ou continus (ventilation etc) Ces bruits ou eacutechos nrsquoont pas de direction de provenance assez distincte pour pouvoir ecirctre mesureacutee preacuteciseacutement Le champ reacutesiduel est eacutegalement composeacute du champ diffus La notion de champ diffus est couramment utiliseacutee mais rarement preacuteciseacutement deacutefinie On trouve dans la litteacuterature des deacutefinitions diverses lrsquoune drsquoelles preacutecisant qursquoil serait un ensemble drsquoeacuteveacutenements sonores proches en temps et provenant de directions eacutequiprobables

Les algorithmes proposeacutes traitent correctement les sources principales mais le

champ reacutesiduel est laisseacute de cocircteacute Il est pourtant tregraves important pour lrsquoimmersion du sujet dans la scegravene une scegravene deacutepourvue de champ sonore sera perccedilue comme artificielle ce qui nuit agrave la perception drsquoespace On sera par exemple davantage conscients drsquoecirctre au centre drsquoun dispositif expeacuterimental et moins sensibles aux variations de profondeur et de perspectives

31 Deacutetermination des directions principales 23

Neacuteanmoins il faut relativiser lrsquoimportance de ce champ reacutesiduel il nrsquoest pas utile pour la localisation des sources principales et ne caracteacuterise que lrsquoenvironnement drsquoenregistrement En outre le champ reacutesiduel qui provient souvent de directions floues et notre but nrsquoest pas de les preacuteciser artificiellement Il nrsquoest degraves lors geacuteneacuteralement pas utile de le transmettre aux ordres eacuteleveacutes

Ainsi certains auteurs [Merimaa and Pulkki 2005] ont choisi de recreacuteer lors drsquoune

synthegravese un champ diffus artificiel baseacute sur une reacuteponse impulsionnelle de salle calculeacutee agrave lrsquoavance Lrsquoavantage est une immersion un enveloppement complets lrsquoinconveacutenient est que lrsquoambiance ainsi recreacuteeacutee est fictive et arbitraire et en outre complegravetement indeacutependante de lrsquoambiance initiale en laissant notamment de cocircteacute les sources secondaires

Nous proposons dans nos algorithmes de ne pas syntheacutetiser le champ diffus aux

ordres eacuteleveacutes mais de nous contenter de la description du champ reacutesiduel fourni par les ordres transmis (1er ordre dans nos exemples) Nous nous limiterons donc agrave preacuteciser par la synthegravese des ordres supeacuterieurs les positions des sources principales

32 Extension agrave la 3D Nous avons pour le moment eacutevoqueacute le cas de repreacutesentations de champ sonore agrave

2 dimensions crsquoest-agrave-dire issus de sources placeacutees dans le plan horizontal Mais certaines repreacutesentations comportent eacutegalement des composantes verticales Pour analyser ces signaux en 3 dimensions il faut inteacutegrer la composante Z On effectue alors simplement une ACP sur X Y Z et W Le 1er vecteur propre sera alors bien dirigeacute dans lrsquoespace (X Y Z) dans la direction de la source lrsquoambiguiumlteacute de frac12 espace eacutetant leveacutee par W

Lrsquoalgorithme est alors complegravetement similaire agrave celui analysant des signaux en 2

dimensions Des tests ont eacuteteacute reacutealiseacutes agrave partir de signaux syntheacutetiques pour lesquels les positions des sources eacutetaient connues pour des raisons pratiques aucune scegravene sonore reacuteelle en 3 dimensions nrsquoa pu ecirctre enregistreacutee avec une connaissance initiale preacutecise des positions des sources

Les visualisations et les eacutecoutes eacutetant plus deacutelicates en 3D et lrsquoextension agrave la 3D

eacutetant immeacutediate nous avons donc concentreacute nos efforts sur lrsquoanalyse de scegravenes en 2D En outre en lrsquoabsence de dispositif spheacuterique ou heacutemispheacuterique de haut-parleurs le seul moyen agrave notre disposition pour eacutecouter une scegravene 3D est lrsquoeacutecoute binaurale crsquoest-agrave-dire au casque avec des fonctions de transfert de tecircte (HRTF) relativement bien adapteacutees agrave lrsquoauditeur

33 Analyse aux ordres supeacuterieurs

331 Description Afin drsquoameacuteliorer la preacutecision de lrsquoanalyse nous avons essayeacute drsquoappliquer une ACP

sur des signaux ambisoniques drsquoordre plus eacuteleveacute (signaux HOA) dans le plan horizontal Deux meacutethodes ont eacuteteacute essayeacutees

Chapitre 3 Description des analyses 24

La premiegravere consiste agrave appliquer une ACP agrave 3 dimensions successivement sur les composantes X Y W (ordre 1 et 0) puis U V W (ordre 2 et 0) et ainsi de suite crsquoest-agrave-dire (en utilisant la notation geacuteneacuterale) sur les composantes et W (ordre m et 0) Les reacutesultats de ces analyses (les directions des 1

)1(0mY )1(

0minus

mYegraveres composantes) sont ensuite regroupeacutees

lrsquoanalyse de lrsquoordre 1 fournissant des reacutesultats modulo 2π lrsquoanalyse de lrsquoordre 2 des reacutesultats plus preacutecis mais modulo π et plus geacuteneacuteralement lrsquoanalyse de lrsquoordre m permettant de trouver des angles modulo mπ2

La limite de cette approche se perccediloit lors de la fusion des reacutesultats les angles

trouveacutes agrave un ordre eacuteleveacute sont plus preacutecis dans des bandes de freacutequences eacuteleveacutees mais la limitation theacuteorique de ces signaux HOA dans les basses freacutequences font que lrsquoanalyse de lrsquoordre 1 reste la plus pertinente dans les premiegraveres bandes Parvenir agrave deacuteterminer agrave partir de quelle freacutequence on peut faire davantage confiance agrave lrsquoordre n+1 qursquoagrave lrsquoordre n nrsquoest pas aiseacute et cette limite provoque des aberrations dans les angles trouveacutes Une source unique pourra par exemple ecirctre interpreacuteteacutee par lrsquoalgorithme des k-moyennes (voir 341) comme 2 sources une en hautes freacutequences et une en basses freacutequences les 2 eacutetant trouveacutes agrave 2 angles diffeacuterents chaque angle relevant drsquoun ordre analyseacute diffeacuterent

La deuxiegraveme meacutethode consiste pour eacuteviter cette fusion des reacutesultats agrave effectuer

une seule ACP sur les composantes U V X Y et W Cette meacutethode souffre drsquoune tregraves grande complexiteacute algorithmique pour une ameacutelioration de la preacutecision peu sensible En effet si cette meacutethode permet drsquoobtenir des reacutesultats plus preacutecis dans certaines bandes de freacutequences elle est sensible aux deacutefauts et les limites des ordres supeacuterieurs (lrsquoabsence de basses freacutequences entre autres) perturbent lrsquoanalyse en composantes principales

332 Illustration sur une scegravene virtuelle La scegravene preacutesenteacutee ici est une scegravene artificielle crsquoest-agrave-dire composeacutee de sons

placeacutes artificiellement agrave diverses positions Elle a une dureacutee totale de 135 s et comporte 4 sources positionneacutees dans le plan horizontal une guitare placeacutee agrave 45deg une basse agrave -70deg une batterie agrave 110deg et une voix feacuteminine qui effectue continucircment un tour complet dans le sens indirect en partant de lrsquoarriegravere (elle passe donc successivement par les positions 180deg 90deg 0deg -90deg et -180deg) La guitare et la batterie srsquoarrecirctent peu avant la fin de la scegravene (12egraveme seconde au 910egraveme du son approximativement)

Figure 33 - Position des sources de la scegravene de test agrave 4 sources dont 1 mobile

33 Analyse aux ordres supeacuterieurs 25

Figure 34 - Angles drsquoune scegravene virtuelle ayant 1 source mobile et 3 sources fixes

(deacutecrite en 332) trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 Pour chaque trame (en abscisse) 20 angles (1 par bande en ordonneacutee et en degreacutes) sont

reporteacutes le diamegravetre du point correspondant agrave un critegravere de pertinence (voir 342)

Figure 35 - Angles de la mecircme scegravene trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 2 Reacutesultats modulo π reacutepliqueacutes pour faciliter la comparaison avec la figure preacuteceacutedente On remarque que les lignes sont plus nettes qursquoil y a moins drsquoangles aberrants et que

les angles corrects sont plus marqueacutes (ils sont deacutetermineacutes comme plus pertinent)

Chapitre 3 Description des analyses 26

20

0

20

0

20

0

Figure 36 - Angles drsquoune scegravene reacuteelle constitueacutee drsquoun bruit parcourant le cercle trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 (en haut) 0 et 2 (au milieu) et 0 et 4 (en bas) Le

numeacutero de trame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On retrouve qursquoune limitation des ordres HOA supeacuterieurs issus drsquoun enregistrement

microphonique est la restitution des basses freacutequences

34 Traitement des donneacutees

341 Algorithme des k-moyennes Agrave lrsquoissue de lrsquoanalyse en composantes principales on reacutecupegravere avec la premiegravere

des meacutethodes exposeacutees au chapitre preacuteceacutedent des angles correspondants aux positions des sources preacutedominantes agrave raison drsquoune valeur par fenecirctre et par bande de freacutequence Il faut agrave partir de ces donneacutees parvenir agrave isoler les sources crsquoest-agrave-dire agrave deacuteterminer quels sont les angles pertinents et examiner quels sont ceux qui agrave une certaine toleacuterance pregraves sont preacutesents dans plusieurs bandes de freacutequence etou plusieurs fenecirctres temporelles

Pour pouvoir exploiter ces donneacutees spatiales nous avons utiliseacute lrsquoalgorithme des

k-moyennes (ou k-means) [MacQueen 1967] sur les angles pondeacutereacutes par des critegraveres de pertinence Cet algorithme fonctionne de la maniegravere suivante

Initialisation choix de k barycentres (les k moyennes) Reacutepeacuteter Associer chaque eacuteleacutement au barycentre le plus proche Recalculer les positions des barycentres Jusqursquoagrave ce que les barycentres soient stables (ou au bout de t iteacuterations)

34 Traitement des donneacutees 27

Lrsquoavantage de cet algorithme est drsquoecirctre peu glouton puisqursquoil converge en O(tkn) ougrave t est le nombre drsquoiteacuterations k le nombre de centres et n le nombre de points (geacuteneacuteralement on a t k ltlt n) Par contre il est plutocirct sensible aux exceptions un point aberrant tirera agrave lui la moyenne auquel il aura eacuteteacute associeacute Il faut donc faire en sorte que ces points erroneacutes soient aussi rares que possibles Crsquoest pourquoi les angles traiteacutes sont pondeacutereacutes par 2 critegraveres de pertinence

La pondeacuteration des angles fournis en entreacutee de lrsquoalgorithme des k-moyennes se

fait de maniegravere simple en reacutepeacutetant ces angles un nombre de fois (de 0 agrave 10) proportionnel agrave un critegravere Ainsi un angle tregraves pertinent sera dupliqueacute et sera preacutesent plusieurs fois dans la liste des donneacutees traiteacutees attirant ainsi agrave lui la position du barycentre le plus proche Au contraire un angle trop peu pertinent ne sera pas reacutepeacuteteacute voir mecircme sera enleveacute de la liste

Le seul problegraveme de cet algorithme est qursquoil neacutecessite la connaissance de k crsquoest-

agrave-dire du nombre de sources qui composent la scegravene Une deacutetermination automatique se basant sur la reacutepeacutetition de lrsquoalgorithme avec un k croissant a eacuteteacute testeacutee mais le critegravere drsquoarrecirct reposant sur la dispersion des points autour des barycentres nrsquoeacutetant pas assez robuste cette meacutethode a provisoirement eacuteteacute mise de cocircteacute

342 Critegraveres de pertinence Les 2 critegraveres de pondeacuteration choisis sont lrsquoeacutenergie de la sous-bande dans la

fenecirctre donneacutee et le rapport de la norme de la 1egravere composante (la composante principale) de lrsquoACP sur la somme des normes de toutes les composantes

En effet un angle est trouveacute dans chaque sous-bande de chaque fenecirctre mecircme si

le signal y est tregraves faible Lrsquoangle trouveacute sera alors tregraves peu repreacutesentatif de la direction drsquoune source puisqursquoil indiquera la direction drsquoun bruit Lrsquoeacutenergie doit donc ecirctre prise en compte pour ne conserver que les angles trouveacutes dans des bandes comportant un signal suffisant

La norme relative de la 1egravere composante de lrsquoACP rend quant agrave elle compte du

poids relatif de cette composante par rapport aux autres Ainsi si 2 sources sont preacutesentes dans une bande donneacutee la 1egravere composante sera agrave peine plus marqueacutee que la 2egraveme Ceci peut ecirctre calculeacute en prenant simplement le rapport de la 1egravere valeur propre sur la somme des valeurs propres

On peut noter que la norme de la 1egravere composante ne se deacutetache nettement que

lorsqursquoun son est preacutesent dans la bande consideacutereacutee On peut alors se demander si lrsquoeacutenergie doit ecirctre prise en compte ou si lrsquoinformation qursquoelle contient nrsquoest comprise dans le 2egraveme critegravere En fait la norme relative est un critegravere tregraves bruiteacute et consideacuterer lrsquoeacutenergie par ailleurs permet de nuancer ces artefacts et constitue une base solide de pondeacuteration

Chapitre 3 Description des analyses 28

80

40

0

Figure 37 - Repreacutesentation temps-freacutequence des angles du son deacutecrit en 332 Letrame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On peut donc v

par trame et par bande chacun eacutetant le reacutesultat drsquoune ACP crsquoest-agrave-dire la 1egravere

Figure 38 - Eacutenergie de ce mecircme son On peut voir une basse en notes tenues uneet une batterie qui produit des sons secs dans un spectre plus aigu

80

40

0

80

40

0

Figure 39 - Norme relative de la 1egravere composante de ce mecircme son Les impacts de batterie (dans lrsquoaigu) ressortent davantage

π 0 minusπ

numeacutero de oir un angle direction

voix aiguumle

34 Traitement des donneacutees 29

Figure 310 - Pondeacuteration appliqueacutee agrave lrsquoentreacutee des k-moyennes calculeacutee ici comme

le simple produit de lrsquoeacutenergie et de la norme relative

80

40

0

343 Lissages

Pour faire face au bruit ineacutevitable dans les reacutesultats il faut lisser les donneacutees Ces

lissages temporels correspondent agrave des hypothegraveses de stabiliteacute des sources qui sont supposeacutees ecirctre fixes ou mobiles relativement lentement (dans une mesure agrave parameacutetrer)

Un premier lissage peut ecirctre opeacutereacute avant le traitement par lrsquoalgorithme des k-

moyennes Le filtre choisi est un filtre meacutedian de maniegravere agrave eacuteliminer les points aberrants tout en conservant les vraies valeurs des points coheacuterents Ce lissage est appliqueacute sur chaque sous-bande aux angles et ne tient pas compte des critegraveres de pertinence Il est donc utiliseacute avec parcimonie et peut mecircme ecirctre eacuteviteacute en reacuteglant de maniegravere adeacutequate les critegraveres de pondeacuteration agrave lrsquoentreacutee des k-moyennes

Le deuxiegraveme lissage srsquoeffectue agrave lrsquoentreacutee des k-moyennes en mecircme temps que les

critegraveres de pondeacuteration Il consiste agrave appliquer les k-moyennes non pas sur une fenecirctre donneacutee mais sur plusieurs fenecirctres conseacutecutives anteacuterieures et posteacuterieures en donnant plus de poids agrave la fenecirctre courante Dans la pratique les poids donneacutes aux diffeacuterentes fenecirctres sont eacutetablis par une gaussienne centreacutee sur la fenecirctre courante et de largeur agrave deacuteterminer (en fonction notamment de la dureacutee drsquoune fenecirctre et du type de scegravene analyseacute)

35 Exploitation de toutes les composantes de lrsquoACP Les analyses preacutesenteacutees preacuteceacutedemment ont toutes exploiteacute uniquement la

composante principale extraite par lrsquoACP Or cette analyse fournit des informations plus complegravetes par lrsquointermeacutediaire des autres composantes dont on peut tirer parti pour isoler plusieurs sources au sein drsquoune mecircme bande Cette approche est toujours en deacuteveloppement dans ce stage et nrsquoa pas encore donneacute pleine mesure des reacutesultats qursquoelle laisse entrevoir

Les composantes de lrsquoACP indiquent des directions qui correspondent aux

diffeacuterentes sources composant la scegravene sonore Les vecteurs propres de la matrice de correacutelation donnent ainsi les combinaisons lineacuteaires des signaux HOA permettant de

Chapitre 3 Description des analyses 30

seacuteparer de la meilleure faccedilon possible ces sons Ces directions peuvent ecirctre alors utiliseacutees pour former des directiviteacutes isolant au mieux ces sources

aBS sdot= (31)

ougrave la matrice a contient les vecteurs propres de la matrice de correacutelation (voir Annexe C) le vecteur B contient les signaux HOA et le vecteur S contient les sources extraites

⎟⎟⎟

⎜⎜⎜

=⎟⎟⎟

⎜⎜⎜

⎛=

⎥⎥⎥

⎢⎢⎢

⎟⎟⎟

⎜⎜⎜

⎟⎟⎟

⎜⎜⎜

⎛=

10

1001

1

ML

N

B

BB

S

SSuua MML (32)

On obtient ainsi des lobes drsquoautant plus eacutetroits que lrsquoordre est eacuteleveacute chacun

dirigeacute vers une source et permettant de lrsquoisoler le plus possible des contributions des autres sources La Figure 311 preacutesente les directiviteacutes ainsi trouveacutees par une ACP en pleine bande Une analyse en sous-bande permet une plus grande distinction des sources mais une seacuteparation diffeacuterente entre les bandes est dangereuse car elle risque de dissocier spatialement plusieurs parties drsquoun mecircme son

Figure 311 - Directiviteacutes seacuteparant ideacutealement 4 sources placeacutees agrave 17 73 195 et -58deg

pour une scegravene virtuelle encodeacutee agrave lrsquoordre 4 Ce principe se heurte neacuteanmoins aux limites de seacuteparation lieacutees agrave lrsquoordre

drsquoencodage en effet 2 sources ne pourront pas ecirctre seacutepareacutees si elles sont trop proches comme en teacutemoigne la largeur des lobes principaux Les lobes secondaires traduisent eacutegalement un meacutelange des sources isoleacutees La figure ci-dessus montre ainsi que la source placeacutee agrave 17deg (en vert) sera preacutesente de maniegravere non neacutegligeable dans le signal senseacute contenir la source placeacutee agrave -58deg (en bleu) en raison du lobe secondaire bleu important

31

Chapitre 4

Reacutesultats et applications

41 Illustration et critique des reacutesultats obtenus

411 Avant-propos Sans notification particuliegravere les reacutesultats preacutesenteacutes ont eacuteteacute obtenus avec un pas

de 50 ms une analyse en 80 bandes avec une FFT sur 8192 points Une taille de FTT plus grande et un plus grand nombre de bande augmente la qualiteacute de lrsquoanalyse un pas plus petit ameacuteliore sa preacutecision temporelle mais les reacutesultats sont moins fiables et un lissage plus important srsquoimpose alors Ces paramegravetres ont eacuteteacute reacutegleacutes apregraves de multiples essais sur des scegravenes diverses

Les reacutesultats sont preacutesenteacutes ici uniquement sous la forme de graphiques nous ne

pouvons donc repreacutesenter que les angles trouveacutes agrave la sortie de lrsquoalgorithme des k-moyennes

412 Scegravene 2D artificielle agrave 4 sources fixes La premiegravere scegravene est une scegravene artificielle composeacutee de 4 sons fixes placeacutes agrave -70

-10 45 et 110deg Ces sons (une basse une voix une guitare et une batterie) ont eacuteteacute choisis pour leur varieacuteteacute spectrale et leur varieacuteteacute drsquoattaque Elle a en outre le meacuterite drsquoecirctre reacutealiste et de constituer une seacutequence musicale (chaque son nrsquoest pas une meacutelodie indeacutependante)

On voit sur la Figure 41 ci-dessous que les angles trouveacutes sont proches des

angles theacuteoriques Lrsquoun des sons (agrave 45deg) est quasiment nul avant la 100egraveme trame sa position est alors moins facile agrave deacuteterminer plus preacuteciseacutement une position approximative est trouveacutee et correspondrait exactement agrave la position du bruit (45deg) si lrsquoincertitude de mesure tregraves grande pour un son aussi faible ne rendait la deacutetermination si ardue On mesure un eacutecart-type de 22deg sur cet exemple (en excluant le deacutebut du son agrave 45deg)

Chapitre 4 Reacutesultats et applications 32

Figure 41 - Angles theacuteoriques (en pointilleacutes rouge) et calculeacutes (en trait bleu) pour une scegravene

constitueacutee de 4 sons fixes longue de 11s

413 Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile

Figure 42 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) de la scegravene agrave

4 sources dont 1 mobile deacutecrite en 332 Cette scegravene est deacutecrite en 332 On a ici demandeacute aux k-moyennes de renvoyer 5 barycentres par trame alors que

seules 4 sources eacutetaient preacutesentes dans le but de se garantir une marge vis-agrave-vis des erreurs de deacutetection Cette 5egraveme direction nrsquoest pas du tout gecircnante elle indique une direction qui ne contient pas de source et crsquoest donc un son tregraves faible qui est ainsi pointeacute Apregraves une eacuteventuelle extraction le signal ne sera donc pas du tout gecircnant

41 Illustration et critique des reacutesultats obtenus 33

On peut remarquer que quand le son mobile se rapproche drsquoun son fixe la deacutetection est moins bonne il y a une fusion entre les 2 sons Mais encore une fois lors de lrsquoextraction lrsquoisolation drsquoun des sons englobera lrsquoautre son ce qui ne posera pas de problegraveme pour les objectifs fixeacutes aucune source nrsquoeacutetant oublieacutee En effet la seacuteparation de sources nrsquoest pas un objectif ici mais un moyen pour preacuteciser les positions des sources ce qui sera fait correctement mecircme si 2 sources sont pointeacutees par 1 seule direction

414 Scegravene 3D artificielle agrave une source et bruit de fond

La scegravene dont la position drsquoune source a eacuteteacute extraite ci-dessous est une scegravene virtuelle en 3D constitueacute drsquoun son (une voix) qursquoon a fait se deacuteplacer par paliers tout drsquoabord vers le haut de 0deg agrave 45deg et vers la gauche de 0deg agrave 90deg puis redescendre jusqursquoagrave 35deg en continuant son cheminement vers la gauche jusqursquoagrave 120deg et enfin finir la descente de 35deg agrave 0deg en la laissant agrave 120deg Agrave cette source a eacuteteacute superposeacutee une ambiance spatialiseacutee de hall drsquoaeacuteroport initialement enregistreacutee en 2D (au format 51) mais transformeacutee pour contenir des composantes verticales Cette ambiance deacutecorreleacutee de la source avait pour but de tester la robustesse de lrsquoanalyse Elle eacutetait agrave 15 dB en-dessous du niveau de la voix

Figure 43 - Azimut et eacuteleacutevation theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun

son en 3D artificiel de 9s placeacute dans une ambiance bruyante On remarque que lrsquoanalyse est tregraves correcte Il nrsquoy a pas drsquoeacutecart important entre

les angles theacuteoriques et ceux calculeacutes On note toutefois que le lissage agrave lrsquoentreacutee des k-moyennes a pour effet de gommer les creacuteneaux et drsquoaplatir quelque peu la courbe drsquoeacuteleacutevation ceci nrsquoest pas vraiment gecircnant car de tels sauts dans la position drsquoune source ne sont pas du tout reacutealistes (ils peuvent caracteacuteriser des bruits de pas mais de tels impacts sont courts et on peut srsquoattendre agrave ce que la courbe suive leur position aux instants ougrave ils sont eacutemis)

Chapitre 4 Reacutesultats et applications 34

415 Scegravene 2D naturelle agrave une source Les scegravenes naturelles sont on lrsquoa vu plus deacutelicates agrave exploiter car on ne peut pas

garantir la preacutecision de la position theacuteorique agrave retrouver par le calcul et on ne peut donc pas calculer la preacutecision de lrsquoanalyse Seuls les enregistrements utilisant la table tournante (voir 232) permettent une mesure preacutecise de la position de lrsquoangle Ces enregistrements on pu confirmer la validiteacute de lrsquoanalyse pour des scegravenes reacuteelles on trouve ici un eacutecart-type de 25deg

Figure 44 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun bruit blanc

tournant autour du micro enregistreacute en chambre sourde Cette analyse a eacuteteacute reacutealiseacutee par sous-bandes mais sur une eacutetendue freacutequentielle

plus reacuteduite puisqursquoon srsquoest limiteacute aux possibiliteacutes offertes par le microphone La scegravene a donc eacuteteacute analyseacutee de 200 agrave 10 000 Hz

42 Quelques applications

421 Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre 2 agrave partir de lrsquoordre 1

Une fois les positions des sources connues la porte est ouverte agrave de nombreuses

applications La connaissance de ces positions permet en effet de syntheacutetiser artificiellement des composantes manquantes ou non transmises La premiegravere synthegravese deacuteveloppeacutee est celle des signaux U et V composant la partie horizontale de lrsquoordre 2 agrave partir de lrsquoordre 1 et de paramegravetres issus de lrsquoanalyse pour une source en 2D (des angles dans de cas)

42 Quelques applications 35

Figure 45 - Principe de lrsquoameacutelioration de la preacutecision spatiale

Le principe de la synthegravese est drsquoextraire les sources originales agrave partir de W X Y

et des angles (un angle par trame et par sous-bande) Ceci peut ecirctre reacutealiseacute de maniegravere approcheacutee en deacutecodant lrsquoordre 1 dans les directions des sources Ce deacutecodage revient agrave calculer les signaux qui devraient alimenter des haut-parleurs qui seraient placeacutes agrave ces positions dans le cas drsquoune restitution (voir 122) crsquoest-agrave-dire agrave former des directiviteacutes dans les directions des sources Dans la plupart des cas ce deacutecodage qui fait intervenir une pseudo-inversion de Moore-Penrose (111) est imparfait les sources se retrouvant leacutegegraverement meacutelangeacutees On peut comparer cette seacuteparation agrave celle que ferait un ensemble de microphones agrave directiviteacute hypercardioiumlde coiumlncidents

Figure 46 - Directiviteacutes eacutequivalentes agrave la seacuteparation de 4 sources agrave lrsquoordre 1 Ces sources seacutepareacutees vont ensuite constituer toujours placeacutees aux angles

deacutetermineacutes agrave lrsquoanalyse une scegravene virtuelle qursquoon va encoder agrave lrsquoordre 2 De cet encodage on ne conservera que les signaux manquants dans notre exemple les signaux du 2nd ordre U et V Ainsi la scegravene spatialiseacutee sera au final constitueacutee des signaux W X et Y drsquoorigine (transmis) et des signaux U et V syntheacutetiseacutes

Chapitre 4 Reacutesultats et applications 36

422 Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave partir de W Reconstruire une scegravene sonore spatialiseacutee agrave partir drsquoun unique canal mono est

alors difficile et le reacutesultat nrsquoest appreacuteciable que pour des scegravenes simples Il faut pour cela que les diffeacuterentes sources composant cette scegravene aient des supports spectraux aussi distincts que possible Les diffeacuterentes sous-bandes sont alors placeacutees agrave un certain angle transmis en parallegravele et crsquoest cette scegravene reconstitueacutee qui va ecirctre encodeacutee au 1er ordre de maniegravere agrave recreacuteer les signaux X et Y

Figure 47 - Principe de la restitution de lrsquoordre 1 agrave partir du signal mono W Ce scheacutema rappelle une meacutethode deacuteveloppeacutee dans le cas steacutereacuteo appeleacutee BCC

(Binaural Cue Coding) [Faller and Baumgarte 2002] Le principe est drsquoextraire et coder des informations permettant la reconstruction binaurale drsquoun signal agrave savoir les diffeacuterences interaurales drsquointensiteacute et de temps (Interaural LevelTime Difference ILD et ITD) qui correspondent dans le cas drsquoune restitution sur un casque aux diffeacuterences drsquointensiteacute et de temps inter-canal (Inter-Channel LevelTime Difference ICLD et ICTD) qui sont mesureacutees agrave partir drsquoune analyse en sous-bandes Les auteurs y ont plus reacutecemment associeacute un indice de correacutelation interaurale mesureacute agrave partir de la correacutelation inter-canal (ICC) afin de caracteacuteriser la preacutecision spatiale (la ldquolargeurrdquo drsquoune source)

Figure 48 - Scheacutema de principe de la meacutethode BCC [Faller and Baumgarte 2003]

On observe en pratique des deacutefauts lieacutes agrave la brutaliteacute de la proceacutedure une sous-

bande ne peut ecirctre que placeacutee agrave la position indiqueacutee et ne peut pas rester floue diffuse ou encore ecirctre placeacutee agrave plusieurs endroits Pour y remeacutedier nous avons ajouteacute 2 traitements agrave la synthegravese Tour drsquoabord nous avons appliqueacute un leacuteger lissage soulageant les effets deacutesagreacuteables dus au saut du contenu drsquoune sous-bande drsquoun endroit agrave un autre entre de 2 fenecirctres conseacutecutives Les positions varient alors de faccedilon plus souple au sein drsquoune mecircme sous-bande traduisant une hypothegravese de continuiteacute spatiale (pas de deacuteplacement brusque) La contrepartie est que cette hypothegravese est lieacutee agrave une hypothegravese de continuiteacute spectrale

42 Quelques applications 37

La 2egraveme ameacutelioration concerne le positionnement des sources En incluant dans la transmission un critegravere de pertinence on peut savoir srsquoil est raisonnable de placer une sous-bande agrave un angle preacutecis ou bien si lrsquoanalyse eacutetait flou agrave son sujet auquel cas un positionnement impreacutecis serait preacutefeacuterable Le paramegravetre choisi est une combinaison des critegraveres eacutevoqueacutes en 342 il nous permet de placer la sous-bande de maniegravere plus ou moins prononceacutee

43 Comparaison avec une meacutethode existante Certains auteurs ont deacutejagrave essayeacute drsquoanalyser un contenu ambisonique pour

retrouver les positions des sources Ville Pulkki a ainsi deacutecrit dans [Pulkki and Faller 2006] une meacutethode drsquoanalyse du B-format baseacutee sur lrsquoeacutetude des amplitudes des signaux W X Y et Z

Figure 49 - X et Y dans le cas drsquoune sinusoiumlde placeacutee agrave 15deg (agrave gauche) et 120deg (agrave droite)

Les figures ci-dessus montrent les relations drsquoamplitudes (algeacutebriques) qui relient

X et Y agrave lrsquoangle de la source On voit que lrsquoanalyse de ces amplitudes respectives permet de retrouver la position de la source en effet on a pour une source unique les relations de lrsquoeacutequation (11) rappeleacutee ici

⎪⎪

⎪⎪

=

=

=

=

δ

δθ

δθ

sin2

cossin2

coscos2

SZ

SY

SX

SW

(41)

On peut donc theacuteoriquement retrouver les valeurs de θ et δ par relations

trigonomeacutetriques Ainsi on a

⎪⎪⎩

⎪⎪⎨

=

=

2)sin(

)tan(

WZ

XY

δ

θ (42)

Chapitre 4 Reacutesultats et applications 38

On peut donc trouver les angles θ et δ agrave π pregraves Pour lever lrsquoambiguiumlteacute une eacutetude de signe est neacutecessaire Mais dans le cas de θ le signe de X et de Y agrave δ fixeacute deacutepend aussi bien de θ que S Il faut srsquointeacuteresser aux signes de θcos et θsin crsquoest-agrave-dire

aux signes de WX et

WY Dans la pratique on srsquointeacuteressera aux signes de et

pour se preacutevenir des divisions par zeacuteros

XW sdot YW sdot

XW sdot et YW sdot sont proportionnels agrave toujours positif

2S

Les auteurs deacutecrivent eacutegalement dans leur article un critegravere appeleacute diffuseness qui

peut ecirctre compareacute agrave un critegravere de pertinence inverseacute Ce paramegravetre calculeacute par agrave 1 - R ougrave R est un rapport de normes est tregraves proche du critegravere de norme relative deacutecrit en 342 Il peut donc ecirctre utiliseacute de la mecircme faccedilon et permettre ainsi une pleine comparaison

Cette meacutethode a eacuteteacute impleacutementeacutee pour pouvoir ecirctre compareacutee avec la meacutethode

par ACP Tous les paramegravetres ont scrupuleusement eacuteteacute gardeacutes identiques et plusieurs reacuteglages ont eacuteteacute testeacutes Les courbes ci-dessous preacutesentent les reacutesultats des analyses de la scegravene deacutecrite en 332 avec un pas de 50ms un overlap de 50 un NFFT de 2048 et 40 bandes freacutequentielles Nous avons repreacutesenteacute tous les angles trouveacutes crsquoest-agrave-dire un par bande et par trame pour srsquoaffranchir de la seacutelection des k-moyennes

π

0

minusπ

Figure 410 - Angles trouveacutes par lrsquoalgorithme de [Pulkki and Faller 2006] Le diamegravetre du point correspondant agrave la pertinence

43 Comparaison avec une meacutethode existante 39

π

0

minusπ

Figure 411 - Angles trouveacutes par une ACP pour la mecircme scegravene On remarque que les points excentriques sont moins nombreux et plus rarement trouveacutes comme pertinents

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee

441 Position du problegraveme

Une application directe de ces analyses a eacuteteacute deacuteveloppeacutee pour la confeacuterence audio

spatialiseacutee La confeacuterence audio utilise en effet la spatialisation pour permettre une meilleure seacuteparation par lrsquooreille des diffeacuterents locuteurs Ainsi si plusieurs personnes parlent en mecircme temps il sera tregraves difficile de comprendre chacun individuellement si ces voix sont restitueacutees en mono mais on pourra focaliser lrsquoattention sur chacune drsquoentre elles si elles sont seacutepareacutees spatialement (crsquoest lrsquoeffet cocktail party [Cherry 1953])

Lrsquoobjectif eacutetait de veacuterifier qursquoil eacutetait possible de conserver la spatialisation drsquoune

confeacuterence en nrsquoayant transmis qursquoun downmix mono des signaux Ce concept semble se rapprocher de celui deacutecrit en 422 mais une diffeacuterence fondamentale les seacutepare la confeacuterence audio spatialiseacutee nrsquoest pas codeacutee au format ambisonic mais les signaux traiteacutes sont directement les sons provenant des diffeacuterents locuteurs crsquoest-agrave-dire les sources elles-mecircmes Ainsi lrsquoanalyse ne porte plus sur une scegravene spatialiseacutee mais sur des signaux seacutepareacutes Il nrsquoy a ainsi plus drsquoindices spatiaux agrave trouver

Avoir accegraves aux sources permet drsquoobtenir des informations plus preacutecises pour

permettre une seacuteparation apregraves la transmission Comme nous lrsquoavons vu lrsquoanalyse drsquoune scegravene spatialiseacutee ne permet que dans drsquoultimes cas agrave la seacuteparation des sources ce qui est ici notre point de deacutepart et sera en fait notre point drsquoarriveacutee En effet nous tenterons de retrouver les sources seacutepareacutees apregraves la transmission de maniegravere agrave pouvoir par la suite les spatialiser agrave loisir (voir Figure 413)

Chapitre 4 Reacutesultats et applications 40

442 Solution proposeacutee Les paramegravetres extraits ne sont donc plus des positions de sources Nous avons

choisi de mesurer puis transmettre lrsquoeacutenergie de chaque signal dans chaque sous-bande en parallegravele du downmix En effet une bonne seacuteparation sera possible si lrsquoon sait quelle proportion de chaque source compose chaque sous-bande du signal mono

Figure 412 - Scheacutema de principe drsquoune confeacuterence audio spatialiseacutee

Figure 413 - Scheacutema ameacutelioreacute (deacutebit reacuteduit)

en pointilleacutes informations compleacutementaires (eacutenergie) Lrsquoanalyse en sous-bandes a lieu dans le serveur (Figure 414) Celui-ci calcule

lrsquoeacutenergie de chaque signal dans chaque sous-bande sur une trame donneacutee Crsquoest ce paramegravetre qui associeacute au signal mono M permettra la seacuteparation des sources dans le terminal (Figure 415) Ce dernier reacutepartira en effet les diffeacuterentes sous-bandes vers chaque signal reconstitueacute proportionnellement agrave cette information pour reconstruire les 4 sources originales

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee 41

Figure 414 - Analyse principe de lrsquoencodage dans le serveur

Figure 415 - Synthegravese principe du deacutecodage dans le client

Afin de reacuteduire au maximum les informations compleacutementaires agrave transmettre on

peut remarquer qursquoau cours drsquoune confeacuterence audio on a tregraves souvent un seul locuteur les participants ne parlent que tregraves rarement tous en mecircme temps Ceci implique que les signaux en entreacutee sont tregraves souvent tous nuls sauf 1 et appliquer un seuil en entreacutee de lrsquoanalyse permet outre lrsquoallegravegement du traitement drsquoavoir moins de paramegravetres agrave transmettre

Ce scheacutema simplifieacute ne tient pas compte des problegravemes de phase rien nrsquoindique

que les eacutenergies des signaux srsquoajoutent bien dans chaque sous-bande lors du downmix on peut tregraves bien avoir des oppositions de phase La solution est drsquoeffectuer le downmix (la somme) des signaux dans chaque sous-bande en prenant soin drsquoavoir recaleacute les phases au preacutealable Ceci nrsquoa un sens que pour des bandes suffisamment eacutetroites Les deacutecalages temporels appliqueacutes pour le recalage sont alors des paramegravetres suppleacutementaires agrave transmettre et sont pris en compte lors de la synthegravese au niveau du reacutepartiteur qui repositionnera la phase de chaque trame pour chaque signal

Chapitre 4 Reacutesultats et applications 42

443 Bilan Le reacutesultat du deacutecodage a pu ecirctre eacutecouteacute de diffeacuterentes maniegraveres les sources

reconstitueacutees individuellement ensemble en steacutereacuteo drsquoamplitude et sur un systegraveme 51 On note que les sources ont eacuteteacute assez bien seacutepareacutees mais que des artefacts sont audibles en particulier lorsque le nombre de locuteurs simultaneacutes augmentent Ces artefacts sont un meacutelange des voix qui nrsquoest gecircnant que lorsqursquoon les eacutecoute de maniegravere seacutepareacutee En effet lrsquoeacutecoute simultaneacutee de ces signaux syntheacutetiseacutes mecircme placeacutes agrave des positions distinctes sur un systegraveme de diffusion multicanal est tout agrave fait satisfaisante

Ce proceacutedeacute pour pouvoir ecirctre appliqueacute doit fonctionner en temps-reacuteel Cette

contrainte nrsquoa pas du tout eacuteteacute prise en compte lrsquoobjectif eacutetant de valider la faisabiliteacute drsquoune reconstruction Les programmes sous Matlab nrsquoont pas eacuteteacute optimiseacutes et ne respectent pas cette contrainte

43

Conclusion Nous avons preacutesenteacute dans ce rapport le principe et lrsquoapplication de plusieurs

meacutethodes drsquoanalyses spatiales de scegravenes ambisoniques conccedilues et reacutealiseacutee pendant le stage Le format HOA est en effet une repreacutesentation du champ acoustique deacutecomposeacute sur une base drsquoharmoniques spheacuteriques jusqursquoagrave un certain ordre agrave la maniegravere drsquoun deacuteveloppement limiteacute Il contient donc de maniegravere indirecte des indications spatiales qursquoon peut extraire avec des analyses comme lrsquoanalyse en composantes principales

Ces analyses nous permettent de deacuteterminer les positions des sources qui

composent la scegravene sonore Nous avons appliqueacute les reacutesultats de ces analyses agrave 2 types de synthegravese lrsquoune destineacutee aux transmissions bas deacutebit lrsquoautre agrave un traitement de restitution de la preacutecision spatiale dans le cas ougrave des ordres supeacuterieurs dont le but est drsquoaffiner la perception de localisation nrsquoauraient pas pu ecirctre transmis Ces algorithmes par le codage drsquoinformations spatiales qursquoils permettent pourront trouver bien drsquoautres applications dans la transmission et le codage ougrave la description du contenu est de plus en plus utiliseacutee (comme par exemple dans la norme MPEG)

Des ameacuteliorations sont possibles sur plusieurs points tout drsquoabord lrsquoexploitation

de toutes les composantes de lrsquoACP est agrave lrsquoeacutetude et semble pouvoir donner des reacutesultats inteacuteressants Drsquoautre part on a vu que le reacutesultat final est tregraves deacutependant de la bonne convergence de lrsquoalgorithme des k-moyennes utiliseacute pour traiter les donneacutees brutes de lrsquoanalyse en sous-bandes Or cet algorithme neacutecessite des reacuteglages tregraves fins et une connaissance a priori du nombre de sources est presque indispensable Drsquoautres algorithmes plus complexes de suivi de formes pourraient ecirctre avantageusement utiliseacutes pour deacutetecter dans tous les angles trouveacutes lesquels sont susceptibles de former une trajectoire

45

Annexe A

Deacuteveloppement du champ acoustique en harmoniques spheacuteriques

A1 Eacutequation drsquoonde en coordonneacutees spheacuteriques On se place dans lrsquoespace euclidien agrave 3 dimensions muni drsquoun systegraveme de

coordonneacutees spheacuteriques Un point M y est repeacutereacute par son rayon r son azimut θ et son eacuteleacutevation δ tels que repreacutesenteacutes sur la figure ci-dessous

- r est la norme du vecteur position rr crsquoest-agrave-dire la distance OM - [20[ πθ isin est lrsquoangle formeacute par le projeteacute du point sur le plan xOy et lrsquoaxe Ox

- ]2

2

[ ππδ minusisin est lrsquoangle formeacute par le plan xOy et le vecteur position2

Figure A1 - Systegraveme de coordonneacutees spheacuteriques

2 Cet angle diffegravere de lrsquoangle polaire usuel δπϕ minus=

2 habituellement pris entre lrsquoaxe Oz et le

vecteur position

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 46

Les relations entre les coordonneacutees spheacuteriques et les coordonneacutees carteacutesiennes sont

⎪⎩

⎪⎨

===

δδθδθ

sincossincoscos

zryrx

(A1)

On srsquointeacuteresse dans ce repegravere agrave lrsquoeacutequation de propagation des ondes acoustiques

de pression On se place dans les conditions classiques drsquoacoustique lineacuteaire (les variations de p sont petites par rapport agrave la pression atmospheacuterique) en supposant que lrsquoair est un fluide parfait (on y neacutegligera les pheacutenomegravenes dissipatifs) Dans une reacutegion de lrsquoespace ne comprenant pas de sources lrsquoeacutequation drsquoonde srsquoeacutecrit alors

0)(12

2

2 =⎟⎟⎠

⎞⎜⎜⎝

⎛partpart

minus∆ trptc

r (A2)

p eacutetant la pression et c la vitesse de propagation du son dans lrsquoair

Cette eacutequation devient dans le domaine freacutequentiel lrsquoeacutequation de Helmholtz

( ) 0)(2 =+∆ ωrpk r (A3)

ck ω

= eacutetant le nombre drsquoonde

En coordonneacutees spheacuteriques cette eacutequation srsquoeacutecrit

0sin1sin

sin11 2

2

2

222

2 =⎥⎦

⎤⎢⎣

⎡+

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart pk

rrrr

rr δθθθ

θθ (A4)

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques Drsquoapregraves [Bruneau 1983] elle admet des solutions agrave variables seacutepareacutees de la forme

)()()( δθ ΦΘ= rRp (A5) Ces solutions sont respectivement - pour la partie radiale une combinaison des fonctions de Bessel spheacuteriques de

premiegravere et seconde espegravece3 jn et nn

)()()( krBnkrAjrR nn += (A6) 3 Les fonctions de Bessel spheacuteriques de seconde espegravece sont eacutegalement appeleacutees fonctions de

Neumann

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 47

Ces fonctions sont deacutefinies comme suit

(A7)

Figure A2 - Fonctions de Bessel spheacuteriques pour les ordres 0 agrave 5 )(krjm

- pour la partie azimutale les fonctions )(θΘ

)sin()cos()( 21 θθθ ncnc +=Θ (A8) Eacutetant donneacute la deacutefinition de lrsquoangle Θ celui-ci doit neacutecessairement ecirctre de

peacuteriode 2π ))2()(( πθθ +Θ=Θ ce qui impose agrave n drsquoecirctre entier

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 48

- pour la partie polaire les fonctions de Legendre associeacutees )(sinδmnP

nm

nn

mn dPdP

)(sin)(sinsin)(sin

δδ

δδ = pour ⎩⎨⎧

gt=

nmavecnm 321

(A9)

ougrave les )(sinδnP sont les polynocircmes de Legendre de degreacute n en δsin deacutefinis par reacutecurrence

( )

11

22

1

0

sin)12()(sin)1(

1cos321)(sin

sin)(sin0)(sin

minus+ minus+=+

minus=

==

mmm mPPmPmet

P

PP

δδ

ϕδ

δδδ

(A10)

et de formule geacuteneacuterale

mm

m

mm dd

mP )1(sin

)(sin21)(sin 2 minus= δ

δδ (A11)

On peut appliquer aux fonctions )(sinδmnP la semi-normalisation de Schmidt

)(sin)()()(sin~ δεδ mnnmn P

nmnmP

+minus

= ougrave 10 =ε et 2=nε pour 1gen (A12)

En appariant les fonctions polaires et azimutales on deacutefinit les harmoniques

spheacuteriques de degreacute et drsquoordre)1(mnY 0gem 4 mnn lele0 et de degreacute et

drsquoordre (voir Figure A3)

)1(minusmnY 1gem

mnn lele1

)(sin~)sin()(

)(sin~)cos()()1(

)1(

δθδθ

δθδθ

mnmn

mnmn

PnY

PnY

=

=minus

(A13)

4 En geacuteneacuteral lorsque le degreacute et lrsquoordre ne sont pas eacutevoqueacutes conjointement on parle par abus de langage drsquoharmoniques drsquoordre m plutocirct que de degreacute m

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 49

soit

1)(sin

)()()12(2sin)(

)(sin)()()12(2cos)(

1)(sin)1()1()12(cos)(

)1(

)1(

1)1(

1

gt

⎪⎪⎩

⎪⎪⎨

+minus

+=

+minus

+=

=+minus

+=

minus

npourP

nmnmmnY

PnmnmmnY

npourPmmmY

mnmn

mnmn

mm

δθδθ

δθδθ

δθδθ

(A14)

La solution angulaire geacuteneacuterale srsquoeacutecrit alors sous la forme drsquoun deacuteveloppement sur

la base drsquoharmoniques spheacuteriques

( ) ( )sum minus

=minus+=Θ

1

1)1()1()( n

m mnmnmnmnn YBYBθ (A15) La solution geacuteneacuterale est alors la seacuterie de Fourier-Bessel

sum sum sum+infin

= = plusmn=

=0 0 1

)()( )()()(m

m

nmnmnm

m YBkrjikrpσ

σσ δθδθ (A16)

ougrave

intint⎪⎩

⎪⎨⎧

minusisin

isin

plusmnplusmn =

]2

2

[

[20[

)1()1( )()1()(

1

ππδ

πθ

δθδθ

S

mnm

mmn dSYpkrji

B (A17)

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 50

Tableau A1 - Expressions analytiques des harmoniques spheacuteriques pour les ordres 0 agrave 3

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 51

Figure A3 - Repreacutesentation des harmoniques spheacuteriques pour les ordres m = 0 agrave 3 Les

couleurs rouge et bleu indiquent respectivement des valeurs positives et neacutegatives

53

Annexe B

Compleacutements theacuteoriques sur le deacutecodage HOA

B1 Vecteur veacutelociteacute et vecteur eacutenergie Le vecteur veacutelociteacute est un indice de la direction apparente drsquoune source introduit

par Gerzon [Gerzon 1992] Il se calcule comme le rapport de la vitesse particulaire sur la pression acoustique

)()(

)()(1

δθδθ

δθδθ

ρ rprp

ki

rprv

cV nabla

minus=minus=rrr

(B1)

Dans le cas drsquoune onde plane le vecteur veacutelociteacute V

rest ainsi directement un

vecteur unitaire orienteacute vers la direction de provenance de lrsquoonde En geacuteneacuteralisant agrave une superposition drsquoondes planes en phase ou opposition de phase eacutemises par L haut-parleurs agrave eacutequidistance du point drsquoobservation on obtient la formule suivante

VVL

ll

L

lll

urg

ugV r

rr

==

sum

sum

=

=

1

1 (B2)

ougrave deacutesigne la direction du llur egraveme haut-parleur auquel est associeacute le gain gl et Vr Vur correspondent respectivement agrave la norme et agrave la direction du vecteur veacutelociteacute

Le vecteur eacutenergie est un autre indice de direction Il est deacutefinit par

EEL

ll

L

lll

urg

ugE r

rr

==

sum

sum

=

=

1

2

1

2

(B3)

Annexe B Compleacutements theacuteoriques sur le deacutecodage HOA 54

Il peut srsquointerpreacuteter comme une indication de la concentration de lrsquoeacutenergie ( ) et de sa direction moyenne de provenance (

Er

Eur ) On a toujours 1ltEr sauf dans le cas ougrave un seul haut-parleur contribue agrave la reconstruction (dans ce cas ) peut ecirctre consideacutereacute comme un indicateur de preacutecision de la localisation

1=Er Er

B2 Deacutecodages optimiseacutes La restitution la plus confortable drsquoun champ sonore veillera donc agrave maximiser

tout en essayant de garder le plus proche possible de 1 Lrsquooptimisation du deacutecodage consiste alors agrave multiplier chaque coefficient de la matrice de deacutecodage D (voir (111) par des gains calculeacutes drsquoapregraves des critegraveres drsquooptimisation

Er Vr

Ainsi le deacutecodage appeleacute max- maximise la norme du vecteur eacutenergie en

sacrifiant celle du vecteur veacutelociteacute puisqursquoon a dans ce deacutecodage (pour des configurations reacuteguliegraveres de haut-parleurs) Ce deacutecodage est donc avantageux par rapport au deacutecodage basique pour les hautes freacutequences ou dans le cas drsquoun auditoire eacutelargi Le deacutecodage in-phase va encore plus loin en cherchant agrave annuler complegravetement les contributions des haut-parleurs placeacutes agrave lrsquoopposeacute de la direction de provenance de lrsquoonde reproduite Ce critegravere est utile dans le cas drsquoune eacutecoute dans une position tregraves excentreacutee agrave laquelle on pourrait percevoir de faccedilon preacutedominante la contribution en opposition de phase drsquoun tel haut-parleur

Er

EV rr =

Ces diffeacuterents deacutecodages ont chacun des avantages et inconveacutenients Ainsi seul le

deacutecodage basique garantit = 1 le deacutecodage max- permet une preacutecision meilleure notamment en haute freacutequence et le deacutecodage in-phase est plus adapteacute agrave un auditoire plus large Jeacuterocircme Daniel [Daniel 2000] propose ainsi de changer le deacutecodage en fonction de la freacutequence et de lrsquoeacutetendue de la zone drsquoeacutecoute deacutesireacutee

Vr Er

Figure B1 - Deacutecodages les plus approprieacutes par sous-bande et en fonction de lrsquoeacutetendue de la

zone drsquoeacutecoute [Daniel 2000]

55

Annexe C

Analyse en composantes principales

C1 Espace des donneacutees Eacutegalement souvent appeleacutee transformeacutee de Karhunen-Loegraveve5 (TKL) lrsquoanalyse en

composantes principales (ACP) est une technique statistique de repreacutesentation drsquoinformation Introduite sur 2 variables par Pearson [Pearson 1900] elle a eacuteteacute eacutetendue par Hotelling [Hotelling 1933] Elle a pour but de caracteacuteriser des donneacutees drsquoun espace agrave N dimensions dans un sous-espace plus petit en minimisant les pertes drsquoinformation due agrave la projection crsquoest-agrave-dire en maximisant la variance projeteacutee Les donneacutees ainsi reacuteorganiseacutees deviennent indeacutependantes Les variables correacuteleacutees sont remplaceacutees par de nouvelles variables deacutecorreacuteleacutees et de variance maximale combinaisons lineacuteaires des variables initiales

Les donneacutees sont constitueacutees de n variables aleacuteatoires (dans notre cas des canaux)

et p reacutealisations ou individus (des eacutechantillons)

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

pn

p

ji

n

xx

x

xx

M

LLL

MOMNM

MLLM

MNMOM

LLL

1

111

(C1)

Ces donneacutees sont geacuteneacuteralement centreacutees et peuvent aussi ecirctre reacuteduites4 (on note

1x la moyenne de la variable et 1x )( 1xσ sa variance) Reacuteduire ou non le nuage de points (ie les p reacutealisations de la variable aleacuteatoire) est un choix de modegravele

5 Quelques rares sources mentionnent une diffeacuterence entre ACP et TKL en placcedilant celle-ci au

niveau du choix de la reacuteduction des donneacutees dans le cas dune ACP les donneacutees seraient centreacutees et reacuteduites alors qursquoelles seraient uniquement centreacutees pour une TKL

Annexe C Analyse en composantes principales 56

- si on ne reacuteduit pas le nuage une variable agrave forte variance pourrait tirer tout lrsquoeffet de lrsquoACP agrave elle

- si on reacuteduit le nuage une variable qui ne serait qursquoun bruit se retrouverait avec une variance apparente eacutegale agrave une variable informative

M est centreacutee

⎥⎥⎥

⎢⎢⎢

minusminusminus

minusminus=

npn

pi

ji

nn

xxxxxx

xxxxM

K

MM

K

11

11

11

ˆ (C2)

M~ est centreacutee et reacuteduite

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

minusminus

minus

minusminus

=

)()(

)(

)()(~

1

11

1

1

111

n

npn

pi

ij

i

n

nn

xxx

xxx

xxx

xxx

xxx

M

σσ

σ

σσ

K

MM

K

(C3)

On multiplie ensuite la matrice obtenue par sa transposeacutee pour obtenir - La matrice de covariance MMC t

vˆˆ sdot=

- La matrice de correacutelation MMC tr

~~ sdot= Ces matrices sont carreacutees (N x N) symeacutetriques et reacuteelles Elles sont donc

diagonalisables dans une base orthonormeacutee 6 Le principe de lrsquoACP est alors de trouver un axe u issu drsquoune combinaison lineacuteaire

des tel que le critegravere drsquoinertie du nuage autour de cet axe soit maximal Le critegravere drsquoinertie couramment utiliseacute est la variance Il faut donc trouver lrsquoaxe qui porte le maximum de variance crsquoest-agrave-dire lrsquoaxe u tel que la projection du nuage sur cet axe ait une variance maximale

nx

6 Nos donneacutees eacutetant ici des valeurs drsquoeacutechantillons elles sont par nature centreacutees et reacuteduites On

formera donc naturellement la matrice de correacutelation

C2 Diagonalisation 57

C2 Diagonalisation Pour alleacuteger lrsquoeacutecriture de la suite de cette partie nous consideacutererons que les

variables ont eacuteteacute centreacutees et si besoin reacuteduites et nous noterons ces variables

transformeacutees (ainsi

ix ix

iii xxx minuslarr ou bien )( i

iii x

xxxσ

minuslarr ) On fera de mecircme pour M

( ou bien MM ˆlarr MM ~larr ) et C ( vCC larr ou bien rCC larr ) La projection drsquoun eacutechantillon sur un axe u srsquoeacutecrit ix

uMxiu sdot=)(π (C4) La variance empirique de )( iu xπ vaut donc

uMMuxx ttiu

tiu sdotsdotsdot=sdot )()( ππ (C5)

Or on a vu que est diagonalisable dans une base orthonormeacutee donc

on peut noter P le changement de base associeacute et ∆ la matrice diagonale formeacutee de son spectre Ainsi

MMC t=

n

i 1)(λ PPMMC tt ∆==

)()()()( PuPuuPPuxx ttt

iut

iu sdot∆sdot=sdot∆sdot=sdotππ (C6) On pose v = Pu Chercher lrsquoaxe u qui maximise )( iu xπ revient donc agrave chercher le

vecteur v qui maximise ougravevvt ∆ )( 1 ndiag λλ K=∆ avec les iλ rangeacutes par ordre deacutecroissant Ce vecteur est trivialement le premier vecteur unitaire et on a alors

1λ=∆vvt

Ainsi le vecteur qui porte la plus grande part drsquoinertie du nuage est le premier

vecteur propre de C (premier par norme deacutecroissante) De mecircme le deuxiegraveme vecteur qui explique la plus grandelt part de lrsquoinertie restante est le deuxiegraveme vecteur propre de C Finalement la question de lrsquoACP se ramegravene agrave un problegraveme de diagonalisation de la matrice de correacutelation

C3 Code Matlab

function [vep vap] = pca(f N) f donneacutees N nombre de composantes agrave garder cor = f f formation de la matrice de correacutelation [vep vap] = eig(cor) calcul des vecteurs (vep) et valeurs (vap) propres [vap ind] = sort(diag(vap)) tri des valeurs propres par ordre croissant vap = flipud(vap) disposition inverse par ordre drsquoimportance vep = vep( flipud(ind)) classement en conseacutequence des vecteurs propres vep = vep( 1N) on ne garde que les N premiers vecteurs propres

Annexe C Analyse en composantes principales 58

59

Annexe D

Analyse en sous-bandes

D1 La transformeacutee de Fourier agrave court terme (TFCT) Pour affiner lrsquoanalyse les signaux sont donc deacutecoupeacutes en bandes de freacutequence par

TFCT La TFCT consiste agrave effectuer des transformeacutees de Fourier discregravetes sur des portions de signal fenecirctreacutees reacuteguliegraverement espaceacutees

On rappelle que la transformeacutee de Fourier drsquoun signal x(t) est deacutefinie (lorsque

lrsquointeacutegrale existe) par

int+infin

infinminus

minus= dtetxfX ftiπ2)()( (D1)

La transformeacutee de Fourier agrave temps discret (TFTD) drsquoun signal x(t) srsquoeacutecrit

sum+infin

minusinfin=

minus=n

fnienxfX π2)()( (D2)

La transformeacutee de Fourier discregravete (TFD) drsquoun signal discret x(k) est deacutefinie par

sum+infin

minusinfin=

minus=

n

Nkni

enxkXπ2

)()( (D3)

La TFCT discregravete est une TFD observeacutee sur une fenecirctre wa de taille N

summinus

=

minus+=

1

0

2)())(()(

N

n

Nnki

aaa enwtnxkXπ

ττ (D4)

ougrave )(taτ est lrsquoinstant drsquoanalyse

Annexe D Analyse en sous-bandes 60

Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT [Laroche 1995]

D2 Synthegravese par addition-recouvrement Lors de la synthegravese apregraves le deacutecoupage et lrsquoanalyse des fenecirctres on cherche agrave

reconstruire le signal temporel agrave partir de sa repreacutesentation freacutequentielle Pour cela on utilise la meacutethode OLA (overlap and add addition-recouvrement) qui consiste agrave prendre la TFCT inverse des spectres Xt puis agrave additionner les signaux obtenus apregraves les avoir multiplieacutes par une fenecirctre de pondeacuteration en les faisant se recouvrir partiellement

Le reacutesultat est donneacute par

sum=

minusminus=T

tsss tnxtnwnx

s1

))((~))(()(~ ττ τ (D5)

avec )()( tt as ττ = et summinus

=

=1

0

2))((~1)(~ N

k

Nkni

s ektXN

nxs

π

τ τ

Lors de la mise en œuvre de ce traitement il faut srsquoassurer drsquoecirctre en mesure de

reconstruire parfaitement un signal lorsqursquoaucune transformation ne lui est appliqueacutee Le critegravere de reconstruction parfaite condition suffisante est alors

sum=

=minusminusT

tasaa tnwtnw

11))(())(( ττ quelque soit n (D6)

D2 Synthegravese par addition-recouvrement 61

Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add [Laroche 1995]

Plusieurs paramegravetres sont agrave choisir avec soin Le premier drsquoentre eux est le type

de fenecirctre agrave utiliser Les diffeacuterentes options qui se preacutesentent agrave nous sont - la fenecirctre rectangulaire qui preacutesente dans son spectre le lobe principal le plus

eacutetroit mais des lobes secondaires non neacutegligeables - la fenecirctre de Hamming au lobe principal un peu plus large mais pour laquelle le

1er lobe secondaire se situe agrave -43 dB - la fenecirctre de Hann (ou cosinus sureacuteleveacute) qui ressemble agrave la preacuteceacutedente avec un

1er lobe secondaire plus fort mais une pente de 18 dB par octave pour les lobes suivants

- les fenecirctres de Blackman-Harris aux lobes secondaires tregraves bas mais au lobe principal plus large

Fenecirctre Lobe 2aire

(dB) Pente

(dBoct) Bande passante

agrave 6 dB (bins) Rectangulaire -13 -6 121 Triangulaire -27 -12 178

Hann -32 -18 200 Hamming -43 -6 181

Blackman-Harris 4 -92 -6 272

Tableau D1 - Caracteacuteristiques des principales fenecirctres drsquoanalyse [Harris 1978] Le meilleur compromis est donc dans notre contexte la fenecirctre de Hann ou celle

de Hamming

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 27: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

21

Chapitre 3

Description des analyses

31 Deacutetermination des directions principales

311 Base des algorithmes Nous avons deacuteveloppeacute plusieurs algorithmes reacutepondant aux diffeacuterents objectifs

deacutecrits plus haut Chacun drsquoeux possegravede des particulariteacutes leur permettant de reacutepondre agrave ces objectifs mais on trouve neacuteanmoins une partie commune Ainsi toutes les analyses reposent sur le mecircme modegravele drsquoapplication drsquoune ACP par sous-bandes dont voici le scheacutema geacuteneacuteral

Figure 31 - Scheacutema geacuteneacuteral drsquoanalyse

Les signaux en entreacutee sont les composantes HOA W X et Y dans la plupart des

cas mais peuvent ecirctre eacutegalement des composantes drsquoordre plus eacuteleveacute (voir 11) Sur le fenecirctrage jouent plusieurs paramegravetres comme la taille de la fenecirctre ou encore le pourcentage de recouvrement entre elles Nous avons choisi une fenecirctre en racine de la fenecirctre de Hanning crsquoest-agrave-dire une arche de sinusoiumlde (voir eacutequation (D7) en Annexe D) avec un recouvrement de 50 ce qui veacuterifie le critegravere de reconstruction parfaite (D6) Le filtrage est pour des raisons de rapiditeacute de calcul reacutealiseacute dans le domaine freacutequentiel par une simple multiplication avant de repasser en temporel pour appliquer lrsquoACP

Le banc de filtre utiliseacute est un banc inspireacute des filtres ERB Les filtres ERB

(Equivalent Regular Bandwidth) sont des filtres imitant le comportement de seacuteparation freacutequentielle de lrsquooreille humaine plus preacutecise en basse freacutequence Les filtres utiliseacutes ici ne sont pas directement des filtres ERB le systegraveme nrsquoa pas drsquointeacuterecirct particulier agrave essayer de copier le fonctionnement de lrsquooreille humaine Ces filtres ont eacuteteacute adapteacutes au problegraveme en

Chapitre 3 Description des analyses 22

srsquoassurant en particulier de la finesse des bandes permettant la meilleure discrimination des diffeacuterentes sources crsquoest-agrave-dire autour des fondamentales usuelles (200-1000 Hz) et des harmoniques Les freacutequences aigueumls sont bien discrimineacutees par les filtres ERB (relativement agrave la gamme crsquoest-agrave-dire en eacutechelle logarithmique) le deacutecoupage a donc surtout eacuteteacute densifieacute entre 200 et 800 Hz par rapport aux bandes ERB

Figure 32 - Filtres utiliseacutes inspireacutes des filtres ERB repreacutesenteacutes lineacuteairement (en haut)

et sur une eacutechelle logarithmique (en bas) Les reacutesultats de lrsquoACP sont donc avec cette meacutethode les angles des sources

trouveacutees dans chaque sous-bande ainsi que pour chacun drsquoeux un critegravere de pertinence calculeacute en fonction de lrsquoeacutenergie de la sous-bande dans une fenecirctre donneacutee et de la norme relative de la premiegravere composante de lrsquoACP (voir 342) Les autres vecteurs propres peuvent ecirctre utiliseacutes pour extraire davantage drsquoinformations et mecircme des signaux deacutecorreacuteleacutes comme on le verra au paragraphe 35 mais lrsquoanalyse semble alors moins robuste Srsquoen tenir aux informations donneacutees par la composante principale est un gage de pertinence suppleacutementaire

Ces reacutesultats concernent donc les sources preacutedominantes ou principales mais

laissent de cocircteacute un certain nombre drsquoeacuteveacutenements sonores agrave consideacuterer

312 Traitement du champ reacutesiduel Le champ reacutesiduel regroupe en quelque sorte tout ce qui nrsquoest pas une source

principale Il inclut donc les reacuteflexions et la reacuteverbeacuteration de la piegravece mais aussi les bruits parasites occasionnels ou continus (ventilation etc) Ces bruits ou eacutechos nrsquoont pas de direction de provenance assez distincte pour pouvoir ecirctre mesureacutee preacuteciseacutement Le champ reacutesiduel est eacutegalement composeacute du champ diffus La notion de champ diffus est couramment utiliseacutee mais rarement preacuteciseacutement deacutefinie On trouve dans la litteacuterature des deacutefinitions diverses lrsquoune drsquoelles preacutecisant qursquoil serait un ensemble drsquoeacuteveacutenements sonores proches en temps et provenant de directions eacutequiprobables

Les algorithmes proposeacutes traitent correctement les sources principales mais le

champ reacutesiduel est laisseacute de cocircteacute Il est pourtant tregraves important pour lrsquoimmersion du sujet dans la scegravene une scegravene deacutepourvue de champ sonore sera perccedilue comme artificielle ce qui nuit agrave la perception drsquoespace On sera par exemple davantage conscients drsquoecirctre au centre drsquoun dispositif expeacuterimental et moins sensibles aux variations de profondeur et de perspectives

31 Deacutetermination des directions principales 23

Neacuteanmoins il faut relativiser lrsquoimportance de ce champ reacutesiduel il nrsquoest pas utile pour la localisation des sources principales et ne caracteacuterise que lrsquoenvironnement drsquoenregistrement En outre le champ reacutesiduel qui provient souvent de directions floues et notre but nrsquoest pas de les preacuteciser artificiellement Il nrsquoest degraves lors geacuteneacuteralement pas utile de le transmettre aux ordres eacuteleveacutes

Ainsi certains auteurs [Merimaa and Pulkki 2005] ont choisi de recreacuteer lors drsquoune

synthegravese un champ diffus artificiel baseacute sur une reacuteponse impulsionnelle de salle calculeacutee agrave lrsquoavance Lrsquoavantage est une immersion un enveloppement complets lrsquoinconveacutenient est que lrsquoambiance ainsi recreacuteeacutee est fictive et arbitraire et en outre complegravetement indeacutependante de lrsquoambiance initiale en laissant notamment de cocircteacute les sources secondaires

Nous proposons dans nos algorithmes de ne pas syntheacutetiser le champ diffus aux

ordres eacuteleveacutes mais de nous contenter de la description du champ reacutesiduel fourni par les ordres transmis (1er ordre dans nos exemples) Nous nous limiterons donc agrave preacuteciser par la synthegravese des ordres supeacuterieurs les positions des sources principales

32 Extension agrave la 3D Nous avons pour le moment eacutevoqueacute le cas de repreacutesentations de champ sonore agrave

2 dimensions crsquoest-agrave-dire issus de sources placeacutees dans le plan horizontal Mais certaines repreacutesentations comportent eacutegalement des composantes verticales Pour analyser ces signaux en 3 dimensions il faut inteacutegrer la composante Z On effectue alors simplement une ACP sur X Y Z et W Le 1er vecteur propre sera alors bien dirigeacute dans lrsquoespace (X Y Z) dans la direction de la source lrsquoambiguiumlteacute de frac12 espace eacutetant leveacutee par W

Lrsquoalgorithme est alors complegravetement similaire agrave celui analysant des signaux en 2

dimensions Des tests ont eacuteteacute reacutealiseacutes agrave partir de signaux syntheacutetiques pour lesquels les positions des sources eacutetaient connues pour des raisons pratiques aucune scegravene sonore reacuteelle en 3 dimensions nrsquoa pu ecirctre enregistreacutee avec une connaissance initiale preacutecise des positions des sources

Les visualisations et les eacutecoutes eacutetant plus deacutelicates en 3D et lrsquoextension agrave la 3D

eacutetant immeacutediate nous avons donc concentreacute nos efforts sur lrsquoanalyse de scegravenes en 2D En outre en lrsquoabsence de dispositif spheacuterique ou heacutemispheacuterique de haut-parleurs le seul moyen agrave notre disposition pour eacutecouter une scegravene 3D est lrsquoeacutecoute binaurale crsquoest-agrave-dire au casque avec des fonctions de transfert de tecircte (HRTF) relativement bien adapteacutees agrave lrsquoauditeur

33 Analyse aux ordres supeacuterieurs

331 Description Afin drsquoameacuteliorer la preacutecision de lrsquoanalyse nous avons essayeacute drsquoappliquer une ACP

sur des signaux ambisoniques drsquoordre plus eacuteleveacute (signaux HOA) dans le plan horizontal Deux meacutethodes ont eacuteteacute essayeacutees

Chapitre 3 Description des analyses 24

La premiegravere consiste agrave appliquer une ACP agrave 3 dimensions successivement sur les composantes X Y W (ordre 1 et 0) puis U V W (ordre 2 et 0) et ainsi de suite crsquoest-agrave-dire (en utilisant la notation geacuteneacuterale) sur les composantes et W (ordre m et 0) Les reacutesultats de ces analyses (les directions des 1

)1(0mY )1(

0minus

mYegraveres composantes) sont ensuite regroupeacutees

lrsquoanalyse de lrsquoordre 1 fournissant des reacutesultats modulo 2π lrsquoanalyse de lrsquoordre 2 des reacutesultats plus preacutecis mais modulo π et plus geacuteneacuteralement lrsquoanalyse de lrsquoordre m permettant de trouver des angles modulo mπ2

La limite de cette approche se perccediloit lors de la fusion des reacutesultats les angles

trouveacutes agrave un ordre eacuteleveacute sont plus preacutecis dans des bandes de freacutequences eacuteleveacutees mais la limitation theacuteorique de ces signaux HOA dans les basses freacutequences font que lrsquoanalyse de lrsquoordre 1 reste la plus pertinente dans les premiegraveres bandes Parvenir agrave deacuteterminer agrave partir de quelle freacutequence on peut faire davantage confiance agrave lrsquoordre n+1 qursquoagrave lrsquoordre n nrsquoest pas aiseacute et cette limite provoque des aberrations dans les angles trouveacutes Une source unique pourra par exemple ecirctre interpreacuteteacutee par lrsquoalgorithme des k-moyennes (voir 341) comme 2 sources une en hautes freacutequences et une en basses freacutequences les 2 eacutetant trouveacutes agrave 2 angles diffeacuterents chaque angle relevant drsquoun ordre analyseacute diffeacuterent

La deuxiegraveme meacutethode consiste pour eacuteviter cette fusion des reacutesultats agrave effectuer

une seule ACP sur les composantes U V X Y et W Cette meacutethode souffre drsquoune tregraves grande complexiteacute algorithmique pour une ameacutelioration de la preacutecision peu sensible En effet si cette meacutethode permet drsquoobtenir des reacutesultats plus preacutecis dans certaines bandes de freacutequences elle est sensible aux deacutefauts et les limites des ordres supeacuterieurs (lrsquoabsence de basses freacutequences entre autres) perturbent lrsquoanalyse en composantes principales

332 Illustration sur une scegravene virtuelle La scegravene preacutesenteacutee ici est une scegravene artificielle crsquoest-agrave-dire composeacutee de sons

placeacutes artificiellement agrave diverses positions Elle a une dureacutee totale de 135 s et comporte 4 sources positionneacutees dans le plan horizontal une guitare placeacutee agrave 45deg une basse agrave -70deg une batterie agrave 110deg et une voix feacuteminine qui effectue continucircment un tour complet dans le sens indirect en partant de lrsquoarriegravere (elle passe donc successivement par les positions 180deg 90deg 0deg -90deg et -180deg) La guitare et la batterie srsquoarrecirctent peu avant la fin de la scegravene (12egraveme seconde au 910egraveme du son approximativement)

Figure 33 - Position des sources de la scegravene de test agrave 4 sources dont 1 mobile

33 Analyse aux ordres supeacuterieurs 25

Figure 34 - Angles drsquoune scegravene virtuelle ayant 1 source mobile et 3 sources fixes

(deacutecrite en 332) trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 Pour chaque trame (en abscisse) 20 angles (1 par bande en ordonneacutee et en degreacutes) sont

reporteacutes le diamegravetre du point correspondant agrave un critegravere de pertinence (voir 342)

Figure 35 - Angles de la mecircme scegravene trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 2 Reacutesultats modulo π reacutepliqueacutes pour faciliter la comparaison avec la figure preacuteceacutedente On remarque que les lignes sont plus nettes qursquoil y a moins drsquoangles aberrants et que

les angles corrects sont plus marqueacutes (ils sont deacutetermineacutes comme plus pertinent)

Chapitre 3 Description des analyses 26

20

0

20

0

20

0

Figure 36 - Angles drsquoune scegravene reacuteelle constitueacutee drsquoun bruit parcourant le cercle trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 (en haut) 0 et 2 (au milieu) et 0 et 4 (en bas) Le

numeacutero de trame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On retrouve qursquoune limitation des ordres HOA supeacuterieurs issus drsquoun enregistrement

microphonique est la restitution des basses freacutequences

34 Traitement des donneacutees

341 Algorithme des k-moyennes Agrave lrsquoissue de lrsquoanalyse en composantes principales on reacutecupegravere avec la premiegravere

des meacutethodes exposeacutees au chapitre preacuteceacutedent des angles correspondants aux positions des sources preacutedominantes agrave raison drsquoune valeur par fenecirctre et par bande de freacutequence Il faut agrave partir de ces donneacutees parvenir agrave isoler les sources crsquoest-agrave-dire agrave deacuteterminer quels sont les angles pertinents et examiner quels sont ceux qui agrave une certaine toleacuterance pregraves sont preacutesents dans plusieurs bandes de freacutequence etou plusieurs fenecirctres temporelles

Pour pouvoir exploiter ces donneacutees spatiales nous avons utiliseacute lrsquoalgorithme des

k-moyennes (ou k-means) [MacQueen 1967] sur les angles pondeacutereacutes par des critegraveres de pertinence Cet algorithme fonctionne de la maniegravere suivante

Initialisation choix de k barycentres (les k moyennes) Reacutepeacuteter Associer chaque eacuteleacutement au barycentre le plus proche Recalculer les positions des barycentres Jusqursquoagrave ce que les barycentres soient stables (ou au bout de t iteacuterations)

34 Traitement des donneacutees 27

Lrsquoavantage de cet algorithme est drsquoecirctre peu glouton puisqursquoil converge en O(tkn) ougrave t est le nombre drsquoiteacuterations k le nombre de centres et n le nombre de points (geacuteneacuteralement on a t k ltlt n) Par contre il est plutocirct sensible aux exceptions un point aberrant tirera agrave lui la moyenne auquel il aura eacuteteacute associeacute Il faut donc faire en sorte que ces points erroneacutes soient aussi rares que possibles Crsquoest pourquoi les angles traiteacutes sont pondeacutereacutes par 2 critegraveres de pertinence

La pondeacuteration des angles fournis en entreacutee de lrsquoalgorithme des k-moyennes se

fait de maniegravere simple en reacutepeacutetant ces angles un nombre de fois (de 0 agrave 10) proportionnel agrave un critegravere Ainsi un angle tregraves pertinent sera dupliqueacute et sera preacutesent plusieurs fois dans la liste des donneacutees traiteacutees attirant ainsi agrave lui la position du barycentre le plus proche Au contraire un angle trop peu pertinent ne sera pas reacutepeacuteteacute voir mecircme sera enleveacute de la liste

Le seul problegraveme de cet algorithme est qursquoil neacutecessite la connaissance de k crsquoest-

agrave-dire du nombre de sources qui composent la scegravene Une deacutetermination automatique se basant sur la reacutepeacutetition de lrsquoalgorithme avec un k croissant a eacuteteacute testeacutee mais le critegravere drsquoarrecirct reposant sur la dispersion des points autour des barycentres nrsquoeacutetant pas assez robuste cette meacutethode a provisoirement eacuteteacute mise de cocircteacute

342 Critegraveres de pertinence Les 2 critegraveres de pondeacuteration choisis sont lrsquoeacutenergie de la sous-bande dans la

fenecirctre donneacutee et le rapport de la norme de la 1egravere composante (la composante principale) de lrsquoACP sur la somme des normes de toutes les composantes

En effet un angle est trouveacute dans chaque sous-bande de chaque fenecirctre mecircme si

le signal y est tregraves faible Lrsquoangle trouveacute sera alors tregraves peu repreacutesentatif de la direction drsquoune source puisqursquoil indiquera la direction drsquoun bruit Lrsquoeacutenergie doit donc ecirctre prise en compte pour ne conserver que les angles trouveacutes dans des bandes comportant un signal suffisant

La norme relative de la 1egravere composante de lrsquoACP rend quant agrave elle compte du

poids relatif de cette composante par rapport aux autres Ainsi si 2 sources sont preacutesentes dans une bande donneacutee la 1egravere composante sera agrave peine plus marqueacutee que la 2egraveme Ceci peut ecirctre calculeacute en prenant simplement le rapport de la 1egravere valeur propre sur la somme des valeurs propres

On peut noter que la norme de la 1egravere composante ne se deacutetache nettement que

lorsqursquoun son est preacutesent dans la bande consideacutereacutee On peut alors se demander si lrsquoeacutenergie doit ecirctre prise en compte ou si lrsquoinformation qursquoelle contient nrsquoest comprise dans le 2egraveme critegravere En fait la norme relative est un critegravere tregraves bruiteacute et consideacuterer lrsquoeacutenergie par ailleurs permet de nuancer ces artefacts et constitue une base solide de pondeacuteration

Chapitre 3 Description des analyses 28

80

40

0

Figure 37 - Repreacutesentation temps-freacutequence des angles du son deacutecrit en 332 Letrame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On peut donc v

par trame et par bande chacun eacutetant le reacutesultat drsquoune ACP crsquoest-agrave-dire la 1egravere

Figure 38 - Eacutenergie de ce mecircme son On peut voir une basse en notes tenues uneet une batterie qui produit des sons secs dans un spectre plus aigu

80

40

0

80

40

0

Figure 39 - Norme relative de la 1egravere composante de ce mecircme son Les impacts de batterie (dans lrsquoaigu) ressortent davantage

π 0 minusπ

numeacutero de oir un angle direction

voix aiguumle

34 Traitement des donneacutees 29

Figure 310 - Pondeacuteration appliqueacutee agrave lrsquoentreacutee des k-moyennes calculeacutee ici comme

le simple produit de lrsquoeacutenergie et de la norme relative

80

40

0

343 Lissages

Pour faire face au bruit ineacutevitable dans les reacutesultats il faut lisser les donneacutees Ces

lissages temporels correspondent agrave des hypothegraveses de stabiliteacute des sources qui sont supposeacutees ecirctre fixes ou mobiles relativement lentement (dans une mesure agrave parameacutetrer)

Un premier lissage peut ecirctre opeacutereacute avant le traitement par lrsquoalgorithme des k-

moyennes Le filtre choisi est un filtre meacutedian de maniegravere agrave eacuteliminer les points aberrants tout en conservant les vraies valeurs des points coheacuterents Ce lissage est appliqueacute sur chaque sous-bande aux angles et ne tient pas compte des critegraveres de pertinence Il est donc utiliseacute avec parcimonie et peut mecircme ecirctre eacuteviteacute en reacuteglant de maniegravere adeacutequate les critegraveres de pondeacuteration agrave lrsquoentreacutee des k-moyennes

Le deuxiegraveme lissage srsquoeffectue agrave lrsquoentreacutee des k-moyennes en mecircme temps que les

critegraveres de pondeacuteration Il consiste agrave appliquer les k-moyennes non pas sur une fenecirctre donneacutee mais sur plusieurs fenecirctres conseacutecutives anteacuterieures et posteacuterieures en donnant plus de poids agrave la fenecirctre courante Dans la pratique les poids donneacutes aux diffeacuterentes fenecirctres sont eacutetablis par une gaussienne centreacutee sur la fenecirctre courante et de largeur agrave deacuteterminer (en fonction notamment de la dureacutee drsquoune fenecirctre et du type de scegravene analyseacute)

35 Exploitation de toutes les composantes de lrsquoACP Les analyses preacutesenteacutees preacuteceacutedemment ont toutes exploiteacute uniquement la

composante principale extraite par lrsquoACP Or cette analyse fournit des informations plus complegravetes par lrsquointermeacutediaire des autres composantes dont on peut tirer parti pour isoler plusieurs sources au sein drsquoune mecircme bande Cette approche est toujours en deacuteveloppement dans ce stage et nrsquoa pas encore donneacute pleine mesure des reacutesultats qursquoelle laisse entrevoir

Les composantes de lrsquoACP indiquent des directions qui correspondent aux

diffeacuterentes sources composant la scegravene sonore Les vecteurs propres de la matrice de correacutelation donnent ainsi les combinaisons lineacuteaires des signaux HOA permettant de

Chapitre 3 Description des analyses 30

seacuteparer de la meilleure faccedilon possible ces sons Ces directions peuvent ecirctre alors utiliseacutees pour former des directiviteacutes isolant au mieux ces sources

aBS sdot= (31)

ougrave la matrice a contient les vecteurs propres de la matrice de correacutelation (voir Annexe C) le vecteur B contient les signaux HOA et le vecteur S contient les sources extraites

⎟⎟⎟

⎜⎜⎜

=⎟⎟⎟

⎜⎜⎜

⎛=

⎥⎥⎥

⎢⎢⎢

⎟⎟⎟

⎜⎜⎜

⎟⎟⎟

⎜⎜⎜

⎛=

10

1001

1

ML

N

B

BB

S

SSuua MML (32)

On obtient ainsi des lobes drsquoautant plus eacutetroits que lrsquoordre est eacuteleveacute chacun

dirigeacute vers une source et permettant de lrsquoisoler le plus possible des contributions des autres sources La Figure 311 preacutesente les directiviteacutes ainsi trouveacutees par une ACP en pleine bande Une analyse en sous-bande permet une plus grande distinction des sources mais une seacuteparation diffeacuterente entre les bandes est dangereuse car elle risque de dissocier spatialement plusieurs parties drsquoun mecircme son

Figure 311 - Directiviteacutes seacuteparant ideacutealement 4 sources placeacutees agrave 17 73 195 et -58deg

pour une scegravene virtuelle encodeacutee agrave lrsquoordre 4 Ce principe se heurte neacuteanmoins aux limites de seacuteparation lieacutees agrave lrsquoordre

drsquoencodage en effet 2 sources ne pourront pas ecirctre seacutepareacutees si elles sont trop proches comme en teacutemoigne la largeur des lobes principaux Les lobes secondaires traduisent eacutegalement un meacutelange des sources isoleacutees La figure ci-dessus montre ainsi que la source placeacutee agrave 17deg (en vert) sera preacutesente de maniegravere non neacutegligeable dans le signal senseacute contenir la source placeacutee agrave -58deg (en bleu) en raison du lobe secondaire bleu important

31

Chapitre 4

Reacutesultats et applications

41 Illustration et critique des reacutesultats obtenus

411 Avant-propos Sans notification particuliegravere les reacutesultats preacutesenteacutes ont eacuteteacute obtenus avec un pas

de 50 ms une analyse en 80 bandes avec une FFT sur 8192 points Une taille de FTT plus grande et un plus grand nombre de bande augmente la qualiteacute de lrsquoanalyse un pas plus petit ameacuteliore sa preacutecision temporelle mais les reacutesultats sont moins fiables et un lissage plus important srsquoimpose alors Ces paramegravetres ont eacuteteacute reacutegleacutes apregraves de multiples essais sur des scegravenes diverses

Les reacutesultats sont preacutesenteacutes ici uniquement sous la forme de graphiques nous ne

pouvons donc repreacutesenter que les angles trouveacutes agrave la sortie de lrsquoalgorithme des k-moyennes

412 Scegravene 2D artificielle agrave 4 sources fixes La premiegravere scegravene est une scegravene artificielle composeacutee de 4 sons fixes placeacutes agrave -70

-10 45 et 110deg Ces sons (une basse une voix une guitare et une batterie) ont eacuteteacute choisis pour leur varieacuteteacute spectrale et leur varieacuteteacute drsquoattaque Elle a en outre le meacuterite drsquoecirctre reacutealiste et de constituer une seacutequence musicale (chaque son nrsquoest pas une meacutelodie indeacutependante)

On voit sur la Figure 41 ci-dessous que les angles trouveacutes sont proches des

angles theacuteoriques Lrsquoun des sons (agrave 45deg) est quasiment nul avant la 100egraveme trame sa position est alors moins facile agrave deacuteterminer plus preacuteciseacutement une position approximative est trouveacutee et correspondrait exactement agrave la position du bruit (45deg) si lrsquoincertitude de mesure tregraves grande pour un son aussi faible ne rendait la deacutetermination si ardue On mesure un eacutecart-type de 22deg sur cet exemple (en excluant le deacutebut du son agrave 45deg)

Chapitre 4 Reacutesultats et applications 32

Figure 41 - Angles theacuteoriques (en pointilleacutes rouge) et calculeacutes (en trait bleu) pour une scegravene

constitueacutee de 4 sons fixes longue de 11s

413 Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile

Figure 42 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) de la scegravene agrave

4 sources dont 1 mobile deacutecrite en 332 Cette scegravene est deacutecrite en 332 On a ici demandeacute aux k-moyennes de renvoyer 5 barycentres par trame alors que

seules 4 sources eacutetaient preacutesentes dans le but de se garantir une marge vis-agrave-vis des erreurs de deacutetection Cette 5egraveme direction nrsquoest pas du tout gecircnante elle indique une direction qui ne contient pas de source et crsquoest donc un son tregraves faible qui est ainsi pointeacute Apregraves une eacuteventuelle extraction le signal ne sera donc pas du tout gecircnant

41 Illustration et critique des reacutesultats obtenus 33

On peut remarquer que quand le son mobile se rapproche drsquoun son fixe la deacutetection est moins bonne il y a une fusion entre les 2 sons Mais encore une fois lors de lrsquoextraction lrsquoisolation drsquoun des sons englobera lrsquoautre son ce qui ne posera pas de problegraveme pour les objectifs fixeacutes aucune source nrsquoeacutetant oublieacutee En effet la seacuteparation de sources nrsquoest pas un objectif ici mais un moyen pour preacuteciser les positions des sources ce qui sera fait correctement mecircme si 2 sources sont pointeacutees par 1 seule direction

414 Scegravene 3D artificielle agrave une source et bruit de fond

La scegravene dont la position drsquoune source a eacuteteacute extraite ci-dessous est une scegravene virtuelle en 3D constitueacute drsquoun son (une voix) qursquoon a fait se deacuteplacer par paliers tout drsquoabord vers le haut de 0deg agrave 45deg et vers la gauche de 0deg agrave 90deg puis redescendre jusqursquoagrave 35deg en continuant son cheminement vers la gauche jusqursquoagrave 120deg et enfin finir la descente de 35deg agrave 0deg en la laissant agrave 120deg Agrave cette source a eacuteteacute superposeacutee une ambiance spatialiseacutee de hall drsquoaeacuteroport initialement enregistreacutee en 2D (au format 51) mais transformeacutee pour contenir des composantes verticales Cette ambiance deacutecorreleacutee de la source avait pour but de tester la robustesse de lrsquoanalyse Elle eacutetait agrave 15 dB en-dessous du niveau de la voix

Figure 43 - Azimut et eacuteleacutevation theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun

son en 3D artificiel de 9s placeacute dans une ambiance bruyante On remarque que lrsquoanalyse est tregraves correcte Il nrsquoy a pas drsquoeacutecart important entre

les angles theacuteoriques et ceux calculeacutes On note toutefois que le lissage agrave lrsquoentreacutee des k-moyennes a pour effet de gommer les creacuteneaux et drsquoaplatir quelque peu la courbe drsquoeacuteleacutevation ceci nrsquoest pas vraiment gecircnant car de tels sauts dans la position drsquoune source ne sont pas du tout reacutealistes (ils peuvent caracteacuteriser des bruits de pas mais de tels impacts sont courts et on peut srsquoattendre agrave ce que la courbe suive leur position aux instants ougrave ils sont eacutemis)

Chapitre 4 Reacutesultats et applications 34

415 Scegravene 2D naturelle agrave une source Les scegravenes naturelles sont on lrsquoa vu plus deacutelicates agrave exploiter car on ne peut pas

garantir la preacutecision de la position theacuteorique agrave retrouver par le calcul et on ne peut donc pas calculer la preacutecision de lrsquoanalyse Seuls les enregistrements utilisant la table tournante (voir 232) permettent une mesure preacutecise de la position de lrsquoangle Ces enregistrements on pu confirmer la validiteacute de lrsquoanalyse pour des scegravenes reacuteelles on trouve ici un eacutecart-type de 25deg

Figure 44 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun bruit blanc

tournant autour du micro enregistreacute en chambre sourde Cette analyse a eacuteteacute reacutealiseacutee par sous-bandes mais sur une eacutetendue freacutequentielle

plus reacuteduite puisqursquoon srsquoest limiteacute aux possibiliteacutes offertes par le microphone La scegravene a donc eacuteteacute analyseacutee de 200 agrave 10 000 Hz

42 Quelques applications

421 Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre 2 agrave partir de lrsquoordre 1

Une fois les positions des sources connues la porte est ouverte agrave de nombreuses

applications La connaissance de ces positions permet en effet de syntheacutetiser artificiellement des composantes manquantes ou non transmises La premiegravere synthegravese deacuteveloppeacutee est celle des signaux U et V composant la partie horizontale de lrsquoordre 2 agrave partir de lrsquoordre 1 et de paramegravetres issus de lrsquoanalyse pour une source en 2D (des angles dans de cas)

42 Quelques applications 35

Figure 45 - Principe de lrsquoameacutelioration de la preacutecision spatiale

Le principe de la synthegravese est drsquoextraire les sources originales agrave partir de W X Y

et des angles (un angle par trame et par sous-bande) Ceci peut ecirctre reacutealiseacute de maniegravere approcheacutee en deacutecodant lrsquoordre 1 dans les directions des sources Ce deacutecodage revient agrave calculer les signaux qui devraient alimenter des haut-parleurs qui seraient placeacutes agrave ces positions dans le cas drsquoune restitution (voir 122) crsquoest-agrave-dire agrave former des directiviteacutes dans les directions des sources Dans la plupart des cas ce deacutecodage qui fait intervenir une pseudo-inversion de Moore-Penrose (111) est imparfait les sources se retrouvant leacutegegraverement meacutelangeacutees On peut comparer cette seacuteparation agrave celle que ferait un ensemble de microphones agrave directiviteacute hypercardioiumlde coiumlncidents

Figure 46 - Directiviteacutes eacutequivalentes agrave la seacuteparation de 4 sources agrave lrsquoordre 1 Ces sources seacutepareacutees vont ensuite constituer toujours placeacutees aux angles

deacutetermineacutes agrave lrsquoanalyse une scegravene virtuelle qursquoon va encoder agrave lrsquoordre 2 De cet encodage on ne conservera que les signaux manquants dans notre exemple les signaux du 2nd ordre U et V Ainsi la scegravene spatialiseacutee sera au final constitueacutee des signaux W X et Y drsquoorigine (transmis) et des signaux U et V syntheacutetiseacutes

Chapitre 4 Reacutesultats et applications 36

422 Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave partir de W Reconstruire une scegravene sonore spatialiseacutee agrave partir drsquoun unique canal mono est

alors difficile et le reacutesultat nrsquoest appreacuteciable que pour des scegravenes simples Il faut pour cela que les diffeacuterentes sources composant cette scegravene aient des supports spectraux aussi distincts que possible Les diffeacuterentes sous-bandes sont alors placeacutees agrave un certain angle transmis en parallegravele et crsquoest cette scegravene reconstitueacutee qui va ecirctre encodeacutee au 1er ordre de maniegravere agrave recreacuteer les signaux X et Y

Figure 47 - Principe de la restitution de lrsquoordre 1 agrave partir du signal mono W Ce scheacutema rappelle une meacutethode deacuteveloppeacutee dans le cas steacutereacuteo appeleacutee BCC

(Binaural Cue Coding) [Faller and Baumgarte 2002] Le principe est drsquoextraire et coder des informations permettant la reconstruction binaurale drsquoun signal agrave savoir les diffeacuterences interaurales drsquointensiteacute et de temps (Interaural LevelTime Difference ILD et ITD) qui correspondent dans le cas drsquoune restitution sur un casque aux diffeacuterences drsquointensiteacute et de temps inter-canal (Inter-Channel LevelTime Difference ICLD et ICTD) qui sont mesureacutees agrave partir drsquoune analyse en sous-bandes Les auteurs y ont plus reacutecemment associeacute un indice de correacutelation interaurale mesureacute agrave partir de la correacutelation inter-canal (ICC) afin de caracteacuteriser la preacutecision spatiale (la ldquolargeurrdquo drsquoune source)

Figure 48 - Scheacutema de principe de la meacutethode BCC [Faller and Baumgarte 2003]

On observe en pratique des deacutefauts lieacutes agrave la brutaliteacute de la proceacutedure une sous-

bande ne peut ecirctre que placeacutee agrave la position indiqueacutee et ne peut pas rester floue diffuse ou encore ecirctre placeacutee agrave plusieurs endroits Pour y remeacutedier nous avons ajouteacute 2 traitements agrave la synthegravese Tour drsquoabord nous avons appliqueacute un leacuteger lissage soulageant les effets deacutesagreacuteables dus au saut du contenu drsquoune sous-bande drsquoun endroit agrave un autre entre de 2 fenecirctres conseacutecutives Les positions varient alors de faccedilon plus souple au sein drsquoune mecircme sous-bande traduisant une hypothegravese de continuiteacute spatiale (pas de deacuteplacement brusque) La contrepartie est que cette hypothegravese est lieacutee agrave une hypothegravese de continuiteacute spectrale

42 Quelques applications 37

La 2egraveme ameacutelioration concerne le positionnement des sources En incluant dans la transmission un critegravere de pertinence on peut savoir srsquoil est raisonnable de placer une sous-bande agrave un angle preacutecis ou bien si lrsquoanalyse eacutetait flou agrave son sujet auquel cas un positionnement impreacutecis serait preacutefeacuterable Le paramegravetre choisi est une combinaison des critegraveres eacutevoqueacutes en 342 il nous permet de placer la sous-bande de maniegravere plus ou moins prononceacutee

43 Comparaison avec une meacutethode existante Certains auteurs ont deacutejagrave essayeacute drsquoanalyser un contenu ambisonique pour

retrouver les positions des sources Ville Pulkki a ainsi deacutecrit dans [Pulkki and Faller 2006] une meacutethode drsquoanalyse du B-format baseacutee sur lrsquoeacutetude des amplitudes des signaux W X Y et Z

Figure 49 - X et Y dans le cas drsquoune sinusoiumlde placeacutee agrave 15deg (agrave gauche) et 120deg (agrave droite)

Les figures ci-dessus montrent les relations drsquoamplitudes (algeacutebriques) qui relient

X et Y agrave lrsquoangle de la source On voit que lrsquoanalyse de ces amplitudes respectives permet de retrouver la position de la source en effet on a pour une source unique les relations de lrsquoeacutequation (11) rappeleacutee ici

⎪⎪

⎪⎪

=

=

=

=

δ

δθ

δθ

sin2

cossin2

coscos2

SZ

SY

SX

SW

(41)

On peut donc theacuteoriquement retrouver les valeurs de θ et δ par relations

trigonomeacutetriques Ainsi on a

⎪⎪⎩

⎪⎪⎨

=

=

2)sin(

)tan(

WZ

XY

δ

θ (42)

Chapitre 4 Reacutesultats et applications 38

On peut donc trouver les angles θ et δ agrave π pregraves Pour lever lrsquoambiguiumlteacute une eacutetude de signe est neacutecessaire Mais dans le cas de θ le signe de X et de Y agrave δ fixeacute deacutepend aussi bien de θ que S Il faut srsquointeacuteresser aux signes de θcos et θsin crsquoest-agrave-dire

aux signes de WX et

WY Dans la pratique on srsquointeacuteressera aux signes de et

pour se preacutevenir des divisions par zeacuteros

XW sdot YW sdot

XW sdot et YW sdot sont proportionnels agrave toujours positif

2S

Les auteurs deacutecrivent eacutegalement dans leur article un critegravere appeleacute diffuseness qui

peut ecirctre compareacute agrave un critegravere de pertinence inverseacute Ce paramegravetre calculeacute par agrave 1 - R ougrave R est un rapport de normes est tregraves proche du critegravere de norme relative deacutecrit en 342 Il peut donc ecirctre utiliseacute de la mecircme faccedilon et permettre ainsi une pleine comparaison

Cette meacutethode a eacuteteacute impleacutementeacutee pour pouvoir ecirctre compareacutee avec la meacutethode

par ACP Tous les paramegravetres ont scrupuleusement eacuteteacute gardeacutes identiques et plusieurs reacuteglages ont eacuteteacute testeacutes Les courbes ci-dessous preacutesentent les reacutesultats des analyses de la scegravene deacutecrite en 332 avec un pas de 50ms un overlap de 50 un NFFT de 2048 et 40 bandes freacutequentielles Nous avons repreacutesenteacute tous les angles trouveacutes crsquoest-agrave-dire un par bande et par trame pour srsquoaffranchir de la seacutelection des k-moyennes

π

0

minusπ

Figure 410 - Angles trouveacutes par lrsquoalgorithme de [Pulkki and Faller 2006] Le diamegravetre du point correspondant agrave la pertinence

43 Comparaison avec une meacutethode existante 39

π

0

minusπ

Figure 411 - Angles trouveacutes par une ACP pour la mecircme scegravene On remarque que les points excentriques sont moins nombreux et plus rarement trouveacutes comme pertinents

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee

441 Position du problegraveme

Une application directe de ces analyses a eacuteteacute deacuteveloppeacutee pour la confeacuterence audio

spatialiseacutee La confeacuterence audio utilise en effet la spatialisation pour permettre une meilleure seacuteparation par lrsquooreille des diffeacuterents locuteurs Ainsi si plusieurs personnes parlent en mecircme temps il sera tregraves difficile de comprendre chacun individuellement si ces voix sont restitueacutees en mono mais on pourra focaliser lrsquoattention sur chacune drsquoentre elles si elles sont seacutepareacutees spatialement (crsquoest lrsquoeffet cocktail party [Cherry 1953])

Lrsquoobjectif eacutetait de veacuterifier qursquoil eacutetait possible de conserver la spatialisation drsquoune

confeacuterence en nrsquoayant transmis qursquoun downmix mono des signaux Ce concept semble se rapprocher de celui deacutecrit en 422 mais une diffeacuterence fondamentale les seacutepare la confeacuterence audio spatialiseacutee nrsquoest pas codeacutee au format ambisonic mais les signaux traiteacutes sont directement les sons provenant des diffeacuterents locuteurs crsquoest-agrave-dire les sources elles-mecircmes Ainsi lrsquoanalyse ne porte plus sur une scegravene spatialiseacutee mais sur des signaux seacutepareacutes Il nrsquoy a ainsi plus drsquoindices spatiaux agrave trouver

Avoir accegraves aux sources permet drsquoobtenir des informations plus preacutecises pour

permettre une seacuteparation apregraves la transmission Comme nous lrsquoavons vu lrsquoanalyse drsquoune scegravene spatialiseacutee ne permet que dans drsquoultimes cas agrave la seacuteparation des sources ce qui est ici notre point de deacutepart et sera en fait notre point drsquoarriveacutee En effet nous tenterons de retrouver les sources seacutepareacutees apregraves la transmission de maniegravere agrave pouvoir par la suite les spatialiser agrave loisir (voir Figure 413)

Chapitre 4 Reacutesultats et applications 40

442 Solution proposeacutee Les paramegravetres extraits ne sont donc plus des positions de sources Nous avons

choisi de mesurer puis transmettre lrsquoeacutenergie de chaque signal dans chaque sous-bande en parallegravele du downmix En effet une bonne seacuteparation sera possible si lrsquoon sait quelle proportion de chaque source compose chaque sous-bande du signal mono

Figure 412 - Scheacutema de principe drsquoune confeacuterence audio spatialiseacutee

Figure 413 - Scheacutema ameacutelioreacute (deacutebit reacuteduit)

en pointilleacutes informations compleacutementaires (eacutenergie) Lrsquoanalyse en sous-bandes a lieu dans le serveur (Figure 414) Celui-ci calcule

lrsquoeacutenergie de chaque signal dans chaque sous-bande sur une trame donneacutee Crsquoest ce paramegravetre qui associeacute au signal mono M permettra la seacuteparation des sources dans le terminal (Figure 415) Ce dernier reacutepartira en effet les diffeacuterentes sous-bandes vers chaque signal reconstitueacute proportionnellement agrave cette information pour reconstruire les 4 sources originales

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee 41

Figure 414 - Analyse principe de lrsquoencodage dans le serveur

Figure 415 - Synthegravese principe du deacutecodage dans le client

Afin de reacuteduire au maximum les informations compleacutementaires agrave transmettre on

peut remarquer qursquoau cours drsquoune confeacuterence audio on a tregraves souvent un seul locuteur les participants ne parlent que tregraves rarement tous en mecircme temps Ceci implique que les signaux en entreacutee sont tregraves souvent tous nuls sauf 1 et appliquer un seuil en entreacutee de lrsquoanalyse permet outre lrsquoallegravegement du traitement drsquoavoir moins de paramegravetres agrave transmettre

Ce scheacutema simplifieacute ne tient pas compte des problegravemes de phase rien nrsquoindique

que les eacutenergies des signaux srsquoajoutent bien dans chaque sous-bande lors du downmix on peut tregraves bien avoir des oppositions de phase La solution est drsquoeffectuer le downmix (la somme) des signaux dans chaque sous-bande en prenant soin drsquoavoir recaleacute les phases au preacutealable Ceci nrsquoa un sens que pour des bandes suffisamment eacutetroites Les deacutecalages temporels appliqueacutes pour le recalage sont alors des paramegravetres suppleacutementaires agrave transmettre et sont pris en compte lors de la synthegravese au niveau du reacutepartiteur qui repositionnera la phase de chaque trame pour chaque signal

Chapitre 4 Reacutesultats et applications 42

443 Bilan Le reacutesultat du deacutecodage a pu ecirctre eacutecouteacute de diffeacuterentes maniegraveres les sources

reconstitueacutees individuellement ensemble en steacutereacuteo drsquoamplitude et sur un systegraveme 51 On note que les sources ont eacuteteacute assez bien seacutepareacutees mais que des artefacts sont audibles en particulier lorsque le nombre de locuteurs simultaneacutes augmentent Ces artefacts sont un meacutelange des voix qui nrsquoest gecircnant que lorsqursquoon les eacutecoute de maniegravere seacutepareacutee En effet lrsquoeacutecoute simultaneacutee de ces signaux syntheacutetiseacutes mecircme placeacutes agrave des positions distinctes sur un systegraveme de diffusion multicanal est tout agrave fait satisfaisante

Ce proceacutedeacute pour pouvoir ecirctre appliqueacute doit fonctionner en temps-reacuteel Cette

contrainte nrsquoa pas du tout eacuteteacute prise en compte lrsquoobjectif eacutetant de valider la faisabiliteacute drsquoune reconstruction Les programmes sous Matlab nrsquoont pas eacuteteacute optimiseacutes et ne respectent pas cette contrainte

43

Conclusion Nous avons preacutesenteacute dans ce rapport le principe et lrsquoapplication de plusieurs

meacutethodes drsquoanalyses spatiales de scegravenes ambisoniques conccedilues et reacutealiseacutee pendant le stage Le format HOA est en effet une repreacutesentation du champ acoustique deacutecomposeacute sur une base drsquoharmoniques spheacuteriques jusqursquoagrave un certain ordre agrave la maniegravere drsquoun deacuteveloppement limiteacute Il contient donc de maniegravere indirecte des indications spatiales qursquoon peut extraire avec des analyses comme lrsquoanalyse en composantes principales

Ces analyses nous permettent de deacuteterminer les positions des sources qui

composent la scegravene sonore Nous avons appliqueacute les reacutesultats de ces analyses agrave 2 types de synthegravese lrsquoune destineacutee aux transmissions bas deacutebit lrsquoautre agrave un traitement de restitution de la preacutecision spatiale dans le cas ougrave des ordres supeacuterieurs dont le but est drsquoaffiner la perception de localisation nrsquoauraient pas pu ecirctre transmis Ces algorithmes par le codage drsquoinformations spatiales qursquoils permettent pourront trouver bien drsquoautres applications dans la transmission et le codage ougrave la description du contenu est de plus en plus utiliseacutee (comme par exemple dans la norme MPEG)

Des ameacuteliorations sont possibles sur plusieurs points tout drsquoabord lrsquoexploitation

de toutes les composantes de lrsquoACP est agrave lrsquoeacutetude et semble pouvoir donner des reacutesultats inteacuteressants Drsquoautre part on a vu que le reacutesultat final est tregraves deacutependant de la bonne convergence de lrsquoalgorithme des k-moyennes utiliseacute pour traiter les donneacutees brutes de lrsquoanalyse en sous-bandes Or cet algorithme neacutecessite des reacuteglages tregraves fins et une connaissance a priori du nombre de sources est presque indispensable Drsquoautres algorithmes plus complexes de suivi de formes pourraient ecirctre avantageusement utiliseacutes pour deacutetecter dans tous les angles trouveacutes lesquels sont susceptibles de former une trajectoire

45

Annexe A

Deacuteveloppement du champ acoustique en harmoniques spheacuteriques

A1 Eacutequation drsquoonde en coordonneacutees spheacuteriques On se place dans lrsquoespace euclidien agrave 3 dimensions muni drsquoun systegraveme de

coordonneacutees spheacuteriques Un point M y est repeacutereacute par son rayon r son azimut θ et son eacuteleacutevation δ tels que repreacutesenteacutes sur la figure ci-dessous

- r est la norme du vecteur position rr crsquoest-agrave-dire la distance OM - [20[ πθ isin est lrsquoangle formeacute par le projeteacute du point sur le plan xOy et lrsquoaxe Ox

- ]2

2

[ ππδ minusisin est lrsquoangle formeacute par le plan xOy et le vecteur position2

Figure A1 - Systegraveme de coordonneacutees spheacuteriques

2 Cet angle diffegravere de lrsquoangle polaire usuel δπϕ minus=

2 habituellement pris entre lrsquoaxe Oz et le

vecteur position

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 46

Les relations entre les coordonneacutees spheacuteriques et les coordonneacutees carteacutesiennes sont

⎪⎩

⎪⎨

===

δδθδθ

sincossincoscos

zryrx

(A1)

On srsquointeacuteresse dans ce repegravere agrave lrsquoeacutequation de propagation des ondes acoustiques

de pression On se place dans les conditions classiques drsquoacoustique lineacuteaire (les variations de p sont petites par rapport agrave la pression atmospheacuterique) en supposant que lrsquoair est un fluide parfait (on y neacutegligera les pheacutenomegravenes dissipatifs) Dans une reacutegion de lrsquoespace ne comprenant pas de sources lrsquoeacutequation drsquoonde srsquoeacutecrit alors

0)(12

2

2 =⎟⎟⎠

⎞⎜⎜⎝

⎛partpart

minus∆ trptc

r (A2)

p eacutetant la pression et c la vitesse de propagation du son dans lrsquoair

Cette eacutequation devient dans le domaine freacutequentiel lrsquoeacutequation de Helmholtz

( ) 0)(2 =+∆ ωrpk r (A3)

ck ω

= eacutetant le nombre drsquoonde

En coordonneacutees spheacuteriques cette eacutequation srsquoeacutecrit

0sin1sin

sin11 2

2

2

222

2 =⎥⎦

⎤⎢⎣

⎡+

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart pk

rrrr

rr δθθθ

θθ (A4)

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques Drsquoapregraves [Bruneau 1983] elle admet des solutions agrave variables seacutepareacutees de la forme

)()()( δθ ΦΘ= rRp (A5) Ces solutions sont respectivement - pour la partie radiale une combinaison des fonctions de Bessel spheacuteriques de

premiegravere et seconde espegravece3 jn et nn

)()()( krBnkrAjrR nn += (A6) 3 Les fonctions de Bessel spheacuteriques de seconde espegravece sont eacutegalement appeleacutees fonctions de

Neumann

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 47

Ces fonctions sont deacutefinies comme suit

(A7)

Figure A2 - Fonctions de Bessel spheacuteriques pour les ordres 0 agrave 5 )(krjm

- pour la partie azimutale les fonctions )(θΘ

)sin()cos()( 21 θθθ ncnc +=Θ (A8) Eacutetant donneacute la deacutefinition de lrsquoangle Θ celui-ci doit neacutecessairement ecirctre de

peacuteriode 2π ))2()(( πθθ +Θ=Θ ce qui impose agrave n drsquoecirctre entier

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 48

- pour la partie polaire les fonctions de Legendre associeacutees )(sinδmnP

nm

nn

mn dPdP

)(sin)(sinsin)(sin

δδ

δδ = pour ⎩⎨⎧

gt=

nmavecnm 321

(A9)

ougrave les )(sinδnP sont les polynocircmes de Legendre de degreacute n en δsin deacutefinis par reacutecurrence

( )

11

22

1

0

sin)12()(sin)1(

1cos321)(sin

sin)(sin0)(sin

minus+ minus+=+

minus=

==

mmm mPPmPmet

P

PP

δδ

ϕδ

δδδ

(A10)

et de formule geacuteneacuterale

mm

m

mm dd

mP )1(sin

)(sin21)(sin 2 minus= δ

δδ (A11)

On peut appliquer aux fonctions )(sinδmnP la semi-normalisation de Schmidt

)(sin)()()(sin~ δεδ mnnmn P

nmnmP

+minus

= ougrave 10 =ε et 2=nε pour 1gen (A12)

En appariant les fonctions polaires et azimutales on deacutefinit les harmoniques

spheacuteriques de degreacute et drsquoordre)1(mnY 0gem 4 mnn lele0 et de degreacute et

drsquoordre (voir Figure A3)

)1(minusmnY 1gem

mnn lele1

)(sin~)sin()(

)(sin~)cos()()1(

)1(

δθδθ

δθδθ

mnmn

mnmn

PnY

PnY

=

=minus

(A13)

4 En geacuteneacuteral lorsque le degreacute et lrsquoordre ne sont pas eacutevoqueacutes conjointement on parle par abus de langage drsquoharmoniques drsquoordre m plutocirct que de degreacute m

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 49

soit

1)(sin

)()()12(2sin)(

)(sin)()()12(2cos)(

1)(sin)1()1()12(cos)(

)1(

)1(

1)1(

1

gt

⎪⎪⎩

⎪⎪⎨

+minus

+=

+minus

+=

=+minus

+=

minus

npourP

nmnmmnY

PnmnmmnY

npourPmmmY

mnmn

mnmn

mm

δθδθ

δθδθ

δθδθ

(A14)

La solution angulaire geacuteneacuterale srsquoeacutecrit alors sous la forme drsquoun deacuteveloppement sur

la base drsquoharmoniques spheacuteriques

( ) ( )sum minus

=minus+=Θ

1

1)1()1()( n

m mnmnmnmnn YBYBθ (A15) La solution geacuteneacuterale est alors la seacuterie de Fourier-Bessel

sum sum sum+infin

= = plusmn=

=0 0 1

)()( )()()(m

m

nmnmnm

m YBkrjikrpσ

σσ δθδθ (A16)

ougrave

intint⎪⎩

⎪⎨⎧

minusisin

isin

plusmnplusmn =

]2

2

[

[20[

)1()1( )()1()(

1

ππδ

πθ

δθδθ

S

mnm

mmn dSYpkrji

B (A17)

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 50

Tableau A1 - Expressions analytiques des harmoniques spheacuteriques pour les ordres 0 agrave 3

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 51

Figure A3 - Repreacutesentation des harmoniques spheacuteriques pour les ordres m = 0 agrave 3 Les

couleurs rouge et bleu indiquent respectivement des valeurs positives et neacutegatives

53

Annexe B

Compleacutements theacuteoriques sur le deacutecodage HOA

B1 Vecteur veacutelociteacute et vecteur eacutenergie Le vecteur veacutelociteacute est un indice de la direction apparente drsquoune source introduit

par Gerzon [Gerzon 1992] Il se calcule comme le rapport de la vitesse particulaire sur la pression acoustique

)()(

)()(1

δθδθ

δθδθ

ρ rprp

ki

rprv

cV nabla

minus=minus=rrr

(B1)

Dans le cas drsquoune onde plane le vecteur veacutelociteacute V

rest ainsi directement un

vecteur unitaire orienteacute vers la direction de provenance de lrsquoonde En geacuteneacuteralisant agrave une superposition drsquoondes planes en phase ou opposition de phase eacutemises par L haut-parleurs agrave eacutequidistance du point drsquoobservation on obtient la formule suivante

VVL

ll

L

lll

urg

ugV r

rr

==

sum

sum

=

=

1

1 (B2)

ougrave deacutesigne la direction du llur egraveme haut-parleur auquel est associeacute le gain gl et Vr Vur correspondent respectivement agrave la norme et agrave la direction du vecteur veacutelociteacute

Le vecteur eacutenergie est un autre indice de direction Il est deacutefinit par

EEL

ll

L

lll

urg

ugE r

rr

==

sum

sum

=

=

1

2

1

2

(B3)

Annexe B Compleacutements theacuteoriques sur le deacutecodage HOA 54

Il peut srsquointerpreacuteter comme une indication de la concentration de lrsquoeacutenergie ( ) et de sa direction moyenne de provenance (

Er

Eur ) On a toujours 1ltEr sauf dans le cas ougrave un seul haut-parleur contribue agrave la reconstruction (dans ce cas ) peut ecirctre consideacutereacute comme un indicateur de preacutecision de la localisation

1=Er Er

B2 Deacutecodages optimiseacutes La restitution la plus confortable drsquoun champ sonore veillera donc agrave maximiser

tout en essayant de garder le plus proche possible de 1 Lrsquooptimisation du deacutecodage consiste alors agrave multiplier chaque coefficient de la matrice de deacutecodage D (voir (111) par des gains calculeacutes drsquoapregraves des critegraveres drsquooptimisation

Er Vr

Ainsi le deacutecodage appeleacute max- maximise la norme du vecteur eacutenergie en

sacrifiant celle du vecteur veacutelociteacute puisqursquoon a dans ce deacutecodage (pour des configurations reacuteguliegraveres de haut-parleurs) Ce deacutecodage est donc avantageux par rapport au deacutecodage basique pour les hautes freacutequences ou dans le cas drsquoun auditoire eacutelargi Le deacutecodage in-phase va encore plus loin en cherchant agrave annuler complegravetement les contributions des haut-parleurs placeacutes agrave lrsquoopposeacute de la direction de provenance de lrsquoonde reproduite Ce critegravere est utile dans le cas drsquoune eacutecoute dans une position tregraves excentreacutee agrave laquelle on pourrait percevoir de faccedilon preacutedominante la contribution en opposition de phase drsquoun tel haut-parleur

Er

EV rr =

Ces diffeacuterents deacutecodages ont chacun des avantages et inconveacutenients Ainsi seul le

deacutecodage basique garantit = 1 le deacutecodage max- permet une preacutecision meilleure notamment en haute freacutequence et le deacutecodage in-phase est plus adapteacute agrave un auditoire plus large Jeacuterocircme Daniel [Daniel 2000] propose ainsi de changer le deacutecodage en fonction de la freacutequence et de lrsquoeacutetendue de la zone drsquoeacutecoute deacutesireacutee

Vr Er

Figure B1 - Deacutecodages les plus approprieacutes par sous-bande et en fonction de lrsquoeacutetendue de la

zone drsquoeacutecoute [Daniel 2000]

55

Annexe C

Analyse en composantes principales

C1 Espace des donneacutees Eacutegalement souvent appeleacutee transformeacutee de Karhunen-Loegraveve5 (TKL) lrsquoanalyse en

composantes principales (ACP) est une technique statistique de repreacutesentation drsquoinformation Introduite sur 2 variables par Pearson [Pearson 1900] elle a eacuteteacute eacutetendue par Hotelling [Hotelling 1933] Elle a pour but de caracteacuteriser des donneacutees drsquoun espace agrave N dimensions dans un sous-espace plus petit en minimisant les pertes drsquoinformation due agrave la projection crsquoest-agrave-dire en maximisant la variance projeteacutee Les donneacutees ainsi reacuteorganiseacutees deviennent indeacutependantes Les variables correacuteleacutees sont remplaceacutees par de nouvelles variables deacutecorreacuteleacutees et de variance maximale combinaisons lineacuteaires des variables initiales

Les donneacutees sont constitueacutees de n variables aleacuteatoires (dans notre cas des canaux)

et p reacutealisations ou individus (des eacutechantillons)

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

pn

p

ji

n

xx

x

xx

M

LLL

MOMNM

MLLM

MNMOM

LLL

1

111

(C1)

Ces donneacutees sont geacuteneacuteralement centreacutees et peuvent aussi ecirctre reacuteduites4 (on note

1x la moyenne de la variable et 1x )( 1xσ sa variance) Reacuteduire ou non le nuage de points (ie les p reacutealisations de la variable aleacuteatoire) est un choix de modegravele

5 Quelques rares sources mentionnent une diffeacuterence entre ACP et TKL en placcedilant celle-ci au

niveau du choix de la reacuteduction des donneacutees dans le cas dune ACP les donneacutees seraient centreacutees et reacuteduites alors qursquoelles seraient uniquement centreacutees pour une TKL

Annexe C Analyse en composantes principales 56

- si on ne reacuteduit pas le nuage une variable agrave forte variance pourrait tirer tout lrsquoeffet de lrsquoACP agrave elle

- si on reacuteduit le nuage une variable qui ne serait qursquoun bruit se retrouverait avec une variance apparente eacutegale agrave une variable informative

M est centreacutee

⎥⎥⎥

⎢⎢⎢

minusminusminus

minusminus=

npn

pi

ji

nn

xxxxxx

xxxxM

K

MM

K

11

11

11

ˆ (C2)

M~ est centreacutee et reacuteduite

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

minusminus

minus

minusminus

=

)()(

)(

)()(~

1

11

1

1

111

n

npn

pi

ij

i

n

nn

xxx

xxx

xxx

xxx

xxx

M

σσ

σ

σσ

K

MM

K

(C3)

On multiplie ensuite la matrice obtenue par sa transposeacutee pour obtenir - La matrice de covariance MMC t

vˆˆ sdot=

- La matrice de correacutelation MMC tr

~~ sdot= Ces matrices sont carreacutees (N x N) symeacutetriques et reacuteelles Elles sont donc

diagonalisables dans une base orthonormeacutee 6 Le principe de lrsquoACP est alors de trouver un axe u issu drsquoune combinaison lineacuteaire

des tel que le critegravere drsquoinertie du nuage autour de cet axe soit maximal Le critegravere drsquoinertie couramment utiliseacute est la variance Il faut donc trouver lrsquoaxe qui porte le maximum de variance crsquoest-agrave-dire lrsquoaxe u tel que la projection du nuage sur cet axe ait une variance maximale

nx

6 Nos donneacutees eacutetant ici des valeurs drsquoeacutechantillons elles sont par nature centreacutees et reacuteduites On

formera donc naturellement la matrice de correacutelation

C2 Diagonalisation 57

C2 Diagonalisation Pour alleacuteger lrsquoeacutecriture de la suite de cette partie nous consideacutererons que les

variables ont eacuteteacute centreacutees et si besoin reacuteduites et nous noterons ces variables

transformeacutees (ainsi

ix ix

iii xxx minuslarr ou bien )( i

iii x

xxxσ

minuslarr ) On fera de mecircme pour M

( ou bien MM ˆlarr MM ~larr ) et C ( vCC larr ou bien rCC larr ) La projection drsquoun eacutechantillon sur un axe u srsquoeacutecrit ix

uMxiu sdot=)(π (C4) La variance empirique de )( iu xπ vaut donc

uMMuxx ttiu

tiu sdotsdotsdot=sdot )()( ππ (C5)

Or on a vu que est diagonalisable dans une base orthonormeacutee donc

on peut noter P le changement de base associeacute et ∆ la matrice diagonale formeacutee de son spectre Ainsi

MMC t=

n

i 1)(λ PPMMC tt ∆==

)()()()( PuPuuPPuxx ttt

iut

iu sdot∆sdot=sdot∆sdot=sdotππ (C6) On pose v = Pu Chercher lrsquoaxe u qui maximise )( iu xπ revient donc agrave chercher le

vecteur v qui maximise ougravevvt ∆ )( 1 ndiag λλ K=∆ avec les iλ rangeacutes par ordre deacutecroissant Ce vecteur est trivialement le premier vecteur unitaire et on a alors

1λ=∆vvt

Ainsi le vecteur qui porte la plus grande part drsquoinertie du nuage est le premier

vecteur propre de C (premier par norme deacutecroissante) De mecircme le deuxiegraveme vecteur qui explique la plus grandelt part de lrsquoinertie restante est le deuxiegraveme vecteur propre de C Finalement la question de lrsquoACP se ramegravene agrave un problegraveme de diagonalisation de la matrice de correacutelation

C3 Code Matlab

function [vep vap] = pca(f N) f donneacutees N nombre de composantes agrave garder cor = f f formation de la matrice de correacutelation [vep vap] = eig(cor) calcul des vecteurs (vep) et valeurs (vap) propres [vap ind] = sort(diag(vap)) tri des valeurs propres par ordre croissant vap = flipud(vap) disposition inverse par ordre drsquoimportance vep = vep( flipud(ind)) classement en conseacutequence des vecteurs propres vep = vep( 1N) on ne garde que les N premiers vecteurs propres

Annexe C Analyse en composantes principales 58

59

Annexe D

Analyse en sous-bandes

D1 La transformeacutee de Fourier agrave court terme (TFCT) Pour affiner lrsquoanalyse les signaux sont donc deacutecoupeacutes en bandes de freacutequence par

TFCT La TFCT consiste agrave effectuer des transformeacutees de Fourier discregravetes sur des portions de signal fenecirctreacutees reacuteguliegraverement espaceacutees

On rappelle que la transformeacutee de Fourier drsquoun signal x(t) est deacutefinie (lorsque

lrsquointeacutegrale existe) par

int+infin

infinminus

minus= dtetxfX ftiπ2)()( (D1)

La transformeacutee de Fourier agrave temps discret (TFTD) drsquoun signal x(t) srsquoeacutecrit

sum+infin

minusinfin=

minus=n

fnienxfX π2)()( (D2)

La transformeacutee de Fourier discregravete (TFD) drsquoun signal discret x(k) est deacutefinie par

sum+infin

minusinfin=

minus=

n

Nkni

enxkXπ2

)()( (D3)

La TFCT discregravete est une TFD observeacutee sur une fenecirctre wa de taille N

summinus

=

minus+=

1

0

2)())(()(

N

n

Nnki

aaa enwtnxkXπ

ττ (D4)

ougrave )(taτ est lrsquoinstant drsquoanalyse

Annexe D Analyse en sous-bandes 60

Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT [Laroche 1995]

D2 Synthegravese par addition-recouvrement Lors de la synthegravese apregraves le deacutecoupage et lrsquoanalyse des fenecirctres on cherche agrave

reconstruire le signal temporel agrave partir de sa repreacutesentation freacutequentielle Pour cela on utilise la meacutethode OLA (overlap and add addition-recouvrement) qui consiste agrave prendre la TFCT inverse des spectres Xt puis agrave additionner les signaux obtenus apregraves les avoir multiplieacutes par une fenecirctre de pondeacuteration en les faisant se recouvrir partiellement

Le reacutesultat est donneacute par

sum=

minusminus=T

tsss tnxtnwnx

s1

))((~))(()(~ ττ τ (D5)

avec )()( tt as ττ = et summinus

=

=1

0

2))((~1)(~ N

k

Nkni

s ektXN

nxs

π

τ τ

Lors de la mise en œuvre de ce traitement il faut srsquoassurer drsquoecirctre en mesure de

reconstruire parfaitement un signal lorsqursquoaucune transformation ne lui est appliqueacutee Le critegravere de reconstruction parfaite condition suffisante est alors

sum=

=minusminusT

tasaa tnwtnw

11))(())(( ττ quelque soit n (D6)

D2 Synthegravese par addition-recouvrement 61

Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add [Laroche 1995]

Plusieurs paramegravetres sont agrave choisir avec soin Le premier drsquoentre eux est le type

de fenecirctre agrave utiliser Les diffeacuterentes options qui se preacutesentent agrave nous sont - la fenecirctre rectangulaire qui preacutesente dans son spectre le lobe principal le plus

eacutetroit mais des lobes secondaires non neacutegligeables - la fenecirctre de Hamming au lobe principal un peu plus large mais pour laquelle le

1er lobe secondaire se situe agrave -43 dB - la fenecirctre de Hann (ou cosinus sureacuteleveacute) qui ressemble agrave la preacuteceacutedente avec un

1er lobe secondaire plus fort mais une pente de 18 dB par octave pour les lobes suivants

- les fenecirctres de Blackman-Harris aux lobes secondaires tregraves bas mais au lobe principal plus large

Fenecirctre Lobe 2aire

(dB) Pente

(dBoct) Bande passante

agrave 6 dB (bins) Rectangulaire -13 -6 121 Triangulaire -27 -12 178

Hann -32 -18 200 Hamming -43 -6 181

Blackman-Harris 4 -92 -6 272

Tableau D1 - Caracteacuteristiques des principales fenecirctres drsquoanalyse [Harris 1978] Le meilleur compromis est donc dans notre contexte la fenecirctre de Hann ou celle

de Hamming

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 28: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

Chapitre 3 Description des analyses 22

srsquoassurant en particulier de la finesse des bandes permettant la meilleure discrimination des diffeacuterentes sources crsquoest-agrave-dire autour des fondamentales usuelles (200-1000 Hz) et des harmoniques Les freacutequences aigueumls sont bien discrimineacutees par les filtres ERB (relativement agrave la gamme crsquoest-agrave-dire en eacutechelle logarithmique) le deacutecoupage a donc surtout eacuteteacute densifieacute entre 200 et 800 Hz par rapport aux bandes ERB

Figure 32 - Filtres utiliseacutes inspireacutes des filtres ERB repreacutesenteacutes lineacuteairement (en haut)

et sur une eacutechelle logarithmique (en bas) Les reacutesultats de lrsquoACP sont donc avec cette meacutethode les angles des sources

trouveacutees dans chaque sous-bande ainsi que pour chacun drsquoeux un critegravere de pertinence calculeacute en fonction de lrsquoeacutenergie de la sous-bande dans une fenecirctre donneacutee et de la norme relative de la premiegravere composante de lrsquoACP (voir 342) Les autres vecteurs propres peuvent ecirctre utiliseacutes pour extraire davantage drsquoinformations et mecircme des signaux deacutecorreacuteleacutes comme on le verra au paragraphe 35 mais lrsquoanalyse semble alors moins robuste Srsquoen tenir aux informations donneacutees par la composante principale est un gage de pertinence suppleacutementaire

Ces reacutesultats concernent donc les sources preacutedominantes ou principales mais

laissent de cocircteacute un certain nombre drsquoeacuteveacutenements sonores agrave consideacuterer

312 Traitement du champ reacutesiduel Le champ reacutesiduel regroupe en quelque sorte tout ce qui nrsquoest pas une source

principale Il inclut donc les reacuteflexions et la reacuteverbeacuteration de la piegravece mais aussi les bruits parasites occasionnels ou continus (ventilation etc) Ces bruits ou eacutechos nrsquoont pas de direction de provenance assez distincte pour pouvoir ecirctre mesureacutee preacuteciseacutement Le champ reacutesiduel est eacutegalement composeacute du champ diffus La notion de champ diffus est couramment utiliseacutee mais rarement preacuteciseacutement deacutefinie On trouve dans la litteacuterature des deacutefinitions diverses lrsquoune drsquoelles preacutecisant qursquoil serait un ensemble drsquoeacuteveacutenements sonores proches en temps et provenant de directions eacutequiprobables

Les algorithmes proposeacutes traitent correctement les sources principales mais le

champ reacutesiduel est laisseacute de cocircteacute Il est pourtant tregraves important pour lrsquoimmersion du sujet dans la scegravene une scegravene deacutepourvue de champ sonore sera perccedilue comme artificielle ce qui nuit agrave la perception drsquoespace On sera par exemple davantage conscients drsquoecirctre au centre drsquoun dispositif expeacuterimental et moins sensibles aux variations de profondeur et de perspectives

31 Deacutetermination des directions principales 23

Neacuteanmoins il faut relativiser lrsquoimportance de ce champ reacutesiduel il nrsquoest pas utile pour la localisation des sources principales et ne caracteacuterise que lrsquoenvironnement drsquoenregistrement En outre le champ reacutesiduel qui provient souvent de directions floues et notre but nrsquoest pas de les preacuteciser artificiellement Il nrsquoest degraves lors geacuteneacuteralement pas utile de le transmettre aux ordres eacuteleveacutes

Ainsi certains auteurs [Merimaa and Pulkki 2005] ont choisi de recreacuteer lors drsquoune

synthegravese un champ diffus artificiel baseacute sur une reacuteponse impulsionnelle de salle calculeacutee agrave lrsquoavance Lrsquoavantage est une immersion un enveloppement complets lrsquoinconveacutenient est que lrsquoambiance ainsi recreacuteeacutee est fictive et arbitraire et en outre complegravetement indeacutependante de lrsquoambiance initiale en laissant notamment de cocircteacute les sources secondaires

Nous proposons dans nos algorithmes de ne pas syntheacutetiser le champ diffus aux

ordres eacuteleveacutes mais de nous contenter de la description du champ reacutesiduel fourni par les ordres transmis (1er ordre dans nos exemples) Nous nous limiterons donc agrave preacuteciser par la synthegravese des ordres supeacuterieurs les positions des sources principales

32 Extension agrave la 3D Nous avons pour le moment eacutevoqueacute le cas de repreacutesentations de champ sonore agrave

2 dimensions crsquoest-agrave-dire issus de sources placeacutees dans le plan horizontal Mais certaines repreacutesentations comportent eacutegalement des composantes verticales Pour analyser ces signaux en 3 dimensions il faut inteacutegrer la composante Z On effectue alors simplement une ACP sur X Y Z et W Le 1er vecteur propre sera alors bien dirigeacute dans lrsquoespace (X Y Z) dans la direction de la source lrsquoambiguiumlteacute de frac12 espace eacutetant leveacutee par W

Lrsquoalgorithme est alors complegravetement similaire agrave celui analysant des signaux en 2

dimensions Des tests ont eacuteteacute reacutealiseacutes agrave partir de signaux syntheacutetiques pour lesquels les positions des sources eacutetaient connues pour des raisons pratiques aucune scegravene sonore reacuteelle en 3 dimensions nrsquoa pu ecirctre enregistreacutee avec une connaissance initiale preacutecise des positions des sources

Les visualisations et les eacutecoutes eacutetant plus deacutelicates en 3D et lrsquoextension agrave la 3D

eacutetant immeacutediate nous avons donc concentreacute nos efforts sur lrsquoanalyse de scegravenes en 2D En outre en lrsquoabsence de dispositif spheacuterique ou heacutemispheacuterique de haut-parleurs le seul moyen agrave notre disposition pour eacutecouter une scegravene 3D est lrsquoeacutecoute binaurale crsquoest-agrave-dire au casque avec des fonctions de transfert de tecircte (HRTF) relativement bien adapteacutees agrave lrsquoauditeur

33 Analyse aux ordres supeacuterieurs

331 Description Afin drsquoameacuteliorer la preacutecision de lrsquoanalyse nous avons essayeacute drsquoappliquer une ACP

sur des signaux ambisoniques drsquoordre plus eacuteleveacute (signaux HOA) dans le plan horizontal Deux meacutethodes ont eacuteteacute essayeacutees

Chapitre 3 Description des analyses 24

La premiegravere consiste agrave appliquer une ACP agrave 3 dimensions successivement sur les composantes X Y W (ordre 1 et 0) puis U V W (ordre 2 et 0) et ainsi de suite crsquoest-agrave-dire (en utilisant la notation geacuteneacuterale) sur les composantes et W (ordre m et 0) Les reacutesultats de ces analyses (les directions des 1

)1(0mY )1(

0minus

mYegraveres composantes) sont ensuite regroupeacutees

lrsquoanalyse de lrsquoordre 1 fournissant des reacutesultats modulo 2π lrsquoanalyse de lrsquoordre 2 des reacutesultats plus preacutecis mais modulo π et plus geacuteneacuteralement lrsquoanalyse de lrsquoordre m permettant de trouver des angles modulo mπ2

La limite de cette approche se perccediloit lors de la fusion des reacutesultats les angles

trouveacutes agrave un ordre eacuteleveacute sont plus preacutecis dans des bandes de freacutequences eacuteleveacutees mais la limitation theacuteorique de ces signaux HOA dans les basses freacutequences font que lrsquoanalyse de lrsquoordre 1 reste la plus pertinente dans les premiegraveres bandes Parvenir agrave deacuteterminer agrave partir de quelle freacutequence on peut faire davantage confiance agrave lrsquoordre n+1 qursquoagrave lrsquoordre n nrsquoest pas aiseacute et cette limite provoque des aberrations dans les angles trouveacutes Une source unique pourra par exemple ecirctre interpreacuteteacutee par lrsquoalgorithme des k-moyennes (voir 341) comme 2 sources une en hautes freacutequences et une en basses freacutequences les 2 eacutetant trouveacutes agrave 2 angles diffeacuterents chaque angle relevant drsquoun ordre analyseacute diffeacuterent

La deuxiegraveme meacutethode consiste pour eacuteviter cette fusion des reacutesultats agrave effectuer

une seule ACP sur les composantes U V X Y et W Cette meacutethode souffre drsquoune tregraves grande complexiteacute algorithmique pour une ameacutelioration de la preacutecision peu sensible En effet si cette meacutethode permet drsquoobtenir des reacutesultats plus preacutecis dans certaines bandes de freacutequences elle est sensible aux deacutefauts et les limites des ordres supeacuterieurs (lrsquoabsence de basses freacutequences entre autres) perturbent lrsquoanalyse en composantes principales

332 Illustration sur une scegravene virtuelle La scegravene preacutesenteacutee ici est une scegravene artificielle crsquoest-agrave-dire composeacutee de sons

placeacutes artificiellement agrave diverses positions Elle a une dureacutee totale de 135 s et comporte 4 sources positionneacutees dans le plan horizontal une guitare placeacutee agrave 45deg une basse agrave -70deg une batterie agrave 110deg et une voix feacuteminine qui effectue continucircment un tour complet dans le sens indirect en partant de lrsquoarriegravere (elle passe donc successivement par les positions 180deg 90deg 0deg -90deg et -180deg) La guitare et la batterie srsquoarrecirctent peu avant la fin de la scegravene (12egraveme seconde au 910egraveme du son approximativement)

Figure 33 - Position des sources de la scegravene de test agrave 4 sources dont 1 mobile

33 Analyse aux ordres supeacuterieurs 25

Figure 34 - Angles drsquoune scegravene virtuelle ayant 1 source mobile et 3 sources fixes

(deacutecrite en 332) trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 Pour chaque trame (en abscisse) 20 angles (1 par bande en ordonneacutee et en degreacutes) sont

reporteacutes le diamegravetre du point correspondant agrave un critegravere de pertinence (voir 342)

Figure 35 - Angles de la mecircme scegravene trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 2 Reacutesultats modulo π reacutepliqueacutes pour faciliter la comparaison avec la figure preacuteceacutedente On remarque que les lignes sont plus nettes qursquoil y a moins drsquoangles aberrants et que

les angles corrects sont plus marqueacutes (ils sont deacutetermineacutes comme plus pertinent)

Chapitre 3 Description des analyses 26

20

0

20

0

20

0

Figure 36 - Angles drsquoune scegravene reacuteelle constitueacutee drsquoun bruit parcourant le cercle trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 (en haut) 0 et 2 (au milieu) et 0 et 4 (en bas) Le

numeacutero de trame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On retrouve qursquoune limitation des ordres HOA supeacuterieurs issus drsquoun enregistrement

microphonique est la restitution des basses freacutequences

34 Traitement des donneacutees

341 Algorithme des k-moyennes Agrave lrsquoissue de lrsquoanalyse en composantes principales on reacutecupegravere avec la premiegravere

des meacutethodes exposeacutees au chapitre preacuteceacutedent des angles correspondants aux positions des sources preacutedominantes agrave raison drsquoune valeur par fenecirctre et par bande de freacutequence Il faut agrave partir de ces donneacutees parvenir agrave isoler les sources crsquoest-agrave-dire agrave deacuteterminer quels sont les angles pertinents et examiner quels sont ceux qui agrave une certaine toleacuterance pregraves sont preacutesents dans plusieurs bandes de freacutequence etou plusieurs fenecirctres temporelles

Pour pouvoir exploiter ces donneacutees spatiales nous avons utiliseacute lrsquoalgorithme des

k-moyennes (ou k-means) [MacQueen 1967] sur les angles pondeacutereacutes par des critegraveres de pertinence Cet algorithme fonctionne de la maniegravere suivante

Initialisation choix de k barycentres (les k moyennes) Reacutepeacuteter Associer chaque eacuteleacutement au barycentre le plus proche Recalculer les positions des barycentres Jusqursquoagrave ce que les barycentres soient stables (ou au bout de t iteacuterations)

34 Traitement des donneacutees 27

Lrsquoavantage de cet algorithme est drsquoecirctre peu glouton puisqursquoil converge en O(tkn) ougrave t est le nombre drsquoiteacuterations k le nombre de centres et n le nombre de points (geacuteneacuteralement on a t k ltlt n) Par contre il est plutocirct sensible aux exceptions un point aberrant tirera agrave lui la moyenne auquel il aura eacuteteacute associeacute Il faut donc faire en sorte que ces points erroneacutes soient aussi rares que possibles Crsquoest pourquoi les angles traiteacutes sont pondeacutereacutes par 2 critegraveres de pertinence

La pondeacuteration des angles fournis en entreacutee de lrsquoalgorithme des k-moyennes se

fait de maniegravere simple en reacutepeacutetant ces angles un nombre de fois (de 0 agrave 10) proportionnel agrave un critegravere Ainsi un angle tregraves pertinent sera dupliqueacute et sera preacutesent plusieurs fois dans la liste des donneacutees traiteacutees attirant ainsi agrave lui la position du barycentre le plus proche Au contraire un angle trop peu pertinent ne sera pas reacutepeacuteteacute voir mecircme sera enleveacute de la liste

Le seul problegraveme de cet algorithme est qursquoil neacutecessite la connaissance de k crsquoest-

agrave-dire du nombre de sources qui composent la scegravene Une deacutetermination automatique se basant sur la reacutepeacutetition de lrsquoalgorithme avec un k croissant a eacuteteacute testeacutee mais le critegravere drsquoarrecirct reposant sur la dispersion des points autour des barycentres nrsquoeacutetant pas assez robuste cette meacutethode a provisoirement eacuteteacute mise de cocircteacute

342 Critegraveres de pertinence Les 2 critegraveres de pondeacuteration choisis sont lrsquoeacutenergie de la sous-bande dans la

fenecirctre donneacutee et le rapport de la norme de la 1egravere composante (la composante principale) de lrsquoACP sur la somme des normes de toutes les composantes

En effet un angle est trouveacute dans chaque sous-bande de chaque fenecirctre mecircme si

le signal y est tregraves faible Lrsquoangle trouveacute sera alors tregraves peu repreacutesentatif de la direction drsquoune source puisqursquoil indiquera la direction drsquoun bruit Lrsquoeacutenergie doit donc ecirctre prise en compte pour ne conserver que les angles trouveacutes dans des bandes comportant un signal suffisant

La norme relative de la 1egravere composante de lrsquoACP rend quant agrave elle compte du

poids relatif de cette composante par rapport aux autres Ainsi si 2 sources sont preacutesentes dans une bande donneacutee la 1egravere composante sera agrave peine plus marqueacutee que la 2egraveme Ceci peut ecirctre calculeacute en prenant simplement le rapport de la 1egravere valeur propre sur la somme des valeurs propres

On peut noter que la norme de la 1egravere composante ne se deacutetache nettement que

lorsqursquoun son est preacutesent dans la bande consideacutereacutee On peut alors se demander si lrsquoeacutenergie doit ecirctre prise en compte ou si lrsquoinformation qursquoelle contient nrsquoest comprise dans le 2egraveme critegravere En fait la norme relative est un critegravere tregraves bruiteacute et consideacuterer lrsquoeacutenergie par ailleurs permet de nuancer ces artefacts et constitue une base solide de pondeacuteration

Chapitre 3 Description des analyses 28

80

40

0

Figure 37 - Repreacutesentation temps-freacutequence des angles du son deacutecrit en 332 Letrame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On peut donc v

par trame et par bande chacun eacutetant le reacutesultat drsquoune ACP crsquoest-agrave-dire la 1egravere

Figure 38 - Eacutenergie de ce mecircme son On peut voir une basse en notes tenues uneet une batterie qui produit des sons secs dans un spectre plus aigu

80

40

0

80

40

0

Figure 39 - Norme relative de la 1egravere composante de ce mecircme son Les impacts de batterie (dans lrsquoaigu) ressortent davantage

π 0 minusπ

numeacutero de oir un angle direction

voix aiguumle

34 Traitement des donneacutees 29

Figure 310 - Pondeacuteration appliqueacutee agrave lrsquoentreacutee des k-moyennes calculeacutee ici comme

le simple produit de lrsquoeacutenergie et de la norme relative

80

40

0

343 Lissages

Pour faire face au bruit ineacutevitable dans les reacutesultats il faut lisser les donneacutees Ces

lissages temporels correspondent agrave des hypothegraveses de stabiliteacute des sources qui sont supposeacutees ecirctre fixes ou mobiles relativement lentement (dans une mesure agrave parameacutetrer)

Un premier lissage peut ecirctre opeacutereacute avant le traitement par lrsquoalgorithme des k-

moyennes Le filtre choisi est un filtre meacutedian de maniegravere agrave eacuteliminer les points aberrants tout en conservant les vraies valeurs des points coheacuterents Ce lissage est appliqueacute sur chaque sous-bande aux angles et ne tient pas compte des critegraveres de pertinence Il est donc utiliseacute avec parcimonie et peut mecircme ecirctre eacuteviteacute en reacuteglant de maniegravere adeacutequate les critegraveres de pondeacuteration agrave lrsquoentreacutee des k-moyennes

Le deuxiegraveme lissage srsquoeffectue agrave lrsquoentreacutee des k-moyennes en mecircme temps que les

critegraveres de pondeacuteration Il consiste agrave appliquer les k-moyennes non pas sur une fenecirctre donneacutee mais sur plusieurs fenecirctres conseacutecutives anteacuterieures et posteacuterieures en donnant plus de poids agrave la fenecirctre courante Dans la pratique les poids donneacutes aux diffeacuterentes fenecirctres sont eacutetablis par une gaussienne centreacutee sur la fenecirctre courante et de largeur agrave deacuteterminer (en fonction notamment de la dureacutee drsquoune fenecirctre et du type de scegravene analyseacute)

35 Exploitation de toutes les composantes de lrsquoACP Les analyses preacutesenteacutees preacuteceacutedemment ont toutes exploiteacute uniquement la

composante principale extraite par lrsquoACP Or cette analyse fournit des informations plus complegravetes par lrsquointermeacutediaire des autres composantes dont on peut tirer parti pour isoler plusieurs sources au sein drsquoune mecircme bande Cette approche est toujours en deacuteveloppement dans ce stage et nrsquoa pas encore donneacute pleine mesure des reacutesultats qursquoelle laisse entrevoir

Les composantes de lrsquoACP indiquent des directions qui correspondent aux

diffeacuterentes sources composant la scegravene sonore Les vecteurs propres de la matrice de correacutelation donnent ainsi les combinaisons lineacuteaires des signaux HOA permettant de

Chapitre 3 Description des analyses 30

seacuteparer de la meilleure faccedilon possible ces sons Ces directions peuvent ecirctre alors utiliseacutees pour former des directiviteacutes isolant au mieux ces sources

aBS sdot= (31)

ougrave la matrice a contient les vecteurs propres de la matrice de correacutelation (voir Annexe C) le vecteur B contient les signaux HOA et le vecteur S contient les sources extraites

⎟⎟⎟

⎜⎜⎜

=⎟⎟⎟

⎜⎜⎜

⎛=

⎥⎥⎥

⎢⎢⎢

⎟⎟⎟

⎜⎜⎜

⎟⎟⎟

⎜⎜⎜

⎛=

10

1001

1

ML

N

B

BB

S

SSuua MML (32)

On obtient ainsi des lobes drsquoautant plus eacutetroits que lrsquoordre est eacuteleveacute chacun

dirigeacute vers une source et permettant de lrsquoisoler le plus possible des contributions des autres sources La Figure 311 preacutesente les directiviteacutes ainsi trouveacutees par une ACP en pleine bande Une analyse en sous-bande permet une plus grande distinction des sources mais une seacuteparation diffeacuterente entre les bandes est dangereuse car elle risque de dissocier spatialement plusieurs parties drsquoun mecircme son

Figure 311 - Directiviteacutes seacuteparant ideacutealement 4 sources placeacutees agrave 17 73 195 et -58deg

pour une scegravene virtuelle encodeacutee agrave lrsquoordre 4 Ce principe se heurte neacuteanmoins aux limites de seacuteparation lieacutees agrave lrsquoordre

drsquoencodage en effet 2 sources ne pourront pas ecirctre seacutepareacutees si elles sont trop proches comme en teacutemoigne la largeur des lobes principaux Les lobes secondaires traduisent eacutegalement un meacutelange des sources isoleacutees La figure ci-dessus montre ainsi que la source placeacutee agrave 17deg (en vert) sera preacutesente de maniegravere non neacutegligeable dans le signal senseacute contenir la source placeacutee agrave -58deg (en bleu) en raison du lobe secondaire bleu important

31

Chapitre 4

Reacutesultats et applications

41 Illustration et critique des reacutesultats obtenus

411 Avant-propos Sans notification particuliegravere les reacutesultats preacutesenteacutes ont eacuteteacute obtenus avec un pas

de 50 ms une analyse en 80 bandes avec une FFT sur 8192 points Une taille de FTT plus grande et un plus grand nombre de bande augmente la qualiteacute de lrsquoanalyse un pas plus petit ameacuteliore sa preacutecision temporelle mais les reacutesultats sont moins fiables et un lissage plus important srsquoimpose alors Ces paramegravetres ont eacuteteacute reacutegleacutes apregraves de multiples essais sur des scegravenes diverses

Les reacutesultats sont preacutesenteacutes ici uniquement sous la forme de graphiques nous ne

pouvons donc repreacutesenter que les angles trouveacutes agrave la sortie de lrsquoalgorithme des k-moyennes

412 Scegravene 2D artificielle agrave 4 sources fixes La premiegravere scegravene est une scegravene artificielle composeacutee de 4 sons fixes placeacutes agrave -70

-10 45 et 110deg Ces sons (une basse une voix une guitare et une batterie) ont eacuteteacute choisis pour leur varieacuteteacute spectrale et leur varieacuteteacute drsquoattaque Elle a en outre le meacuterite drsquoecirctre reacutealiste et de constituer une seacutequence musicale (chaque son nrsquoest pas une meacutelodie indeacutependante)

On voit sur la Figure 41 ci-dessous que les angles trouveacutes sont proches des

angles theacuteoriques Lrsquoun des sons (agrave 45deg) est quasiment nul avant la 100egraveme trame sa position est alors moins facile agrave deacuteterminer plus preacuteciseacutement une position approximative est trouveacutee et correspondrait exactement agrave la position du bruit (45deg) si lrsquoincertitude de mesure tregraves grande pour un son aussi faible ne rendait la deacutetermination si ardue On mesure un eacutecart-type de 22deg sur cet exemple (en excluant le deacutebut du son agrave 45deg)

Chapitre 4 Reacutesultats et applications 32

Figure 41 - Angles theacuteoriques (en pointilleacutes rouge) et calculeacutes (en trait bleu) pour une scegravene

constitueacutee de 4 sons fixes longue de 11s

413 Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile

Figure 42 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) de la scegravene agrave

4 sources dont 1 mobile deacutecrite en 332 Cette scegravene est deacutecrite en 332 On a ici demandeacute aux k-moyennes de renvoyer 5 barycentres par trame alors que

seules 4 sources eacutetaient preacutesentes dans le but de se garantir une marge vis-agrave-vis des erreurs de deacutetection Cette 5egraveme direction nrsquoest pas du tout gecircnante elle indique une direction qui ne contient pas de source et crsquoest donc un son tregraves faible qui est ainsi pointeacute Apregraves une eacuteventuelle extraction le signal ne sera donc pas du tout gecircnant

41 Illustration et critique des reacutesultats obtenus 33

On peut remarquer que quand le son mobile se rapproche drsquoun son fixe la deacutetection est moins bonne il y a une fusion entre les 2 sons Mais encore une fois lors de lrsquoextraction lrsquoisolation drsquoun des sons englobera lrsquoautre son ce qui ne posera pas de problegraveme pour les objectifs fixeacutes aucune source nrsquoeacutetant oublieacutee En effet la seacuteparation de sources nrsquoest pas un objectif ici mais un moyen pour preacuteciser les positions des sources ce qui sera fait correctement mecircme si 2 sources sont pointeacutees par 1 seule direction

414 Scegravene 3D artificielle agrave une source et bruit de fond

La scegravene dont la position drsquoune source a eacuteteacute extraite ci-dessous est une scegravene virtuelle en 3D constitueacute drsquoun son (une voix) qursquoon a fait se deacuteplacer par paliers tout drsquoabord vers le haut de 0deg agrave 45deg et vers la gauche de 0deg agrave 90deg puis redescendre jusqursquoagrave 35deg en continuant son cheminement vers la gauche jusqursquoagrave 120deg et enfin finir la descente de 35deg agrave 0deg en la laissant agrave 120deg Agrave cette source a eacuteteacute superposeacutee une ambiance spatialiseacutee de hall drsquoaeacuteroport initialement enregistreacutee en 2D (au format 51) mais transformeacutee pour contenir des composantes verticales Cette ambiance deacutecorreleacutee de la source avait pour but de tester la robustesse de lrsquoanalyse Elle eacutetait agrave 15 dB en-dessous du niveau de la voix

Figure 43 - Azimut et eacuteleacutevation theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun

son en 3D artificiel de 9s placeacute dans une ambiance bruyante On remarque que lrsquoanalyse est tregraves correcte Il nrsquoy a pas drsquoeacutecart important entre

les angles theacuteoriques et ceux calculeacutes On note toutefois que le lissage agrave lrsquoentreacutee des k-moyennes a pour effet de gommer les creacuteneaux et drsquoaplatir quelque peu la courbe drsquoeacuteleacutevation ceci nrsquoest pas vraiment gecircnant car de tels sauts dans la position drsquoune source ne sont pas du tout reacutealistes (ils peuvent caracteacuteriser des bruits de pas mais de tels impacts sont courts et on peut srsquoattendre agrave ce que la courbe suive leur position aux instants ougrave ils sont eacutemis)

Chapitre 4 Reacutesultats et applications 34

415 Scegravene 2D naturelle agrave une source Les scegravenes naturelles sont on lrsquoa vu plus deacutelicates agrave exploiter car on ne peut pas

garantir la preacutecision de la position theacuteorique agrave retrouver par le calcul et on ne peut donc pas calculer la preacutecision de lrsquoanalyse Seuls les enregistrements utilisant la table tournante (voir 232) permettent une mesure preacutecise de la position de lrsquoangle Ces enregistrements on pu confirmer la validiteacute de lrsquoanalyse pour des scegravenes reacuteelles on trouve ici un eacutecart-type de 25deg

Figure 44 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun bruit blanc

tournant autour du micro enregistreacute en chambre sourde Cette analyse a eacuteteacute reacutealiseacutee par sous-bandes mais sur une eacutetendue freacutequentielle

plus reacuteduite puisqursquoon srsquoest limiteacute aux possibiliteacutes offertes par le microphone La scegravene a donc eacuteteacute analyseacutee de 200 agrave 10 000 Hz

42 Quelques applications

421 Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre 2 agrave partir de lrsquoordre 1

Une fois les positions des sources connues la porte est ouverte agrave de nombreuses

applications La connaissance de ces positions permet en effet de syntheacutetiser artificiellement des composantes manquantes ou non transmises La premiegravere synthegravese deacuteveloppeacutee est celle des signaux U et V composant la partie horizontale de lrsquoordre 2 agrave partir de lrsquoordre 1 et de paramegravetres issus de lrsquoanalyse pour une source en 2D (des angles dans de cas)

42 Quelques applications 35

Figure 45 - Principe de lrsquoameacutelioration de la preacutecision spatiale

Le principe de la synthegravese est drsquoextraire les sources originales agrave partir de W X Y

et des angles (un angle par trame et par sous-bande) Ceci peut ecirctre reacutealiseacute de maniegravere approcheacutee en deacutecodant lrsquoordre 1 dans les directions des sources Ce deacutecodage revient agrave calculer les signaux qui devraient alimenter des haut-parleurs qui seraient placeacutes agrave ces positions dans le cas drsquoune restitution (voir 122) crsquoest-agrave-dire agrave former des directiviteacutes dans les directions des sources Dans la plupart des cas ce deacutecodage qui fait intervenir une pseudo-inversion de Moore-Penrose (111) est imparfait les sources se retrouvant leacutegegraverement meacutelangeacutees On peut comparer cette seacuteparation agrave celle que ferait un ensemble de microphones agrave directiviteacute hypercardioiumlde coiumlncidents

Figure 46 - Directiviteacutes eacutequivalentes agrave la seacuteparation de 4 sources agrave lrsquoordre 1 Ces sources seacutepareacutees vont ensuite constituer toujours placeacutees aux angles

deacutetermineacutes agrave lrsquoanalyse une scegravene virtuelle qursquoon va encoder agrave lrsquoordre 2 De cet encodage on ne conservera que les signaux manquants dans notre exemple les signaux du 2nd ordre U et V Ainsi la scegravene spatialiseacutee sera au final constitueacutee des signaux W X et Y drsquoorigine (transmis) et des signaux U et V syntheacutetiseacutes

Chapitre 4 Reacutesultats et applications 36

422 Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave partir de W Reconstruire une scegravene sonore spatialiseacutee agrave partir drsquoun unique canal mono est

alors difficile et le reacutesultat nrsquoest appreacuteciable que pour des scegravenes simples Il faut pour cela que les diffeacuterentes sources composant cette scegravene aient des supports spectraux aussi distincts que possible Les diffeacuterentes sous-bandes sont alors placeacutees agrave un certain angle transmis en parallegravele et crsquoest cette scegravene reconstitueacutee qui va ecirctre encodeacutee au 1er ordre de maniegravere agrave recreacuteer les signaux X et Y

Figure 47 - Principe de la restitution de lrsquoordre 1 agrave partir du signal mono W Ce scheacutema rappelle une meacutethode deacuteveloppeacutee dans le cas steacutereacuteo appeleacutee BCC

(Binaural Cue Coding) [Faller and Baumgarte 2002] Le principe est drsquoextraire et coder des informations permettant la reconstruction binaurale drsquoun signal agrave savoir les diffeacuterences interaurales drsquointensiteacute et de temps (Interaural LevelTime Difference ILD et ITD) qui correspondent dans le cas drsquoune restitution sur un casque aux diffeacuterences drsquointensiteacute et de temps inter-canal (Inter-Channel LevelTime Difference ICLD et ICTD) qui sont mesureacutees agrave partir drsquoune analyse en sous-bandes Les auteurs y ont plus reacutecemment associeacute un indice de correacutelation interaurale mesureacute agrave partir de la correacutelation inter-canal (ICC) afin de caracteacuteriser la preacutecision spatiale (la ldquolargeurrdquo drsquoune source)

Figure 48 - Scheacutema de principe de la meacutethode BCC [Faller and Baumgarte 2003]

On observe en pratique des deacutefauts lieacutes agrave la brutaliteacute de la proceacutedure une sous-

bande ne peut ecirctre que placeacutee agrave la position indiqueacutee et ne peut pas rester floue diffuse ou encore ecirctre placeacutee agrave plusieurs endroits Pour y remeacutedier nous avons ajouteacute 2 traitements agrave la synthegravese Tour drsquoabord nous avons appliqueacute un leacuteger lissage soulageant les effets deacutesagreacuteables dus au saut du contenu drsquoune sous-bande drsquoun endroit agrave un autre entre de 2 fenecirctres conseacutecutives Les positions varient alors de faccedilon plus souple au sein drsquoune mecircme sous-bande traduisant une hypothegravese de continuiteacute spatiale (pas de deacuteplacement brusque) La contrepartie est que cette hypothegravese est lieacutee agrave une hypothegravese de continuiteacute spectrale

42 Quelques applications 37

La 2egraveme ameacutelioration concerne le positionnement des sources En incluant dans la transmission un critegravere de pertinence on peut savoir srsquoil est raisonnable de placer une sous-bande agrave un angle preacutecis ou bien si lrsquoanalyse eacutetait flou agrave son sujet auquel cas un positionnement impreacutecis serait preacutefeacuterable Le paramegravetre choisi est une combinaison des critegraveres eacutevoqueacutes en 342 il nous permet de placer la sous-bande de maniegravere plus ou moins prononceacutee

43 Comparaison avec une meacutethode existante Certains auteurs ont deacutejagrave essayeacute drsquoanalyser un contenu ambisonique pour

retrouver les positions des sources Ville Pulkki a ainsi deacutecrit dans [Pulkki and Faller 2006] une meacutethode drsquoanalyse du B-format baseacutee sur lrsquoeacutetude des amplitudes des signaux W X Y et Z

Figure 49 - X et Y dans le cas drsquoune sinusoiumlde placeacutee agrave 15deg (agrave gauche) et 120deg (agrave droite)

Les figures ci-dessus montrent les relations drsquoamplitudes (algeacutebriques) qui relient

X et Y agrave lrsquoangle de la source On voit que lrsquoanalyse de ces amplitudes respectives permet de retrouver la position de la source en effet on a pour une source unique les relations de lrsquoeacutequation (11) rappeleacutee ici

⎪⎪

⎪⎪

=

=

=

=

δ

δθ

δθ

sin2

cossin2

coscos2

SZ

SY

SX

SW

(41)

On peut donc theacuteoriquement retrouver les valeurs de θ et δ par relations

trigonomeacutetriques Ainsi on a

⎪⎪⎩

⎪⎪⎨

=

=

2)sin(

)tan(

WZ

XY

δ

θ (42)

Chapitre 4 Reacutesultats et applications 38

On peut donc trouver les angles θ et δ agrave π pregraves Pour lever lrsquoambiguiumlteacute une eacutetude de signe est neacutecessaire Mais dans le cas de θ le signe de X et de Y agrave δ fixeacute deacutepend aussi bien de θ que S Il faut srsquointeacuteresser aux signes de θcos et θsin crsquoest-agrave-dire

aux signes de WX et

WY Dans la pratique on srsquointeacuteressera aux signes de et

pour se preacutevenir des divisions par zeacuteros

XW sdot YW sdot

XW sdot et YW sdot sont proportionnels agrave toujours positif

2S

Les auteurs deacutecrivent eacutegalement dans leur article un critegravere appeleacute diffuseness qui

peut ecirctre compareacute agrave un critegravere de pertinence inverseacute Ce paramegravetre calculeacute par agrave 1 - R ougrave R est un rapport de normes est tregraves proche du critegravere de norme relative deacutecrit en 342 Il peut donc ecirctre utiliseacute de la mecircme faccedilon et permettre ainsi une pleine comparaison

Cette meacutethode a eacuteteacute impleacutementeacutee pour pouvoir ecirctre compareacutee avec la meacutethode

par ACP Tous les paramegravetres ont scrupuleusement eacuteteacute gardeacutes identiques et plusieurs reacuteglages ont eacuteteacute testeacutes Les courbes ci-dessous preacutesentent les reacutesultats des analyses de la scegravene deacutecrite en 332 avec un pas de 50ms un overlap de 50 un NFFT de 2048 et 40 bandes freacutequentielles Nous avons repreacutesenteacute tous les angles trouveacutes crsquoest-agrave-dire un par bande et par trame pour srsquoaffranchir de la seacutelection des k-moyennes

π

0

minusπ

Figure 410 - Angles trouveacutes par lrsquoalgorithme de [Pulkki and Faller 2006] Le diamegravetre du point correspondant agrave la pertinence

43 Comparaison avec une meacutethode existante 39

π

0

minusπ

Figure 411 - Angles trouveacutes par une ACP pour la mecircme scegravene On remarque que les points excentriques sont moins nombreux et plus rarement trouveacutes comme pertinents

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee

441 Position du problegraveme

Une application directe de ces analyses a eacuteteacute deacuteveloppeacutee pour la confeacuterence audio

spatialiseacutee La confeacuterence audio utilise en effet la spatialisation pour permettre une meilleure seacuteparation par lrsquooreille des diffeacuterents locuteurs Ainsi si plusieurs personnes parlent en mecircme temps il sera tregraves difficile de comprendre chacun individuellement si ces voix sont restitueacutees en mono mais on pourra focaliser lrsquoattention sur chacune drsquoentre elles si elles sont seacutepareacutees spatialement (crsquoest lrsquoeffet cocktail party [Cherry 1953])

Lrsquoobjectif eacutetait de veacuterifier qursquoil eacutetait possible de conserver la spatialisation drsquoune

confeacuterence en nrsquoayant transmis qursquoun downmix mono des signaux Ce concept semble se rapprocher de celui deacutecrit en 422 mais une diffeacuterence fondamentale les seacutepare la confeacuterence audio spatialiseacutee nrsquoest pas codeacutee au format ambisonic mais les signaux traiteacutes sont directement les sons provenant des diffeacuterents locuteurs crsquoest-agrave-dire les sources elles-mecircmes Ainsi lrsquoanalyse ne porte plus sur une scegravene spatialiseacutee mais sur des signaux seacutepareacutes Il nrsquoy a ainsi plus drsquoindices spatiaux agrave trouver

Avoir accegraves aux sources permet drsquoobtenir des informations plus preacutecises pour

permettre une seacuteparation apregraves la transmission Comme nous lrsquoavons vu lrsquoanalyse drsquoune scegravene spatialiseacutee ne permet que dans drsquoultimes cas agrave la seacuteparation des sources ce qui est ici notre point de deacutepart et sera en fait notre point drsquoarriveacutee En effet nous tenterons de retrouver les sources seacutepareacutees apregraves la transmission de maniegravere agrave pouvoir par la suite les spatialiser agrave loisir (voir Figure 413)

Chapitre 4 Reacutesultats et applications 40

442 Solution proposeacutee Les paramegravetres extraits ne sont donc plus des positions de sources Nous avons

choisi de mesurer puis transmettre lrsquoeacutenergie de chaque signal dans chaque sous-bande en parallegravele du downmix En effet une bonne seacuteparation sera possible si lrsquoon sait quelle proportion de chaque source compose chaque sous-bande du signal mono

Figure 412 - Scheacutema de principe drsquoune confeacuterence audio spatialiseacutee

Figure 413 - Scheacutema ameacutelioreacute (deacutebit reacuteduit)

en pointilleacutes informations compleacutementaires (eacutenergie) Lrsquoanalyse en sous-bandes a lieu dans le serveur (Figure 414) Celui-ci calcule

lrsquoeacutenergie de chaque signal dans chaque sous-bande sur une trame donneacutee Crsquoest ce paramegravetre qui associeacute au signal mono M permettra la seacuteparation des sources dans le terminal (Figure 415) Ce dernier reacutepartira en effet les diffeacuterentes sous-bandes vers chaque signal reconstitueacute proportionnellement agrave cette information pour reconstruire les 4 sources originales

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee 41

Figure 414 - Analyse principe de lrsquoencodage dans le serveur

Figure 415 - Synthegravese principe du deacutecodage dans le client

Afin de reacuteduire au maximum les informations compleacutementaires agrave transmettre on

peut remarquer qursquoau cours drsquoune confeacuterence audio on a tregraves souvent un seul locuteur les participants ne parlent que tregraves rarement tous en mecircme temps Ceci implique que les signaux en entreacutee sont tregraves souvent tous nuls sauf 1 et appliquer un seuil en entreacutee de lrsquoanalyse permet outre lrsquoallegravegement du traitement drsquoavoir moins de paramegravetres agrave transmettre

Ce scheacutema simplifieacute ne tient pas compte des problegravemes de phase rien nrsquoindique

que les eacutenergies des signaux srsquoajoutent bien dans chaque sous-bande lors du downmix on peut tregraves bien avoir des oppositions de phase La solution est drsquoeffectuer le downmix (la somme) des signaux dans chaque sous-bande en prenant soin drsquoavoir recaleacute les phases au preacutealable Ceci nrsquoa un sens que pour des bandes suffisamment eacutetroites Les deacutecalages temporels appliqueacutes pour le recalage sont alors des paramegravetres suppleacutementaires agrave transmettre et sont pris en compte lors de la synthegravese au niveau du reacutepartiteur qui repositionnera la phase de chaque trame pour chaque signal

Chapitre 4 Reacutesultats et applications 42

443 Bilan Le reacutesultat du deacutecodage a pu ecirctre eacutecouteacute de diffeacuterentes maniegraveres les sources

reconstitueacutees individuellement ensemble en steacutereacuteo drsquoamplitude et sur un systegraveme 51 On note que les sources ont eacuteteacute assez bien seacutepareacutees mais que des artefacts sont audibles en particulier lorsque le nombre de locuteurs simultaneacutes augmentent Ces artefacts sont un meacutelange des voix qui nrsquoest gecircnant que lorsqursquoon les eacutecoute de maniegravere seacutepareacutee En effet lrsquoeacutecoute simultaneacutee de ces signaux syntheacutetiseacutes mecircme placeacutes agrave des positions distinctes sur un systegraveme de diffusion multicanal est tout agrave fait satisfaisante

Ce proceacutedeacute pour pouvoir ecirctre appliqueacute doit fonctionner en temps-reacuteel Cette

contrainte nrsquoa pas du tout eacuteteacute prise en compte lrsquoobjectif eacutetant de valider la faisabiliteacute drsquoune reconstruction Les programmes sous Matlab nrsquoont pas eacuteteacute optimiseacutes et ne respectent pas cette contrainte

43

Conclusion Nous avons preacutesenteacute dans ce rapport le principe et lrsquoapplication de plusieurs

meacutethodes drsquoanalyses spatiales de scegravenes ambisoniques conccedilues et reacutealiseacutee pendant le stage Le format HOA est en effet une repreacutesentation du champ acoustique deacutecomposeacute sur une base drsquoharmoniques spheacuteriques jusqursquoagrave un certain ordre agrave la maniegravere drsquoun deacuteveloppement limiteacute Il contient donc de maniegravere indirecte des indications spatiales qursquoon peut extraire avec des analyses comme lrsquoanalyse en composantes principales

Ces analyses nous permettent de deacuteterminer les positions des sources qui

composent la scegravene sonore Nous avons appliqueacute les reacutesultats de ces analyses agrave 2 types de synthegravese lrsquoune destineacutee aux transmissions bas deacutebit lrsquoautre agrave un traitement de restitution de la preacutecision spatiale dans le cas ougrave des ordres supeacuterieurs dont le but est drsquoaffiner la perception de localisation nrsquoauraient pas pu ecirctre transmis Ces algorithmes par le codage drsquoinformations spatiales qursquoils permettent pourront trouver bien drsquoautres applications dans la transmission et le codage ougrave la description du contenu est de plus en plus utiliseacutee (comme par exemple dans la norme MPEG)

Des ameacuteliorations sont possibles sur plusieurs points tout drsquoabord lrsquoexploitation

de toutes les composantes de lrsquoACP est agrave lrsquoeacutetude et semble pouvoir donner des reacutesultats inteacuteressants Drsquoautre part on a vu que le reacutesultat final est tregraves deacutependant de la bonne convergence de lrsquoalgorithme des k-moyennes utiliseacute pour traiter les donneacutees brutes de lrsquoanalyse en sous-bandes Or cet algorithme neacutecessite des reacuteglages tregraves fins et une connaissance a priori du nombre de sources est presque indispensable Drsquoautres algorithmes plus complexes de suivi de formes pourraient ecirctre avantageusement utiliseacutes pour deacutetecter dans tous les angles trouveacutes lesquels sont susceptibles de former une trajectoire

45

Annexe A

Deacuteveloppement du champ acoustique en harmoniques spheacuteriques

A1 Eacutequation drsquoonde en coordonneacutees spheacuteriques On se place dans lrsquoespace euclidien agrave 3 dimensions muni drsquoun systegraveme de

coordonneacutees spheacuteriques Un point M y est repeacutereacute par son rayon r son azimut θ et son eacuteleacutevation δ tels que repreacutesenteacutes sur la figure ci-dessous

- r est la norme du vecteur position rr crsquoest-agrave-dire la distance OM - [20[ πθ isin est lrsquoangle formeacute par le projeteacute du point sur le plan xOy et lrsquoaxe Ox

- ]2

2

[ ππδ minusisin est lrsquoangle formeacute par le plan xOy et le vecteur position2

Figure A1 - Systegraveme de coordonneacutees spheacuteriques

2 Cet angle diffegravere de lrsquoangle polaire usuel δπϕ minus=

2 habituellement pris entre lrsquoaxe Oz et le

vecteur position

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 46

Les relations entre les coordonneacutees spheacuteriques et les coordonneacutees carteacutesiennes sont

⎪⎩

⎪⎨

===

δδθδθ

sincossincoscos

zryrx

(A1)

On srsquointeacuteresse dans ce repegravere agrave lrsquoeacutequation de propagation des ondes acoustiques

de pression On se place dans les conditions classiques drsquoacoustique lineacuteaire (les variations de p sont petites par rapport agrave la pression atmospheacuterique) en supposant que lrsquoair est un fluide parfait (on y neacutegligera les pheacutenomegravenes dissipatifs) Dans une reacutegion de lrsquoespace ne comprenant pas de sources lrsquoeacutequation drsquoonde srsquoeacutecrit alors

0)(12

2

2 =⎟⎟⎠

⎞⎜⎜⎝

⎛partpart

minus∆ trptc

r (A2)

p eacutetant la pression et c la vitesse de propagation du son dans lrsquoair

Cette eacutequation devient dans le domaine freacutequentiel lrsquoeacutequation de Helmholtz

( ) 0)(2 =+∆ ωrpk r (A3)

ck ω

= eacutetant le nombre drsquoonde

En coordonneacutees spheacuteriques cette eacutequation srsquoeacutecrit

0sin1sin

sin11 2

2

2

222

2 =⎥⎦

⎤⎢⎣

⎡+

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart pk

rrrr

rr δθθθ

θθ (A4)

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques Drsquoapregraves [Bruneau 1983] elle admet des solutions agrave variables seacutepareacutees de la forme

)()()( δθ ΦΘ= rRp (A5) Ces solutions sont respectivement - pour la partie radiale une combinaison des fonctions de Bessel spheacuteriques de

premiegravere et seconde espegravece3 jn et nn

)()()( krBnkrAjrR nn += (A6) 3 Les fonctions de Bessel spheacuteriques de seconde espegravece sont eacutegalement appeleacutees fonctions de

Neumann

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 47

Ces fonctions sont deacutefinies comme suit

(A7)

Figure A2 - Fonctions de Bessel spheacuteriques pour les ordres 0 agrave 5 )(krjm

- pour la partie azimutale les fonctions )(θΘ

)sin()cos()( 21 θθθ ncnc +=Θ (A8) Eacutetant donneacute la deacutefinition de lrsquoangle Θ celui-ci doit neacutecessairement ecirctre de

peacuteriode 2π ))2()(( πθθ +Θ=Θ ce qui impose agrave n drsquoecirctre entier

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 48

- pour la partie polaire les fonctions de Legendre associeacutees )(sinδmnP

nm

nn

mn dPdP

)(sin)(sinsin)(sin

δδ

δδ = pour ⎩⎨⎧

gt=

nmavecnm 321

(A9)

ougrave les )(sinδnP sont les polynocircmes de Legendre de degreacute n en δsin deacutefinis par reacutecurrence

( )

11

22

1

0

sin)12()(sin)1(

1cos321)(sin

sin)(sin0)(sin

minus+ minus+=+

minus=

==

mmm mPPmPmet

P

PP

δδ

ϕδ

δδδ

(A10)

et de formule geacuteneacuterale

mm

m

mm dd

mP )1(sin

)(sin21)(sin 2 minus= δ

δδ (A11)

On peut appliquer aux fonctions )(sinδmnP la semi-normalisation de Schmidt

)(sin)()()(sin~ δεδ mnnmn P

nmnmP

+minus

= ougrave 10 =ε et 2=nε pour 1gen (A12)

En appariant les fonctions polaires et azimutales on deacutefinit les harmoniques

spheacuteriques de degreacute et drsquoordre)1(mnY 0gem 4 mnn lele0 et de degreacute et

drsquoordre (voir Figure A3)

)1(minusmnY 1gem

mnn lele1

)(sin~)sin()(

)(sin~)cos()()1(

)1(

δθδθ

δθδθ

mnmn

mnmn

PnY

PnY

=

=minus

(A13)

4 En geacuteneacuteral lorsque le degreacute et lrsquoordre ne sont pas eacutevoqueacutes conjointement on parle par abus de langage drsquoharmoniques drsquoordre m plutocirct que de degreacute m

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 49

soit

1)(sin

)()()12(2sin)(

)(sin)()()12(2cos)(

1)(sin)1()1()12(cos)(

)1(

)1(

1)1(

1

gt

⎪⎪⎩

⎪⎪⎨

+minus

+=

+minus

+=

=+minus

+=

minus

npourP

nmnmmnY

PnmnmmnY

npourPmmmY

mnmn

mnmn

mm

δθδθ

δθδθ

δθδθ

(A14)

La solution angulaire geacuteneacuterale srsquoeacutecrit alors sous la forme drsquoun deacuteveloppement sur

la base drsquoharmoniques spheacuteriques

( ) ( )sum minus

=minus+=Θ

1

1)1()1()( n

m mnmnmnmnn YBYBθ (A15) La solution geacuteneacuterale est alors la seacuterie de Fourier-Bessel

sum sum sum+infin

= = plusmn=

=0 0 1

)()( )()()(m

m

nmnmnm

m YBkrjikrpσ

σσ δθδθ (A16)

ougrave

intint⎪⎩

⎪⎨⎧

minusisin

isin

plusmnplusmn =

]2

2

[

[20[

)1()1( )()1()(

1

ππδ

πθ

δθδθ

S

mnm

mmn dSYpkrji

B (A17)

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 50

Tableau A1 - Expressions analytiques des harmoniques spheacuteriques pour les ordres 0 agrave 3

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 51

Figure A3 - Repreacutesentation des harmoniques spheacuteriques pour les ordres m = 0 agrave 3 Les

couleurs rouge et bleu indiquent respectivement des valeurs positives et neacutegatives

53

Annexe B

Compleacutements theacuteoriques sur le deacutecodage HOA

B1 Vecteur veacutelociteacute et vecteur eacutenergie Le vecteur veacutelociteacute est un indice de la direction apparente drsquoune source introduit

par Gerzon [Gerzon 1992] Il se calcule comme le rapport de la vitesse particulaire sur la pression acoustique

)()(

)()(1

δθδθ

δθδθ

ρ rprp

ki

rprv

cV nabla

minus=minus=rrr

(B1)

Dans le cas drsquoune onde plane le vecteur veacutelociteacute V

rest ainsi directement un

vecteur unitaire orienteacute vers la direction de provenance de lrsquoonde En geacuteneacuteralisant agrave une superposition drsquoondes planes en phase ou opposition de phase eacutemises par L haut-parleurs agrave eacutequidistance du point drsquoobservation on obtient la formule suivante

VVL

ll

L

lll

urg

ugV r

rr

==

sum

sum

=

=

1

1 (B2)

ougrave deacutesigne la direction du llur egraveme haut-parleur auquel est associeacute le gain gl et Vr Vur correspondent respectivement agrave la norme et agrave la direction du vecteur veacutelociteacute

Le vecteur eacutenergie est un autre indice de direction Il est deacutefinit par

EEL

ll

L

lll

urg

ugE r

rr

==

sum

sum

=

=

1

2

1

2

(B3)

Annexe B Compleacutements theacuteoriques sur le deacutecodage HOA 54

Il peut srsquointerpreacuteter comme une indication de la concentration de lrsquoeacutenergie ( ) et de sa direction moyenne de provenance (

Er

Eur ) On a toujours 1ltEr sauf dans le cas ougrave un seul haut-parleur contribue agrave la reconstruction (dans ce cas ) peut ecirctre consideacutereacute comme un indicateur de preacutecision de la localisation

1=Er Er

B2 Deacutecodages optimiseacutes La restitution la plus confortable drsquoun champ sonore veillera donc agrave maximiser

tout en essayant de garder le plus proche possible de 1 Lrsquooptimisation du deacutecodage consiste alors agrave multiplier chaque coefficient de la matrice de deacutecodage D (voir (111) par des gains calculeacutes drsquoapregraves des critegraveres drsquooptimisation

Er Vr

Ainsi le deacutecodage appeleacute max- maximise la norme du vecteur eacutenergie en

sacrifiant celle du vecteur veacutelociteacute puisqursquoon a dans ce deacutecodage (pour des configurations reacuteguliegraveres de haut-parleurs) Ce deacutecodage est donc avantageux par rapport au deacutecodage basique pour les hautes freacutequences ou dans le cas drsquoun auditoire eacutelargi Le deacutecodage in-phase va encore plus loin en cherchant agrave annuler complegravetement les contributions des haut-parleurs placeacutes agrave lrsquoopposeacute de la direction de provenance de lrsquoonde reproduite Ce critegravere est utile dans le cas drsquoune eacutecoute dans une position tregraves excentreacutee agrave laquelle on pourrait percevoir de faccedilon preacutedominante la contribution en opposition de phase drsquoun tel haut-parleur

Er

EV rr =

Ces diffeacuterents deacutecodages ont chacun des avantages et inconveacutenients Ainsi seul le

deacutecodage basique garantit = 1 le deacutecodage max- permet une preacutecision meilleure notamment en haute freacutequence et le deacutecodage in-phase est plus adapteacute agrave un auditoire plus large Jeacuterocircme Daniel [Daniel 2000] propose ainsi de changer le deacutecodage en fonction de la freacutequence et de lrsquoeacutetendue de la zone drsquoeacutecoute deacutesireacutee

Vr Er

Figure B1 - Deacutecodages les plus approprieacutes par sous-bande et en fonction de lrsquoeacutetendue de la

zone drsquoeacutecoute [Daniel 2000]

55

Annexe C

Analyse en composantes principales

C1 Espace des donneacutees Eacutegalement souvent appeleacutee transformeacutee de Karhunen-Loegraveve5 (TKL) lrsquoanalyse en

composantes principales (ACP) est une technique statistique de repreacutesentation drsquoinformation Introduite sur 2 variables par Pearson [Pearson 1900] elle a eacuteteacute eacutetendue par Hotelling [Hotelling 1933] Elle a pour but de caracteacuteriser des donneacutees drsquoun espace agrave N dimensions dans un sous-espace plus petit en minimisant les pertes drsquoinformation due agrave la projection crsquoest-agrave-dire en maximisant la variance projeteacutee Les donneacutees ainsi reacuteorganiseacutees deviennent indeacutependantes Les variables correacuteleacutees sont remplaceacutees par de nouvelles variables deacutecorreacuteleacutees et de variance maximale combinaisons lineacuteaires des variables initiales

Les donneacutees sont constitueacutees de n variables aleacuteatoires (dans notre cas des canaux)

et p reacutealisations ou individus (des eacutechantillons)

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

pn

p

ji

n

xx

x

xx

M

LLL

MOMNM

MLLM

MNMOM

LLL

1

111

(C1)

Ces donneacutees sont geacuteneacuteralement centreacutees et peuvent aussi ecirctre reacuteduites4 (on note

1x la moyenne de la variable et 1x )( 1xσ sa variance) Reacuteduire ou non le nuage de points (ie les p reacutealisations de la variable aleacuteatoire) est un choix de modegravele

5 Quelques rares sources mentionnent une diffeacuterence entre ACP et TKL en placcedilant celle-ci au

niveau du choix de la reacuteduction des donneacutees dans le cas dune ACP les donneacutees seraient centreacutees et reacuteduites alors qursquoelles seraient uniquement centreacutees pour une TKL

Annexe C Analyse en composantes principales 56

- si on ne reacuteduit pas le nuage une variable agrave forte variance pourrait tirer tout lrsquoeffet de lrsquoACP agrave elle

- si on reacuteduit le nuage une variable qui ne serait qursquoun bruit se retrouverait avec une variance apparente eacutegale agrave une variable informative

M est centreacutee

⎥⎥⎥

⎢⎢⎢

minusminusminus

minusminus=

npn

pi

ji

nn

xxxxxx

xxxxM

K

MM

K

11

11

11

ˆ (C2)

M~ est centreacutee et reacuteduite

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

minusminus

minus

minusminus

=

)()(

)(

)()(~

1

11

1

1

111

n

npn

pi

ij

i

n

nn

xxx

xxx

xxx

xxx

xxx

M

σσ

σ

σσ

K

MM

K

(C3)

On multiplie ensuite la matrice obtenue par sa transposeacutee pour obtenir - La matrice de covariance MMC t

vˆˆ sdot=

- La matrice de correacutelation MMC tr

~~ sdot= Ces matrices sont carreacutees (N x N) symeacutetriques et reacuteelles Elles sont donc

diagonalisables dans une base orthonormeacutee 6 Le principe de lrsquoACP est alors de trouver un axe u issu drsquoune combinaison lineacuteaire

des tel que le critegravere drsquoinertie du nuage autour de cet axe soit maximal Le critegravere drsquoinertie couramment utiliseacute est la variance Il faut donc trouver lrsquoaxe qui porte le maximum de variance crsquoest-agrave-dire lrsquoaxe u tel que la projection du nuage sur cet axe ait une variance maximale

nx

6 Nos donneacutees eacutetant ici des valeurs drsquoeacutechantillons elles sont par nature centreacutees et reacuteduites On

formera donc naturellement la matrice de correacutelation

C2 Diagonalisation 57

C2 Diagonalisation Pour alleacuteger lrsquoeacutecriture de la suite de cette partie nous consideacutererons que les

variables ont eacuteteacute centreacutees et si besoin reacuteduites et nous noterons ces variables

transformeacutees (ainsi

ix ix

iii xxx minuslarr ou bien )( i

iii x

xxxσ

minuslarr ) On fera de mecircme pour M

( ou bien MM ˆlarr MM ~larr ) et C ( vCC larr ou bien rCC larr ) La projection drsquoun eacutechantillon sur un axe u srsquoeacutecrit ix

uMxiu sdot=)(π (C4) La variance empirique de )( iu xπ vaut donc

uMMuxx ttiu

tiu sdotsdotsdot=sdot )()( ππ (C5)

Or on a vu que est diagonalisable dans une base orthonormeacutee donc

on peut noter P le changement de base associeacute et ∆ la matrice diagonale formeacutee de son spectre Ainsi

MMC t=

n

i 1)(λ PPMMC tt ∆==

)()()()( PuPuuPPuxx ttt

iut

iu sdot∆sdot=sdot∆sdot=sdotππ (C6) On pose v = Pu Chercher lrsquoaxe u qui maximise )( iu xπ revient donc agrave chercher le

vecteur v qui maximise ougravevvt ∆ )( 1 ndiag λλ K=∆ avec les iλ rangeacutes par ordre deacutecroissant Ce vecteur est trivialement le premier vecteur unitaire et on a alors

1λ=∆vvt

Ainsi le vecteur qui porte la plus grande part drsquoinertie du nuage est le premier

vecteur propre de C (premier par norme deacutecroissante) De mecircme le deuxiegraveme vecteur qui explique la plus grandelt part de lrsquoinertie restante est le deuxiegraveme vecteur propre de C Finalement la question de lrsquoACP se ramegravene agrave un problegraveme de diagonalisation de la matrice de correacutelation

C3 Code Matlab

function [vep vap] = pca(f N) f donneacutees N nombre de composantes agrave garder cor = f f formation de la matrice de correacutelation [vep vap] = eig(cor) calcul des vecteurs (vep) et valeurs (vap) propres [vap ind] = sort(diag(vap)) tri des valeurs propres par ordre croissant vap = flipud(vap) disposition inverse par ordre drsquoimportance vep = vep( flipud(ind)) classement en conseacutequence des vecteurs propres vep = vep( 1N) on ne garde que les N premiers vecteurs propres

Annexe C Analyse en composantes principales 58

59

Annexe D

Analyse en sous-bandes

D1 La transformeacutee de Fourier agrave court terme (TFCT) Pour affiner lrsquoanalyse les signaux sont donc deacutecoupeacutes en bandes de freacutequence par

TFCT La TFCT consiste agrave effectuer des transformeacutees de Fourier discregravetes sur des portions de signal fenecirctreacutees reacuteguliegraverement espaceacutees

On rappelle que la transformeacutee de Fourier drsquoun signal x(t) est deacutefinie (lorsque

lrsquointeacutegrale existe) par

int+infin

infinminus

minus= dtetxfX ftiπ2)()( (D1)

La transformeacutee de Fourier agrave temps discret (TFTD) drsquoun signal x(t) srsquoeacutecrit

sum+infin

minusinfin=

minus=n

fnienxfX π2)()( (D2)

La transformeacutee de Fourier discregravete (TFD) drsquoun signal discret x(k) est deacutefinie par

sum+infin

minusinfin=

minus=

n

Nkni

enxkXπ2

)()( (D3)

La TFCT discregravete est une TFD observeacutee sur une fenecirctre wa de taille N

summinus

=

minus+=

1

0

2)())(()(

N

n

Nnki

aaa enwtnxkXπ

ττ (D4)

ougrave )(taτ est lrsquoinstant drsquoanalyse

Annexe D Analyse en sous-bandes 60

Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT [Laroche 1995]

D2 Synthegravese par addition-recouvrement Lors de la synthegravese apregraves le deacutecoupage et lrsquoanalyse des fenecirctres on cherche agrave

reconstruire le signal temporel agrave partir de sa repreacutesentation freacutequentielle Pour cela on utilise la meacutethode OLA (overlap and add addition-recouvrement) qui consiste agrave prendre la TFCT inverse des spectres Xt puis agrave additionner les signaux obtenus apregraves les avoir multiplieacutes par une fenecirctre de pondeacuteration en les faisant se recouvrir partiellement

Le reacutesultat est donneacute par

sum=

minusminus=T

tsss tnxtnwnx

s1

))((~))(()(~ ττ τ (D5)

avec )()( tt as ττ = et summinus

=

=1

0

2))((~1)(~ N

k

Nkni

s ektXN

nxs

π

τ τ

Lors de la mise en œuvre de ce traitement il faut srsquoassurer drsquoecirctre en mesure de

reconstruire parfaitement un signal lorsqursquoaucune transformation ne lui est appliqueacutee Le critegravere de reconstruction parfaite condition suffisante est alors

sum=

=minusminusT

tasaa tnwtnw

11))(())(( ττ quelque soit n (D6)

D2 Synthegravese par addition-recouvrement 61

Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add [Laroche 1995]

Plusieurs paramegravetres sont agrave choisir avec soin Le premier drsquoentre eux est le type

de fenecirctre agrave utiliser Les diffeacuterentes options qui se preacutesentent agrave nous sont - la fenecirctre rectangulaire qui preacutesente dans son spectre le lobe principal le plus

eacutetroit mais des lobes secondaires non neacutegligeables - la fenecirctre de Hamming au lobe principal un peu plus large mais pour laquelle le

1er lobe secondaire se situe agrave -43 dB - la fenecirctre de Hann (ou cosinus sureacuteleveacute) qui ressemble agrave la preacuteceacutedente avec un

1er lobe secondaire plus fort mais une pente de 18 dB par octave pour les lobes suivants

- les fenecirctres de Blackman-Harris aux lobes secondaires tregraves bas mais au lobe principal plus large

Fenecirctre Lobe 2aire

(dB) Pente

(dBoct) Bande passante

agrave 6 dB (bins) Rectangulaire -13 -6 121 Triangulaire -27 -12 178

Hann -32 -18 200 Hamming -43 -6 181

Blackman-Harris 4 -92 -6 272

Tableau D1 - Caracteacuteristiques des principales fenecirctres drsquoanalyse [Harris 1978] Le meilleur compromis est donc dans notre contexte la fenecirctre de Hann ou celle

de Hamming

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 29: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

31 Deacutetermination des directions principales 23

Neacuteanmoins il faut relativiser lrsquoimportance de ce champ reacutesiduel il nrsquoest pas utile pour la localisation des sources principales et ne caracteacuterise que lrsquoenvironnement drsquoenregistrement En outre le champ reacutesiduel qui provient souvent de directions floues et notre but nrsquoest pas de les preacuteciser artificiellement Il nrsquoest degraves lors geacuteneacuteralement pas utile de le transmettre aux ordres eacuteleveacutes

Ainsi certains auteurs [Merimaa and Pulkki 2005] ont choisi de recreacuteer lors drsquoune

synthegravese un champ diffus artificiel baseacute sur une reacuteponse impulsionnelle de salle calculeacutee agrave lrsquoavance Lrsquoavantage est une immersion un enveloppement complets lrsquoinconveacutenient est que lrsquoambiance ainsi recreacuteeacutee est fictive et arbitraire et en outre complegravetement indeacutependante de lrsquoambiance initiale en laissant notamment de cocircteacute les sources secondaires

Nous proposons dans nos algorithmes de ne pas syntheacutetiser le champ diffus aux

ordres eacuteleveacutes mais de nous contenter de la description du champ reacutesiduel fourni par les ordres transmis (1er ordre dans nos exemples) Nous nous limiterons donc agrave preacuteciser par la synthegravese des ordres supeacuterieurs les positions des sources principales

32 Extension agrave la 3D Nous avons pour le moment eacutevoqueacute le cas de repreacutesentations de champ sonore agrave

2 dimensions crsquoest-agrave-dire issus de sources placeacutees dans le plan horizontal Mais certaines repreacutesentations comportent eacutegalement des composantes verticales Pour analyser ces signaux en 3 dimensions il faut inteacutegrer la composante Z On effectue alors simplement une ACP sur X Y Z et W Le 1er vecteur propre sera alors bien dirigeacute dans lrsquoespace (X Y Z) dans la direction de la source lrsquoambiguiumlteacute de frac12 espace eacutetant leveacutee par W

Lrsquoalgorithme est alors complegravetement similaire agrave celui analysant des signaux en 2

dimensions Des tests ont eacuteteacute reacutealiseacutes agrave partir de signaux syntheacutetiques pour lesquels les positions des sources eacutetaient connues pour des raisons pratiques aucune scegravene sonore reacuteelle en 3 dimensions nrsquoa pu ecirctre enregistreacutee avec une connaissance initiale preacutecise des positions des sources

Les visualisations et les eacutecoutes eacutetant plus deacutelicates en 3D et lrsquoextension agrave la 3D

eacutetant immeacutediate nous avons donc concentreacute nos efforts sur lrsquoanalyse de scegravenes en 2D En outre en lrsquoabsence de dispositif spheacuterique ou heacutemispheacuterique de haut-parleurs le seul moyen agrave notre disposition pour eacutecouter une scegravene 3D est lrsquoeacutecoute binaurale crsquoest-agrave-dire au casque avec des fonctions de transfert de tecircte (HRTF) relativement bien adapteacutees agrave lrsquoauditeur

33 Analyse aux ordres supeacuterieurs

331 Description Afin drsquoameacuteliorer la preacutecision de lrsquoanalyse nous avons essayeacute drsquoappliquer une ACP

sur des signaux ambisoniques drsquoordre plus eacuteleveacute (signaux HOA) dans le plan horizontal Deux meacutethodes ont eacuteteacute essayeacutees

Chapitre 3 Description des analyses 24

La premiegravere consiste agrave appliquer une ACP agrave 3 dimensions successivement sur les composantes X Y W (ordre 1 et 0) puis U V W (ordre 2 et 0) et ainsi de suite crsquoest-agrave-dire (en utilisant la notation geacuteneacuterale) sur les composantes et W (ordre m et 0) Les reacutesultats de ces analyses (les directions des 1

)1(0mY )1(

0minus

mYegraveres composantes) sont ensuite regroupeacutees

lrsquoanalyse de lrsquoordre 1 fournissant des reacutesultats modulo 2π lrsquoanalyse de lrsquoordre 2 des reacutesultats plus preacutecis mais modulo π et plus geacuteneacuteralement lrsquoanalyse de lrsquoordre m permettant de trouver des angles modulo mπ2

La limite de cette approche se perccediloit lors de la fusion des reacutesultats les angles

trouveacutes agrave un ordre eacuteleveacute sont plus preacutecis dans des bandes de freacutequences eacuteleveacutees mais la limitation theacuteorique de ces signaux HOA dans les basses freacutequences font que lrsquoanalyse de lrsquoordre 1 reste la plus pertinente dans les premiegraveres bandes Parvenir agrave deacuteterminer agrave partir de quelle freacutequence on peut faire davantage confiance agrave lrsquoordre n+1 qursquoagrave lrsquoordre n nrsquoest pas aiseacute et cette limite provoque des aberrations dans les angles trouveacutes Une source unique pourra par exemple ecirctre interpreacuteteacutee par lrsquoalgorithme des k-moyennes (voir 341) comme 2 sources une en hautes freacutequences et une en basses freacutequences les 2 eacutetant trouveacutes agrave 2 angles diffeacuterents chaque angle relevant drsquoun ordre analyseacute diffeacuterent

La deuxiegraveme meacutethode consiste pour eacuteviter cette fusion des reacutesultats agrave effectuer

une seule ACP sur les composantes U V X Y et W Cette meacutethode souffre drsquoune tregraves grande complexiteacute algorithmique pour une ameacutelioration de la preacutecision peu sensible En effet si cette meacutethode permet drsquoobtenir des reacutesultats plus preacutecis dans certaines bandes de freacutequences elle est sensible aux deacutefauts et les limites des ordres supeacuterieurs (lrsquoabsence de basses freacutequences entre autres) perturbent lrsquoanalyse en composantes principales

332 Illustration sur une scegravene virtuelle La scegravene preacutesenteacutee ici est une scegravene artificielle crsquoest-agrave-dire composeacutee de sons

placeacutes artificiellement agrave diverses positions Elle a une dureacutee totale de 135 s et comporte 4 sources positionneacutees dans le plan horizontal une guitare placeacutee agrave 45deg une basse agrave -70deg une batterie agrave 110deg et une voix feacuteminine qui effectue continucircment un tour complet dans le sens indirect en partant de lrsquoarriegravere (elle passe donc successivement par les positions 180deg 90deg 0deg -90deg et -180deg) La guitare et la batterie srsquoarrecirctent peu avant la fin de la scegravene (12egraveme seconde au 910egraveme du son approximativement)

Figure 33 - Position des sources de la scegravene de test agrave 4 sources dont 1 mobile

33 Analyse aux ordres supeacuterieurs 25

Figure 34 - Angles drsquoune scegravene virtuelle ayant 1 source mobile et 3 sources fixes

(deacutecrite en 332) trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 Pour chaque trame (en abscisse) 20 angles (1 par bande en ordonneacutee et en degreacutes) sont

reporteacutes le diamegravetre du point correspondant agrave un critegravere de pertinence (voir 342)

Figure 35 - Angles de la mecircme scegravene trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 2 Reacutesultats modulo π reacutepliqueacutes pour faciliter la comparaison avec la figure preacuteceacutedente On remarque que les lignes sont plus nettes qursquoil y a moins drsquoangles aberrants et que

les angles corrects sont plus marqueacutes (ils sont deacutetermineacutes comme plus pertinent)

Chapitre 3 Description des analyses 26

20

0

20

0

20

0

Figure 36 - Angles drsquoune scegravene reacuteelle constitueacutee drsquoun bruit parcourant le cercle trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 (en haut) 0 et 2 (au milieu) et 0 et 4 (en bas) Le

numeacutero de trame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On retrouve qursquoune limitation des ordres HOA supeacuterieurs issus drsquoun enregistrement

microphonique est la restitution des basses freacutequences

34 Traitement des donneacutees

341 Algorithme des k-moyennes Agrave lrsquoissue de lrsquoanalyse en composantes principales on reacutecupegravere avec la premiegravere

des meacutethodes exposeacutees au chapitre preacuteceacutedent des angles correspondants aux positions des sources preacutedominantes agrave raison drsquoune valeur par fenecirctre et par bande de freacutequence Il faut agrave partir de ces donneacutees parvenir agrave isoler les sources crsquoest-agrave-dire agrave deacuteterminer quels sont les angles pertinents et examiner quels sont ceux qui agrave une certaine toleacuterance pregraves sont preacutesents dans plusieurs bandes de freacutequence etou plusieurs fenecirctres temporelles

Pour pouvoir exploiter ces donneacutees spatiales nous avons utiliseacute lrsquoalgorithme des

k-moyennes (ou k-means) [MacQueen 1967] sur les angles pondeacutereacutes par des critegraveres de pertinence Cet algorithme fonctionne de la maniegravere suivante

Initialisation choix de k barycentres (les k moyennes) Reacutepeacuteter Associer chaque eacuteleacutement au barycentre le plus proche Recalculer les positions des barycentres Jusqursquoagrave ce que les barycentres soient stables (ou au bout de t iteacuterations)

34 Traitement des donneacutees 27

Lrsquoavantage de cet algorithme est drsquoecirctre peu glouton puisqursquoil converge en O(tkn) ougrave t est le nombre drsquoiteacuterations k le nombre de centres et n le nombre de points (geacuteneacuteralement on a t k ltlt n) Par contre il est plutocirct sensible aux exceptions un point aberrant tirera agrave lui la moyenne auquel il aura eacuteteacute associeacute Il faut donc faire en sorte que ces points erroneacutes soient aussi rares que possibles Crsquoest pourquoi les angles traiteacutes sont pondeacutereacutes par 2 critegraveres de pertinence

La pondeacuteration des angles fournis en entreacutee de lrsquoalgorithme des k-moyennes se

fait de maniegravere simple en reacutepeacutetant ces angles un nombre de fois (de 0 agrave 10) proportionnel agrave un critegravere Ainsi un angle tregraves pertinent sera dupliqueacute et sera preacutesent plusieurs fois dans la liste des donneacutees traiteacutees attirant ainsi agrave lui la position du barycentre le plus proche Au contraire un angle trop peu pertinent ne sera pas reacutepeacuteteacute voir mecircme sera enleveacute de la liste

Le seul problegraveme de cet algorithme est qursquoil neacutecessite la connaissance de k crsquoest-

agrave-dire du nombre de sources qui composent la scegravene Une deacutetermination automatique se basant sur la reacutepeacutetition de lrsquoalgorithme avec un k croissant a eacuteteacute testeacutee mais le critegravere drsquoarrecirct reposant sur la dispersion des points autour des barycentres nrsquoeacutetant pas assez robuste cette meacutethode a provisoirement eacuteteacute mise de cocircteacute

342 Critegraveres de pertinence Les 2 critegraveres de pondeacuteration choisis sont lrsquoeacutenergie de la sous-bande dans la

fenecirctre donneacutee et le rapport de la norme de la 1egravere composante (la composante principale) de lrsquoACP sur la somme des normes de toutes les composantes

En effet un angle est trouveacute dans chaque sous-bande de chaque fenecirctre mecircme si

le signal y est tregraves faible Lrsquoangle trouveacute sera alors tregraves peu repreacutesentatif de la direction drsquoune source puisqursquoil indiquera la direction drsquoun bruit Lrsquoeacutenergie doit donc ecirctre prise en compte pour ne conserver que les angles trouveacutes dans des bandes comportant un signal suffisant

La norme relative de la 1egravere composante de lrsquoACP rend quant agrave elle compte du

poids relatif de cette composante par rapport aux autres Ainsi si 2 sources sont preacutesentes dans une bande donneacutee la 1egravere composante sera agrave peine plus marqueacutee que la 2egraveme Ceci peut ecirctre calculeacute en prenant simplement le rapport de la 1egravere valeur propre sur la somme des valeurs propres

On peut noter que la norme de la 1egravere composante ne se deacutetache nettement que

lorsqursquoun son est preacutesent dans la bande consideacutereacutee On peut alors se demander si lrsquoeacutenergie doit ecirctre prise en compte ou si lrsquoinformation qursquoelle contient nrsquoest comprise dans le 2egraveme critegravere En fait la norme relative est un critegravere tregraves bruiteacute et consideacuterer lrsquoeacutenergie par ailleurs permet de nuancer ces artefacts et constitue une base solide de pondeacuteration

Chapitre 3 Description des analyses 28

80

40

0

Figure 37 - Repreacutesentation temps-freacutequence des angles du son deacutecrit en 332 Letrame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On peut donc v

par trame et par bande chacun eacutetant le reacutesultat drsquoune ACP crsquoest-agrave-dire la 1egravere

Figure 38 - Eacutenergie de ce mecircme son On peut voir une basse en notes tenues uneet une batterie qui produit des sons secs dans un spectre plus aigu

80

40

0

80

40

0

Figure 39 - Norme relative de la 1egravere composante de ce mecircme son Les impacts de batterie (dans lrsquoaigu) ressortent davantage

π 0 minusπ

numeacutero de oir un angle direction

voix aiguumle

34 Traitement des donneacutees 29

Figure 310 - Pondeacuteration appliqueacutee agrave lrsquoentreacutee des k-moyennes calculeacutee ici comme

le simple produit de lrsquoeacutenergie et de la norme relative

80

40

0

343 Lissages

Pour faire face au bruit ineacutevitable dans les reacutesultats il faut lisser les donneacutees Ces

lissages temporels correspondent agrave des hypothegraveses de stabiliteacute des sources qui sont supposeacutees ecirctre fixes ou mobiles relativement lentement (dans une mesure agrave parameacutetrer)

Un premier lissage peut ecirctre opeacutereacute avant le traitement par lrsquoalgorithme des k-

moyennes Le filtre choisi est un filtre meacutedian de maniegravere agrave eacuteliminer les points aberrants tout en conservant les vraies valeurs des points coheacuterents Ce lissage est appliqueacute sur chaque sous-bande aux angles et ne tient pas compte des critegraveres de pertinence Il est donc utiliseacute avec parcimonie et peut mecircme ecirctre eacuteviteacute en reacuteglant de maniegravere adeacutequate les critegraveres de pondeacuteration agrave lrsquoentreacutee des k-moyennes

Le deuxiegraveme lissage srsquoeffectue agrave lrsquoentreacutee des k-moyennes en mecircme temps que les

critegraveres de pondeacuteration Il consiste agrave appliquer les k-moyennes non pas sur une fenecirctre donneacutee mais sur plusieurs fenecirctres conseacutecutives anteacuterieures et posteacuterieures en donnant plus de poids agrave la fenecirctre courante Dans la pratique les poids donneacutes aux diffeacuterentes fenecirctres sont eacutetablis par une gaussienne centreacutee sur la fenecirctre courante et de largeur agrave deacuteterminer (en fonction notamment de la dureacutee drsquoune fenecirctre et du type de scegravene analyseacute)

35 Exploitation de toutes les composantes de lrsquoACP Les analyses preacutesenteacutees preacuteceacutedemment ont toutes exploiteacute uniquement la

composante principale extraite par lrsquoACP Or cette analyse fournit des informations plus complegravetes par lrsquointermeacutediaire des autres composantes dont on peut tirer parti pour isoler plusieurs sources au sein drsquoune mecircme bande Cette approche est toujours en deacuteveloppement dans ce stage et nrsquoa pas encore donneacute pleine mesure des reacutesultats qursquoelle laisse entrevoir

Les composantes de lrsquoACP indiquent des directions qui correspondent aux

diffeacuterentes sources composant la scegravene sonore Les vecteurs propres de la matrice de correacutelation donnent ainsi les combinaisons lineacuteaires des signaux HOA permettant de

Chapitre 3 Description des analyses 30

seacuteparer de la meilleure faccedilon possible ces sons Ces directions peuvent ecirctre alors utiliseacutees pour former des directiviteacutes isolant au mieux ces sources

aBS sdot= (31)

ougrave la matrice a contient les vecteurs propres de la matrice de correacutelation (voir Annexe C) le vecteur B contient les signaux HOA et le vecteur S contient les sources extraites

⎟⎟⎟

⎜⎜⎜

=⎟⎟⎟

⎜⎜⎜

⎛=

⎥⎥⎥

⎢⎢⎢

⎟⎟⎟

⎜⎜⎜

⎟⎟⎟

⎜⎜⎜

⎛=

10

1001

1

ML

N

B

BB

S

SSuua MML (32)

On obtient ainsi des lobes drsquoautant plus eacutetroits que lrsquoordre est eacuteleveacute chacun

dirigeacute vers une source et permettant de lrsquoisoler le plus possible des contributions des autres sources La Figure 311 preacutesente les directiviteacutes ainsi trouveacutees par une ACP en pleine bande Une analyse en sous-bande permet une plus grande distinction des sources mais une seacuteparation diffeacuterente entre les bandes est dangereuse car elle risque de dissocier spatialement plusieurs parties drsquoun mecircme son

Figure 311 - Directiviteacutes seacuteparant ideacutealement 4 sources placeacutees agrave 17 73 195 et -58deg

pour une scegravene virtuelle encodeacutee agrave lrsquoordre 4 Ce principe se heurte neacuteanmoins aux limites de seacuteparation lieacutees agrave lrsquoordre

drsquoencodage en effet 2 sources ne pourront pas ecirctre seacutepareacutees si elles sont trop proches comme en teacutemoigne la largeur des lobes principaux Les lobes secondaires traduisent eacutegalement un meacutelange des sources isoleacutees La figure ci-dessus montre ainsi que la source placeacutee agrave 17deg (en vert) sera preacutesente de maniegravere non neacutegligeable dans le signal senseacute contenir la source placeacutee agrave -58deg (en bleu) en raison du lobe secondaire bleu important

31

Chapitre 4

Reacutesultats et applications

41 Illustration et critique des reacutesultats obtenus

411 Avant-propos Sans notification particuliegravere les reacutesultats preacutesenteacutes ont eacuteteacute obtenus avec un pas

de 50 ms une analyse en 80 bandes avec une FFT sur 8192 points Une taille de FTT plus grande et un plus grand nombre de bande augmente la qualiteacute de lrsquoanalyse un pas plus petit ameacuteliore sa preacutecision temporelle mais les reacutesultats sont moins fiables et un lissage plus important srsquoimpose alors Ces paramegravetres ont eacuteteacute reacutegleacutes apregraves de multiples essais sur des scegravenes diverses

Les reacutesultats sont preacutesenteacutes ici uniquement sous la forme de graphiques nous ne

pouvons donc repreacutesenter que les angles trouveacutes agrave la sortie de lrsquoalgorithme des k-moyennes

412 Scegravene 2D artificielle agrave 4 sources fixes La premiegravere scegravene est une scegravene artificielle composeacutee de 4 sons fixes placeacutes agrave -70

-10 45 et 110deg Ces sons (une basse une voix une guitare et une batterie) ont eacuteteacute choisis pour leur varieacuteteacute spectrale et leur varieacuteteacute drsquoattaque Elle a en outre le meacuterite drsquoecirctre reacutealiste et de constituer une seacutequence musicale (chaque son nrsquoest pas une meacutelodie indeacutependante)

On voit sur la Figure 41 ci-dessous que les angles trouveacutes sont proches des

angles theacuteoriques Lrsquoun des sons (agrave 45deg) est quasiment nul avant la 100egraveme trame sa position est alors moins facile agrave deacuteterminer plus preacuteciseacutement une position approximative est trouveacutee et correspondrait exactement agrave la position du bruit (45deg) si lrsquoincertitude de mesure tregraves grande pour un son aussi faible ne rendait la deacutetermination si ardue On mesure un eacutecart-type de 22deg sur cet exemple (en excluant le deacutebut du son agrave 45deg)

Chapitre 4 Reacutesultats et applications 32

Figure 41 - Angles theacuteoriques (en pointilleacutes rouge) et calculeacutes (en trait bleu) pour une scegravene

constitueacutee de 4 sons fixes longue de 11s

413 Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile

Figure 42 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) de la scegravene agrave

4 sources dont 1 mobile deacutecrite en 332 Cette scegravene est deacutecrite en 332 On a ici demandeacute aux k-moyennes de renvoyer 5 barycentres par trame alors que

seules 4 sources eacutetaient preacutesentes dans le but de se garantir une marge vis-agrave-vis des erreurs de deacutetection Cette 5egraveme direction nrsquoest pas du tout gecircnante elle indique une direction qui ne contient pas de source et crsquoest donc un son tregraves faible qui est ainsi pointeacute Apregraves une eacuteventuelle extraction le signal ne sera donc pas du tout gecircnant

41 Illustration et critique des reacutesultats obtenus 33

On peut remarquer que quand le son mobile se rapproche drsquoun son fixe la deacutetection est moins bonne il y a une fusion entre les 2 sons Mais encore une fois lors de lrsquoextraction lrsquoisolation drsquoun des sons englobera lrsquoautre son ce qui ne posera pas de problegraveme pour les objectifs fixeacutes aucune source nrsquoeacutetant oublieacutee En effet la seacuteparation de sources nrsquoest pas un objectif ici mais un moyen pour preacuteciser les positions des sources ce qui sera fait correctement mecircme si 2 sources sont pointeacutees par 1 seule direction

414 Scegravene 3D artificielle agrave une source et bruit de fond

La scegravene dont la position drsquoune source a eacuteteacute extraite ci-dessous est une scegravene virtuelle en 3D constitueacute drsquoun son (une voix) qursquoon a fait se deacuteplacer par paliers tout drsquoabord vers le haut de 0deg agrave 45deg et vers la gauche de 0deg agrave 90deg puis redescendre jusqursquoagrave 35deg en continuant son cheminement vers la gauche jusqursquoagrave 120deg et enfin finir la descente de 35deg agrave 0deg en la laissant agrave 120deg Agrave cette source a eacuteteacute superposeacutee une ambiance spatialiseacutee de hall drsquoaeacuteroport initialement enregistreacutee en 2D (au format 51) mais transformeacutee pour contenir des composantes verticales Cette ambiance deacutecorreleacutee de la source avait pour but de tester la robustesse de lrsquoanalyse Elle eacutetait agrave 15 dB en-dessous du niveau de la voix

Figure 43 - Azimut et eacuteleacutevation theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun

son en 3D artificiel de 9s placeacute dans une ambiance bruyante On remarque que lrsquoanalyse est tregraves correcte Il nrsquoy a pas drsquoeacutecart important entre

les angles theacuteoriques et ceux calculeacutes On note toutefois que le lissage agrave lrsquoentreacutee des k-moyennes a pour effet de gommer les creacuteneaux et drsquoaplatir quelque peu la courbe drsquoeacuteleacutevation ceci nrsquoest pas vraiment gecircnant car de tels sauts dans la position drsquoune source ne sont pas du tout reacutealistes (ils peuvent caracteacuteriser des bruits de pas mais de tels impacts sont courts et on peut srsquoattendre agrave ce que la courbe suive leur position aux instants ougrave ils sont eacutemis)

Chapitre 4 Reacutesultats et applications 34

415 Scegravene 2D naturelle agrave une source Les scegravenes naturelles sont on lrsquoa vu plus deacutelicates agrave exploiter car on ne peut pas

garantir la preacutecision de la position theacuteorique agrave retrouver par le calcul et on ne peut donc pas calculer la preacutecision de lrsquoanalyse Seuls les enregistrements utilisant la table tournante (voir 232) permettent une mesure preacutecise de la position de lrsquoangle Ces enregistrements on pu confirmer la validiteacute de lrsquoanalyse pour des scegravenes reacuteelles on trouve ici un eacutecart-type de 25deg

Figure 44 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun bruit blanc

tournant autour du micro enregistreacute en chambre sourde Cette analyse a eacuteteacute reacutealiseacutee par sous-bandes mais sur une eacutetendue freacutequentielle

plus reacuteduite puisqursquoon srsquoest limiteacute aux possibiliteacutes offertes par le microphone La scegravene a donc eacuteteacute analyseacutee de 200 agrave 10 000 Hz

42 Quelques applications

421 Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre 2 agrave partir de lrsquoordre 1

Une fois les positions des sources connues la porte est ouverte agrave de nombreuses

applications La connaissance de ces positions permet en effet de syntheacutetiser artificiellement des composantes manquantes ou non transmises La premiegravere synthegravese deacuteveloppeacutee est celle des signaux U et V composant la partie horizontale de lrsquoordre 2 agrave partir de lrsquoordre 1 et de paramegravetres issus de lrsquoanalyse pour une source en 2D (des angles dans de cas)

42 Quelques applications 35

Figure 45 - Principe de lrsquoameacutelioration de la preacutecision spatiale

Le principe de la synthegravese est drsquoextraire les sources originales agrave partir de W X Y

et des angles (un angle par trame et par sous-bande) Ceci peut ecirctre reacutealiseacute de maniegravere approcheacutee en deacutecodant lrsquoordre 1 dans les directions des sources Ce deacutecodage revient agrave calculer les signaux qui devraient alimenter des haut-parleurs qui seraient placeacutes agrave ces positions dans le cas drsquoune restitution (voir 122) crsquoest-agrave-dire agrave former des directiviteacutes dans les directions des sources Dans la plupart des cas ce deacutecodage qui fait intervenir une pseudo-inversion de Moore-Penrose (111) est imparfait les sources se retrouvant leacutegegraverement meacutelangeacutees On peut comparer cette seacuteparation agrave celle que ferait un ensemble de microphones agrave directiviteacute hypercardioiumlde coiumlncidents

Figure 46 - Directiviteacutes eacutequivalentes agrave la seacuteparation de 4 sources agrave lrsquoordre 1 Ces sources seacutepareacutees vont ensuite constituer toujours placeacutees aux angles

deacutetermineacutes agrave lrsquoanalyse une scegravene virtuelle qursquoon va encoder agrave lrsquoordre 2 De cet encodage on ne conservera que les signaux manquants dans notre exemple les signaux du 2nd ordre U et V Ainsi la scegravene spatialiseacutee sera au final constitueacutee des signaux W X et Y drsquoorigine (transmis) et des signaux U et V syntheacutetiseacutes

Chapitre 4 Reacutesultats et applications 36

422 Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave partir de W Reconstruire une scegravene sonore spatialiseacutee agrave partir drsquoun unique canal mono est

alors difficile et le reacutesultat nrsquoest appreacuteciable que pour des scegravenes simples Il faut pour cela que les diffeacuterentes sources composant cette scegravene aient des supports spectraux aussi distincts que possible Les diffeacuterentes sous-bandes sont alors placeacutees agrave un certain angle transmis en parallegravele et crsquoest cette scegravene reconstitueacutee qui va ecirctre encodeacutee au 1er ordre de maniegravere agrave recreacuteer les signaux X et Y

Figure 47 - Principe de la restitution de lrsquoordre 1 agrave partir du signal mono W Ce scheacutema rappelle une meacutethode deacuteveloppeacutee dans le cas steacutereacuteo appeleacutee BCC

(Binaural Cue Coding) [Faller and Baumgarte 2002] Le principe est drsquoextraire et coder des informations permettant la reconstruction binaurale drsquoun signal agrave savoir les diffeacuterences interaurales drsquointensiteacute et de temps (Interaural LevelTime Difference ILD et ITD) qui correspondent dans le cas drsquoune restitution sur un casque aux diffeacuterences drsquointensiteacute et de temps inter-canal (Inter-Channel LevelTime Difference ICLD et ICTD) qui sont mesureacutees agrave partir drsquoune analyse en sous-bandes Les auteurs y ont plus reacutecemment associeacute un indice de correacutelation interaurale mesureacute agrave partir de la correacutelation inter-canal (ICC) afin de caracteacuteriser la preacutecision spatiale (la ldquolargeurrdquo drsquoune source)

Figure 48 - Scheacutema de principe de la meacutethode BCC [Faller and Baumgarte 2003]

On observe en pratique des deacutefauts lieacutes agrave la brutaliteacute de la proceacutedure une sous-

bande ne peut ecirctre que placeacutee agrave la position indiqueacutee et ne peut pas rester floue diffuse ou encore ecirctre placeacutee agrave plusieurs endroits Pour y remeacutedier nous avons ajouteacute 2 traitements agrave la synthegravese Tour drsquoabord nous avons appliqueacute un leacuteger lissage soulageant les effets deacutesagreacuteables dus au saut du contenu drsquoune sous-bande drsquoun endroit agrave un autre entre de 2 fenecirctres conseacutecutives Les positions varient alors de faccedilon plus souple au sein drsquoune mecircme sous-bande traduisant une hypothegravese de continuiteacute spatiale (pas de deacuteplacement brusque) La contrepartie est que cette hypothegravese est lieacutee agrave une hypothegravese de continuiteacute spectrale

42 Quelques applications 37

La 2egraveme ameacutelioration concerne le positionnement des sources En incluant dans la transmission un critegravere de pertinence on peut savoir srsquoil est raisonnable de placer une sous-bande agrave un angle preacutecis ou bien si lrsquoanalyse eacutetait flou agrave son sujet auquel cas un positionnement impreacutecis serait preacutefeacuterable Le paramegravetre choisi est une combinaison des critegraveres eacutevoqueacutes en 342 il nous permet de placer la sous-bande de maniegravere plus ou moins prononceacutee

43 Comparaison avec une meacutethode existante Certains auteurs ont deacutejagrave essayeacute drsquoanalyser un contenu ambisonique pour

retrouver les positions des sources Ville Pulkki a ainsi deacutecrit dans [Pulkki and Faller 2006] une meacutethode drsquoanalyse du B-format baseacutee sur lrsquoeacutetude des amplitudes des signaux W X Y et Z

Figure 49 - X et Y dans le cas drsquoune sinusoiumlde placeacutee agrave 15deg (agrave gauche) et 120deg (agrave droite)

Les figures ci-dessus montrent les relations drsquoamplitudes (algeacutebriques) qui relient

X et Y agrave lrsquoangle de la source On voit que lrsquoanalyse de ces amplitudes respectives permet de retrouver la position de la source en effet on a pour une source unique les relations de lrsquoeacutequation (11) rappeleacutee ici

⎪⎪

⎪⎪

=

=

=

=

δ

δθ

δθ

sin2

cossin2

coscos2

SZ

SY

SX

SW

(41)

On peut donc theacuteoriquement retrouver les valeurs de θ et δ par relations

trigonomeacutetriques Ainsi on a

⎪⎪⎩

⎪⎪⎨

=

=

2)sin(

)tan(

WZ

XY

δ

θ (42)

Chapitre 4 Reacutesultats et applications 38

On peut donc trouver les angles θ et δ agrave π pregraves Pour lever lrsquoambiguiumlteacute une eacutetude de signe est neacutecessaire Mais dans le cas de θ le signe de X et de Y agrave δ fixeacute deacutepend aussi bien de θ que S Il faut srsquointeacuteresser aux signes de θcos et θsin crsquoest-agrave-dire

aux signes de WX et

WY Dans la pratique on srsquointeacuteressera aux signes de et

pour se preacutevenir des divisions par zeacuteros

XW sdot YW sdot

XW sdot et YW sdot sont proportionnels agrave toujours positif

2S

Les auteurs deacutecrivent eacutegalement dans leur article un critegravere appeleacute diffuseness qui

peut ecirctre compareacute agrave un critegravere de pertinence inverseacute Ce paramegravetre calculeacute par agrave 1 - R ougrave R est un rapport de normes est tregraves proche du critegravere de norme relative deacutecrit en 342 Il peut donc ecirctre utiliseacute de la mecircme faccedilon et permettre ainsi une pleine comparaison

Cette meacutethode a eacuteteacute impleacutementeacutee pour pouvoir ecirctre compareacutee avec la meacutethode

par ACP Tous les paramegravetres ont scrupuleusement eacuteteacute gardeacutes identiques et plusieurs reacuteglages ont eacuteteacute testeacutes Les courbes ci-dessous preacutesentent les reacutesultats des analyses de la scegravene deacutecrite en 332 avec un pas de 50ms un overlap de 50 un NFFT de 2048 et 40 bandes freacutequentielles Nous avons repreacutesenteacute tous les angles trouveacutes crsquoest-agrave-dire un par bande et par trame pour srsquoaffranchir de la seacutelection des k-moyennes

π

0

minusπ

Figure 410 - Angles trouveacutes par lrsquoalgorithme de [Pulkki and Faller 2006] Le diamegravetre du point correspondant agrave la pertinence

43 Comparaison avec une meacutethode existante 39

π

0

minusπ

Figure 411 - Angles trouveacutes par une ACP pour la mecircme scegravene On remarque que les points excentriques sont moins nombreux et plus rarement trouveacutes comme pertinents

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee

441 Position du problegraveme

Une application directe de ces analyses a eacuteteacute deacuteveloppeacutee pour la confeacuterence audio

spatialiseacutee La confeacuterence audio utilise en effet la spatialisation pour permettre une meilleure seacuteparation par lrsquooreille des diffeacuterents locuteurs Ainsi si plusieurs personnes parlent en mecircme temps il sera tregraves difficile de comprendre chacun individuellement si ces voix sont restitueacutees en mono mais on pourra focaliser lrsquoattention sur chacune drsquoentre elles si elles sont seacutepareacutees spatialement (crsquoest lrsquoeffet cocktail party [Cherry 1953])

Lrsquoobjectif eacutetait de veacuterifier qursquoil eacutetait possible de conserver la spatialisation drsquoune

confeacuterence en nrsquoayant transmis qursquoun downmix mono des signaux Ce concept semble se rapprocher de celui deacutecrit en 422 mais une diffeacuterence fondamentale les seacutepare la confeacuterence audio spatialiseacutee nrsquoest pas codeacutee au format ambisonic mais les signaux traiteacutes sont directement les sons provenant des diffeacuterents locuteurs crsquoest-agrave-dire les sources elles-mecircmes Ainsi lrsquoanalyse ne porte plus sur une scegravene spatialiseacutee mais sur des signaux seacutepareacutes Il nrsquoy a ainsi plus drsquoindices spatiaux agrave trouver

Avoir accegraves aux sources permet drsquoobtenir des informations plus preacutecises pour

permettre une seacuteparation apregraves la transmission Comme nous lrsquoavons vu lrsquoanalyse drsquoune scegravene spatialiseacutee ne permet que dans drsquoultimes cas agrave la seacuteparation des sources ce qui est ici notre point de deacutepart et sera en fait notre point drsquoarriveacutee En effet nous tenterons de retrouver les sources seacutepareacutees apregraves la transmission de maniegravere agrave pouvoir par la suite les spatialiser agrave loisir (voir Figure 413)

Chapitre 4 Reacutesultats et applications 40

442 Solution proposeacutee Les paramegravetres extraits ne sont donc plus des positions de sources Nous avons

choisi de mesurer puis transmettre lrsquoeacutenergie de chaque signal dans chaque sous-bande en parallegravele du downmix En effet une bonne seacuteparation sera possible si lrsquoon sait quelle proportion de chaque source compose chaque sous-bande du signal mono

Figure 412 - Scheacutema de principe drsquoune confeacuterence audio spatialiseacutee

Figure 413 - Scheacutema ameacutelioreacute (deacutebit reacuteduit)

en pointilleacutes informations compleacutementaires (eacutenergie) Lrsquoanalyse en sous-bandes a lieu dans le serveur (Figure 414) Celui-ci calcule

lrsquoeacutenergie de chaque signal dans chaque sous-bande sur une trame donneacutee Crsquoest ce paramegravetre qui associeacute au signal mono M permettra la seacuteparation des sources dans le terminal (Figure 415) Ce dernier reacutepartira en effet les diffeacuterentes sous-bandes vers chaque signal reconstitueacute proportionnellement agrave cette information pour reconstruire les 4 sources originales

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee 41

Figure 414 - Analyse principe de lrsquoencodage dans le serveur

Figure 415 - Synthegravese principe du deacutecodage dans le client

Afin de reacuteduire au maximum les informations compleacutementaires agrave transmettre on

peut remarquer qursquoau cours drsquoune confeacuterence audio on a tregraves souvent un seul locuteur les participants ne parlent que tregraves rarement tous en mecircme temps Ceci implique que les signaux en entreacutee sont tregraves souvent tous nuls sauf 1 et appliquer un seuil en entreacutee de lrsquoanalyse permet outre lrsquoallegravegement du traitement drsquoavoir moins de paramegravetres agrave transmettre

Ce scheacutema simplifieacute ne tient pas compte des problegravemes de phase rien nrsquoindique

que les eacutenergies des signaux srsquoajoutent bien dans chaque sous-bande lors du downmix on peut tregraves bien avoir des oppositions de phase La solution est drsquoeffectuer le downmix (la somme) des signaux dans chaque sous-bande en prenant soin drsquoavoir recaleacute les phases au preacutealable Ceci nrsquoa un sens que pour des bandes suffisamment eacutetroites Les deacutecalages temporels appliqueacutes pour le recalage sont alors des paramegravetres suppleacutementaires agrave transmettre et sont pris en compte lors de la synthegravese au niveau du reacutepartiteur qui repositionnera la phase de chaque trame pour chaque signal

Chapitre 4 Reacutesultats et applications 42

443 Bilan Le reacutesultat du deacutecodage a pu ecirctre eacutecouteacute de diffeacuterentes maniegraveres les sources

reconstitueacutees individuellement ensemble en steacutereacuteo drsquoamplitude et sur un systegraveme 51 On note que les sources ont eacuteteacute assez bien seacutepareacutees mais que des artefacts sont audibles en particulier lorsque le nombre de locuteurs simultaneacutes augmentent Ces artefacts sont un meacutelange des voix qui nrsquoest gecircnant que lorsqursquoon les eacutecoute de maniegravere seacutepareacutee En effet lrsquoeacutecoute simultaneacutee de ces signaux syntheacutetiseacutes mecircme placeacutes agrave des positions distinctes sur un systegraveme de diffusion multicanal est tout agrave fait satisfaisante

Ce proceacutedeacute pour pouvoir ecirctre appliqueacute doit fonctionner en temps-reacuteel Cette

contrainte nrsquoa pas du tout eacuteteacute prise en compte lrsquoobjectif eacutetant de valider la faisabiliteacute drsquoune reconstruction Les programmes sous Matlab nrsquoont pas eacuteteacute optimiseacutes et ne respectent pas cette contrainte

43

Conclusion Nous avons preacutesenteacute dans ce rapport le principe et lrsquoapplication de plusieurs

meacutethodes drsquoanalyses spatiales de scegravenes ambisoniques conccedilues et reacutealiseacutee pendant le stage Le format HOA est en effet une repreacutesentation du champ acoustique deacutecomposeacute sur une base drsquoharmoniques spheacuteriques jusqursquoagrave un certain ordre agrave la maniegravere drsquoun deacuteveloppement limiteacute Il contient donc de maniegravere indirecte des indications spatiales qursquoon peut extraire avec des analyses comme lrsquoanalyse en composantes principales

Ces analyses nous permettent de deacuteterminer les positions des sources qui

composent la scegravene sonore Nous avons appliqueacute les reacutesultats de ces analyses agrave 2 types de synthegravese lrsquoune destineacutee aux transmissions bas deacutebit lrsquoautre agrave un traitement de restitution de la preacutecision spatiale dans le cas ougrave des ordres supeacuterieurs dont le but est drsquoaffiner la perception de localisation nrsquoauraient pas pu ecirctre transmis Ces algorithmes par le codage drsquoinformations spatiales qursquoils permettent pourront trouver bien drsquoautres applications dans la transmission et le codage ougrave la description du contenu est de plus en plus utiliseacutee (comme par exemple dans la norme MPEG)

Des ameacuteliorations sont possibles sur plusieurs points tout drsquoabord lrsquoexploitation

de toutes les composantes de lrsquoACP est agrave lrsquoeacutetude et semble pouvoir donner des reacutesultats inteacuteressants Drsquoautre part on a vu que le reacutesultat final est tregraves deacutependant de la bonne convergence de lrsquoalgorithme des k-moyennes utiliseacute pour traiter les donneacutees brutes de lrsquoanalyse en sous-bandes Or cet algorithme neacutecessite des reacuteglages tregraves fins et une connaissance a priori du nombre de sources est presque indispensable Drsquoautres algorithmes plus complexes de suivi de formes pourraient ecirctre avantageusement utiliseacutes pour deacutetecter dans tous les angles trouveacutes lesquels sont susceptibles de former une trajectoire

45

Annexe A

Deacuteveloppement du champ acoustique en harmoniques spheacuteriques

A1 Eacutequation drsquoonde en coordonneacutees spheacuteriques On se place dans lrsquoespace euclidien agrave 3 dimensions muni drsquoun systegraveme de

coordonneacutees spheacuteriques Un point M y est repeacutereacute par son rayon r son azimut θ et son eacuteleacutevation δ tels que repreacutesenteacutes sur la figure ci-dessous

- r est la norme du vecteur position rr crsquoest-agrave-dire la distance OM - [20[ πθ isin est lrsquoangle formeacute par le projeteacute du point sur le plan xOy et lrsquoaxe Ox

- ]2

2

[ ππδ minusisin est lrsquoangle formeacute par le plan xOy et le vecteur position2

Figure A1 - Systegraveme de coordonneacutees spheacuteriques

2 Cet angle diffegravere de lrsquoangle polaire usuel δπϕ minus=

2 habituellement pris entre lrsquoaxe Oz et le

vecteur position

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 46

Les relations entre les coordonneacutees spheacuteriques et les coordonneacutees carteacutesiennes sont

⎪⎩

⎪⎨

===

δδθδθ

sincossincoscos

zryrx

(A1)

On srsquointeacuteresse dans ce repegravere agrave lrsquoeacutequation de propagation des ondes acoustiques

de pression On se place dans les conditions classiques drsquoacoustique lineacuteaire (les variations de p sont petites par rapport agrave la pression atmospheacuterique) en supposant que lrsquoair est un fluide parfait (on y neacutegligera les pheacutenomegravenes dissipatifs) Dans une reacutegion de lrsquoespace ne comprenant pas de sources lrsquoeacutequation drsquoonde srsquoeacutecrit alors

0)(12

2

2 =⎟⎟⎠

⎞⎜⎜⎝

⎛partpart

minus∆ trptc

r (A2)

p eacutetant la pression et c la vitesse de propagation du son dans lrsquoair

Cette eacutequation devient dans le domaine freacutequentiel lrsquoeacutequation de Helmholtz

( ) 0)(2 =+∆ ωrpk r (A3)

ck ω

= eacutetant le nombre drsquoonde

En coordonneacutees spheacuteriques cette eacutequation srsquoeacutecrit

0sin1sin

sin11 2

2

2

222

2 =⎥⎦

⎤⎢⎣

⎡+

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart pk

rrrr

rr δθθθ

θθ (A4)

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques Drsquoapregraves [Bruneau 1983] elle admet des solutions agrave variables seacutepareacutees de la forme

)()()( δθ ΦΘ= rRp (A5) Ces solutions sont respectivement - pour la partie radiale une combinaison des fonctions de Bessel spheacuteriques de

premiegravere et seconde espegravece3 jn et nn

)()()( krBnkrAjrR nn += (A6) 3 Les fonctions de Bessel spheacuteriques de seconde espegravece sont eacutegalement appeleacutees fonctions de

Neumann

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 47

Ces fonctions sont deacutefinies comme suit

(A7)

Figure A2 - Fonctions de Bessel spheacuteriques pour les ordres 0 agrave 5 )(krjm

- pour la partie azimutale les fonctions )(θΘ

)sin()cos()( 21 θθθ ncnc +=Θ (A8) Eacutetant donneacute la deacutefinition de lrsquoangle Θ celui-ci doit neacutecessairement ecirctre de

peacuteriode 2π ))2()(( πθθ +Θ=Θ ce qui impose agrave n drsquoecirctre entier

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 48

- pour la partie polaire les fonctions de Legendre associeacutees )(sinδmnP

nm

nn

mn dPdP

)(sin)(sinsin)(sin

δδ

δδ = pour ⎩⎨⎧

gt=

nmavecnm 321

(A9)

ougrave les )(sinδnP sont les polynocircmes de Legendre de degreacute n en δsin deacutefinis par reacutecurrence

( )

11

22

1

0

sin)12()(sin)1(

1cos321)(sin

sin)(sin0)(sin

minus+ minus+=+

minus=

==

mmm mPPmPmet

P

PP

δδ

ϕδ

δδδ

(A10)

et de formule geacuteneacuterale

mm

m

mm dd

mP )1(sin

)(sin21)(sin 2 minus= δ

δδ (A11)

On peut appliquer aux fonctions )(sinδmnP la semi-normalisation de Schmidt

)(sin)()()(sin~ δεδ mnnmn P

nmnmP

+minus

= ougrave 10 =ε et 2=nε pour 1gen (A12)

En appariant les fonctions polaires et azimutales on deacutefinit les harmoniques

spheacuteriques de degreacute et drsquoordre)1(mnY 0gem 4 mnn lele0 et de degreacute et

drsquoordre (voir Figure A3)

)1(minusmnY 1gem

mnn lele1

)(sin~)sin()(

)(sin~)cos()()1(

)1(

δθδθ

δθδθ

mnmn

mnmn

PnY

PnY

=

=minus

(A13)

4 En geacuteneacuteral lorsque le degreacute et lrsquoordre ne sont pas eacutevoqueacutes conjointement on parle par abus de langage drsquoharmoniques drsquoordre m plutocirct que de degreacute m

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 49

soit

1)(sin

)()()12(2sin)(

)(sin)()()12(2cos)(

1)(sin)1()1()12(cos)(

)1(

)1(

1)1(

1

gt

⎪⎪⎩

⎪⎪⎨

+minus

+=

+minus

+=

=+minus

+=

minus

npourP

nmnmmnY

PnmnmmnY

npourPmmmY

mnmn

mnmn

mm

δθδθ

δθδθ

δθδθ

(A14)

La solution angulaire geacuteneacuterale srsquoeacutecrit alors sous la forme drsquoun deacuteveloppement sur

la base drsquoharmoniques spheacuteriques

( ) ( )sum minus

=minus+=Θ

1

1)1()1()( n

m mnmnmnmnn YBYBθ (A15) La solution geacuteneacuterale est alors la seacuterie de Fourier-Bessel

sum sum sum+infin

= = plusmn=

=0 0 1

)()( )()()(m

m

nmnmnm

m YBkrjikrpσ

σσ δθδθ (A16)

ougrave

intint⎪⎩

⎪⎨⎧

minusisin

isin

plusmnplusmn =

]2

2

[

[20[

)1()1( )()1()(

1

ππδ

πθ

δθδθ

S

mnm

mmn dSYpkrji

B (A17)

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 50

Tableau A1 - Expressions analytiques des harmoniques spheacuteriques pour les ordres 0 agrave 3

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 51

Figure A3 - Repreacutesentation des harmoniques spheacuteriques pour les ordres m = 0 agrave 3 Les

couleurs rouge et bleu indiquent respectivement des valeurs positives et neacutegatives

53

Annexe B

Compleacutements theacuteoriques sur le deacutecodage HOA

B1 Vecteur veacutelociteacute et vecteur eacutenergie Le vecteur veacutelociteacute est un indice de la direction apparente drsquoune source introduit

par Gerzon [Gerzon 1992] Il se calcule comme le rapport de la vitesse particulaire sur la pression acoustique

)()(

)()(1

δθδθ

δθδθ

ρ rprp

ki

rprv

cV nabla

minus=minus=rrr

(B1)

Dans le cas drsquoune onde plane le vecteur veacutelociteacute V

rest ainsi directement un

vecteur unitaire orienteacute vers la direction de provenance de lrsquoonde En geacuteneacuteralisant agrave une superposition drsquoondes planes en phase ou opposition de phase eacutemises par L haut-parleurs agrave eacutequidistance du point drsquoobservation on obtient la formule suivante

VVL

ll

L

lll

urg

ugV r

rr

==

sum

sum

=

=

1

1 (B2)

ougrave deacutesigne la direction du llur egraveme haut-parleur auquel est associeacute le gain gl et Vr Vur correspondent respectivement agrave la norme et agrave la direction du vecteur veacutelociteacute

Le vecteur eacutenergie est un autre indice de direction Il est deacutefinit par

EEL

ll

L

lll

urg

ugE r

rr

==

sum

sum

=

=

1

2

1

2

(B3)

Annexe B Compleacutements theacuteoriques sur le deacutecodage HOA 54

Il peut srsquointerpreacuteter comme une indication de la concentration de lrsquoeacutenergie ( ) et de sa direction moyenne de provenance (

Er

Eur ) On a toujours 1ltEr sauf dans le cas ougrave un seul haut-parleur contribue agrave la reconstruction (dans ce cas ) peut ecirctre consideacutereacute comme un indicateur de preacutecision de la localisation

1=Er Er

B2 Deacutecodages optimiseacutes La restitution la plus confortable drsquoun champ sonore veillera donc agrave maximiser

tout en essayant de garder le plus proche possible de 1 Lrsquooptimisation du deacutecodage consiste alors agrave multiplier chaque coefficient de la matrice de deacutecodage D (voir (111) par des gains calculeacutes drsquoapregraves des critegraveres drsquooptimisation

Er Vr

Ainsi le deacutecodage appeleacute max- maximise la norme du vecteur eacutenergie en

sacrifiant celle du vecteur veacutelociteacute puisqursquoon a dans ce deacutecodage (pour des configurations reacuteguliegraveres de haut-parleurs) Ce deacutecodage est donc avantageux par rapport au deacutecodage basique pour les hautes freacutequences ou dans le cas drsquoun auditoire eacutelargi Le deacutecodage in-phase va encore plus loin en cherchant agrave annuler complegravetement les contributions des haut-parleurs placeacutes agrave lrsquoopposeacute de la direction de provenance de lrsquoonde reproduite Ce critegravere est utile dans le cas drsquoune eacutecoute dans une position tregraves excentreacutee agrave laquelle on pourrait percevoir de faccedilon preacutedominante la contribution en opposition de phase drsquoun tel haut-parleur

Er

EV rr =

Ces diffeacuterents deacutecodages ont chacun des avantages et inconveacutenients Ainsi seul le

deacutecodage basique garantit = 1 le deacutecodage max- permet une preacutecision meilleure notamment en haute freacutequence et le deacutecodage in-phase est plus adapteacute agrave un auditoire plus large Jeacuterocircme Daniel [Daniel 2000] propose ainsi de changer le deacutecodage en fonction de la freacutequence et de lrsquoeacutetendue de la zone drsquoeacutecoute deacutesireacutee

Vr Er

Figure B1 - Deacutecodages les plus approprieacutes par sous-bande et en fonction de lrsquoeacutetendue de la

zone drsquoeacutecoute [Daniel 2000]

55

Annexe C

Analyse en composantes principales

C1 Espace des donneacutees Eacutegalement souvent appeleacutee transformeacutee de Karhunen-Loegraveve5 (TKL) lrsquoanalyse en

composantes principales (ACP) est une technique statistique de repreacutesentation drsquoinformation Introduite sur 2 variables par Pearson [Pearson 1900] elle a eacuteteacute eacutetendue par Hotelling [Hotelling 1933] Elle a pour but de caracteacuteriser des donneacutees drsquoun espace agrave N dimensions dans un sous-espace plus petit en minimisant les pertes drsquoinformation due agrave la projection crsquoest-agrave-dire en maximisant la variance projeteacutee Les donneacutees ainsi reacuteorganiseacutees deviennent indeacutependantes Les variables correacuteleacutees sont remplaceacutees par de nouvelles variables deacutecorreacuteleacutees et de variance maximale combinaisons lineacuteaires des variables initiales

Les donneacutees sont constitueacutees de n variables aleacuteatoires (dans notre cas des canaux)

et p reacutealisations ou individus (des eacutechantillons)

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

pn

p

ji

n

xx

x

xx

M

LLL

MOMNM

MLLM

MNMOM

LLL

1

111

(C1)

Ces donneacutees sont geacuteneacuteralement centreacutees et peuvent aussi ecirctre reacuteduites4 (on note

1x la moyenne de la variable et 1x )( 1xσ sa variance) Reacuteduire ou non le nuage de points (ie les p reacutealisations de la variable aleacuteatoire) est un choix de modegravele

5 Quelques rares sources mentionnent une diffeacuterence entre ACP et TKL en placcedilant celle-ci au

niveau du choix de la reacuteduction des donneacutees dans le cas dune ACP les donneacutees seraient centreacutees et reacuteduites alors qursquoelles seraient uniquement centreacutees pour une TKL

Annexe C Analyse en composantes principales 56

- si on ne reacuteduit pas le nuage une variable agrave forte variance pourrait tirer tout lrsquoeffet de lrsquoACP agrave elle

- si on reacuteduit le nuage une variable qui ne serait qursquoun bruit se retrouverait avec une variance apparente eacutegale agrave une variable informative

M est centreacutee

⎥⎥⎥

⎢⎢⎢

minusminusminus

minusminus=

npn

pi

ji

nn

xxxxxx

xxxxM

K

MM

K

11

11

11

ˆ (C2)

M~ est centreacutee et reacuteduite

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

minusminus

minus

minusminus

=

)()(

)(

)()(~

1

11

1

1

111

n

npn

pi

ij

i

n

nn

xxx

xxx

xxx

xxx

xxx

M

σσ

σ

σσ

K

MM

K

(C3)

On multiplie ensuite la matrice obtenue par sa transposeacutee pour obtenir - La matrice de covariance MMC t

vˆˆ sdot=

- La matrice de correacutelation MMC tr

~~ sdot= Ces matrices sont carreacutees (N x N) symeacutetriques et reacuteelles Elles sont donc

diagonalisables dans une base orthonormeacutee 6 Le principe de lrsquoACP est alors de trouver un axe u issu drsquoune combinaison lineacuteaire

des tel que le critegravere drsquoinertie du nuage autour de cet axe soit maximal Le critegravere drsquoinertie couramment utiliseacute est la variance Il faut donc trouver lrsquoaxe qui porte le maximum de variance crsquoest-agrave-dire lrsquoaxe u tel que la projection du nuage sur cet axe ait une variance maximale

nx

6 Nos donneacutees eacutetant ici des valeurs drsquoeacutechantillons elles sont par nature centreacutees et reacuteduites On

formera donc naturellement la matrice de correacutelation

C2 Diagonalisation 57

C2 Diagonalisation Pour alleacuteger lrsquoeacutecriture de la suite de cette partie nous consideacutererons que les

variables ont eacuteteacute centreacutees et si besoin reacuteduites et nous noterons ces variables

transformeacutees (ainsi

ix ix

iii xxx minuslarr ou bien )( i

iii x

xxxσ

minuslarr ) On fera de mecircme pour M

( ou bien MM ˆlarr MM ~larr ) et C ( vCC larr ou bien rCC larr ) La projection drsquoun eacutechantillon sur un axe u srsquoeacutecrit ix

uMxiu sdot=)(π (C4) La variance empirique de )( iu xπ vaut donc

uMMuxx ttiu

tiu sdotsdotsdot=sdot )()( ππ (C5)

Or on a vu que est diagonalisable dans une base orthonormeacutee donc

on peut noter P le changement de base associeacute et ∆ la matrice diagonale formeacutee de son spectre Ainsi

MMC t=

n

i 1)(λ PPMMC tt ∆==

)()()()( PuPuuPPuxx ttt

iut

iu sdot∆sdot=sdot∆sdot=sdotππ (C6) On pose v = Pu Chercher lrsquoaxe u qui maximise )( iu xπ revient donc agrave chercher le

vecteur v qui maximise ougravevvt ∆ )( 1 ndiag λλ K=∆ avec les iλ rangeacutes par ordre deacutecroissant Ce vecteur est trivialement le premier vecteur unitaire et on a alors

1λ=∆vvt

Ainsi le vecteur qui porte la plus grande part drsquoinertie du nuage est le premier

vecteur propre de C (premier par norme deacutecroissante) De mecircme le deuxiegraveme vecteur qui explique la plus grandelt part de lrsquoinertie restante est le deuxiegraveme vecteur propre de C Finalement la question de lrsquoACP se ramegravene agrave un problegraveme de diagonalisation de la matrice de correacutelation

C3 Code Matlab

function [vep vap] = pca(f N) f donneacutees N nombre de composantes agrave garder cor = f f formation de la matrice de correacutelation [vep vap] = eig(cor) calcul des vecteurs (vep) et valeurs (vap) propres [vap ind] = sort(diag(vap)) tri des valeurs propres par ordre croissant vap = flipud(vap) disposition inverse par ordre drsquoimportance vep = vep( flipud(ind)) classement en conseacutequence des vecteurs propres vep = vep( 1N) on ne garde que les N premiers vecteurs propres

Annexe C Analyse en composantes principales 58

59

Annexe D

Analyse en sous-bandes

D1 La transformeacutee de Fourier agrave court terme (TFCT) Pour affiner lrsquoanalyse les signaux sont donc deacutecoupeacutes en bandes de freacutequence par

TFCT La TFCT consiste agrave effectuer des transformeacutees de Fourier discregravetes sur des portions de signal fenecirctreacutees reacuteguliegraverement espaceacutees

On rappelle que la transformeacutee de Fourier drsquoun signal x(t) est deacutefinie (lorsque

lrsquointeacutegrale existe) par

int+infin

infinminus

minus= dtetxfX ftiπ2)()( (D1)

La transformeacutee de Fourier agrave temps discret (TFTD) drsquoun signal x(t) srsquoeacutecrit

sum+infin

minusinfin=

minus=n

fnienxfX π2)()( (D2)

La transformeacutee de Fourier discregravete (TFD) drsquoun signal discret x(k) est deacutefinie par

sum+infin

minusinfin=

minus=

n

Nkni

enxkXπ2

)()( (D3)

La TFCT discregravete est une TFD observeacutee sur une fenecirctre wa de taille N

summinus

=

minus+=

1

0

2)())(()(

N

n

Nnki

aaa enwtnxkXπ

ττ (D4)

ougrave )(taτ est lrsquoinstant drsquoanalyse

Annexe D Analyse en sous-bandes 60

Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT [Laroche 1995]

D2 Synthegravese par addition-recouvrement Lors de la synthegravese apregraves le deacutecoupage et lrsquoanalyse des fenecirctres on cherche agrave

reconstruire le signal temporel agrave partir de sa repreacutesentation freacutequentielle Pour cela on utilise la meacutethode OLA (overlap and add addition-recouvrement) qui consiste agrave prendre la TFCT inverse des spectres Xt puis agrave additionner les signaux obtenus apregraves les avoir multiplieacutes par une fenecirctre de pondeacuteration en les faisant se recouvrir partiellement

Le reacutesultat est donneacute par

sum=

minusminus=T

tsss tnxtnwnx

s1

))((~))(()(~ ττ τ (D5)

avec )()( tt as ττ = et summinus

=

=1

0

2))((~1)(~ N

k

Nkni

s ektXN

nxs

π

τ τ

Lors de la mise en œuvre de ce traitement il faut srsquoassurer drsquoecirctre en mesure de

reconstruire parfaitement un signal lorsqursquoaucune transformation ne lui est appliqueacutee Le critegravere de reconstruction parfaite condition suffisante est alors

sum=

=minusminusT

tasaa tnwtnw

11))(())(( ττ quelque soit n (D6)

D2 Synthegravese par addition-recouvrement 61

Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add [Laroche 1995]

Plusieurs paramegravetres sont agrave choisir avec soin Le premier drsquoentre eux est le type

de fenecirctre agrave utiliser Les diffeacuterentes options qui se preacutesentent agrave nous sont - la fenecirctre rectangulaire qui preacutesente dans son spectre le lobe principal le plus

eacutetroit mais des lobes secondaires non neacutegligeables - la fenecirctre de Hamming au lobe principal un peu plus large mais pour laquelle le

1er lobe secondaire se situe agrave -43 dB - la fenecirctre de Hann (ou cosinus sureacuteleveacute) qui ressemble agrave la preacuteceacutedente avec un

1er lobe secondaire plus fort mais une pente de 18 dB par octave pour les lobes suivants

- les fenecirctres de Blackman-Harris aux lobes secondaires tregraves bas mais au lobe principal plus large

Fenecirctre Lobe 2aire

(dB) Pente

(dBoct) Bande passante

agrave 6 dB (bins) Rectangulaire -13 -6 121 Triangulaire -27 -12 178

Hann -32 -18 200 Hamming -43 -6 181

Blackman-Harris 4 -92 -6 272

Tableau D1 - Caracteacuteristiques des principales fenecirctres drsquoanalyse [Harris 1978] Le meilleur compromis est donc dans notre contexte la fenecirctre de Hann ou celle

de Hamming

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 30: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

Chapitre 3 Description des analyses 24

La premiegravere consiste agrave appliquer une ACP agrave 3 dimensions successivement sur les composantes X Y W (ordre 1 et 0) puis U V W (ordre 2 et 0) et ainsi de suite crsquoest-agrave-dire (en utilisant la notation geacuteneacuterale) sur les composantes et W (ordre m et 0) Les reacutesultats de ces analyses (les directions des 1

)1(0mY )1(

0minus

mYegraveres composantes) sont ensuite regroupeacutees

lrsquoanalyse de lrsquoordre 1 fournissant des reacutesultats modulo 2π lrsquoanalyse de lrsquoordre 2 des reacutesultats plus preacutecis mais modulo π et plus geacuteneacuteralement lrsquoanalyse de lrsquoordre m permettant de trouver des angles modulo mπ2

La limite de cette approche se perccediloit lors de la fusion des reacutesultats les angles

trouveacutes agrave un ordre eacuteleveacute sont plus preacutecis dans des bandes de freacutequences eacuteleveacutees mais la limitation theacuteorique de ces signaux HOA dans les basses freacutequences font que lrsquoanalyse de lrsquoordre 1 reste la plus pertinente dans les premiegraveres bandes Parvenir agrave deacuteterminer agrave partir de quelle freacutequence on peut faire davantage confiance agrave lrsquoordre n+1 qursquoagrave lrsquoordre n nrsquoest pas aiseacute et cette limite provoque des aberrations dans les angles trouveacutes Une source unique pourra par exemple ecirctre interpreacuteteacutee par lrsquoalgorithme des k-moyennes (voir 341) comme 2 sources une en hautes freacutequences et une en basses freacutequences les 2 eacutetant trouveacutes agrave 2 angles diffeacuterents chaque angle relevant drsquoun ordre analyseacute diffeacuterent

La deuxiegraveme meacutethode consiste pour eacuteviter cette fusion des reacutesultats agrave effectuer

une seule ACP sur les composantes U V X Y et W Cette meacutethode souffre drsquoune tregraves grande complexiteacute algorithmique pour une ameacutelioration de la preacutecision peu sensible En effet si cette meacutethode permet drsquoobtenir des reacutesultats plus preacutecis dans certaines bandes de freacutequences elle est sensible aux deacutefauts et les limites des ordres supeacuterieurs (lrsquoabsence de basses freacutequences entre autres) perturbent lrsquoanalyse en composantes principales

332 Illustration sur une scegravene virtuelle La scegravene preacutesenteacutee ici est une scegravene artificielle crsquoest-agrave-dire composeacutee de sons

placeacutes artificiellement agrave diverses positions Elle a une dureacutee totale de 135 s et comporte 4 sources positionneacutees dans le plan horizontal une guitare placeacutee agrave 45deg une basse agrave -70deg une batterie agrave 110deg et une voix feacuteminine qui effectue continucircment un tour complet dans le sens indirect en partant de lrsquoarriegravere (elle passe donc successivement par les positions 180deg 90deg 0deg -90deg et -180deg) La guitare et la batterie srsquoarrecirctent peu avant la fin de la scegravene (12egraveme seconde au 910egraveme du son approximativement)

Figure 33 - Position des sources de la scegravene de test agrave 4 sources dont 1 mobile

33 Analyse aux ordres supeacuterieurs 25

Figure 34 - Angles drsquoune scegravene virtuelle ayant 1 source mobile et 3 sources fixes

(deacutecrite en 332) trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 Pour chaque trame (en abscisse) 20 angles (1 par bande en ordonneacutee et en degreacutes) sont

reporteacutes le diamegravetre du point correspondant agrave un critegravere de pertinence (voir 342)

Figure 35 - Angles de la mecircme scegravene trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 2 Reacutesultats modulo π reacutepliqueacutes pour faciliter la comparaison avec la figure preacuteceacutedente On remarque que les lignes sont plus nettes qursquoil y a moins drsquoangles aberrants et que

les angles corrects sont plus marqueacutes (ils sont deacutetermineacutes comme plus pertinent)

Chapitre 3 Description des analyses 26

20

0

20

0

20

0

Figure 36 - Angles drsquoune scegravene reacuteelle constitueacutee drsquoun bruit parcourant le cercle trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 (en haut) 0 et 2 (au milieu) et 0 et 4 (en bas) Le

numeacutero de trame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On retrouve qursquoune limitation des ordres HOA supeacuterieurs issus drsquoun enregistrement

microphonique est la restitution des basses freacutequences

34 Traitement des donneacutees

341 Algorithme des k-moyennes Agrave lrsquoissue de lrsquoanalyse en composantes principales on reacutecupegravere avec la premiegravere

des meacutethodes exposeacutees au chapitre preacuteceacutedent des angles correspondants aux positions des sources preacutedominantes agrave raison drsquoune valeur par fenecirctre et par bande de freacutequence Il faut agrave partir de ces donneacutees parvenir agrave isoler les sources crsquoest-agrave-dire agrave deacuteterminer quels sont les angles pertinents et examiner quels sont ceux qui agrave une certaine toleacuterance pregraves sont preacutesents dans plusieurs bandes de freacutequence etou plusieurs fenecirctres temporelles

Pour pouvoir exploiter ces donneacutees spatiales nous avons utiliseacute lrsquoalgorithme des

k-moyennes (ou k-means) [MacQueen 1967] sur les angles pondeacutereacutes par des critegraveres de pertinence Cet algorithme fonctionne de la maniegravere suivante

Initialisation choix de k barycentres (les k moyennes) Reacutepeacuteter Associer chaque eacuteleacutement au barycentre le plus proche Recalculer les positions des barycentres Jusqursquoagrave ce que les barycentres soient stables (ou au bout de t iteacuterations)

34 Traitement des donneacutees 27

Lrsquoavantage de cet algorithme est drsquoecirctre peu glouton puisqursquoil converge en O(tkn) ougrave t est le nombre drsquoiteacuterations k le nombre de centres et n le nombre de points (geacuteneacuteralement on a t k ltlt n) Par contre il est plutocirct sensible aux exceptions un point aberrant tirera agrave lui la moyenne auquel il aura eacuteteacute associeacute Il faut donc faire en sorte que ces points erroneacutes soient aussi rares que possibles Crsquoest pourquoi les angles traiteacutes sont pondeacutereacutes par 2 critegraveres de pertinence

La pondeacuteration des angles fournis en entreacutee de lrsquoalgorithme des k-moyennes se

fait de maniegravere simple en reacutepeacutetant ces angles un nombre de fois (de 0 agrave 10) proportionnel agrave un critegravere Ainsi un angle tregraves pertinent sera dupliqueacute et sera preacutesent plusieurs fois dans la liste des donneacutees traiteacutees attirant ainsi agrave lui la position du barycentre le plus proche Au contraire un angle trop peu pertinent ne sera pas reacutepeacuteteacute voir mecircme sera enleveacute de la liste

Le seul problegraveme de cet algorithme est qursquoil neacutecessite la connaissance de k crsquoest-

agrave-dire du nombre de sources qui composent la scegravene Une deacutetermination automatique se basant sur la reacutepeacutetition de lrsquoalgorithme avec un k croissant a eacuteteacute testeacutee mais le critegravere drsquoarrecirct reposant sur la dispersion des points autour des barycentres nrsquoeacutetant pas assez robuste cette meacutethode a provisoirement eacuteteacute mise de cocircteacute

342 Critegraveres de pertinence Les 2 critegraveres de pondeacuteration choisis sont lrsquoeacutenergie de la sous-bande dans la

fenecirctre donneacutee et le rapport de la norme de la 1egravere composante (la composante principale) de lrsquoACP sur la somme des normes de toutes les composantes

En effet un angle est trouveacute dans chaque sous-bande de chaque fenecirctre mecircme si

le signal y est tregraves faible Lrsquoangle trouveacute sera alors tregraves peu repreacutesentatif de la direction drsquoune source puisqursquoil indiquera la direction drsquoun bruit Lrsquoeacutenergie doit donc ecirctre prise en compte pour ne conserver que les angles trouveacutes dans des bandes comportant un signal suffisant

La norme relative de la 1egravere composante de lrsquoACP rend quant agrave elle compte du

poids relatif de cette composante par rapport aux autres Ainsi si 2 sources sont preacutesentes dans une bande donneacutee la 1egravere composante sera agrave peine plus marqueacutee que la 2egraveme Ceci peut ecirctre calculeacute en prenant simplement le rapport de la 1egravere valeur propre sur la somme des valeurs propres

On peut noter que la norme de la 1egravere composante ne se deacutetache nettement que

lorsqursquoun son est preacutesent dans la bande consideacutereacutee On peut alors se demander si lrsquoeacutenergie doit ecirctre prise en compte ou si lrsquoinformation qursquoelle contient nrsquoest comprise dans le 2egraveme critegravere En fait la norme relative est un critegravere tregraves bruiteacute et consideacuterer lrsquoeacutenergie par ailleurs permet de nuancer ces artefacts et constitue une base solide de pondeacuteration

Chapitre 3 Description des analyses 28

80

40

0

Figure 37 - Repreacutesentation temps-freacutequence des angles du son deacutecrit en 332 Letrame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On peut donc v

par trame et par bande chacun eacutetant le reacutesultat drsquoune ACP crsquoest-agrave-dire la 1egravere

Figure 38 - Eacutenergie de ce mecircme son On peut voir une basse en notes tenues uneet une batterie qui produit des sons secs dans un spectre plus aigu

80

40

0

80

40

0

Figure 39 - Norme relative de la 1egravere composante de ce mecircme son Les impacts de batterie (dans lrsquoaigu) ressortent davantage

π 0 minusπ

numeacutero de oir un angle direction

voix aiguumle

34 Traitement des donneacutees 29

Figure 310 - Pondeacuteration appliqueacutee agrave lrsquoentreacutee des k-moyennes calculeacutee ici comme

le simple produit de lrsquoeacutenergie et de la norme relative

80

40

0

343 Lissages

Pour faire face au bruit ineacutevitable dans les reacutesultats il faut lisser les donneacutees Ces

lissages temporels correspondent agrave des hypothegraveses de stabiliteacute des sources qui sont supposeacutees ecirctre fixes ou mobiles relativement lentement (dans une mesure agrave parameacutetrer)

Un premier lissage peut ecirctre opeacutereacute avant le traitement par lrsquoalgorithme des k-

moyennes Le filtre choisi est un filtre meacutedian de maniegravere agrave eacuteliminer les points aberrants tout en conservant les vraies valeurs des points coheacuterents Ce lissage est appliqueacute sur chaque sous-bande aux angles et ne tient pas compte des critegraveres de pertinence Il est donc utiliseacute avec parcimonie et peut mecircme ecirctre eacuteviteacute en reacuteglant de maniegravere adeacutequate les critegraveres de pondeacuteration agrave lrsquoentreacutee des k-moyennes

Le deuxiegraveme lissage srsquoeffectue agrave lrsquoentreacutee des k-moyennes en mecircme temps que les

critegraveres de pondeacuteration Il consiste agrave appliquer les k-moyennes non pas sur une fenecirctre donneacutee mais sur plusieurs fenecirctres conseacutecutives anteacuterieures et posteacuterieures en donnant plus de poids agrave la fenecirctre courante Dans la pratique les poids donneacutes aux diffeacuterentes fenecirctres sont eacutetablis par une gaussienne centreacutee sur la fenecirctre courante et de largeur agrave deacuteterminer (en fonction notamment de la dureacutee drsquoune fenecirctre et du type de scegravene analyseacute)

35 Exploitation de toutes les composantes de lrsquoACP Les analyses preacutesenteacutees preacuteceacutedemment ont toutes exploiteacute uniquement la

composante principale extraite par lrsquoACP Or cette analyse fournit des informations plus complegravetes par lrsquointermeacutediaire des autres composantes dont on peut tirer parti pour isoler plusieurs sources au sein drsquoune mecircme bande Cette approche est toujours en deacuteveloppement dans ce stage et nrsquoa pas encore donneacute pleine mesure des reacutesultats qursquoelle laisse entrevoir

Les composantes de lrsquoACP indiquent des directions qui correspondent aux

diffeacuterentes sources composant la scegravene sonore Les vecteurs propres de la matrice de correacutelation donnent ainsi les combinaisons lineacuteaires des signaux HOA permettant de

Chapitre 3 Description des analyses 30

seacuteparer de la meilleure faccedilon possible ces sons Ces directions peuvent ecirctre alors utiliseacutees pour former des directiviteacutes isolant au mieux ces sources

aBS sdot= (31)

ougrave la matrice a contient les vecteurs propres de la matrice de correacutelation (voir Annexe C) le vecteur B contient les signaux HOA et le vecteur S contient les sources extraites

⎟⎟⎟

⎜⎜⎜

=⎟⎟⎟

⎜⎜⎜

⎛=

⎥⎥⎥

⎢⎢⎢

⎟⎟⎟

⎜⎜⎜

⎟⎟⎟

⎜⎜⎜

⎛=

10

1001

1

ML

N

B

BB

S

SSuua MML (32)

On obtient ainsi des lobes drsquoautant plus eacutetroits que lrsquoordre est eacuteleveacute chacun

dirigeacute vers une source et permettant de lrsquoisoler le plus possible des contributions des autres sources La Figure 311 preacutesente les directiviteacutes ainsi trouveacutees par une ACP en pleine bande Une analyse en sous-bande permet une plus grande distinction des sources mais une seacuteparation diffeacuterente entre les bandes est dangereuse car elle risque de dissocier spatialement plusieurs parties drsquoun mecircme son

Figure 311 - Directiviteacutes seacuteparant ideacutealement 4 sources placeacutees agrave 17 73 195 et -58deg

pour une scegravene virtuelle encodeacutee agrave lrsquoordre 4 Ce principe se heurte neacuteanmoins aux limites de seacuteparation lieacutees agrave lrsquoordre

drsquoencodage en effet 2 sources ne pourront pas ecirctre seacutepareacutees si elles sont trop proches comme en teacutemoigne la largeur des lobes principaux Les lobes secondaires traduisent eacutegalement un meacutelange des sources isoleacutees La figure ci-dessus montre ainsi que la source placeacutee agrave 17deg (en vert) sera preacutesente de maniegravere non neacutegligeable dans le signal senseacute contenir la source placeacutee agrave -58deg (en bleu) en raison du lobe secondaire bleu important

31

Chapitre 4

Reacutesultats et applications

41 Illustration et critique des reacutesultats obtenus

411 Avant-propos Sans notification particuliegravere les reacutesultats preacutesenteacutes ont eacuteteacute obtenus avec un pas

de 50 ms une analyse en 80 bandes avec une FFT sur 8192 points Une taille de FTT plus grande et un plus grand nombre de bande augmente la qualiteacute de lrsquoanalyse un pas plus petit ameacuteliore sa preacutecision temporelle mais les reacutesultats sont moins fiables et un lissage plus important srsquoimpose alors Ces paramegravetres ont eacuteteacute reacutegleacutes apregraves de multiples essais sur des scegravenes diverses

Les reacutesultats sont preacutesenteacutes ici uniquement sous la forme de graphiques nous ne

pouvons donc repreacutesenter que les angles trouveacutes agrave la sortie de lrsquoalgorithme des k-moyennes

412 Scegravene 2D artificielle agrave 4 sources fixes La premiegravere scegravene est une scegravene artificielle composeacutee de 4 sons fixes placeacutes agrave -70

-10 45 et 110deg Ces sons (une basse une voix une guitare et une batterie) ont eacuteteacute choisis pour leur varieacuteteacute spectrale et leur varieacuteteacute drsquoattaque Elle a en outre le meacuterite drsquoecirctre reacutealiste et de constituer une seacutequence musicale (chaque son nrsquoest pas une meacutelodie indeacutependante)

On voit sur la Figure 41 ci-dessous que les angles trouveacutes sont proches des

angles theacuteoriques Lrsquoun des sons (agrave 45deg) est quasiment nul avant la 100egraveme trame sa position est alors moins facile agrave deacuteterminer plus preacuteciseacutement une position approximative est trouveacutee et correspondrait exactement agrave la position du bruit (45deg) si lrsquoincertitude de mesure tregraves grande pour un son aussi faible ne rendait la deacutetermination si ardue On mesure un eacutecart-type de 22deg sur cet exemple (en excluant le deacutebut du son agrave 45deg)

Chapitre 4 Reacutesultats et applications 32

Figure 41 - Angles theacuteoriques (en pointilleacutes rouge) et calculeacutes (en trait bleu) pour une scegravene

constitueacutee de 4 sons fixes longue de 11s

413 Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile

Figure 42 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) de la scegravene agrave

4 sources dont 1 mobile deacutecrite en 332 Cette scegravene est deacutecrite en 332 On a ici demandeacute aux k-moyennes de renvoyer 5 barycentres par trame alors que

seules 4 sources eacutetaient preacutesentes dans le but de se garantir une marge vis-agrave-vis des erreurs de deacutetection Cette 5egraveme direction nrsquoest pas du tout gecircnante elle indique une direction qui ne contient pas de source et crsquoest donc un son tregraves faible qui est ainsi pointeacute Apregraves une eacuteventuelle extraction le signal ne sera donc pas du tout gecircnant

41 Illustration et critique des reacutesultats obtenus 33

On peut remarquer que quand le son mobile se rapproche drsquoun son fixe la deacutetection est moins bonne il y a une fusion entre les 2 sons Mais encore une fois lors de lrsquoextraction lrsquoisolation drsquoun des sons englobera lrsquoautre son ce qui ne posera pas de problegraveme pour les objectifs fixeacutes aucune source nrsquoeacutetant oublieacutee En effet la seacuteparation de sources nrsquoest pas un objectif ici mais un moyen pour preacuteciser les positions des sources ce qui sera fait correctement mecircme si 2 sources sont pointeacutees par 1 seule direction

414 Scegravene 3D artificielle agrave une source et bruit de fond

La scegravene dont la position drsquoune source a eacuteteacute extraite ci-dessous est une scegravene virtuelle en 3D constitueacute drsquoun son (une voix) qursquoon a fait se deacuteplacer par paliers tout drsquoabord vers le haut de 0deg agrave 45deg et vers la gauche de 0deg agrave 90deg puis redescendre jusqursquoagrave 35deg en continuant son cheminement vers la gauche jusqursquoagrave 120deg et enfin finir la descente de 35deg agrave 0deg en la laissant agrave 120deg Agrave cette source a eacuteteacute superposeacutee une ambiance spatialiseacutee de hall drsquoaeacuteroport initialement enregistreacutee en 2D (au format 51) mais transformeacutee pour contenir des composantes verticales Cette ambiance deacutecorreleacutee de la source avait pour but de tester la robustesse de lrsquoanalyse Elle eacutetait agrave 15 dB en-dessous du niveau de la voix

Figure 43 - Azimut et eacuteleacutevation theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun

son en 3D artificiel de 9s placeacute dans une ambiance bruyante On remarque que lrsquoanalyse est tregraves correcte Il nrsquoy a pas drsquoeacutecart important entre

les angles theacuteoriques et ceux calculeacutes On note toutefois que le lissage agrave lrsquoentreacutee des k-moyennes a pour effet de gommer les creacuteneaux et drsquoaplatir quelque peu la courbe drsquoeacuteleacutevation ceci nrsquoest pas vraiment gecircnant car de tels sauts dans la position drsquoune source ne sont pas du tout reacutealistes (ils peuvent caracteacuteriser des bruits de pas mais de tels impacts sont courts et on peut srsquoattendre agrave ce que la courbe suive leur position aux instants ougrave ils sont eacutemis)

Chapitre 4 Reacutesultats et applications 34

415 Scegravene 2D naturelle agrave une source Les scegravenes naturelles sont on lrsquoa vu plus deacutelicates agrave exploiter car on ne peut pas

garantir la preacutecision de la position theacuteorique agrave retrouver par le calcul et on ne peut donc pas calculer la preacutecision de lrsquoanalyse Seuls les enregistrements utilisant la table tournante (voir 232) permettent une mesure preacutecise de la position de lrsquoangle Ces enregistrements on pu confirmer la validiteacute de lrsquoanalyse pour des scegravenes reacuteelles on trouve ici un eacutecart-type de 25deg

Figure 44 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun bruit blanc

tournant autour du micro enregistreacute en chambre sourde Cette analyse a eacuteteacute reacutealiseacutee par sous-bandes mais sur une eacutetendue freacutequentielle

plus reacuteduite puisqursquoon srsquoest limiteacute aux possibiliteacutes offertes par le microphone La scegravene a donc eacuteteacute analyseacutee de 200 agrave 10 000 Hz

42 Quelques applications

421 Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre 2 agrave partir de lrsquoordre 1

Une fois les positions des sources connues la porte est ouverte agrave de nombreuses

applications La connaissance de ces positions permet en effet de syntheacutetiser artificiellement des composantes manquantes ou non transmises La premiegravere synthegravese deacuteveloppeacutee est celle des signaux U et V composant la partie horizontale de lrsquoordre 2 agrave partir de lrsquoordre 1 et de paramegravetres issus de lrsquoanalyse pour une source en 2D (des angles dans de cas)

42 Quelques applications 35

Figure 45 - Principe de lrsquoameacutelioration de la preacutecision spatiale

Le principe de la synthegravese est drsquoextraire les sources originales agrave partir de W X Y

et des angles (un angle par trame et par sous-bande) Ceci peut ecirctre reacutealiseacute de maniegravere approcheacutee en deacutecodant lrsquoordre 1 dans les directions des sources Ce deacutecodage revient agrave calculer les signaux qui devraient alimenter des haut-parleurs qui seraient placeacutes agrave ces positions dans le cas drsquoune restitution (voir 122) crsquoest-agrave-dire agrave former des directiviteacutes dans les directions des sources Dans la plupart des cas ce deacutecodage qui fait intervenir une pseudo-inversion de Moore-Penrose (111) est imparfait les sources se retrouvant leacutegegraverement meacutelangeacutees On peut comparer cette seacuteparation agrave celle que ferait un ensemble de microphones agrave directiviteacute hypercardioiumlde coiumlncidents

Figure 46 - Directiviteacutes eacutequivalentes agrave la seacuteparation de 4 sources agrave lrsquoordre 1 Ces sources seacutepareacutees vont ensuite constituer toujours placeacutees aux angles

deacutetermineacutes agrave lrsquoanalyse une scegravene virtuelle qursquoon va encoder agrave lrsquoordre 2 De cet encodage on ne conservera que les signaux manquants dans notre exemple les signaux du 2nd ordre U et V Ainsi la scegravene spatialiseacutee sera au final constitueacutee des signaux W X et Y drsquoorigine (transmis) et des signaux U et V syntheacutetiseacutes

Chapitre 4 Reacutesultats et applications 36

422 Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave partir de W Reconstruire une scegravene sonore spatialiseacutee agrave partir drsquoun unique canal mono est

alors difficile et le reacutesultat nrsquoest appreacuteciable que pour des scegravenes simples Il faut pour cela que les diffeacuterentes sources composant cette scegravene aient des supports spectraux aussi distincts que possible Les diffeacuterentes sous-bandes sont alors placeacutees agrave un certain angle transmis en parallegravele et crsquoest cette scegravene reconstitueacutee qui va ecirctre encodeacutee au 1er ordre de maniegravere agrave recreacuteer les signaux X et Y

Figure 47 - Principe de la restitution de lrsquoordre 1 agrave partir du signal mono W Ce scheacutema rappelle une meacutethode deacuteveloppeacutee dans le cas steacutereacuteo appeleacutee BCC

(Binaural Cue Coding) [Faller and Baumgarte 2002] Le principe est drsquoextraire et coder des informations permettant la reconstruction binaurale drsquoun signal agrave savoir les diffeacuterences interaurales drsquointensiteacute et de temps (Interaural LevelTime Difference ILD et ITD) qui correspondent dans le cas drsquoune restitution sur un casque aux diffeacuterences drsquointensiteacute et de temps inter-canal (Inter-Channel LevelTime Difference ICLD et ICTD) qui sont mesureacutees agrave partir drsquoune analyse en sous-bandes Les auteurs y ont plus reacutecemment associeacute un indice de correacutelation interaurale mesureacute agrave partir de la correacutelation inter-canal (ICC) afin de caracteacuteriser la preacutecision spatiale (la ldquolargeurrdquo drsquoune source)

Figure 48 - Scheacutema de principe de la meacutethode BCC [Faller and Baumgarte 2003]

On observe en pratique des deacutefauts lieacutes agrave la brutaliteacute de la proceacutedure une sous-

bande ne peut ecirctre que placeacutee agrave la position indiqueacutee et ne peut pas rester floue diffuse ou encore ecirctre placeacutee agrave plusieurs endroits Pour y remeacutedier nous avons ajouteacute 2 traitements agrave la synthegravese Tour drsquoabord nous avons appliqueacute un leacuteger lissage soulageant les effets deacutesagreacuteables dus au saut du contenu drsquoune sous-bande drsquoun endroit agrave un autre entre de 2 fenecirctres conseacutecutives Les positions varient alors de faccedilon plus souple au sein drsquoune mecircme sous-bande traduisant une hypothegravese de continuiteacute spatiale (pas de deacuteplacement brusque) La contrepartie est que cette hypothegravese est lieacutee agrave une hypothegravese de continuiteacute spectrale

42 Quelques applications 37

La 2egraveme ameacutelioration concerne le positionnement des sources En incluant dans la transmission un critegravere de pertinence on peut savoir srsquoil est raisonnable de placer une sous-bande agrave un angle preacutecis ou bien si lrsquoanalyse eacutetait flou agrave son sujet auquel cas un positionnement impreacutecis serait preacutefeacuterable Le paramegravetre choisi est une combinaison des critegraveres eacutevoqueacutes en 342 il nous permet de placer la sous-bande de maniegravere plus ou moins prononceacutee

43 Comparaison avec une meacutethode existante Certains auteurs ont deacutejagrave essayeacute drsquoanalyser un contenu ambisonique pour

retrouver les positions des sources Ville Pulkki a ainsi deacutecrit dans [Pulkki and Faller 2006] une meacutethode drsquoanalyse du B-format baseacutee sur lrsquoeacutetude des amplitudes des signaux W X Y et Z

Figure 49 - X et Y dans le cas drsquoune sinusoiumlde placeacutee agrave 15deg (agrave gauche) et 120deg (agrave droite)

Les figures ci-dessus montrent les relations drsquoamplitudes (algeacutebriques) qui relient

X et Y agrave lrsquoangle de la source On voit que lrsquoanalyse de ces amplitudes respectives permet de retrouver la position de la source en effet on a pour une source unique les relations de lrsquoeacutequation (11) rappeleacutee ici

⎪⎪

⎪⎪

=

=

=

=

δ

δθ

δθ

sin2

cossin2

coscos2

SZ

SY

SX

SW

(41)

On peut donc theacuteoriquement retrouver les valeurs de θ et δ par relations

trigonomeacutetriques Ainsi on a

⎪⎪⎩

⎪⎪⎨

=

=

2)sin(

)tan(

WZ

XY

δ

θ (42)

Chapitre 4 Reacutesultats et applications 38

On peut donc trouver les angles θ et δ agrave π pregraves Pour lever lrsquoambiguiumlteacute une eacutetude de signe est neacutecessaire Mais dans le cas de θ le signe de X et de Y agrave δ fixeacute deacutepend aussi bien de θ que S Il faut srsquointeacuteresser aux signes de θcos et θsin crsquoest-agrave-dire

aux signes de WX et

WY Dans la pratique on srsquointeacuteressera aux signes de et

pour se preacutevenir des divisions par zeacuteros

XW sdot YW sdot

XW sdot et YW sdot sont proportionnels agrave toujours positif

2S

Les auteurs deacutecrivent eacutegalement dans leur article un critegravere appeleacute diffuseness qui

peut ecirctre compareacute agrave un critegravere de pertinence inverseacute Ce paramegravetre calculeacute par agrave 1 - R ougrave R est un rapport de normes est tregraves proche du critegravere de norme relative deacutecrit en 342 Il peut donc ecirctre utiliseacute de la mecircme faccedilon et permettre ainsi une pleine comparaison

Cette meacutethode a eacuteteacute impleacutementeacutee pour pouvoir ecirctre compareacutee avec la meacutethode

par ACP Tous les paramegravetres ont scrupuleusement eacuteteacute gardeacutes identiques et plusieurs reacuteglages ont eacuteteacute testeacutes Les courbes ci-dessous preacutesentent les reacutesultats des analyses de la scegravene deacutecrite en 332 avec un pas de 50ms un overlap de 50 un NFFT de 2048 et 40 bandes freacutequentielles Nous avons repreacutesenteacute tous les angles trouveacutes crsquoest-agrave-dire un par bande et par trame pour srsquoaffranchir de la seacutelection des k-moyennes

π

0

minusπ

Figure 410 - Angles trouveacutes par lrsquoalgorithme de [Pulkki and Faller 2006] Le diamegravetre du point correspondant agrave la pertinence

43 Comparaison avec une meacutethode existante 39

π

0

minusπ

Figure 411 - Angles trouveacutes par une ACP pour la mecircme scegravene On remarque que les points excentriques sont moins nombreux et plus rarement trouveacutes comme pertinents

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee

441 Position du problegraveme

Une application directe de ces analyses a eacuteteacute deacuteveloppeacutee pour la confeacuterence audio

spatialiseacutee La confeacuterence audio utilise en effet la spatialisation pour permettre une meilleure seacuteparation par lrsquooreille des diffeacuterents locuteurs Ainsi si plusieurs personnes parlent en mecircme temps il sera tregraves difficile de comprendre chacun individuellement si ces voix sont restitueacutees en mono mais on pourra focaliser lrsquoattention sur chacune drsquoentre elles si elles sont seacutepareacutees spatialement (crsquoest lrsquoeffet cocktail party [Cherry 1953])

Lrsquoobjectif eacutetait de veacuterifier qursquoil eacutetait possible de conserver la spatialisation drsquoune

confeacuterence en nrsquoayant transmis qursquoun downmix mono des signaux Ce concept semble se rapprocher de celui deacutecrit en 422 mais une diffeacuterence fondamentale les seacutepare la confeacuterence audio spatialiseacutee nrsquoest pas codeacutee au format ambisonic mais les signaux traiteacutes sont directement les sons provenant des diffeacuterents locuteurs crsquoest-agrave-dire les sources elles-mecircmes Ainsi lrsquoanalyse ne porte plus sur une scegravene spatialiseacutee mais sur des signaux seacutepareacutes Il nrsquoy a ainsi plus drsquoindices spatiaux agrave trouver

Avoir accegraves aux sources permet drsquoobtenir des informations plus preacutecises pour

permettre une seacuteparation apregraves la transmission Comme nous lrsquoavons vu lrsquoanalyse drsquoune scegravene spatialiseacutee ne permet que dans drsquoultimes cas agrave la seacuteparation des sources ce qui est ici notre point de deacutepart et sera en fait notre point drsquoarriveacutee En effet nous tenterons de retrouver les sources seacutepareacutees apregraves la transmission de maniegravere agrave pouvoir par la suite les spatialiser agrave loisir (voir Figure 413)

Chapitre 4 Reacutesultats et applications 40

442 Solution proposeacutee Les paramegravetres extraits ne sont donc plus des positions de sources Nous avons

choisi de mesurer puis transmettre lrsquoeacutenergie de chaque signal dans chaque sous-bande en parallegravele du downmix En effet une bonne seacuteparation sera possible si lrsquoon sait quelle proportion de chaque source compose chaque sous-bande du signal mono

Figure 412 - Scheacutema de principe drsquoune confeacuterence audio spatialiseacutee

Figure 413 - Scheacutema ameacutelioreacute (deacutebit reacuteduit)

en pointilleacutes informations compleacutementaires (eacutenergie) Lrsquoanalyse en sous-bandes a lieu dans le serveur (Figure 414) Celui-ci calcule

lrsquoeacutenergie de chaque signal dans chaque sous-bande sur une trame donneacutee Crsquoest ce paramegravetre qui associeacute au signal mono M permettra la seacuteparation des sources dans le terminal (Figure 415) Ce dernier reacutepartira en effet les diffeacuterentes sous-bandes vers chaque signal reconstitueacute proportionnellement agrave cette information pour reconstruire les 4 sources originales

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee 41

Figure 414 - Analyse principe de lrsquoencodage dans le serveur

Figure 415 - Synthegravese principe du deacutecodage dans le client

Afin de reacuteduire au maximum les informations compleacutementaires agrave transmettre on

peut remarquer qursquoau cours drsquoune confeacuterence audio on a tregraves souvent un seul locuteur les participants ne parlent que tregraves rarement tous en mecircme temps Ceci implique que les signaux en entreacutee sont tregraves souvent tous nuls sauf 1 et appliquer un seuil en entreacutee de lrsquoanalyse permet outre lrsquoallegravegement du traitement drsquoavoir moins de paramegravetres agrave transmettre

Ce scheacutema simplifieacute ne tient pas compte des problegravemes de phase rien nrsquoindique

que les eacutenergies des signaux srsquoajoutent bien dans chaque sous-bande lors du downmix on peut tregraves bien avoir des oppositions de phase La solution est drsquoeffectuer le downmix (la somme) des signaux dans chaque sous-bande en prenant soin drsquoavoir recaleacute les phases au preacutealable Ceci nrsquoa un sens que pour des bandes suffisamment eacutetroites Les deacutecalages temporels appliqueacutes pour le recalage sont alors des paramegravetres suppleacutementaires agrave transmettre et sont pris en compte lors de la synthegravese au niveau du reacutepartiteur qui repositionnera la phase de chaque trame pour chaque signal

Chapitre 4 Reacutesultats et applications 42

443 Bilan Le reacutesultat du deacutecodage a pu ecirctre eacutecouteacute de diffeacuterentes maniegraveres les sources

reconstitueacutees individuellement ensemble en steacutereacuteo drsquoamplitude et sur un systegraveme 51 On note que les sources ont eacuteteacute assez bien seacutepareacutees mais que des artefacts sont audibles en particulier lorsque le nombre de locuteurs simultaneacutes augmentent Ces artefacts sont un meacutelange des voix qui nrsquoest gecircnant que lorsqursquoon les eacutecoute de maniegravere seacutepareacutee En effet lrsquoeacutecoute simultaneacutee de ces signaux syntheacutetiseacutes mecircme placeacutes agrave des positions distinctes sur un systegraveme de diffusion multicanal est tout agrave fait satisfaisante

Ce proceacutedeacute pour pouvoir ecirctre appliqueacute doit fonctionner en temps-reacuteel Cette

contrainte nrsquoa pas du tout eacuteteacute prise en compte lrsquoobjectif eacutetant de valider la faisabiliteacute drsquoune reconstruction Les programmes sous Matlab nrsquoont pas eacuteteacute optimiseacutes et ne respectent pas cette contrainte

43

Conclusion Nous avons preacutesenteacute dans ce rapport le principe et lrsquoapplication de plusieurs

meacutethodes drsquoanalyses spatiales de scegravenes ambisoniques conccedilues et reacutealiseacutee pendant le stage Le format HOA est en effet une repreacutesentation du champ acoustique deacutecomposeacute sur une base drsquoharmoniques spheacuteriques jusqursquoagrave un certain ordre agrave la maniegravere drsquoun deacuteveloppement limiteacute Il contient donc de maniegravere indirecte des indications spatiales qursquoon peut extraire avec des analyses comme lrsquoanalyse en composantes principales

Ces analyses nous permettent de deacuteterminer les positions des sources qui

composent la scegravene sonore Nous avons appliqueacute les reacutesultats de ces analyses agrave 2 types de synthegravese lrsquoune destineacutee aux transmissions bas deacutebit lrsquoautre agrave un traitement de restitution de la preacutecision spatiale dans le cas ougrave des ordres supeacuterieurs dont le but est drsquoaffiner la perception de localisation nrsquoauraient pas pu ecirctre transmis Ces algorithmes par le codage drsquoinformations spatiales qursquoils permettent pourront trouver bien drsquoautres applications dans la transmission et le codage ougrave la description du contenu est de plus en plus utiliseacutee (comme par exemple dans la norme MPEG)

Des ameacuteliorations sont possibles sur plusieurs points tout drsquoabord lrsquoexploitation

de toutes les composantes de lrsquoACP est agrave lrsquoeacutetude et semble pouvoir donner des reacutesultats inteacuteressants Drsquoautre part on a vu que le reacutesultat final est tregraves deacutependant de la bonne convergence de lrsquoalgorithme des k-moyennes utiliseacute pour traiter les donneacutees brutes de lrsquoanalyse en sous-bandes Or cet algorithme neacutecessite des reacuteglages tregraves fins et une connaissance a priori du nombre de sources est presque indispensable Drsquoautres algorithmes plus complexes de suivi de formes pourraient ecirctre avantageusement utiliseacutes pour deacutetecter dans tous les angles trouveacutes lesquels sont susceptibles de former une trajectoire

45

Annexe A

Deacuteveloppement du champ acoustique en harmoniques spheacuteriques

A1 Eacutequation drsquoonde en coordonneacutees spheacuteriques On se place dans lrsquoespace euclidien agrave 3 dimensions muni drsquoun systegraveme de

coordonneacutees spheacuteriques Un point M y est repeacutereacute par son rayon r son azimut θ et son eacuteleacutevation δ tels que repreacutesenteacutes sur la figure ci-dessous

- r est la norme du vecteur position rr crsquoest-agrave-dire la distance OM - [20[ πθ isin est lrsquoangle formeacute par le projeteacute du point sur le plan xOy et lrsquoaxe Ox

- ]2

2

[ ππδ minusisin est lrsquoangle formeacute par le plan xOy et le vecteur position2

Figure A1 - Systegraveme de coordonneacutees spheacuteriques

2 Cet angle diffegravere de lrsquoangle polaire usuel δπϕ minus=

2 habituellement pris entre lrsquoaxe Oz et le

vecteur position

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 46

Les relations entre les coordonneacutees spheacuteriques et les coordonneacutees carteacutesiennes sont

⎪⎩

⎪⎨

===

δδθδθ

sincossincoscos

zryrx

(A1)

On srsquointeacuteresse dans ce repegravere agrave lrsquoeacutequation de propagation des ondes acoustiques

de pression On se place dans les conditions classiques drsquoacoustique lineacuteaire (les variations de p sont petites par rapport agrave la pression atmospheacuterique) en supposant que lrsquoair est un fluide parfait (on y neacutegligera les pheacutenomegravenes dissipatifs) Dans une reacutegion de lrsquoespace ne comprenant pas de sources lrsquoeacutequation drsquoonde srsquoeacutecrit alors

0)(12

2

2 =⎟⎟⎠

⎞⎜⎜⎝

⎛partpart

minus∆ trptc

r (A2)

p eacutetant la pression et c la vitesse de propagation du son dans lrsquoair

Cette eacutequation devient dans le domaine freacutequentiel lrsquoeacutequation de Helmholtz

( ) 0)(2 =+∆ ωrpk r (A3)

ck ω

= eacutetant le nombre drsquoonde

En coordonneacutees spheacuteriques cette eacutequation srsquoeacutecrit

0sin1sin

sin11 2

2

2

222

2 =⎥⎦

⎤⎢⎣

⎡+

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart pk

rrrr

rr δθθθ

θθ (A4)

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques Drsquoapregraves [Bruneau 1983] elle admet des solutions agrave variables seacutepareacutees de la forme

)()()( δθ ΦΘ= rRp (A5) Ces solutions sont respectivement - pour la partie radiale une combinaison des fonctions de Bessel spheacuteriques de

premiegravere et seconde espegravece3 jn et nn

)()()( krBnkrAjrR nn += (A6) 3 Les fonctions de Bessel spheacuteriques de seconde espegravece sont eacutegalement appeleacutees fonctions de

Neumann

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 47

Ces fonctions sont deacutefinies comme suit

(A7)

Figure A2 - Fonctions de Bessel spheacuteriques pour les ordres 0 agrave 5 )(krjm

- pour la partie azimutale les fonctions )(θΘ

)sin()cos()( 21 θθθ ncnc +=Θ (A8) Eacutetant donneacute la deacutefinition de lrsquoangle Θ celui-ci doit neacutecessairement ecirctre de

peacuteriode 2π ))2()(( πθθ +Θ=Θ ce qui impose agrave n drsquoecirctre entier

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 48

- pour la partie polaire les fonctions de Legendre associeacutees )(sinδmnP

nm

nn

mn dPdP

)(sin)(sinsin)(sin

δδ

δδ = pour ⎩⎨⎧

gt=

nmavecnm 321

(A9)

ougrave les )(sinδnP sont les polynocircmes de Legendre de degreacute n en δsin deacutefinis par reacutecurrence

( )

11

22

1

0

sin)12()(sin)1(

1cos321)(sin

sin)(sin0)(sin

minus+ minus+=+

minus=

==

mmm mPPmPmet

P

PP

δδ

ϕδ

δδδ

(A10)

et de formule geacuteneacuterale

mm

m

mm dd

mP )1(sin

)(sin21)(sin 2 minus= δ

δδ (A11)

On peut appliquer aux fonctions )(sinδmnP la semi-normalisation de Schmidt

)(sin)()()(sin~ δεδ mnnmn P

nmnmP

+minus

= ougrave 10 =ε et 2=nε pour 1gen (A12)

En appariant les fonctions polaires et azimutales on deacutefinit les harmoniques

spheacuteriques de degreacute et drsquoordre)1(mnY 0gem 4 mnn lele0 et de degreacute et

drsquoordre (voir Figure A3)

)1(minusmnY 1gem

mnn lele1

)(sin~)sin()(

)(sin~)cos()()1(

)1(

δθδθ

δθδθ

mnmn

mnmn

PnY

PnY

=

=minus

(A13)

4 En geacuteneacuteral lorsque le degreacute et lrsquoordre ne sont pas eacutevoqueacutes conjointement on parle par abus de langage drsquoharmoniques drsquoordre m plutocirct que de degreacute m

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 49

soit

1)(sin

)()()12(2sin)(

)(sin)()()12(2cos)(

1)(sin)1()1()12(cos)(

)1(

)1(

1)1(

1

gt

⎪⎪⎩

⎪⎪⎨

+minus

+=

+minus

+=

=+minus

+=

minus

npourP

nmnmmnY

PnmnmmnY

npourPmmmY

mnmn

mnmn

mm

δθδθ

δθδθ

δθδθ

(A14)

La solution angulaire geacuteneacuterale srsquoeacutecrit alors sous la forme drsquoun deacuteveloppement sur

la base drsquoharmoniques spheacuteriques

( ) ( )sum minus

=minus+=Θ

1

1)1()1()( n

m mnmnmnmnn YBYBθ (A15) La solution geacuteneacuterale est alors la seacuterie de Fourier-Bessel

sum sum sum+infin

= = plusmn=

=0 0 1

)()( )()()(m

m

nmnmnm

m YBkrjikrpσ

σσ δθδθ (A16)

ougrave

intint⎪⎩

⎪⎨⎧

minusisin

isin

plusmnplusmn =

]2

2

[

[20[

)1()1( )()1()(

1

ππδ

πθ

δθδθ

S

mnm

mmn dSYpkrji

B (A17)

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 50

Tableau A1 - Expressions analytiques des harmoniques spheacuteriques pour les ordres 0 agrave 3

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 51

Figure A3 - Repreacutesentation des harmoniques spheacuteriques pour les ordres m = 0 agrave 3 Les

couleurs rouge et bleu indiquent respectivement des valeurs positives et neacutegatives

53

Annexe B

Compleacutements theacuteoriques sur le deacutecodage HOA

B1 Vecteur veacutelociteacute et vecteur eacutenergie Le vecteur veacutelociteacute est un indice de la direction apparente drsquoune source introduit

par Gerzon [Gerzon 1992] Il se calcule comme le rapport de la vitesse particulaire sur la pression acoustique

)()(

)()(1

δθδθ

δθδθ

ρ rprp

ki

rprv

cV nabla

minus=minus=rrr

(B1)

Dans le cas drsquoune onde plane le vecteur veacutelociteacute V

rest ainsi directement un

vecteur unitaire orienteacute vers la direction de provenance de lrsquoonde En geacuteneacuteralisant agrave une superposition drsquoondes planes en phase ou opposition de phase eacutemises par L haut-parleurs agrave eacutequidistance du point drsquoobservation on obtient la formule suivante

VVL

ll

L

lll

urg

ugV r

rr

==

sum

sum

=

=

1

1 (B2)

ougrave deacutesigne la direction du llur egraveme haut-parleur auquel est associeacute le gain gl et Vr Vur correspondent respectivement agrave la norme et agrave la direction du vecteur veacutelociteacute

Le vecteur eacutenergie est un autre indice de direction Il est deacutefinit par

EEL

ll

L

lll

urg

ugE r

rr

==

sum

sum

=

=

1

2

1

2

(B3)

Annexe B Compleacutements theacuteoriques sur le deacutecodage HOA 54

Il peut srsquointerpreacuteter comme une indication de la concentration de lrsquoeacutenergie ( ) et de sa direction moyenne de provenance (

Er

Eur ) On a toujours 1ltEr sauf dans le cas ougrave un seul haut-parleur contribue agrave la reconstruction (dans ce cas ) peut ecirctre consideacutereacute comme un indicateur de preacutecision de la localisation

1=Er Er

B2 Deacutecodages optimiseacutes La restitution la plus confortable drsquoun champ sonore veillera donc agrave maximiser

tout en essayant de garder le plus proche possible de 1 Lrsquooptimisation du deacutecodage consiste alors agrave multiplier chaque coefficient de la matrice de deacutecodage D (voir (111) par des gains calculeacutes drsquoapregraves des critegraveres drsquooptimisation

Er Vr

Ainsi le deacutecodage appeleacute max- maximise la norme du vecteur eacutenergie en

sacrifiant celle du vecteur veacutelociteacute puisqursquoon a dans ce deacutecodage (pour des configurations reacuteguliegraveres de haut-parleurs) Ce deacutecodage est donc avantageux par rapport au deacutecodage basique pour les hautes freacutequences ou dans le cas drsquoun auditoire eacutelargi Le deacutecodage in-phase va encore plus loin en cherchant agrave annuler complegravetement les contributions des haut-parleurs placeacutes agrave lrsquoopposeacute de la direction de provenance de lrsquoonde reproduite Ce critegravere est utile dans le cas drsquoune eacutecoute dans une position tregraves excentreacutee agrave laquelle on pourrait percevoir de faccedilon preacutedominante la contribution en opposition de phase drsquoun tel haut-parleur

Er

EV rr =

Ces diffeacuterents deacutecodages ont chacun des avantages et inconveacutenients Ainsi seul le

deacutecodage basique garantit = 1 le deacutecodage max- permet une preacutecision meilleure notamment en haute freacutequence et le deacutecodage in-phase est plus adapteacute agrave un auditoire plus large Jeacuterocircme Daniel [Daniel 2000] propose ainsi de changer le deacutecodage en fonction de la freacutequence et de lrsquoeacutetendue de la zone drsquoeacutecoute deacutesireacutee

Vr Er

Figure B1 - Deacutecodages les plus approprieacutes par sous-bande et en fonction de lrsquoeacutetendue de la

zone drsquoeacutecoute [Daniel 2000]

55

Annexe C

Analyse en composantes principales

C1 Espace des donneacutees Eacutegalement souvent appeleacutee transformeacutee de Karhunen-Loegraveve5 (TKL) lrsquoanalyse en

composantes principales (ACP) est une technique statistique de repreacutesentation drsquoinformation Introduite sur 2 variables par Pearson [Pearson 1900] elle a eacuteteacute eacutetendue par Hotelling [Hotelling 1933] Elle a pour but de caracteacuteriser des donneacutees drsquoun espace agrave N dimensions dans un sous-espace plus petit en minimisant les pertes drsquoinformation due agrave la projection crsquoest-agrave-dire en maximisant la variance projeteacutee Les donneacutees ainsi reacuteorganiseacutees deviennent indeacutependantes Les variables correacuteleacutees sont remplaceacutees par de nouvelles variables deacutecorreacuteleacutees et de variance maximale combinaisons lineacuteaires des variables initiales

Les donneacutees sont constitueacutees de n variables aleacuteatoires (dans notre cas des canaux)

et p reacutealisations ou individus (des eacutechantillons)

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

pn

p

ji

n

xx

x

xx

M

LLL

MOMNM

MLLM

MNMOM

LLL

1

111

(C1)

Ces donneacutees sont geacuteneacuteralement centreacutees et peuvent aussi ecirctre reacuteduites4 (on note

1x la moyenne de la variable et 1x )( 1xσ sa variance) Reacuteduire ou non le nuage de points (ie les p reacutealisations de la variable aleacuteatoire) est un choix de modegravele

5 Quelques rares sources mentionnent une diffeacuterence entre ACP et TKL en placcedilant celle-ci au

niveau du choix de la reacuteduction des donneacutees dans le cas dune ACP les donneacutees seraient centreacutees et reacuteduites alors qursquoelles seraient uniquement centreacutees pour une TKL

Annexe C Analyse en composantes principales 56

- si on ne reacuteduit pas le nuage une variable agrave forte variance pourrait tirer tout lrsquoeffet de lrsquoACP agrave elle

- si on reacuteduit le nuage une variable qui ne serait qursquoun bruit se retrouverait avec une variance apparente eacutegale agrave une variable informative

M est centreacutee

⎥⎥⎥

⎢⎢⎢

minusminusminus

minusminus=

npn

pi

ji

nn

xxxxxx

xxxxM

K

MM

K

11

11

11

ˆ (C2)

M~ est centreacutee et reacuteduite

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

minusminus

minus

minusminus

=

)()(

)(

)()(~

1

11

1

1

111

n

npn

pi

ij

i

n

nn

xxx

xxx

xxx

xxx

xxx

M

σσ

σ

σσ

K

MM

K

(C3)

On multiplie ensuite la matrice obtenue par sa transposeacutee pour obtenir - La matrice de covariance MMC t

vˆˆ sdot=

- La matrice de correacutelation MMC tr

~~ sdot= Ces matrices sont carreacutees (N x N) symeacutetriques et reacuteelles Elles sont donc

diagonalisables dans une base orthonormeacutee 6 Le principe de lrsquoACP est alors de trouver un axe u issu drsquoune combinaison lineacuteaire

des tel que le critegravere drsquoinertie du nuage autour de cet axe soit maximal Le critegravere drsquoinertie couramment utiliseacute est la variance Il faut donc trouver lrsquoaxe qui porte le maximum de variance crsquoest-agrave-dire lrsquoaxe u tel que la projection du nuage sur cet axe ait une variance maximale

nx

6 Nos donneacutees eacutetant ici des valeurs drsquoeacutechantillons elles sont par nature centreacutees et reacuteduites On

formera donc naturellement la matrice de correacutelation

C2 Diagonalisation 57

C2 Diagonalisation Pour alleacuteger lrsquoeacutecriture de la suite de cette partie nous consideacutererons que les

variables ont eacuteteacute centreacutees et si besoin reacuteduites et nous noterons ces variables

transformeacutees (ainsi

ix ix

iii xxx minuslarr ou bien )( i

iii x

xxxσ

minuslarr ) On fera de mecircme pour M

( ou bien MM ˆlarr MM ~larr ) et C ( vCC larr ou bien rCC larr ) La projection drsquoun eacutechantillon sur un axe u srsquoeacutecrit ix

uMxiu sdot=)(π (C4) La variance empirique de )( iu xπ vaut donc

uMMuxx ttiu

tiu sdotsdotsdot=sdot )()( ππ (C5)

Or on a vu que est diagonalisable dans une base orthonormeacutee donc

on peut noter P le changement de base associeacute et ∆ la matrice diagonale formeacutee de son spectre Ainsi

MMC t=

n

i 1)(λ PPMMC tt ∆==

)()()()( PuPuuPPuxx ttt

iut

iu sdot∆sdot=sdot∆sdot=sdotππ (C6) On pose v = Pu Chercher lrsquoaxe u qui maximise )( iu xπ revient donc agrave chercher le

vecteur v qui maximise ougravevvt ∆ )( 1 ndiag λλ K=∆ avec les iλ rangeacutes par ordre deacutecroissant Ce vecteur est trivialement le premier vecteur unitaire et on a alors

1λ=∆vvt

Ainsi le vecteur qui porte la plus grande part drsquoinertie du nuage est le premier

vecteur propre de C (premier par norme deacutecroissante) De mecircme le deuxiegraveme vecteur qui explique la plus grandelt part de lrsquoinertie restante est le deuxiegraveme vecteur propre de C Finalement la question de lrsquoACP se ramegravene agrave un problegraveme de diagonalisation de la matrice de correacutelation

C3 Code Matlab

function [vep vap] = pca(f N) f donneacutees N nombre de composantes agrave garder cor = f f formation de la matrice de correacutelation [vep vap] = eig(cor) calcul des vecteurs (vep) et valeurs (vap) propres [vap ind] = sort(diag(vap)) tri des valeurs propres par ordre croissant vap = flipud(vap) disposition inverse par ordre drsquoimportance vep = vep( flipud(ind)) classement en conseacutequence des vecteurs propres vep = vep( 1N) on ne garde que les N premiers vecteurs propres

Annexe C Analyse en composantes principales 58

59

Annexe D

Analyse en sous-bandes

D1 La transformeacutee de Fourier agrave court terme (TFCT) Pour affiner lrsquoanalyse les signaux sont donc deacutecoupeacutes en bandes de freacutequence par

TFCT La TFCT consiste agrave effectuer des transformeacutees de Fourier discregravetes sur des portions de signal fenecirctreacutees reacuteguliegraverement espaceacutees

On rappelle que la transformeacutee de Fourier drsquoun signal x(t) est deacutefinie (lorsque

lrsquointeacutegrale existe) par

int+infin

infinminus

minus= dtetxfX ftiπ2)()( (D1)

La transformeacutee de Fourier agrave temps discret (TFTD) drsquoun signal x(t) srsquoeacutecrit

sum+infin

minusinfin=

minus=n

fnienxfX π2)()( (D2)

La transformeacutee de Fourier discregravete (TFD) drsquoun signal discret x(k) est deacutefinie par

sum+infin

minusinfin=

minus=

n

Nkni

enxkXπ2

)()( (D3)

La TFCT discregravete est une TFD observeacutee sur une fenecirctre wa de taille N

summinus

=

minus+=

1

0

2)())(()(

N

n

Nnki

aaa enwtnxkXπ

ττ (D4)

ougrave )(taτ est lrsquoinstant drsquoanalyse

Annexe D Analyse en sous-bandes 60

Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT [Laroche 1995]

D2 Synthegravese par addition-recouvrement Lors de la synthegravese apregraves le deacutecoupage et lrsquoanalyse des fenecirctres on cherche agrave

reconstruire le signal temporel agrave partir de sa repreacutesentation freacutequentielle Pour cela on utilise la meacutethode OLA (overlap and add addition-recouvrement) qui consiste agrave prendre la TFCT inverse des spectres Xt puis agrave additionner les signaux obtenus apregraves les avoir multiplieacutes par une fenecirctre de pondeacuteration en les faisant se recouvrir partiellement

Le reacutesultat est donneacute par

sum=

minusminus=T

tsss tnxtnwnx

s1

))((~))(()(~ ττ τ (D5)

avec )()( tt as ττ = et summinus

=

=1

0

2))((~1)(~ N

k

Nkni

s ektXN

nxs

π

τ τ

Lors de la mise en œuvre de ce traitement il faut srsquoassurer drsquoecirctre en mesure de

reconstruire parfaitement un signal lorsqursquoaucune transformation ne lui est appliqueacutee Le critegravere de reconstruction parfaite condition suffisante est alors

sum=

=minusminusT

tasaa tnwtnw

11))(())(( ττ quelque soit n (D6)

D2 Synthegravese par addition-recouvrement 61

Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add [Laroche 1995]

Plusieurs paramegravetres sont agrave choisir avec soin Le premier drsquoentre eux est le type

de fenecirctre agrave utiliser Les diffeacuterentes options qui se preacutesentent agrave nous sont - la fenecirctre rectangulaire qui preacutesente dans son spectre le lobe principal le plus

eacutetroit mais des lobes secondaires non neacutegligeables - la fenecirctre de Hamming au lobe principal un peu plus large mais pour laquelle le

1er lobe secondaire se situe agrave -43 dB - la fenecirctre de Hann (ou cosinus sureacuteleveacute) qui ressemble agrave la preacuteceacutedente avec un

1er lobe secondaire plus fort mais une pente de 18 dB par octave pour les lobes suivants

- les fenecirctres de Blackman-Harris aux lobes secondaires tregraves bas mais au lobe principal plus large

Fenecirctre Lobe 2aire

(dB) Pente

(dBoct) Bande passante

agrave 6 dB (bins) Rectangulaire -13 -6 121 Triangulaire -27 -12 178

Hann -32 -18 200 Hamming -43 -6 181

Blackman-Harris 4 -92 -6 272

Tableau D1 - Caracteacuteristiques des principales fenecirctres drsquoanalyse [Harris 1978] Le meilleur compromis est donc dans notre contexte la fenecirctre de Hann ou celle

de Hamming

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 31: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

33 Analyse aux ordres supeacuterieurs 25

Figure 34 - Angles drsquoune scegravene virtuelle ayant 1 source mobile et 3 sources fixes

(deacutecrite en 332) trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 Pour chaque trame (en abscisse) 20 angles (1 par bande en ordonneacutee et en degreacutes) sont

reporteacutes le diamegravetre du point correspondant agrave un critegravere de pertinence (voir 342)

Figure 35 - Angles de la mecircme scegravene trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 2 Reacutesultats modulo π reacutepliqueacutes pour faciliter la comparaison avec la figure preacuteceacutedente On remarque que les lignes sont plus nettes qursquoil y a moins drsquoangles aberrants et que

les angles corrects sont plus marqueacutes (ils sont deacutetermineacutes comme plus pertinent)

Chapitre 3 Description des analyses 26

20

0

20

0

20

0

Figure 36 - Angles drsquoune scegravene reacuteelle constitueacutee drsquoun bruit parcourant le cercle trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 (en haut) 0 et 2 (au milieu) et 0 et 4 (en bas) Le

numeacutero de trame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On retrouve qursquoune limitation des ordres HOA supeacuterieurs issus drsquoun enregistrement

microphonique est la restitution des basses freacutequences

34 Traitement des donneacutees

341 Algorithme des k-moyennes Agrave lrsquoissue de lrsquoanalyse en composantes principales on reacutecupegravere avec la premiegravere

des meacutethodes exposeacutees au chapitre preacuteceacutedent des angles correspondants aux positions des sources preacutedominantes agrave raison drsquoune valeur par fenecirctre et par bande de freacutequence Il faut agrave partir de ces donneacutees parvenir agrave isoler les sources crsquoest-agrave-dire agrave deacuteterminer quels sont les angles pertinents et examiner quels sont ceux qui agrave une certaine toleacuterance pregraves sont preacutesents dans plusieurs bandes de freacutequence etou plusieurs fenecirctres temporelles

Pour pouvoir exploiter ces donneacutees spatiales nous avons utiliseacute lrsquoalgorithme des

k-moyennes (ou k-means) [MacQueen 1967] sur les angles pondeacutereacutes par des critegraveres de pertinence Cet algorithme fonctionne de la maniegravere suivante

Initialisation choix de k barycentres (les k moyennes) Reacutepeacuteter Associer chaque eacuteleacutement au barycentre le plus proche Recalculer les positions des barycentres Jusqursquoagrave ce que les barycentres soient stables (ou au bout de t iteacuterations)

34 Traitement des donneacutees 27

Lrsquoavantage de cet algorithme est drsquoecirctre peu glouton puisqursquoil converge en O(tkn) ougrave t est le nombre drsquoiteacuterations k le nombre de centres et n le nombre de points (geacuteneacuteralement on a t k ltlt n) Par contre il est plutocirct sensible aux exceptions un point aberrant tirera agrave lui la moyenne auquel il aura eacuteteacute associeacute Il faut donc faire en sorte que ces points erroneacutes soient aussi rares que possibles Crsquoest pourquoi les angles traiteacutes sont pondeacutereacutes par 2 critegraveres de pertinence

La pondeacuteration des angles fournis en entreacutee de lrsquoalgorithme des k-moyennes se

fait de maniegravere simple en reacutepeacutetant ces angles un nombre de fois (de 0 agrave 10) proportionnel agrave un critegravere Ainsi un angle tregraves pertinent sera dupliqueacute et sera preacutesent plusieurs fois dans la liste des donneacutees traiteacutees attirant ainsi agrave lui la position du barycentre le plus proche Au contraire un angle trop peu pertinent ne sera pas reacutepeacuteteacute voir mecircme sera enleveacute de la liste

Le seul problegraveme de cet algorithme est qursquoil neacutecessite la connaissance de k crsquoest-

agrave-dire du nombre de sources qui composent la scegravene Une deacutetermination automatique se basant sur la reacutepeacutetition de lrsquoalgorithme avec un k croissant a eacuteteacute testeacutee mais le critegravere drsquoarrecirct reposant sur la dispersion des points autour des barycentres nrsquoeacutetant pas assez robuste cette meacutethode a provisoirement eacuteteacute mise de cocircteacute

342 Critegraveres de pertinence Les 2 critegraveres de pondeacuteration choisis sont lrsquoeacutenergie de la sous-bande dans la

fenecirctre donneacutee et le rapport de la norme de la 1egravere composante (la composante principale) de lrsquoACP sur la somme des normes de toutes les composantes

En effet un angle est trouveacute dans chaque sous-bande de chaque fenecirctre mecircme si

le signal y est tregraves faible Lrsquoangle trouveacute sera alors tregraves peu repreacutesentatif de la direction drsquoune source puisqursquoil indiquera la direction drsquoun bruit Lrsquoeacutenergie doit donc ecirctre prise en compte pour ne conserver que les angles trouveacutes dans des bandes comportant un signal suffisant

La norme relative de la 1egravere composante de lrsquoACP rend quant agrave elle compte du

poids relatif de cette composante par rapport aux autres Ainsi si 2 sources sont preacutesentes dans une bande donneacutee la 1egravere composante sera agrave peine plus marqueacutee que la 2egraveme Ceci peut ecirctre calculeacute en prenant simplement le rapport de la 1egravere valeur propre sur la somme des valeurs propres

On peut noter que la norme de la 1egravere composante ne se deacutetache nettement que

lorsqursquoun son est preacutesent dans la bande consideacutereacutee On peut alors se demander si lrsquoeacutenergie doit ecirctre prise en compte ou si lrsquoinformation qursquoelle contient nrsquoest comprise dans le 2egraveme critegravere En fait la norme relative est un critegravere tregraves bruiteacute et consideacuterer lrsquoeacutenergie par ailleurs permet de nuancer ces artefacts et constitue une base solide de pondeacuteration

Chapitre 3 Description des analyses 28

80

40

0

Figure 37 - Repreacutesentation temps-freacutequence des angles du son deacutecrit en 332 Letrame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On peut donc v

par trame et par bande chacun eacutetant le reacutesultat drsquoune ACP crsquoest-agrave-dire la 1egravere

Figure 38 - Eacutenergie de ce mecircme son On peut voir une basse en notes tenues uneet une batterie qui produit des sons secs dans un spectre plus aigu

80

40

0

80

40

0

Figure 39 - Norme relative de la 1egravere composante de ce mecircme son Les impacts de batterie (dans lrsquoaigu) ressortent davantage

π 0 minusπ

numeacutero de oir un angle direction

voix aiguumle

34 Traitement des donneacutees 29

Figure 310 - Pondeacuteration appliqueacutee agrave lrsquoentreacutee des k-moyennes calculeacutee ici comme

le simple produit de lrsquoeacutenergie et de la norme relative

80

40

0

343 Lissages

Pour faire face au bruit ineacutevitable dans les reacutesultats il faut lisser les donneacutees Ces

lissages temporels correspondent agrave des hypothegraveses de stabiliteacute des sources qui sont supposeacutees ecirctre fixes ou mobiles relativement lentement (dans une mesure agrave parameacutetrer)

Un premier lissage peut ecirctre opeacutereacute avant le traitement par lrsquoalgorithme des k-

moyennes Le filtre choisi est un filtre meacutedian de maniegravere agrave eacuteliminer les points aberrants tout en conservant les vraies valeurs des points coheacuterents Ce lissage est appliqueacute sur chaque sous-bande aux angles et ne tient pas compte des critegraveres de pertinence Il est donc utiliseacute avec parcimonie et peut mecircme ecirctre eacuteviteacute en reacuteglant de maniegravere adeacutequate les critegraveres de pondeacuteration agrave lrsquoentreacutee des k-moyennes

Le deuxiegraveme lissage srsquoeffectue agrave lrsquoentreacutee des k-moyennes en mecircme temps que les

critegraveres de pondeacuteration Il consiste agrave appliquer les k-moyennes non pas sur une fenecirctre donneacutee mais sur plusieurs fenecirctres conseacutecutives anteacuterieures et posteacuterieures en donnant plus de poids agrave la fenecirctre courante Dans la pratique les poids donneacutes aux diffeacuterentes fenecirctres sont eacutetablis par une gaussienne centreacutee sur la fenecirctre courante et de largeur agrave deacuteterminer (en fonction notamment de la dureacutee drsquoune fenecirctre et du type de scegravene analyseacute)

35 Exploitation de toutes les composantes de lrsquoACP Les analyses preacutesenteacutees preacuteceacutedemment ont toutes exploiteacute uniquement la

composante principale extraite par lrsquoACP Or cette analyse fournit des informations plus complegravetes par lrsquointermeacutediaire des autres composantes dont on peut tirer parti pour isoler plusieurs sources au sein drsquoune mecircme bande Cette approche est toujours en deacuteveloppement dans ce stage et nrsquoa pas encore donneacute pleine mesure des reacutesultats qursquoelle laisse entrevoir

Les composantes de lrsquoACP indiquent des directions qui correspondent aux

diffeacuterentes sources composant la scegravene sonore Les vecteurs propres de la matrice de correacutelation donnent ainsi les combinaisons lineacuteaires des signaux HOA permettant de

Chapitre 3 Description des analyses 30

seacuteparer de la meilleure faccedilon possible ces sons Ces directions peuvent ecirctre alors utiliseacutees pour former des directiviteacutes isolant au mieux ces sources

aBS sdot= (31)

ougrave la matrice a contient les vecteurs propres de la matrice de correacutelation (voir Annexe C) le vecteur B contient les signaux HOA et le vecteur S contient les sources extraites

⎟⎟⎟

⎜⎜⎜

=⎟⎟⎟

⎜⎜⎜

⎛=

⎥⎥⎥

⎢⎢⎢

⎟⎟⎟

⎜⎜⎜

⎟⎟⎟

⎜⎜⎜

⎛=

10

1001

1

ML

N

B

BB

S

SSuua MML (32)

On obtient ainsi des lobes drsquoautant plus eacutetroits que lrsquoordre est eacuteleveacute chacun

dirigeacute vers une source et permettant de lrsquoisoler le plus possible des contributions des autres sources La Figure 311 preacutesente les directiviteacutes ainsi trouveacutees par une ACP en pleine bande Une analyse en sous-bande permet une plus grande distinction des sources mais une seacuteparation diffeacuterente entre les bandes est dangereuse car elle risque de dissocier spatialement plusieurs parties drsquoun mecircme son

Figure 311 - Directiviteacutes seacuteparant ideacutealement 4 sources placeacutees agrave 17 73 195 et -58deg

pour une scegravene virtuelle encodeacutee agrave lrsquoordre 4 Ce principe se heurte neacuteanmoins aux limites de seacuteparation lieacutees agrave lrsquoordre

drsquoencodage en effet 2 sources ne pourront pas ecirctre seacutepareacutees si elles sont trop proches comme en teacutemoigne la largeur des lobes principaux Les lobes secondaires traduisent eacutegalement un meacutelange des sources isoleacutees La figure ci-dessus montre ainsi que la source placeacutee agrave 17deg (en vert) sera preacutesente de maniegravere non neacutegligeable dans le signal senseacute contenir la source placeacutee agrave -58deg (en bleu) en raison du lobe secondaire bleu important

31

Chapitre 4

Reacutesultats et applications

41 Illustration et critique des reacutesultats obtenus

411 Avant-propos Sans notification particuliegravere les reacutesultats preacutesenteacutes ont eacuteteacute obtenus avec un pas

de 50 ms une analyse en 80 bandes avec une FFT sur 8192 points Une taille de FTT plus grande et un plus grand nombre de bande augmente la qualiteacute de lrsquoanalyse un pas plus petit ameacuteliore sa preacutecision temporelle mais les reacutesultats sont moins fiables et un lissage plus important srsquoimpose alors Ces paramegravetres ont eacuteteacute reacutegleacutes apregraves de multiples essais sur des scegravenes diverses

Les reacutesultats sont preacutesenteacutes ici uniquement sous la forme de graphiques nous ne

pouvons donc repreacutesenter que les angles trouveacutes agrave la sortie de lrsquoalgorithme des k-moyennes

412 Scegravene 2D artificielle agrave 4 sources fixes La premiegravere scegravene est une scegravene artificielle composeacutee de 4 sons fixes placeacutes agrave -70

-10 45 et 110deg Ces sons (une basse une voix une guitare et une batterie) ont eacuteteacute choisis pour leur varieacuteteacute spectrale et leur varieacuteteacute drsquoattaque Elle a en outre le meacuterite drsquoecirctre reacutealiste et de constituer une seacutequence musicale (chaque son nrsquoest pas une meacutelodie indeacutependante)

On voit sur la Figure 41 ci-dessous que les angles trouveacutes sont proches des

angles theacuteoriques Lrsquoun des sons (agrave 45deg) est quasiment nul avant la 100egraveme trame sa position est alors moins facile agrave deacuteterminer plus preacuteciseacutement une position approximative est trouveacutee et correspondrait exactement agrave la position du bruit (45deg) si lrsquoincertitude de mesure tregraves grande pour un son aussi faible ne rendait la deacutetermination si ardue On mesure un eacutecart-type de 22deg sur cet exemple (en excluant le deacutebut du son agrave 45deg)

Chapitre 4 Reacutesultats et applications 32

Figure 41 - Angles theacuteoriques (en pointilleacutes rouge) et calculeacutes (en trait bleu) pour une scegravene

constitueacutee de 4 sons fixes longue de 11s

413 Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile

Figure 42 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) de la scegravene agrave

4 sources dont 1 mobile deacutecrite en 332 Cette scegravene est deacutecrite en 332 On a ici demandeacute aux k-moyennes de renvoyer 5 barycentres par trame alors que

seules 4 sources eacutetaient preacutesentes dans le but de se garantir une marge vis-agrave-vis des erreurs de deacutetection Cette 5egraveme direction nrsquoest pas du tout gecircnante elle indique une direction qui ne contient pas de source et crsquoest donc un son tregraves faible qui est ainsi pointeacute Apregraves une eacuteventuelle extraction le signal ne sera donc pas du tout gecircnant

41 Illustration et critique des reacutesultats obtenus 33

On peut remarquer que quand le son mobile se rapproche drsquoun son fixe la deacutetection est moins bonne il y a une fusion entre les 2 sons Mais encore une fois lors de lrsquoextraction lrsquoisolation drsquoun des sons englobera lrsquoautre son ce qui ne posera pas de problegraveme pour les objectifs fixeacutes aucune source nrsquoeacutetant oublieacutee En effet la seacuteparation de sources nrsquoest pas un objectif ici mais un moyen pour preacuteciser les positions des sources ce qui sera fait correctement mecircme si 2 sources sont pointeacutees par 1 seule direction

414 Scegravene 3D artificielle agrave une source et bruit de fond

La scegravene dont la position drsquoune source a eacuteteacute extraite ci-dessous est une scegravene virtuelle en 3D constitueacute drsquoun son (une voix) qursquoon a fait se deacuteplacer par paliers tout drsquoabord vers le haut de 0deg agrave 45deg et vers la gauche de 0deg agrave 90deg puis redescendre jusqursquoagrave 35deg en continuant son cheminement vers la gauche jusqursquoagrave 120deg et enfin finir la descente de 35deg agrave 0deg en la laissant agrave 120deg Agrave cette source a eacuteteacute superposeacutee une ambiance spatialiseacutee de hall drsquoaeacuteroport initialement enregistreacutee en 2D (au format 51) mais transformeacutee pour contenir des composantes verticales Cette ambiance deacutecorreleacutee de la source avait pour but de tester la robustesse de lrsquoanalyse Elle eacutetait agrave 15 dB en-dessous du niveau de la voix

Figure 43 - Azimut et eacuteleacutevation theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun

son en 3D artificiel de 9s placeacute dans une ambiance bruyante On remarque que lrsquoanalyse est tregraves correcte Il nrsquoy a pas drsquoeacutecart important entre

les angles theacuteoriques et ceux calculeacutes On note toutefois que le lissage agrave lrsquoentreacutee des k-moyennes a pour effet de gommer les creacuteneaux et drsquoaplatir quelque peu la courbe drsquoeacuteleacutevation ceci nrsquoest pas vraiment gecircnant car de tels sauts dans la position drsquoune source ne sont pas du tout reacutealistes (ils peuvent caracteacuteriser des bruits de pas mais de tels impacts sont courts et on peut srsquoattendre agrave ce que la courbe suive leur position aux instants ougrave ils sont eacutemis)

Chapitre 4 Reacutesultats et applications 34

415 Scegravene 2D naturelle agrave une source Les scegravenes naturelles sont on lrsquoa vu plus deacutelicates agrave exploiter car on ne peut pas

garantir la preacutecision de la position theacuteorique agrave retrouver par le calcul et on ne peut donc pas calculer la preacutecision de lrsquoanalyse Seuls les enregistrements utilisant la table tournante (voir 232) permettent une mesure preacutecise de la position de lrsquoangle Ces enregistrements on pu confirmer la validiteacute de lrsquoanalyse pour des scegravenes reacuteelles on trouve ici un eacutecart-type de 25deg

Figure 44 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun bruit blanc

tournant autour du micro enregistreacute en chambre sourde Cette analyse a eacuteteacute reacutealiseacutee par sous-bandes mais sur une eacutetendue freacutequentielle

plus reacuteduite puisqursquoon srsquoest limiteacute aux possibiliteacutes offertes par le microphone La scegravene a donc eacuteteacute analyseacutee de 200 agrave 10 000 Hz

42 Quelques applications

421 Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre 2 agrave partir de lrsquoordre 1

Une fois les positions des sources connues la porte est ouverte agrave de nombreuses

applications La connaissance de ces positions permet en effet de syntheacutetiser artificiellement des composantes manquantes ou non transmises La premiegravere synthegravese deacuteveloppeacutee est celle des signaux U et V composant la partie horizontale de lrsquoordre 2 agrave partir de lrsquoordre 1 et de paramegravetres issus de lrsquoanalyse pour une source en 2D (des angles dans de cas)

42 Quelques applications 35

Figure 45 - Principe de lrsquoameacutelioration de la preacutecision spatiale

Le principe de la synthegravese est drsquoextraire les sources originales agrave partir de W X Y

et des angles (un angle par trame et par sous-bande) Ceci peut ecirctre reacutealiseacute de maniegravere approcheacutee en deacutecodant lrsquoordre 1 dans les directions des sources Ce deacutecodage revient agrave calculer les signaux qui devraient alimenter des haut-parleurs qui seraient placeacutes agrave ces positions dans le cas drsquoune restitution (voir 122) crsquoest-agrave-dire agrave former des directiviteacutes dans les directions des sources Dans la plupart des cas ce deacutecodage qui fait intervenir une pseudo-inversion de Moore-Penrose (111) est imparfait les sources se retrouvant leacutegegraverement meacutelangeacutees On peut comparer cette seacuteparation agrave celle que ferait un ensemble de microphones agrave directiviteacute hypercardioiumlde coiumlncidents

Figure 46 - Directiviteacutes eacutequivalentes agrave la seacuteparation de 4 sources agrave lrsquoordre 1 Ces sources seacutepareacutees vont ensuite constituer toujours placeacutees aux angles

deacutetermineacutes agrave lrsquoanalyse une scegravene virtuelle qursquoon va encoder agrave lrsquoordre 2 De cet encodage on ne conservera que les signaux manquants dans notre exemple les signaux du 2nd ordre U et V Ainsi la scegravene spatialiseacutee sera au final constitueacutee des signaux W X et Y drsquoorigine (transmis) et des signaux U et V syntheacutetiseacutes

Chapitre 4 Reacutesultats et applications 36

422 Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave partir de W Reconstruire une scegravene sonore spatialiseacutee agrave partir drsquoun unique canal mono est

alors difficile et le reacutesultat nrsquoest appreacuteciable que pour des scegravenes simples Il faut pour cela que les diffeacuterentes sources composant cette scegravene aient des supports spectraux aussi distincts que possible Les diffeacuterentes sous-bandes sont alors placeacutees agrave un certain angle transmis en parallegravele et crsquoest cette scegravene reconstitueacutee qui va ecirctre encodeacutee au 1er ordre de maniegravere agrave recreacuteer les signaux X et Y

Figure 47 - Principe de la restitution de lrsquoordre 1 agrave partir du signal mono W Ce scheacutema rappelle une meacutethode deacuteveloppeacutee dans le cas steacutereacuteo appeleacutee BCC

(Binaural Cue Coding) [Faller and Baumgarte 2002] Le principe est drsquoextraire et coder des informations permettant la reconstruction binaurale drsquoun signal agrave savoir les diffeacuterences interaurales drsquointensiteacute et de temps (Interaural LevelTime Difference ILD et ITD) qui correspondent dans le cas drsquoune restitution sur un casque aux diffeacuterences drsquointensiteacute et de temps inter-canal (Inter-Channel LevelTime Difference ICLD et ICTD) qui sont mesureacutees agrave partir drsquoune analyse en sous-bandes Les auteurs y ont plus reacutecemment associeacute un indice de correacutelation interaurale mesureacute agrave partir de la correacutelation inter-canal (ICC) afin de caracteacuteriser la preacutecision spatiale (la ldquolargeurrdquo drsquoune source)

Figure 48 - Scheacutema de principe de la meacutethode BCC [Faller and Baumgarte 2003]

On observe en pratique des deacutefauts lieacutes agrave la brutaliteacute de la proceacutedure une sous-

bande ne peut ecirctre que placeacutee agrave la position indiqueacutee et ne peut pas rester floue diffuse ou encore ecirctre placeacutee agrave plusieurs endroits Pour y remeacutedier nous avons ajouteacute 2 traitements agrave la synthegravese Tour drsquoabord nous avons appliqueacute un leacuteger lissage soulageant les effets deacutesagreacuteables dus au saut du contenu drsquoune sous-bande drsquoun endroit agrave un autre entre de 2 fenecirctres conseacutecutives Les positions varient alors de faccedilon plus souple au sein drsquoune mecircme sous-bande traduisant une hypothegravese de continuiteacute spatiale (pas de deacuteplacement brusque) La contrepartie est que cette hypothegravese est lieacutee agrave une hypothegravese de continuiteacute spectrale

42 Quelques applications 37

La 2egraveme ameacutelioration concerne le positionnement des sources En incluant dans la transmission un critegravere de pertinence on peut savoir srsquoil est raisonnable de placer une sous-bande agrave un angle preacutecis ou bien si lrsquoanalyse eacutetait flou agrave son sujet auquel cas un positionnement impreacutecis serait preacutefeacuterable Le paramegravetre choisi est une combinaison des critegraveres eacutevoqueacutes en 342 il nous permet de placer la sous-bande de maniegravere plus ou moins prononceacutee

43 Comparaison avec une meacutethode existante Certains auteurs ont deacutejagrave essayeacute drsquoanalyser un contenu ambisonique pour

retrouver les positions des sources Ville Pulkki a ainsi deacutecrit dans [Pulkki and Faller 2006] une meacutethode drsquoanalyse du B-format baseacutee sur lrsquoeacutetude des amplitudes des signaux W X Y et Z

Figure 49 - X et Y dans le cas drsquoune sinusoiumlde placeacutee agrave 15deg (agrave gauche) et 120deg (agrave droite)

Les figures ci-dessus montrent les relations drsquoamplitudes (algeacutebriques) qui relient

X et Y agrave lrsquoangle de la source On voit que lrsquoanalyse de ces amplitudes respectives permet de retrouver la position de la source en effet on a pour une source unique les relations de lrsquoeacutequation (11) rappeleacutee ici

⎪⎪

⎪⎪

=

=

=

=

δ

δθ

δθ

sin2

cossin2

coscos2

SZ

SY

SX

SW

(41)

On peut donc theacuteoriquement retrouver les valeurs de θ et δ par relations

trigonomeacutetriques Ainsi on a

⎪⎪⎩

⎪⎪⎨

=

=

2)sin(

)tan(

WZ

XY

δ

θ (42)

Chapitre 4 Reacutesultats et applications 38

On peut donc trouver les angles θ et δ agrave π pregraves Pour lever lrsquoambiguiumlteacute une eacutetude de signe est neacutecessaire Mais dans le cas de θ le signe de X et de Y agrave δ fixeacute deacutepend aussi bien de θ que S Il faut srsquointeacuteresser aux signes de θcos et θsin crsquoest-agrave-dire

aux signes de WX et

WY Dans la pratique on srsquointeacuteressera aux signes de et

pour se preacutevenir des divisions par zeacuteros

XW sdot YW sdot

XW sdot et YW sdot sont proportionnels agrave toujours positif

2S

Les auteurs deacutecrivent eacutegalement dans leur article un critegravere appeleacute diffuseness qui

peut ecirctre compareacute agrave un critegravere de pertinence inverseacute Ce paramegravetre calculeacute par agrave 1 - R ougrave R est un rapport de normes est tregraves proche du critegravere de norme relative deacutecrit en 342 Il peut donc ecirctre utiliseacute de la mecircme faccedilon et permettre ainsi une pleine comparaison

Cette meacutethode a eacuteteacute impleacutementeacutee pour pouvoir ecirctre compareacutee avec la meacutethode

par ACP Tous les paramegravetres ont scrupuleusement eacuteteacute gardeacutes identiques et plusieurs reacuteglages ont eacuteteacute testeacutes Les courbes ci-dessous preacutesentent les reacutesultats des analyses de la scegravene deacutecrite en 332 avec un pas de 50ms un overlap de 50 un NFFT de 2048 et 40 bandes freacutequentielles Nous avons repreacutesenteacute tous les angles trouveacutes crsquoest-agrave-dire un par bande et par trame pour srsquoaffranchir de la seacutelection des k-moyennes

π

0

minusπ

Figure 410 - Angles trouveacutes par lrsquoalgorithme de [Pulkki and Faller 2006] Le diamegravetre du point correspondant agrave la pertinence

43 Comparaison avec une meacutethode existante 39

π

0

minusπ

Figure 411 - Angles trouveacutes par une ACP pour la mecircme scegravene On remarque que les points excentriques sont moins nombreux et plus rarement trouveacutes comme pertinents

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee

441 Position du problegraveme

Une application directe de ces analyses a eacuteteacute deacuteveloppeacutee pour la confeacuterence audio

spatialiseacutee La confeacuterence audio utilise en effet la spatialisation pour permettre une meilleure seacuteparation par lrsquooreille des diffeacuterents locuteurs Ainsi si plusieurs personnes parlent en mecircme temps il sera tregraves difficile de comprendre chacun individuellement si ces voix sont restitueacutees en mono mais on pourra focaliser lrsquoattention sur chacune drsquoentre elles si elles sont seacutepareacutees spatialement (crsquoest lrsquoeffet cocktail party [Cherry 1953])

Lrsquoobjectif eacutetait de veacuterifier qursquoil eacutetait possible de conserver la spatialisation drsquoune

confeacuterence en nrsquoayant transmis qursquoun downmix mono des signaux Ce concept semble se rapprocher de celui deacutecrit en 422 mais une diffeacuterence fondamentale les seacutepare la confeacuterence audio spatialiseacutee nrsquoest pas codeacutee au format ambisonic mais les signaux traiteacutes sont directement les sons provenant des diffeacuterents locuteurs crsquoest-agrave-dire les sources elles-mecircmes Ainsi lrsquoanalyse ne porte plus sur une scegravene spatialiseacutee mais sur des signaux seacutepareacutes Il nrsquoy a ainsi plus drsquoindices spatiaux agrave trouver

Avoir accegraves aux sources permet drsquoobtenir des informations plus preacutecises pour

permettre une seacuteparation apregraves la transmission Comme nous lrsquoavons vu lrsquoanalyse drsquoune scegravene spatialiseacutee ne permet que dans drsquoultimes cas agrave la seacuteparation des sources ce qui est ici notre point de deacutepart et sera en fait notre point drsquoarriveacutee En effet nous tenterons de retrouver les sources seacutepareacutees apregraves la transmission de maniegravere agrave pouvoir par la suite les spatialiser agrave loisir (voir Figure 413)

Chapitre 4 Reacutesultats et applications 40

442 Solution proposeacutee Les paramegravetres extraits ne sont donc plus des positions de sources Nous avons

choisi de mesurer puis transmettre lrsquoeacutenergie de chaque signal dans chaque sous-bande en parallegravele du downmix En effet une bonne seacuteparation sera possible si lrsquoon sait quelle proportion de chaque source compose chaque sous-bande du signal mono

Figure 412 - Scheacutema de principe drsquoune confeacuterence audio spatialiseacutee

Figure 413 - Scheacutema ameacutelioreacute (deacutebit reacuteduit)

en pointilleacutes informations compleacutementaires (eacutenergie) Lrsquoanalyse en sous-bandes a lieu dans le serveur (Figure 414) Celui-ci calcule

lrsquoeacutenergie de chaque signal dans chaque sous-bande sur une trame donneacutee Crsquoest ce paramegravetre qui associeacute au signal mono M permettra la seacuteparation des sources dans le terminal (Figure 415) Ce dernier reacutepartira en effet les diffeacuterentes sous-bandes vers chaque signal reconstitueacute proportionnellement agrave cette information pour reconstruire les 4 sources originales

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee 41

Figure 414 - Analyse principe de lrsquoencodage dans le serveur

Figure 415 - Synthegravese principe du deacutecodage dans le client

Afin de reacuteduire au maximum les informations compleacutementaires agrave transmettre on

peut remarquer qursquoau cours drsquoune confeacuterence audio on a tregraves souvent un seul locuteur les participants ne parlent que tregraves rarement tous en mecircme temps Ceci implique que les signaux en entreacutee sont tregraves souvent tous nuls sauf 1 et appliquer un seuil en entreacutee de lrsquoanalyse permet outre lrsquoallegravegement du traitement drsquoavoir moins de paramegravetres agrave transmettre

Ce scheacutema simplifieacute ne tient pas compte des problegravemes de phase rien nrsquoindique

que les eacutenergies des signaux srsquoajoutent bien dans chaque sous-bande lors du downmix on peut tregraves bien avoir des oppositions de phase La solution est drsquoeffectuer le downmix (la somme) des signaux dans chaque sous-bande en prenant soin drsquoavoir recaleacute les phases au preacutealable Ceci nrsquoa un sens que pour des bandes suffisamment eacutetroites Les deacutecalages temporels appliqueacutes pour le recalage sont alors des paramegravetres suppleacutementaires agrave transmettre et sont pris en compte lors de la synthegravese au niveau du reacutepartiteur qui repositionnera la phase de chaque trame pour chaque signal

Chapitre 4 Reacutesultats et applications 42

443 Bilan Le reacutesultat du deacutecodage a pu ecirctre eacutecouteacute de diffeacuterentes maniegraveres les sources

reconstitueacutees individuellement ensemble en steacutereacuteo drsquoamplitude et sur un systegraveme 51 On note que les sources ont eacuteteacute assez bien seacutepareacutees mais que des artefacts sont audibles en particulier lorsque le nombre de locuteurs simultaneacutes augmentent Ces artefacts sont un meacutelange des voix qui nrsquoest gecircnant que lorsqursquoon les eacutecoute de maniegravere seacutepareacutee En effet lrsquoeacutecoute simultaneacutee de ces signaux syntheacutetiseacutes mecircme placeacutes agrave des positions distinctes sur un systegraveme de diffusion multicanal est tout agrave fait satisfaisante

Ce proceacutedeacute pour pouvoir ecirctre appliqueacute doit fonctionner en temps-reacuteel Cette

contrainte nrsquoa pas du tout eacuteteacute prise en compte lrsquoobjectif eacutetant de valider la faisabiliteacute drsquoune reconstruction Les programmes sous Matlab nrsquoont pas eacuteteacute optimiseacutes et ne respectent pas cette contrainte

43

Conclusion Nous avons preacutesenteacute dans ce rapport le principe et lrsquoapplication de plusieurs

meacutethodes drsquoanalyses spatiales de scegravenes ambisoniques conccedilues et reacutealiseacutee pendant le stage Le format HOA est en effet une repreacutesentation du champ acoustique deacutecomposeacute sur une base drsquoharmoniques spheacuteriques jusqursquoagrave un certain ordre agrave la maniegravere drsquoun deacuteveloppement limiteacute Il contient donc de maniegravere indirecte des indications spatiales qursquoon peut extraire avec des analyses comme lrsquoanalyse en composantes principales

Ces analyses nous permettent de deacuteterminer les positions des sources qui

composent la scegravene sonore Nous avons appliqueacute les reacutesultats de ces analyses agrave 2 types de synthegravese lrsquoune destineacutee aux transmissions bas deacutebit lrsquoautre agrave un traitement de restitution de la preacutecision spatiale dans le cas ougrave des ordres supeacuterieurs dont le but est drsquoaffiner la perception de localisation nrsquoauraient pas pu ecirctre transmis Ces algorithmes par le codage drsquoinformations spatiales qursquoils permettent pourront trouver bien drsquoautres applications dans la transmission et le codage ougrave la description du contenu est de plus en plus utiliseacutee (comme par exemple dans la norme MPEG)

Des ameacuteliorations sont possibles sur plusieurs points tout drsquoabord lrsquoexploitation

de toutes les composantes de lrsquoACP est agrave lrsquoeacutetude et semble pouvoir donner des reacutesultats inteacuteressants Drsquoautre part on a vu que le reacutesultat final est tregraves deacutependant de la bonne convergence de lrsquoalgorithme des k-moyennes utiliseacute pour traiter les donneacutees brutes de lrsquoanalyse en sous-bandes Or cet algorithme neacutecessite des reacuteglages tregraves fins et une connaissance a priori du nombre de sources est presque indispensable Drsquoautres algorithmes plus complexes de suivi de formes pourraient ecirctre avantageusement utiliseacutes pour deacutetecter dans tous les angles trouveacutes lesquels sont susceptibles de former une trajectoire

45

Annexe A

Deacuteveloppement du champ acoustique en harmoniques spheacuteriques

A1 Eacutequation drsquoonde en coordonneacutees spheacuteriques On se place dans lrsquoespace euclidien agrave 3 dimensions muni drsquoun systegraveme de

coordonneacutees spheacuteriques Un point M y est repeacutereacute par son rayon r son azimut θ et son eacuteleacutevation δ tels que repreacutesenteacutes sur la figure ci-dessous

- r est la norme du vecteur position rr crsquoest-agrave-dire la distance OM - [20[ πθ isin est lrsquoangle formeacute par le projeteacute du point sur le plan xOy et lrsquoaxe Ox

- ]2

2

[ ππδ minusisin est lrsquoangle formeacute par le plan xOy et le vecteur position2

Figure A1 - Systegraveme de coordonneacutees spheacuteriques

2 Cet angle diffegravere de lrsquoangle polaire usuel δπϕ minus=

2 habituellement pris entre lrsquoaxe Oz et le

vecteur position

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 46

Les relations entre les coordonneacutees spheacuteriques et les coordonneacutees carteacutesiennes sont

⎪⎩

⎪⎨

===

δδθδθ

sincossincoscos

zryrx

(A1)

On srsquointeacuteresse dans ce repegravere agrave lrsquoeacutequation de propagation des ondes acoustiques

de pression On se place dans les conditions classiques drsquoacoustique lineacuteaire (les variations de p sont petites par rapport agrave la pression atmospheacuterique) en supposant que lrsquoair est un fluide parfait (on y neacutegligera les pheacutenomegravenes dissipatifs) Dans une reacutegion de lrsquoespace ne comprenant pas de sources lrsquoeacutequation drsquoonde srsquoeacutecrit alors

0)(12

2

2 =⎟⎟⎠

⎞⎜⎜⎝

⎛partpart

minus∆ trptc

r (A2)

p eacutetant la pression et c la vitesse de propagation du son dans lrsquoair

Cette eacutequation devient dans le domaine freacutequentiel lrsquoeacutequation de Helmholtz

( ) 0)(2 =+∆ ωrpk r (A3)

ck ω

= eacutetant le nombre drsquoonde

En coordonneacutees spheacuteriques cette eacutequation srsquoeacutecrit

0sin1sin

sin11 2

2

2

222

2 =⎥⎦

⎤⎢⎣

⎡+

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart pk

rrrr

rr δθθθ

θθ (A4)

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques Drsquoapregraves [Bruneau 1983] elle admet des solutions agrave variables seacutepareacutees de la forme

)()()( δθ ΦΘ= rRp (A5) Ces solutions sont respectivement - pour la partie radiale une combinaison des fonctions de Bessel spheacuteriques de

premiegravere et seconde espegravece3 jn et nn

)()()( krBnkrAjrR nn += (A6) 3 Les fonctions de Bessel spheacuteriques de seconde espegravece sont eacutegalement appeleacutees fonctions de

Neumann

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 47

Ces fonctions sont deacutefinies comme suit

(A7)

Figure A2 - Fonctions de Bessel spheacuteriques pour les ordres 0 agrave 5 )(krjm

- pour la partie azimutale les fonctions )(θΘ

)sin()cos()( 21 θθθ ncnc +=Θ (A8) Eacutetant donneacute la deacutefinition de lrsquoangle Θ celui-ci doit neacutecessairement ecirctre de

peacuteriode 2π ))2()(( πθθ +Θ=Θ ce qui impose agrave n drsquoecirctre entier

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 48

- pour la partie polaire les fonctions de Legendre associeacutees )(sinδmnP

nm

nn

mn dPdP

)(sin)(sinsin)(sin

δδ

δδ = pour ⎩⎨⎧

gt=

nmavecnm 321

(A9)

ougrave les )(sinδnP sont les polynocircmes de Legendre de degreacute n en δsin deacutefinis par reacutecurrence

( )

11

22

1

0

sin)12()(sin)1(

1cos321)(sin

sin)(sin0)(sin

minus+ minus+=+

minus=

==

mmm mPPmPmet

P

PP

δδ

ϕδ

δδδ

(A10)

et de formule geacuteneacuterale

mm

m

mm dd

mP )1(sin

)(sin21)(sin 2 minus= δ

δδ (A11)

On peut appliquer aux fonctions )(sinδmnP la semi-normalisation de Schmidt

)(sin)()()(sin~ δεδ mnnmn P

nmnmP

+minus

= ougrave 10 =ε et 2=nε pour 1gen (A12)

En appariant les fonctions polaires et azimutales on deacutefinit les harmoniques

spheacuteriques de degreacute et drsquoordre)1(mnY 0gem 4 mnn lele0 et de degreacute et

drsquoordre (voir Figure A3)

)1(minusmnY 1gem

mnn lele1

)(sin~)sin()(

)(sin~)cos()()1(

)1(

δθδθ

δθδθ

mnmn

mnmn

PnY

PnY

=

=minus

(A13)

4 En geacuteneacuteral lorsque le degreacute et lrsquoordre ne sont pas eacutevoqueacutes conjointement on parle par abus de langage drsquoharmoniques drsquoordre m plutocirct que de degreacute m

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 49

soit

1)(sin

)()()12(2sin)(

)(sin)()()12(2cos)(

1)(sin)1()1()12(cos)(

)1(

)1(

1)1(

1

gt

⎪⎪⎩

⎪⎪⎨

+minus

+=

+minus

+=

=+minus

+=

minus

npourP

nmnmmnY

PnmnmmnY

npourPmmmY

mnmn

mnmn

mm

δθδθ

δθδθ

δθδθ

(A14)

La solution angulaire geacuteneacuterale srsquoeacutecrit alors sous la forme drsquoun deacuteveloppement sur

la base drsquoharmoniques spheacuteriques

( ) ( )sum minus

=minus+=Θ

1

1)1()1()( n

m mnmnmnmnn YBYBθ (A15) La solution geacuteneacuterale est alors la seacuterie de Fourier-Bessel

sum sum sum+infin

= = plusmn=

=0 0 1

)()( )()()(m

m

nmnmnm

m YBkrjikrpσ

σσ δθδθ (A16)

ougrave

intint⎪⎩

⎪⎨⎧

minusisin

isin

plusmnplusmn =

]2

2

[

[20[

)1()1( )()1()(

1

ππδ

πθ

δθδθ

S

mnm

mmn dSYpkrji

B (A17)

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 50

Tableau A1 - Expressions analytiques des harmoniques spheacuteriques pour les ordres 0 agrave 3

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 51

Figure A3 - Repreacutesentation des harmoniques spheacuteriques pour les ordres m = 0 agrave 3 Les

couleurs rouge et bleu indiquent respectivement des valeurs positives et neacutegatives

53

Annexe B

Compleacutements theacuteoriques sur le deacutecodage HOA

B1 Vecteur veacutelociteacute et vecteur eacutenergie Le vecteur veacutelociteacute est un indice de la direction apparente drsquoune source introduit

par Gerzon [Gerzon 1992] Il se calcule comme le rapport de la vitesse particulaire sur la pression acoustique

)()(

)()(1

δθδθ

δθδθ

ρ rprp

ki

rprv

cV nabla

minus=minus=rrr

(B1)

Dans le cas drsquoune onde plane le vecteur veacutelociteacute V

rest ainsi directement un

vecteur unitaire orienteacute vers la direction de provenance de lrsquoonde En geacuteneacuteralisant agrave une superposition drsquoondes planes en phase ou opposition de phase eacutemises par L haut-parleurs agrave eacutequidistance du point drsquoobservation on obtient la formule suivante

VVL

ll

L

lll

urg

ugV r

rr

==

sum

sum

=

=

1

1 (B2)

ougrave deacutesigne la direction du llur egraveme haut-parleur auquel est associeacute le gain gl et Vr Vur correspondent respectivement agrave la norme et agrave la direction du vecteur veacutelociteacute

Le vecteur eacutenergie est un autre indice de direction Il est deacutefinit par

EEL

ll

L

lll

urg

ugE r

rr

==

sum

sum

=

=

1

2

1

2

(B3)

Annexe B Compleacutements theacuteoriques sur le deacutecodage HOA 54

Il peut srsquointerpreacuteter comme une indication de la concentration de lrsquoeacutenergie ( ) et de sa direction moyenne de provenance (

Er

Eur ) On a toujours 1ltEr sauf dans le cas ougrave un seul haut-parleur contribue agrave la reconstruction (dans ce cas ) peut ecirctre consideacutereacute comme un indicateur de preacutecision de la localisation

1=Er Er

B2 Deacutecodages optimiseacutes La restitution la plus confortable drsquoun champ sonore veillera donc agrave maximiser

tout en essayant de garder le plus proche possible de 1 Lrsquooptimisation du deacutecodage consiste alors agrave multiplier chaque coefficient de la matrice de deacutecodage D (voir (111) par des gains calculeacutes drsquoapregraves des critegraveres drsquooptimisation

Er Vr

Ainsi le deacutecodage appeleacute max- maximise la norme du vecteur eacutenergie en

sacrifiant celle du vecteur veacutelociteacute puisqursquoon a dans ce deacutecodage (pour des configurations reacuteguliegraveres de haut-parleurs) Ce deacutecodage est donc avantageux par rapport au deacutecodage basique pour les hautes freacutequences ou dans le cas drsquoun auditoire eacutelargi Le deacutecodage in-phase va encore plus loin en cherchant agrave annuler complegravetement les contributions des haut-parleurs placeacutes agrave lrsquoopposeacute de la direction de provenance de lrsquoonde reproduite Ce critegravere est utile dans le cas drsquoune eacutecoute dans une position tregraves excentreacutee agrave laquelle on pourrait percevoir de faccedilon preacutedominante la contribution en opposition de phase drsquoun tel haut-parleur

Er

EV rr =

Ces diffeacuterents deacutecodages ont chacun des avantages et inconveacutenients Ainsi seul le

deacutecodage basique garantit = 1 le deacutecodage max- permet une preacutecision meilleure notamment en haute freacutequence et le deacutecodage in-phase est plus adapteacute agrave un auditoire plus large Jeacuterocircme Daniel [Daniel 2000] propose ainsi de changer le deacutecodage en fonction de la freacutequence et de lrsquoeacutetendue de la zone drsquoeacutecoute deacutesireacutee

Vr Er

Figure B1 - Deacutecodages les plus approprieacutes par sous-bande et en fonction de lrsquoeacutetendue de la

zone drsquoeacutecoute [Daniel 2000]

55

Annexe C

Analyse en composantes principales

C1 Espace des donneacutees Eacutegalement souvent appeleacutee transformeacutee de Karhunen-Loegraveve5 (TKL) lrsquoanalyse en

composantes principales (ACP) est une technique statistique de repreacutesentation drsquoinformation Introduite sur 2 variables par Pearson [Pearson 1900] elle a eacuteteacute eacutetendue par Hotelling [Hotelling 1933] Elle a pour but de caracteacuteriser des donneacutees drsquoun espace agrave N dimensions dans un sous-espace plus petit en minimisant les pertes drsquoinformation due agrave la projection crsquoest-agrave-dire en maximisant la variance projeteacutee Les donneacutees ainsi reacuteorganiseacutees deviennent indeacutependantes Les variables correacuteleacutees sont remplaceacutees par de nouvelles variables deacutecorreacuteleacutees et de variance maximale combinaisons lineacuteaires des variables initiales

Les donneacutees sont constitueacutees de n variables aleacuteatoires (dans notre cas des canaux)

et p reacutealisations ou individus (des eacutechantillons)

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

pn

p

ji

n

xx

x

xx

M

LLL

MOMNM

MLLM

MNMOM

LLL

1

111

(C1)

Ces donneacutees sont geacuteneacuteralement centreacutees et peuvent aussi ecirctre reacuteduites4 (on note

1x la moyenne de la variable et 1x )( 1xσ sa variance) Reacuteduire ou non le nuage de points (ie les p reacutealisations de la variable aleacuteatoire) est un choix de modegravele

5 Quelques rares sources mentionnent une diffeacuterence entre ACP et TKL en placcedilant celle-ci au

niveau du choix de la reacuteduction des donneacutees dans le cas dune ACP les donneacutees seraient centreacutees et reacuteduites alors qursquoelles seraient uniquement centreacutees pour une TKL

Annexe C Analyse en composantes principales 56

- si on ne reacuteduit pas le nuage une variable agrave forte variance pourrait tirer tout lrsquoeffet de lrsquoACP agrave elle

- si on reacuteduit le nuage une variable qui ne serait qursquoun bruit se retrouverait avec une variance apparente eacutegale agrave une variable informative

M est centreacutee

⎥⎥⎥

⎢⎢⎢

minusminusminus

minusminus=

npn

pi

ji

nn

xxxxxx

xxxxM

K

MM

K

11

11

11

ˆ (C2)

M~ est centreacutee et reacuteduite

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

minusminus

minus

minusminus

=

)()(

)(

)()(~

1

11

1

1

111

n

npn

pi

ij

i

n

nn

xxx

xxx

xxx

xxx

xxx

M

σσ

σ

σσ

K

MM

K

(C3)

On multiplie ensuite la matrice obtenue par sa transposeacutee pour obtenir - La matrice de covariance MMC t

vˆˆ sdot=

- La matrice de correacutelation MMC tr

~~ sdot= Ces matrices sont carreacutees (N x N) symeacutetriques et reacuteelles Elles sont donc

diagonalisables dans une base orthonormeacutee 6 Le principe de lrsquoACP est alors de trouver un axe u issu drsquoune combinaison lineacuteaire

des tel que le critegravere drsquoinertie du nuage autour de cet axe soit maximal Le critegravere drsquoinertie couramment utiliseacute est la variance Il faut donc trouver lrsquoaxe qui porte le maximum de variance crsquoest-agrave-dire lrsquoaxe u tel que la projection du nuage sur cet axe ait une variance maximale

nx

6 Nos donneacutees eacutetant ici des valeurs drsquoeacutechantillons elles sont par nature centreacutees et reacuteduites On

formera donc naturellement la matrice de correacutelation

C2 Diagonalisation 57

C2 Diagonalisation Pour alleacuteger lrsquoeacutecriture de la suite de cette partie nous consideacutererons que les

variables ont eacuteteacute centreacutees et si besoin reacuteduites et nous noterons ces variables

transformeacutees (ainsi

ix ix

iii xxx minuslarr ou bien )( i

iii x

xxxσ

minuslarr ) On fera de mecircme pour M

( ou bien MM ˆlarr MM ~larr ) et C ( vCC larr ou bien rCC larr ) La projection drsquoun eacutechantillon sur un axe u srsquoeacutecrit ix

uMxiu sdot=)(π (C4) La variance empirique de )( iu xπ vaut donc

uMMuxx ttiu

tiu sdotsdotsdot=sdot )()( ππ (C5)

Or on a vu que est diagonalisable dans une base orthonormeacutee donc

on peut noter P le changement de base associeacute et ∆ la matrice diagonale formeacutee de son spectre Ainsi

MMC t=

n

i 1)(λ PPMMC tt ∆==

)()()()( PuPuuPPuxx ttt

iut

iu sdot∆sdot=sdot∆sdot=sdotππ (C6) On pose v = Pu Chercher lrsquoaxe u qui maximise )( iu xπ revient donc agrave chercher le

vecteur v qui maximise ougravevvt ∆ )( 1 ndiag λλ K=∆ avec les iλ rangeacutes par ordre deacutecroissant Ce vecteur est trivialement le premier vecteur unitaire et on a alors

1λ=∆vvt

Ainsi le vecteur qui porte la plus grande part drsquoinertie du nuage est le premier

vecteur propre de C (premier par norme deacutecroissante) De mecircme le deuxiegraveme vecteur qui explique la plus grandelt part de lrsquoinertie restante est le deuxiegraveme vecteur propre de C Finalement la question de lrsquoACP se ramegravene agrave un problegraveme de diagonalisation de la matrice de correacutelation

C3 Code Matlab

function [vep vap] = pca(f N) f donneacutees N nombre de composantes agrave garder cor = f f formation de la matrice de correacutelation [vep vap] = eig(cor) calcul des vecteurs (vep) et valeurs (vap) propres [vap ind] = sort(diag(vap)) tri des valeurs propres par ordre croissant vap = flipud(vap) disposition inverse par ordre drsquoimportance vep = vep( flipud(ind)) classement en conseacutequence des vecteurs propres vep = vep( 1N) on ne garde que les N premiers vecteurs propres

Annexe C Analyse en composantes principales 58

59

Annexe D

Analyse en sous-bandes

D1 La transformeacutee de Fourier agrave court terme (TFCT) Pour affiner lrsquoanalyse les signaux sont donc deacutecoupeacutes en bandes de freacutequence par

TFCT La TFCT consiste agrave effectuer des transformeacutees de Fourier discregravetes sur des portions de signal fenecirctreacutees reacuteguliegraverement espaceacutees

On rappelle que la transformeacutee de Fourier drsquoun signal x(t) est deacutefinie (lorsque

lrsquointeacutegrale existe) par

int+infin

infinminus

minus= dtetxfX ftiπ2)()( (D1)

La transformeacutee de Fourier agrave temps discret (TFTD) drsquoun signal x(t) srsquoeacutecrit

sum+infin

minusinfin=

minus=n

fnienxfX π2)()( (D2)

La transformeacutee de Fourier discregravete (TFD) drsquoun signal discret x(k) est deacutefinie par

sum+infin

minusinfin=

minus=

n

Nkni

enxkXπ2

)()( (D3)

La TFCT discregravete est une TFD observeacutee sur une fenecirctre wa de taille N

summinus

=

minus+=

1

0

2)())(()(

N

n

Nnki

aaa enwtnxkXπ

ττ (D4)

ougrave )(taτ est lrsquoinstant drsquoanalyse

Annexe D Analyse en sous-bandes 60

Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT [Laroche 1995]

D2 Synthegravese par addition-recouvrement Lors de la synthegravese apregraves le deacutecoupage et lrsquoanalyse des fenecirctres on cherche agrave

reconstruire le signal temporel agrave partir de sa repreacutesentation freacutequentielle Pour cela on utilise la meacutethode OLA (overlap and add addition-recouvrement) qui consiste agrave prendre la TFCT inverse des spectres Xt puis agrave additionner les signaux obtenus apregraves les avoir multiplieacutes par une fenecirctre de pondeacuteration en les faisant se recouvrir partiellement

Le reacutesultat est donneacute par

sum=

minusminus=T

tsss tnxtnwnx

s1

))((~))(()(~ ττ τ (D5)

avec )()( tt as ττ = et summinus

=

=1

0

2))((~1)(~ N

k

Nkni

s ektXN

nxs

π

τ τ

Lors de la mise en œuvre de ce traitement il faut srsquoassurer drsquoecirctre en mesure de

reconstruire parfaitement un signal lorsqursquoaucune transformation ne lui est appliqueacutee Le critegravere de reconstruction parfaite condition suffisante est alors

sum=

=minusminusT

tasaa tnwtnw

11))(())(( ττ quelque soit n (D6)

D2 Synthegravese par addition-recouvrement 61

Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add [Laroche 1995]

Plusieurs paramegravetres sont agrave choisir avec soin Le premier drsquoentre eux est le type

de fenecirctre agrave utiliser Les diffeacuterentes options qui se preacutesentent agrave nous sont - la fenecirctre rectangulaire qui preacutesente dans son spectre le lobe principal le plus

eacutetroit mais des lobes secondaires non neacutegligeables - la fenecirctre de Hamming au lobe principal un peu plus large mais pour laquelle le

1er lobe secondaire se situe agrave -43 dB - la fenecirctre de Hann (ou cosinus sureacuteleveacute) qui ressemble agrave la preacuteceacutedente avec un

1er lobe secondaire plus fort mais une pente de 18 dB par octave pour les lobes suivants

- les fenecirctres de Blackman-Harris aux lobes secondaires tregraves bas mais au lobe principal plus large

Fenecirctre Lobe 2aire

(dB) Pente

(dBoct) Bande passante

agrave 6 dB (bins) Rectangulaire -13 -6 121 Triangulaire -27 -12 178

Hann -32 -18 200 Hamming -43 -6 181

Blackman-Harris 4 -92 -6 272

Tableau D1 - Caracteacuteristiques des principales fenecirctres drsquoanalyse [Harris 1978] Le meilleur compromis est donc dans notre contexte la fenecirctre de Hann ou celle

de Hamming

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 32: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

Chapitre 3 Description des analyses 26

20

0

20

0

20

0

Figure 36 - Angles drsquoune scegravene reacuteelle constitueacutee drsquoun bruit parcourant le cercle trouveacutes agrave partir drsquoune ACP sur les ordres 0 et 1 (en haut) 0 et 2 (au milieu) et 0 et 4 (en bas) Le

numeacutero de trame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On retrouve qursquoune limitation des ordres HOA supeacuterieurs issus drsquoun enregistrement

microphonique est la restitution des basses freacutequences

34 Traitement des donneacutees

341 Algorithme des k-moyennes Agrave lrsquoissue de lrsquoanalyse en composantes principales on reacutecupegravere avec la premiegravere

des meacutethodes exposeacutees au chapitre preacuteceacutedent des angles correspondants aux positions des sources preacutedominantes agrave raison drsquoune valeur par fenecirctre et par bande de freacutequence Il faut agrave partir de ces donneacutees parvenir agrave isoler les sources crsquoest-agrave-dire agrave deacuteterminer quels sont les angles pertinents et examiner quels sont ceux qui agrave une certaine toleacuterance pregraves sont preacutesents dans plusieurs bandes de freacutequence etou plusieurs fenecirctres temporelles

Pour pouvoir exploiter ces donneacutees spatiales nous avons utiliseacute lrsquoalgorithme des

k-moyennes (ou k-means) [MacQueen 1967] sur les angles pondeacutereacutes par des critegraveres de pertinence Cet algorithme fonctionne de la maniegravere suivante

Initialisation choix de k barycentres (les k moyennes) Reacutepeacuteter Associer chaque eacuteleacutement au barycentre le plus proche Recalculer les positions des barycentres Jusqursquoagrave ce que les barycentres soient stables (ou au bout de t iteacuterations)

34 Traitement des donneacutees 27

Lrsquoavantage de cet algorithme est drsquoecirctre peu glouton puisqursquoil converge en O(tkn) ougrave t est le nombre drsquoiteacuterations k le nombre de centres et n le nombre de points (geacuteneacuteralement on a t k ltlt n) Par contre il est plutocirct sensible aux exceptions un point aberrant tirera agrave lui la moyenne auquel il aura eacuteteacute associeacute Il faut donc faire en sorte que ces points erroneacutes soient aussi rares que possibles Crsquoest pourquoi les angles traiteacutes sont pondeacutereacutes par 2 critegraveres de pertinence

La pondeacuteration des angles fournis en entreacutee de lrsquoalgorithme des k-moyennes se

fait de maniegravere simple en reacutepeacutetant ces angles un nombre de fois (de 0 agrave 10) proportionnel agrave un critegravere Ainsi un angle tregraves pertinent sera dupliqueacute et sera preacutesent plusieurs fois dans la liste des donneacutees traiteacutees attirant ainsi agrave lui la position du barycentre le plus proche Au contraire un angle trop peu pertinent ne sera pas reacutepeacuteteacute voir mecircme sera enleveacute de la liste

Le seul problegraveme de cet algorithme est qursquoil neacutecessite la connaissance de k crsquoest-

agrave-dire du nombre de sources qui composent la scegravene Une deacutetermination automatique se basant sur la reacutepeacutetition de lrsquoalgorithme avec un k croissant a eacuteteacute testeacutee mais le critegravere drsquoarrecirct reposant sur la dispersion des points autour des barycentres nrsquoeacutetant pas assez robuste cette meacutethode a provisoirement eacuteteacute mise de cocircteacute

342 Critegraveres de pertinence Les 2 critegraveres de pondeacuteration choisis sont lrsquoeacutenergie de la sous-bande dans la

fenecirctre donneacutee et le rapport de la norme de la 1egravere composante (la composante principale) de lrsquoACP sur la somme des normes de toutes les composantes

En effet un angle est trouveacute dans chaque sous-bande de chaque fenecirctre mecircme si

le signal y est tregraves faible Lrsquoangle trouveacute sera alors tregraves peu repreacutesentatif de la direction drsquoune source puisqursquoil indiquera la direction drsquoun bruit Lrsquoeacutenergie doit donc ecirctre prise en compte pour ne conserver que les angles trouveacutes dans des bandes comportant un signal suffisant

La norme relative de la 1egravere composante de lrsquoACP rend quant agrave elle compte du

poids relatif de cette composante par rapport aux autres Ainsi si 2 sources sont preacutesentes dans une bande donneacutee la 1egravere composante sera agrave peine plus marqueacutee que la 2egraveme Ceci peut ecirctre calculeacute en prenant simplement le rapport de la 1egravere valeur propre sur la somme des valeurs propres

On peut noter que la norme de la 1egravere composante ne se deacutetache nettement que

lorsqursquoun son est preacutesent dans la bande consideacutereacutee On peut alors se demander si lrsquoeacutenergie doit ecirctre prise en compte ou si lrsquoinformation qursquoelle contient nrsquoest comprise dans le 2egraveme critegravere En fait la norme relative est un critegravere tregraves bruiteacute et consideacuterer lrsquoeacutenergie par ailleurs permet de nuancer ces artefacts et constitue une base solide de pondeacuteration

Chapitre 3 Description des analyses 28

80

40

0

Figure 37 - Repreacutesentation temps-freacutequence des angles du son deacutecrit en 332 Letrame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On peut donc v

par trame et par bande chacun eacutetant le reacutesultat drsquoune ACP crsquoest-agrave-dire la 1egravere

Figure 38 - Eacutenergie de ce mecircme son On peut voir une basse en notes tenues uneet une batterie qui produit des sons secs dans un spectre plus aigu

80

40

0

80

40

0

Figure 39 - Norme relative de la 1egravere composante de ce mecircme son Les impacts de batterie (dans lrsquoaigu) ressortent davantage

π 0 minusπ

numeacutero de oir un angle direction

voix aiguumle

34 Traitement des donneacutees 29

Figure 310 - Pondeacuteration appliqueacutee agrave lrsquoentreacutee des k-moyennes calculeacutee ici comme

le simple produit de lrsquoeacutenergie et de la norme relative

80

40

0

343 Lissages

Pour faire face au bruit ineacutevitable dans les reacutesultats il faut lisser les donneacutees Ces

lissages temporels correspondent agrave des hypothegraveses de stabiliteacute des sources qui sont supposeacutees ecirctre fixes ou mobiles relativement lentement (dans une mesure agrave parameacutetrer)

Un premier lissage peut ecirctre opeacutereacute avant le traitement par lrsquoalgorithme des k-

moyennes Le filtre choisi est un filtre meacutedian de maniegravere agrave eacuteliminer les points aberrants tout en conservant les vraies valeurs des points coheacuterents Ce lissage est appliqueacute sur chaque sous-bande aux angles et ne tient pas compte des critegraveres de pertinence Il est donc utiliseacute avec parcimonie et peut mecircme ecirctre eacuteviteacute en reacuteglant de maniegravere adeacutequate les critegraveres de pondeacuteration agrave lrsquoentreacutee des k-moyennes

Le deuxiegraveme lissage srsquoeffectue agrave lrsquoentreacutee des k-moyennes en mecircme temps que les

critegraveres de pondeacuteration Il consiste agrave appliquer les k-moyennes non pas sur une fenecirctre donneacutee mais sur plusieurs fenecirctres conseacutecutives anteacuterieures et posteacuterieures en donnant plus de poids agrave la fenecirctre courante Dans la pratique les poids donneacutes aux diffeacuterentes fenecirctres sont eacutetablis par une gaussienne centreacutee sur la fenecirctre courante et de largeur agrave deacuteterminer (en fonction notamment de la dureacutee drsquoune fenecirctre et du type de scegravene analyseacute)

35 Exploitation de toutes les composantes de lrsquoACP Les analyses preacutesenteacutees preacuteceacutedemment ont toutes exploiteacute uniquement la

composante principale extraite par lrsquoACP Or cette analyse fournit des informations plus complegravetes par lrsquointermeacutediaire des autres composantes dont on peut tirer parti pour isoler plusieurs sources au sein drsquoune mecircme bande Cette approche est toujours en deacuteveloppement dans ce stage et nrsquoa pas encore donneacute pleine mesure des reacutesultats qursquoelle laisse entrevoir

Les composantes de lrsquoACP indiquent des directions qui correspondent aux

diffeacuterentes sources composant la scegravene sonore Les vecteurs propres de la matrice de correacutelation donnent ainsi les combinaisons lineacuteaires des signaux HOA permettant de

Chapitre 3 Description des analyses 30

seacuteparer de la meilleure faccedilon possible ces sons Ces directions peuvent ecirctre alors utiliseacutees pour former des directiviteacutes isolant au mieux ces sources

aBS sdot= (31)

ougrave la matrice a contient les vecteurs propres de la matrice de correacutelation (voir Annexe C) le vecteur B contient les signaux HOA et le vecteur S contient les sources extraites

⎟⎟⎟

⎜⎜⎜

=⎟⎟⎟

⎜⎜⎜

⎛=

⎥⎥⎥

⎢⎢⎢

⎟⎟⎟

⎜⎜⎜

⎟⎟⎟

⎜⎜⎜

⎛=

10

1001

1

ML

N

B

BB

S

SSuua MML (32)

On obtient ainsi des lobes drsquoautant plus eacutetroits que lrsquoordre est eacuteleveacute chacun

dirigeacute vers une source et permettant de lrsquoisoler le plus possible des contributions des autres sources La Figure 311 preacutesente les directiviteacutes ainsi trouveacutees par une ACP en pleine bande Une analyse en sous-bande permet une plus grande distinction des sources mais une seacuteparation diffeacuterente entre les bandes est dangereuse car elle risque de dissocier spatialement plusieurs parties drsquoun mecircme son

Figure 311 - Directiviteacutes seacuteparant ideacutealement 4 sources placeacutees agrave 17 73 195 et -58deg

pour une scegravene virtuelle encodeacutee agrave lrsquoordre 4 Ce principe se heurte neacuteanmoins aux limites de seacuteparation lieacutees agrave lrsquoordre

drsquoencodage en effet 2 sources ne pourront pas ecirctre seacutepareacutees si elles sont trop proches comme en teacutemoigne la largeur des lobes principaux Les lobes secondaires traduisent eacutegalement un meacutelange des sources isoleacutees La figure ci-dessus montre ainsi que la source placeacutee agrave 17deg (en vert) sera preacutesente de maniegravere non neacutegligeable dans le signal senseacute contenir la source placeacutee agrave -58deg (en bleu) en raison du lobe secondaire bleu important

31

Chapitre 4

Reacutesultats et applications

41 Illustration et critique des reacutesultats obtenus

411 Avant-propos Sans notification particuliegravere les reacutesultats preacutesenteacutes ont eacuteteacute obtenus avec un pas

de 50 ms une analyse en 80 bandes avec une FFT sur 8192 points Une taille de FTT plus grande et un plus grand nombre de bande augmente la qualiteacute de lrsquoanalyse un pas plus petit ameacuteliore sa preacutecision temporelle mais les reacutesultats sont moins fiables et un lissage plus important srsquoimpose alors Ces paramegravetres ont eacuteteacute reacutegleacutes apregraves de multiples essais sur des scegravenes diverses

Les reacutesultats sont preacutesenteacutes ici uniquement sous la forme de graphiques nous ne

pouvons donc repreacutesenter que les angles trouveacutes agrave la sortie de lrsquoalgorithme des k-moyennes

412 Scegravene 2D artificielle agrave 4 sources fixes La premiegravere scegravene est une scegravene artificielle composeacutee de 4 sons fixes placeacutes agrave -70

-10 45 et 110deg Ces sons (une basse une voix une guitare et une batterie) ont eacuteteacute choisis pour leur varieacuteteacute spectrale et leur varieacuteteacute drsquoattaque Elle a en outre le meacuterite drsquoecirctre reacutealiste et de constituer une seacutequence musicale (chaque son nrsquoest pas une meacutelodie indeacutependante)

On voit sur la Figure 41 ci-dessous que les angles trouveacutes sont proches des

angles theacuteoriques Lrsquoun des sons (agrave 45deg) est quasiment nul avant la 100egraveme trame sa position est alors moins facile agrave deacuteterminer plus preacuteciseacutement une position approximative est trouveacutee et correspondrait exactement agrave la position du bruit (45deg) si lrsquoincertitude de mesure tregraves grande pour un son aussi faible ne rendait la deacutetermination si ardue On mesure un eacutecart-type de 22deg sur cet exemple (en excluant le deacutebut du son agrave 45deg)

Chapitre 4 Reacutesultats et applications 32

Figure 41 - Angles theacuteoriques (en pointilleacutes rouge) et calculeacutes (en trait bleu) pour une scegravene

constitueacutee de 4 sons fixes longue de 11s

413 Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile

Figure 42 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) de la scegravene agrave

4 sources dont 1 mobile deacutecrite en 332 Cette scegravene est deacutecrite en 332 On a ici demandeacute aux k-moyennes de renvoyer 5 barycentres par trame alors que

seules 4 sources eacutetaient preacutesentes dans le but de se garantir une marge vis-agrave-vis des erreurs de deacutetection Cette 5egraveme direction nrsquoest pas du tout gecircnante elle indique une direction qui ne contient pas de source et crsquoest donc un son tregraves faible qui est ainsi pointeacute Apregraves une eacuteventuelle extraction le signal ne sera donc pas du tout gecircnant

41 Illustration et critique des reacutesultats obtenus 33

On peut remarquer que quand le son mobile se rapproche drsquoun son fixe la deacutetection est moins bonne il y a une fusion entre les 2 sons Mais encore une fois lors de lrsquoextraction lrsquoisolation drsquoun des sons englobera lrsquoautre son ce qui ne posera pas de problegraveme pour les objectifs fixeacutes aucune source nrsquoeacutetant oublieacutee En effet la seacuteparation de sources nrsquoest pas un objectif ici mais un moyen pour preacuteciser les positions des sources ce qui sera fait correctement mecircme si 2 sources sont pointeacutees par 1 seule direction

414 Scegravene 3D artificielle agrave une source et bruit de fond

La scegravene dont la position drsquoune source a eacuteteacute extraite ci-dessous est une scegravene virtuelle en 3D constitueacute drsquoun son (une voix) qursquoon a fait se deacuteplacer par paliers tout drsquoabord vers le haut de 0deg agrave 45deg et vers la gauche de 0deg agrave 90deg puis redescendre jusqursquoagrave 35deg en continuant son cheminement vers la gauche jusqursquoagrave 120deg et enfin finir la descente de 35deg agrave 0deg en la laissant agrave 120deg Agrave cette source a eacuteteacute superposeacutee une ambiance spatialiseacutee de hall drsquoaeacuteroport initialement enregistreacutee en 2D (au format 51) mais transformeacutee pour contenir des composantes verticales Cette ambiance deacutecorreleacutee de la source avait pour but de tester la robustesse de lrsquoanalyse Elle eacutetait agrave 15 dB en-dessous du niveau de la voix

Figure 43 - Azimut et eacuteleacutevation theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun

son en 3D artificiel de 9s placeacute dans une ambiance bruyante On remarque que lrsquoanalyse est tregraves correcte Il nrsquoy a pas drsquoeacutecart important entre

les angles theacuteoriques et ceux calculeacutes On note toutefois que le lissage agrave lrsquoentreacutee des k-moyennes a pour effet de gommer les creacuteneaux et drsquoaplatir quelque peu la courbe drsquoeacuteleacutevation ceci nrsquoest pas vraiment gecircnant car de tels sauts dans la position drsquoune source ne sont pas du tout reacutealistes (ils peuvent caracteacuteriser des bruits de pas mais de tels impacts sont courts et on peut srsquoattendre agrave ce que la courbe suive leur position aux instants ougrave ils sont eacutemis)

Chapitre 4 Reacutesultats et applications 34

415 Scegravene 2D naturelle agrave une source Les scegravenes naturelles sont on lrsquoa vu plus deacutelicates agrave exploiter car on ne peut pas

garantir la preacutecision de la position theacuteorique agrave retrouver par le calcul et on ne peut donc pas calculer la preacutecision de lrsquoanalyse Seuls les enregistrements utilisant la table tournante (voir 232) permettent une mesure preacutecise de la position de lrsquoangle Ces enregistrements on pu confirmer la validiteacute de lrsquoanalyse pour des scegravenes reacuteelles on trouve ici un eacutecart-type de 25deg

Figure 44 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun bruit blanc

tournant autour du micro enregistreacute en chambre sourde Cette analyse a eacuteteacute reacutealiseacutee par sous-bandes mais sur une eacutetendue freacutequentielle

plus reacuteduite puisqursquoon srsquoest limiteacute aux possibiliteacutes offertes par le microphone La scegravene a donc eacuteteacute analyseacutee de 200 agrave 10 000 Hz

42 Quelques applications

421 Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre 2 agrave partir de lrsquoordre 1

Une fois les positions des sources connues la porte est ouverte agrave de nombreuses

applications La connaissance de ces positions permet en effet de syntheacutetiser artificiellement des composantes manquantes ou non transmises La premiegravere synthegravese deacuteveloppeacutee est celle des signaux U et V composant la partie horizontale de lrsquoordre 2 agrave partir de lrsquoordre 1 et de paramegravetres issus de lrsquoanalyse pour une source en 2D (des angles dans de cas)

42 Quelques applications 35

Figure 45 - Principe de lrsquoameacutelioration de la preacutecision spatiale

Le principe de la synthegravese est drsquoextraire les sources originales agrave partir de W X Y

et des angles (un angle par trame et par sous-bande) Ceci peut ecirctre reacutealiseacute de maniegravere approcheacutee en deacutecodant lrsquoordre 1 dans les directions des sources Ce deacutecodage revient agrave calculer les signaux qui devraient alimenter des haut-parleurs qui seraient placeacutes agrave ces positions dans le cas drsquoune restitution (voir 122) crsquoest-agrave-dire agrave former des directiviteacutes dans les directions des sources Dans la plupart des cas ce deacutecodage qui fait intervenir une pseudo-inversion de Moore-Penrose (111) est imparfait les sources se retrouvant leacutegegraverement meacutelangeacutees On peut comparer cette seacuteparation agrave celle que ferait un ensemble de microphones agrave directiviteacute hypercardioiumlde coiumlncidents

Figure 46 - Directiviteacutes eacutequivalentes agrave la seacuteparation de 4 sources agrave lrsquoordre 1 Ces sources seacutepareacutees vont ensuite constituer toujours placeacutees aux angles

deacutetermineacutes agrave lrsquoanalyse une scegravene virtuelle qursquoon va encoder agrave lrsquoordre 2 De cet encodage on ne conservera que les signaux manquants dans notre exemple les signaux du 2nd ordre U et V Ainsi la scegravene spatialiseacutee sera au final constitueacutee des signaux W X et Y drsquoorigine (transmis) et des signaux U et V syntheacutetiseacutes

Chapitre 4 Reacutesultats et applications 36

422 Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave partir de W Reconstruire une scegravene sonore spatialiseacutee agrave partir drsquoun unique canal mono est

alors difficile et le reacutesultat nrsquoest appreacuteciable que pour des scegravenes simples Il faut pour cela que les diffeacuterentes sources composant cette scegravene aient des supports spectraux aussi distincts que possible Les diffeacuterentes sous-bandes sont alors placeacutees agrave un certain angle transmis en parallegravele et crsquoest cette scegravene reconstitueacutee qui va ecirctre encodeacutee au 1er ordre de maniegravere agrave recreacuteer les signaux X et Y

Figure 47 - Principe de la restitution de lrsquoordre 1 agrave partir du signal mono W Ce scheacutema rappelle une meacutethode deacuteveloppeacutee dans le cas steacutereacuteo appeleacutee BCC

(Binaural Cue Coding) [Faller and Baumgarte 2002] Le principe est drsquoextraire et coder des informations permettant la reconstruction binaurale drsquoun signal agrave savoir les diffeacuterences interaurales drsquointensiteacute et de temps (Interaural LevelTime Difference ILD et ITD) qui correspondent dans le cas drsquoune restitution sur un casque aux diffeacuterences drsquointensiteacute et de temps inter-canal (Inter-Channel LevelTime Difference ICLD et ICTD) qui sont mesureacutees agrave partir drsquoune analyse en sous-bandes Les auteurs y ont plus reacutecemment associeacute un indice de correacutelation interaurale mesureacute agrave partir de la correacutelation inter-canal (ICC) afin de caracteacuteriser la preacutecision spatiale (la ldquolargeurrdquo drsquoune source)

Figure 48 - Scheacutema de principe de la meacutethode BCC [Faller and Baumgarte 2003]

On observe en pratique des deacutefauts lieacutes agrave la brutaliteacute de la proceacutedure une sous-

bande ne peut ecirctre que placeacutee agrave la position indiqueacutee et ne peut pas rester floue diffuse ou encore ecirctre placeacutee agrave plusieurs endroits Pour y remeacutedier nous avons ajouteacute 2 traitements agrave la synthegravese Tour drsquoabord nous avons appliqueacute un leacuteger lissage soulageant les effets deacutesagreacuteables dus au saut du contenu drsquoune sous-bande drsquoun endroit agrave un autre entre de 2 fenecirctres conseacutecutives Les positions varient alors de faccedilon plus souple au sein drsquoune mecircme sous-bande traduisant une hypothegravese de continuiteacute spatiale (pas de deacuteplacement brusque) La contrepartie est que cette hypothegravese est lieacutee agrave une hypothegravese de continuiteacute spectrale

42 Quelques applications 37

La 2egraveme ameacutelioration concerne le positionnement des sources En incluant dans la transmission un critegravere de pertinence on peut savoir srsquoil est raisonnable de placer une sous-bande agrave un angle preacutecis ou bien si lrsquoanalyse eacutetait flou agrave son sujet auquel cas un positionnement impreacutecis serait preacutefeacuterable Le paramegravetre choisi est une combinaison des critegraveres eacutevoqueacutes en 342 il nous permet de placer la sous-bande de maniegravere plus ou moins prononceacutee

43 Comparaison avec une meacutethode existante Certains auteurs ont deacutejagrave essayeacute drsquoanalyser un contenu ambisonique pour

retrouver les positions des sources Ville Pulkki a ainsi deacutecrit dans [Pulkki and Faller 2006] une meacutethode drsquoanalyse du B-format baseacutee sur lrsquoeacutetude des amplitudes des signaux W X Y et Z

Figure 49 - X et Y dans le cas drsquoune sinusoiumlde placeacutee agrave 15deg (agrave gauche) et 120deg (agrave droite)

Les figures ci-dessus montrent les relations drsquoamplitudes (algeacutebriques) qui relient

X et Y agrave lrsquoangle de la source On voit que lrsquoanalyse de ces amplitudes respectives permet de retrouver la position de la source en effet on a pour une source unique les relations de lrsquoeacutequation (11) rappeleacutee ici

⎪⎪

⎪⎪

=

=

=

=

δ

δθ

δθ

sin2

cossin2

coscos2

SZ

SY

SX

SW

(41)

On peut donc theacuteoriquement retrouver les valeurs de θ et δ par relations

trigonomeacutetriques Ainsi on a

⎪⎪⎩

⎪⎪⎨

=

=

2)sin(

)tan(

WZ

XY

δ

θ (42)

Chapitre 4 Reacutesultats et applications 38

On peut donc trouver les angles θ et δ agrave π pregraves Pour lever lrsquoambiguiumlteacute une eacutetude de signe est neacutecessaire Mais dans le cas de θ le signe de X et de Y agrave δ fixeacute deacutepend aussi bien de θ que S Il faut srsquointeacuteresser aux signes de θcos et θsin crsquoest-agrave-dire

aux signes de WX et

WY Dans la pratique on srsquointeacuteressera aux signes de et

pour se preacutevenir des divisions par zeacuteros

XW sdot YW sdot

XW sdot et YW sdot sont proportionnels agrave toujours positif

2S

Les auteurs deacutecrivent eacutegalement dans leur article un critegravere appeleacute diffuseness qui

peut ecirctre compareacute agrave un critegravere de pertinence inverseacute Ce paramegravetre calculeacute par agrave 1 - R ougrave R est un rapport de normes est tregraves proche du critegravere de norme relative deacutecrit en 342 Il peut donc ecirctre utiliseacute de la mecircme faccedilon et permettre ainsi une pleine comparaison

Cette meacutethode a eacuteteacute impleacutementeacutee pour pouvoir ecirctre compareacutee avec la meacutethode

par ACP Tous les paramegravetres ont scrupuleusement eacuteteacute gardeacutes identiques et plusieurs reacuteglages ont eacuteteacute testeacutes Les courbes ci-dessous preacutesentent les reacutesultats des analyses de la scegravene deacutecrite en 332 avec un pas de 50ms un overlap de 50 un NFFT de 2048 et 40 bandes freacutequentielles Nous avons repreacutesenteacute tous les angles trouveacutes crsquoest-agrave-dire un par bande et par trame pour srsquoaffranchir de la seacutelection des k-moyennes

π

0

minusπ

Figure 410 - Angles trouveacutes par lrsquoalgorithme de [Pulkki and Faller 2006] Le diamegravetre du point correspondant agrave la pertinence

43 Comparaison avec une meacutethode existante 39

π

0

minusπ

Figure 411 - Angles trouveacutes par une ACP pour la mecircme scegravene On remarque que les points excentriques sont moins nombreux et plus rarement trouveacutes comme pertinents

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee

441 Position du problegraveme

Une application directe de ces analyses a eacuteteacute deacuteveloppeacutee pour la confeacuterence audio

spatialiseacutee La confeacuterence audio utilise en effet la spatialisation pour permettre une meilleure seacuteparation par lrsquooreille des diffeacuterents locuteurs Ainsi si plusieurs personnes parlent en mecircme temps il sera tregraves difficile de comprendre chacun individuellement si ces voix sont restitueacutees en mono mais on pourra focaliser lrsquoattention sur chacune drsquoentre elles si elles sont seacutepareacutees spatialement (crsquoest lrsquoeffet cocktail party [Cherry 1953])

Lrsquoobjectif eacutetait de veacuterifier qursquoil eacutetait possible de conserver la spatialisation drsquoune

confeacuterence en nrsquoayant transmis qursquoun downmix mono des signaux Ce concept semble se rapprocher de celui deacutecrit en 422 mais une diffeacuterence fondamentale les seacutepare la confeacuterence audio spatialiseacutee nrsquoest pas codeacutee au format ambisonic mais les signaux traiteacutes sont directement les sons provenant des diffeacuterents locuteurs crsquoest-agrave-dire les sources elles-mecircmes Ainsi lrsquoanalyse ne porte plus sur une scegravene spatialiseacutee mais sur des signaux seacutepareacutes Il nrsquoy a ainsi plus drsquoindices spatiaux agrave trouver

Avoir accegraves aux sources permet drsquoobtenir des informations plus preacutecises pour

permettre une seacuteparation apregraves la transmission Comme nous lrsquoavons vu lrsquoanalyse drsquoune scegravene spatialiseacutee ne permet que dans drsquoultimes cas agrave la seacuteparation des sources ce qui est ici notre point de deacutepart et sera en fait notre point drsquoarriveacutee En effet nous tenterons de retrouver les sources seacutepareacutees apregraves la transmission de maniegravere agrave pouvoir par la suite les spatialiser agrave loisir (voir Figure 413)

Chapitre 4 Reacutesultats et applications 40

442 Solution proposeacutee Les paramegravetres extraits ne sont donc plus des positions de sources Nous avons

choisi de mesurer puis transmettre lrsquoeacutenergie de chaque signal dans chaque sous-bande en parallegravele du downmix En effet une bonne seacuteparation sera possible si lrsquoon sait quelle proportion de chaque source compose chaque sous-bande du signal mono

Figure 412 - Scheacutema de principe drsquoune confeacuterence audio spatialiseacutee

Figure 413 - Scheacutema ameacutelioreacute (deacutebit reacuteduit)

en pointilleacutes informations compleacutementaires (eacutenergie) Lrsquoanalyse en sous-bandes a lieu dans le serveur (Figure 414) Celui-ci calcule

lrsquoeacutenergie de chaque signal dans chaque sous-bande sur une trame donneacutee Crsquoest ce paramegravetre qui associeacute au signal mono M permettra la seacuteparation des sources dans le terminal (Figure 415) Ce dernier reacutepartira en effet les diffeacuterentes sous-bandes vers chaque signal reconstitueacute proportionnellement agrave cette information pour reconstruire les 4 sources originales

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee 41

Figure 414 - Analyse principe de lrsquoencodage dans le serveur

Figure 415 - Synthegravese principe du deacutecodage dans le client

Afin de reacuteduire au maximum les informations compleacutementaires agrave transmettre on

peut remarquer qursquoau cours drsquoune confeacuterence audio on a tregraves souvent un seul locuteur les participants ne parlent que tregraves rarement tous en mecircme temps Ceci implique que les signaux en entreacutee sont tregraves souvent tous nuls sauf 1 et appliquer un seuil en entreacutee de lrsquoanalyse permet outre lrsquoallegravegement du traitement drsquoavoir moins de paramegravetres agrave transmettre

Ce scheacutema simplifieacute ne tient pas compte des problegravemes de phase rien nrsquoindique

que les eacutenergies des signaux srsquoajoutent bien dans chaque sous-bande lors du downmix on peut tregraves bien avoir des oppositions de phase La solution est drsquoeffectuer le downmix (la somme) des signaux dans chaque sous-bande en prenant soin drsquoavoir recaleacute les phases au preacutealable Ceci nrsquoa un sens que pour des bandes suffisamment eacutetroites Les deacutecalages temporels appliqueacutes pour le recalage sont alors des paramegravetres suppleacutementaires agrave transmettre et sont pris en compte lors de la synthegravese au niveau du reacutepartiteur qui repositionnera la phase de chaque trame pour chaque signal

Chapitre 4 Reacutesultats et applications 42

443 Bilan Le reacutesultat du deacutecodage a pu ecirctre eacutecouteacute de diffeacuterentes maniegraveres les sources

reconstitueacutees individuellement ensemble en steacutereacuteo drsquoamplitude et sur un systegraveme 51 On note que les sources ont eacuteteacute assez bien seacutepareacutees mais que des artefacts sont audibles en particulier lorsque le nombre de locuteurs simultaneacutes augmentent Ces artefacts sont un meacutelange des voix qui nrsquoest gecircnant que lorsqursquoon les eacutecoute de maniegravere seacutepareacutee En effet lrsquoeacutecoute simultaneacutee de ces signaux syntheacutetiseacutes mecircme placeacutes agrave des positions distinctes sur un systegraveme de diffusion multicanal est tout agrave fait satisfaisante

Ce proceacutedeacute pour pouvoir ecirctre appliqueacute doit fonctionner en temps-reacuteel Cette

contrainte nrsquoa pas du tout eacuteteacute prise en compte lrsquoobjectif eacutetant de valider la faisabiliteacute drsquoune reconstruction Les programmes sous Matlab nrsquoont pas eacuteteacute optimiseacutes et ne respectent pas cette contrainte

43

Conclusion Nous avons preacutesenteacute dans ce rapport le principe et lrsquoapplication de plusieurs

meacutethodes drsquoanalyses spatiales de scegravenes ambisoniques conccedilues et reacutealiseacutee pendant le stage Le format HOA est en effet une repreacutesentation du champ acoustique deacutecomposeacute sur une base drsquoharmoniques spheacuteriques jusqursquoagrave un certain ordre agrave la maniegravere drsquoun deacuteveloppement limiteacute Il contient donc de maniegravere indirecte des indications spatiales qursquoon peut extraire avec des analyses comme lrsquoanalyse en composantes principales

Ces analyses nous permettent de deacuteterminer les positions des sources qui

composent la scegravene sonore Nous avons appliqueacute les reacutesultats de ces analyses agrave 2 types de synthegravese lrsquoune destineacutee aux transmissions bas deacutebit lrsquoautre agrave un traitement de restitution de la preacutecision spatiale dans le cas ougrave des ordres supeacuterieurs dont le but est drsquoaffiner la perception de localisation nrsquoauraient pas pu ecirctre transmis Ces algorithmes par le codage drsquoinformations spatiales qursquoils permettent pourront trouver bien drsquoautres applications dans la transmission et le codage ougrave la description du contenu est de plus en plus utiliseacutee (comme par exemple dans la norme MPEG)

Des ameacuteliorations sont possibles sur plusieurs points tout drsquoabord lrsquoexploitation

de toutes les composantes de lrsquoACP est agrave lrsquoeacutetude et semble pouvoir donner des reacutesultats inteacuteressants Drsquoautre part on a vu que le reacutesultat final est tregraves deacutependant de la bonne convergence de lrsquoalgorithme des k-moyennes utiliseacute pour traiter les donneacutees brutes de lrsquoanalyse en sous-bandes Or cet algorithme neacutecessite des reacuteglages tregraves fins et une connaissance a priori du nombre de sources est presque indispensable Drsquoautres algorithmes plus complexes de suivi de formes pourraient ecirctre avantageusement utiliseacutes pour deacutetecter dans tous les angles trouveacutes lesquels sont susceptibles de former une trajectoire

45

Annexe A

Deacuteveloppement du champ acoustique en harmoniques spheacuteriques

A1 Eacutequation drsquoonde en coordonneacutees spheacuteriques On se place dans lrsquoespace euclidien agrave 3 dimensions muni drsquoun systegraveme de

coordonneacutees spheacuteriques Un point M y est repeacutereacute par son rayon r son azimut θ et son eacuteleacutevation δ tels que repreacutesenteacutes sur la figure ci-dessous

- r est la norme du vecteur position rr crsquoest-agrave-dire la distance OM - [20[ πθ isin est lrsquoangle formeacute par le projeteacute du point sur le plan xOy et lrsquoaxe Ox

- ]2

2

[ ππδ minusisin est lrsquoangle formeacute par le plan xOy et le vecteur position2

Figure A1 - Systegraveme de coordonneacutees spheacuteriques

2 Cet angle diffegravere de lrsquoangle polaire usuel δπϕ minus=

2 habituellement pris entre lrsquoaxe Oz et le

vecteur position

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 46

Les relations entre les coordonneacutees spheacuteriques et les coordonneacutees carteacutesiennes sont

⎪⎩

⎪⎨

===

δδθδθ

sincossincoscos

zryrx

(A1)

On srsquointeacuteresse dans ce repegravere agrave lrsquoeacutequation de propagation des ondes acoustiques

de pression On se place dans les conditions classiques drsquoacoustique lineacuteaire (les variations de p sont petites par rapport agrave la pression atmospheacuterique) en supposant que lrsquoair est un fluide parfait (on y neacutegligera les pheacutenomegravenes dissipatifs) Dans une reacutegion de lrsquoespace ne comprenant pas de sources lrsquoeacutequation drsquoonde srsquoeacutecrit alors

0)(12

2

2 =⎟⎟⎠

⎞⎜⎜⎝

⎛partpart

minus∆ trptc

r (A2)

p eacutetant la pression et c la vitesse de propagation du son dans lrsquoair

Cette eacutequation devient dans le domaine freacutequentiel lrsquoeacutequation de Helmholtz

( ) 0)(2 =+∆ ωrpk r (A3)

ck ω

= eacutetant le nombre drsquoonde

En coordonneacutees spheacuteriques cette eacutequation srsquoeacutecrit

0sin1sin

sin11 2

2

2

222

2 =⎥⎦

⎤⎢⎣

⎡+

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart pk

rrrr

rr δθθθ

θθ (A4)

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques Drsquoapregraves [Bruneau 1983] elle admet des solutions agrave variables seacutepareacutees de la forme

)()()( δθ ΦΘ= rRp (A5) Ces solutions sont respectivement - pour la partie radiale une combinaison des fonctions de Bessel spheacuteriques de

premiegravere et seconde espegravece3 jn et nn

)()()( krBnkrAjrR nn += (A6) 3 Les fonctions de Bessel spheacuteriques de seconde espegravece sont eacutegalement appeleacutees fonctions de

Neumann

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 47

Ces fonctions sont deacutefinies comme suit

(A7)

Figure A2 - Fonctions de Bessel spheacuteriques pour les ordres 0 agrave 5 )(krjm

- pour la partie azimutale les fonctions )(θΘ

)sin()cos()( 21 θθθ ncnc +=Θ (A8) Eacutetant donneacute la deacutefinition de lrsquoangle Θ celui-ci doit neacutecessairement ecirctre de

peacuteriode 2π ))2()(( πθθ +Θ=Θ ce qui impose agrave n drsquoecirctre entier

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 48

- pour la partie polaire les fonctions de Legendre associeacutees )(sinδmnP

nm

nn

mn dPdP

)(sin)(sinsin)(sin

δδ

δδ = pour ⎩⎨⎧

gt=

nmavecnm 321

(A9)

ougrave les )(sinδnP sont les polynocircmes de Legendre de degreacute n en δsin deacutefinis par reacutecurrence

( )

11

22

1

0

sin)12()(sin)1(

1cos321)(sin

sin)(sin0)(sin

minus+ minus+=+

minus=

==

mmm mPPmPmet

P

PP

δδ

ϕδ

δδδ

(A10)

et de formule geacuteneacuterale

mm

m

mm dd

mP )1(sin

)(sin21)(sin 2 minus= δ

δδ (A11)

On peut appliquer aux fonctions )(sinδmnP la semi-normalisation de Schmidt

)(sin)()()(sin~ δεδ mnnmn P

nmnmP

+minus

= ougrave 10 =ε et 2=nε pour 1gen (A12)

En appariant les fonctions polaires et azimutales on deacutefinit les harmoniques

spheacuteriques de degreacute et drsquoordre)1(mnY 0gem 4 mnn lele0 et de degreacute et

drsquoordre (voir Figure A3)

)1(minusmnY 1gem

mnn lele1

)(sin~)sin()(

)(sin~)cos()()1(

)1(

δθδθ

δθδθ

mnmn

mnmn

PnY

PnY

=

=minus

(A13)

4 En geacuteneacuteral lorsque le degreacute et lrsquoordre ne sont pas eacutevoqueacutes conjointement on parle par abus de langage drsquoharmoniques drsquoordre m plutocirct que de degreacute m

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 49

soit

1)(sin

)()()12(2sin)(

)(sin)()()12(2cos)(

1)(sin)1()1()12(cos)(

)1(

)1(

1)1(

1

gt

⎪⎪⎩

⎪⎪⎨

+minus

+=

+minus

+=

=+minus

+=

minus

npourP

nmnmmnY

PnmnmmnY

npourPmmmY

mnmn

mnmn

mm

δθδθ

δθδθ

δθδθ

(A14)

La solution angulaire geacuteneacuterale srsquoeacutecrit alors sous la forme drsquoun deacuteveloppement sur

la base drsquoharmoniques spheacuteriques

( ) ( )sum minus

=minus+=Θ

1

1)1()1()( n

m mnmnmnmnn YBYBθ (A15) La solution geacuteneacuterale est alors la seacuterie de Fourier-Bessel

sum sum sum+infin

= = plusmn=

=0 0 1

)()( )()()(m

m

nmnmnm

m YBkrjikrpσ

σσ δθδθ (A16)

ougrave

intint⎪⎩

⎪⎨⎧

minusisin

isin

plusmnplusmn =

]2

2

[

[20[

)1()1( )()1()(

1

ππδ

πθ

δθδθ

S

mnm

mmn dSYpkrji

B (A17)

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 50

Tableau A1 - Expressions analytiques des harmoniques spheacuteriques pour les ordres 0 agrave 3

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 51

Figure A3 - Repreacutesentation des harmoniques spheacuteriques pour les ordres m = 0 agrave 3 Les

couleurs rouge et bleu indiquent respectivement des valeurs positives et neacutegatives

53

Annexe B

Compleacutements theacuteoriques sur le deacutecodage HOA

B1 Vecteur veacutelociteacute et vecteur eacutenergie Le vecteur veacutelociteacute est un indice de la direction apparente drsquoune source introduit

par Gerzon [Gerzon 1992] Il se calcule comme le rapport de la vitesse particulaire sur la pression acoustique

)()(

)()(1

δθδθ

δθδθ

ρ rprp

ki

rprv

cV nabla

minus=minus=rrr

(B1)

Dans le cas drsquoune onde plane le vecteur veacutelociteacute V

rest ainsi directement un

vecteur unitaire orienteacute vers la direction de provenance de lrsquoonde En geacuteneacuteralisant agrave une superposition drsquoondes planes en phase ou opposition de phase eacutemises par L haut-parleurs agrave eacutequidistance du point drsquoobservation on obtient la formule suivante

VVL

ll

L

lll

urg

ugV r

rr

==

sum

sum

=

=

1

1 (B2)

ougrave deacutesigne la direction du llur egraveme haut-parleur auquel est associeacute le gain gl et Vr Vur correspondent respectivement agrave la norme et agrave la direction du vecteur veacutelociteacute

Le vecteur eacutenergie est un autre indice de direction Il est deacutefinit par

EEL

ll

L

lll

urg

ugE r

rr

==

sum

sum

=

=

1

2

1

2

(B3)

Annexe B Compleacutements theacuteoriques sur le deacutecodage HOA 54

Il peut srsquointerpreacuteter comme une indication de la concentration de lrsquoeacutenergie ( ) et de sa direction moyenne de provenance (

Er

Eur ) On a toujours 1ltEr sauf dans le cas ougrave un seul haut-parleur contribue agrave la reconstruction (dans ce cas ) peut ecirctre consideacutereacute comme un indicateur de preacutecision de la localisation

1=Er Er

B2 Deacutecodages optimiseacutes La restitution la plus confortable drsquoun champ sonore veillera donc agrave maximiser

tout en essayant de garder le plus proche possible de 1 Lrsquooptimisation du deacutecodage consiste alors agrave multiplier chaque coefficient de la matrice de deacutecodage D (voir (111) par des gains calculeacutes drsquoapregraves des critegraveres drsquooptimisation

Er Vr

Ainsi le deacutecodage appeleacute max- maximise la norme du vecteur eacutenergie en

sacrifiant celle du vecteur veacutelociteacute puisqursquoon a dans ce deacutecodage (pour des configurations reacuteguliegraveres de haut-parleurs) Ce deacutecodage est donc avantageux par rapport au deacutecodage basique pour les hautes freacutequences ou dans le cas drsquoun auditoire eacutelargi Le deacutecodage in-phase va encore plus loin en cherchant agrave annuler complegravetement les contributions des haut-parleurs placeacutes agrave lrsquoopposeacute de la direction de provenance de lrsquoonde reproduite Ce critegravere est utile dans le cas drsquoune eacutecoute dans une position tregraves excentreacutee agrave laquelle on pourrait percevoir de faccedilon preacutedominante la contribution en opposition de phase drsquoun tel haut-parleur

Er

EV rr =

Ces diffeacuterents deacutecodages ont chacun des avantages et inconveacutenients Ainsi seul le

deacutecodage basique garantit = 1 le deacutecodage max- permet une preacutecision meilleure notamment en haute freacutequence et le deacutecodage in-phase est plus adapteacute agrave un auditoire plus large Jeacuterocircme Daniel [Daniel 2000] propose ainsi de changer le deacutecodage en fonction de la freacutequence et de lrsquoeacutetendue de la zone drsquoeacutecoute deacutesireacutee

Vr Er

Figure B1 - Deacutecodages les plus approprieacutes par sous-bande et en fonction de lrsquoeacutetendue de la

zone drsquoeacutecoute [Daniel 2000]

55

Annexe C

Analyse en composantes principales

C1 Espace des donneacutees Eacutegalement souvent appeleacutee transformeacutee de Karhunen-Loegraveve5 (TKL) lrsquoanalyse en

composantes principales (ACP) est une technique statistique de repreacutesentation drsquoinformation Introduite sur 2 variables par Pearson [Pearson 1900] elle a eacuteteacute eacutetendue par Hotelling [Hotelling 1933] Elle a pour but de caracteacuteriser des donneacutees drsquoun espace agrave N dimensions dans un sous-espace plus petit en minimisant les pertes drsquoinformation due agrave la projection crsquoest-agrave-dire en maximisant la variance projeteacutee Les donneacutees ainsi reacuteorganiseacutees deviennent indeacutependantes Les variables correacuteleacutees sont remplaceacutees par de nouvelles variables deacutecorreacuteleacutees et de variance maximale combinaisons lineacuteaires des variables initiales

Les donneacutees sont constitueacutees de n variables aleacuteatoires (dans notre cas des canaux)

et p reacutealisations ou individus (des eacutechantillons)

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

pn

p

ji

n

xx

x

xx

M

LLL

MOMNM

MLLM

MNMOM

LLL

1

111

(C1)

Ces donneacutees sont geacuteneacuteralement centreacutees et peuvent aussi ecirctre reacuteduites4 (on note

1x la moyenne de la variable et 1x )( 1xσ sa variance) Reacuteduire ou non le nuage de points (ie les p reacutealisations de la variable aleacuteatoire) est un choix de modegravele

5 Quelques rares sources mentionnent une diffeacuterence entre ACP et TKL en placcedilant celle-ci au

niveau du choix de la reacuteduction des donneacutees dans le cas dune ACP les donneacutees seraient centreacutees et reacuteduites alors qursquoelles seraient uniquement centreacutees pour une TKL

Annexe C Analyse en composantes principales 56

- si on ne reacuteduit pas le nuage une variable agrave forte variance pourrait tirer tout lrsquoeffet de lrsquoACP agrave elle

- si on reacuteduit le nuage une variable qui ne serait qursquoun bruit se retrouverait avec une variance apparente eacutegale agrave une variable informative

M est centreacutee

⎥⎥⎥

⎢⎢⎢

minusminusminus

minusminus=

npn

pi

ji

nn

xxxxxx

xxxxM

K

MM

K

11

11

11

ˆ (C2)

M~ est centreacutee et reacuteduite

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

minusminus

minus

minusminus

=

)()(

)(

)()(~

1

11

1

1

111

n

npn

pi

ij

i

n

nn

xxx

xxx

xxx

xxx

xxx

M

σσ

σ

σσ

K

MM

K

(C3)

On multiplie ensuite la matrice obtenue par sa transposeacutee pour obtenir - La matrice de covariance MMC t

vˆˆ sdot=

- La matrice de correacutelation MMC tr

~~ sdot= Ces matrices sont carreacutees (N x N) symeacutetriques et reacuteelles Elles sont donc

diagonalisables dans une base orthonormeacutee 6 Le principe de lrsquoACP est alors de trouver un axe u issu drsquoune combinaison lineacuteaire

des tel que le critegravere drsquoinertie du nuage autour de cet axe soit maximal Le critegravere drsquoinertie couramment utiliseacute est la variance Il faut donc trouver lrsquoaxe qui porte le maximum de variance crsquoest-agrave-dire lrsquoaxe u tel que la projection du nuage sur cet axe ait une variance maximale

nx

6 Nos donneacutees eacutetant ici des valeurs drsquoeacutechantillons elles sont par nature centreacutees et reacuteduites On

formera donc naturellement la matrice de correacutelation

C2 Diagonalisation 57

C2 Diagonalisation Pour alleacuteger lrsquoeacutecriture de la suite de cette partie nous consideacutererons que les

variables ont eacuteteacute centreacutees et si besoin reacuteduites et nous noterons ces variables

transformeacutees (ainsi

ix ix

iii xxx minuslarr ou bien )( i

iii x

xxxσ

minuslarr ) On fera de mecircme pour M

( ou bien MM ˆlarr MM ~larr ) et C ( vCC larr ou bien rCC larr ) La projection drsquoun eacutechantillon sur un axe u srsquoeacutecrit ix

uMxiu sdot=)(π (C4) La variance empirique de )( iu xπ vaut donc

uMMuxx ttiu

tiu sdotsdotsdot=sdot )()( ππ (C5)

Or on a vu que est diagonalisable dans une base orthonormeacutee donc

on peut noter P le changement de base associeacute et ∆ la matrice diagonale formeacutee de son spectre Ainsi

MMC t=

n

i 1)(λ PPMMC tt ∆==

)()()()( PuPuuPPuxx ttt

iut

iu sdot∆sdot=sdot∆sdot=sdotππ (C6) On pose v = Pu Chercher lrsquoaxe u qui maximise )( iu xπ revient donc agrave chercher le

vecteur v qui maximise ougravevvt ∆ )( 1 ndiag λλ K=∆ avec les iλ rangeacutes par ordre deacutecroissant Ce vecteur est trivialement le premier vecteur unitaire et on a alors

1λ=∆vvt

Ainsi le vecteur qui porte la plus grande part drsquoinertie du nuage est le premier

vecteur propre de C (premier par norme deacutecroissante) De mecircme le deuxiegraveme vecteur qui explique la plus grandelt part de lrsquoinertie restante est le deuxiegraveme vecteur propre de C Finalement la question de lrsquoACP se ramegravene agrave un problegraveme de diagonalisation de la matrice de correacutelation

C3 Code Matlab

function [vep vap] = pca(f N) f donneacutees N nombre de composantes agrave garder cor = f f formation de la matrice de correacutelation [vep vap] = eig(cor) calcul des vecteurs (vep) et valeurs (vap) propres [vap ind] = sort(diag(vap)) tri des valeurs propres par ordre croissant vap = flipud(vap) disposition inverse par ordre drsquoimportance vep = vep( flipud(ind)) classement en conseacutequence des vecteurs propres vep = vep( 1N) on ne garde que les N premiers vecteurs propres

Annexe C Analyse en composantes principales 58

59

Annexe D

Analyse en sous-bandes

D1 La transformeacutee de Fourier agrave court terme (TFCT) Pour affiner lrsquoanalyse les signaux sont donc deacutecoupeacutes en bandes de freacutequence par

TFCT La TFCT consiste agrave effectuer des transformeacutees de Fourier discregravetes sur des portions de signal fenecirctreacutees reacuteguliegraverement espaceacutees

On rappelle que la transformeacutee de Fourier drsquoun signal x(t) est deacutefinie (lorsque

lrsquointeacutegrale existe) par

int+infin

infinminus

minus= dtetxfX ftiπ2)()( (D1)

La transformeacutee de Fourier agrave temps discret (TFTD) drsquoun signal x(t) srsquoeacutecrit

sum+infin

minusinfin=

minus=n

fnienxfX π2)()( (D2)

La transformeacutee de Fourier discregravete (TFD) drsquoun signal discret x(k) est deacutefinie par

sum+infin

minusinfin=

minus=

n

Nkni

enxkXπ2

)()( (D3)

La TFCT discregravete est une TFD observeacutee sur une fenecirctre wa de taille N

summinus

=

minus+=

1

0

2)())(()(

N

n

Nnki

aaa enwtnxkXπ

ττ (D4)

ougrave )(taτ est lrsquoinstant drsquoanalyse

Annexe D Analyse en sous-bandes 60

Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT [Laroche 1995]

D2 Synthegravese par addition-recouvrement Lors de la synthegravese apregraves le deacutecoupage et lrsquoanalyse des fenecirctres on cherche agrave

reconstruire le signal temporel agrave partir de sa repreacutesentation freacutequentielle Pour cela on utilise la meacutethode OLA (overlap and add addition-recouvrement) qui consiste agrave prendre la TFCT inverse des spectres Xt puis agrave additionner les signaux obtenus apregraves les avoir multiplieacutes par une fenecirctre de pondeacuteration en les faisant se recouvrir partiellement

Le reacutesultat est donneacute par

sum=

minusminus=T

tsss tnxtnwnx

s1

))((~))(()(~ ττ τ (D5)

avec )()( tt as ττ = et summinus

=

=1

0

2))((~1)(~ N

k

Nkni

s ektXN

nxs

π

τ τ

Lors de la mise en œuvre de ce traitement il faut srsquoassurer drsquoecirctre en mesure de

reconstruire parfaitement un signal lorsqursquoaucune transformation ne lui est appliqueacutee Le critegravere de reconstruction parfaite condition suffisante est alors

sum=

=minusminusT

tasaa tnwtnw

11))(())(( ττ quelque soit n (D6)

D2 Synthegravese par addition-recouvrement 61

Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add [Laroche 1995]

Plusieurs paramegravetres sont agrave choisir avec soin Le premier drsquoentre eux est le type

de fenecirctre agrave utiliser Les diffeacuterentes options qui se preacutesentent agrave nous sont - la fenecirctre rectangulaire qui preacutesente dans son spectre le lobe principal le plus

eacutetroit mais des lobes secondaires non neacutegligeables - la fenecirctre de Hamming au lobe principal un peu plus large mais pour laquelle le

1er lobe secondaire se situe agrave -43 dB - la fenecirctre de Hann (ou cosinus sureacuteleveacute) qui ressemble agrave la preacuteceacutedente avec un

1er lobe secondaire plus fort mais une pente de 18 dB par octave pour les lobes suivants

- les fenecirctres de Blackman-Harris aux lobes secondaires tregraves bas mais au lobe principal plus large

Fenecirctre Lobe 2aire

(dB) Pente

(dBoct) Bande passante

agrave 6 dB (bins) Rectangulaire -13 -6 121 Triangulaire -27 -12 178

Hann -32 -18 200 Hamming -43 -6 181

Blackman-Harris 4 -92 -6 272

Tableau D1 - Caracteacuteristiques des principales fenecirctres drsquoanalyse [Harris 1978] Le meilleur compromis est donc dans notre contexte la fenecirctre de Hann ou celle

de Hamming

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 33: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

34 Traitement des donneacutees 27

Lrsquoavantage de cet algorithme est drsquoecirctre peu glouton puisqursquoil converge en O(tkn) ougrave t est le nombre drsquoiteacuterations k le nombre de centres et n le nombre de points (geacuteneacuteralement on a t k ltlt n) Par contre il est plutocirct sensible aux exceptions un point aberrant tirera agrave lui la moyenne auquel il aura eacuteteacute associeacute Il faut donc faire en sorte que ces points erroneacutes soient aussi rares que possibles Crsquoest pourquoi les angles traiteacutes sont pondeacutereacutes par 2 critegraveres de pertinence

La pondeacuteration des angles fournis en entreacutee de lrsquoalgorithme des k-moyennes se

fait de maniegravere simple en reacutepeacutetant ces angles un nombre de fois (de 0 agrave 10) proportionnel agrave un critegravere Ainsi un angle tregraves pertinent sera dupliqueacute et sera preacutesent plusieurs fois dans la liste des donneacutees traiteacutees attirant ainsi agrave lui la position du barycentre le plus proche Au contraire un angle trop peu pertinent ne sera pas reacutepeacuteteacute voir mecircme sera enleveacute de la liste

Le seul problegraveme de cet algorithme est qursquoil neacutecessite la connaissance de k crsquoest-

agrave-dire du nombre de sources qui composent la scegravene Une deacutetermination automatique se basant sur la reacutepeacutetition de lrsquoalgorithme avec un k croissant a eacuteteacute testeacutee mais le critegravere drsquoarrecirct reposant sur la dispersion des points autour des barycentres nrsquoeacutetant pas assez robuste cette meacutethode a provisoirement eacuteteacute mise de cocircteacute

342 Critegraveres de pertinence Les 2 critegraveres de pondeacuteration choisis sont lrsquoeacutenergie de la sous-bande dans la

fenecirctre donneacutee et le rapport de la norme de la 1egravere composante (la composante principale) de lrsquoACP sur la somme des normes de toutes les composantes

En effet un angle est trouveacute dans chaque sous-bande de chaque fenecirctre mecircme si

le signal y est tregraves faible Lrsquoangle trouveacute sera alors tregraves peu repreacutesentatif de la direction drsquoune source puisqursquoil indiquera la direction drsquoun bruit Lrsquoeacutenergie doit donc ecirctre prise en compte pour ne conserver que les angles trouveacutes dans des bandes comportant un signal suffisant

La norme relative de la 1egravere composante de lrsquoACP rend quant agrave elle compte du

poids relatif de cette composante par rapport aux autres Ainsi si 2 sources sont preacutesentes dans une bande donneacutee la 1egravere composante sera agrave peine plus marqueacutee que la 2egraveme Ceci peut ecirctre calculeacute en prenant simplement le rapport de la 1egravere valeur propre sur la somme des valeurs propres

On peut noter que la norme de la 1egravere composante ne se deacutetache nettement que

lorsqursquoun son est preacutesent dans la bande consideacutereacutee On peut alors se demander si lrsquoeacutenergie doit ecirctre prise en compte ou si lrsquoinformation qursquoelle contient nrsquoest comprise dans le 2egraveme critegravere En fait la norme relative est un critegravere tregraves bruiteacute et consideacuterer lrsquoeacutenergie par ailleurs permet de nuancer ces artefacts et constitue une base solide de pondeacuteration

Chapitre 3 Description des analyses 28

80

40

0

Figure 37 - Repreacutesentation temps-freacutequence des angles du son deacutecrit en 332 Letrame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On peut donc v

par trame et par bande chacun eacutetant le reacutesultat drsquoune ACP crsquoest-agrave-dire la 1egravere

Figure 38 - Eacutenergie de ce mecircme son On peut voir une basse en notes tenues uneet une batterie qui produit des sons secs dans un spectre plus aigu

80

40

0

80

40

0

Figure 39 - Norme relative de la 1egravere composante de ce mecircme son Les impacts de batterie (dans lrsquoaigu) ressortent davantage

π 0 minusπ

numeacutero de oir un angle direction

voix aiguumle

34 Traitement des donneacutees 29

Figure 310 - Pondeacuteration appliqueacutee agrave lrsquoentreacutee des k-moyennes calculeacutee ici comme

le simple produit de lrsquoeacutenergie et de la norme relative

80

40

0

343 Lissages

Pour faire face au bruit ineacutevitable dans les reacutesultats il faut lisser les donneacutees Ces

lissages temporels correspondent agrave des hypothegraveses de stabiliteacute des sources qui sont supposeacutees ecirctre fixes ou mobiles relativement lentement (dans une mesure agrave parameacutetrer)

Un premier lissage peut ecirctre opeacutereacute avant le traitement par lrsquoalgorithme des k-

moyennes Le filtre choisi est un filtre meacutedian de maniegravere agrave eacuteliminer les points aberrants tout en conservant les vraies valeurs des points coheacuterents Ce lissage est appliqueacute sur chaque sous-bande aux angles et ne tient pas compte des critegraveres de pertinence Il est donc utiliseacute avec parcimonie et peut mecircme ecirctre eacuteviteacute en reacuteglant de maniegravere adeacutequate les critegraveres de pondeacuteration agrave lrsquoentreacutee des k-moyennes

Le deuxiegraveme lissage srsquoeffectue agrave lrsquoentreacutee des k-moyennes en mecircme temps que les

critegraveres de pondeacuteration Il consiste agrave appliquer les k-moyennes non pas sur une fenecirctre donneacutee mais sur plusieurs fenecirctres conseacutecutives anteacuterieures et posteacuterieures en donnant plus de poids agrave la fenecirctre courante Dans la pratique les poids donneacutes aux diffeacuterentes fenecirctres sont eacutetablis par une gaussienne centreacutee sur la fenecirctre courante et de largeur agrave deacuteterminer (en fonction notamment de la dureacutee drsquoune fenecirctre et du type de scegravene analyseacute)

35 Exploitation de toutes les composantes de lrsquoACP Les analyses preacutesenteacutees preacuteceacutedemment ont toutes exploiteacute uniquement la

composante principale extraite par lrsquoACP Or cette analyse fournit des informations plus complegravetes par lrsquointermeacutediaire des autres composantes dont on peut tirer parti pour isoler plusieurs sources au sein drsquoune mecircme bande Cette approche est toujours en deacuteveloppement dans ce stage et nrsquoa pas encore donneacute pleine mesure des reacutesultats qursquoelle laisse entrevoir

Les composantes de lrsquoACP indiquent des directions qui correspondent aux

diffeacuterentes sources composant la scegravene sonore Les vecteurs propres de la matrice de correacutelation donnent ainsi les combinaisons lineacuteaires des signaux HOA permettant de

Chapitre 3 Description des analyses 30

seacuteparer de la meilleure faccedilon possible ces sons Ces directions peuvent ecirctre alors utiliseacutees pour former des directiviteacutes isolant au mieux ces sources

aBS sdot= (31)

ougrave la matrice a contient les vecteurs propres de la matrice de correacutelation (voir Annexe C) le vecteur B contient les signaux HOA et le vecteur S contient les sources extraites

⎟⎟⎟

⎜⎜⎜

=⎟⎟⎟

⎜⎜⎜

⎛=

⎥⎥⎥

⎢⎢⎢

⎟⎟⎟

⎜⎜⎜

⎟⎟⎟

⎜⎜⎜

⎛=

10

1001

1

ML

N

B

BB

S

SSuua MML (32)

On obtient ainsi des lobes drsquoautant plus eacutetroits que lrsquoordre est eacuteleveacute chacun

dirigeacute vers une source et permettant de lrsquoisoler le plus possible des contributions des autres sources La Figure 311 preacutesente les directiviteacutes ainsi trouveacutees par une ACP en pleine bande Une analyse en sous-bande permet une plus grande distinction des sources mais une seacuteparation diffeacuterente entre les bandes est dangereuse car elle risque de dissocier spatialement plusieurs parties drsquoun mecircme son

Figure 311 - Directiviteacutes seacuteparant ideacutealement 4 sources placeacutees agrave 17 73 195 et -58deg

pour une scegravene virtuelle encodeacutee agrave lrsquoordre 4 Ce principe se heurte neacuteanmoins aux limites de seacuteparation lieacutees agrave lrsquoordre

drsquoencodage en effet 2 sources ne pourront pas ecirctre seacutepareacutees si elles sont trop proches comme en teacutemoigne la largeur des lobes principaux Les lobes secondaires traduisent eacutegalement un meacutelange des sources isoleacutees La figure ci-dessus montre ainsi que la source placeacutee agrave 17deg (en vert) sera preacutesente de maniegravere non neacutegligeable dans le signal senseacute contenir la source placeacutee agrave -58deg (en bleu) en raison du lobe secondaire bleu important

31

Chapitre 4

Reacutesultats et applications

41 Illustration et critique des reacutesultats obtenus

411 Avant-propos Sans notification particuliegravere les reacutesultats preacutesenteacutes ont eacuteteacute obtenus avec un pas

de 50 ms une analyse en 80 bandes avec une FFT sur 8192 points Une taille de FTT plus grande et un plus grand nombre de bande augmente la qualiteacute de lrsquoanalyse un pas plus petit ameacuteliore sa preacutecision temporelle mais les reacutesultats sont moins fiables et un lissage plus important srsquoimpose alors Ces paramegravetres ont eacuteteacute reacutegleacutes apregraves de multiples essais sur des scegravenes diverses

Les reacutesultats sont preacutesenteacutes ici uniquement sous la forme de graphiques nous ne

pouvons donc repreacutesenter que les angles trouveacutes agrave la sortie de lrsquoalgorithme des k-moyennes

412 Scegravene 2D artificielle agrave 4 sources fixes La premiegravere scegravene est une scegravene artificielle composeacutee de 4 sons fixes placeacutes agrave -70

-10 45 et 110deg Ces sons (une basse une voix une guitare et une batterie) ont eacuteteacute choisis pour leur varieacuteteacute spectrale et leur varieacuteteacute drsquoattaque Elle a en outre le meacuterite drsquoecirctre reacutealiste et de constituer une seacutequence musicale (chaque son nrsquoest pas une meacutelodie indeacutependante)

On voit sur la Figure 41 ci-dessous que les angles trouveacutes sont proches des

angles theacuteoriques Lrsquoun des sons (agrave 45deg) est quasiment nul avant la 100egraveme trame sa position est alors moins facile agrave deacuteterminer plus preacuteciseacutement une position approximative est trouveacutee et correspondrait exactement agrave la position du bruit (45deg) si lrsquoincertitude de mesure tregraves grande pour un son aussi faible ne rendait la deacutetermination si ardue On mesure un eacutecart-type de 22deg sur cet exemple (en excluant le deacutebut du son agrave 45deg)

Chapitre 4 Reacutesultats et applications 32

Figure 41 - Angles theacuteoriques (en pointilleacutes rouge) et calculeacutes (en trait bleu) pour une scegravene

constitueacutee de 4 sons fixes longue de 11s

413 Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile

Figure 42 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) de la scegravene agrave

4 sources dont 1 mobile deacutecrite en 332 Cette scegravene est deacutecrite en 332 On a ici demandeacute aux k-moyennes de renvoyer 5 barycentres par trame alors que

seules 4 sources eacutetaient preacutesentes dans le but de se garantir une marge vis-agrave-vis des erreurs de deacutetection Cette 5egraveme direction nrsquoest pas du tout gecircnante elle indique une direction qui ne contient pas de source et crsquoest donc un son tregraves faible qui est ainsi pointeacute Apregraves une eacuteventuelle extraction le signal ne sera donc pas du tout gecircnant

41 Illustration et critique des reacutesultats obtenus 33

On peut remarquer que quand le son mobile se rapproche drsquoun son fixe la deacutetection est moins bonne il y a une fusion entre les 2 sons Mais encore une fois lors de lrsquoextraction lrsquoisolation drsquoun des sons englobera lrsquoautre son ce qui ne posera pas de problegraveme pour les objectifs fixeacutes aucune source nrsquoeacutetant oublieacutee En effet la seacuteparation de sources nrsquoest pas un objectif ici mais un moyen pour preacuteciser les positions des sources ce qui sera fait correctement mecircme si 2 sources sont pointeacutees par 1 seule direction

414 Scegravene 3D artificielle agrave une source et bruit de fond

La scegravene dont la position drsquoune source a eacuteteacute extraite ci-dessous est une scegravene virtuelle en 3D constitueacute drsquoun son (une voix) qursquoon a fait se deacuteplacer par paliers tout drsquoabord vers le haut de 0deg agrave 45deg et vers la gauche de 0deg agrave 90deg puis redescendre jusqursquoagrave 35deg en continuant son cheminement vers la gauche jusqursquoagrave 120deg et enfin finir la descente de 35deg agrave 0deg en la laissant agrave 120deg Agrave cette source a eacuteteacute superposeacutee une ambiance spatialiseacutee de hall drsquoaeacuteroport initialement enregistreacutee en 2D (au format 51) mais transformeacutee pour contenir des composantes verticales Cette ambiance deacutecorreleacutee de la source avait pour but de tester la robustesse de lrsquoanalyse Elle eacutetait agrave 15 dB en-dessous du niveau de la voix

Figure 43 - Azimut et eacuteleacutevation theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun

son en 3D artificiel de 9s placeacute dans une ambiance bruyante On remarque que lrsquoanalyse est tregraves correcte Il nrsquoy a pas drsquoeacutecart important entre

les angles theacuteoriques et ceux calculeacutes On note toutefois que le lissage agrave lrsquoentreacutee des k-moyennes a pour effet de gommer les creacuteneaux et drsquoaplatir quelque peu la courbe drsquoeacuteleacutevation ceci nrsquoest pas vraiment gecircnant car de tels sauts dans la position drsquoune source ne sont pas du tout reacutealistes (ils peuvent caracteacuteriser des bruits de pas mais de tels impacts sont courts et on peut srsquoattendre agrave ce que la courbe suive leur position aux instants ougrave ils sont eacutemis)

Chapitre 4 Reacutesultats et applications 34

415 Scegravene 2D naturelle agrave une source Les scegravenes naturelles sont on lrsquoa vu plus deacutelicates agrave exploiter car on ne peut pas

garantir la preacutecision de la position theacuteorique agrave retrouver par le calcul et on ne peut donc pas calculer la preacutecision de lrsquoanalyse Seuls les enregistrements utilisant la table tournante (voir 232) permettent une mesure preacutecise de la position de lrsquoangle Ces enregistrements on pu confirmer la validiteacute de lrsquoanalyse pour des scegravenes reacuteelles on trouve ici un eacutecart-type de 25deg

Figure 44 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun bruit blanc

tournant autour du micro enregistreacute en chambre sourde Cette analyse a eacuteteacute reacutealiseacutee par sous-bandes mais sur une eacutetendue freacutequentielle

plus reacuteduite puisqursquoon srsquoest limiteacute aux possibiliteacutes offertes par le microphone La scegravene a donc eacuteteacute analyseacutee de 200 agrave 10 000 Hz

42 Quelques applications

421 Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre 2 agrave partir de lrsquoordre 1

Une fois les positions des sources connues la porte est ouverte agrave de nombreuses

applications La connaissance de ces positions permet en effet de syntheacutetiser artificiellement des composantes manquantes ou non transmises La premiegravere synthegravese deacuteveloppeacutee est celle des signaux U et V composant la partie horizontale de lrsquoordre 2 agrave partir de lrsquoordre 1 et de paramegravetres issus de lrsquoanalyse pour une source en 2D (des angles dans de cas)

42 Quelques applications 35

Figure 45 - Principe de lrsquoameacutelioration de la preacutecision spatiale

Le principe de la synthegravese est drsquoextraire les sources originales agrave partir de W X Y

et des angles (un angle par trame et par sous-bande) Ceci peut ecirctre reacutealiseacute de maniegravere approcheacutee en deacutecodant lrsquoordre 1 dans les directions des sources Ce deacutecodage revient agrave calculer les signaux qui devraient alimenter des haut-parleurs qui seraient placeacutes agrave ces positions dans le cas drsquoune restitution (voir 122) crsquoest-agrave-dire agrave former des directiviteacutes dans les directions des sources Dans la plupart des cas ce deacutecodage qui fait intervenir une pseudo-inversion de Moore-Penrose (111) est imparfait les sources se retrouvant leacutegegraverement meacutelangeacutees On peut comparer cette seacuteparation agrave celle que ferait un ensemble de microphones agrave directiviteacute hypercardioiumlde coiumlncidents

Figure 46 - Directiviteacutes eacutequivalentes agrave la seacuteparation de 4 sources agrave lrsquoordre 1 Ces sources seacutepareacutees vont ensuite constituer toujours placeacutees aux angles

deacutetermineacutes agrave lrsquoanalyse une scegravene virtuelle qursquoon va encoder agrave lrsquoordre 2 De cet encodage on ne conservera que les signaux manquants dans notre exemple les signaux du 2nd ordre U et V Ainsi la scegravene spatialiseacutee sera au final constitueacutee des signaux W X et Y drsquoorigine (transmis) et des signaux U et V syntheacutetiseacutes

Chapitre 4 Reacutesultats et applications 36

422 Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave partir de W Reconstruire une scegravene sonore spatialiseacutee agrave partir drsquoun unique canal mono est

alors difficile et le reacutesultat nrsquoest appreacuteciable que pour des scegravenes simples Il faut pour cela que les diffeacuterentes sources composant cette scegravene aient des supports spectraux aussi distincts que possible Les diffeacuterentes sous-bandes sont alors placeacutees agrave un certain angle transmis en parallegravele et crsquoest cette scegravene reconstitueacutee qui va ecirctre encodeacutee au 1er ordre de maniegravere agrave recreacuteer les signaux X et Y

Figure 47 - Principe de la restitution de lrsquoordre 1 agrave partir du signal mono W Ce scheacutema rappelle une meacutethode deacuteveloppeacutee dans le cas steacutereacuteo appeleacutee BCC

(Binaural Cue Coding) [Faller and Baumgarte 2002] Le principe est drsquoextraire et coder des informations permettant la reconstruction binaurale drsquoun signal agrave savoir les diffeacuterences interaurales drsquointensiteacute et de temps (Interaural LevelTime Difference ILD et ITD) qui correspondent dans le cas drsquoune restitution sur un casque aux diffeacuterences drsquointensiteacute et de temps inter-canal (Inter-Channel LevelTime Difference ICLD et ICTD) qui sont mesureacutees agrave partir drsquoune analyse en sous-bandes Les auteurs y ont plus reacutecemment associeacute un indice de correacutelation interaurale mesureacute agrave partir de la correacutelation inter-canal (ICC) afin de caracteacuteriser la preacutecision spatiale (la ldquolargeurrdquo drsquoune source)

Figure 48 - Scheacutema de principe de la meacutethode BCC [Faller and Baumgarte 2003]

On observe en pratique des deacutefauts lieacutes agrave la brutaliteacute de la proceacutedure une sous-

bande ne peut ecirctre que placeacutee agrave la position indiqueacutee et ne peut pas rester floue diffuse ou encore ecirctre placeacutee agrave plusieurs endroits Pour y remeacutedier nous avons ajouteacute 2 traitements agrave la synthegravese Tour drsquoabord nous avons appliqueacute un leacuteger lissage soulageant les effets deacutesagreacuteables dus au saut du contenu drsquoune sous-bande drsquoun endroit agrave un autre entre de 2 fenecirctres conseacutecutives Les positions varient alors de faccedilon plus souple au sein drsquoune mecircme sous-bande traduisant une hypothegravese de continuiteacute spatiale (pas de deacuteplacement brusque) La contrepartie est que cette hypothegravese est lieacutee agrave une hypothegravese de continuiteacute spectrale

42 Quelques applications 37

La 2egraveme ameacutelioration concerne le positionnement des sources En incluant dans la transmission un critegravere de pertinence on peut savoir srsquoil est raisonnable de placer une sous-bande agrave un angle preacutecis ou bien si lrsquoanalyse eacutetait flou agrave son sujet auquel cas un positionnement impreacutecis serait preacutefeacuterable Le paramegravetre choisi est une combinaison des critegraveres eacutevoqueacutes en 342 il nous permet de placer la sous-bande de maniegravere plus ou moins prononceacutee

43 Comparaison avec une meacutethode existante Certains auteurs ont deacutejagrave essayeacute drsquoanalyser un contenu ambisonique pour

retrouver les positions des sources Ville Pulkki a ainsi deacutecrit dans [Pulkki and Faller 2006] une meacutethode drsquoanalyse du B-format baseacutee sur lrsquoeacutetude des amplitudes des signaux W X Y et Z

Figure 49 - X et Y dans le cas drsquoune sinusoiumlde placeacutee agrave 15deg (agrave gauche) et 120deg (agrave droite)

Les figures ci-dessus montrent les relations drsquoamplitudes (algeacutebriques) qui relient

X et Y agrave lrsquoangle de la source On voit que lrsquoanalyse de ces amplitudes respectives permet de retrouver la position de la source en effet on a pour une source unique les relations de lrsquoeacutequation (11) rappeleacutee ici

⎪⎪

⎪⎪

=

=

=

=

δ

δθ

δθ

sin2

cossin2

coscos2

SZ

SY

SX

SW

(41)

On peut donc theacuteoriquement retrouver les valeurs de θ et δ par relations

trigonomeacutetriques Ainsi on a

⎪⎪⎩

⎪⎪⎨

=

=

2)sin(

)tan(

WZ

XY

δ

θ (42)

Chapitre 4 Reacutesultats et applications 38

On peut donc trouver les angles θ et δ agrave π pregraves Pour lever lrsquoambiguiumlteacute une eacutetude de signe est neacutecessaire Mais dans le cas de θ le signe de X et de Y agrave δ fixeacute deacutepend aussi bien de θ que S Il faut srsquointeacuteresser aux signes de θcos et θsin crsquoest-agrave-dire

aux signes de WX et

WY Dans la pratique on srsquointeacuteressera aux signes de et

pour se preacutevenir des divisions par zeacuteros

XW sdot YW sdot

XW sdot et YW sdot sont proportionnels agrave toujours positif

2S

Les auteurs deacutecrivent eacutegalement dans leur article un critegravere appeleacute diffuseness qui

peut ecirctre compareacute agrave un critegravere de pertinence inverseacute Ce paramegravetre calculeacute par agrave 1 - R ougrave R est un rapport de normes est tregraves proche du critegravere de norme relative deacutecrit en 342 Il peut donc ecirctre utiliseacute de la mecircme faccedilon et permettre ainsi une pleine comparaison

Cette meacutethode a eacuteteacute impleacutementeacutee pour pouvoir ecirctre compareacutee avec la meacutethode

par ACP Tous les paramegravetres ont scrupuleusement eacuteteacute gardeacutes identiques et plusieurs reacuteglages ont eacuteteacute testeacutes Les courbes ci-dessous preacutesentent les reacutesultats des analyses de la scegravene deacutecrite en 332 avec un pas de 50ms un overlap de 50 un NFFT de 2048 et 40 bandes freacutequentielles Nous avons repreacutesenteacute tous les angles trouveacutes crsquoest-agrave-dire un par bande et par trame pour srsquoaffranchir de la seacutelection des k-moyennes

π

0

minusπ

Figure 410 - Angles trouveacutes par lrsquoalgorithme de [Pulkki and Faller 2006] Le diamegravetre du point correspondant agrave la pertinence

43 Comparaison avec une meacutethode existante 39

π

0

minusπ

Figure 411 - Angles trouveacutes par une ACP pour la mecircme scegravene On remarque que les points excentriques sont moins nombreux et plus rarement trouveacutes comme pertinents

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee

441 Position du problegraveme

Une application directe de ces analyses a eacuteteacute deacuteveloppeacutee pour la confeacuterence audio

spatialiseacutee La confeacuterence audio utilise en effet la spatialisation pour permettre une meilleure seacuteparation par lrsquooreille des diffeacuterents locuteurs Ainsi si plusieurs personnes parlent en mecircme temps il sera tregraves difficile de comprendre chacun individuellement si ces voix sont restitueacutees en mono mais on pourra focaliser lrsquoattention sur chacune drsquoentre elles si elles sont seacutepareacutees spatialement (crsquoest lrsquoeffet cocktail party [Cherry 1953])

Lrsquoobjectif eacutetait de veacuterifier qursquoil eacutetait possible de conserver la spatialisation drsquoune

confeacuterence en nrsquoayant transmis qursquoun downmix mono des signaux Ce concept semble se rapprocher de celui deacutecrit en 422 mais une diffeacuterence fondamentale les seacutepare la confeacuterence audio spatialiseacutee nrsquoest pas codeacutee au format ambisonic mais les signaux traiteacutes sont directement les sons provenant des diffeacuterents locuteurs crsquoest-agrave-dire les sources elles-mecircmes Ainsi lrsquoanalyse ne porte plus sur une scegravene spatialiseacutee mais sur des signaux seacutepareacutes Il nrsquoy a ainsi plus drsquoindices spatiaux agrave trouver

Avoir accegraves aux sources permet drsquoobtenir des informations plus preacutecises pour

permettre une seacuteparation apregraves la transmission Comme nous lrsquoavons vu lrsquoanalyse drsquoune scegravene spatialiseacutee ne permet que dans drsquoultimes cas agrave la seacuteparation des sources ce qui est ici notre point de deacutepart et sera en fait notre point drsquoarriveacutee En effet nous tenterons de retrouver les sources seacutepareacutees apregraves la transmission de maniegravere agrave pouvoir par la suite les spatialiser agrave loisir (voir Figure 413)

Chapitre 4 Reacutesultats et applications 40

442 Solution proposeacutee Les paramegravetres extraits ne sont donc plus des positions de sources Nous avons

choisi de mesurer puis transmettre lrsquoeacutenergie de chaque signal dans chaque sous-bande en parallegravele du downmix En effet une bonne seacuteparation sera possible si lrsquoon sait quelle proportion de chaque source compose chaque sous-bande du signal mono

Figure 412 - Scheacutema de principe drsquoune confeacuterence audio spatialiseacutee

Figure 413 - Scheacutema ameacutelioreacute (deacutebit reacuteduit)

en pointilleacutes informations compleacutementaires (eacutenergie) Lrsquoanalyse en sous-bandes a lieu dans le serveur (Figure 414) Celui-ci calcule

lrsquoeacutenergie de chaque signal dans chaque sous-bande sur une trame donneacutee Crsquoest ce paramegravetre qui associeacute au signal mono M permettra la seacuteparation des sources dans le terminal (Figure 415) Ce dernier reacutepartira en effet les diffeacuterentes sous-bandes vers chaque signal reconstitueacute proportionnellement agrave cette information pour reconstruire les 4 sources originales

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee 41

Figure 414 - Analyse principe de lrsquoencodage dans le serveur

Figure 415 - Synthegravese principe du deacutecodage dans le client

Afin de reacuteduire au maximum les informations compleacutementaires agrave transmettre on

peut remarquer qursquoau cours drsquoune confeacuterence audio on a tregraves souvent un seul locuteur les participants ne parlent que tregraves rarement tous en mecircme temps Ceci implique que les signaux en entreacutee sont tregraves souvent tous nuls sauf 1 et appliquer un seuil en entreacutee de lrsquoanalyse permet outre lrsquoallegravegement du traitement drsquoavoir moins de paramegravetres agrave transmettre

Ce scheacutema simplifieacute ne tient pas compte des problegravemes de phase rien nrsquoindique

que les eacutenergies des signaux srsquoajoutent bien dans chaque sous-bande lors du downmix on peut tregraves bien avoir des oppositions de phase La solution est drsquoeffectuer le downmix (la somme) des signaux dans chaque sous-bande en prenant soin drsquoavoir recaleacute les phases au preacutealable Ceci nrsquoa un sens que pour des bandes suffisamment eacutetroites Les deacutecalages temporels appliqueacutes pour le recalage sont alors des paramegravetres suppleacutementaires agrave transmettre et sont pris en compte lors de la synthegravese au niveau du reacutepartiteur qui repositionnera la phase de chaque trame pour chaque signal

Chapitre 4 Reacutesultats et applications 42

443 Bilan Le reacutesultat du deacutecodage a pu ecirctre eacutecouteacute de diffeacuterentes maniegraveres les sources

reconstitueacutees individuellement ensemble en steacutereacuteo drsquoamplitude et sur un systegraveme 51 On note que les sources ont eacuteteacute assez bien seacutepareacutees mais que des artefacts sont audibles en particulier lorsque le nombre de locuteurs simultaneacutes augmentent Ces artefacts sont un meacutelange des voix qui nrsquoest gecircnant que lorsqursquoon les eacutecoute de maniegravere seacutepareacutee En effet lrsquoeacutecoute simultaneacutee de ces signaux syntheacutetiseacutes mecircme placeacutes agrave des positions distinctes sur un systegraveme de diffusion multicanal est tout agrave fait satisfaisante

Ce proceacutedeacute pour pouvoir ecirctre appliqueacute doit fonctionner en temps-reacuteel Cette

contrainte nrsquoa pas du tout eacuteteacute prise en compte lrsquoobjectif eacutetant de valider la faisabiliteacute drsquoune reconstruction Les programmes sous Matlab nrsquoont pas eacuteteacute optimiseacutes et ne respectent pas cette contrainte

43

Conclusion Nous avons preacutesenteacute dans ce rapport le principe et lrsquoapplication de plusieurs

meacutethodes drsquoanalyses spatiales de scegravenes ambisoniques conccedilues et reacutealiseacutee pendant le stage Le format HOA est en effet une repreacutesentation du champ acoustique deacutecomposeacute sur une base drsquoharmoniques spheacuteriques jusqursquoagrave un certain ordre agrave la maniegravere drsquoun deacuteveloppement limiteacute Il contient donc de maniegravere indirecte des indications spatiales qursquoon peut extraire avec des analyses comme lrsquoanalyse en composantes principales

Ces analyses nous permettent de deacuteterminer les positions des sources qui

composent la scegravene sonore Nous avons appliqueacute les reacutesultats de ces analyses agrave 2 types de synthegravese lrsquoune destineacutee aux transmissions bas deacutebit lrsquoautre agrave un traitement de restitution de la preacutecision spatiale dans le cas ougrave des ordres supeacuterieurs dont le but est drsquoaffiner la perception de localisation nrsquoauraient pas pu ecirctre transmis Ces algorithmes par le codage drsquoinformations spatiales qursquoils permettent pourront trouver bien drsquoautres applications dans la transmission et le codage ougrave la description du contenu est de plus en plus utiliseacutee (comme par exemple dans la norme MPEG)

Des ameacuteliorations sont possibles sur plusieurs points tout drsquoabord lrsquoexploitation

de toutes les composantes de lrsquoACP est agrave lrsquoeacutetude et semble pouvoir donner des reacutesultats inteacuteressants Drsquoautre part on a vu que le reacutesultat final est tregraves deacutependant de la bonne convergence de lrsquoalgorithme des k-moyennes utiliseacute pour traiter les donneacutees brutes de lrsquoanalyse en sous-bandes Or cet algorithme neacutecessite des reacuteglages tregraves fins et une connaissance a priori du nombre de sources est presque indispensable Drsquoautres algorithmes plus complexes de suivi de formes pourraient ecirctre avantageusement utiliseacutes pour deacutetecter dans tous les angles trouveacutes lesquels sont susceptibles de former une trajectoire

45

Annexe A

Deacuteveloppement du champ acoustique en harmoniques spheacuteriques

A1 Eacutequation drsquoonde en coordonneacutees spheacuteriques On se place dans lrsquoespace euclidien agrave 3 dimensions muni drsquoun systegraveme de

coordonneacutees spheacuteriques Un point M y est repeacutereacute par son rayon r son azimut θ et son eacuteleacutevation δ tels que repreacutesenteacutes sur la figure ci-dessous

- r est la norme du vecteur position rr crsquoest-agrave-dire la distance OM - [20[ πθ isin est lrsquoangle formeacute par le projeteacute du point sur le plan xOy et lrsquoaxe Ox

- ]2

2

[ ππδ minusisin est lrsquoangle formeacute par le plan xOy et le vecteur position2

Figure A1 - Systegraveme de coordonneacutees spheacuteriques

2 Cet angle diffegravere de lrsquoangle polaire usuel δπϕ minus=

2 habituellement pris entre lrsquoaxe Oz et le

vecteur position

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 46

Les relations entre les coordonneacutees spheacuteriques et les coordonneacutees carteacutesiennes sont

⎪⎩

⎪⎨

===

δδθδθ

sincossincoscos

zryrx

(A1)

On srsquointeacuteresse dans ce repegravere agrave lrsquoeacutequation de propagation des ondes acoustiques

de pression On se place dans les conditions classiques drsquoacoustique lineacuteaire (les variations de p sont petites par rapport agrave la pression atmospheacuterique) en supposant que lrsquoair est un fluide parfait (on y neacutegligera les pheacutenomegravenes dissipatifs) Dans une reacutegion de lrsquoespace ne comprenant pas de sources lrsquoeacutequation drsquoonde srsquoeacutecrit alors

0)(12

2

2 =⎟⎟⎠

⎞⎜⎜⎝

⎛partpart

minus∆ trptc

r (A2)

p eacutetant la pression et c la vitesse de propagation du son dans lrsquoair

Cette eacutequation devient dans le domaine freacutequentiel lrsquoeacutequation de Helmholtz

( ) 0)(2 =+∆ ωrpk r (A3)

ck ω

= eacutetant le nombre drsquoonde

En coordonneacutees spheacuteriques cette eacutequation srsquoeacutecrit

0sin1sin

sin11 2

2

2

222

2 =⎥⎦

⎤⎢⎣

⎡+

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart pk

rrrr

rr δθθθ

θθ (A4)

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques Drsquoapregraves [Bruneau 1983] elle admet des solutions agrave variables seacutepareacutees de la forme

)()()( δθ ΦΘ= rRp (A5) Ces solutions sont respectivement - pour la partie radiale une combinaison des fonctions de Bessel spheacuteriques de

premiegravere et seconde espegravece3 jn et nn

)()()( krBnkrAjrR nn += (A6) 3 Les fonctions de Bessel spheacuteriques de seconde espegravece sont eacutegalement appeleacutees fonctions de

Neumann

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 47

Ces fonctions sont deacutefinies comme suit

(A7)

Figure A2 - Fonctions de Bessel spheacuteriques pour les ordres 0 agrave 5 )(krjm

- pour la partie azimutale les fonctions )(θΘ

)sin()cos()( 21 θθθ ncnc +=Θ (A8) Eacutetant donneacute la deacutefinition de lrsquoangle Θ celui-ci doit neacutecessairement ecirctre de

peacuteriode 2π ))2()(( πθθ +Θ=Θ ce qui impose agrave n drsquoecirctre entier

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 48

- pour la partie polaire les fonctions de Legendre associeacutees )(sinδmnP

nm

nn

mn dPdP

)(sin)(sinsin)(sin

δδ

δδ = pour ⎩⎨⎧

gt=

nmavecnm 321

(A9)

ougrave les )(sinδnP sont les polynocircmes de Legendre de degreacute n en δsin deacutefinis par reacutecurrence

( )

11

22

1

0

sin)12()(sin)1(

1cos321)(sin

sin)(sin0)(sin

minus+ minus+=+

minus=

==

mmm mPPmPmet

P

PP

δδ

ϕδ

δδδ

(A10)

et de formule geacuteneacuterale

mm

m

mm dd

mP )1(sin

)(sin21)(sin 2 minus= δ

δδ (A11)

On peut appliquer aux fonctions )(sinδmnP la semi-normalisation de Schmidt

)(sin)()()(sin~ δεδ mnnmn P

nmnmP

+minus

= ougrave 10 =ε et 2=nε pour 1gen (A12)

En appariant les fonctions polaires et azimutales on deacutefinit les harmoniques

spheacuteriques de degreacute et drsquoordre)1(mnY 0gem 4 mnn lele0 et de degreacute et

drsquoordre (voir Figure A3)

)1(minusmnY 1gem

mnn lele1

)(sin~)sin()(

)(sin~)cos()()1(

)1(

δθδθ

δθδθ

mnmn

mnmn

PnY

PnY

=

=minus

(A13)

4 En geacuteneacuteral lorsque le degreacute et lrsquoordre ne sont pas eacutevoqueacutes conjointement on parle par abus de langage drsquoharmoniques drsquoordre m plutocirct que de degreacute m

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 49

soit

1)(sin

)()()12(2sin)(

)(sin)()()12(2cos)(

1)(sin)1()1()12(cos)(

)1(

)1(

1)1(

1

gt

⎪⎪⎩

⎪⎪⎨

+minus

+=

+minus

+=

=+minus

+=

minus

npourP

nmnmmnY

PnmnmmnY

npourPmmmY

mnmn

mnmn

mm

δθδθ

δθδθ

δθδθ

(A14)

La solution angulaire geacuteneacuterale srsquoeacutecrit alors sous la forme drsquoun deacuteveloppement sur

la base drsquoharmoniques spheacuteriques

( ) ( )sum minus

=minus+=Θ

1

1)1()1()( n

m mnmnmnmnn YBYBθ (A15) La solution geacuteneacuterale est alors la seacuterie de Fourier-Bessel

sum sum sum+infin

= = plusmn=

=0 0 1

)()( )()()(m

m

nmnmnm

m YBkrjikrpσ

σσ δθδθ (A16)

ougrave

intint⎪⎩

⎪⎨⎧

minusisin

isin

plusmnplusmn =

]2

2

[

[20[

)1()1( )()1()(

1

ππδ

πθ

δθδθ

S

mnm

mmn dSYpkrji

B (A17)

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 50

Tableau A1 - Expressions analytiques des harmoniques spheacuteriques pour les ordres 0 agrave 3

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 51

Figure A3 - Repreacutesentation des harmoniques spheacuteriques pour les ordres m = 0 agrave 3 Les

couleurs rouge et bleu indiquent respectivement des valeurs positives et neacutegatives

53

Annexe B

Compleacutements theacuteoriques sur le deacutecodage HOA

B1 Vecteur veacutelociteacute et vecteur eacutenergie Le vecteur veacutelociteacute est un indice de la direction apparente drsquoune source introduit

par Gerzon [Gerzon 1992] Il se calcule comme le rapport de la vitesse particulaire sur la pression acoustique

)()(

)()(1

δθδθ

δθδθ

ρ rprp

ki

rprv

cV nabla

minus=minus=rrr

(B1)

Dans le cas drsquoune onde plane le vecteur veacutelociteacute V

rest ainsi directement un

vecteur unitaire orienteacute vers la direction de provenance de lrsquoonde En geacuteneacuteralisant agrave une superposition drsquoondes planes en phase ou opposition de phase eacutemises par L haut-parleurs agrave eacutequidistance du point drsquoobservation on obtient la formule suivante

VVL

ll

L

lll

urg

ugV r

rr

==

sum

sum

=

=

1

1 (B2)

ougrave deacutesigne la direction du llur egraveme haut-parleur auquel est associeacute le gain gl et Vr Vur correspondent respectivement agrave la norme et agrave la direction du vecteur veacutelociteacute

Le vecteur eacutenergie est un autre indice de direction Il est deacutefinit par

EEL

ll

L

lll

urg

ugE r

rr

==

sum

sum

=

=

1

2

1

2

(B3)

Annexe B Compleacutements theacuteoriques sur le deacutecodage HOA 54

Il peut srsquointerpreacuteter comme une indication de la concentration de lrsquoeacutenergie ( ) et de sa direction moyenne de provenance (

Er

Eur ) On a toujours 1ltEr sauf dans le cas ougrave un seul haut-parleur contribue agrave la reconstruction (dans ce cas ) peut ecirctre consideacutereacute comme un indicateur de preacutecision de la localisation

1=Er Er

B2 Deacutecodages optimiseacutes La restitution la plus confortable drsquoun champ sonore veillera donc agrave maximiser

tout en essayant de garder le plus proche possible de 1 Lrsquooptimisation du deacutecodage consiste alors agrave multiplier chaque coefficient de la matrice de deacutecodage D (voir (111) par des gains calculeacutes drsquoapregraves des critegraveres drsquooptimisation

Er Vr

Ainsi le deacutecodage appeleacute max- maximise la norme du vecteur eacutenergie en

sacrifiant celle du vecteur veacutelociteacute puisqursquoon a dans ce deacutecodage (pour des configurations reacuteguliegraveres de haut-parleurs) Ce deacutecodage est donc avantageux par rapport au deacutecodage basique pour les hautes freacutequences ou dans le cas drsquoun auditoire eacutelargi Le deacutecodage in-phase va encore plus loin en cherchant agrave annuler complegravetement les contributions des haut-parleurs placeacutes agrave lrsquoopposeacute de la direction de provenance de lrsquoonde reproduite Ce critegravere est utile dans le cas drsquoune eacutecoute dans une position tregraves excentreacutee agrave laquelle on pourrait percevoir de faccedilon preacutedominante la contribution en opposition de phase drsquoun tel haut-parleur

Er

EV rr =

Ces diffeacuterents deacutecodages ont chacun des avantages et inconveacutenients Ainsi seul le

deacutecodage basique garantit = 1 le deacutecodage max- permet une preacutecision meilleure notamment en haute freacutequence et le deacutecodage in-phase est plus adapteacute agrave un auditoire plus large Jeacuterocircme Daniel [Daniel 2000] propose ainsi de changer le deacutecodage en fonction de la freacutequence et de lrsquoeacutetendue de la zone drsquoeacutecoute deacutesireacutee

Vr Er

Figure B1 - Deacutecodages les plus approprieacutes par sous-bande et en fonction de lrsquoeacutetendue de la

zone drsquoeacutecoute [Daniel 2000]

55

Annexe C

Analyse en composantes principales

C1 Espace des donneacutees Eacutegalement souvent appeleacutee transformeacutee de Karhunen-Loegraveve5 (TKL) lrsquoanalyse en

composantes principales (ACP) est une technique statistique de repreacutesentation drsquoinformation Introduite sur 2 variables par Pearson [Pearson 1900] elle a eacuteteacute eacutetendue par Hotelling [Hotelling 1933] Elle a pour but de caracteacuteriser des donneacutees drsquoun espace agrave N dimensions dans un sous-espace plus petit en minimisant les pertes drsquoinformation due agrave la projection crsquoest-agrave-dire en maximisant la variance projeteacutee Les donneacutees ainsi reacuteorganiseacutees deviennent indeacutependantes Les variables correacuteleacutees sont remplaceacutees par de nouvelles variables deacutecorreacuteleacutees et de variance maximale combinaisons lineacuteaires des variables initiales

Les donneacutees sont constitueacutees de n variables aleacuteatoires (dans notre cas des canaux)

et p reacutealisations ou individus (des eacutechantillons)

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

pn

p

ji

n

xx

x

xx

M

LLL

MOMNM

MLLM

MNMOM

LLL

1

111

(C1)

Ces donneacutees sont geacuteneacuteralement centreacutees et peuvent aussi ecirctre reacuteduites4 (on note

1x la moyenne de la variable et 1x )( 1xσ sa variance) Reacuteduire ou non le nuage de points (ie les p reacutealisations de la variable aleacuteatoire) est un choix de modegravele

5 Quelques rares sources mentionnent une diffeacuterence entre ACP et TKL en placcedilant celle-ci au

niveau du choix de la reacuteduction des donneacutees dans le cas dune ACP les donneacutees seraient centreacutees et reacuteduites alors qursquoelles seraient uniquement centreacutees pour une TKL

Annexe C Analyse en composantes principales 56

- si on ne reacuteduit pas le nuage une variable agrave forte variance pourrait tirer tout lrsquoeffet de lrsquoACP agrave elle

- si on reacuteduit le nuage une variable qui ne serait qursquoun bruit se retrouverait avec une variance apparente eacutegale agrave une variable informative

M est centreacutee

⎥⎥⎥

⎢⎢⎢

minusminusminus

minusminus=

npn

pi

ji

nn

xxxxxx

xxxxM

K

MM

K

11

11

11

ˆ (C2)

M~ est centreacutee et reacuteduite

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

minusminus

minus

minusminus

=

)()(

)(

)()(~

1

11

1

1

111

n

npn

pi

ij

i

n

nn

xxx

xxx

xxx

xxx

xxx

M

σσ

σ

σσ

K

MM

K

(C3)

On multiplie ensuite la matrice obtenue par sa transposeacutee pour obtenir - La matrice de covariance MMC t

vˆˆ sdot=

- La matrice de correacutelation MMC tr

~~ sdot= Ces matrices sont carreacutees (N x N) symeacutetriques et reacuteelles Elles sont donc

diagonalisables dans une base orthonormeacutee 6 Le principe de lrsquoACP est alors de trouver un axe u issu drsquoune combinaison lineacuteaire

des tel que le critegravere drsquoinertie du nuage autour de cet axe soit maximal Le critegravere drsquoinertie couramment utiliseacute est la variance Il faut donc trouver lrsquoaxe qui porte le maximum de variance crsquoest-agrave-dire lrsquoaxe u tel que la projection du nuage sur cet axe ait une variance maximale

nx

6 Nos donneacutees eacutetant ici des valeurs drsquoeacutechantillons elles sont par nature centreacutees et reacuteduites On

formera donc naturellement la matrice de correacutelation

C2 Diagonalisation 57

C2 Diagonalisation Pour alleacuteger lrsquoeacutecriture de la suite de cette partie nous consideacutererons que les

variables ont eacuteteacute centreacutees et si besoin reacuteduites et nous noterons ces variables

transformeacutees (ainsi

ix ix

iii xxx minuslarr ou bien )( i

iii x

xxxσ

minuslarr ) On fera de mecircme pour M

( ou bien MM ˆlarr MM ~larr ) et C ( vCC larr ou bien rCC larr ) La projection drsquoun eacutechantillon sur un axe u srsquoeacutecrit ix

uMxiu sdot=)(π (C4) La variance empirique de )( iu xπ vaut donc

uMMuxx ttiu

tiu sdotsdotsdot=sdot )()( ππ (C5)

Or on a vu que est diagonalisable dans une base orthonormeacutee donc

on peut noter P le changement de base associeacute et ∆ la matrice diagonale formeacutee de son spectre Ainsi

MMC t=

n

i 1)(λ PPMMC tt ∆==

)()()()( PuPuuPPuxx ttt

iut

iu sdot∆sdot=sdot∆sdot=sdotππ (C6) On pose v = Pu Chercher lrsquoaxe u qui maximise )( iu xπ revient donc agrave chercher le

vecteur v qui maximise ougravevvt ∆ )( 1 ndiag λλ K=∆ avec les iλ rangeacutes par ordre deacutecroissant Ce vecteur est trivialement le premier vecteur unitaire et on a alors

1λ=∆vvt

Ainsi le vecteur qui porte la plus grande part drsquoinertie du nuage est le premier

vecteur propre de C (premier par norme deacutecroissante) De mecircme le deuxiegraveme vecteur qui explique la plus grandelt part de lrsquoinertie restante est le deuxiegraveme vecteur propre de C Finalement la question de lrsquoACP se ramegravene agrave un problegraveme de diagonalisation de la matrice de correacutelation

C3 Code Matlab

function [vep vap] = pca(f N) f donneacutees N nombre de composantes agrave garder cor = f f formation de la matrice de correacutelation [vep vap] = eig(cor) calcul des vecteurs (vep) et valeurs (vap) propres [vap ind] = sort(diag(vap)) tri des valeurs propres par ordre croissant vap = flipud(vap) disposition inverse par ordre drsquoimportance vep = vep( flipud(ind)) classement en conseacutequence des vecteurs propres vep = vep( 1N) on ne garde que les N premiers vecteurs propres

Annexe C Analyse en composantes principales 58

59

Annexe D

Analyse en sous-bandes

D1 La transformeacutee de Fourier agrave court terme (TFCT) Pour affiner lrsquoanalyse les signaux sont donc deacutecoupeacutes en bandes de freacutequence par

TFCT La TFCT consiste agrave effectuer des transformeacutees de Fourier discregravetes sur des portions de signal fenecirctreacutees reacuteguliegraverement espaceacutees

On rappelle que la transformeacutee de Fourier drsquoun signal x(t) est deacutefinie (lorsque

lrsquointeacutegrale existe) par

int+infin

infinminus

minus= dtetxfX ftiπ2)()( (D1)

La transformeacutee de Fourier agrave temps discret (TFTD) drsquoun signal x(t) srsquoeacutecrit

sum+infin

minusinfin=

minus=n

fnienxfX π2)()( (D2)

La transformeacutee de Fourier discregravete (TFD) drsquoun signal discret x(k) est deacutefinie par

sum+infin

minusinfin=

minus=

n

Nkni

enxkXπ2

)()( (D3)

La TFCT discregravete est une TFD observeacutee sur une fenecirctre wa de taille N

summinus

=

minus+=

1

0

2)())(()(

N

n

Nnki

aaa enwtnxkXπ

ττ (D4)

ougrave )(taτ est lrsquoinstant drsquoanalyse

Annexe D Analyse en sous-bandes 60

Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT [Laroche 1995]

D2 Synthegravese par addition-recouvrement Lors de la synthegravese apregraves le deacutecoupage et lrsquoanalyse des fenecirctres on cherche agrave

reconstruire le signal temporel agrave partir de sa repreacutesentation freacutequentielle Pour cela on utilise la meacutethode OLA (overlap and add addition-recouvrement) qui consiste agrave prendre la TFCT inverse des spectres Xt puis agrave additionner les signaux obtenus apregraves les avoir multiplieacutes par une fenecirctre de pondeacuteration en les faisant se recouvrir partiellement

Le reacutesultat est donneacute par

sum=

minusminus=T

tsss tnxtnwnx

s1

))((~))(()(~ ττ τ (D5)

avec )()( tt as ττ = et summinus

=

=1

0

2))((~1)(~ N

k

Nkni

s ektXN

nxs

π

τ τ

Lors de la mise en œuvre de ce traitement il faut srsquoassurer drsquoecirctre en mesure de

reconstruire parfaitement un signal lorsqursquoaucune transformation ne lui est appliqueacutee Le critegravere de reconstruction parfaite condition suffisante est alors

sum=

=minusminusT

tasaa tnwtnw

11))(())(( ττ quelque soit n (D6)

D2 Synthegravese par addition-recouvrement 61

Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add [Laroche 1995]

Plusieurs paramegravetres sont agrave choisir avec soin Le premier drsquoentre eux est le type

de fenecirctre agrave utiliser Les diffeacuterentes options qui se preacutesentent agrave nous sont - la fenecirctre rectangulaire qui preacutesente dans son spectre le lobe principal le plus

eacutetroit mais des lobes secondaires non neacutegligeables - la fenecirctre de Hamming au lobe principal un peu plus large mais pour laquelle le

1er lobe secondaire se situe agrave -43 dB - la fenecirctre de Hann (ou cosinus sureacuteleveacute) qui ressemble agrave la preacuteceacutedente avec un

1er lobe secondaire plus fort mais une pente de 18 dB par octave pour les lobes suivants

- les fenecirctres de Blackman-Harris aux lobes secondaires tregraves bas mais au lobe principal plus large

Fenecirctre Lobe 2aire

(dB) Pente

(dBoct) Bande passante

agrave 6 dB (bins) Rectangulaire -13 -6 121 Triangulaire -27 -12 178

Hann -32 -18 200 Hamming -43 -6 181

Blackman-Harris 4 -92 -6 272

Tableau D1 - Caracteacuteristiques des principales fenecirctres drsquoanalyse [Harris 1978] Le meilleur compromis est donc dans notre contexte la fenecirctre de Hann ou celle

de Hamming

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 34: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

Chapitre 3 Description des analyses 28

80

40

0

Figure 37 - Repreacutesentation temps-freacutequence des angles du son deacutecrit en 332 Letrame est reporteacute en abscisse et le numeacutero de bande en ordonneacutee On peut donc v

par trame et par bande chacun eacutetant le reacutesultat drsquoune ACP crsquoest-agrave-dire la 1egravere

Figure 38 - Eacutenergie de ce mecircme son On peut voir une basse en notes tenues uneet une batterie qui produit des sons secs dans un spectre plus aigu

80

40

0

80

40

0

Figure 39 - Norme relative de la 1egravere composante de ce mecircme son Les impacts de batterie (dans lrsquoaigu) ressortent davantage

π 0 minusπ

numeacutero de oir un angle direction

voix aiguumle

34 Traitement des donneacutees 29

Figure 310 - Pondeacuteration appliqueacutee agrave lrsquoentreacutee des k-moyennes calculeacutee ici comme

le simple produit de lrsquoeacutenergie et de la norme relative

80

40

0

343 Lissages

Pour faire face au bruit ineacutevitable dans les reacutesultats il faut lisser les donneacutees Ces

lissages temporels correspondent agrave des hypothegraveses de stabiliteacute des sources qui sont supposeacutees ecirctre fixes ou mobiles relativement lentement (dans une mesure agrave parameacutetrer)

Un premier lissage peut ecirctre opeacutereacute avant le traitement par lrsquoalgorithme des k-

moyennes Le filtre choisi est un filtre meacutedian de maniegravere agrave eacuteliminer les points aberrants tout en conservant les vraies valeurs des points coheacuterents Ce lissage est appliqueacute sur chaque sous-bande aux angles et ne tient pas compte des critegraveres de pertinence Il est donc utiliseacute avec parcimonie et peut mecircme ecirctre eacuteviteacute en reacuteglant de maniegravere adeacutequate les critegraveres de pondeacuteration agrave lrsquoentreacutee des k-moyennes

Le deuxiegraveme lissage srsquoeffectue agrave lrsquoentreacutee des k-moyennes en mecircme temps que les

critegraveres de pondeacuteration Il consiste agrave appliquer les k-moyennes non pas sur une fenecirctre donneacutee mais sur plusieurs fenecirctres conseacutecutives anteacuterieures et posteacuterieures en donnant plus de poids agrave la fenecirctre courante Dans la pratique les poids donneacutes aux diffeacuterentes fenecirctres sont eacutetablis par une gaussienne centreacutee sur la fenecirctre courante et de largeur agrave deacuteterminer (en fonction notamment de la dureacutee drsquoune fenecirctre et du type de scegravene analyseacute)

35 Exploitation de toutes les composantes de lrsquoACP Les analyses preacutesenteacutees preacuteceacutedemment ont toutes exploiteacute uniquement la

composante principale extraite par lrsquoACP Or cette analyse fournit des informations plus complegravetes par lrsquointermeacutediaire des autres composantes dont on peut tirer parti pour isoler plusieurs sources au sein drsquoune mecircme bande Cette approche est toujours en deacuteveloppement dans ce stage et nrsquoa pas encore donneacute pleine mesure des reacutesultats qursquoelle laisse entrevoir

Les composantes de lrsquoACP indiquent des directions qui correspondent aux

diffeacuterentes sources composant la scegravene sonore Les vecteurs propres de la matrice de correacutelation donnent ainsi les combinaisons lineacuteaires des signaux HOA permettant de

Chapitre 3 Description des analyses 30

seacuteparer de la meilleure faccedilon possible ces sons Ces directions peuvent ecirctre alors utiliseacutees pour former des directiviteacutes isolant au mieux ces sources

aBS sdot= (31)

ougrave la matrice a contient les vecteurs propres de la matrice de correacutelation (voir Annexe C) le vecteur B contient les signaux HOA et le vecteur S contient les sources extraites

⎟⎟⎟

⎜⎜⎜

=⎟⎟⎟

⎜⎜⎜

⎛=

⎥⎥⎥

⎢⎢⎢

⎟⎟⎟

⎜⎜⎜

⎟⎟⎟

⎜⎜⎜

⎛=

10

1001

1

ML

N

B

BB

S

SSuua MML (32)

On obtient ainsi des lobes drsquoautant plus eacutetroits que lrsquoordre est eacuteleveacute chacun

dirigeacute vers une source et permettant de lrsquoisoler le plus possible des contributions des autres sources La Figure 311 preacutesente les directiviteacutes ainsi trouveacutees par une ACP en pleine bande Une analyse en sous-bande permet une plus grande distinction des sources mais une seacuteparation diffeacuterente entre les bandes est dangereuse car elle risque de dissocier spatialement plusieurs parties drsquoun mecircme son

Figure 311 - Directiviteacutes seacuteparant ideacutealement 4 sources placeacutees agrave 17 73 195 et -58deg

pour une scegravene virtuelle encodeacutee agrave lrsquoordre 4 Ce principe se heurte neacuteanmoins aux limites de seacuteparation lieacutees agrave lrsquoordre

drsquoencodage en effet 2 sources ne pourront pas ecirctre seacutepareacutees si elles sont trop proches comme en teacutemoigne la largeur des lobes principaux Les lobes secondaires traduisent eacutegalement un meacutelange des sources isoleacutees La figure ci-dessus montre ainsi que la source placeacutee agrave 17deg (en vert) sera preacutesente de maniegravere non neacutegligeable dans le signal senseacute contenir la source placeacutee agrave -58deg (en bleu) en raison du lobe secondaire bleu important

31

Chapitre 4

Reacutesultats et applications

41 Illustration et critique des reacutesultats obtenus

411 Avant-propos Sans notification particuliegravere les reacutesultats preacutesenteacutes ont eacuteteacute obtenus avec un pas

de 50 ms une analyse en 80 bandes avec une FFT sur 8192 points Une taille de FTT plus grande et un plus grand nombre de bande augmente la qualiteacute de lrsquoanalyse un pas plus petit ameacuteliore sa preacutecision temporelle mais les reacutesultats sont moins fiables et un lissage plus important srsquoimpose alors Ces paramegravetres ont eacuteteacute reacutegleacutes apregraves de multiples essais sur des scegravenes diverses

Les reacutesultats sont preacutesenteacutes ici uniquement sous la forme de graphiques nous ne

pouvons donc repreacutesenter que les angles trouveacutes agrave la sortie de lrsquoalgorithme des k-moyennes

412 Scegravene 2D artificielle agrave 4 sources fixes La premiegravere scegravene est une scegravene artificielle composeacutee de 4 sons fixes placeacutes agrave -70

-10 45 et 110deg Ces sons (une basse une voix une guitare et une batterie) ont eacuteteacute choisis pour leur varieacuteteacute spectrale et leur varieacuteteacute drsquoattaque Elle a en outre le meacuterite drsquoecirctre reacutealiste et de constituer une seacutequence musicale (chaque son nrsquoest pas une meacutelodie indeacutependante)

On voit sur la Figure 41 ci-dessous que les angles trouveacutes sont proches des

angles theacuteoriques Lrsquoun des sons (agrave 45deg) est quasiment nul avant la 100egraveme trame sa position est alors moins facile agrave deacuteterminer plus preacuteciseacutement une position approximative est trouveacutee et correspondrait exactement agrave la position du bruit (45deg) si lrsquoincertitude de mesure tregraves grande pour un son aussi faible ne rendait la deacutetermination si ardue On mesure un eacutecart-type de 22deg sur cet exemple (en excluant le deacutebut du son agrave 45deg)

Chapitre 4 Reacutesultats et applications 32

Figure 41 - Angles theacuteoriques (en pointilleacutes rouge) et calculeacutes (en trait bleu) pour une scegravene

constitueacutee de 4 sons fixes longue de 11s

413 Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile

Figure 42 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) de la scegravene agrave

4 sources dont 1 mobile deacutecrite en 332 Cette scegravene est deacutecrite en 332 On a ici demandeacute aux k-moyennes de renvoyer 5 barycentres par trame alors que

seules 4 sources eacutetaient preacutesentes dans le but de se garantir une marge vis-agrave-vis des erreurs de deacutetection Cette 5egraveme direction nrsquoest pas du tout gecircnante elle indique une direction qui ne contient pas de source et crsquoest donc un son tregraves faible qui est ainsi pointeacute Apregraves une eacuteventuelle extraction le signal ne sera donc pas du tout gecircnant

41 Illustration et critique des reacutesultats obtenus 33

On peut remarquer que quand le son mobile se rapproche drsquoun son fixe la deacutetection est moins bonne il y a une fusion entre les 2 sons Mais encore une fois lors de lrsquoextraction lrsquoisolation drsquoun des sons englobera lrsquoautre son ce qui ne posera pas de problegraveme pour les objectifs fixeacutes aucune source nrsquoeacutetant oublieacutee En effet la seacuteparation de sources nrsquoest pas un objectif ici mais un moyen pour preacuteciser les positions des sources ce qui sera fait correctement mecircme si 2 sources sont pointeacutees par 1 seule direction

414 Scegravene 3D artificielle agrave une source et bruit de fond

La scegravene dont la position drsquoune source a eacuteteacute extraite ci-dessous est une scegravene virtuelle en 3D constitueacute drsquoun son (une voix) qursquoon a fait se deacuteplacer par paliers tout drsquoabord vers le haut de 0deg agrave 45deg et vers la gauche de 0deg agrave 90deg puis redescendre jusqursquoagrave 35deg en continuant son cheminement vers la gauche jusqursquoagrave 120deg et enfin finir la descente de 35deg agrave 0deg en la laissant agrave 120deg Agrave cette source a eacuteteacute superposeacutee une ambiance spatialiseacutee de hall drsquoaeacuteroport initialement enregistreacutee en 2D (au format 51) mais transformeacutee pour contenir des composantes verticales Cette ambiance deacutecorreleacutee de la source avait pour but de tester la robustesse de lrsquoanalyse Elle eacutetait agrave 15 dB en-dessous du niveau de la voix

Figure 43 - Azimut et eacuteleacutevation theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun

son en 3D artificiel de 9s placeacute dans une ambiance bruyante On remarque que lrsquoanalyse est tregraves correcte Il nrsquoy a pas drsquoeacutecart important entre

les angles theacuteoriques et ceux calculeacutes On note toutefois que le lissage agrave lrsquoentreacutee des k-moyennes a pour effet de gommer les creacuteneaux et drsquoaplatir quelque peu la courbe drsquoeacuteleacutevation ceci nrsquoest pas vraiment gecircnant car de tels sauts dans la position drsquoune source ne sont pas du tout reacutealistes (ils peuvent caracteacuteriser des bruits de pas mais de tels impacts sont courts et on peut srsquoattendre agrave ce que la courbe suive leur position aux instants ougrave ils sont eacutemis)

Chapitre 4 Reacutesultats et applications 34

415 Scegravene 2D naturelle agrave une source Les scegravenes naturelles sont on lrsquoa vu plus deacutelicates agrave exploiter car on ne peut pas

garantir la preacutecision de la position theacuteorique agrave retrouver par le calcul et on ne peut donc pas calculer la preacutecision de lrsquoanalyse Seuls les enregistrements utilisant la table tournante (voir 232) permettent une mesure preacutecise de la position de lrsquoangle Ces enregistrements on pu confirmer la validiteacute de lrsquoanalyse pour des scegravenes reacuteelles on trouve ici un eacutecart-type de 25deg

Figure 44 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun bruit blanc

tournant autour du micro enregistreacute en chambre sourde Cette analyse a eacuteteacute reacutealiseacutee par sous-bandes mais sur une eacutetendue freacutequentielle

plus reacuteduite puisqursquoon srsquoest limiteacute aux possibiliteacutes offertes par le microphone La scegravene a donc eacuteteacute analyseacutee de 200 agrave 10 000 Hz

42 Quelques applications

421 Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre 2 agrave partir de lrsquoordre 1

Une fois les positions des sources connues la porte est ouverte agrave de nombreuses

applications La connaissance de ces positions permet en effet de syntheacutetiser artificiellement des composantes manquantes ou non transmises La premiegravere synthegravese deacuteveloppeacutee est celle des signaux U et V composant la partie horizontale de lrsquoordre 2 agrave partir de lrsquoordre 1 et de paramegravetres issus de lrsquoanalyse pour une source en 2D (des angles dans de cas)

42 Quelques applications 35

Figure 45 - Principe de lrsquoameacutelioration de la preacutecision spatiale

Le principe de la synthegravese est drsquoextraire les sources originales agrave partir de W X Y

et des angles (un angle par trame et par sous-bande) Ceci peut ecirctre reacutealiseacute de maniegravere approcheacutee en deacutecodant lrsquoordre 1 dans les directions des sources Ce deacutecodage revient agrave calculer les signaux qui devraient alimenter des haut-parleurs qui seraient placeacutes agrave ces positions dans le cas drsquoune restitution (voir 122) crsquoest-agrave-dire agrave former des directiviteacutes dans les directions des sources Dans la plupart des cas ce deacutecodage qui fait intervenir une pseudo-inversion de Moore-Penrose (111) est imparfait les sources se retrouvant leacutegegraverement meacutelangeacutees On peut comparer cette seacuteparation agrave celle que ferait un ensemble de microphones agrave directiviteacute hypercardioiumlde coiumlncidents

Figure 46 - Directiviteacutes eacutequivalentes agrave la seacuteparation de 4 sources agrave lrsquoordre 1 Ces sources seacutepareacutees vont ensuite constituer toujours placeacutees aux angles

deacutetermineacutes agrave lrsquoanalyse une scegravene virtuelle qursquoon va encoder agrave lrsquoordre 2 De cet encodage on ne conservera que les signaux manquants dans notre exemple les signaux du 2nd ordre U et V Ainsi la scegravene spatialiseacutee sera au final constitueacutee des signaux W X et Y drsquoorigine (transmis) et des signaux U et V syntheacutetiseacutes

Chapitre 4 Reacutesultats et applications 36

422 Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave partir de W Reconstruire une scegravene sonore spatialiseacutee agrave partir drsquoun unique canal mono est

alors difficile et le reacutesultat nrsquoest appreacuteciable que pour des scegravenes simples Il faut pour cela que les diffeacuterentes sources composant cette scegravene aient des supports spectraux aussi distincts que possible Les diffeacuterentes sous-bandes sont alors placeacutees agrave un certain angle transmis en parallegravele et crsquoest cette scegravene reconstitueacutee qui va ecirctre encodeacutee au 1er ordre de maniegravere agrave recreacuteer les signaux X et Y

Figure 47 - Principe de la restitution de lrsquoordre 1 agrave partir du signal mono W Ce scheacutema rappelle une meacutethode deacuteveloppeacutee dans le cas steacutereacuteo appeleacutee BCC

(Binaural Cue Coding) [Faller and Baumgarte 2002] Le principe est drsquoextraire et coder des informations permettant la reconstruction binaurale drsquoun signal agrave savoir les diffeacuterences interaurales drsquointensiteacute et de temps (Interaural LevelTime Difference ILD et ITD) qui correspondent dans le cas drsquoune restitution sur un casque aux diffeacuterences drsquointensiteacute et de temps inter-canal (Inter-Channel LevelTime Difference ICLD et ICTD) qui sont mesureacutees agrave partir drsquoune analyse en sous-bandes Les auteurs y ont plus reacutecemment associeacute un indice de correacutelation interaurale mesureacute agrave partir de la correacutelation inter-canal (ICC) afin de caracteacuteriser la preacutecision spatiale (la ldquolargeurrdquo drsquoune source)

Figure 48 - Scheacutema de principe de la meacutethode BCC [Faller and Baumgarte 2003]

On observe en pratique des deacutefauts lieacutes agrave la brutaliteacute de la proceacutedure une sous-

bande ne peut ecirctre que placeacutee agrave la position indiqueacutee et ne peut pas rester floue diffuse ou encore ecirctre placeacutee agrave plusieurs endroits Pour y remeacutedier nous avons ajouteacute 2 traitements agrave la synthegravese Tour drsquoabord nous avons appliqueacute un leacuteger lissage soulageant les effets deacutesagreacuteables dus au saut du contenu drsquoune sous-bande drsquoun endroit agrave un autre entre de 2 fenecirctres conseacutecutives Les positions varient alors de faccedilon plus souple au sein drsquoune mecircme sous-bande traduisant une hypothegravese de continuiteacute spatiale (pas de deacuteplacement brusque) La contrepartie est que cette hypothegravese est lieacutee agrave une hypothegravese de continuiteacute spectrale

42 Quelques applications 37

La 2egraveme ameacutelioration concerne le positionnement des sources En incluant dans la transmission un critegravere de pertinence on peut savoir srsquoil est raisonnable de placer une sous-bande agrave un angle preacutecis ou bien si lrsquoanalyse eacutetait flou agrave son sujet auquel cas un positionnement impreacutecis serait preacutefeacuterable Le paramegravetre choisi est une combinaison des critegraveres eacutevoqueacutes en 342 il nous permet de placer la sous-bande de maniegravere plus ou moins prononceacutee

43 Comparaison avec une meacutethode existante Certains auteurs ont deacutejagrave essayeacute drsquoanalyser un contenu ambisonique pour

retrouver les positions des sources Ville Pulkki a ainsi deacutecrit dans [Pulkki and Faller 2006] une meacutethode drsquoanalyse du B-format baseacutee sur lrsquoeacutetude des amplitudes des signaux W X Y et Z

Figure 49 - X et Y dans le cas drsquoune sinusoiumlde placeacutee agrave 15deg (agrave gauche) et 120deg (agrave droite)

Les figures ci-dessus montrent les relations drsquoamplitudes (algeacutebriques) qui relient

X et Y agrave lrsquoangle de la source On voit que lrsquoanalyse de ces amplitudes respectives permet de retrouver la position de la source en effet on a pour une source unique les relations de lrsquoeacutequation (11) rappeleacutee ici

⎪⎪

⎪⎪

=

=

=

=

δ

δθ

δθ

sin2

cossin2

coscos2

SZ

SY

SX

SW

(41)

On peut donc theacuteoriquement retrouver les valeurs de θ et δ par relations

trigonomeacutetriques Ainsi on a

⎪⎪⎩

⎪⎪⎨

=

=

2)sin(

)tan(

WZ

XY

δ

θ (42)

Chapitre 4 Reacutesultats et applications 38

On peut donc trouver les angles θ et δ agrave π pregraves Pour lever lrsquoambiguiumlteacute une eacutetude de signe est neacutecessaire Mais dans le cas de θ le signe de X et de Y agrave δ fixeacute deacutepend aussi bien de θ que S Il faut srsquointeacuteresser aux signes de θcos et θsin crsquoest-agrave-dire

aux signes de WX et

WY Dans la pratique on srsquointeacuteressera aux signes de et

pour se preacutevenir des divisions par zeacuteros

XW sdot YW sdot

XW sdot et YW sdot sont proportionnels agrave toujours positif

2S

Les auteurs deacutecrivent eacutegalement dans leur article un critegravere appeleacute diffuseness qui

peut ecirctre compareacute agrave un critegravere de pertinence inverseacute Ce paramegravetre calculeacute par agrave 1 - R ougrave R est un rapport de normes est tregraves proche du critegravere de norme relative deacutecrit en 342 Il peut donc ecirctre utiliseacute de la mecircme faccedilon et permettre ainsi une pleine comparaison

Cette meacutethode a eacuteteacute impleacutementeacutee pour pouvoir ecirctre compareacutee avec la meacutethode

par ACP Tous les paramegravetres ont scrupuleusement eacuteteacute gardeacutes identiques et plusieurs reacuteglages ont eacuteteacute testeacutes Les courbes ci-dessous preacutesentent les reacutesultats des analyses de la scegravene deacutecrite en 332 avec un pas de 50ms un overlap de 50 un NFFT de 2048 et 40 bandes freacutequentielles Nous avons repreacutesenteacute tous les angles trouveacutes crsquoest-agrave-dire un par bande et par trame pour srsquoaffranchir de la seacutelection des k-moyennes

π

0

minusπ

Figure 410 - Angles trouveacutes par lrsquoalgorithme de [Pulkki and Faller 2006] Le diamegravetre du point correspondant agrave la pertinence

43 Comparaison avec une meacutethode existante 39

π

0

minusπ

Figure 411 - Angles trouveacutes par une ACP pour la mecircme scegravene On remarque que les points excentriques sont moins nombreux et plus rarement trouveacutes comme pertinents

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee

441 Position du problegraveme

Une application directe de ces analyses a eacuteteacute deacuteveloppeacutee pour la confeacuterence audio

spatialiseacutee La confeacuterence audio utilise en effet la spatialisation pour permettre une meilleure seacuteparation par lrsquooreille des diffeacuterents locuteurs Ainsi si plusieurs personnes parlent en mecircme temps il sera tregraves difficile de comprendre chacun individuellement si ces voix sont restitueacutees en mono mais on pourra focaliser lrsquoattention sur chacune drsquoentre elles si elles sont seacutepareacutees spatialement (crsquoest lrsquoeffet cocktail party [Cherry 1953])

Lrsquoobjectif eacutetait de veacuterifier qursquoil eacutetait possible de conserver la spatialisation drsquoune

confeacuterence en nrsquoayant transmis qursquoun downmix mono des signaux Ce concept semble se rapprocher de celui deacutecrit en 422 mais une diffeacuterence fondamentale les seacutepare la confeacuterence audio spatialiseacutee nrsquoest pas codeacutee au format ambisonic mais les signaux traiteacutes sont directement les sons provenant des diffeacuterents locuteurs crsquoest-agrave-dire les sources elles-mecircmes Ainsi lrsquoanalyse ne porte plus sur une scegravene spatialiseacutee mais sur des signaux seacutepareacutes Il nrsquoy a ainsi plus drsquoindices spatiaux agrave trouver

Avoir accegraves aux sources permet drsquoobtenir des informations plus preacutecises pour

permettre une seacuteparation apregraves la transmission Comme nous lrsquoavons vu lrsquoanalyse drsquoune scegravene spatialiseacutee ne permet que dans drsquoultimes cas agrave la seacuteparation des sources ce qui est ici notre point de deacutepart et sera en fait notre point drsquoarriveacutee En effet nous tenterons de retrouver les sources seacutepareacutees apregraves la transmission de maniegravere agrave pouvoir par la suite les spatialiser agrave loisir (voir Figure 413)

Chapitre 4 Reacutesultats et applications 40

442 Solution proposeacutee Les paramegravetres extraits ne sont donc plus des positions de sources Nous avons

choisi de mesurer puis transmettre lrsquoeacutenergie de chaque signal dans chaque sous-bande en parallegravele du downmix En effet une bonne seacuteparation sera possible si lrsquoon sait quelle proportion de chaque source compose chaque sous-bande du signal mono

Figure 412 - Scheacutema de principe drsquoune confeacuterence audio spatialiseacutee

Figure 413 - Scheacutema ameacutelioreacute (deacutebit reacuteduit)

en pointilleacutes informations compleacutementaires (eacutenergie) Lrsquoanalyse en sous-bandes a lieu dans le serveur (Figure 414) Celui-ci calcule

lrsquoeacutenergie de chaque signal dans chaque sous-bande sur une trame donneacutee Crsquoest ce paramegravetre qui associeacute au signal mono M permettra la seacuteparation des sources dans le terminal (Figure 415) Ce dernier reacutepartira en effet les diffeacuterentes sous-bandes vers chaque signal reconstitueacute proportionnellement agrave cette information pour reconstruire les 4 sources originales

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee 41

Figure 414 - Analyse principe de lrsquoencodage dans le serveur

Figure 415 - Synthegravese principe du deacutecodage dans le client

Afin de reacuteduire au maximum les informations compleacutementaires agrave transmettre on

peut remarquer qursquoau cours drsquoune confeacuterence audio on a tregraves souvent un seul locuteur les participants ne parlent que tregraves rarement tous en mecircme temps Ceci implique que les signaux en entreacutee sont tregraves souvent tous nuls sauf 1 et appliquer un seuil en entreacutee de lrsquoanalyse permet outre lrsquoallegravegement du traitement drsquoavoir moins de paramegravetres agrave transmettre

Ce scheacutema simplifieacute ne tient pas compte des problegravemes de phase rien nrsquoindique

que les eacutenergies des signaux srsquoajoutent bien dans chaque sous-bande lors du downmix on peut tregraves bien avoir des oppositions de phase La solution est drsquoeffectuer le downmix (la somme) des signaux dans chaque sous-bande en prenant soin drsquoavoir recaleacute les phases au preacutealable Ceci nrsquoa un sens que pour des bandes suffisamment eacutetroites Les deacutecalages temporels appliqueacutes pour le recalage sont alors des paramegravetres suppleacutementaires agrave transmettre et sont pris en compte lors de la synthegravese au niveau du reacutepartiteur qui repositionnera la phase de chaque trame pour chaque signal

Chapitre 4 Reacutesultats et applications 42

443 Bilan Le reacutesultat du deacutecodage a pu ecirctre eacutecouteacute de diffeacuterentes maniegraveres les sources

reconstitueacutees individuellement ensemble en steacutereacuteo drsquoamplitude et sur un systegraveme 51 On note que les sources ont eacuteteacute assez bien seacutepareacutees mais que des artefacts sont audibles en particulier lorsque le nombre de locuteurs simultaneacutes augmentent Ces artefacts sont un meacutelange des voix qui nrsquoest gecircnant que lorsqursquoon les eacutecoute de maniegravere seacutepareacutee En effet lrsquoeacutecoute simultaneacutee de ces signaux syntheacutetiseacutes mecircme placeacutes agrave des positions distinctes sur un systegraveme de diffusion multicanal est tout agrave fait satisfaisante

Ce proceacutedeacute pour pouvoir ecirctre appliqueacute doit fonctionner en temps-reacuteel Cette

contrainte nrsquoa pas du tout eacuteteacute prise en compte lrsquoobjectif eacutetant de valider la faisabiliteacute drsquoune reconstruction Les programmes sous Matlab nrsquoont pas eacuteteacute optimiseacutes et ne respectent pas cette contrainte

43

Conclusion Nous avons preacutesenteacute dans ce rapport le principe et lrsquoapplication de plusieurs

meacutethodes drsquoanalyses spatiales de scegravenes ambisoniques conccedilues et reacutealiseacutee pendant le stage Le format HOA est en effet une repreacutesentation du champ acoustique deacutecomposeacute sur une base drsquoharmoniques spheacuteriques jusqursquoagrave un certain ordre agrave la maniegravere drsquoun deacuteveloppement limiteacute Il contient donc de maniegravere indirecte des indications spatiales qursquoon peut extraire avec des analyses comme lrsquoanalyse en composantes principales

Ces analyses nous permettent de deacuteterminer les positions des sources qui

composent la scegravene sonore Nous avons appliqueacute les reacutesultats de ces analyses agrave 2 types de synthegravese lrsquoune destineacutee aux transmissions bas deacutebit lrsquoautre agrave un traitement de restitution de la preacutecision spatiale dans le cas ougrave des ordres supeacuterieurs dont le but est drsquoaffiner la perception de localisation nrsquoauraient pas pu ecirctre transmis Ces algorithmes par le codage drsquoinformations spatiales qursquoils permettent pourront trouver bien drsquoautres applications dans la transmission et le codage ougrave la description du contenu est de plus en plus utiliseacutee (comme par exemple dans la norme MPEG)

Des ameacuteliorations sont possibles sur plusieurs points tout drsquoabord lrsquoexploitation

de toutes les composantes de lrsquoACP est agrave lrsquoeacutetude et semble pouvoir donner des reacutesultats inteacuteressants Drsquoautre part on a vu que le reacutesultat final est tregraves deacutependant de la bonne convergence de lrsquoalgorithme des k-moyennes utiliseacute pour traiter les donneacutees brutes de lrsquoanalyse en sous-bandes Or cet algorithme neacutecessite des reacuteglages tregraves fins et une connaissance a priori du nombre de sources est presque indispensable Drsquoautres algorithmes plus complexes de suivi de formes pourraient ecirctre avantageusement utiliseacutes pour deacutetecter dans tous les angles trouveacutes lesquels sont susceptibles de former une trajectoire

45

Annexe A

Deacuteveloppement du champ acoustique en harmoniques spheacuteriques

A1 Eacutequation drsquoonde en coordonneacutees spheacuteriques On se place dans lrsquoespace euclidien agrave 3 dimensions muni drsquoun systegraveme de

coordonneacutees spheacuteriques Un point M y est repeacutereacute par son rayon r son azimut θ et son eacuteleacutevation δ tels que repreacutesenteacutes sur la figure ci-dessous

- r est la norme du vecteur position rr crsquoest-agrave-dire la distance OM - [20[ πθ isin est lrsquoangle formeacute par le projeteacute du point sur le plan xOy et lrsquoaxe Ox

- ]2

2

[ ππδ minusisin est lrsquoangle formeacute par le plan xOy et le vecteur position2

Figure A1 - Systegraveme de coordonneacutees spheacuteriques

2 Cet angle diffegravere de lrsquoangle polaire usuel δπϕ minus=

2 habituellement pris entre lrsquoaxe Oz et le

vecteur position

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 46

Les relations entre les coordonneacutees spheacuteriques et les coordonneacutees carteacutesiennes sont

⎪⎩

⎪⎨

===

δδθδθ

sincossincoscos

zryrx

(A1)

On srsquointeacuteresse dans ce repegravere agrave lrsquoeacutequation de propagation des ondes acoustiques

de pression On se place dans les conditions classiques drsquoacoustique lineacuteaire (les variations de p sont petites par rapport agrave la pression atmospheacuterique) en supposant que lrsquoair est un fluide parfait (on y neacutegligera les pheacutenomegravenes dissipatifs) Dans une reacutegion de lrsquoespace ne comprenant pas de sources lrsquoeacutequation drsquoonde srsquoeacutecrit alors

0)(12

2

2 =⎟⎟⎠

⎞⎜⎜⎝

⎛partpart

minus∆ trptc

r (A2)

p eacutetant la pression et c la vitesse de propagation du son dans lrsquoair

Cette eacutequation devient dans le domaine freacutequentiel lrsquoeacutequation de Helmholtz

( ) 0)(2 =+∆ ωrpk r (A3)

ck ω

= eacutetant le nombre drsquoonde

En coordonneacutees spheacuteriques cette eacutequation srsquoeacutecrit

0sin1sin

sin11 2

2

2

222

2 =⎥⎦

⎤⎢⎣

⎡+

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart pk

rrrr

rr δθθθ

θθ (A4)

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques Drsquoapregraves [Bruneau 1983] elle admet des solutions agrave variables seacutepareacutees de la forme

)()()( δθ ΦΘ= rRp (A5) Ces solutions sont respectivement - pour la partie radiale une combinaison des fonctions de Bessel spheacuteriques de

premiegravere et seconde espegravece3 jn et nn

)()()( krBnkrAjrR nn += (A6) 3 Les fonctions de Bessel spheacuteriques de seconde espegravece sont eacutegalement appeleacutees fonctions de

Neumann

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 47

Ces fonctions sont deacutefinies comme suit

(A7)

Figure A2 - Fonctions de Bessel spheacuteriques pour les ordres 0 agrave 5 )(krjm

- pour la partie azimutale les fonctions )(θΘ

)sin()cos()( 21 θθθ ncnc +=Θ (A8) Eacutetant donneacute la deacutefinition de lrsquoangle Θ celui-ci doit neacutecessairement ecirctre de

peacuteriode 2π ))2()(( πθθ +Θ=Θ ce qui impose agrave n drsquoecirctre entier

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 48

- pour la partie polaire les fonctions de Legendre associeacutees )(sinδmnP

nm

nn

mn dPdP

)(sin)(sinsin)(sin

δδ

δδ = pour ⎩⎨⎧

gt=

nmavecnm 321

(A9)

ougrave les )(sinδnP sont les polynocircmes de Legendre de degreacute n en δsin deacutefinis par reacutecurrence

( )

11

22

1

0

sin)12()(sin)1(

1cos321)(sin

sin)(sin0)(sin

minus+ minus+=+

minus=

==

mmm mPPmPmet

P

PP

δδ

ϕδ

δδδ

(A10)

et de formule geacuteneacuterale

mm

m

mm dd

mP )1(sin

)(sin21)(sin 2 minus= δ

δδ (A11)

On peut appliquer aux fonctions )(sinδmnP la semi-normalisation de Schmidt

)(sin)()()(sin~ δεδ mnnmn P

nmnmP

+minus

= ougrave 10 =ε et 2=nε pour 1gen (A12)

En appariant les fonctions polaires et azimutales on deacutefinit les harmoniques

spheacuteriques de degreacute et drsquoordre)1(mnY 0gem 4 mnn lele0 et de degreacute et

drsquoordre (voir Figure A3)

)1(minusmnY 1gem

mnn lele1

)(sin~)sin()(

)(sin~)cos()()1(

)1(

δθδθ

δθδθ

mnmn

mnmn

PnY

PnY

=

=minus

(A13)

4 En geacuteneacuteral lorsque le degreacute et lrsquoordre ne sont pas eacutevoqueacutes conjointement on parle par abus de langage drsquoharmoniques drsquoordre m plutocirct que de degreacute m

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 49

soit

1)(sin

)()()12(2sin)(

)(sin)()()12(2cos)(

1)(sin)1()1()12(cos)(

)1(

)1(

1)1(

1

gt

⎪⎪⎩

⎪⎪⎨

+minus

+=

+minus

+=

=+minus

+=

minus

npourP

nmnmmnY

PnmnmmnY

npourPmmmY

mnmn

mnmn

mm

δθδθ

δθδθ

δθδθ

(A14)

La solution angulaire geacuteneacuterale srsquoeacutecrit alors sous la forme drsquoun deacuteveloppement sur

la base drsquoharmoniques spheacuteriques

( ) ( )sum minus

=minus+=Θ

1

1)1()1()( n

m mnmnmnmnn YBYBθ (A15) La solution geacuteneacuterale est alors la seacuterie de Fourier-Bessel

sum sum sum+infin

= = plusmn=

=0 0 1

)()( )()()(m

m

nmnmnm

m YBkrjikrpσ

σσ δθδθ (A16)

ougrave

intint⎪⎩

⎪⎨⎧

minusisin

isin

plusmnplusmn =

]2

2

[

[20[

)1()1( )()1()(

1

ππδ

πθ

δθδθ

S

mnm

mmn dSYpkrji

B (A17)

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 50

Tableau A1 - Expressions analytiques des harmoniques spheacuteriques pour les ordres 0 agrave 3

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 51

Figure A3 - Repreacutesentation des harmoniques spheacuteriques pour les ordres m = 0 agrave 3 Les

couleurs rouge et bleu indiquent respectivement des valeurs positives et neacutegatives

53

Annexe B

Compleacutements theacuteoriques sur le deacutecodage HOA

B1 Vecteur veacutelociteacute et vecteur eacutenergie Le vecteur veacutelociteacute est un indice de la direction apparente drsquoune source introduit

par Gerzon [Gerzon 1992] Il se calcule comme le rapport de la vitesse particulaire sur la pression acoustique

)()(

)()(1

δθδθ

δθδθ

ρ rprp

ki

rprv

cV nabla

minus=minus=rrr

(B1)

Dans le cas drsquoune onde plane le vecteur veacutelociteacute V

rest ainsi directement un

vecteur unitaire orienteacute vers la direction de provenance de lrsquoonde En geacuteneacuteralisant agrave une superposition drsquoondes planes en phase ou opposition de phase eacutemises par L haut-parleurs agrave eacutequidistance du point drsquoobservation on obtient la formule suivante

VVL

ll

L

lll

urg

ugV r

rr

==

sum

sum

=

=

1

1 (B2)

ougrave deacutesigne la direction du llur egraveme haut-parleur auquel est associeacute le gain gl et Vr Vur correspondent respectivement agrave la norme et agrave la direction du vecteur veacutelociteacute

Le vecteur eacutenergie est un autre indice de direction Il est deacutefinit par

EEL

ll

L

lll

urg

ugE r

rr

==

sum

sum

=

=

1

2

1

2

(B3)

Annexe B Compleacutements theacuteoriques sur le deacutecodage HOA 54

Il peut srsquointerpreacuteter comme une indication de la concentration de lrsquoeacutenergie ( ) et de sa direction moyenne de provenance (

Er

Eur ) On a toujours 1ltEr sauf dans le cas ougrave un seul haut-parleur contribue agrave la reconstruction (dans ce cas ) peut ecirctre consideacutereacute comme un indicateur de preacutecision de la localisation

1=Er Er

B2 Deacutecodages optimiseacutes La restitution la plus confortable drsquoun champ sonore veillera donc agrave maximiser

tout en essayant de garder le plus proche possible de 1 Lrsquooptimisation du deacutecodage consiste alors agrave multiplier chaque coefficient de la matrice de deacutecodage D (voir (111) par des gains calculeacutes drsquoapregraves des critegraveres drsquooptimisation

Er Vr

Ainsi le deacutecodage appeleacute max- maximise la norme du vecteur eacutenergie en

sacrifiant celle du vecteur veacutelociteacute puisqursquoon a dans ce deacutecodage (pour des configurations reacuteguliegraveres de haut-parleurs) Ce deacutecodage est donc avantageux par rapport au deacutecodage basique pour les hautes freacutequences ou dans le cas drsquoun auditoire eacutelargi Le deacutecodage in-phase va encore plus loin en cherchant agrave annuler complegravetement les contributions des haut-parleurs placeacutes agrave lrsquoopposeacute de la direction de provenance de lrsquoonde reproduite Ce critegravere est utile dans le cas drsquoune eacutecoute dans une position tregraves excentreacutee agrave laquelle on pourrait percevoir de faccedilon preacutedominante la contribution en opposition de phase drsquoun tel haut-parleur

Er

EV rr =

Ces diffeacuterents deacutecodages ont chacun des avantages et inconveacutenients Ainsi seul le

deacutecodage basique garantit = 1 le deacutecodage max- permet une preacutecision meilleure notamment en haute freacutequence et le deacutecodage in-phase est plus adapteacute agrave un auditoire plus large Jeacuterocircme Daniel [Daniel 2000] propose ainsi de changer le deacutecodage en fonction de la freacutequence et de lrsquoeacutetendue de la zone drsquoeacutecoute deacutesireacutee

Vr Er

Figure B1 - Deacutecodages les plus approprieacutes par sous-bande et en fonction de lrsquoeacutetendue de la

zone drsquoeacutecoute [Daniel 2000]

55

Annexe C

Analyse en composantes principales

C1 Espace des donneacutees Eacutegalement souvent appeleacutee transformeacutee de Karhunen-Loegraveve5 (TKL) lrsquoanalyse en

composantes principales (ACP) est une technique statistique de repreacutesentation drsquoinformation Introduite sur 2 variables par Pearson [Pearson 1900] elle a eacuteteacute eacutetendue par Hotelling [Hotelling 1933] Elle a pour but de caracteacuteriser des donneacutees drsquoun espace agrave N dimensions dans un sous-espace plus petit en minimisant les pertes drsquoinformation due agrave la projection crsquoest-agrave-dire en maximisant la variance projeteacutee Les donneacutees ainsi reacuteorganiseacutees deviennent indeacutependantes Les variables correacuteleacutees sont remplaceacutees par de nouvelles variables deacutecorreacuteleacutees et de variance maximale combinaisons lineacuteaires des variables initiales

Les donneacutees sont constitueacutees de n variables aleacuteatoires (dans notre cas des canaux)

et p reacutealisations ou individus (des eacutechantillons)

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

pn

p

ji

n

xx

x

xx

M

LLL

MOMNM

MLLM

MNMOM

LLL

1

111

(C1)

Ces donneacutees sont geacuteneacuteralement centreacutees et peuvent aussi ecirctre reacuteduites4 (on note

1x la moyenne de la variable et 1x )( 1xσ sa variance) Reacuteduire ou non le nuage de points (ie les p reacutealisations de la variable aleacuteatoire) est un choix de modegravele

5 Quelques rares sources mentionnent une diffeacuterence entre ACP et TKL en placcedilant celle-ci au

niveau du choix de la reacuteduction des donneacutees dans le cas dune ACP les donneacutees seraient centreacutees et reacuteduites alors qursquoelles seraient uniquement centreacutees pour une TKL

Annexe C Analyse en composantes principales 56

- si on ne reacuteduit pas le nuage une variable agrave forte variance pourrait tirer tout lrsquoeffet de lrsquoACP agrave elle

- si on reacuteduit le nuage une variable qui ne serait qursquoun bruit se retrouverait avec une variance apparente eacutegale agrave une variable informative

M est centreacutee

⎥⎥⎥

⎢⎢⎢

minusminusminus

minusminus=

npn

pi

ji

nn

xxxxxx

xxxxM

K

MM

K

11

11

11

ˆ (C2)

M~ est centreacutee et reacuteduite

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

minusminus

minus

minusminus

=

)()(

)(

)()(~

1

11

1

1

111

n

npn

pi

ij

i

n

nn

xxx

xxx

xxx

xxx

xxx

M

σσ

σ

σσ

K

MM

K

(C3)

On multiplie ensuite la matrice obtenue par sa transposeacutee pour obtenir - La matrice de covariance MMC t

vˆˆ sdot=

- La matrice de correacutelation MMC tr

~~ sdot= Ces matrices sont carreacutees (N x N) symeacutetriques et reacuteelles Elles sont donc

diagonalisables dans une base orthonormeacutee 6 Le principe de lrsquoACP est alors de trouver un axe u issu drsquoune combinaison lineacuteaire

des tel que le critegravere drsquoinertie du nuage autour de cet axe soit maximal Le critegravere drsquoinertie couramment utiliseacute est la variance Il faut donc trouver lrsquoaxe qui porte le maximum de variance crsquoest-agrave-dire lrsquoaxe u tel que la projection du nuage sur cet axe ait une variance maximale

nx

6 Nos donneacutees eacutetant ici des valeurs drsquoeacutechantillons elles sont par nature centreacutees et reacuteduites On

formera donc naturellement la matrice de correacutelation

C2 Diagonalisation 57

C2 Diagonalisation Pour alleacuteger lrsquoeacutecriture de la suite de cette partie nous consideacutererons que les

variables ont eacuteteacute centreacutees et si besoin reacuteduites et nous noterons ces variables

transformeacutees (ainsi

ix ix

iii xxx minuslarr ou bien )( i

iii x

xxxσ

minuslarr ) On fera de mecircme pour M

( ou bien MM ˆlarr MM ~larr ) et C ( vCC larr ou bien rCC larr ) La projection drsquoun eacutechantillon sur un axe u srsquoeacutecrit ix

uMxiu sdot=)(π (C4) La variance empirique de )( iu xπ vaut donc

uMMuxx ttiu

tiu sdotsdotsdot=sdot )()( ππ (C5)

Or on a vu que est diagonalisable dans une base orthonormeacutee donc

on peut noter P le changement de base associeacute et ∆ la matrice diagonale formeacutee de son spectre Ainsi

MMC t=

n

i 1)(λ PPMMC tt ∆==

)()()()( PuPuuPPuxx ttt

iut

iu sdot∆sdot=sdot∆sdot=sdotππ (C6) On pose v = Pu Chercher lrsquoaxe u qui maximise )( iu xπ revient donc agrave chercher le

vecteur v qui maximise ougravevvt ∆ )( 1 ndiag λλ K=∆ avec les iλ rangeacutes par ordre deacutecroissant Ce vecteur est trivialement le premier vecteur unitaire et on a alors

1λ=∆vvt

Ainsi le vecteur qui porte la plus grande part drsquoinertie du nuage est le premier

vecteur propre de C (premier par norme deacutecroissante) De mecircme le deuxiegraveme vecteur qui explique la plus grandelt part de lrsquoinertie restante est le deuxiegraveme vecteur propre de C Finalement la question de lrsquoACP se ramegravene agrave un problegraveme de diagonalisation de la matrice de correacutelation

C3 Code Matlab

function [vep vap] = pca(f N) f donneacutees N nombre de composantes agrave garder cor = f f formation de la matrice de correacutelation [vep vap] = eig(cor) calcul des vecteurs (vep) et valeurs (vap) propres [vap ind] = sort(diag(vap)) tri des valeurs propres par ordre croissant vap = flipud(vap) disposition inverse par ordre drsquoimportance vep = vep( flipud(ind)) classement en conseacutequence des vecteurs propres vep = vep( 1N) on ne garde que les N premiers vecteurs propres

Annexe C Analyse en composantes principales 58

59

Annexe D

Analyse en sous-bandes

D1 La transformeacutee de Fourier agrave court terme (TFCT) Pour affiner lrsquoanalyse les signaux sont donc deacutecoupeacutes en bandes de freacutequence par

TFCT La TFCT consiste agrave effectuer des transformeacutees de Fourier discregravetes sur des portions de signal fenecirctreacutees reacuteguliegraverement espaceacutees

On rappelle que la transformeacutee de Fourier drsquoun signal x(t) est deacutefinie (lorsque

lrsquointeacutegrale existe) par

int+infin

infinminus

minus= dtetxfX ftiπ2)()( (D1)

La transformeacutee de Fourier agrave temps discret (TFTD) drsquoun signal x(t) srsquoeacutecrit

sum+infin

minusinfin=

minus=n

fnienxfX π2)()( (D2)

La transformeacutee de Fourier discregravete (TFD) drsquoun signal discret x(k) est deacutefinie par

sum+infin

minusinfin=

minus=

n

Nkni

enxkXπ2

)()( (D3)

La TFCT discregravete est une TFD observeacutee sur une fenecirctre wa de taille N

summinus

=

minus+=

1

0

2)())(()(

N

n

Nnki

aaa enwtnxkXπ

ττ (D4)

ougrave )(taτ est lrsquoinstant drsquoanalyse

Annexe D Analyse en sous-bandes 60

Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT [Laroche 1995]

D2 Synthegravese par addition-recouvrement Lors de la synthegravese apregraves le deacutecoupage et lrsquoanalyse des fenecirctres on cherche agrave

reconstruire le signal temporel agrave partir de sa repreacutesentation freacutequentielle Pour cela on utilise la meacutethode OLA (overlap and add addition-recouvrement) qui consiste agrave prendre la TFCT inverse des spectres Xt puis agrave additionner les signaux obtenus apregraves les avoir multiplieacutes par une fenecirctre de pondeacuteration en les faisant se recouvrir partiellement

Le reacutesultat est donneacute par

sum=

minusminus=T

tsss tnxtnwnx

s1

))((~))(()(~ ττ τ (D5)

avec )()( tt as ττ = et summinus

=

=1

0

2))((~1)(~ N

k

Nkni

s ektXN

nxs

π

τ τ

Lors de la mise en œuvre de ce traitement il faut srsquoassurer drsquoecirctre en mesure de

reconstruire parfaitement un signal lorsqursquoaucune transformation ne lui est appliqueacutee Le critegravere de reconstruction parfaite condition suffisante est alors

sum=

=minusminusT

tasaa tnwtnw

11))(())(( ττ quelque soit n (D6)

D2 Synthegravese par addition-recouvrement 61

Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add [Laroche 1995]

Plusieurs paramegravetres sont agrave choisir avec soin Le premier drsquoentre eux est le type

de fenecirctre agrave utiliser Les diffeacuterentes options qui se preacutesentent agrave nous sont - la fenecirctre rectangulaire qui preacutesente dans son spectre le lobe principal le plus

eacutetroit mais des lobes secondaires non neacutegligeables - la fenecirctre de Hamming au lobe principal un peu plus large mais pour laquelle le

1er lobe secondaire se situe agrave -43 dB - la fenecirctre de Hann (ou cosinus sureacuteleveacute) qui ressemble agrave la preacuteceacutedente avec un

1er lobe secondaire plus fort mais une pente de 18 dB par octave pour les lobes suivants

- les fenecirctres de Blackman-Harris aux lobes secondaires tregraves bas mais au lobe principal plus large

Fenecirctre Lobe 2aire

(dB) Pente

(dBoct) Bande passante

agrave 6 dB (bins) Rectangulaire -13 -6 121 Triangulaire -27 -12 178

Hann -32 -18 200 Hamming -43 -6 181

Blackman-Harris 4 -92 -6 272

Tableau D1 - Caracteacuteristiques des principales fenecirctres drsquoanalyse [Harris 1978] Le meilleur compromis est donc dans notre contexte la fenecirctre de Hann ou celle

de Hamming

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 35: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

34 Traitement des donneacutees 29

Figure 310 - Pondeacuteration appliqueacutee agrave lrsquoentreacutee des k-moyennes calculeacutee ici comme

le simple produit de lrsquoeacutenergie et de la norme relative

80

40

0

343 Lissages

Pour faire face au bruit ineacutevitable dans les reacutesultats il faut lisser les donneacutees Ces

lissages temporels correspondent agrave des hypothegraveses de stabiliteacute des sources qui sont supposeacutees ecirctre fixes ou mobiles relativement lentement (dans une mesure agrave parameacutetrer)

Un premier lissage peut ecirctre opeacutereacute avant le traitement par lrsquoalgorithme des k-

moyennes Le filtre choisi est un filtre meacutedian de maniegravere agrave eacuteliminer les points aberrants tout en conservant les vraies valeurs des points coheacuterents Ce lissage est appliqueacute sur chaque sous-bande aux angles et ne tient pas compte des critegraveres de pertinence Il est donc utiliseacute avec parcimonie et peut mecircme ecirctre eacuteviteacute en reacuteglant de maniegravere adeacutequate les critegraveres de pondeacuteration agrave lrsquoentreacutee des k-moyennes

Le deuxiegraveme lissage srsquoeffectue agrave lrsquoentreacutee des k-moyennes en mecircme temps que les

critegraveres de pondeacuteration Il consiste agrave appliquer les k-moyennes non pas sur une fenecirctre donneacutee mais sur plusieurs fenecirctres conseacutecutives anteacuterieures et posteacuterieures en donnant plus de poids agrave la fenecirctre courante Dans la pratique les poids donneacutes aux diffeacuterentes fenecirctres sont eacutetablis par une gaussienne centreacutee sur la fenecirctre courante et de largeur agrave deacuteterminer (en fonction notamment de la dureacutee drsquoune fenecirctre et du type de scegravene analyseacute)

35 Exploitation de toutes les composantes de lrsquoACP Les analyses preacutesenteacutees preacuteceacutedemment ont toutes exploiteacute uniquement la

composante principale extraite par lrsquoACP Or cette analyse fournit des informations plus complegravetes par lrsquointermeacutediaire des autres composantes dont on peut tirer parti pour isoler plusieurs sources au sein drsquoune mecircme bande Cette approche est toujours en deacuteveloppement dans ce stage et nrsquoa pas encore donneacute pleine mesure des reacutesultats qursquoelle laisse entrevoir

Les composantes de lrsquoACP indiquent des directions qui correspondent aux

diffeacuterentes sources composant la scegravene sonore Les vecteurs propres de la matrice de correacutelation donnent ainsi les combinaisons lineacuteaires des signaux HOA permettant de

Chapitre 3 Description des analyses 30

seacuteparer de la meilleure faccedilon possible ces sons Ces directions peuvent ecirctre alors utiliseacutees pour former des directiviteacutes isolant au mieux ces sources

aBS sdot= (31)

ougrave la matrice a contient les vecteurs propres de la matrice de correacutelation (voir Annexe C) le vecteur B contient les signaux HOA et le vecteur S contient les sources extraites

⎟⎟⎟

⎜⎜⎜

=⎟⎟⎟

⎜⎜⎜

⎛=

⎥⎥⎥

⎢⎢⎢

⎟⎟⎟

⎜⎜⎜

⎟⎟⎟

⎜⎜⎜

⎛=

10

1001

1

ML

N

B

BB

S

SSuua MML (32)

On obtient ainsi des lobes drsquoautant plus eacutetroits que lrsquoordre est eacuteleveacute chacun

dirigeacute vers une source et permettant de lrsquoisoler le plus possible des contributions des autres sources La Figure 311 preacutesente les directiviteacutes ainsi trouveacutees par une ACP en pleine bande Une analyse en sous-bande permet une plus grande distinction des sources mais une seacuteparation diffeacuterente entre les bandes est dangereuse car elle risque de dissocier spatialement plusieurs parties drsquoun mecircme son

Figure 311 - Directiviteacutes seacuteparant ideacutealement 4 sources placeacutees agrave 17 73 195 et -58deg

pour une scegravene virtuelle encodeacutee agrave lrsquoordre 4 Ce principe se heurte neacuteanmoins aux limites de seacuteparation lieacutees agrave lrsquoordre

drsquoencodage en effet 2 sources ne pourront pas ecirctre seacutepareacutees si elles sont trop proches comme en teacutemoigne la largeur des lobes principaux Les lobes secondaires traduisent eacutegalement un meacutelange des sources isoleacutees La figure ci-dessus montre ainsi que la source placeacutee agrave 17deg (en vert) sera preacutesente de maniegravere non neacutegligeable dans le signal senseacute contenir la source placeacutee agrave -58deg (en bleu) en raison du lobe secondaire bleu important

31

Chapitre 4

Reacutesultats et applications

41 Illustration et critique des reacutesultats obtenus

411 Avant-propos Sans notification particuliegravere les reacutesultats preacutesenteacutes ont eacuteteacute obtenus avec un pas

de 50 ms une analyse en 80 bandes avec une FFT sur 8192 points Une taille de FTT plus grande et un plus grand nombre de bande augmente la qualiteacute de lrsquoanalyse un pas plus petit ameacuteliore sa preacutecision temporelle mais les reacutesultats sont moins fiables et un lissage plus important srsquoimpose alors Ces paramegravetres ont eacuteteacute reacutegleacutes apregraves de multiples essais sur des scegravenes diverses

Les reacutesultats sont preacutesenteacutes ici uniquement sous la forme de graphiques nous ne

pouvons donc repreacutesenter que les angles trouveacutes agrave la sortie de lrsquoalgorithme des k-moyennes

412 Scegravene 2D artificielle agrave 4 sources fixes La premiegravere scegravene est une scegravene artificielle composeacutee de 4 sons fixes placeacutes agrave -70

-10 45 et 110deg Ces sons (une basse une voix une guitare et une batterie) ont eacuteteacute choisis pour leur varieacuteteacute spectrale et leur varieacuteteacute drsquoattaque Elle a en outre le meacuterite drsquoecirctre reacutealiste et de constituer une seacutequence musicale (chaque son nrsquoest pas une meacutelodie indeacutependante)

On voit sur la Figure 41 ci-dessous que les angles trouveacutes sont proches des

angles theacuteoriques Lrsquoun des sons (agrave 45deg) est quasiment nul avant la 100egraveme trame sa position est alors moins facile agrave deacuteterminer plus preacuteciseacutement une position approximative est trouveacutee et correspondrait exactement agrave la position du bruit (45deg) si lrsquoincertitude de mesure tregraves grande pour un son aussi faible ne rendait la deacutetermination si ardue On mesure un eacutecart-type de 22deg sur cet exemple (en excluant le deacutebut du son agrave 45deg)

Chapitre 4 Reacutesultats et applications 32

Figure 41 - Angles theacuteoriques (en pointilleacutes rouge) et calculeacutes (en trait bleu) pour une scegravene

constitueacutee de 4 sons fixes longue de 11s

413 Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile

Figure 42 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) de la scegravene agrave

4 sources dont 1 mobile deacutecrite en 332 Cette scegravene est deacutecrite en 332 On a ici demandeacute aux k-moyennes de renvoyer 5 barycentres par trame alors que

seules 4 sources eacutetaient preacutesentes dans le but de se garantir une marge vis-agrave-vis des erreurs de deacutetection Cette 5egraveme direction nrsquoest pas du tout gecircnante elle indique une direction qui ne contient pas de source et crsquoest donc un son tregraves faible qui est ainsi pointeacute Apregraves une eacuteventuelle extraction le signal ne sera donc pas du tout gecircnant

41 Illustration et critique des reacutesultats obtenus 33

On peut remarquer que quand le son mobile se rapproche drsquoun son fixe la deacutetection est moins bonne il y a une fusion entre les 2 sons Mais encore une fois lors de lrsquoextraction lrsquoisolation drsquoun des sons englobera lrsquoautre son ce qui ne posera pas de problegraveme pour les objectifs fixeacutes aucune source nrsquoeacutetant oublieacutee En effet la seacuteparation de sources nrsquoest pas un objectif ici mais un moyen pour preacuteciser les positions des sources ce qui sera fait correctement mecircme si 2 sources sont pointeacutees par 1 seule direction

414 Scegravene 3D artificielle agrave une source et bruit de fond

La scegravene dont la position drsquoune source a eacuteteacute extraite ci-dessous est une scegravene virtuelle en 3D constitueacute drsquoun son (une voix) qursquoon a fait se deacuteplacer par paliers tout drsquoabord vers le haut de 0deg agrave 45deg et vers la gauche de 0deg agrave 90deg puis redescendre jusqursquoagrave 35deg en continuant son cheminement vers la gauche jusqursquoagrave 120deg et enfin finir la descente de 35deg agrave 0deg en la laissant agrave 120deg Agrave cette source a eacuteteacute superposeacutee une ambiance spatialiseacutee de hall drsquoaeacuteroport initialement enregistreacutee en 2D (au format 51) mais transformeacutee pour contenir des composantes verticales Cette ambiance deacutecorreleacutee de la source avait pour but de tester la robustesse de lrsquoanalyse Elle eacutetait agrave 15 dB en-dessous du niveau de la voix

Figure 43 - Azimut et eacuteleacutevation theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun

son en 3D artificiel de 9s placeacute dans une ambiance bruyante On remarque que lrsquoanalyse est tregraves correcte Il nrsquoy a pas drsquoeacutecart important entre

les angles theacuteoriques et ceux calculeacutes On note toutefois que le lissage agrave lrsquoentreacutee des k-moyennes a pour effet de gommer les creacuteneaux et drsquoaplatir quelque peu la courbe drsquoeacuteleacutevation ceci nrsquoest pas vraiment gecircnant car de tels sauts dans la position drsquoune source ne sont pas du tout reacutealistes (ils peuvent caracteacuteriser des bruits de pas mais de tels impacts sont courts et on peut srsquoattendre agrave ce que la courbe suive leur position aux instants ougrave ils sont eacutemis)

Chapitre 4 Reacutesultats et applications 34

415 Scegravene 2D naturelle agrave une source Les scegravenes naturelles sont on lrsquoa vu plus deacutelicates agrave exploiter car on ne peut pas

garantir la preacutecision de la position theacuteorique agrave retrouver par le calcul et on ne peut donc pas calculer la preacutecision de lrsquoanalyse Seuls les enregistrements utilisant la table tournante (voir 232) permettent une mesure preacutecise de la position de lrsquoangle Ces enregistrements on pu confirmer la validiteacute de lrsquoanalyse pour des scegravenes reacuteelles on trouve ici un eacutecart-type de 25deg

Figure 44 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun bruit blanc

tournant autour du micro enregistreacute en chambre sourde Cette analyse a eacuteteacute reacutealiseacutee par sous-bandes mais sur une eacutetendue freacutequentielle

plus reacuteduite puisqursquoon srsquoest limiteacute aux possibiliteacutes offertes par le microphone La scegravene a donc eacuteteacute analyseacutee de 200 agrave 10 000 Hz

42 Quelques applications

421 Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre 2 agrave partir de lrsquoordre 1

Une fois les positions des sources connues la porte est ouverte agrave de nombreuses

applications La connaissance de ces positions permet en effet de syntheacutetiser artificiellement des composantes manquantes ou non transmises La premiegravere synthegravese deacuteveloppeacutee est celle des signaux U et V composant la partie horizontale de lrsquoordre 2 agrave partir de lrsquoordre 1 et de paramegravetres issus de lrsquoanalyse pour une source en 2D (des angles dans de cas)

42 Quelques applications 35

Figure 45 - Principe de lrsquoameacutelioration de la preacutecision spatiale

Le principe de la synthegravese est drsquoextraire les sources originales agrave partir de W X Y

et des angles (un angle par trame et par sous-bande) Ceci peut ecirctre reacutealiseacute de maniegravere approcheacutee en deacutecodant lrsquoordre 1 dans les directions des sources Ce deacutecodage revient agrave calculer les signaux qui devraient alimenter des haut-parleurs qui seraient placeacutes agrave ces positions dans le cas drsquoune restitution (voir 122) crsquoest-agrave-dire agrave former des directiviteacutes dans les directions des sources Dans la plupart des cas ce deacutecodage qui fait intervenir une pseudo-inversion de Moore-Penrose (111) est imparfait les sources se retrouvant leacutegegraverement meacutelangeacutees On peut comparer cette seacuteparation agrave celle que ferait un ensemble de microphones agrave directiviteacute hypercardioiumlde coiumlncidents

Figure 46 - Directiviteacutes eacutequivalentes agrave la seacuteparation de 4 sources agrave lrsquoordre 1 Ces sources seacutepareacutees vont ensuite constituer toujours placeacutees aux angles

deacutetermineacutes agrave lrsquoanalyse une scegravene virtuelle qursquoon va encoder agrave lrsquoordre 2 De cet encodage on ne conservera que les signaux manquants dans notre exemple les signaux du 2nd ordre U et V Ainsi la scegravene spatialiseacutee sera au final constitueacutee des signaux W X et Y drsquoorigine (transmis) et des signaux U et V syntheacutetiseacutes

Chapitre 4 Reacutesultats et applications 36

422 Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave partir de W Reconstruire une scegravene sonore spatialiseacutee agrave partir drsquoun unique canal mono est

alors difficile et le reacutesultat nrsquoest appreacuteciable que pour des scegravenes simples Il faut pour cela que les diffeacuterentes sources composant cette scegravene aient des supports spectraux aussi distincts que possible Les diffeacuterentes sous-bandes sont alors placeacutees agrave un certain angle transmis en parallegravele et crsquoest cette scegravene reconstitueacutee qui va ecirctre encodeacutee au 1er ordre de maniegravere agrave recreacuteer les signaux X et Y

Figure 47 - Principe de la restitution de lrsquoordre 1 agrave partir du signal mono W Ce scheacutema rappelle une meacutethode deacuteveloppeacutee dans le cas steacutereacuteo appeleacutee BCC

(Binaural Cue Coding) [Faller and Baumgarte 2002] Le principe est drsquoextraire et coder des informations permettant la reconstruction binaurale drsquoun signal agrave savoir les diffeacuterences interaurales drsquointensiteacute et de temps (Interaural LevelTime Difference ILD et ITD) qui correspondent dans le cas drsquoune restitution sur un casque aux diffeacuterences drsquointensiteacute et de temps inter-canal (Inter-Channel LevelTime Difference ICLD et ICTD) qui sont mesureacutees agrave partir drsquoune analyse en sous-bandes Les auteurs y ont plus reacutecemment associeacute un indice de correacutelation interaurale mesureacute agrave partir de la correacutelation inter-canal (ICC) afin de caracteacuteriser la preacutecision spatiale (la ldquolargeurrdquo drsquoune source)

Figure 48 - Scheacutema de principe de la meacutethode BCC [Faller and Baumgarte 2003]

On observe en pratique des deacutefauts lieacutes agrave la brutaliteacute de la proceacutedure une sous-

bande ne peut ecirctre que placeacutee agrave la position indiqueacutee et ne peut pas rester floue diffuse ou encore ecirctre placeacutee agrave plusieurs endroits Pour y remeacutedier nous avons ajouteacute 2 traitements agrave la synthegravese Tour drsquoabord nous avons appliqueacute un leacuteger lissage soulageant les effets deacutesagreacuteables dus au saut du contenu drsquoune sous-bande drsquoun endroit agrave un autre entre de 2 fenecirctres conseacutecutives Les positions varient alors de faccedilon plus souple au sein drsquoune mecircme sous-bande traduisant une hypothegravese de continuiteacute spatiale (pas de deacuteplacement brusque) La contrepartie est que cette hypothegravese est lieacutee agrave une hypothegravese de continuiteacute spectrale

42 Quelques applications 37

La 2egraveme ameacutelioration concerne le positionnement des sources En incluant dans la transmission un critegravere de pertinence on peut savoir srsquoil est raisonnable de placer une sous-bande agrave un angle preacutecis ou bien si lrsquoanalyse eacutetait flou agrave son sujet auquel cas un positionnement impreacutecis serait preacutefeacuterable Le paramegravetre choisi est une combinaison des critegraveres eacutevoqueacutes en 342 il nous permet de placer la sous-bande de maniegravere plus ou moins prononceacutee

43 Comparaison avec une meacutethode existante Certains auteurs ont deacutejagrave essayeacute drsquoanalyser un contenu ambisonique pour

retrouver les positions des sources Ville Pulkki a ainsi deacutecrit dans [Pulkki and Faller 2006] une meacutethode drsquoanalyse du B-format baseacutee sur lrsquoeacutetude des amplitudes des signaux W X Y et Z

Figure 49 - X et Y dans le cas drsquoune sinusoiumlde placeacutee agrave 15deg (agrave gauche) et 120deg (agrave droite)

Les figures ci-dessus montrent les relations drsquoamplitudes (algeacutebriques) qui relient

X et Y agrave lrsquoangle de la source On voit que lrsquoanalyse de ces amplitudes respectives permet de retrouver la position de la source en effet on a pour une source unique les relations de lrsquoeacutequation (11) rappeleacutee ici

⎪⎪

⎪⎪

=

=

=

=

δ

δθ

δθ

sin2

cossin2

coscos2

SZ

SY

SX

SW

(41)

On peut donc theacuteoriquement retrouver les valeurs de θ et δ par relations

trigonomeacutetriques Ainsi on a

⎪⎪⎩

⎪⎪⎨

=

=

2)sin(

)tan(

WZ

XY

δ

θ (42)

Chapitre 4 Reacutesultats et applications 38

On peut donc trouver les angles θ et δ agrave π pregraves Pour lever lrsquoambiguiumlteacute une eacutetude de signe est neacutecessaire Mais dans le cas de θ le signe de X et de Y agrave δ fixeacute deacutepend aussi bien de θ que S Il faut srsquointeacuteresser aux signes de θcos et θsin crsquoest-agrave-dire

aux signes de WX et

WY Dans la pratique on srsquointeacuteressera aux signes de et

pour se preacutevenir des divisions par zeacuteros

XW sdot YW sdot

XW sdot et YW sdot sont proportionnels agrave toujours positif

2S

Les auteurs deacutecrivent eacutegalement dans leur article un critegravere appeleacute diffuseness qui

peut ecirctre compareacute agrave un critegravere de pertinence inverseacute Ce paramegravetre calculeacute par agrave 1 - R ougrave R est un rapport de normes est tregraves proche du critegravere de norme relative deacutecrit en 342 Il peut donc ecirctre utiliseacute de la mecircme faccedilon et permettre ainsi une pleine comparaison

Cette meacutethode a eacuteteacute impleacutementeacutee pour pouvoir ecirctre compareacutee avec la meacutethode

par ACP Tous les paramegravetres ont scrupuleusement eacuteteacute gardeacutes identiques et plusieurs reacuteglages ont eacuteteacute testeacutes Les courbes ci-dessous preacutesentent les reacutesultats des analyses de la scegravene deacutecrite en 332 avec un pas de 50ms un overlap de 50 un NFFT de 2048 et 40 bandes freacutequentielles Nous avons repreacutesenteacute tous les angles trouveacutes crsquoest-agrave-dire un par bande et par trame pour srsquoaffranchir de la seacutelection des k-moyennes

π

0

minusπ

Figure 410 - Angles trouveacutes par lrsquoalgorithme de [Pulkki and Faller 2006] Le diamegravetre du point correspondant agrave la pertinence

43 Comparaison avec une meacutethode existante 39

π

0

minusπ

Figure 411 - Angles trouveacutes par une ACP pour la mecircme scegravene On remarque que les points excentriques sont moins nombreux et plus rarement trouveacutes comme pertinents

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee

441 Position du problegraveme

Une application directe de ces analyses a eacuteteacute deacuteveloppeacutee pour la confeacuterence audio

spatialiseacutee La confeacuterence audio utilise en effet la spatialisation pour permettre une meilleure seacuteparation par lrsquooreille des diffeacuterents locuteurs Ainsi si plusieurs personnes parlent en mecircme temps il sera tregraves difficile de comprendre chacun individuellement si ces voix sont restitueacutees en mono mais on pourra focaliser lrsquoattention sur chacune drsquoentre elles si elles sont seacutepareacutees spatialement (crsquoest lrsquoeffet cocktail party [Cherry 1953])

Lrsquoobjectif eacutetait de veacuterifier qursquoil eacutetait possible de conserver la spatialisation drsquoune

confeacuterence en nrsquoayant transmis qursquoun downmix mono des signaux Ce concept semble se rapprocher de celui deacutecrit en 422 mais une diffeacuterence fondamentale les seacutepare la confeacuterence audio spatialiseacutee nrsquoest pas codeacutee au format ambisonic mais les signaux traiteacutes sont directement les sons provenant des diffeacuterents locuteurs crsquoest-agrave-dire les sources elles-mecircmes Ainsi lrsquoanalyse ne porte plus sur une scegravene spatialiseacutee mais sur des signaux seacutepareacutes Il nrsquoy a ainsi plus drsquoindices spatiaux agrave trouver

Avoir accegraves aux sources permet drsquoobtenir des informations plus preacutecises pour

permettre une seacuteparation apregraves la transmission Comme nous lrsquoavons vu lrsquoanalyse drsquoune scegravene spatialiseacutee ne permet que dans drsquoultimes cas agrave la seacuteparation des sources ce qui est ici notre point de deacutepart et sera en fait notre point drsquoarriveacutee En effet nous tenterons de retrouver les sources seacutepareacutees apregraves la transmission de maniegravere agrave pouvoir par la suite les spatialiser agrave loisir (voir Figure 413)

Chapitre 4 Reacutesultats et applications 40

442 Solution proposeacutee Les paramegravetres extraits ne sont donc plus des positions de sources Nous avons

choisi de mesurer puis transmettre lrsquoeacutenergie de chaque signal dans chaque sous-bande en parallegravele du downmix En effet une bonne seacuteparation sera possible si lrsquoon sait quelle proportion de chaque source compose chaque sous-bande du signal mono

Figure 412 - Scheacutema de principe drsquoune confeacuterence audio spatialiseacutee

Figure 413 - Scheacutema ameacutelioreacute (deacutebit reacuteduit)

en pointilleacutes informations compleacutementaires (eacutenergie) Lrsquoanalyse en sous-bandes a lieu dans le serveur (Figure 414) Celui-ci calcule

lrsquoeacutenergie de chaque signal dans chaque sous-bande sur une trame donneacutee Crsquoest ce paramegravetre qui associeacute au signal mono M permettra la seacuteparation des sources dans le terminal (Figure 415) Ce dernier reacutepartira en effet les diffeacuterentes sous-bandes vers chaque signal reconstitueacute proportionnellement agrave cette information pour reconstruire les 4 sources originales

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee 41

Figure 414 - Analyse principe de lrsquoencodage dans le serveur

Figure 415 - Synthegravese principe du deacutecodage dans le client

Afin de reacuteduire au maximum les informations compleacutementaires agrave transmettre on

peut remarquer qursquoau cours drsquoune confeacuterence audio on a tregraves souvent un seul locuteur les participants ne parlent que tregraves rarement tous en mecircme temps Ceci implique que les signaux en entreacutee sont tregraves souvent tous nuls sauf 1 et appliquer un seuil en entreacutee de lrsquoanalyse permet outre lrsquoallegravegement du traitement drsquoavoir moins de paramegravetres agrave transmettre

Ce scheacutema simplifieacute ne tient pas compte des problegravemes de phase rien nrsquoindique

que les eacutenergies des signaux srsquoajoutent bien dans chaque sous-bande lors du downmix on peut tregraves bien avoir des oppositions de phase La solution est drsquoeffectuer le downmix (la somme) des signaux dans chaque sous-bande en prenant soin drsquoavoir recaleacute les phases au preacutealable Ceci nrsquoa un sens que pour des bandes suffisamment eacutetroites Les deacutecalages temporels appliqueacutes pour le recalage sont alors des paramegravetres suppleacutementaires agrave transmettre et sont pris en compte lors de la synthegravese au niveau du reacutepartiteur qui repositionnera la phase de chaque trame pour chaque signal

Chapitre 4 Reacutesultats et applications 42

443 Bilan Le reacutesultat du deacutecodage a pu ecirctre eacutecouteacute de diffeacuterentes maniegraveres les sources

reconstitueacutees individuellement ensemble en steacutereacuteo drsquoamplitude et sur un systegraveme 51 On note que les sources ont eacuteteacute assez bien seacutepareacutees mais que des artefacts sont audibles en particulier lorsque le nombre de locuteurs simultaneacutes augmentent Ces artefacts sont un meacutelange des voix qui nrsquoest gecircnant que lorsqursquoon les eacutecoute de maniegravere seacutepareacutee En effet lrsquoeacutecoute simultaneacutee de ces signaux syntheacutetiseacutes mecircme placeacutes agrave des positions distinctes sur un systegraveme de diffusion multicanal est tout agrave fait satisfaisante

Ce proceacutedeacute pour pouvoir ecirctre appliqueacute doit fonctionner en temps-reacuteel Cette

contrainte nrsquoa pas du tout eacuteteacute prise en compte lrsquoobjectif eacutetant de valider la faisabiliteacute drsquoune reconstruction Les programmes sous Matlab nrsquoont pas eacuteteacute optimiseacutes et ne respectent pas cette contrainte

43

Conclusion Nous avons preacutesenteacute dans ce rapport le principe et lrsquoapplication de plusieurs

meacutethodes drsquoanalyses spatiales de scegravenes ambisoniques conccedilues et reacutealiseacutee pendant le stage Le format HOA est en effet une repreacutesentation du champ acoustique deacutecomposeacute sur une base drsquoharmoniques spheacuteriques jusqursquoagrave un certain ordre agrave la maniegravere drsquoun deacuteveloppement limiteacute Il contient donc de maniegravere indirecte des indications spatiales qursquoon peut extraire avec des analyses comme lrsquoanalyse en composantes principales

Ces analyses nous permettent de deacuteterminer les positions des sources qui

composent la scegravene sonore Nous avons appliqueacute les reacutesultats de ces analyses agrave 2 types de synthegravese lrsquoune destineacutee aux transmissions bas deacutebit lrsquoautre agrave un traitement de restitution de la preacutecision spatiale dans le cas ougrave des ordres supeacuterieurs dont le but est drsquoaffiner la perception de localisation nrsquoauraient pas pu ecirctre transmis Ces algorithmes par le codage drsquoinformations spatiales qursquoils permettent pourront trouver bien drsquoautres applications dans la transmission et le codage ougrave la description du contenu est de plus en plus utiliseacutee (comme par exemple dans la norme MPEG)

Des ameacuteliorations sont possibles sur plusieurs points tout drsquoabord lrsquoexploitation

de toutes les composantes de lrsquoACP est agrave lrsquoeacutetude et semble pouvoir donner des reacutesultats inteacuteressants Drsquoautre part on a vu que le reacutesultat final est tregraves deacutependant de la bonne convergence de lrsquoalgorithme des k-moyennes utiliseacute pour traiter les donneacutees brutes de lrsquoanalyse en sous-bandes Or cet algorithme neacutecessite des reacuteglages tregraves fins et une connaissance a priori du nombre de sources est presque indispensable Drsquoautres algorithmes plus complexes de suivi de formes pourraient ecirctre avantageusement utiliseacutes pour deacutetecter dans tous les angles trouveacutes lesquels sont susceptibles de former une trajectoire

45

Annexe A

Deacuteveloppement du champ acoustique en harmoniques spheacuteriques

A1 Eacutequation drsquoonde en coordonneacutees spheacuteriques On se place dans lrsquoespace euclidien agrave 3 dimensions muni drsquoun systegraveme de

coordonneacutees spheacuteriques Un point M y est repeacutereacute par son rayon r son azimut θ et son eacuteleacutevation δ tels que repreacutesenteacutes sur la figure ci-dessous

- r est la norme du vecteur position rr crsquoest-agrave-dire la distance OM - [20[ πθ isin est lrsquoangle formeacute par le projeteacute du point sur le plan xOy et lrsquoaxe Ox

- ]2

2

[ ππδ minusisin est lrsquoangle formeacute par le plan xOy et le vecteur position2

Figure A1 - Systegraveme de coordonneacutees spheacuteriques

2 Cet angle diffegravere de lrsquoangle polaire usuel δπϕ minus=

2 habituellement pris entre lrsquoaxe Oz et le

vecteur position

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 46

Les relations entre les coordonneacutees spheacuteriques et les coordonneacutees carteacutesiennes sont

⎪⎩

⎪⎨

===

δδθδθ

sincossincoscos

zryrx

(A1)

On srsquointeacuteresse dans ce repegravere agrave lrsquoeacutequation de propagation des ondes acoustiques

de pression On se place dans les conditions classiques drsquoacoustique lineacuteaire (les variations de p sont petites par rapport agrave la pression atmospheacuterique) en supposant que lrsquoair est un fluide parfait (on y neacutegligera les pheacutenomegravenes dissipatifs) Dans une reacutegion de lrsquoespace ne comprenant pas de sources lrsquoeacutequation drsquoonde srsquoeacutecrit alors

0)(12

2

2 =⎟⎟⎠

⎞⎜⎜⎝

⎛partpart

minus∆ trptc

r (A2)

p eacutetant la pression et c la vitesse de propagation du son dans lrsquoair

Cette eacutequation devient dans le domaine freacutequentiel lrsquoeacutequation de Helmholtz

( ) 0)(2 =+∆ ωrpk r (A3)

ck ω

= eacutetant le nombre drsquoonde

En coordonneacutees spheacuteriques cette eacutequation srsquoeacutecrit

0sin1sin

sin11 2

2

2

222

2 =⎥⎦

⎤⎢⎣

⎡+

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart pk

rrrr

rr δθθθ

θθ (A4)

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques Drsquoapregraves [Bruneau 1983] elle admet des solutions agrave variables seacutepareacutees de la forme

)()()( δθ ΦΘ= rRp (A5) Ces solutions sont respectivement - pour la partie radiale une combinaison des fonctions de Bessel spheacuteriques de

premiegravere et seconde espegravece3 jn et nn

)()()( krBnkrAjrR nn += (A6) 3 Les fonctions de Bessel spheacuteriques de seconde espegravece sont eacutegalement appeleacutees fonctions de

Neumann

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 47

Ces fonctions sont deacutefinies comme suit

(A7)

Figure A2 - Fonctions de Bessel spheacuteriques pour les ordres 0 agrave 5 )(krjm

- pour la partie azimutale les fonctions )(θΘ

)sin()cos()( 21 θθθ ncnc +=Θ (A8) Eacutetant donneacute la deacutefinition de lrsquoangle Θ celui-ci doit neacutecessairement ecirctre de

peacuteriode 2π ))2()(( πθθ +Θ=Θ ce qui impose agrave n drsquoecirctre entier

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 48

- pour la partie polaire les fonctions de Legendre associeacutees )(sinδmnP

nm

nn

mn dPdP

)(sin)(sinsin)(sin

δδ

δδ = pour ⎩⎨⎧

gt=

nmavecnm 321

(A9)

ougrave les )(sinδnP sont les polynocircmes de Legendre de degreacute n en δsin deacutefinis par reacutecurrence

( )

11

22

1

0

sin)12()(sin)1(

1cos321)(sin

sin)(sin0)(sin

minus+ minus+=+

minus=

==

mmm mPPmPmet

P

PP

δδ

ϕδ

δδδ

(A10)

et de formule geacuteneacuterale

mm

m

mm dd

mP )1(sin

)(sin21)(sin 2 minus= δ

δδ (A11)

On peut appliquer aux fonctions )(sinδmnP la semi-normalisation de Schmidt

)(sin)()()(sin~ δεδ mnnmn P

nmnmP

+minus

= ougrave 10 =ε et 2=nε pour 1gen (A12)

En appariant les fonctions polaires et azimutales on deacutefinit les harmoniques

spheacuteriques de degreacute et drsquoordre)1(mnY 0gem 4 mnn lele0 et de degreacute et

drsquoordre (voir Figure A3)

)1(minusmnY 1gem

mnn lele1

)(sin~)sin()(

)(sin~)cos()()1(

)1(

δθδθ

δθδθ

mnmn

mnmn

PnY

PnY

=

=minus

(A13)

4 En geacuteneacuteral lorsque le degreacute et lrsquoordre ne sont pas eacutevoqueacutes conjointement on parle par abus de langage drsquoharmoniques drsquoordre m plutocirct que de degreacute m

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 49

soit

1)(sin

)()()12(2sin)(

)(sin)()()12(2cos)(

1)(sin)1()1()12(cos)(

)1(

)1(

1)1(

1

gt

⎪⎪⎩

⎪⎪⎨

+minus

+=

+minus

+=

=+minus

+=

minus

npourP

nmnmmnY

PnmnmmnY

npourPmmmY

mnmn

mnmn

mm

δθδθ

δθδθ

δθδθ

(A14)

La solution angulaire geacuteneacuterale srsquoeacutecrit alors sous la forme drsquoun deacuteveloppement sur

la base drsquoharmoniques spheacuteriques

( ) ( )sum minus

=minus+=Θ

1

1)1()1()( n

m mnmnmnmnn YBYBθ (A15) La solution geacuteneacuterale est alors la seacuterie de Fourier-Bessel

sum sum sum+infin

= = plusmn=

=0 0 1

)()( )()()(m

m

nmnmnm

m YBkrjikrpσ

σσ δθδθ (A16)

ougrave

intint⎪⎩

⎪⎨⎧

minusisin

isin

plusmnplusmn =

]2

2

[

[20[

)1()1( )()1()(

1

ππδ

πθ

δθδθ

S

mnm

mmn dSYpkrji

B (A17)

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 50

Tableau A1 - Expressions analytiques des harmoniques spheacuteriques pour les ordres 0 agrave 3

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 51

Figure A3 - Repreacutesentation des harmoniques spheacuteriques pour les ordres m = 0 agrave 3 Les

couleurs rouge et bleu indiquent respectivement des valeurs positives et neacutegatives

53

Annexe B

Compleacutements theacuteoriques sur le deacutecodage HOA

B1 Vecteur veacutelociteacute et vecteur eacutenergie Le vecteur veacutelociteacute est un indice de la direction apparente drsquoune source introduit

par Gerzon [Gerzon 1992] Il se calcule comme le rapport de la vitesse particulaire sur la pression acoustique

)()(

)()(1

δθδθ

δθδθ

ρ rprp

ki

rprv

cV nabla

minus=minus=rrr

(B1)

Dans le cas drsquoune onde plane le vecteur veacutelociteacute V

rest ainsi directement un

vecteur unitaire orienteacute vers la direction de provenance de lrsquoonde En geacuteneacuteralisant agrave une superposition drsquoondes planes en phase ou opposition de phase eacutemises par L haut-parleurs agrave eacutequidistance du point drsquoobservation on obtient la formule suivante

VVL

ll

L

lll

urg

ugV r

rr

==

sum

sum

=

=

1

1 (B2)

ougrave deacutesigne la direction du llur egraveme haut-parleur auquel est associeacute le gain gl et Vr Vur correspondent respectivement agrave la norme et agrave la direction du vecteur veacutelociteacute

Le vecteur eacutenergie est un autre indice de direction Il est deacutefinit par

EEL

ll

L

lll

urg

ugE r

rr

==

sum

sum

=

=

1

2

1

2

(B3)

Annexe B Compleacutements theacuteoriques sur le deacutecodage HOA 54

Il peut srsquointerpreacuteter comme une indication de la concentration de lrsquoeacutenergie ( ) et de sa direction moyenne de provenance (

Er

Eur ) On a toujours 1ltEr sauf dans le cas ougrave un seul haut-parleur contribue agrave la reconstruction (dans ce cas ) peut ecirctre consideacutereacute comme un indicateur de preacutecision de la localisation

1=Er Er

B2 Deacutecodages optimiseacutes La restitution la plus confortable drsquoun champ sonore veillera donc agrave maximiser

tout en essayant de garder le plus proche possible de 1 Lrsquooptimisation du deacutecodage consiste alors agrave multiplier chaque coefficient de la matrice de deacutecodage D (voir (111) par des gains calculeacutes drsquoapregraves des critegraveres drsquooptimisation

Er Vr

Ainsi le deacutecodage appeleacute max- maximise la norme du vecteur eacutenergie en

sacrifiant celle du vecteur veacutelociteacute puisqursquoon a dans ce deacutecodage (pour des configurations reacuteguliegraveres de haut-parleurs) Ce deacutecodage est donc avantageux par rapport au deacutecodage basique pour les hautes freacutequences ou dans le cas drsquoun auditoire eacutelargi Le deacutecodage in-phase va encore plus loin en cherchant agrave annuler complegravetement les contributions des haut-parleurs placeacutes agrave lrsquoopposeacute de la direction de provenance de lrsquoonde reproduite Ce critegravere est utile dans le cas drsquoune eacutecoute dans une position tregraves excentreacutee agrave laquelle on pourrait percevoir de faccedilon preacutedominante la contribution en opposition de phase drsquoun tel haut-parleur

Er

EV rr =

Ces diffeacuterents deacutecodages ont chacun des avantages et inconveacutenients Ainsi seul le

deacutecodage basique garantit = 1 le deacutecodage max- permet une preacutecision meilleure notamment en haute freacutequence et le deacutecodage in-phase est plus adapteacute agrave un auditoire plus large Jeacuterocircme Daniel [Daniel 2000] propose ainsi de changer le deacutecodage en fonction de la freacutequence et de lrsquoeacutetendue de la zone drsquoeacutecoute deacutesireacutee

Vr Er

Figure B1 - Deacutecodages les plus approprieacutes par sous-bande et en fonction de lrsquoeacutetendue de la

zone drsquoeacutecoute [Daniel 2000]

55

Annexe C

Analyse en composantes principales

C1 Espace des donneacutees Eacutegalement souvent appeleacutee transformeacutee de Karhunen-Loegraveve5 (TKL) lrsquoanalyse en

composantes principales (ACP) est une technique statistique de repreacutesentation drsquoinformation Introduite sur 2 variables par Pearson [Pearson 1900] elle a eacuteteacute eacutetendue par Hotelling [Hotelling 1933] Elle a pour but de caracteacuteriser des donneacutees drsquoun espace agrave N dimensions dans un sous-espace plus petit en minimisant les pertes drsquoinformation due agrave la projection crsquoest-agrave-dire en maximisant la variance projeteacutee Les donneacutees ainsi reacuteorganiseacutees deviennent indeacutependantes Les variables correacuteleacutees sont remplaceacutees par de nouvelles variables deacutecorreacuteleacutees et de variance maximale combinaisons lineacuteaires des variables initiales

Les donneacutees sont constitueacutees de n variables aleacuteatoires (dans notre cas des canaux)

et p reacutealisations ou individus (des eacutechantillons)

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

pn

p

ji

n

xx

x

xx

M

LLL

MOMNM

MLLM

MNMOM

LLL

1

111

(C1)

Ces donneacutees sont geacuteneacuteralement centreacutees et peuvent aussi ecirctre reacuteduites4 (on note

1x la moyenne de la variable et 1x )( 1xσ sa variance) Reacuteduire ou non le nuage de points (ie les p reacutealisations de la variable aleacuteatoire) est un choix de modegravele

5 Quelques rares sources mentionnent une diffeacuterence entre ACP et TKL en placcedilant celle-ci au

niveau du choix de la reacuteduction des donneacutees dans le cas dune ACP les donneacutees seraient centreacutees et reacuteduites alors qursquoelles seraient uniquement centreacutees pour une TKL

Annexe C Analyse en composantes principales 56

- si on ne reacuteduit pas le nuage une variable agrave forte variance pourrait tirer tout lrsquoeffet de lrsquoACP agrave elle

- si on reacuteduit le nuage une variable qui ne serait qursquoun bruit se retrouverait avec une variance apparente eacutegale agrave une variable informative

M est centreacutee

⎥⎥⎥

⎢⎢⎢

minusminusminus

minusminus=

npn

pi

ji

nn

xxxxxx

xxxxM

K

MM

K

11

11

11

ˆ (C2)

M~ est centreacutee et reacuteduite

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

minusminus

minus

minusminus

=

)()(

)(

)()(~

1

11

1

1

111

n

npn

pi

ij

i

n

nn

xxx

xxx

xxx

xxx

xxx

M

σσ

σ

σσ

K

MM

K

(C3)

On multiplie ensuite la matrice obtenue par sa transposeacutee pour obtenir - La matrice de covariance MMC t

vˆˆ sdot=

- La matrice de correacutelation MMC tr

~~ sdot= Ces matrices sont carreacutees (N x N) symeacutetriques et reacuteelles Elles sont donc

diagonalisables dans une base orthonormeacutee 6 Le principe de lrsquoACP est alors de trouver un axe u issu drsquoune combinaison lineacuteaire

des tel que le critegravere drsquoinertie du nuage autour de cet axe soit maximal Le critegravere drsquoinertie couramment utiliseacute est la variance Il faut donc trouver lrsquoaxe qui porte le maximum de variance crsquoest-agrave-dire lrsquoaxe u tel que la projection du nuage sur cet axe ait une variance maximale

nx

6 Nos donneacutees eacutetant ici des valeurs drsquoeacutechantillons elles sont par nature centreacutees et reacuteduites On

formera donc naturellement la matrice de correacutelation

C2 Diagonalisation 57

C2 Diagonalisation Pour alleacuteger lrsquoeacutecriture de la suite de cette partie nous consideacutererons que les

variables ont eacuteteacute centreacutees et si besoin reacuteduites et nous noterons ces variables

transformeacutees (ainsi

ix ix

iii xxx minuslarr ou bien )( i

iii x

xxxσ

minuslarr ) On fera de mecircme pour M

( ou bien MM ˆlarr MM ~larr ) et C ( vCC larr ou bien rCC larr ) La projection drsquoun eacutechantillon sur un axe u srsquoeacutecrit ix

uMxiu sdot=)(π (C4) La variance empirique de )( iu xπ vaut donc

uMMuxx ttiu

tiu sdotsdotsdot=sdot )()( ππ (C5)

Or on a vu que est diagonalisable dans une base orthonormeacutee donc

on peut noter P le changement de base associeacute et ∆ la matrice diagonale formeacutee de son spectre Ainsi

MMC t=

n

i 1)(λ PPMMC tt ∆==

)()()()( PuPuuPPuxx ttt

iut

iu sdot∆sdot=sdot∆sdot=sdotππ (C6) On pose v = Pu Chercher lrsquoaxe u qui maximise )( iu xπ revient donc agrave chercher le

vecteur v qui maximise ougravevvt ∆ )( 1 ndiag λλ K=∆ avec les iλ rangeacutes par ordre deacutecroissant Ce vecteur est trivialement le premier vecteur unitaire et on a alors

1λ=∆vvt

Ainsi le vecteur qui porte la plus grande part drsquoinertie du nuage est le premier

vecteur propre de C (premier par norme deacutecroissante) De mecircme le deuxiegraveme vecteur qui explique la plus grandelt part de lrsquoinertie restante est le deuxiegraveme vecteur propre de C Finalement la question de lrsquoACP se ramegravene agrave un problegraveme de diagonalisation de la matrice de correacutelation

C3 Code Matlab

function [vep vap] = pca(f N) f donneacutees N nombre de composantes agrave garder cor = f f formation de la matrice de correacutelation [vep vap] = eig(cor) calcul des vecteurs (vep) et valeurs (vap) propres [vap ind] = sort(diag(vap)) tri des valeurs propres par ordre croissant vap = flipud(vap) disposition inverse par ordre drsquoimportance vep = vep( flipud(ind)) classement en conseacutequence des vecteurs propres vep = vep( 1N) on ne garde que les N premiers vecteurs propres

Annexe C Analyse en composantes principales 58

59

Annexe D

Analyse en sous-bandes

D1 La transformeacutee de Fourier agrave court terme (TFCT) Pour affiner lrsquoanalyse les signaux sont donc deacutecoupeacutes en bandes de freacutequence par

TFCT La TFCT consiste agrave effectuer des transformeacutees de Fourier discregravetes sur des portions de signal fenecirctreacutees reacuteguliegraverement espaceacutees

On rappelle que la transformeacutee de Fourier drsquoun signal x(t) est deacutefinie (lorsque

lrsquointeacutegrale existe) par

int+infin

infinminus

minus= dtetxfX ftiπ2)()( (D1)

La transformeacutee de Fourier agrave temps discret (TFTD) drsquoun signal x(t) srsquoeacutecrit

sum+infin

minusinfin=

minus=n

fnienxfX π2)()( (D2)

La transformeacutee de Fourier discregravete (TFD) drsquoun signal discret x(k) est deacutefinie par

sum+infin

minusinfin=

minus=

n

Nkni

enxkXπ2

)()( (D3)

La TFCT discregravete est une TFD observeacutee sur une fenecirctre wa de taille N

summinus

=

minus+=

1

0

2)())(()(

N

n

Nnki

aaa enwtnxkXπ

ττ (D4)

ougrave )(taτ est lrsquoinstant drsquoanalyse

Annexe D Analyse en sous-bandes 60

Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT [Laroche 1995]

D2 Synthegravese par addition-recouvrement Lors de la synthegravese apregraves le deacutecoupage et lrsquoanalyse des fenecirctres on cherche agrave

reconstruire le signal temporel agrave partir de sa repreacutesentation freacutequentielle Pour cela on utilise la meacutethode OLA (overlap and add addition-recouvrement) qui consiste agrave prendre la TFCT inverse des spectres Xt puis agrave additionner les signaux obtenus apregraves les avoir multiplieacutes par une fenecirctre de pondeacuteration en les faisant se recouvrir partiellement

Le reacutesultat est donneacute par

sum=

minusminus=T

tsss tnxtnwnx

s1

))((~))(()(~ ττ τ (D5)

avec )()( tt as ττ = et summinus

=

=1

0

2))((~1)(~ N

k

Nkni

s ektXN

nxs

π

τ τ

Lors de la mise en œuvre de ce traitement il faut srsquoassurer drsquoecirctre en mesure de

reconstruire parfaitement un signal lorsqursquoaucune transformation ne lui est appliqueacutee Le critegravere de reconstruction parfaite condition suffisante est alors

sum=

=minusminusT

tasaa tnwtnw

11))(())(( ττ quelque soit n (D6)

D2 Synthegravese par addition-recouvrement 61

Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add [Laroche 1995]

Plusieurs paramegravetres sont agrave choisir avec soin Le premier drsquoentre eux est le type

de fenecirctre agrave utiliser Les diffeacuterentes options qui se preacutesentent agrave nous sont - la fenecirctre rectangulaire qui preacutesente dans son spectre le lobe principal le plus

eacutetroit mais des lobes secondaires non neacutegligeables - la fenecirctre de Hamming au lobe principal un peu plus large mais pour laquelle le

1er lobe secondaire se situe agrave -43 dB - la fenecirctre de Hann (ou cosinus sureacuteleveacute) qui ressemble agrave la preacuteceacutedente avec un

1er lobe secondaire plus fort mais une pente de 18 dB par octave pour les lobes suivants

- les fenecirctres de Blackman-Harris aux lobes secondaires tregraves bas mais au lobe principal plus large

Fenecirctre Lobe 2aire

(dB) Pente

(dBoct) Bande passante

agrave 6 dB (bins) Rectangulaire -13 -6 121 Triangulaire -27 -12 178

Hann -32 -18 200 Hamming -43 -6 181

Blackman-Harris 4 -92 -6 272

Tableau D1 - Caracteacuteristiques des principales fenecirctres drsquoanalyse [Harris 1978] Le meilleur compromis est donc dans notre contexte la fenecirctre de Hann ou celle

de Hamming

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 36: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

Chapitre 3 Description des analyses 30

seacuteparer de la meilleure faccedilon possible ces sons Ces directions peuvent ecirctre alors utiliseacutees pour former des directiviteacutes isolant au mieux ces sources

aBS sdot= (31)

ougrave la matrice a contient les vecteurs propres de la matrice de correacutelation (voir Annexe C) le vecteur B contient les signaux HOA et le vecteur S contient les sources extraites

⎟⎟⎟

⎜⎜⎜

=⎟⎟⎟

⎜⎜⎜

⎛=

⎥⎥⎥

⎢⎢⎢

⎟⎟⎟

⎜⎜⎜

⎟⎟⎟

⎜⎜⎜

⎛=

10

1001

1

ML

N

B

BB

S

SSuua MML (32)

On obtient ainsi des lobes drsquoautant plus eacutetroits que lrsquoordre est eacuteleveacute chacun

dirigeacute vers une source et permettant de lrsquoisoler le plus possible des contributions des autres sources La Figure 311 preacutesente les directiviteacutes ainsi trouveacutees par une ACP en pleine bande Une analyse en sous-bande permet une plus grande distinction des sources mais une seacuteparation diffeacuterente entre les bandes est dangereuse car elle risque de dissocier spatialement plusieurs parties drsquoun mecircme son

Figure 311 - Directiviteacutes seacuteparant ideacutealement 4 sources placeacutees agrave 17 73 195 et -58deg

pour une scegravene virtuelle encodeacutee agrave lrsquoordre 4 Ce principe se heurte neacuteanmoins aux limites de seacuteparation lieacutees agrave lrsquoordre

drsquoencodage en effet 2 sources ne pourront pas ecirctre seacutepareacutees si elles sont trop proches comme en teacutemoigne la largeur des lobes principaux Les lobes secondaires traduisent eacutegalement un meacutelange des sources isoleacutees La figure ci-dessus montre ainsi que la source placeacutee agrave 17deg (en vert) sera preacutesente de maniegravere non neacutegligeable dans le signal senseacute contenir la source placeacutee agrave -58deg (en bleu) en raison du lobe secondaire bleu important

31

Chapitre 4

Reacutesultats et applications

41 Illustration et critique des reacutesultats obtenus

411 Avant-propos Sans notification particuliegravere les reacutesultats preacutesenteacutes ont eacuteteacute obtenus avec un pas

de 50 ms une analyse en 80 bandes avec une FFT sur 8192 points Une taille de FTT plus grande et un plus grand nombre de bande augmente la qualiteacute de lrsquoanalyse un pas plus petit ameacuteliore sa preacutecision temporelle mais les reacutesultats sont moins fiables et un lissage plus important srsquoimpose alors Ces paramegravetres ont eacuteteacute reacutegleacutes apregraves de multiples essais sur des scegravenes diverses

Les reacutesultats sont preacutesenteacutes ici uniquement sous la forme de graphiques nous ne

pouvons donc repreacutesenter que les angles trouveacutes agrave la sortie de lrsquoalgorithme des k-moyennes

412 Scegravene 2D artificielle agrave 4 sources fixes La premiegravere scegravene est une scegravene artificielle composeacutee de 4 sons fixes placeacutes agrave -70

-10 45 et 110deg Ces sons (une basse une voix une guitare et une batterie) ont eacuteteacute choisis pour leur varieacuteteacute spectrale et leur varieacuteteacute drsquoattaque Elle a en outre le meacuterite drsquoecirctre reacutealiste et de constituer une seacutequence musicale (chaque son nrsquoest pas une meacutelodie indeacutependante)

On voit sur la Figure 41 ci-dessous que les angles trouveacutes sont proches des

angles theacuteoriques Lrsquoun des sons (agrave 45deg) est quasiment nul avant la 100egraveme trame sa position est alors moins facile agrave deacuteterminer plus preacuteciseacutement une position approximative est trouveacutee et correspondrait exactement agrave la position du bruit (45deg) si lrsquoincertitude de mesure tregraves grande pour un son aussi faible ne rendait la deacutetermination si ardue On mesure un eacutecart-type de 22deg sur cet exemple (en excluant le deacutebut du son agrave 45deg)

Chapitre 4 Reacutesultats et applications 32

Figure 41 - Angles theacuteoriques (en pointilleacutes rouge) et calculeacutes (en trait bleu) pour une scegravene

constitueacutee de 4 sons fixes longue de 11s

413 Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile

Figure 42 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) de la scegravene agrave

4 sources dont 1 mobile deacutecrite en 332 Cette scegravene est deacutecrite en 332 On a ici demandeacute aux k-moyennes de renvoyer 5 barycentres par trame alors que

seules 4 sources eacutetaient preacutesentes dans le but de se garantir une marge vis-agrave-vis des erreurs de deacutetection Cette 5egraveme direction nrsquoest pas du tout gecircnante elle indique une direction qui ne contient pas de source et crsquoest donc un son tregraves faible qui est ainsi pointeacute Apregraves une eacuteventuelle extraction le signal ne sera donc pas du tout gecircnant

41 Illustration et critique des reacutesultats obtenus 33

On peut remarquer que quand le son mobile se rapproche drsquoun son fixe la deacutetection est moins bonne il y a une fusion entre les 2 sons Mais encore une fois lors de lrsquoextraction lrsquoisolation drsquoun des sons englobera lrsquoautre son ce qui ne posera pas de problegraveme pour les objectifs fixeacutes aucune source nrsquoeacutetant oublieacutee En effet la seacuteparation de sources nrsquoest pas un objectif ici mais un moyen pour preacuteciser les positions des sources ce qui sera fait correctement mecircme si 2 sources sont pointeacutees par 1 seule direction

414 Scegravene 3D artificielle agrave une source et bruit de fond

La scegravene dont la position drsquoune source a eacuteteacute extraite ci-dessous est une scegravene virtuelle en 3D constitueacute drsquoun son (une voix) qursquoon a fait se deacuteplacer par paliers tout drsquoabord vers le haut de 0deg agrave 45deg et vers la gauche de 0deg agrave 90deg puis redescendre jusqursquoagrave 35deg en continuant son cheminement vers la gauche jusqursquoagrave 120deg et enfin finir la descente de 35deg agrave 0deg en la laissant agrave 120deg Agrave cette source a eacuteteacute superposeacutee une ambiance spatialiseacutee de hall drsquoaeacuteroport initialement enregistreacutee en 2D (au format 51) mais transformeacutee pour contenir des composantes verticales Cette ambiance deacutecorreleacutee de la source avait pour but de tester la robustesse de lrsquoanalyse Elle eacutetait agrave 15 dB en-dessous du niveau de la voix

Figure 43 - Azimut et eacuteleacutevation theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun

son en 3D artificiel de 9s placeacute dans une ambiance bruyante On remarque que lrsquoanalyse est tregraves correcte Il nrsquoy a pas drsquoeacutecart important entre

les angles theacuteoriques et ceux calculeacutes On note toutefois que le lissage agrave lrsquoentreacutee des k-moyennes a pour effet de gommer les creacuteneaux et drsquoaplatir quelque peu la courbe drsquoeacuteleacutevation ceci nrsquoest pas vraiment gecircnant car de tels sauts dans la position drsquoune source ne sont pas du tout reacutealistes (ils peuvent caracteacuteriser des bruits de pas mais de tels impacts sont courts et on peut srsquoattendre agrave ce que la courbe suive leur position aux instants ougrave ils sont eacutemis)

Chapitre 4 Reacutesultats et applications 34

415 Scegravene 2D naturelle agrave une source Les scegravenes naturelles sont on lrsquoa vu plus deacutelicates agrave exploiter car on ne peut pas

garantir la preacutecision de la position theacuteorique agrave retrouver par le calcul et on ne peut donc pas calculer la preacutecision de lrsquoanalyse Seuls les enregistrements utilisant la table tournante (voir 232) permettent une mesure preacutecise de la position de lrsquoangle Ces enregistrements on pu confirmer la validiteacute de lrsquoanalyse pour des scegravenes reacuteelles on trouve ici un eacutecart-type de 25deg

Figure 44 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun bruit blanc

tournant autour du micro enregistreacute en chambre sourde Cette analyse a eacuteteacute reacutealiseacutee par sous-bandes mais sur une eacutetendue freacutequentielle

plus reacuteduite puisqursquoon srsquoest limiteacute aux possibiliteacutes offertes par le microphone La scegravene a donc eacuteteacute analyseacutee de 200 agrave 10 000 Hz

42 Quelques applications

421 Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre 2 agrave partir de lrsquoordre 1

Une fois les positions des sources connues la porte est ouverte agrave de nombreuses

applications La connaissance de ces positions permet en effet de syntheacutetiser artificiellement des composantes manquantes ou non transmises La premiegravere synthegravese deacuteveloppeacutee est celle des signaux U et V composant la partie horizontale de lrsquoordre 2 agrave partir de lrsquoordre 1 et de paramegravetres issus de lrsquoanalyse pour une source en 2D (des angles dans de cas)

42 Quelques applications 35

Figure 45 - Principe de lrsquoameacutelioration de la preacutecision spatiale

Le principe de la synthegravese est drsquoextraire les sources originales agrave partir de W X Y

et des angles (un angle par trame et par sous-bande) Ceci peut ecirctre reacutealiseacute de maniegravere approcheacutee en deacutecodant lrsquoordre 1 dans les directions des sources Ce deacutecodage revient agrave calculer les signaux qui devraient alimenter des haut-parleurs qui seraient placeacutes agrave ces positions dans le cas drsquoune restitution (voir 122) crsquoest-agrave-dire agrave former des directiviteacutes dans les directions des sources Dans la plupart des cas ce deacutecodage qui fait intervenir une pseudo-inversion de Moore-Penrose (111) est imparfait les sources se retrouvant leacutegegraverement meacutelangeacutees On peut comparer cette seacuteparation agrave celle que ferait un ensemble de microphones agrave directiviteacute hypercardioiumlde coiumlncidents

Figure 46 - Directiviteacutes eacutequivalentes agrave la seacuteparation de 4 sources agrave lrsquoordre 1 Ces sources seacutepareacutees vont ensuite constituer toujours placeacutees aux angles

deacutetermineacutes agrave lrsquoanalyse une scegravene virtuelle qursquoon va encoder agrave lrsquoordre 2 De cet encodage on ne conservera que les signaux manquants dans notre exemple les signaux du 2nd ordre U et V Ainsi la scegravene spatialiseacutee sera au final constitueacutee des signaux W X et Y drsquoorigine (transmis) et des signaux U et V syntheacutetiseacutes

Chapitre 4 Reacutesultats et applications 36

422 Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave partir de W Reconstruire une scegravene sonore spatialiseacutee agrave partir drsquoun unique canal mono est

alors difficile et le reacutesultat nrsquoest appreacuteciable que pour des scegravenes simples Il faut pour cela que les diffeacuterentes sources composant cette scegravene aient des supports spectraux aussi distincts que possible Les diffeacuterentes sous-bandes sont alors placeacutees agrave un certain angle transmis en parallegravele et crsquoest cette scegravene reconstitueacutee qui va ecirctre encodeacutee au 1er ordre de maniegravere agrave recreacuteer les signaux X et Y

Figure 47 - Principe de la restitution de lrsquoordre 1 agrave partir du signal mono W Ce scheacutema rappelle une meacutethode deacuteveloppeacutee dans le cas steacutereacuteo appeleacutee BCC

(Binaural Cue Coding) [Faller and Baumgarte 2002] Le principe est drsquoextraire et coder des informations permettant la reconstruction binaurale drsquoun signal agrave savoir les diffeacuterences interaurales drsquointensiteacute et de temps (Interaural LevelTime Difference ILD et ITD) qui correspondent dans le cas drsquoune restitution sur un casque aux diffeacuterences drsquointensiteacute et de temps inter-canal (Inter-Channel LevelTime Difference ICLD et ICTD) qui sont mesureacutees agrave partir drsquoune analyse en sous-bandes Les auteurs y ont plus reacutecemment associeacute un indice de correacutelation interaurale mesureacute agrave partir de la correacutelation inter-canal (ICC) afin de caracteacuteriser la preacutecision spatiale (la ldquolargeurrdquo drsquoune source)

Figure 48 - Scheacutema de principe de la meacutethode BCC [Faller and Baumgarte 2003]

On observe en pratique des deacutefauts lieacutes agrave la brutaliteacute de la proceacutedure une sous-

bande ne peut ecirctre que placeacutee agrave la position indiqueacutee et ne peut pas rester floue diffuse ou encore ecirctre placeacutee agrave plusieurs endroits Pour y remeacutedier nous avons ajouteacute 2 traitements agrave la synthegravese Tour drsquoabord nous avons appliqueacute un leacuteger lissage soulageant les effets deacutesagreacuteables dus au saut du contenu drsquoune sous-bande drsquoun endroit agrave un autre entre de 2 fenecirctres conseacutecutives Les positions varient alors de faccedilon plus souple au sein drsquoune mecircme sous-bande traduisant une hypothegravese de continuiteacute spatiale (pas de deacuteplacement brusque) La contrepartie est que cette hypothegravese est lieacutee agrave une hypothegravese de continuiteacute spectrale

42 Quelques applications 37

La 2egraveme ameacutelioration concerne le positionnement des sources En incluant dans la transmission un critegravere de pertinence on peut savoir srsquoil est raisonnable de placer une sous-bande agrave un angle preacutecis ou bien si lrsquoanalyse eacutetait flou agrave son sujet auquel cas un positionnement impreacutecis serait preacutefeacuterable Le paramegravetre choisi est une combinaison des critegraveres eacutevoqueacutes en 342 il nous permet de placer la sous-bande de maniegravere plus ou moins prononceacutee

43 Comparaison avec une meacutethode existante Certains auteurs ont deacutejagrave essayeacute drsquoanalyser un contenu ambisonique pour

retrouver les positions des sources Ville Pulkki a ainsi deacutecrit dans [Pulkki and Faller 2006] une meacutethode drsquoanalyse du B-format baseacutee sur lrsquoeacutetude des amplitudes des signaux W X Y et Z

Figure 49 - X et Y dans le cas drsquoune sinusoiumlde placeacutee agrave 15deg (agrave gauche) et 120deg (agrave droite)

Les figures ci-dessus montrent les relations drsquoamplitudes (algeacutebriques) qui relient

X et Y agrave lrsquoangle de la source On voit que lrsquoanalyse de ces amplitudes respectives permet de retrouver la position de la source en effet on a pour une source unique les relations de lrsquoeacutequation (11) rappeleacutee ici

⎪⎪

⎪⎪

=

=

=

=

δ

δθ

δθ

sin2

cossin2

coscos2

SZ

SY

SX

SW

(41)

On peut donc theacuteoriquement retrouver les valeurs de θ et δ par relations

trigonomeacutetriques Ainsi on a

⎪⎪⎩

⎪⎪⎨

=

=

2)sin(

)tan(

WZ

XY

δ

θ (42)

Chapitre 4 Reacutesultats et applications 38

On peut donc trouver les angles θ et δ agrave π pregraves Pour lever lrsquoambiguiumlteacute une eacutetude de signe est neacutecessaire Mais dans le cas de θ le signe de X et de Y agrave δ fixeacute deacutepend aussi bien de θ que S Il faut srsquointeacuteresser aux signes de θcos et θsin crsquoest-agrave-dire

aux signes de WX et

WY Dans la pratique on srsquointeacuteressera aux signes de et

pour se preacutevenir des divisions par zeacuteros

XW sdot YW sdot

XW sdot et YW sdot sont proportionnels agrave toujours positif

2S

Les auteurs deacutecrivent eacutegalement dans leur article un critegravere appeleacute diffuseness qui

peut ecirctre compareacute agrave un critegravere de pertinence inverseacute Ce paramegravetre calculeacute par agrave 1 - R ougrave R est un rapport de normes est tregraves proche du critegravere de norme relative deacutecrit en 342 Il peut donc ecirctre utiliseacute de la mecircme faccedilon et permettre ainsi une pleine comparaison

Cette meacutethode a eacuteteacute impleacutementeacutee pour pouvoir ecirctre compareacutee avec la meacutethode

par ACP Tous les paramegravetres ont scrupuleusement eacuteteacute gardeacutes identiques et plusieurs reacuteglages ont eacuteteacute testeacutes Les courbes ci-dessous preacutesentent les reacutesultats des analyses de la scegravene deacutecrite en 332 avec un pas de 50ms un overlap de 50 un NFFT de 2048 et 40 bandes freacutequentielles Nous avons repreacutesenteacute tous les angles trouveacutes crsquoest-agrave-dire un par bande et par trame pour srsquoaffranchir de la seacutelection des k-moyennes

π

0

minusπ

Figure 410 - Angles trouveacutes par lrsquoalgorithme de [Pulkki and Faller 2006] Le diamegravetre du point correspondant agrave la pertinence

43 Comparaison avec une meacutethode existante 39

π

0

minusπ

Figure 411 - Angles trouveacutes par une ACP pour la mecircme scegravene On remarque que les points excentriques sont moins nombreux et plus rarement trouveacutes comme pertinents

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee

441 Position du problegraveme

Une application directe de ces analyses a eacuteteacute deacuteveloppeacutee pour la confeacuterence audio

spatialiseacutee La confeacuterence audio utilise en effet la spatialisation pour permettre une meilleure seacuteparation par lrsquooreille des diffeacuterents locuteurs Ainsi si plusieurs personnes parlent en mecircme temps il sera tregraves difficile de comprendre chacun individuellement si ces voix sont restitueacutees en mono mais on pourra focaliser lrsquoattention sur chacune drsquoentre elles si elles sont seacutepareacutees spatialement (crsquoest lrsquoeffet cocktail party [Cherry 1953])

Lrsquoobjectif eacutetait de veacuterifier qursquoil eacutetait possible de conserver la spatialisation drsquoune

confeacuterence en nrsquoayant transmis qursquoun downmix mono des signaux Ce concept semble se rapprocher de celui deacutecrit en 422 mais une diffeacuterence fondamentale les seacutepare la confeacuterence audio spatialiseacutee nrsquoest pas codeacutee au format ambisonic mais les signaux traiteacutes sont directement les sons provenant des diffeacuterents locuteurs crsquoest-agrave-dire les sources elles-mecircmes Ainsi lrsquoanalyse ne porte plus sur une scegravene spatialiseacutee mais sur des signaux seacutepareacutes Il nrsquoy a ainsi plus drsquoindices spatiaux agrave trouver

Avoir accegraves aux sources permet drsquoobtenir des informations plus preacutecises pour

permettre une seacuteparation apregraves la transmission Comme nous lrsquoavons vu lrsquoanalyse drsquoune scegravene spatialiseacutee ne permet que dans drsquoultimes cas agrave la seacuteparation des sources ce qui est ici notre point de deacutepart et sera en fait notre point drsquoarriveacutee En effet nous tenterons de retrouver les sources seacutepareacutees apregraves la transmission de maniegravere agrave pouvoir par la suite les spatialiser agrave loisir (voir Figure 413)

Chapitre 4 Reacutesultats et applications 40

442 Solution proposeacutee Les paramegravetres extraits ne sont donc plus des positions de sources Nous avons

choisi de mesurer puis transmettre lrsquoeacutenergie de chaque signal dans chaque sous-bande en parallegravele du downmix En effet une bonne seacuteparation sera possible si lrsquoon sait quelle proportion de chaque source compose chaque sous-bande du signal mono

Figure 412 - Scheacutema de principe drsquoune confeacuterence audio spatialiseacutee

Figure 413 - Scheacutema ameacutelioreacute (deacutebit reacuteduit)

en pointilleacutes informations compleacutementaires (eacutenergie) Lrsquoanalyse en sous-bandes a lieu dans le serveur (Figure 414) Celui-ci calcule

lrsquoeacutenergie de chaque signal dans chaque sous-bande sur une trame donneacutee Crsquoest ce paramegravetre qui associeacute au signal mono M permettra la seacuteparation des sources dans le terminal (Figure 415) Ce dernier reacutepartira en effet les diffeacuterentes sous-bandes vers chaque signal reconstitueacute proportionnellement agrave cette information pour reconstruire les 4 sources originales

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee 41

Figure 414 - Analyse principe de lrsquoencodage dans le serveur

Figure 415 - Synthegravese principe du deacutecodage dans le client

Afin de reacuteduire au maximum les informations compleacutementaires agrave transmettre on

peut remarquer qursquoau cours drsquoune confeacuterence audio on a tregraves souvent un seul locuteur les participants ne parlent que tregraves rarement tous en mecircme temps Ceci implique que les signaux en entreacutee sont tregraves souvent tous nuls sauf 1 et appliquer un seuil en entreacutee de lrsquoanalyse permet outre lrsquoallegravegement du traitement drsquoavoir moins de paramegravetres agrave transmettre

Ce scheacutema simplifieacute ne tient pas compte des problegravemes de phase rien nrsquoindique

que les eacutenergies des signaux srsquoajoutent bien dans chaque sous-bande lors du downmix on peut tregraves bien avoir des oppositions de phase La solution est drsquoeffectuer le downmix (la somme) des signaux dans chaque sous-bande en prenant soin drsquoavoir recaleacute les phases au preacutealable Ceci nrsquoa un sens que pour des bandes suffisamment eacutetroites Les deacutecalages temporels appliqueacutes pour le recalage sont alors des paramegravetres suppleacutementaires agrave transmettre et sont pris en compte lors de la synthegravese au niveau du reacutepartiteur qui repositionnera la phase de chaque trame pour chaque signal

Chapitre 4 Reacutesultats et applications 42

443 Bilan Le reacutesultat du deacutecodage a pu ecirctre eacutecouteacute de diffeacuterentes maniegraveres les sources

reconstitueacutees individuellement ensemble en steacutereacuteo drsquoamplitude et sur un systegraveme 51 On note que les sources ont eacuteteacute assez bien seacutepareacutees mais que des artefacts sont audibles en particulier lorsque le nombre de locuteurs simultaneacutes augmentent Ces artefacts sont un meacutelange des voix qui nrsquoest gecircnant que lorsqursquoon les eacutecoute de maniegravere seacutepareacutee En effet lrsquoeacutecoute simultaneacutee de ces signaux syntheacutetiseacutes mecircme placeacutes agrave des positions distinctes sur un systegraveme de diffusion multicanal est tout agrave fait satisfaisante

Ce proceacutedeacute pour pouvoir ecirctre appliqueacute doit fonctionner en temps-reacuteel Cette

contrainte nrsquoa pas du tout eacuteteacute prise en compte lrsquoobjectif eacutetant de valider la faisabiliteacute drsquoune reconstruction Les programmes sous Matlab nrsquoont pas eacuteteacute optimiseacutes et ne respectent pas cette contrainte

43

Conclusion Nous avons preacutesenteacute dans ce rapport le principe et lrsquoapplication de plusieurs

meacutethodes drsquoanalyses spatiales de scegravenes ambisoniques conccedilues et reacutealiseacutee pendant le stage Le format HOA est en effet une repreacutesentation du champ acoustique deacutecomposeacute sur une base drsquoharmoniques spheacuteriques jusqursquoagrave un certain ordre agrave la maniegravere drsquoun deacuteveloppement limiteacute Il contient donc de maniegravere indirecte des indications spatiales qursquoon peut extraire avec des analyses comme lrsquoanalyse en composantes principales

Ces analyses nous permettent de deacuteterminer les positions des sources qui

composent la scegravene sonore Nous avons appliqueacute les reacutesultats de ces analyses agrave 2 types de synthegravese lrsquoune destineacutee aux transmissions bas deacutebit lrsquoautre agrave un traitement de restitution de la preacutecision spatiale dans le cas ougrave des ordres supeacuterieurs dont le but est drsquoaffiner la perception de localisation nrsquoauraient pas pu ecirctre transmis Ces algorithmes par le codage drsquoinformations spatiales qursquoils permettent pourront trouver bien drsquoautres applications dans la transmission et le codage ougrave la description du contenu est de plus en plus utiliseacutee (comme par exemple dans la norme MPEG)

Des ameacuteliorations sont possibles sur plusieurs points tout drsquoabord lrsquoexploitation

de toutes les composantes de lrsquoACP est agrave lrsquoeacutetude et semble pouvoir donner des reacutesultats inteacuteressants Drsquoautre part on a vu que le reacutesultat final est tregraves deacutependant de la bonne convergence de lrsquoalgorithme des k-moyennes utiliseacute pour traiter les donneacutees brutes de lrsquoanalyse en sous-bandes Or cet algorithme neacutecessite des reacuteglages tregraves fins et une connaissance a priori du nombre de sources est presque indispensable Drsquoautres algorithmes plus complexes de suivi de formes pourraient ecirctre avantageusement utiliseacutes pour deacutetecter dans tous les angles trouveacutes lesquels sont susceptibles de former une trajectoire

45

Annexe A

Deacuteveloppement du champ acoustique en harmoniques spheacuteriques

A1 Eacutequation drsquoonde en coordonneacutees spheacuteriques On se place dans lrsquoespace euclidien agrave 3 dimensions muni drsquoun systegraveme de

coordonneacutees spheacuteriques Un point M y est repeacutereacute par son rayon r son azimut θ et son eacuteleacutevation δ tels que repreacutesenteacutes sur la figure ci-dessous

- r est la norme du vecteur position rr crsquoest-agrave-dire la distance OM - [20[ πθ isin est lrsquoangle formeacute par le projeteacute du point sur le plan xOy et lrsquoaxe Ox

- ]2

2

[ ππδ minusisin est lrsquoangle formeacute par le plan xOy et le vecteur position2

Figure A1 - Systegraveme de coordonneacutees spheacuteriques

2 Cet angle diffegravere de lrsquoangle polaire usuel δπϕ minus=

2 habituellement pris entre lrsquoaxe Oz et le

vecteur position

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 46

Les relations entre les coordonneacutees spheacuteriques et les coordonneacutees carteacutesiennes sont

⎪⎩

⎪⎨

===

δδθδθ

sincossincoscos

zryrx

(A1)

On srsquointeacuteresse dans ce repegravere agrave lrsquoeacutequation de propagation des ondes acoustiques

de pression On se place dans les conditions classiques drsquoacoustique lineacuteaire (les variations de p sont petites par rapport agrave la pression atmospheacuterique) en supposant que lrsquoair est un fluide parfait (on y neacutegligera les pheacutenomegravenes dissipatifs) Dans une reacutegion de lrsquoespace ne comprenant pas de sources lrsquoeacutequation drsquoonde srsquoeacutecrit alors

0)(12

2

2 =⎟⎟⎠

⎞⎜⎜⎝

⎛partpart

minus∆ trptc

r (A2)

p eacutetant la pression et c la vitesse de propagation du son dans lrsquoair

Cette eacutequation devient dans le domaine freacutequentiel lrsquoeacutequation de Helmholtz

( ) 0)(2 =+∆ ωrpk r (A3)

ck ω

= eacutetant le nombre drsquoonde

En coordonneacutees spheacuteriques cette eacutequation srsquoeacutecrit

0sin1sin

sin11 2

2

2

222

2 =⎥⎦

⎤⎢⎣

⎡+

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart pk

rrrr

rr δθθθ

θθ (A4)

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques Drsquoapregraves [Bruneau 1983] elle admet des solutions agrave variables seacutepareacutees de la forme

)()()( δθ ΦΘ= rRp (A5) Ces solutions sont respectivement - pour la partie radiale une combinaison des fonctions de Bessel spheacuteriques de

premiegravere et seconde espegravece3 jn et nn

)()()( krBnkrAjrR nn += (A6) 3 Les fonctions de Bessel spheacuteriques de seconde espegravece sont eacutegalement appeleacutees fonctions de

Neumann

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 47

Ces fonctions sont deacutefinies comme suit

(A7)

Figure A2 - Fonctions de Bessel spheacuteriques pour les ordres 0 agrave 5 )(krjm

- pour la partie azimutale les fonctions )(θΘ

)sin()cos()( 21 θθθ ncnc +=Θ (A8) Eacutetant donneacute la deacutefinition de lrsquoangle Θ celui-ci doit neacutecessairement ecirctre de

peacuteriode 2π ))2()(( πθθ +Θ=Θ ce qui impose agrave n drsquoecirctre entier

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 48

- pour la partie polaire les fonctions de Legendre associeacutees )(sinδmnP

nm

nn

mn dPdP

)(sin)(sinsin)(sin

δδ

δδ = pour ⎩⎨⎧

gt=

nmavecnm 321

(A9)

ougrave les )(sinδnP sont les polynocircmes de Legendre de degreacute n en δsin deacutefinis par reacutecurrence

( )

11

22

1

0

sin)12()(sin)1(

1cos321)(sin

sin)(sin0)(sin

minus+ minus+=+

minus=

==

mmm mPPmPmet

P

PP

δδ

ϕδ

δδδ

(A10)

et de formule geacuteneacuterale

mm

m

mm dd

mP )1(sin

)(sin21)(sin 2 minus= δ

δδ (A11)

On peut appliquer aux fonctions )(sinδmnP la semi-normalisation de Schmidt

)(sin)()()(sin~ δεδ mnnmn P

nmnmP

+minus

= ougrave 10 =ε et 2=nε pour 1gen (A12)

En appariant les fonctions polaires et azimutales on deacutefinit les harmoniques

spheacuteriques de degreacute et drsquoordre)1(mnY 0gem 4 mnn lele0 et de degreacute et

drsquoordre (voir Figure A3)

)1(minusmnY 1gem

mnn lele1

)(sin~)sin()(

)(sin~)cos()()1(

)1(

δθδθ

δθδθ

mnmn

mnmn

PnY

PnY

=

=minus

(A13)

4 En geacuteneacuteral lorsque le degreacute et lrsquoordre ne sont pas eacutevoqueacutes conjointement on parle par abus de langage drsquoharmoniques drsquoordre m plutocirct que de degreacute m

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 49

soit

1)(sin

)()()12(2sin)(

)(sin)()()12(2cos)(

1)(sin)1()1()12(cos)(

)1(

)1(

1)1(

1

gt

⎪⎪⎩

⎪⎪⎨

+minus

+=

+minus

+=

=+minus

+=

minus

npourP

nmnmmnY

PnmnmmnY

npourPmmmY

mnmn

mnmn

mm

δθδθ

δθδθ

δθδθ

(A14)

La solution angulaire geacuteneacuterale srsquoeacutecrit alors sous la forme drsquoun deacuteveloppement sur

la base drsquoharmoniques spheacuteriques

( ) ( )sum minus

=minus+=Θ

1

1)1()1()( n

m mnmnmnmnn YBYBθ (A15) La solution geacuteneacuterale est alors la seacuterie de Fourier-Bessel

sum sum sum+infin

= = plusmn=

=0 0 1

)()( )()()(m

m

nmnmnm

m YBkrjikrpσ

σσ δθδθ (A16)

ougrave

intint⎪⎩

⎪⎨⎧

minusisin

isin

plusmnplusmn =

]2

2

[

[20[

)1()1( )()1()(

1

ππδ

πθ

δθδθ

S

mnm

mmn dSYpkrji

B (A17)

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 50

Tableau A1 - Expressions analytiques des harmoniques spheacuteriques pour les ordres 0 agrave 3

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 51

Figure A3 - Repreacutesentation des harmoniques spheacuteriques pour les ordres m = 0 agrave 3 Les

couleurs rouge et bleu indiquent respectivement des valeurs positives et neacutegatives

53

Annexe B

Compleacutements theacuteoriques sur le deacutecodage HOA

B1 Vecteur veacutelociteacute et vecteur eacutenergie Le vecteur veacutelociteacute est un indice de la direction apparente drsquoune source introduit

par Gerzon [Gerzon 1992] Il se calcule comme le rapport de la vitesse particulaire sur la pression acoustique

)()(

)()(1

δθδθ

δθδθ

ρ rprp

ki

rprv

cV nabla

minus=minus=rrr

(B1)

Dans le cas drsquoune onde plane le vecteur veacutelociteacute V

rest ainsi directement un

vecteur unitaire orienteacute vers la direction de provenance de lrsquoonde En geacuteneacuteralisant agrave une superposition drsquoondes planes en phase ou opposition de phase eacutemises par L haut-parleurs agrave eacutequidistance du point drsquoobservation on obtient la formule suivante

VVL

ll

L

lll

urg

ugV r

rr

==

sum

sum

=

=

1

1 (B2)

ougrave deacutesigne la direction du llur egraveme haut-parleur auquel est associeacute le gain gl et Vr Vur correspondent respectivement agrave la norme et agrave la direction du vecteur veacutelociteacute

Le vecteur eacutenergie est un autre indice de direction Il est deacutefinit par

EEL

ll

L

lll

urg

ugE r

rr

==

sum

sum

=

=

1

2

1

2

(B3)

Annexe B Compleacutements theacuteoriques sur le deacutecodage HOA 54

Il peut srsquointerpreacuteter comme une indication de la concentration de lrsquoeacutenergie ( ) et de sa direction moyenne de provenance (

Er

Eur ) On a toujours 1ltEr sauf dans le cas ougrave un seul haut-parleur contribue agrave la reconstruction (dans ce cas ) peut ecirctre consideacutereacute comme un indicateur de preacutecision de la localisation

1=Er Er

B2 Deacutecodages optimiseacutes La restitution la plus confortable drsquoun champ sonore veillera donc agrave maximiser

tout en essayant de garder le plus proche possible de 1 Lrsquooptimisation du deacutecodage consiste alors agrave multiplier chaque coefficient de la matrice de deacutecodage D (voir (111) par des gains calculeacutes drsquoapregraves des critegraveres drsquooptimisation

Er Vr

Ainsi le deacutecodage appeleacute max- maximise la norme du vecteur eacutenergie en

sacrifiant celle du vecteur veacutelociteacute puisqursquoon a dans ce deacutecodage (pour des configurations reacuteguliegraveres de haut-parleurs) Ce deacutecodage est donc avantageux par rapport au deacutecodage basique pour les hautes freacutequences ou dans le cas drsquoun auditoire eacutelargi Le deacutecodage in-phase va encore plus loin en cherchant agrave annuler complegravetement les contributions des haut-parleurs placeacutes agrave lrsquoopposeacute de la direction de provenance de lrsquoonde reproduite Ce critegravere est utile dans le cas drsquoune eacutecoute dans une position tregraves excentreacutee agrave laquelle on pourrait percevoir de faccedilon preacutedominante la contribution en opposition de phase drsquoun tel haut-parleur

Er

EV rr =

Ces diffeacuterents deacutecodages ont chacun des avantages et inconveacutenients Ainsi seul le

deacutecodage basique garantit = 1 le deacutecodage max- permet une preacutecision meilleure notamment en haute freacutequence et le deacutecodage in-phase est plus adapteacute agrave un auditoire plus large Jeacuterocircme Daniel [Daniel 2000] propose ainsi de changer le deacutecodage en fonction de la freacutequence et de lrsquoeacutetendue de la zone drsquoeacutecoute deacutesireacutee

Vr Er

Figure B1 - Deacutecodages les plus approprieacutes par sous-bande et en fonction de lrsquoeacutetendue de la

zone drsquoeacutecoute [Daniel 2000]

55

Annexe C

Analyse en composantes principales

C1 Espace des donneacutees Eacutegalement souvent appeleacutee transformeacutee de Karhunen-Loegraveve5 (TKL) lrsquoanalyse en

composantes principales (ACP) est une technique statistique de repreacutesentation drsquoinformation Introduite sur 2 variables par Pearson [Pearson 1900] elle a eacuteteacute eacutetendue par Hotelling [Hotelling 1933] Elle a pour but de caracteacuteriser des donneacutees drsquoun espace agrave N dimensions dans un sous-espace plus petit en minimisant les pertes drsquoinformation due agrave la projection crsquoest-agrave-dire en maximisant la variance projeteacutee Les donneacutees ainsi reacuteorganiseacutees deviennent indeacutependantes Les variables correacuteleacutees sont remplaceacutees par de nouvelles variables deacutecorreacuteleacutees et de variance maximale combinaisons lineacuteaires des variables initiales

Les donneacutees sont constitueacutees de n variables aleacuteatoires (dans notre cas des canaux)

et p reacutealisations ou individus (des eacutechantillons)

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

pn

p

ji

n

xx

x

xx

M

LLL

MOMNM

MLLM

MNMOM

LLL

1

111

(C1)

Ces donneacutees sont geacuteneacuteralement centreacutees et peuvent aussi ecirctre reacuteduites4 (on note

1x la moyenne de la variable et 1x )( 1xσ sa variance) Reacuteduire ou non le nuage de points (ie les p reacutealisations de la variable aleacuteatoire) est un choix de modegravele

5 Quelques rares sources mentionnent une diffeacuterence entre ACP et TKL en placcedilant celle-ci au

niveau du choix de la reacuteduction des donneacutees dans le cas dune ACP les donneacutees seraient centreacutees et reacuteduites alors qursquoelles seraient uniquement centreacutees pour une TKL

Annexe C Analyse en composantes principales 56

- si on ne reacuteduit pas le nuage une variable agrave forte variance pourrait tirer tout lrsquoeffet de lrsquoACP agrave elle

- si on reacuteduit le nuage une variable qui ne serait qursquoun bruit se retrouverait avec une variance apparente eacutegale agrave une variable informative

M est centreacutee

⎥⎥⎥

⎢⎢⎢

minusminusminus

minusminus=

npn

pi

ji

nn

xxxxxx

xxxxM

K

MM

K

11

11

11

ˆ (C2)

M~ est centreacutee et reacuteduite

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

minusminus

minus

minusminus

=

)()(

)(

)()(~

1

11

1

1

111

n

npn

pi

ij

i

n

nn

xxx

xxx

xxx

xxx

xxx

M

σσ

σ

σσ

K

MM

K

(C3)

On multiplie ensuite la matrice obtenue par sa transposeacutee pour obtenir - La matrice de covariance MMC t

vˆˆ sdot=

- La matrice de correacutelation MMC tr

~~ sdot= Ces matrices sont carreacutees (N x N) symeacutetriques et reacuteelles Elles sont donc

diagonalisables dans une base orthonormeacutee 6 Le principe de lrsquoACP est alors de trouver un axe u issu drsquoune combinaison lineacuteaire

des tel que le critegravere drsquoinertie du nuage autour de cet axe soit maximal Le critegravere drsquoinertie couramment utiliseacute est la variance Il faut donc trouver lrsquoaxe qui porte le maximum de variance crsquoest-agrave-dire lrsquoaxe u tel que la projection du nuage sur cet axe ait une variance maximale

nx

6 Nos donneacutees eacutetant ici des valeurs drsquoeacutechantillons elles sont par nature centreacutees et reacuteduites On

formera donc naturellement la matrice de correacutelation

C2 Diagonalisation 57

C2 Diagonalisation Pour alleacuteger lrsquoeacutecriture de la suite de cette partie nous consideacutererons que les

variables ont eacuteteacute centreacutees et si besoin reacuteduites et nous noterons ces variables

transformeacutees (ainsi

ix ix

iii xxx minuslarr ou bien )( i

iii x

xxxσ

minuslarr ) On fera de mecircme pour M

( ou bien MM ˆlarr MM ~larr ) et C ( vCC larr ou bien rCC larr ) La projection drsquoun eacutechantillon sur un axe u srsquoeacutecrit ix

uMxiu sdot=)(π (C4) La variance empirique de )( iu xπ vaut donc

uMMuxx ttiu

tiu sdotsdotsdot=sdot )()( ππ (C5)

Or on a vu que est diagonalisable dans une base orthonormeacutee donc

on peut noter P le changement de base associeacute et ∆ la matrice diagonale formeacutee de son spectre Ainsi

MMC t=

n

i 1)(λ PPMMC tt ∆==

)()()()( PuPuuPPuxx ttt

iut

iu sdot∆sdot=sdot∆sdot=sdotππ (C6) On pose v = Pu Chercher lrsquoaxe u qui maximise )( iu xπ revient donc agrave chercher le

vecteur v qui maximise ougravevvt ∆ )( 1 ndiag λλ K=∆ avec les iλ rangeacutes par ordre deacutecroissant Ce vecteur est trivialement le premier vecteur unitaire et on a alors

1λ=∆vvt

Ainsi le vecteur qui porte la plus grande part drsquoinertie du nuage est le premier

vecteur propre de C (premier par norme deacutecroissante) De mecircme le deuxiegraveme vecteur qui explique la plus grandelt part de lrsquoinertie restante est le deuxiegraveme vecteur propre de C Finalement la question de lrsquoACP se ramegravene agrave un problegraveme de diagonalisation de la matrice de correacutelation

C3 Code Matlab

function [vep vap] = pca(f N) f donneacutees N nombre de composantes agrave garder cor = f f formation de la matrice de correacutelation [vep vap] = eig(cor) calcul des vecteurs (vep) et valeurs (vap) propres [vap ind] = sort(diag(vap)) tri des valeurs propres par ordre croissant vap = flipud(vap) disposition inverse par ordre drsquoimportance vep = vep( flipud(ind)) classement en conseacutequence des vecteurs propres vep = vep( 1N) on ne garde que les N premiers vecteurs propres

Annexe C Analyse en composantes principales 58

59

Annexe D

Analyse en sous-bandes

D1 La transformeacutee de Fourier agrave court terme (TFCT) Pour affiner lrsquoanalyse les signaux sont donc deacutecoupeacutes en bandes de freacutequence par

TFCT La TFCT consiste agrave effectuer des transformeacutees de Fourier discregravetes sur des portions de signal fenecirctreacutees reacuteguliegraverement espaceacutees

On rappelle que la transformeacutee de Fourier drsquoun signal x(t) est deacutefinie (lorsque

lrsquointeacutegrale existe) par

int+infin

infinminus

minus= dtetxfX ftiπ2)()( (D1)

La transformeacutee de Fourier agrave temps discret (TFTD) drsquoun signal x(t) srsquoeacutecrit

sum+infin

minusinfin=

minus=n

fnienxfX π2)()( (D2)

La transformeacutee de Fourier discregravete (TFD) drsquoun signal discret x(k) est deacutefinie par

sum+infin

minusinfin=

minus=

n

Nkni

enxkXπ2

)()( (D3)

La TFCT discregravete est une TFD observeacutee sur une fenecirctre wa de taille N

summinus

=

minus+=

1

0

2)())(()(

N

n

Nnki

aaa enwtnxkXπ

ττ (D4)

ougrave )(taτ est lrsquoinstant drsquoanalyse

Annexe D Analyse en sous-bandes 60

Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT [Laroche 1995]

D2 Synthegravese par addition-recouvrement Lors de la synthegravese apregraves le deacutecoupage et lrsquoanalyse des fenecirctres on cherche agrave

reconstruire le signal temporel agrave partir de sa repreacutesentation freacutequentielle Pour cela on utilise la meacutethode OLA (overlap and add addition-recouvrement) qui consiste agrave prendre la TFCT inverse des spectres Xt puis agrave additionner les signaux obtenus apregraves les avoir multiplieacutes par une fenecirctre de pondeacuteration en les faisant se recouvrir partiellement

Le reacutesultat est donneacute par

sum=

minusminus=T

tsss tnxtnwnx

s1

))((~))(()(~ ττ τ (D5)

avec )()( tt as ττ = et summinus

=

=1

0

2))((~1)(~ N

k

Nkni

s ektXN

nxs

π

τ τ

Lors de la mise en œuvre de ce traitement il faut srsquoassurer drsquoecirctre en mesure de

reconstruire parfaitement un signal lorsqursquoaucune transformation ne lui est appliqueacutee Le critegravere de reconstruction parfaite condition suffisante est alors

sum=

=minusminusT

tasaa tnwtnw

11))(())(( ττ quelque soit n (D6)

D2 Synthegravese par addition-recouvrement 61

Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add [Laroche 1995]

Plusieurs paramegravetres sont agrave choisir avec soin Le premier drsquoentre eux est le type

de fenecirctre agrave utiliser Les diffeacuterentes options qui se preacutesentent agrave nous sont - la fenecirctre rectangulaire qui preacutesente dans son spectre le lobe principal le plus

eacutetroit mais des lobes secondaires non neacutegligeables - la fenecirctre de Hamming au lobe principal un peu plus large mais pour laquelle le

1er lobe secondaire se situe agrave -43 dB - la fenecirctre de Hann (ou cosinus sureacuteleveacute) qui ressemble agrave la preacuteceacutedente avec un

1er lobe secondaire plus fort mais une pente de 18 dB par octave pour les lobes suivants

- les fenecirctres de Blackman-Harris aux lobes secondaires tregraves bas mais au lobe principal plus large

Fenecirctre Lobe 2aire

(dB) Pente

(dBoct) Bande passante

agrave 6 dB (bins) Rectangulaire -13 -6 121 Triangulaire -27 -12 178

Hann -32 -18 200 Hamming -43 -6 181

Blackman-Harris 4 -92 -6 272

Tableau D1 - Caracteacuteristiques des principales fenecirctres drsquoanalyse [Harris 1978] Le meilleur compromis est donc dans notre contexte la fenecirctre de Hann ou celle

de Hamming

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 37: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

31

Chapitre 4

Reacutesultats et applications

41 Illustration et critique des reacutesultats obtenus

411 Avant-propos Sans notification particuliegravere les reacutesultats preacutesenteacutes ont eacuteteacute obtenus avec un pas

de 50 ms une analyse en 80 bandes avec une FFT sur 8192 points Une taille de FTT plus grande et un plus grand nombre de bande augmente la qualiteacute de lrsquoanalyse un pas plus petit ameacuteliore sa preacutecision temporelle mais les reacutesultats sont moins fiables et un lissage plus important srsquoimpose alors Ces paramegravetres ont eacuteteacute reacutegleacutes apregraves de multiples essais sur des scegravenes diverses

Les reacutesultats sont preacutesenteacutes ici uniquement sous la forme de graphiques nous ne

pouvons donc repreacutesenter que les angles trouveacutes agrave la sortie de lrsquoalgorithme des k-moyennes

412 Scegravene 2D artificielle agrave 4 sources fixes La premiegravere scegravene est une scegravene artificielle composeacutee de 4 sons fixes placeacutes agrave -70

-10 45 et 110deg Ces sons (une basse une voix une guitare et une batterie) ont eacuteteacute choisis pour leur varieacuteteacute spectrale et leur varieacuteteacute drsquoattaque Elle a en outre le meacuterite drsquoecirctre reacutealiste et de constituer une seacutequence musicale (chaque son nrsquoest pas une meacutelodie indeacutependante)

On voit sur la Figure 41 ci-dessous que les angles trouveacutes sont proches des

angles theacuteoriques Lrsquoun des sons (agrave 45deg) est quasiment nul avant la 100egraveme trame sa position est alors moins facile agrave deacuteterminer plus preacuteciseacutement une position approximative est trouveacutee et correspondrait exactement agrave la position du bruit (45deg) si lrsquoincertitude de mesure tregraves grande pour un son aussi faible ne rendait la deacutetermination si ardue On mesure un eacutecart-type de 22deg sur cet exemple (en excluant le deacutebut du son agrave 45deg)

Chapitre 4 Reacutesultats et applications 32

Figure 41 - Angles theacuteoriques (en pointilleacutes rouge) et calculeacutes (en trait bleu) pour une scegravene

constitueacutee de 4 sons fixes longue de 11s

413 Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile

Figure 42 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) de la scegravene agrave

4 sources dont 1 mobile deacutecrite en 332 Cette scegravene est deacutecrite en 332 On a ici demandeacute aux k-moyennes de renvoyer 5 barycentres par trame alors que

seules 4 sources eacutetaient preacutesentes dans le but de se garantir une marge vis-agrave-vis des erreurs de deacutetection Cette 5egraveme direction nrsquoest pas du tout gecircnante elle indique une direction qui ne contient pas de source et crsquoest donc un son tregraves faible qui est ainsi pointeacute Apregraves une eacuteventuelle extraction le signal ne sera donc pas du tout gecircnant

41 Illustration et critique des reacutesultats obtenus 33

On peut remarquer que quand le son mobile se rapproche drsquoun son fixe la deacutetection est moins bonne il y a une fusion entre les 2 sons Mais encore une fois lors de lrsquoextraction lrsquoisolation drsquoun des sons englobera lrsquoautre son ce qui ne posera pas de problegraveme pour les objectifs fixeacutes aucune source nrsquoeacutetant oublieacutee En effet la seacuteparation de sources nrsquoest pas un objectif ici mais un moyen pour preacuteciser les positions des sources ce qui sera fait correctement mecircme si 2 sources sont pointeacutees par 1 seule direction

414 Scegravene 3D artificielle agrave une source et bruit de fond

La scegravene dont la position drsquoune source a eacuteteacute extraite ci-dessous est une scegravene virtuelle en 3D constitueacute drsquoun son (une voix) qursquoon a fait se deacuteplacer par paliers tout drsquoabord vers le haut de 0deg agrave 45deg et vers la gauche de 0deg agrave 90deg puis redescendre jusqursquoagrave 35deg en continuant son cheminement vers la gauche jusqursquoagrave 120deg et enfin finir la descente de 35deg agrave 0deg en la laissant agrave 120deg Agrave cette source a eacuteteacute superposeacutee une ambiance spatialiseacutee de hall drsquoaeacuteroport initialement enregistreacutee en 2D (au format 51) mais transformeacutee pour contenir des composantes verticales Cette ambiance deacutecorreleacutee de la source avait pour but de tester la robustesse de lrsquoanalyse Elle eacutetait agrave 15 dB en-dessous du niveau de la voix

Figure 43 - Azimut et eacuteleacutevation theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun

son en 3D artificiel de 9s placeacute dans une ambiance bruyante On remarque que lrsquoanalyse est tregraves correcte Il nrsquoy a pas drsquoeacutecart important entre

les angles theacuteoriques et ceux calculeacutes On note toutefois que le lissage agrave lrsquoentreacutee des k-moyennes a pour effet de gommer les creacuteneaux et drsquoaplatir quelque peu la courbe drsquoeacuteleacutevation ceci nrsquoest pas vraiment gecircnant car de tels sauts dans la position drsquoune source ne sont pas du tout reacutealistes (ils peuvent caracteacuteriser des bruits de pas mais de tels impacts sont courts et on peut srsquoattendre agrave ce que la courbe suive leur position aux instants ougrave ils sont eacutemis)

Chapitre 4 Reacutesultats et applications 34

415 Scegravene 2D naturelle agrave une source Les scegravenes naturelles sont on lrsquoa vu plus deacutelicates agrave exploiter car on ne peut pas

garantir la preacutecision de la position theacuteorique agrave retrouver par le calcul et on ne peut donc pas calculer la preacutecision de lrsquoanalyse Seuls les enregistrements utilisant la table tournante (voir 232) permettent une mesure preacutecise de la position de lrsquoangle Ces enregistrements on pu confirmer la validiteacute de lrsquoanalyse pour des scegravenes reacuteelles on trouve ici un eacutecart-type de 25deg

Figure 44 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun bruit blanc

tournant autour du micro enregistreacute en chambre sourde Cette analyse a eacuteteacute reacutealiseacutee par sous-bandes mais sur une eacutetendue freacutequentielle

plus reacuteduite puisqursquoon srsquoest limiteacute aux possibiliteacutes offertes par le microphone La scegravene a donc eacuteteacute analyseacutee de 200 agrave 10 000 Hz

42 Quelques applications

421 Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre 2 agrave partir de lrsquoordre 1

Une fois les positions des sources connues la porte est ouverte agrave de nombreuses

applications La connaissance de ces positions permet en effet de syntheacutetiser artificiellement des composantes manquantes ou non transmises La premiegravere synthegravese deacuteveloppeacutee est celle des signaux U et V composant la partie horizontale de lrsquoordre 2 agrave partir de lrsquoordre 1 et de paramegravetres issus de lrsquoanalyse pour une source en 2D (des angles dans de cas)

42 Quelques applications 35

Figure 45 - Principe de lrsquoameacutelioration de la preacutecision spatiale

Le principe de la synthegravese est drsquoextraire les sources originales agrave partir de W X Y

et des angles (un angle par trame et par sous-bande) Ceci peut ecirctre reacutealiseacute de maniegravere approcheacutee en deacutecodant lrsquoordre 1 dans les directions des sources Ce deacutecodage revient agrave calculer les signaux qui devraient alimenter des haut-parleurs qui seraient placeacutes agrave ces positions dans le cas drsquoune restitution (voir 122) crsquoest-agrave-dire agrave former des directiviteacutes dans les directions des sources Dans la plupart des cas ce deacutecodage qui fait intervenir une pseudo-inversion de Moore-Penrose (111) est imparfait les sources se retrouvant leacutegegraverement meacutelangeacutees On peut comparer cette seacuteparation agrave celle que ferait un ensemble de microphones agrave directiviteacute hypercardioiumlde coiumlncidents

Figure 46 - Directiviteacutes eacutequivalentes agrave la seacuteparation de 4 sources agrave lrsquoordre 1 Ces sources seacutepareacutees vont ensuite constituer toujours placeacutees aux angles

deacutetermineacutes agrave lrsquoanalyse une scegravene virtuelle qursquoon va encoder agrave lrsquoordre 2 De cet encodage on ne conservera que les signaux manquants dans notre exemple les signaux du 2nd ordre U et V Ainsi la scegravene spatialiseacutee sera au final constitueacutee des signaux W X et Y drsquoorigine (transmis) et des signaux U et V syntheacutetiseacutes

Chapitre 4 Reacutesultats et applications 36

422 Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave partir de W Reconstruire une scegravene sonore spatialiseacutee agrave partir drsquoun unique canal mono est

alors difficile et le reacutesultat nrsquoest appreacuteciable que pour des scegravenes simples Il faut pour cela que les diffeacuterentes sources composant cette scegravene aient des supports spectraux aussi distincts que possible Les diffeacuterentes sous-bandes sont alors placeacutees agrave un certain angle transmis en parallegravele et crsquoest cette scegravene reconstitueacutee qui va ecirctre encodeacutee au 1er ordre de maniegravere agrave recreacuteer les signaux X et Y

Figure 47 - Principe de la restitution de lrsquoordre 1 agrave partir du signal mono W Ce scheacutema rappelle une meacutethode deacuteveloppeacutee dans le cas steacutereacuteo appeleacutee BCC

(Binaural Cue Coding) [Faller and Baumgarte 2002] Le principe est drsquoextraire et coder des informations permettant la reconstruction binaurale drsquoun signal agrave savoir les diffeacuterences interaurales drsquointensiteacute et de temps (Interaural LevelTime Difference ILD et ITD) qui correspondent dans le cas drsquoune restitution sur un casque aux diffeacuterences drsquointensiteacute et de temps inter-canal (Inter-Channel LevelTime Difference ICLD et ICTD) qui sont mesureacutees agrave partir drsquoune analyse en sous-bandes Les auteurs y ont plus reacutecemment associeacute un indice de correacutelation interaurale mesureacute agrave partir de la correacutelation inter-canal (ICC) afin de caracteacuteriser la preacutecision spatiale (la ldquolargeurrdquo drsquoune source)

Figure 48 - Scheacutema de principe de la meacutethode BCC [Faller and Baumgarte 2003]

On observe en pratique des deacutefauts lieacutes agrave la brutaliteacute de la proceacutedure une sous-

bande ne peut ecirctre que placeacutee agrave la position indiqueacutee et ne peut pas rester floue diffuse ou encore ecirctre placeacutee agrave plusieurs endroits Pour y remeacutedier nous avons ajouteacute 2 traitements agrave la synthegravese Tour drsquoabord nous avons appliqueacute un leacuteger lissage soulageant les effets deacutesagreacuteables dus au saut du contenu drsquoune sous-bande drsquoun endroit agrave un autre entre de 2 fenecirctres conseacutecutives Les positions varient alors de faccedilon plus souple au sein drsquoune mecircme sous-bande traduisant une hypothegravese de continuiteacute spatiale (pas de deacuteplacement brusque) La contrepartie est que cette hypothegravese est lieacutee agrave une hypothegravese de continuiteacute spectrale

42 Quelques applications 37

La 2egraveme ameacutelioration concerne le positionnement des sources En incluant dans la transmission un critegravere de pertinence on peut savoir srsquoil est raisonnable de placer une sous-bande agrave un angle preacutecis ou bien si lrsquoanalyse eacutetait flou agrave son sujet auquel cas un positionnement impreacutecis serait preacutefeacuterable Le paramegravetre choisi est une combinaison des critegraveres eacutevoqueacutes en 342 il nous permet de placer la sous-bande de maniegravere plus ou moins prononceacutee

43 Comparaison avec une meacutethode existante Certains auteurs ont deacutejagrave essayeacute drsquoanalyser un contenu ambisonique pour

retrouver les positions des sources Ville Pulkki a ainsi deacutecrit dans [Pulkki and Faller 2006] une meacutethode drsquoanalyse du B-format baseacutee sur lrsquoeacutetude des amplitudes des signaux W X Y et Z

Figure 49 - X et Y dans le cas drsquoune sinusoiumlde placeacutee agrave 15deg (agrave gauche) et 120deg (agrave droite)

Les figures ci-dessus montrent les relations drsquoamplitudes (algeacutebriques) qui relient

X et Y agrave lrsquoangle de la source On voit que lrsquoanalyse de ces amplitudes respectives permet de retrouver la position de la source en effet on a pour une source unique les relations de lrsquoeacutequation (11) rappeleacutee ici

⎪⎪

⎪⎪

=

=

=

=

δ

δθ

δθ

sin2

cossin2

coscos2

SZ

SY

SX

SW

(41)

On peut donc theacuteoriquement retrouver les valeurs de θ et δ par relations

trigonomeacutetriques Ainsi on a

⎪⎪⎩

⎪⎪⎨

=

=

2)sin(

)tan(

WZ

XY

δ

θ (42)

Chapitre 4 Reacutesultats et applications 38

On peut donc trouver les angles θ et δ agrave π pregraves Pour lever lrsquoambiguiumlteacute une eacutetude de signe est neacutecessaire Mais dans le cas de θ le signe de X et de Y agrave δ fixeacute deacutepend aussi bien de θ que S Il faut srsquointeacuteresser aux signes de θcos et θsin crsquoest-agrave-dire

aux signes de WX et

WY Dans la pratique on srsquointeacuteressera aux signes de et

pour se preacutevenir des divisions par zeacuteros

XW sdot YW sdot

XW sdot et YW sdot sont proportionnels agrave toujours positif

2S

Les auteurs deacutecrivent eacutegalement dans leur article un critegravere appeleacute diffuseness qui

peut ecirctre compareacute agrave un critegravere de pertinence inverseacute Ce paramegravetre calculeacute par agrave 1 - R ougrave R est un rapport de normes est tregraves proche du critegravere de norme relative deacutecrit en 342 Il peut donc ecirctre utiliseacute de la mecircme faccedilon et permettre ainsi une pleine comparaison

Cette meacutethode a eacuteteacute impleacutementeacutee pour pouvoir ecirctre compareacutee avec la meacutethode

par ACP Tous les paramegravetres ont scrupuleusement eacuteteacute gardeacutes identiques et plusieurs reacuteglages ont eacuteteacute testeacutes Les courbes ci-dessous preacutesentent les reacutesultats des analyses de la scegravene deacutecrite en 332 avec un pas de 50ms un overlap de 50 un NFFT de 2048 et 40 bandes freacutequentielles Nous avons repreacutesenteacute tous les angles trouveacutes crsquoest-agrave-dire un par bande et par trame pour srsquoaffranchir de la seacutelection des k-moyennes

π

0

minusπ

Figure 410 - Angles trouveacutes par lrsquoalgorithme de [Pulkki and Faller 2006] Le diamegravetre du point correspondant agrave la pertinence

43 Comparaison avec une meacutethode existante 39

π

0

minusπ

Figure 411 - Angles trouveacutes par une ACP pour la mecircme scegravene On remarque que les points excentriques sont moins nombreux et plus rarement trouveacutes comme pertinents

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee

441 Position du problegraveme

Une application directe de ces analyses a eacuteteacute deacuteveloppeacutee pour la confeacuterence audio

spatialiseacutee La confeacuterence audio utilise en effet la spatialisation pour permettre une meilleure seacuteparation par lrsquooreille des diffeacuterents locuteurs Ainsi si plusieurs personnes parlent en mecircme temps il sera tregraves difficile de comprendre chacun individuellement si ces voix sont restitueacutees en mono mais on pourra focaliser lrsquoattention sur chacune drsquoentre elles si elles sont seacutepareacutees spatialement (crsquoest lrsquoeffet cocktail party [Cherry 1953])

Lrsquoobjectif eacutetait de veacuterifier qursquoil eacutetait possible de conserver la spatialisation drsquoune

confeacuterence en nrsquoayant transmis qursquoun downmix mono des signaux Ce concept semble se rapprocher de celui deacutecrit en 422 mais une diffeacuterence fondamentale les seacutepare la confeacuterence audio spatialiseacutee nrsquoest pas codeacutee au format ambisonic mais les signaux traiteacutes sont directement les sons provenant des diffeacuterents locuteurs crsquoest-agrave-dire les sources elles-mecircmes Ainsi lrsquoanalyse ne porte plus sur une scegravene spatialiseacutee mais sur des signaux seacutepareacutes Il nrsquoy a ainsi plus drsquoindices spatiaux agrave trouver

Avoir accegraves aux sources permet drsquoobtenir des informations plus preacutecises pour

permettre une seacuteparation apregraves la transmission Comme nous lrsquoavons vu lrsquoanalyse drsquoune scegravene spatialiseacutee ne permet que dans drsquoultimes cas agrave la seacuteparation des sources ce qui est ici notre point de deacutepart et sera en fait notre point drsquoarriveacutee En effet nous tenterons de retrouver les sources seacutepareacutees apregraves la transmission de maniegravere agrave pouvoir par la suite les spatialiser agrave loisir (voir Figure 413)

Chapitre 4 Reacutesultats et applications 40

442 Solution proposeacutee Les paramegravetres extraits ne sont donc plus des positions de sources Nous avons

choisi de mesurer puis transmettre lrsquoeacutenergie de chaque signal dans chaque sous-bande en parallegravele du downmix En effet une bonne seacuteparation sera possible si lrsquoon sait quelle proportion de chaque source compose chaque sous-bande du signal mono

Figure 412 - Scheacutema de principe drsquoune confeacuterence audio spatialiseacutee

Figure 413 - Scheacutema ameacutelioreacute (deacutebit reacuteduit)

en pointilleacutes informations compleacutementaires (eacutenergie) Lrsquoanalyse en sous-bandes a lieu dans le serveur (Figure 414) Celui-ci calcule

lrsquoeacutenergie de chaque signal dans chaque sous-bande sur une trame donneacutee Crsquoest ce paramegravetre qui associeacute au signal mono M permettra la seacuteparation des sources dans le terminal (Figure 415) Ce dernier reacutepartira en effet les diffeacuterentes sous-bandes vers chaque signal reconstitueacute proportionnellement agrave cette information pour reconstruire les 4 sources originales

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee 41

Figure 414 - Analyse principe de lrsquoencodage dans le serveur

Figure 415 - Synthegravese principe du deacutecodage dans le client

Afin de reacuteduire au maximum les informations compleacutementaires agrave transmettre on

peut remarquer qursquoau cours drsquoune confeacuterence audio on a tregraves souvent un seul locuteur les participants ne parlent que tregraves rarement tous en mecircme temps Ceci implique que les signaux en entreacutee sont tregraves souvent tous nuls sauf 1 et appliquer un seuil en entreacutee de lrsquoanalyse permet outre lrsquoallegravegement du traitement drsquoavoir moins de paramegravetres agrave transmettre

Ce scheacutema simplifieacute ne tient pas compte des problegravemes de phase rien nrsquoindique

que les eacutenergies des signaux srsquoajoutent bien dans chaque sous-bande lors du downmix on peut tregraves bien avoir des oppositions de phase La solution est drsquoeffectuer le downmix (la somme) des signaux dans chaque sous-bande en prenant soin drsquoavoir recaleacute les phases au preacutealable Ceci nrsquoa un sens que pour des bandes suffisamment eacutetroites Les deacutecalages temporels appliqueacutes pour le recalage sont alors des paramegravetres suppleacutementaires agrave transmettre et sont pris en compte lors de la synthegravese au niveau du reacutepartiteur qui repositionnera la phase de chaque trame pour chaque signal

Chapitre 4 Reacutesultats et applications 42

443 Bilan Le reacutesultat du deacutecodage a pu ecirctre eacutecouteacute de diffeacuterentes maniegraveres les sources

reconstitueacutees individuellement ensemble en steacutereacuteo drsquoamplitude et sur un systegraveme 51 On note que les sources ont eacuteteacute assez bien seacutepareacutees mais que des artefacts sont audibles en particulier lorsque le nombre de locuteurs simultaneacutes augmentent Ces artefacts sont un meacutelange des voix qui nrsquoest gecircnant que lorsqursquoon les eacutecoute de maniegravere seacutepareacutee En effet lrsquoeacutecoute simultaneacutee de ces signaux syntheacutetiseacutes mecircme placeacutes agrave des positions distinctes sur un systegraveme de diffusion multicanal est tout agrave fait satisfaisante

Ce proceacutedeacute pour pouvoir ecirctre appliqueacute doit fonctionner en temps-reacuteel Cette

contrainte nrsquoa pas du tout eacuteteacute prise en compte lrsquoobjectif eacutetant de valider la faisabiliteacute drsquoune reconstruction Les programmes sous Matlab nrsquoont pas eacuteteacute optimiseacutes et ne respectent pas cette contrainte

43

Conclusion Nous avons preacutesenteacute dans ce rapport le principe et lrsquoapplication de plusieurs

meacutethodes drsquoanalyses spatiales de scegravenes ambisoniques conccedilues et reacutealiseacutee pendant le stage Le format HOA est en effet une repreacutesentation du champ acoustique deacutecomposeacute sur une base drsquoharmoniques spheacuteriques jusqursquoagrave un certain ordre agrave la maniegravere drsquoun deacuteveloppement limiteacute Il contient donc de maniegravere indirecte des indications spatiales qursquoon peut extraire avec des analyses comme lrsquoanalyse en composantes principales

Ces analyses nous permettent de deacuteterminer les positions des sources qui

composent la scegravene sonore Nous avons appliqueacute les reacutesultats de ces analyses agrave 2 types de synthegravese lrsquoune destineacutee aux transmissions bas deacutebit lrsquoautre agrave un traitement de restitution de la preacutecision spatiale dans le cas ougrave des ordres supeacuterieurs dont le but est drsquoaffiner la perception de localisation nrsquoauraient pas pu ecirctre transmis Ces algorithmes par le codage drsquoinformations spatiales qursquoils permettent pourront trouver bien drsquoautres applications dans la transmission et le codage ougrave la description du contenu est de plus en plus utiliseacutee (comme par exemple dans la norme MPEG)

Des ameacuteliorations sont possibles sur plusieurs points tout drsquoabord lrsquoexploitation

de toutes les composantes de lrsquoACP est agrave lrsquoeacutetude et semble pouvoir donner des reacutesultats inteacuteressants Drsquoautre part on a vu que le reacutesultat final est tregraves deacutependant de la bonne convergence de lrsquoalgorithme des k-moyennes utiliseacute pour traiter les donneacutees brutes de lrsquoanalyse en sous-bandes Or cet algorithme neacutecessite des reacuteglages tregraves fins et une connaissance a priori du nombre de sources est presque indispensable Drsquoautres algorithmes plus complexes de suivi de formes pourraient ecirctre avantageusement utiliseacutes pour deacutetecter dans tous les angles trouveacutes lesquels sont susceptibles de former une trajectoire

45

Annexe A

Deacuteveloppement du champ acoustique en harmoniques spheacuteriques

A1 Eacutequation drsquoonde en coordonneacutees spheacuteriques On se place dans lrsquoespace euclidien agrave 3 dimensions muni drsquoun systegraveme de

coordonneacutees spheacuteriques Un point M y est repeacutereacute par son rayon r son azimut θ et son eacuteleacutevation δ tels que repreacutesenteacutes sur la figure ci-dessous

- r est la norme du vecteur position rr crsquoest-agrave-dire la distance OM - [20[ πθ isin est lrsquoangle formeacute par le projeteacute du point sur le plan xOy et lrsquoaxe Ox

- ]2

2

[ ππδ minusisin est lrsquoangle formeacute par le plan xOy et le vecteur position2

Figure A1 - Systegraveme de coordonneacutees spheacuteriques

2 Cet angle diffegravere de lrsquoangle polaire usuel δπϕ minus=

2 habituellement pris entre lrsquoaxe Oz et le

vecteur position

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 46

Les relations entre les coordonneacutees spheacuteriques et les coordonneacutees carteacutesiennes sont

⎪⎩

⎪⎨

===

δδθδθ

sincossincoscos

zryrx

(A1)

On srsquointeacuteresse dans ce repegravere agrave lrsquoeacutequation de propagation des ondes acoustiques

de pression On se place dans les conditions classiques drsquoacoustique lineacuteaire (les variations de p sont petites par rapport agrave la pression atmospheacuterique) en supposant que lrsquoair est un fluide parfait (on y neacutegligera les pheacutenomegravenes dissipatifs) Dans une reacutegion de lrsquoespace ne comprenant pas de sources lrsquoeacutequation drsquoonde srsquoeacutecrit alors

0)(12

2

2 =⎟⎟⎠

⎞⎜⎜⎝

⎛partpart

minus∆ trptc

r (A2)

p eacutetant la pression et c la vitesse de propagation du son dans lrsquoair

Cette eacutequation devient dans le domaine freacutequentiel lrsquoeacutequation de Helmholtz

( ) 0)(2 =+∆ ωrpk r (A3)

ck ω

= eacutetant le nombre drsquoonde

En coordonneacutees spheacuteriques cette eacutequation srsquoeacutecrit

0sin1sin

sin11 2

2

2

222

2 =⎥⎦

⎤⎢⎣

⎡+

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart pk

rrrr

rr δθθθ

θθ (A4)

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques Drsquoapregraves [Bruneau 1983] elle admet des solutions agrave variables seacutepareacutees de la forme

)()()( δθ ΦΘ= rRp (A5) Ces solutions sont respectivement - pour la partie radiale une combinaison des fonctions de Bessel spheacuteriques de

premiegravere et seconde espegravece3 jn et nn

)()()( krBnkrAjrR nn += (A6) 3 Les fonctions de Bessel spheacuteriques de seconde espegravece sont eacutegalement appeleacutees fonctions de

Neumann

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 47

Ces fonctions sont deacutefinies comme suit

(A7)

Figure A2 - Fonctions de Bessel spheacuteriques pour les ordres 0 agrave 5 )(krjm

- pour la partie azimutale les fonctions )(θΘ

)sin()cos()( 21 θθθ ncnc +=Θ (A8) Eacutetant donneacute la deacutefinition de lrsquoangle Θ celui-ci doit neacutecessairement ecirctre de

peacuteriode 2π ))2()(( πθθ +Θ=Θ ce qui impose agrave n drsquoecirctre entier

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 48

- pour la partie polaire les fonctions de Legendre associeacutees )(sinδmnP

nm

nn

mn dPdP

)(sin)(sinsin)(sin

δδ

δδ = pour ⎩⎨⎧

gt=

nmavecnm 321

(A9)

ougrave les )(sinδnP sont les polynocircmes de Legendre de degreacute n en δsin deacutefinis par reacutecurrence

( )

11

22

1

0

sin)12()(sin)1(

1cos321)(sin

sin)(sin0)(sin

minus+ minus+=+

minus=

==

mmm mPPmPmet

P

PP

δδ

ϕδ

δδδ

(A10)

et de formule geacuteneacuterale

mm

m

mm dd

mP )1(sin

)(sin21)(sin 2 minus= δ

δδ (A11)

On peut appliquer aux fonctions )(sinδmnP la semi-normalisation de Schmidt

)(sin)()()(sin~ δεδ mnnmn P

nmnmP

+minus

= ougrave 10 =ε et 2=nε pour 1gen (A12)

En appariant les fonctions polaires et azimutales on deacutefinit les harmoniques

spheacuteriques de degreacute et drsquoordre)1(mnY 0gem 4 mnn lele0 et de degreacute et

drsquoordre (voir Figure A3)

)1(minusmnY 1gem

mnn lele1

)(sin~)sin()(

)(sin~)cos()()1(

)1(

δθδθ

δθδθ

mnmn

mnmn

PnY

PnY

=

=minus

(A13)

4 En geacuteneacuteral lorsque le degreacute et lrsquoordre ne sont pas eacutevoqueacutes conjointement on parle par abus de langage drsquoharmoniques drsquoordre m plutocirct que de degreacute m

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 49

soit

1)(sin

)()()12(2sin)(

)(sin)()()12(2cos)(

1)(sin)1()1()12(cos)(

)1(

)1(

1)1(

1

gt

⎪⎪⎩

⎪⎪⎨

+minus

+=

+minus

+=

=+minus

+=

minus

npourP

nmnmmnY

PnmnmmnY

npourPmmmY

mnmn

mnmn

mm

δθδθ

δθδθ

δθδθ

(A14)

La solution angulaire geacuteneacuterale srsquoeacutecrit alors sous la forme drsquoun deacuteveloppement sur

la base drsquoharmoniques spheacuteriques

( ) ( )sum minus

=minus+=Θ

1

1)1()1()( n

m mnmnmnmnn YBYBθ (A15) La solution geacuteneacuterale est alors la seacuterie de Fourier-Bessel

sum sum sum+infin

= = plusmn=

=0 0 1

)()( )()()(m

m

nmnmnm

m YBkrjikrpσ

σσ δθδθ (A16)

ougrave

intint⎪⎩

⎪⎨⎧

minusisin

isin

plusmnplusmn =

]2

2

[

[20[

)1()1( )()1()(

1

ππδ

πθ

δθδθ

S

mnm

mmn dSYpkrji

B (A17)

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 50

Tableau A1 - Expressions analytiques des harmoniques spheacuteriques pour les ordres 0 agrave 3

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 51

Figure A3 - Repreacutesentation des harmoniques spheacuteriques pour les ordres m = 0 agrave 3 Les

couleurs rouge et bleu indiquent respectivement des valeurs positives et neacutegatives

53

Annexe B

Compleacutements theacuteoriques sur le deacutecodage HOA

B1 Vecteur veacutelociteacute et vecteur eacutenergie Le vecteur veacutelociteacute est un indice de la direction apparente drsquoune source introduit

par Gerzon [Gerzon 1992] Il se calcule comme le rapport de la vitesse particulaire sur la pression acoustique

)()(

)()(1

δθδθ

δθδθ

ρ rprp

ki

rprv

cV nabla

minus=minus=rrr

(B1)

Dans le cas drsquoune onde plane le vecteur veacutelociteacute V

rest ainsi directement un

vecteur unitaire orienteacute vers la direction de provenance de lrsquoonde En geacuteneacuteralisant agrave une superposition drsquoondes planes en phase ou opposition de phase eacutemises par L haut-parleurs agrave eacutequidistance du point drsquoobservation on obtient la formule suivante

VVL

ll

L

lll

urg

ugV r

rr

==

sum

sum

=

=

1

1 (B2)

ougrave deacutesigne la direction du llur egraveme haut-parleur auquel est associeacute le gain gl et Vr Vur correspondent respectivement agrave la norme et agrave la direction du vecteur veacutelociteacute

Le vecteur eacutenergie est un autre indice de direction Il est deacutefinit par

EEL

ll

L

lll

urg

ugE r

rr

==

sum

sum

=

=

1

2

1

2

(B3)

Annexe B Compleacutements theacuteoriques sur le deacutecodage HOA 54

Il peut srsquointerpreacuteter comme une indication de la concentration de lrsquoeacutenergie ( ) et de sa direction moyenne de provenance (

Er

Eur ) On a toujours 1ltEr sauf dans le cas ougrave un seul haut-parleur contribue agrave la reconstruction (dans ce cas ) peut ecirctre consideacutereacute comme un indicateur de preacutecision de la localisation

1=Er Er

B2 Deacutecodages optimiseacutes La restitution la plus confortable drsquoun champ sonore veillera donc agrave maximiser

tout en essayant de garder le plus proche possible de 1 Lrsquooptimisation du deacutecodage consiste alors agrave multiplier chaque coefficient de la matrice de deacutecodage D (voir (111) par des gains calculeacutes drsquoapregraves des critegraveres drsquooptimisation

Er Vr

Ainsi le deacutecodage appeleacute max- maximise la norme du vecteur eacutenergie en

sacrifiant celle du vecteur veacutelociteacute puisqursquoon a dans ce deacutecodage (pour des configurations reacuteguliegraveres de haut-parleurs) Ce deacutecodage est donc avantageux par rapport au deacutecodage basique pour les hautes freacutequences ou dans le cas drsquoun auditoire eacutelargi Le deacutecodage in-phase va encore plus loin en cherchant agrave annuler complegravetement les contributions des haut-parleurs placeacutes agrave lrsquoopposeacute de la direction de provenance de lrsquoonde reproduite Ce critegravere est utile dans le cas drsquoune eacutecoute dans une position tregraves excentreacutee agrave laquelle on pourrait percevoir de faccedilon preacutedominante la contribution en opposition de phase drsquoun tel haut-parleur

Er

EV rr =

Ces diffeacuterents deacutecodages ont chacun des avantages et inconveacutenients Ainsi seul le

deacutecodage basique garantit = 1 le deacutecodage max- permet une preacutecision meilleure notamment en haute freacutequence et le deacutecodage in-phase est plus adapteacute agrave un auditoire plus large Jeacuterocircme Daniel [Daniel 2000] propose ainsi de changer le deacutecodage en fonction de la freacutequence et de lrsquoeacutetendue de la zone drsquoeacutecoute deacutesireacutee

Vr Er

Figure B1 - Deacutecodages les plus approprieacutes par sous-bande et en fonction de lrsquoeacutetendue de la

zone drsquoeacutecoute [Daniel 2000]

55

Annexe C

Analyse en composantes principales

C1 Espace des donneacutees Eacutegalement souvent appeleacutee transformeacutee de Karhunen-Loegraveve5 (TKL) lrsquoanalyse en

composantes principales (ACP) est une technique statistique de repreacutesentation drsquoinformation Introduite sur 2 variables par Pearson [Pearson 1900] elle a eacuteteacute eacutetendue par Hotelling [Hotelling 1933] Elle a pour but de caracteacuteriser des donneacutees drsquoun espace agrave N dimensions dans un sous-espace plus petit en minimisant les pertes drsquoinformation due agrave la projection crsquoest-agrave-dire en maximisant la variance projeteacutee Les donneacutees ainsi reacuteorganiseacutees deviennent indeacutependantes Les variables correacuteleacutees sont remplaceacutees par de nouvelles variables deacutecorreacuteleacutees et de variance maximale combinaisons lineacuteaires des variables initiales

Les donneacutees sont constitueacutees de n variables aleacuteatoires (dans notre cas des canaux)

et p reacutealisations ou individus (des eacutechantillons)

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

pn

p

ji

n

xx

x

xx

M

LLL

MOMNM

MLLM

MNMOM

LLL

1

111

(C1)

Ces donneacutees sont geacuteneacuteralement centreacutees et peuvent aussi ecirctre reacuteduites4 (on note

1x la moyenne de la variable et 1x )( 1xσ sa variance) Reacuteduire ou non le nuage de points (ie les p reacutealisations de la variable aleacuteatoire) est un choix de modegravele

5 Quelques rares sources mentionnent une diffeacuterence entre ACP et TKL en placcedilant celle-ci au

niveau du choix de la reacuteduction des donneacutees dans le cas dune ACP les donneacutees seraient centreacutees et reacuteduites alors qursquoelles seraient uniquement centreacutees pour une TKL

Annexe C Analyse en composantes principales 56

- si on ne reacuteduit pas le nuage une variable agrave forte variance pourrait tirer tout lrsquoeffet de lrsquoACP agrave elle

- si on reacuteduit le nuage une variable qui ne serait qursquoun bruit se retrouverait avec une variance apparente eacutegale agrave une variable informative

M est centreacutee

⎥⎥⎥

⎢⎢⎢

minusminusminus

minusminus=

npn

pi

ji

nn

xxxxxx

xxxxM

K

MM

K

11

11

11

ˆ (C2)

M~ est centreacutee et reacuteduite

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

minusminus

minus

minusminus

=

)()(

)(

)()(~

1

11

1

1

111

n

npn

pi

ij

i

n

nn

xxx

xxx

xxx

xxx

xxx

M

σσ

σ

σσ

K

MM

K

(C3)

On multiplie ensuite la matrice obtenue par sa transposeacutee pour obtenir - La matrice de covariance MMC t

vˆˆ sdot=

- La matrice de correacutelation MMC tr

~~ sdot= Ces matrices sont carreacutees (N x N) symeacutetriques et reacuteelles Elles sont donc

diagonalisables dans une base orthonormeacutee 6 Le principe de lrsquoACP est alors de trouver un axe u issu drsquoune combinaison lineacuteaire

des tel que le critegravere drsquoinertie du nuage autour de cet axe soit maximal Le critegravere drsquoinertie couramment utiliseacute est la variance Il faut donc trouver lrsquoaxe qui porte le maximum de variance crsquoest-agrave-dire lrsquoaxe u tel que la projection du nuage sur cet axe ait une variance maximale

nx

6 Nos donneacutees eacutetant ici des valeurs drsquoeacutechantillons elles sont par nature centreacutees et reacuteduites On

formera donc naturellement la matrice de correacutelation

C2 Diagonalisation 57

C2 Diagonalisation Pour alleacuteger lrsquoeacutecriture de la suite de cette partie nous consideacutererons que les

variables ont eacuteteacute centreacutees et si besoin reacuteduites et nous noterons ces variables

transformeacutees (ainsi

ix ix

iii xxx minuslarr ou bien )( i

iii x

xxxσ

minuslarr ) On fera de mecircme pour M

( ou bien MM ˆlarr MM ~larr ) et C ( vCC larr ou bien rCC larr ) La projection drsquoun eacutechantillon sur un axe u srsquoeacutecrit ix

uMxiu sdot=)(π (C4) La variance empirique de )( iu xπ vaut donc

uMMuxx ttiu

tiu sdotsdotsdot=sdot )()( ππ (C5)

Or on a vu que est diagonalisable dans une base orthonormeacutee donc

on peut noter P le changement de base associeacute et ∆ la matrice diagonale formeacutee de son spectre Ainsi

MMC t=

n

i 1)(λ PPMMC tt ∆==

)()()()( PuPuuPPuxx ttt

iut

iu sdot∆sdot=sdot∆sdot=sdotππ (C6) On pose v = Pu Chercher lrsquoaxe u qui maximise )( iu xπ revient donc agrave chercher le

vecteur v qui maximise ougravevvt ∆ )( 1 ndiag λλ K=∆ avec les iλ rangeacutes par ordre deacutecroissant Ce vecteur est trivialement le premier vecteur unitaire et on a alors

1λ=∆vvt

Ainsi le vecteur qui porte la plus grande part drsquoinertie du nuage est le premier

vecteur propre de C (premier par norme deacutecroissante) De mecircme le deuxiegraveme vecteur qui explique la plus grandelt part de lrsquoinertie restante est le deuxiegraveme vecteur propre de C Finalement la question de lrsquoACP se ramegravene agrave un problegraveme de diagonalisation de la matrice de correacutelation

C3 Code Matlab

function [vep vap] = pca(f N) f donneacutees N nombre de composantes agrave garder cor = f f formation de la matrice de correacutelation [vep vap] = eig(cor) calcul des vecteurs (vep) et valeurs (vap) propres [vap ind] = sort(diag(vap)) tri des valeurs propres par ordre croissant vap = flipud(vap) disposition inverse par ordre drsquoimportance vep = vep( flipud(ind)) classement en conseacutequence des vecteurs propres vep = vep( 1N) on ne garde que les N premiers vecteurs propres

Annexe C Analyse en composantes principales 58

59

Annexe D

Analyse en sous-bandes

D1 La transformeacutee de Fourier agrave court terme (TFCT) Pour affiner lrsquoanalyse les signaux sont donc deacutecoupeacutes en bandes de freacutequence par

TFCT La TFCT consiste agrave effectuer des transformeacutees de Fourier discregravetes sur des portions de signal fenecirctreacutees reacuteguliegraverement espaceacutees

On rappelle que la transformeacutee de Fourier drsquoun signal x(t) est deacutefinie (lorsque

lrsquointeacutegrale existe) par

int+infin

infinminus

minus= dtetxfX ftiπ2)()( (D1)

La transformeacutee de Fourier agrave temps discret (TFTD) drsquoun signal x(t) srsquoeacutecrit

sum+infin

minusinfin=

minus=n

fnienxfX π2)()( (D2)

La transformeacutee de Fourier discregravete (TFD) drsquoun signal discret x(k) est deacutefinie par

sum+infin

minusinfin=

minus=

n

Nkni

enxkXπ2

)()( (D3)

La TFCT discregravete est une TFD observeacutee sur une fenecirctre wa de taille N

summinus

=

minus+=

1

0

2)())(()(

N

n

Nnki

aaa enwtnxkXπ

ττ (D4)

ougrave )(taτ est lrsquoinstant drsquoanalyse

Annexe D Analyse en sous-bandes 60

Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT [Laroche 1995]

D2 Synthegravese par addition-recouvrement Lors de la synthegravese apregraves le deacutecoupage et lrsquoanalyse des fenecirctres on cherche agrave

reconstruire le signal temporel agrave partir de sa repreacutesentation freacutequentielle Pour cela on utilise la meacutethode OLA (overlap and add addition-recouvrement) qui consiste agrave prendre la TFCT inverse des spectres Xt puis agrave additionner les signaux obtenus apregraves les avoir multiplieacutes par une fenecirctre de pondeacuteration en les faisant se recouvrir partiellement

Le reacutesultat est donneacute par

sum=

minusminus=T

tsss tnxtnwnx

s1

))((~))(()(~ ττ τ (D5)

avec )()( tt as ττ = et summinus

=

=1

0

2))((~1)(~ N

k

Nkni

s ektXN

nxs

π

τ τ

Lors de la mise en œuvre de ce traitement il faut srsquoassurer drsquoecirctre en mesure de

reconstruire parfaitement un signal lorsqursquoaucune transformation ne lui est appliqueacutee Le critegravere de reconstruction parfaite condition suffisante est alors

sum=

=minusminusT

tasaa tnwtnw

11))(())(( ττ quelque soit n (D6)

D2 Synthegravese par addition-recouvrement 61

Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add [Laroche 1995]

Plusieurs paramegravetres sont agrave choisir avec soin Le premier drsquoentre eux est le type

de fenecirctre agrave utiliser Les diffeacuterentes options qui se preacutesentent agrave nous sont - la fenecirctre rectangulaire qui preacutesente dans son spectre le lobe principal le plus

eacutetroit mais des lobes secondaires non neacutegligeables - la fenecirctre de Hamming au lobe principal un peu plus large mais pour laquelle le

1er lobe secondaire se situe agrave -43 dB - la fenecirctre de Hann (ou cosinus sureacuteleveacute) qui ressemble agrave la preacuteceacutedente avec un

1er lobe secondaire plus fort mais une pente de 18 dB par octave pour les lobes suivants

- les fenecirctres de Blackman-Harris aux lobes secondaires tregraves bas mais au lobe principal plus large

Fenecirctre Lobe 2aire

(dB) Pente

(dBoct) Bande passante

agrave 6 dB (bins) Rectangulaire -13 -6 121 Triangulaire -27 -12 178

Hann -32 -18 200 Hamming -43 -6 181

Blackman-Harris 4 -92 -6 272

Tableau D1 - Caracteacuteristiques des principales fenecirctres drsquoanalyse [Harris 1978] Le meilleur compromis est donc dans notre contexte la fenecirctre de Hann ou celle

de Hamming

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 38: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

Chapitre 4 Reacutesultats et applications 32

Figure 41 - Angles theacuteoriques (en pointilleacutes rouge) et calculeacutes (en trait bleu) pour une scegravene

constitueacutee de 4 sons fixes longue de 11s

413 Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile

Figure 42 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) de la scegravene agrave

4 sources dont 1 mobile deacutecrite en 332 Cette scegravene est deacutecrite en 332 On a ici demandeacute aux k-moyennes de renvoyer 5 barycentres par trame alors que

seules 4 sources eacutetaient preacutesentes dans le but de se garantir une marge vis-agrave-vis des erreurs de deacutetection Cette 5egraveme direction nrsquoest pas du tout gecircnante elle indique une direction qui ne contient pas de source et crsquoest donc un son tregraves faible qui est ainsi pointeacute Apregraves une eacuteventuelle extraction le signal ne sera donc pas du tout gecircnant

41 Illustration et critique des reacutesultats obtenus 33

On peut remarquer que quand le son mobile se rapproche drsquoun son fixe la deacutetection est moins bonne il y a une fusion entre les 2 sons Mais encore une fois lors de lrsquoextraction lrsquoisolation drsquoun des sons englobera lrsquoautre son ce qui ne posera pas de problegraveme pour les objectifs fixeacutes aucune source nrsquoeacutetant oublieacutee En effet la seacuteparation de sources nrsquoest pas un objectif ici mais un moyen pour preacuteciser les positions des sources ce qui sera fait correctement mecircme si 2 sources sont pointeacutees par 1 seule direction

414 Scegravene 3D artificielle agrave une source et bruit de fond

La scegravene dont la position drsquoune source a eacuteteacute extraite ci-dessous est une scegravene virtuelle en 3D constitueacute drsquoun son (une voix) qursquoon a fait se deacuteplacer par paliers tout drsquoabord vers le haut de 0deg agrave 45deg et vers la gauche de 0deg agrave 90deg puis redescendre jusqursquoagrave 35deg en continuant son cheminement vers la gauche jusqursquoagrave 120deg et enfin finir la descente de 35deg agrave 0deg en la laissant agrave 120deg Agrave cette source a eacuteteacute superposeacutee une ambiance spatialiseacutee de hall drsquoaeacuteroport initialement enregistreacutee en 2D (au format 51) mais transformeacutee pour contenir des composantes verticales Cette ambiance deacutecorreleacutee de la source avait pour but de tester la robustesse de lrsquoanalyse Elle eacutetait agrave 15 dB en-dessous du niveau de la voix

Figure 43 - Azimut et eacuteleacutevation theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun

son en 3D artificiel de 9s placeacute dans une ambiance bruyante On remarque que lrsquoanalyse est tregraves correcte Il nrsquoy a pas drsquoeacutecart important entre

les angles theacuteoriques et ceux calculeacutes On note toutefois que le lissage agrave lrsquoentreacutee des k-moyennes a pour effet de gommer les creacuteneaux et drsquoaplatir quelque peu la courbe drsquoeacuteleacutevation ceci nrsquoest pas vraiment gecircnant car de tels sauts dans la position drsquoune source ne sont pas du tout reacutealistes (ils peuvent caracteacuteriser des bruits de pas mais de tels impacts sont courts et on peut srsquoattendre agrave ce que la courbe suive leur position aux instants ougrave ils sont eacutemis)

Chapitre 4 Reacutesultats et applications 34

415 Scegravene 2D naturelle agrave une source Les scegravenes naturelles sont on lrsquoa vu plus deacutelicates agrave exploiter car on ne peut pas

garantir la preacutecision de la position theacuteorique agrave retrouver par le calcul et on ne peut donc pas calculer la preacutecision de lrsquoanalyse Seuls les enregistrements utilisant la table tournante (voir 232) permettent une mesure preacutecise de la position de lrsquoangle Ces enregistrements on pu confirmer la validiteacute de lrsquoanalyse pour des scegravenes reacuteelles on trouve ici un eacutecart-type de 25deg

Figure 44 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun bruit blanc

tournant autour du micro enregistreacute en chambre sourde Cette analyse a eacuteteacute reacutealiseacutee par sous-bandes mais sur une eacutetendue freacutequentielle

plus reacuteduite puisqursquoon srsquoest limiteacute aux possibiliteacutes offertes par le microphone La scegravene a donc eacuteteacute analyseacutee de 200 agrave 10 000 Hz

42 Quelques applications

421 Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre 2 agrave partir de lrsquoordre 1

Une fois les positions des sources connues la porte est ouverte agrave de nombreuses

applications La connaissance de ces positions permet en effet de syntheacutetiser artificiellement des composantes manquantes ou non transmises La premiegravere synthegravese deacuteveloppeacutee est celle des signaux U et V composant la partie horizontale de lrsquoordre 2 agrave partir de lrsquoordre 1 et de paramegravetres issus de lrsquoanalyse pour une source en 2D (des angles dans de cas)

42 Quelques applications 35

Figure 45 - Principe de lrsquoameacutelioration de la preacutecision spatiale

Le principe de la synthegravese est drsquoextraire les sources originales agrave partir de W X Y

et des angles (un angle par trame et par sous-bande) Ceci peut ecirctre reacutealiseacute de maniegravere approcheacutee en deacutecodant lrsquoordre 1 dans les directions des sources Ce deacutecodage revient agrave calculer les signaux qui devraient alimenter des haut-parleurs qui seraient placeacutes agrave ces positions dans le cas drsquoune restitution (voir 122) crsquoest-agrave-dire agrave former des directiviteacutes dans les directions des sources Dans la plupart des cas ce deacutecodage qui fait intervenir une pseudo-inversion de Moore-Penrose (111) est imparfait les sources se retrouvant leacutegegraverement meacutelangeacutees On peut comparer cette seacuteparation agrave celle que ferait un ensemble de microphones agrave directiviteacute hypercardioiumlde coiumlncidents

Figure 46 - Directiviteacutes eacutequivalentes agrave la seacuteparation de 4 sources agrave lrsquoordre 1 Ces sources seacutepareacutees vont ensuite constituer toujours placeacutees aux angles

deacutetermineacutes agrave lrsquoanalyse une scegravene virtuelle qursquoon va encoder agrave lrsquoordre 2 De cet encodage on ne conservera que les signaux manquants dans notre exemple les signaux du 2nd ordre U et V Ainsi la scegravene spatialiseacutee sera au final constitueacutee des signaux W X et Y drsquoorigine (transmis) et des signaux U et V syntheacutetiseacutes

Chapitre 4 Reacutesultats et applications 36

422 Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave partir de W Reconstruire une scegravene sonore spatialiseacutee agrave partir drsquoun unique canal mono est

alors difficile et le reacutesultat nrsquoest appreacuteciable que pour des scegravenes simples Il faut pour cela que les diffeacuterentes sources composant cette scegravene aient des supports spectraux aussi distincts que possible Les diffeacuterentes sous-bandes sont alors placeacutees agrave un certain angle transmis en parallegravele et crsquoest cette scegravene reconstitueacutee qui va ecirctre encodeacutee au 1er ordre de maniegravere agrave recreacuteer les signaux X et Y

Figure 47 - Principe de la restitution de lrsquoordre 1 agrave partir du signal mono W Ce scheacutema rappelle une meacutethode deacuteveloppeacutee dans le cas steacutereacuteo appeleacutee BCC

(Binaural Cue Coding) [Faller and Baumgarte 2002] Le principe est drsquoextraire et coder des informations permettant la reconstruction binaurale drsquoun signal agrave savoir les diffeacuterences interaurales drsquointensiteacute et de temps (Interaural LevelTime Difference ILD et ITD) qui correspondent dans le cas drsquoune restitution sur un casque aux diffeacuterences drsquointensiteacute et de temps inter-canal (Inter-Channel LevelTime Difference ICLD et ICTD) qui sont mesureacutees agrave partir drsquoune analyse en sous-bandes Les auteurs y ont plus reacutecemment associeacute un indice de correacutelation interaurale mesureacute agrave partir de la correacutelation inter-canal (ICC) afin de caracteacuteriser la preacutecision spatiale (la ldquolargeurrdquo drsquoune source)

Figure 48 - Scheacutema de principe de la meacutethode BCC [Faller and Baumgarte 2003]

On observe en pratique des deacutefauts lieacutes agrave la brutaliteacute de la proceacutedure une sous-

bande ne peut ecirctre que placeacutee agrave la position indiqueacutee et ne peut pas rester floue diffuse ou encore ecirctre placeacutee agrave plusieurs endroits Pour y remeacutedier nous avons ajouteacute 2 traitements agrave la synthegravese Tour drsquoabord nous avons appliqueacute un leacuteger lissage soulageant les effets deacutesagreacuteables dus au saut du contenu drsquoune sous-bande drsquoun endroit agrave un autre entre de 2 fenecirctres conseacutecutives Les positions varient alors de faccedilon plus souple au sein drsquoune mecircme sous-bande traduisant une hypothegravese de continuiteacute spatiale (pas de deacuteplacement brusque) La contrepartie est que cette hypothegravese est lieacutee agrave une hypothegravese de continuiteacute spectrale

42 Quelques applications 37

La 2egraveme ameacutelioration concerne le positionnement des sources En incluant dans la transmission un critegravere de pertinence on peut savoir srsquoil est raisonnable de placer une sous-bande agrave un angle preacutecis ou bien si lrsquoanalyse eacutetait flou agrave son sujet auquel cas un positionnement impreacutecis serait preacutefeacuterable Le paramegravetre choisi est une combinaison des critegraveres eacutevoqueacutes en 342 il nous permet de placer la sous-bande de maniegravere plus ou moins prononceacutee

43 Comparaison avec une meacutethode existante Certains auteurs ont deacutejagrave essayeacute drsquoanalyser un contenu ambisonique pour

retrouver les positions des sources Ville Pulkki a ainsi deacutecrit dans [Pulkki and Faller 2006] une meacutethode drsquoanalyse du B-format baseacutee sur lrsquoeacutetude des amplitudes des signaux W X Y et Z

Figure 49 - X et Y dans le cas drsquoune sinusoiumlde placeacutee agrave 15deg (agrave gauche) et 120deg (agrave droite)

Les figures ci-dessus montrent les relations drsquoamplitudes (algeacutebriques) qui relient

X et Y agrave lrsquoangle de la source On voit que lrsquoanalyse de ces amplitudes respectives permet de retrouver la position de la source en effet on a pour une source unique les relations de lrsquoeacutequation (11) rappeleacutee ici

⎪⎪

⎪⎪

=

=

=

=

δ

δθ

δθ

sin2

cossin2

coscos2

SZ

SY

SX

SW

(41)

On peut donc theacuteoriquement retrouver les valeurs de θ et δ par relations

trigonomeacutetriques Ainsi on a

⎪⎪⎩

⎪⎪⎨

=

=

2)sin(

)tan(

WZ

XY

δ

θ (42)

Chapitre 4 Reacutesultats et applications 38

On peut donc trouver les angles θ et δ agrave π pregraves Pour lever lrsquoambiguiumlteacute une eacutetude de signe est neacutecessaire Mais dans le cas de θ le signe de X et de Y agrave δ fixeacute deacutepend aussi bien de θ que S Il faut srsquointeacuteresser aux signes de θcos et θsin crsquoest-agrave-dire

aux signes de WX et

WY Dans la pratique on srsquointeacuteressera aux signes de et

pour se preacutevenir des divisions par zeacuteros

XW sdot YW sdot

XW sdot et YW sdot sont proportionnels agrave toujours positif

2S

Les auteurs deacutecrivent eacutegalement dans leur article un critegravere appeleacute diffuseness qui

peut ecirctre compareacute agrave un critegravere de pertinence inverseacute Ce paramegravetre calculeacute par agrave 1 - R ougrave R est un rapport de normes est tregraves proche du critegravere de norme relative deacutecrit en 342 Il peut donc ecirctre utiliseacute de la mecircme faccedilon et permettre ainsi une pleine comparaison

Cette meacutethode a eacuteteacute impleacutementeacutee pour pouvoir ecirctre compareacutee avec la meacutethode

par ACP Tous les paramegravetres ont scrupuleusement eacuteteacute gardeacutes identiques et plusieurs reacuteglages ont eacuteteacute testeacutes Les courbes ci-dessous preacutesentent les reacutesultats des analyses de la scegravene deacutecrite en 332 avec un pas de 50ms un overlap de 50 un NFFT de 2048 et 40 bandes freacutequentielles Nous avons repreacutesenteacute tous les angles trouveacutes crsquoest-agrave-dire un par bande et par trame pour srsquoaffranchir de la seacutelection des k-moyennes

π

0

minusπ

Figure 410 - Angles trouveacutes par lrsquoalgorithme de [Pulkki and Faller 2006] Le diamegravetre du point correspondant agrave la pertinence

43 Comparaison avec une meacutethode existante 39

π

0

minusπ

Figure 411 - Angles trouveacutes par une ACP pour la mecircme scegravene On remarque que les points excentriques sont moins nombreux et plus rarement trouveacutes comme pertinents

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee

441 Position du problegraveme

Une application directe de ces analyses a eacuteteacute deacuteveloppeacutee pour la confeacuterence audio

spatialiseacutee La confeacuterence audio utilise en effet la spatialisation pour permettre une meilleure seacuteparation par lrsquooreille des diffeacuterents locuteurs Ainsi si plusieurs personnes parlent en mecircme temps il sera tregraves difficile de comprendre chacun individuellement si ces voix sont restitueacutees en mono mais on pourra focaliser lrsquoattention sur chacune drsquoentre elles si elles sont seacutepareacutees spatialement (crsquoest lrsquoeffet cocktail party [Cherry 1953])

Lrsquoobjectif eacutetait de veacuterifier qursquoil eacutetait possible de conserver la spatialisation drsquoune

confeacuterence en nrsquoayant transmis qursquoun downmix mono des signaux Ce concept semble se rapprocher de celui deacutecrit en 422 mais une diffeacuterence fondamentale les seacutepare la confeacuterence audio spatialiseacutee nrsquoest pas codeacutee au format ambisonic mais les signaux traiteacutes sont directement les sons provenant des diffeacuterents locuteurs crsquoest-agrave-dire les sources elles-mecircmes Ainsi lrsquoanalyse ne porte plus sur une scegravene spatialiseacutee mais sur des signaux seacutepareacutes Il nrsquoy a ainsi plus drsquoindices spatiaux agrave trouver

Avoir accegraves aux sources permet drsquoobtenir des informations plus preacutecises pour

permettre une seacuteparation apregraves la transmission Comme nous lrsquoavons vu lrsquoanalyse drsquoune scegravene spatialiseacutee ne permet que dans drsquoultimes cas agrave la seacuteparation des sources ce qui est ici notre point de deacutepart et sera en fait notre point drsquoarriveacutee En effet nous tenterons de retrouver les sources seacutepareacutees apregraves la transmission de maniegravere agrave pouvoir par la suite les spatialiser agrave loisir (voir Figure 413)

Chapitre 4 Reacutesultats et applications 40

442 Solution proposeacutee Les paramegravetres extraits ne sont donc plus des positions de sources Nous avons

choisi de mesurer puis transmettre lrsquoeacutenergie de chaque signal dans chaque sous-bande en parallegravele du downmix En effet une bonne seacuteparation sera possible si lrsquoon sait quelle proportion de chaque source compose chaque sous-bande du signal mono

Figure 412 - Scheacutema de principe drsquoune confeacuterence audio spatialiseacutee

Figure 413 - Scheacutema ameacutelioreacute (deacutebit reacuteduit)

en pointilleacutes informations compleacutementaires (eacutenergie) Lrsquoanalyse en sous-bandes a lieu dans le serveur (Figure 414) Celui-ci calcule

lrsquoeacutenergie de chaque signal dans chaque sous-bande sur une trame donneacutee Crsquoest ce paramegravetre qui associeacute au signal mono M permettra la seacuteparation des sources dans le terminal (Figure 415) Ce dernier reacutepartira en effet les diffeacuterentes sous-bandes vers chaque signal reconstitueacute proportionnellement agrave cette information pour reconstruire les 4 sources originales

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee 41

Figure 414 - Analyse principe de lrsquoencodage dans le serveur

Figure 415 - Synthegravese principe du deacutecodage dans le client

Afin de reacuteduire au maximum les informations compleacutementaires agrave transmettre on

peut remarquer qursquoau cours drsquoune confeacuterence audio on a tregraves souvent un seul locuteur les participants ne parlent que tregraves rarement tous en mecircme temps Ceci implique que les signaux en entreacutee sont tregraves souvent tous nuls sauf 1 et appliquer un seuil en entreacutee de lrsquoanalyse permet outre lrsquoallegravegement du traitement drsquoavoir moins de paramegravetres agrave transmettre

Ce scheacutema simplifieacute ne tient pas compte des problegravemes de phase rien nrsquoindique

que les eacutenergies des signaux srsquoajoutent bien dans chaque sous-bande lors du downmix on peut tregraves bien avoir des oppositions de phase La solution est drsquoeffectuer le downmix (la somme) des signaux dans chaque sous-bande en prenant soin drsquoavoir recaleacute les phases au preacutealable Ceci nrsquoa un sens que pour des bandes suffisamment eacutetroites Les deacutecalages temporels appliqueacutes pour le recalage sont alors des paramegravetres suppleacutementaires agrave transmettre et sont pris en compte lors de la synthegravese au niveau du reacutepartiteur qui repositionnera la phase de chaque trame pour chaque signal

Chapitre 4 Reacutesultats et applications 42

443 Bilan Le reacutesultat du deacutecodage a pu ecirctre eacutecouteacute de diffeacuterentes maniegraveres les sources

reconstitueacutees individuellement ensemble en steacutereacuteo drsquoamplitude et sur un systegraveme 51 On note que les sources ont eacuteteacute assez bien seacutepareacutees mais que des artefacts sont audibles en particulier lorsque le nombre de locuteurs simultaneacutes augmentent Ces artefacts sont un meacutelange des voix qui nrsquoest gecircnant que lorsqursquoon les eacutecoute de maniegravere seacutepareacutee En effet lrsquoeacutecoute simultaneacutee de ces signaux syntheacutetiseacutes mecircme placeacutes agrave des positions distinctes sur un systegraveme de diffusion multicanal est tout agrave fait satisfaisante

Ce proceacutedeacute pour pouvoir ecirctre appliqueacute doit fonctionner en temps-reacuteel Cette

contrainte nrsquoa pas du tout eacuteteacute prise en compte lrsquoobjectif eacutetant de valider la faisabiliteacute drsquoune reconstruction Les programmes sous Matlab nrsquoont pas eacuteteacute optimiseacutes et ne respectent pas cette contrainte

43

Conclusion Nous avons preacutesenteacute dans ce rapport le principe et lrsquoapplication de plusieurs

meacutethodes drsquoanalyses spatiales de scegravenes ambisoniques conccedilues et reacutealiseacutee pendant le stage Le format HOA est en effet une repreacutesentation du champ acoustique deacutecomposeacute sur une base drsquoharmoniques spheacuteriques jusqursquoagrave un certain ordre agrave la maniegravere drsquoun deacuteveloppement limiteacute Il contient donc de maniegravere indirecte des indications spatiales qursquoon peut extraire avec des analyses comme lrsquoanalyse en composantes principales

Ces analyses nous permettent de deacuteterminer les positions des sources qui

composent la scegravene sonore Nous avons appliqueacute les reacutesultats de ces analyses agrave 2 types de synthegravese lrsquoune destineacutee aux transmissions bas deacutebit lrsquoautre agrave un traitement de restitution de la preacutecision spatiale dans le cas ougrave des ordres supeacuterieurs dont le but est drsquoaffiner la perception de localisation nrsquoauraient pas pu ecirctre transmis Ces algorithmes par le codage drsquoinformations spatiales qursquoils permettent pourront trouver bien drsquoautres applications dans la transmission et le codage ougrave la description du contenu est de plus en plus utiliseacutee (comme par exemple dans la norme MPEG)

Des ameacuteliorations sont possibles sur plusieurs points tout drsquoabord lrsquoexploitation

de toutes les composantes de lrsquoACP est agrave lrsquoeacutetude et semble pouvoir donner des reacutesultats inteacuteressants Drsquoautre part on a vu que le reacutesultat final est tregraves deacutependant de la bonne convergence de lrsquoalgorithme des k-moyennes utiliseacute pour traiter les donneacutees brutes de lrsquoanalyse en sous-bandes Or cet algorithme neacutecessite des reacuteglages tregraves fins et une connaissance a priori du nombre de sources est presque indispensable Drsquoautres algorithmes plus complexes de suivi de formes pourraient ecirctre avantageusement utiliseacutes pour deacutetecter dans tous les angles trouveacutes lesquels sont susceptibles de former une trajectoire

45

Annexe A

Deacuteveloppement du champ acoustique en harmoniques spheacuteriques

A1 Eacutequation drsquoonde en coordonneacutees spheacuteriques On se place dans lrsquoespace euclidien agrave 3 dimensions muni drsquoun systegraveme de

coordonneacutees spheacuteriques Un point M y est repeacutereacute par son rayon r son azimut θ et son eacuteleacutevation δ tels que repreacutesenteacutes sur la figure ci-dessous

- r est la norme du vecteur position rr crsquoest-agrave-dire la distance OM - [20[ πθ isin est lrsquoangle formeacute par le projeteacute du point sur le plan xOy et lrsquoaxe Ox

- ]2

2

[ ππδ minusisin est lrsquoangle formeacute par le plan xOy et le vecteur position2

Figure A1 - Systegraveme de coordonneacutees spheacuteriques

2 Cet angle diffegravere de lrsquoangle polaire usuel δπϕ minus=

2 habituellement pris entre lrsquoaxe Oz et le

vecteur position

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 46

Les relations entre les coordonneacutees spheacuteriques et les coordonneacutees carteacutesiennes sont

⎪⎩

⎪⎨

===

δδθδθ

sincossincoscos

zryrx

(A1)

On srsquointeacuteresse dans ce repegravere agrave lrsquoeacutequation de propagation des ondes acoustiques

de pression On se place dans les conditions classiques drsquoacoustique lineacuteaire (les variations de p sont petites par rapport agrave la pression atmospheacuterique) en supposant que lrsquoair est un fluide parfait (on y neacutegligera les pheacutenomegravenes dissipatifs) Dans une reacutegion de lrsquoespace ne comprenant pas de sources lrsquoeacutequation drsquoonde srsquoeacutecrit alors

0)(12

2

2 =⎟⎟⎠

⎞⎜⎜⎝

⎛partpart

minus∆ trptc

r (A2)

p eacutetant la pression et c la vitesse de propagation du son dans lrsquoair

Cette eacutequation devient dans le domaine freacutequentiel lrsquoeacutequation de Helmholtz

( ) 0)(2 =+∆ ωrpk r (A3)

ck ω

= eacutetant le nombre drsquoonde

En coordonneacutees spheacuteriques cette eacutequation srsquoeacutecrit

0sin1sin

sin11 2

2

2

222

2 =⎥⎦

⎤⎢⎣

⎡+

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart pk

rrrr

rr δθθθ

θθ (A4)

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques Drsquoapregraves [Bruneau 1983] elle admet des solutions agrave variables seacutepareacutees de la forme

)()()( δθ ΦΘ= rRp (A5) Ces solutions sont respectivement - pour la partie radiale une combinaison des fonctions de Bessel spheacuteriques de

premiegravere et seconde espegravece3 jn et nn

)()()( krBnkrAjrR nn += (A6) 3 Les fonctions de Bessel spheacuteriques de seconde espegravece sont eacutegalement appeleacutees fonctions de

Neumann

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 47

Ces fonctions sont deacutefinies comme suit

(A7)

Figure A2 - Fonctions de Bessel spheacuteriques pour les ordres 0 agrave 5 )(krjm

- pour la partie azimutale les fonctions )(θΘ

)sin()cos()( 21 θθθ ncnc +=Θ (A8) Eacutetant donneacute la deacutefinition de lrsquoangle Θ celui-ci doit neacutecessairement ecirctre de

peacuteriode 2π ))2()(( πθθ +Θ=Θ ce qui impose agrave n drsquoecirctre entier

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 48

- pour la partie polaire les fonctions de Legendre associeacutees )(sinδmnP

nm

nn

mn dPdP

)(sin)(sinsin)(sin

δδ

δδ = pour ⎩⎨⎧

gt=

nmavecnm 321

(A9)

ougrave les )(sinδnP sont les polynocircmes de Legendre de degreacute n en δsin deacutefinis par reacutecurrence

( )

11

22

1

0

sin)12()(sin)1(

1cos321)(sin

sin)(sin0)(sin

minus+ minus+=+

minus=

==

mmm mPPmPmet

P

PP

δδ

ϕδ

δδδ

(A10)

et de formule geacuteneacuterale

mm

m

mm dd

mP )1(sin

)(sin21)(sin 2 minus= δ

δδ (A11)

On peut appliquer aux fonctions )(sinδmnP la semi-normalisation de Schmidt

)(sin)()()(sin~ δεδ mnnmn P

nmnmP

+minus

= ougrave 10 =ε et 2=nε pour 1gen (A12)

En appariant les fonctions polaires et azimutales on deacutefinit les harmoniques

spheacuteriques de degreacute et drsquoordre)1(mnY 0gem 4 mnn lele0 et de degreacute et

drsquoordre (voir Figure A3)

)1(minusmnY 1gem

mnn lele1

)(sin~)sin()(

)(sin~)cos()()1(

)1(

δθδθ

δθδθ

mnmn

mnmn

PnY

PnY

=

=minus

(A13)

4 En geacuteneacuteral lorsque le degreacute et lrsquoordre ne sont pas eacutevoqueacutes conjointement on parle par abus de langage drsquoharmoniques drsquoordre m plutocirct que de degreacute m

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 49

soit

1)(sin

)()()12(2sin)(

)(sin)()()12(2cos)(

1)(sin)1()1()12(cos)(

)1(

)1(

1)1(

1

gt

⎪⎪⎩

⎪⎪⎨

+minus

+=

+minus

+=

=+minus

+=

minus

npourP

nmnmmnY

PnmnmmnY

npourPmmmY

mnmn

mnmn

mm

δθδθ

δθδθ

δθδθ

(A14)

La solution angulaire geacuteneacuterale srsquoeacutecrit alors sous la forme drsquoun deacuteveloppement sur

la base drsquoharmoniques spheacuteriques

( ) ( )sum minus

=minus+=Θ

1

1)1()1()( n

m mnmnmnmnn YBYBθ (A15) La solution geacuteneacuterale est alors la seacuterie de Fourier-Bessel

sum sum sum+infin

= = plusmn=

=0 0 1

)()( )()()(m

m

nmnmnm

m YBkrjikrpσ

σσ δθδθ (A16)

ougrave

intint⎪⎩

⎪⎨⎧

minusisin

isin

plusmnplusmn =

]2

2

[

[20[

)1()1( )()1()(

1

ππδ

πθ

δθδθ

S

mnm

mmn dSYpkrji

B (A17)

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 50

Tableau A1 - Expressions analytiques des harmoniques spheacuteriques pour les ordres 0 agrave 3

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 51

Figure A3 - Repreacutesentation des harmoniques spheacuteriques pour les ordres m = 0 agrave 3 Les

couleurs rouge et bleu indiquent respectivement des valeurs positives et neacutegatives

53

Annexe B

Compleacutements theacuteoriques sur le deacutecodage HOA

B1 Vecteur veacutelociteacute et vecteur eacutenergie Le vecteur veacutelociteacute est un indice de la direction apparente drsquoune source introduit

par Gerzon [Gerzon 1992] Il se calcule comme le rapport de la vitesse particulaire sur la pression acoustique

)()(

)()(1

δθδθ

δθδθ

ρ rprp

ki

rprv

cV nabla

minus=minus=rrr

(B1)

Dans le cas drsquoune onde plane le vecteur veacutelociteacute V

rest ainsi directement un

vecteur unitaire orienteacute vers la direction de provenance de lrsquoonde En geacuteneacuteralisant agrave une superposition drsquoondes planes en phase ou opposition de phase eacutemises par L haut-parleurs agrave eacutequidistance du point drsquoobservation on obtient la formule suivante

VVL

ll

L

lll

urg

ugV r

rr

==

sum

sum

=

=

1

1 (B2)

ougrave deacutesigne la direction du llur egraveme haut-parleur auquel est associeacute le gain gl et Vr Vur correspondent respectivement agrave la norme et agrave la direction du vecteur veacutelociteacute

Le vecteur eacutenergie est un autre indice de direction Il est deacutefinit par

EEL

ll

L

lll

urg

ugE r

rr

==

sum

sum

=

=

1

2

1

2

(B3)

Annexe B Compleacutements theacuteoriques sur le deacutecodage HOA 54

Il peut srsquointerpreacuteter comme une indication de la concentration de lrsquoeacutenergie ( ) et de sa direction moyenne de provenance (

Er

Eur ) On a toujours 1ltEr sauf dans le cas ougrave un seul haut-parleur contribue agrave la reconstruction (dans ce cas ) peut ecirctre consideacutereacute comme un indicateur de preacutecision de la localisation

1=Er Er

B2 Deacutecodages optimiseacutes La restitution la plus confortable drsquoun champ sonore veillera donc agrave maximiser

tout en essayant de garder le plus proche possible de 1 Lrsquooptimisation du deacutecodage consiste alors agrave multiplier chaque coefficient de la matrice de deacutecodage D (voir (111) par des gains calculeacutes drsquoapregraves des critegraveres drsquooptimisation

Er Vr

Ainsi le deacutecodage appeleacute max- maximise la norme du vecteur eacutenergie en

sacrifiant celle du vecteur veacutelociteacute puisqursquoon a dans ce deacutecodage (pour des configurations reacuteguliegraveres de haut-parleurs) Ce deacutecodage est donc avantageux par rapport au deacutecodage basique pour les hautes freacutequences ou dans le cas drsquoun auditoire eacutelargi Le deacutecodage in-phase va encore plus loin en cherchant agrave annuler complegravetement les contributions des haut-parleurs placeacutes agrave lrsquoopposeacute de la direction de provenance de lrsquoonde reproduite Ce critegravere est utile dans le cas drsquoune eacutecoute dans une position tregraves excentreacutee agrave laquelle on pourrait percevoir de faccedilon preacutedominante la contribution en opposition de phase drsquoun tel haut-parleur

Er

EV rr =

Ces diffeacuterents deacutecodages ont chacun des avantages et inconveacutenients Ainsi seul le

deacutecodage basique garantit = 1 le deacutecodage max- permet une preacutecision meilleure notamment en haute freacutequence et le deacutecodage in-phase est plus adapteacute agrave un auditoire plus large Jeacuterocircme Daniel [Daniel 2000] propose ainsi de changer le deacutecodage en fonction de la freacutequence et de lrsquoeacutetendue de la zone drsquoeacutecoute deacutesireacutee

Vr Er

Figure B1 - Deacutecodages les plus approprieacutes par sous-bande et en fonction de lrsquoeacutetendue de la

zone drsquoeacutecoute [Daniel 2000]

55

Annexe C

Analyse en composantes principales

C1 Espace des donneacutees Eacutegalement souvent appeleacutee transformeacutee de Karhunen-Loegraveve5 (TKL) lrsquoanalyse en

composantes principales (ACP) est une technique statistique de repreacutesentation drsquoinformation Introduite sur 2 variables par Pearson [Pearson 1900] elle a eacuteteacute eacutetendue par Hotelling [Hotelling 1933] Elle a pour but de caracteacuteriser des donneacutees drsquoun espace agrave N dimensions dans un sous-espace plus petit en minimisant les pertes drsquoinformation due agrave la projection crsquoest-agrave-dire en maximisant la variance projeteacutee Les donneacutees ainsi reacuteorganiseacutees deviennent indeacutependantes Les variables correacuteleacutees sont remplaceacutees par de nouvelles variables deacutecorreacuteleacutees et de variance maximale combinaisons lineacuteaires des variables initiales

Les donneacutees sont constitueacutees de n variables aleacuteatoires (dans notre cas des canaux)

et p reacutealisations ou individus (des eacutechantillons)

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

pn

p

ji

n

xx

x

xx

M

LLL

MOMNM

MLLM

MNMOM

LLL

1

111

(C1)

Ces donneacutees sont geacuteneacuteralement centreacutees et peuvent aussi ecirctre reacuteduites4 (on note

1x la moyenne de la variable et 1x )( 1xσ sa variance) Reacuteduire ou non le nuage de points (ie les p reacutealisations de la variable aleacuteatoire) est un choix de modegravele

5 Quelques rares sources mentionnent une diffeacuterence entre ACP et TKL en placcedilant celle-ci au

niveau du choix de la reacuteduction des donneacutees dans le cas dune ACP les donneacutees seraient centreacutees et reacuteduites alors qursquoelles seraient uniquement centreacutees pour une TKL

Annexe C Analyse en composantes principales 56

- si on ne reacuteduit pas le nuage une variable agrave forte variance pourrait tirer tout lrsquoeffet de lrsquoACP agrave elle

- si on reacuteduit le nuage une variable qui ne serait qursquoun bruit se retrouverait avec une variance apparente eacutegale agrave une variable informative

M est centreacutee

⎥⎥⎥

⎢⎢⎢

minusminusminus

minusminus=

npn

pi

ji

nn

xxxxxx

xxxxM

K

MM

K

11

11

11

ˆ (C2)

M~ est centreacutee et reacuteduite

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

minusminus

minus

minusminus

=

)()(

)(

)()(~

1

11

1

1

111

n

npn

pi

ij

i

n

nn

xxx

xxx

xxx

xxx

xxx

M

σσ

σ

σσ

K

MM

K

(C3)

On multiplie ensuite la matrice obtenue par sa transposeacutee pour obtenir - La matrice de covariance MMC t

vˆˆ sdot=

- La matrice de correacutelation MMC tr

~~ sdot= Ces matrices sont carreacutees (N x N) symeacutetriques et reacuteelles Elles sont donc

diagonalisables dans une base orthonormeacutee 6 Le principe de lrsquoACP est alors de trouver un axe u issu drsquoune combinaison lineacuteaire

des tel que le critegravere drsquoinertie du nuage autour de cet axe soit maximal Le critegravere drsquoinertie couramment utiliseacute est la variance Il faut donc trouver lrsquoaxe qui porte le maximum de variance crsquoest-agrave-dire lrsquoaxe u tel que la projection du nuage sur cet axe ait une variance maximale

nx

6 Nos donneacutees eacutetant ici des valeurs drsquoeacutechantillons elles sont par nature centreacutees et reacuteduites On

formera donc naturellement la matrice de correacutelation

C2 Diagonalisation 57

C2 Diagonalisation Pour alleacuteger lrsquoeacutecriture de la suite de cette partie nous consideacutererons que les

variables ont eacuteteacute centreacutees et si besoin reacuteduites et nous noterons ces variables

transformeacutees (ainsi

ix ix

iii xxx minuslarr ou bien )( i

iii x

xxxσ

minuslarr ) On fera de mecircme pour M

( ou bien MM ˆlarr MM ~larr ) et C ( vCC larr ou bien rCC larr ) La projection drsquoun eacutechantillon sur un axe u srsquoeacutecrit ix

uMxiu sdot=)(π (C4) La variance empirique de )( iu xπ vaut donc

uMMuxx ttiu

tiu sdotsdotsdot=sdot )()( ππ (C5)

Or on a vu que est diagonalisable dans une base orthonormeacutee donc

on peut noter P le changement de base associeacute et ∆ la matrice diagonale formeacutee de son spectre Ainsi

MMC t=

n

i 1)(λ PPMMC tt ∆==

)()()()( PuPuuPPuxx ttt

iut

iu sdot∆sdot=sdot∆sdot=sdotππ (C6) On pose v = Pu Chercher lrsquoaxe u qui maximise )( iu xπ revient donc agrave chercher le

vecteur v qui maximise ougravevvt ∆ )( 1 ndiag λλ K=∆ avec les iλ rangeacutes par ordre deacutecroissant Ce vecteur est trivialement le premier vecteur unitaire et on a alors

1λ=∆vvt

Ainsi le vecteur qui porte la plus grande part drsquoinertie du nuage est le premier

vecteur propre de C (premier par norme deacutecroissante) De mecircme le deuxiegraveme vecteur qui explique la plus grandelt part de lrsquoinertie restante est le deuxiegraveme vecteur propre de C Finalement la question de lrsquoACP se ramegravene agrave un problegraveme de diagonalisation de la matrice de correacutelation

C3 Code Matlab

function [vep vap] = pca(f N) f donneacutees N nombre de composantes agrave garder cor = f f formation de la matrice de correacutelation [vep vap] = eig(cor) calcul des vecteurs (vep) et valeurs (vap) propres [vap ind] = sort(diag(vap)) tri des valeurs propres par ordre croissant vap = flipud(vap) disposition inverse par ordre drsquoimportance vep = vep( flipud(ind)) classement en conseacutequence des vecteurs propres vep = vep( 1N) on ne garde que les N premiers vecteurs propres

Annexe C Analyse en composantes principales 58

59

Annexe D

Analyse en sous-bandes

D1 La transformeacutee de Fourier agrave court terme (TFCT) Pour affiner lrsquoanalyse les signaux sont donc deacutecoupeacutes en bandes de freacutequence par

TFCT La TFCT consiste agrave effectuer des transformeacutees de Fourier discregravetes sur des portions de signal fenecirctreacutees reacuteguliegraverement espaceacutees

On rappelle que la transformeacutee de Fourier drsquoun signal x(t) est deacutefinie (lorsque

lrsquointeacutegrale existe) par

int+infin

infinminus

minus= dtetxfX ftiπ2)()( (D1)

La transformeacutee de Fourier agrave temps discret (TFTD) drsquoun signal x(t) srsquoeacutecrit

sum+infin

minusinfin=

minus=n

fnienxfX π2)()( (D2)

La transformeacutee de Fourier discregravete (TFD) drsquoun signal discret x(k) est deacutefinie par

sum+infin

minusinfin=

minus=

n

Nkni

enxkXπ2

)()( (D3)

La TFCT discregravete est une TFD observeacutee sur une fenecirctre wa de taille N

summinus

=

minus+=

1

0

2)())(()(

N

n

Nnki

aaa enwtnxkXπ

ττ (D4)

ougrave )(taτ est lrsquoinstant drsquoanalyse

Annexe D Analyse en sous-bandes 60

Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT [Laroche 1995]

D2 Synthegravese par addition-recouvrement Lors de la synthegravese apregraves le deacutecoupage et lrsquoanalyse des fenecirctres on cherche agrave

reconstruire le signal temporel agrave partir de sa repreacutesentation freacutequentielle Pour cela on utilise la meacutethode OLA (overlap and add addition-recouvrement) qui consiste agrave prendre la TFCT inverse des spectres Xt puis agrave additionner les signaux obtenus apregraves les avoir multiplieacutes par une fenecirctre de pondeacuteration en les faisant se recouvrir partiellement

Le reacutesultat est donneacute par

sum=

minusminus=T

tsss tnxtnwnx

s1

))((~))(()(~ ττ τ (D5)

avec )()( tt as ττ = et summinus

=

=1

0

2))((~1)(~ N

k

Nkni

s ektXN

nxs

π

τ τ

Lors de la mise en œuvre de ce traitement il faut srsquoassurer drsquoecirctre en mesure de

reconstruire parfaitement un signal lorsqursquoaucune transformation ne lui est appliqueacutee Le critegravere de reconstruction parfaite condition suffisante est alors

sum=

=minusminusT

tasaa tnwtnw

11))(())(( ττ quelque soit n (D6)

D2 Synthegravese par addition-recouvrement 61

Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add [Laroche 1995]

Plusieurs paramegravetres sont agrave choisir avec soin Le premier drsquoentre eux est le type

de fenecirctre agrave utiliser Les diffeacuterentes options qui se preacutesentent agrave nous sont - la fenecirctre rectangulaire qui preacutesente dans son spectre le lobe principal le plus

eacutetroit mais des lobes secondaires non neacutegligeables - la fenecirctre de Hamming au lobe principal un peu plus large mais pour laquelle le

1er lobe secondaire se situe agrave -43 dB - la fenecirctre de Hann (ou cosinus sureacuteleveacute) qui ressemble agrave la preacuteceacutedente avec un

1er lobe secondaire plus fort mais une pente de 18 dB par octave pour les lobes suivants

- les fenecirctres de Blackman-Harris aux lobes secondaires tregraves bas mais au lobe principal plus large

Fenecirctre Lobe 2aire

(dB) Pente

(dBoct) Bande passante

agrave 6 dB (bins) Rectangulaire -13 -6 121 Triangulaire -27 -12 178

Hann -32 -18 200 Hamming -43 -6 181

Blackman-Harris 4 -92 -6 272

Tableau D1 - Caracteacuteristiques des principales fenecirctres drsquoanalyse [Harris 1978] Le meilleur compromis est donc dans notre contexte la fenecirctre de Hann ou celle

de Hamming

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 39: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

41 Illustration et critique des reacutesultats obtenus 33

On peut remarquer que quand le son mobile se rapproche drsquoun son fixe la deacutetection est moins bonne il y a une fusion entre les 2 sons Mais encore une fois lors de lrsquoextraction lrsquoisolation drsquoun des sons englobera lrsquoautre son ce qui ne posera pas de problegraveme pour les objectifs fixeacutes aucune source nrsquoeacutetant oublieacutee En effet la seacuteparation de sources nrsquoest pas un objectif ici mais un moyen pour preacuteciser les positions des sources ce qui sera fait correctement mecircme si 2 sources sont pointeacutees par 1 seule direction

414 Scegravene 3D artificielle agrave une source et bruit de fond

La scegravene dont la position drsquoune source a eacuteteacute extraite ci-dessous est une scegravene virtuelle en 3D constitueacute drsquoun son (une voix) qursquoon a fait se deacuteplacer par paliers tout drsquoabord vers le haut de 0deg agrave 45deg et vers la gauche de 0deg agrave 90deg puis redescendre jusqursquoagrave 35deg en continuant son cheminement vers la gauche jusqursquoagrave 120deg et enfin finir la descente de 35deg agrave 0deg en la laissant agrave 120deg Agrave cette source a eacuteteacute superposeacutee une ambiance spatialiseacutee de hall drsquoaeacuteroport initialement enregistreacutee en 2D (au format 51) mais transformeacutee pour contenir des composantes verticales Cette ambiance deacutecorreleacutee de la source avait pour but de tester la robustesse de lrsquoanalyse Elle eacutetait agrave 15 dB en-dessous du niveau de la voix

Figure 43 - Azimut et eacuteleacutevation theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun

son en 3D artificiel de 9s placeacute dans une ambiance bruyante On remarque que lrsquoanalyse est tregraves correcte Il nrsquoy a pas drsquoeacutecart important entre

les angles theacuteoriques et ceux calculeacutes On note toutefois que le lissage agrave lrsquoentreacutee des k-moyennes a pour effet de gommer les creacuteneaux et drsquoaplatir quelque peu la courbe drsquoeacuteleacutevation ceci nrsquoest pas vraiment gecircnant car de tels sauts dans la position drsquoune source ne sont pas du tout reacutealistes (ils peuvent caracteacuteriser des bruits de pas mais de tels impacts sont courts et on peut srsquoattendre agrave ce que la courbe suive leur position aux instants ougrave ils sont eacutemis)

Chapitre 4 Reacutesultats et applications 34

415 Scegravene 2D naturelle agrave une source Les scegravenes naturelles sont on lrsquoa vu plus deacutelicates agrave exploiter car on ne peut pas

garantir la preacutecision de la position theacuteorique agrave retrouver par le calcul et on ne peut donc pas calculer la preacutecision de lrsquoanalyse Seuls les enregistrements utilisant la table tournante (voir 232) permettent une mesure preacutecise de la position de lrsquoangle Ces enregistrements on pu confirmer la validiteacute de lrsquoanalyse pour des scegravenes reacuteelles on trouve ici un eacutecart-type de 25deg

Figure 44 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun bruit blanc

tournant autour du micro enregistreacute en chambre sourde Cette analyse a eacuteteacute reacutealiseacutee par sous-bandes mais sur une eacutetendue freacutequentielle

plus reacuteduite puisqursquoon srsquoest limiteacute aux possibiliteacutes offertes par le microphone La scegravene a donc eacuteteacute analyseacutee de 200 agrave 10 000 Hz

42 Quelques applications

421 Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre 2 agrave partir de lrsquoordre 1

Une fois les positions des sources connues la porte est ouverte agrave de nombreuses

applications La connaissance de ces positions permet en effet de syntheacutetiser artificiellement des composantes manquantes ou non transmises La premiegravere synthegravese deacuteveloppeacutee est celle des signaux U et V composant la partie horizontale de lrsquoordre 2 agrave partir de lrsquoordre 1 et de paramegravetres issus de lrsquoanalyse pour une source en 2D (des angles dans de cas)

42 Quelques applications 35

Figure 45 - Principe de lrsquoameacutelioration de la preacutecision spatiale

Le principe de la synthegravese est drsquoextraire les sources originales agrave partir de W X Y

et des angles (un angle par trame et par sous-bande) Ceci peut ecirctre reacutealiseacute de maniegravere approcheacutee en deacutecodant lrsquoordre 1 dans les directions des sources Ce deacutecodage revient agrave calculer les signaux qui devraient alimenter des haut-parleurs qui seraient placeacutes agrave ces positions dans le cas drsquoune restitution (voir 122) crsquoest-agrave-dire agrave former des directiviteacutes dans les directions des sources Dans la plupart des cas ce deacutecodage qui fait intervenir une pseudo-inversion de Moore-Penrose (111) est imparfait les sources se retrouvant leacutegegraverement meacutelangeacutees On peut comparer cette seacuteparation agrave celle que ferait un ensemble de microphones agrave directiviteacute hypercardioiumlde coiumlncidents

Figure 46 - Directiviteacutes eacutequivalentes agrave la seacuteparation de 4 sources agrave lrsquoordre 1 Ces sources seacutepareacutees vont ensuite constituer toujours placeacutees aux angles

deacutetermineacutes agrave lrsquoanalyse une scegravene virtuelle qursquoon va encoder agrave lrsquoordre 2 De cet encodage on ne conservera que les signaux manquants dans notre exemple les signaux du 2nd ordre U et V Ainsi la scegravene spatialiseacutee sera au final constitueacutee des signaux W X et Y drsquoorigine (transmis) et des signaux U et V syntheacutetiseacutes

Chapitre 4 Reacutesultats et applications 36

422 Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave partir de W Reconstruire une scegravene sonore spatialiseacutee agrave partir drsquoun unique canal mono est

alors difficile et le reacutesultat nrsquoest appreacuteciable que pour des scegravenes simples Il faut pour cela que les diffeacuterentes sources composant cette scegravene aient des supports spectraux aussi distincts que possible Les diffeacuterentes sous-bandes sont alors placeacutees agrave un certain angle transmis en parallegravele et crsquoest cette scegravene reconstitueacutee qui va ecirctre encodeacutee au 1er ordre de maniegravere agrave recreacuteer les signaux X et Y

Figure 47 - Principe de la restitution de lrsquoordre 1 agrave partir du signal mono W Ce scheacutema rappelle une meacutethode deacuteveloppeacutee dans le cas steacutereacuteo appeleacutee BCC

(Binaural Cue Coding) [Faller and Baumgarte 2002] Le principe est drsquoextraire et coder des informations permettant la reconstruction binaurale drsquoun signal agrave savoir les diffeacuterences interaurales drsquointensiteacute et de temps (Interaural LevelTime Difference ILD et ITD) qui correspondent dans le cas drsquoune restitution sur un casque aux diffeacuterences drsquointensiteacute et de temps inter-canal (Inter-Channel LevelTime Difference ICLD et ICTD) qui sont mesureacutees agrave partir drsquoune analyse en sous-bandes Les auteurs y ont plus reacutecemment associeacute un indice de correacutelation interaurale mesureacute agrave partir de la correacutelation inter-canal (ICC) afin de caracteacuteriser la preacutecision spatiale (la ldquolargeurrdquo drsquoune source)

Figure 48 - Scheacutema de principe de la meacutethode BCC [Faller and Baumgarte 2003]

On observe en pratique des deacutefauts lieacutes agrave la brutaliteacute de la proceacutedure une sous-

bande ne peut ecirctre que placeacutee agrave la position indiqueacutee et ne peut pas rester floue diffuse ou encore ecirctre placeacutee agrave plusieurs endroits Pour y remeacutedier nous avons ajouteacute 2 traitements agrave la synthegravese Tour drsquoabord nous avons appliqueacute un leacuteger lissage soulageant les effets deacutesagreacuteables dus au saut du contenu drsquoune sous-bande drsquoun endroit agrave un autre entre de 2 fenecirctres conseacutecutives Les positions varient alors de faccedilon plus souple au sein drsquoune mecircme sous-bande traduisant une hypothegravese de continuiteacute spatiale (pas de deacuteplacement brusque) La contrepartie est que cette hypothegravese est lieacutee agrave une hypothegravese de continuiteacute spectrale

42 Quelques applications 37

La 2egraveme ameacutelioration concerne le positionnement des sources En incluant dans la transmission un critegravere de pertinence on peut savoir srsquoil est raisonnable de placer une sous-bande agrave un angle preacutecis ou bien si lrsquoanalyse eacutetait flou agrave son sujet auquel cas un positionnement impreacutecis serait preacutefeacuterable Le paramegravetre choisi est une combinaison des critegraveres eacutevoqueacutes en 342 il nous permet de placer la sous-bande de maniegravere plus ou moins prononceacutee

43 Comparaison avec une meacutethode existante Certains auteurs ont deacutejagrave essayeacute drsquoanalyser un contenu ambisonique pour

retrouver les positions des sources Ville Pulkki a ainsi deacutecrit dans [Pulkki and Faller 2006] une meacutethode drsquoanalyse du B-format baseacutee sur lrsquoeacutetude des amplitudes des signaux W X Y et Z

Figure 49 - X et Y dans le cas drsquoune sinusoiumlde placeacutee agrave 15deg (agrave gauche) et 120deg (agrave droite)

Les figures ci-dessus montrent les relations drsquoamplitudes (algeacutebriques) qui relient

X et Y agrave lrsquoangle de la source On voit que lrsquoanalyse de ces amplitudes respectives permet de retrouver la position de la source en effet on a pour une source unique les relations de lrsquoeacutequation (11) rappeleacutee ici

⎪⎪

⎪⎪

=

=

=

=

δ

δθ

δθ

sin2

cossin2

coscos2

SZ

SY

SX

SW

(41)

On peut donc theacuteoriquement retrouver les valeurs de θ et δ par relations

trigonomeacutetriques Ainsi on a

⎪⎪⎩

⎪⎪⎨

=

=

2)sin(

)tan(

WZ

XY

δ

θ (42)

Chapitre 4 Reacutesultats et applications 38

On peut donc trouver les angles θ et δ agrave π pregraves Pour lever lrsquoambiguiumlteacute une eacutetude de signe est neacutecessaire Mais dans le cas de θ le signe de X et de Y agrave δ fixeacute deacutepend aussi bien de θ que S Il faut srsquointeacuteresser aux signes de θcos et θsin crsquoest-agrave-dire

aux signes de WX et

WY Dans la pratique on srsquointeacuteressera aux signes de et

pour se preacutevenir des divisions par zeacuteros

XW sdot YW sdot

XW sdot et YW sdot sont proportionnels agrave toujours positif

2S

Les auteurs deacutecrivent eacutegalement dans leur article un critegravere appeleacute diffuseness qui

peut ecirctre compareacute agrave un critegravere de pertinence inverseacute Ce paramegravetre calculeacute par agrave 1 - R ougrave R est un rapport de normes est tregraves proche du critegravere de norme relative deacutecrit en 342 Il peut donc ecirctre utiliseacute de la mecircme faccedilon et permettre ainsi une pleine comparaison

Cette meacutethode a eacuteteacute impleacutementeacutee pour pouvoir ecirctre compareacutee avec la meacutethode

par ACP Tous les paramegravetres ont scrupuleusement eacuteteacute gardeacutes identiques et plusieurs reacuteglages ont eacuteteacute testeacutes Les courbes ci-dessous preacutesentent les reacutesultats des analyses de la scegravene deacutecrite en 332 avec un pas de 50ms un overlap de 50 un NFFT de 2048 et 40 bandes freacutequentielles Nous avons repreacutesenteacute tous les angles trouveacutes crsquoest-agrave-dire un par bande et par trame pour srsquoaffranchir de la seacutelection des k-moyennes

π

0

minusπ

Figure 410 - Angles trouveacutes par lrsquoalgorithme de [Pulkki and Faller 2006] Le diamegravetre du point correspondant agrave la pertinence

43 Comparaison avec une meacutethode existante 39

π

0

minusπ

Figure 411 - Angles trouveacutes par une ACP pour la mecircme scegravene On remarque que les points excentriques sont moins nombreux et plus rarement trouveacutes comme pertinents

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee

441 Position du problegraveme

Une application directe de ces analyses a eacuteteacute deacuteveloppeacutee pour la confeacuterence audio

spatialiseacutee La confeacuterence audio utilise en effet la spatialisation pour permettre une meilleure seacuteparation par lrsquooreille des diffeacuterents locuteurs Ainsi si plusieurs personnes parlent en mecircme temps il sera tregraves difficile de comprendre chacun individuellement si ces voix sont restitueacutees en mono mais on pourra focaliser lrsquoattention sur chacune drsquoentre elles si elles sont seacutepareacutees spatialement (crsquoest lrsquoeffet cocktail party [Cherry 1953])

Lrsquoobjectif eacutetait de veacuterifier qursquoil eacutetait possible de conserver la spatialisation drsquoune

confeacuterence en nrsquoayant transmis qursquoun downmix mono des signaux Ce concept semble se rapprocher de celui deacutecrit en 422 mais une diffeacuterence fondamentale les seacutepare la confeacuterence audio spatialiseacutee nrsquoest pas codeacutee au format ambisonic mais les signaux traiteacutes sont directement les sons provenant des diffeacuterents locuteurs crsquoest-agrave-dire les sources elles-mecircmes Ainsi lrsquoanalyse ne porte plus sur une scegravene spatialiseacutee mais sur des signaux seacutepareacutes Il nrsquoy a ainsi plus drsquoindices spatiaux agrave trouver

Avoir accegraves aux sources permet drsquoobtenir des informations plus preacutecises pour

permettre une seacuteparation apregraves la transmission Comme nous lrsquoavons vu lrsquoanalyse drsquoune scegravene spatialiseacutee ne permet que dans drsquoultimes cas agrave la seacuteparation des sources ce qui est ici notre point de deacutepart et sera en fait notre point drsquoarriveacutee En effet nous tenterons de retrouver les sources seacutepareacutees apregraves la transmission de maniegravere agrave pouvoir par la suite les spatialiser agrave loisir (voir Figure 413)

Chapitre 4 Reacutesultats et applications 40

442 Solution proposeacutee Les paramegravetres extraits ne sont donc plus des positions de sources Nous avons

choisi de mesurer puis transmettre lrsquoeacutenergie de chaque signal dans chaque sous-bande en parallegravele du downmix En effet une bonne seacuteparation sera possible si lrsquoon sait quelle proportion de chaque source compose chaque sous-bande du signal mono

Figure 412 - Scheacutema de principe drsquoune confeacuterence audio spatialiseacutee

Figure 413 - Scheacutema ameacutelioreacute (deacutebit reacuteduit)

en pointilleacutes informations compleacutementaires (eacutenergie) Lrsquoanalyse en sous-bandes a lieu dans le serveur (Figure 414) Celui-ci calcule

lrsquoeacutenergie de chaque signal dans chaque sous-bande sur une trame donneacutee Crsquoest ce paramegravetre qui associeacute au signal mono M permettra la seacuteparation des sources dans le terminal (Figure 415) Ce dernier reacutepartira en effet les diffeacuterentes sous-bandes vers chaque signal reconstitueacute proportionnellement agrave cette information pour reconstruire les 4 sources originales

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee 41

Figure 414 - Analyse principe de lrsquoencodage dans le serveur

Figure 415 - Synthegravese principe du deacutecodage dans le client

Afin de reacuteduire au maximum les informations compleacutementaires agrave transmettre on

peut remarquer qursquoau cours drsquoune confeacuterence audio on a tregraves souvent un seul locuteur les participants ne parlent que tregraves rarement tous en mecircme temps Ceci implique que les signaux en entreacutee sont tregraves souvent tous nuls sauf 1 et appliquer un seuil en entreacutee de lrsquoanalyse permet outre lrsquoallegravegement du traitement drsquoavoir moins de paramegravetres agrave transmettre

Ce scheacutema simplifieacute ne tient pas compte des problegravemes de phase rien nrsquoindique

que les eacutenergies des signaux srsquoajoutent bien dans chaque sous-bande lors du downmix on peut tregraves bien avoir des oppositions de phase La solution est drsquoeffectuer le downmix (la somme) des signaux dans chaque sous-bande en prenant soin drsquoavoir recaleacute les phases au preacutealable Ceci nrsquoa un sens que pour des bandes suffisamment eacutetroites Les deacutecalages temporels appliqueacutes pour le recalage sont alors des paramegravetres suppleacutementaires agrave transmettre et sont pris en compte lors de la synthegravese au niveau du reacutepartiteur qui repositionnera la phase de chaque trame pour chaque signal

Chapitre 4 Reacutesultats et applications 42

443 Bilan Le reacutesultat du deacutecodage a pu ecirctre eacutecouteacute de diffeacuterentes maniegraveres les sources

reconstitueacutees individuellement ensemble en steacutereacuteo drsquoamplitude et sur un systegraveme 51 On note que les sources ont eacuteteacute assez bien seacutepareacutees mais que des artefacts sont audibles en particulier lorsque le nombre de locuteurs simultaneacutes augmentent Ces artefacts sont un meacutelange des voix qui nrsquoest gecircnant que lorsqursquoon les eacutecoute de maniegravere seacutepareacutee En effet lrsquoeacutecoute simultaneacutee de ces signaux syntheacutetiseacutes mecircme placeacutes agrave des positions distinctes sur un systegraveme de diffusion multicanal est tout agrave fait satisfaisante

Ce proceacutedeacute pour pouvoir ecirctre appliqueacute doit fonctionner en temps-reacuteel Cette

contrainte nrsquoa pas du tout eacuteteacute prise en compte lrsquoobjectif eacutetant de valider la faisabiliteacute drsquoune reconstruction Les programmes sous Matlab nrsquoont pas eacuteteacute optimiseacutes et ne respectent pas cette contrainte

43

Conclusion Nous avons preacutesenteacute dans ce rapport le principe et lrsquoapplication de plusieurs

meacutethodes drsquoanalyses spatiales de scegravenes ambisoniques conccedilues et reacutealiseacutee pendant le stage Le format HOA est en effet une repreacutesentation du champ acoustique deacutecomposeacute sur une base drsquoharmoniques spheacuteriques jusqursquoagrave un certain ordre agrave la maniegravere drsquoun deacuteveloppement limiteacute Il contient donc de maniegravere indirecte des indications spatiales qursquoon peut extraire avec des analyses comme lrsquoanalyse en composantes principales

Ces analyses nous permettent de deacuteterminer les positions des sources qui

composent la scegravene sonore Nous avons appliqueacute les reacutesultats de ces analyses agrave 2 types de synthegravese lrsquoune destineacutee aux transmissions bas deacutebit lrsquoautre agrave un traitement de restitution de la preacutecision spatiale dans le cas ougrave des ordres supeacuterieurs dont le but est drsquoaffiner la perception de localisation nrsquoauraient pas pu ecirctre transmis Ces algorithmes par le codage drsquoinformations spatiales qursquoils permettent pourront trouver bien drsquoautres applications dans la transmission et le codage ougrave la description du contenu est de plus en plus utiliseacutee (comme par exemple dans la norme MPEG)

Des ameacuteliorations sont possibles sur plusieurs points tout drsquoabord lrsquoexploitation

de toutes les composantes de lrsquoACP est agrave lrsquoeacutetude et semble pouvoir donner des reacutesultats inteacuteressants Drsquoautre part on a vu que le reacutesultat final est tregraves deacutependant de la bonne convergence de lrsquoalgorithme des k-moyennes utiliseacute pour traiter les donneacutees brutes de lrsquoanalyse en sous-bandes Or cet algorithme neacutecessite des reacuteglages tregraves fins et une connaissance a priori du nombre de sources est presque indispensable Drsquoautres algorithmes plus complexes de suivi de formes pourraient ecirctre avantageusement utiliseacutes pour deacutetecter dans tous les angles trouveacutes lesquels sont susceptibles de former une trajectoire

45

Annexe A

Deacuteveloppement du champ acoustique en harmoniques spheacuteriques

A1 Eacutequation drsquoonde en coordonneacutees spheacuteriques On se place dans lrsquoespace euclidien agrave 3 dimensions muni drsquoun systegraveme de

coordonneacutees spheacuteriques Un point M y est repeacutereacute par son rayon r son azimut θ et son eacuteleacutevation δ tels que repreacutesenteacutes sur la figure ci-dessous

- r est la norme du vecteur position rr crsquoest-agrave-dire la distance OM - [20[ πθ isin est lrsquoangle formeacute par le projeteacute du point sur le plan xOy et lrsquoaxe Ox

- ]2

2

[ ππδ minusisin est lrsquoangle formeacute par le plan xOy et le vecteur position2

Figure A1 - Systegraveme de coordonneacutees spheacuteriques

2 Cet angle diffegravere de lrsquoangle polaire usuel δπϕ minus=

2 habituellement pris entre lrsquoaxe Oz et le

vecteur position

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 46

Les relations entre les coordonneacutees spheacuteriques et les coordonneacutees carteacutesiennes sont

⎪⎩

⎪⎨

===

δδθδθ

sincossincoscos

zryrx

(A1)

On srsquointeacuteresse dans ce repegravere agrave lrsquoeacutequation de propagation des ondes acoustiques

de pression On se place dans les conditions classiques drsquoacoustique lineacuteaire (les variations de p sont petites par rapport agrave la pression atmospheacuterique) en supposant que lrsquoair est un fluide parfait (on y neacutegligera les pheacutenomegravenes dissipatifs) Dans une reacutegion de lrsquoespace ne comprenant pas de sources lrsquoeacutequation drsquoonde srsquoeacutecrit alors

0)(12

2

2 =⎟⎟⎠

⎞⎜⎜⎝

⎛partpart

minus∆ trptc

r (A2)

p eacutetant la pression et c la vitesse de propagation du son dans lrsquoair

Cette eacutequation devient dans le domaine freacutequentiel lrsquoeacutequation de Helmholtz

( ) 0)(2 =+∆ ωrpk r (A3)

ck ω

= eacutetant le nombre drsquoonde

En coordonneacutees spheacuteriques cette eacutequation srsquoeacutecrit

0sin1sin

sin11 2

2

2

222

2 =⎥⎦

⎤⎢⎣

⎡+

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart pk

rrrr

rr δθθθ

θθ (A4)

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques Drsquoapregraves [Bruneau 1983] elle admet des solutions agrave variables seacutepareacutees de la forme

)()()( δθ ΦΘ= rRp (A5) Ces solutions sont respectivement - pour la partie radiale une combinaison des fonctions de Bessel spheacuteriques de

premiegravere et seconde espegravece3 jn et nn

)()()( krBnkrAjrR nn += (A6) 3 Les fonctions de Bessel spheacuteriques de seconde espegravece sont eacutegalement appeleacutees fonctions de

Neumann

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 47

Ces fonctions sont deacutefinies comme suit

(A7)

Figure A2 - Fonctions de Bessel spheacuteriques pour les ordres 0 agrave 5 )(krjm

- pour la partie azimutale les fonctions )(θΘ

)sin()cos()( 21 θθθ ncnc +=Θ (A8) Eacutetant donneacute la deacutefinition de lrsquoangle Θ celui-ci doit neacutecessairement ecirctre de

peacuteriode 2π ))2()(( πθθ +Θ=Θ ce qui impose agrave n drsquoecirctre entier

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 48

- pour la partie polaire les fonctions de Legendre associeacutees )(sinδmnP

nm

nn

mn dPdP

)(sin)(sinsin)(sin

δδ

δδ = pour ⎩⎨⎧

gt=

nmavecnm 321

(A9)

ougrave les )(sinδnP sont les polynocircmes de Legendre de degreacute n en δsin deacutefinis par reacutecurrence

( )

11

22

1

0

sin)12()(sin)1(

1cos321)(sin

sin)(sin0)(sin

minus+ minus+=+

minus=

==

mmm mPPmPmet

P

PP

δδ

ϕδ

δδδ

(A10)

et de formule geacuteneacuterale

mm

m

mm dd

mP )1(sin

)(sin21)(sin 2 minus= δ

δδ (A11)

On peut appliquer aux fonctions )(sinδmnP la semi-normalisation de Schmidt

)(sin)()()(sin~ δεδ mnnmn P

nmnmP

+minus

= ougrave 10 =ε et 2=nε pour 1gen (A12)

En appariant les fonctions polaires et azimutales on deacutefinit les harmoniques

spheacuteriques de degreacute et drsquoordre)1(mnY 0gem 4 mnn lele0 et de degreacute et

drsquoordre (voir Figure A3)

)1(minusmnY 1gem

mnn lele1

)(sin~)sin()(

)(sin~)cos()()1(

)1(

δθδθ

δθδθ

mnmn

mnmn

PnY

PnY

=

=minus

(A13)

4 En geacuteneacuteral lorsque le degreacute et lrsquoordre ne sont pas eacutevoqueacutes conjointement on parle par abus de langage drsquoharmoniques drsquoordre m plutocirct que de degreacute m

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 49

soit

1)(sin

)()()12(2sin)(

)(sin)()()12(2cos)(

1)(sin)1()1()12(cos)(

)1(

)1(

1)1(

1

gt

⎪⎪⎩

⎪⎪⎨

+minus

+=

+minus

+=

=+minus

+=

minus

npourP

nmnmmnY

PnmnmmnY

npourPmmmY

mnmn

mnmn

mm

δθδθ

δθδθ

δθδθ

(A14)

La solution angulaire geacuteneacuterale srsquoeacutecrit alors sous la forme drsquoun deacuteveloppement sur

la base drsquoharmoniques spheacuteriques

( ) ( )sum minus

=minus+=Θ

1

1)1()1()( n

m mnmnmnmnn YBYBθ (A15) La solution geacuteneacuterale est alors la seacuterie de Fourier-Bessel

sum sum sum+infin

= = plusmn=

=0 0 1

)()( )()()(m

m

nmnmnm

m YBkrjikrpσ

σσ δθδθ (A16)

ougrave

intint⎪⎩

⎪⎨⎧

minusisin

isin

plusmnplusmn =

]2

2

[

[20[

)1()1( )()1()(

1

ππδ

πθ

δθδθ

S

mnm

mmn dSYpkrji

B (A17)

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 50

Tableau A1 - Expressions analytiques des harmoniques spheacuteriques pour les ordres 0 agrave 3

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 51

Figure A3 - Repreacutesentation des harmoniques spheacuteriques pour les ordres m = 0 agrave 3 Les

couleurs rouge et bleu indiquent respectivement des valeurs positives et neacutegatives

53

Annexe B

Compleacutements theacuteoriques sur le deacutecodage HOA

B1 Vecteur veacutelociteacute et vecteur eacutenergie Le vecteur veacutelociteacute est un indice de la direction apparente drsquoune source introduit

par Gerzon [Gerzon 1992] Il se calcule comme le rapport de la vitesse particulaire sur la pression acoustique

)()(

)()(1

δθδθ

δθδθ

ρ rprp

ki

rprv

cV nabla

minus=minus=rrr

(B1)

Dans le cas drsquoune onde plane le vecteur veacutelociteacute V

rest ainsi directement un

vecteur unitaire orienteacute vers la direction de provenance de lrsquoonde En geacuteneacuteralisant agrave une superposition drsquoondes planes en phase ou opposition de phase eacutemises par L haut-parleurs agrave eacutequidistance du point drsquoobservation on obtient la formule suivante

VVL

ll

L

lll

urg

ugV r

rr

==

sum

sum

=

=

1

1 (B2)

ougrave deacutesigne la direction du llur egraveme haut-parleur auquel est associeacute le gain gl et Vr Vur correspondent respectivement agrave la norme et agrave la direction du vecteur veacutelociteacute

Le vecteur eacutenergie est un autre indice de direction Il est deacutefinit par

EEL

ll

L

lll

urg

ugE r

rr

==

sum

sum

=

=

1

2

1

2

(B3)

Annexe B Compleacutements theacuteoriques sur le deacutecodage HOA 54

Il peut srsquointerpreacuteter comme une indication de la concentration de lrsquoeacutenergie ( ) et de sa direction moyenne de provenance (

Er

Eur ) On a toujours 1ltEr sauf dans le cas ougrave un seul haut-parleur contribue agrave la reconstruction (dans ce cas ) peut ecirctre consideacutereacute comme un indicateur de preacutecision de la localisation

1=Er Er

B2 Deacutecodages optimiseacutes La restitution la plus confortable drsquoun champ sonore veillera donc agrave maximiser

tout en essayant de garder le plus proche possible de 1 Lrsquooptimisation du deacutecodage consiste alors agrave multiplier chaque coefficient de la matrice de deacutecodage D (voir (111) par des gains calculeacutes drsquoapregraves des critegraveres drsquooptimisation

Er Vr

Ainsi le deacutecodage appeleacute max- maximise la norme du vecteur eacutenergie en

sacrifiant celle du vecteur veacutelociteacute puisqursquoon a dans ce deacutecodage (pour des configurations reacuteguliegraveres de haut-parleurs) Ce deacutecodage est donc avantageux par rapport au deacutecodage basique pour les hautes freacutequences ou dans le cas drsquoun auditoire eacutelargi Le deacutecodage in-phase va encore plus loin en cherchant agrave annuler complegravetement les contributions des haut-parleurs placeacutes agrave lrsquoopposeacute de la direction de provenance de lrsquoonde reproduite Ce critegravere est utile dans le cas drsquoune eacutecoute dans une position tregraves excentreacutee agrave laquelle on pourrait percevoir de faccedilon preacutedominante la contribution en opposition de phase drsquoun tel haut-parleur

Er

EV rr =

Ces diffeacuterents deacutecodages ont chacun des avantages et inconveacutenients Ainsi seul le

deacutecodage basique garantit = 1 le deacutecodage max- permet une preacutecision meilleure notamment en haute freacutequence et le deacutecodage in-phase est plus adapteacute agrave un auditoire plus large Jeacuterocircme Daniel [Daniel 2000] propose ainsi de changer le deacutecodage en fonction de la freacutequence et de lrsquoeacutetendue de la zone drsquoeacutecoute deacutesireacutee

Vr Er

Figure B1 - Deacutecodages les plus approprieacutes par sous-bande et en fonction de lrsquoeacutetendue de la

zone drsquoeacutecoute [Daniel 2000]

55

Annexe C

Analyse en composantes principales

C1 Espace des donneacutees Eacutegalement souvent appeleacutee transformeacutee de Karhunen-Loegraveve5 (TKL) lrsquoanalyse en

composantes principales (ACP) est une technique statistique de repreacutesentation drsquoinformation Introduite sur 2 variables par Pearson [Pearson 1900] elle a eacuteteacute eacutetendue par Hotelling [Hotelling 1933] Elle a pour but de caracteacuteriser des donneacutees drsquoun espace agrave N dimensions dans un sous-espace plus petit en minimisant les pertes drsquoinformation due agrave la projection crsquoest-agrave-dire en maximisant la variance projeteacutee Les donneacutees ainsi reacuteorganiseacutees deviennent indeacutependantes Les variables correacuteleacutees sont remplaceacutees par de nouvelles variables deacutecorreacuteleacutees et de variance maximale combinaisons lineacuteaires des variables initiales

Les donneacutees sont constitueacutees de n variables aleacuteatoires (dans notre cas des canaux)

et p reacutealisations ou individus (des eacutechantillons)

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

pn

p

ji

n

xx

x

xx

M

LLL

MOMNM

MLLM

MNMOM

LLL

1

111

(C1)

Ces donneacutees sont geacuteneacuteralement centreacutees et peuvent aussi ecirctre reacuteduites4 (on note

1x la moyenne de la variable et 1x )( 1xσ sa variance) Reacuteduire ou non le nuage de points (ie les p reacutealisations de la variable aleacuteatoire) est un choix de modegravele

5 Quelques rares sources mentionnent une diffeacuterence entre ACP et TKL en placcedilant celle-ci au

niveau du choix de la reacuteduction des donneacutees dans le cas dune ACP les donneacutees seraient centreacutees et reacuteduites alors qursquoelles seraient uniquement centreacutees pour une TKL

Annexe C Analyse en composantes principales 56

- si on ne reacuteduit pas le nuage une variable agrave forte variance pourrait tirer tout lrsquoeffet de lrsquoACP agrave elle

- si on reacuteduit le nuage une variable qui ne serait qursquoun bruit se retrouverait avec une variance apparente eacutegale agrave une variable informative

M est centreacutee

⎥⎥⎥

⎢⎢⎢

minusminusminus

minusminus=

npn

pi

ji

nn

xxxxxx

xxxxM

K

MM

K

11

11

11

ˆ (C2)

M~ est centreacutee et reacuteduite

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

minusminus

minus

minusminus

=

)()(

)(

)()(~

1

11

1

1

111

n

npn

pi

ij

i

n

nn

xxx

xxx

xxx

xxx

xxx

M

σσ

σ

σσ

K

MM

K

(C3)

On multiplie ensuite la matrice obtenue par sa transposeacutee pour obtenir - La matrice de covariance MMC t

vˆˆ sdot=

- La matrice de correacutelation MMC tr

~~ sdot= Ces matrices sont carreacutees (N x N) symeacutetriques et reacuteelles Elles sont donc

diagonalisables dans une base orthonormeacutee 6 Le principe de lrsquoACP est alors de trouver un axe u issu drsquoune combinaison lineacuteaire

des tel que le critegravere drsquoinertie du nuage autour de cet axe soit maximal Le critegravere drsquoinertie couramment utiliseacute est la variance Il faut donc trouver lrsquoaxe qui porte le maximum de variance crsquoest-agrave-dire lrsquoaxe u tel que la projection du nuage sur cet axe ait une variance maximale

nx

6 Nos donneacutees eacutetant ici des valeurs drsquoeacutechantillons elles sont par nature centreacutees et reacuteduites On

formera donc naturellement la matrice de correacutelation

C2 Diagonalisation 57

C2 Diagonalisation Pour alleacuteger lrsquoeacutecriture de la suite de cette partie nous consideacutererons que les

variables ont eacuteteacute centreacutees et si besoin reacuteduites et nous noterons ces variables

transformeacutees (ainsi

ix ix

iii xxx minuslarr ou bien )( i

iii x

xxxσ

minuslarr ) On fera de mecircme pour M

( ou bien MM ˆlarr MM ~larr ) et C ( vCC larr ou bien rCC larr ) La projection drsquoun eacutechantillon sur un axe u srsquoeacutecrit ix

uMxiu sdot=)(π (C4) La variance empirique de )( iu xπ vaut donc

uMMuxx ttiu

tiu sdotsdotsdot=sdot )()( ππ (C5)

Or on a vu que est diagonalisable dans une base orthonormeacutee donc

on peut noter P le changement de base associeacute et ∆ la matrice diagonale formeacutee de son spectre Ainsi

MMC t=

n

i 1)(λ PPMMC tt ∆==

)()()()( PuPuuPPuxx ttt

iut

iu sdot∆sdot=sdot∆sdot=sdotππ (C6) On pose v = Pu Chercher lrsquoaxe u qui maximise )( iu xπ revient donc agrave chercher le

vecteur v qui maximise ougravevvt ∆ )( 1 ndiag λλ K=∆ avec les iλ rangeacutes par ordre deacutecroissant Ce vecteur est trivialement le premier vecteur unitaire et on a alors

1λ=∆vvt

Ainsi le vecteur qui porte la plus grande part drsquoinertie du nuage est le premier

vecteur propre de C (premier par norme deacutecroissante) De mecircme le deuxiegraveme vecteur qui explique la plus grandelt part de lrsquoinertie restante est le deuxiegraveme vecteur propre de C Finalement la question de lrsquoACP se ramegravene agrave un problegraveme de diagonalisation de la matrice de correacutelation

C3 Code Matlab

function [vep vap] = pca(f N) f donneacutees N nombre de composantes agrave garder cor = f f formation de la matrice de correacutelation [vep vap] = eig(cor) calcul des vecteurs (vep) et valeurs (vap) propres [vap ind] = sort(diag(vap)) tri des valeurs propres par ordre croissant vap = flipud(vap) disposition inverse par ordre drsquoimportance vep = vep( flipud(ind)) classement en conseacutequence des vecteurs propres vep = vep( 1N) on ne garde que les N premiers vecteurs propres

Annexe C Analyse en composantes principales 58

59

Annexe D

Analyse en sous-bandes

D1 La transformeacutee de Fourier agrave court terme (TFCT) Pour affiner lrsquoanalyse les signaux sont donc deacutecoupeacutes en bandes de freacutequence par

TFCT La TFCT consiste agrave effectuer des transformeacutees de Fourier discregravetes sur des portions de signal fenecirctreacutees reacuteguliegraverement espaceacutees

On rappelle que la transformeacutee de Fourier drsquoun signal x(t) est deacutefinie (lorsque

lrsquointeacutegrale existe) par

int+infin

infinminus

minus= dtetxfX ftiπ2)()( (D1)

La transformeacutee de Fourier agrave temps discret (TFTD) drsquoun signal x(t) srsquoeacutecrit

sum+infin

minusinfin=

minus=n

fnienxfX π2)()( (D2)

La transformeacutee de Fourier discregravete (TFD) drsquoun signal discret x(k) est deacutefinie par

sum+infin

minusinfin=

minus=

n

Nkni

enxkXπ2

)()( (D3)

La TFCT discregravete est une TFD observeacutee sur une fenecirctre wa de taille N

summinus

=

minus+=

1

0

2)())(()(

N

n

Nnki

aaa enwtnxkXπ

ττ (D4)

ougrave )(taτ est lrsquoinstant drsquoanalyse

Annexe D Analyse en sous-bandes 60

Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT [Laroche 1995]

D2 Synthegravese par addition-recouvrement Lors de la synthegravese apregraves le deacutecoupage et lrsquoanalyse des fenecirctres on cherche agrave

reconstruire le signal temporel agrave partir de sa repreacutesentation freacutequentielle Pour cela on utilise la meacutethode OLA (overlap and add addition-recouvrement) qui consiste agrave prendre la TFCT inverse des spectres Xt puis agrave additionner les signaux obtenus apregraves les avoir multiplieacutes par une fenecirctre de pondeacuteration en les faisant se recouvrir partiellement

Le reacutesultat est donneacute par

sum=

minusminus=T

tsss tnxtnwnx

s1

))((~))(()(~ ττ τ (D5)

avec )()( tt as ττ = et summinus

=

=1

0

2))((~1)(~ N

k

Nkni

s ektXN

nxs

π

τ τ

Lors de la mise en œuvre de ce traitement il faut srsquoassurer drsquoecirctre en mesure de

reconstruire parfaitement un signal lorsqursquoaucune transformation ne lui est appliqueacutee Le critegravere de reconstruction parfaite condition suffisante est alors

sum=

=minusminusT

tasaa tnwtnw

11))(())(( ττ quelque soit n (D6)

D2 Synthegravese par addition-recouvrement 61

Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add [Laroche 1995]

Plusieurs paramegravetres sont agrave choisir avec soin Le premier drsquoentre eux est le type

de fenecirctre agrave utiliser Les diffeacuterentes options qui se preacutesentent agrave nous sont - la fenecirctre rectangulaire qui preacutesente dans son spectre le lobe principal le plus

eacutetroit mais des lobes secondaires non neacutegligeables - la fenecirctre de Hamming au lobe principal un peu plus large mais pour laquelle le

1er lobe secondaire se situe agrave -43 dB - la fenecirctre de Hann (ou cosinus sureacuteleveacute) qui ressemble agrave la preacuteceacutedente avec un

1er lobe secondaire plus fort mais une pente de 18 dB par octave pour les lobes suivants

- les fenecirctres de Blackman-Harris aux lobes secondaires tregraves bas mais au lobe principal plus large

Fenecirctre Lobe 2aire

(dB) Pente

(dBoct) Bande passante

agrave 6 dB (bins) Rectangulaire -13 -6 121 Triangulaire -27 -12 178

Hann -32 -18 200 Hamming -43 -6 181

Blackman-Harris 4 -92 -6 272

Tableau D1 - Caracteacuteristiques des principales fenecirctres drsquoanalyse [Harris 1978] Le meilleur compromis est donc dans notre contexte la fenecirctre de Hann ou celle

de Hamming

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 40: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

Chapitre 4 Reacutesultats et applications 34

415 Scegravene 2D naturelle agrave une source Les scegravenes naturelles sont on lrsquoa vu plus deacutelicates agrave exploiter car on ne peut pas

garantir la preacutecision de la position theacuteorique agrave retrouver par le calcul et on ne peut donc pas calculer la preacutecision de lrsquoanalyse Seuls les enregistrements utilisant la table tournante (voir 232) permettent une mesure preacutecise de la position de lrsquoangle Ces enregistrements on pu confirmer la validiteacute de lrsquoanalyse pour des scegravenes reacuteelles on trouve ici un eacutecart-type de 25deg

Figure 44 - Angles theacuteoriques (en tirets rouge) et calculeacutes (en trait bleu) drsquoun bruit blanc

tournant autour du micro enregistreacute en chambre sourde Cette analyse a eacuteteacute reacutealiseacutee par sous-bandes mais sur une eacutetendue freacutequentielle

plus reacuteduite puisqursquoon srsquoest limiteacute aux possibiliteacutes offertes par le microphone La scegravene a donc eacuteteacute analyseacutee de 200 agrave 10 000 Hz

42 Quelques applications

421 Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre 2 agrave partir de lrsquoordre 1

Une fois les positions des sources connues la porte est ouverte agrave de nombreuses

applications La connaissance de ces positions permet en effet de syntheacutetiser artificiellement des composantes manquantes ou non transmises La premiegravere synthegravese deacuteveloppeacutee est celle des signaux U et V composant la partie horizontale de lrsquoordre 2 agrave partir de lrsquoordre 1 et de paramegravetres issus de lrsquoanalyse pour une source en 2D (des angles dans de cas)

42 Quelques applications 35

Figure 45 - Principe de lrsquoameacutelioration de la preacutecision spatiale

Le principe de la synthegravese est drsquoextraire les sources originales agrave partir de W X Y

et des angles (un angle par trame et par sous-bande) Ceci peut ecirctre reacutealiseacute de maniegravere approcheacutee en deacutecodant lrsquoordre 1 dans les directions des sources Ce deacutecodage revient agrave calculer les signaux qui devraient alimenter des haut-parleurs qui seraient placeacutes agrave ces positions dans le cas drsquoune restitution (voir 122) crsquoest-agrave-dire agrave former des directiviteacutes dans les directions des sources Dans la plupart des cas ce deacutecodage qui fait intervenir une pseudo-inversion de Moore-Penrose (111) est imparfait les sources se retrouvant leacutegegraverement meacutelangeacutees On peut comparer cette seacuteparation agrave celle que ferait un ensemble de microphones agrave directiviteacute hypercardioiumlde coiumlncidents

Figure 46 - Directiviteacutes eacutequivalentes agrave la seacuteparation de 4 sources agrave lrsquoordre 1 Ces sources seacutepareacutees vont ensuite constituer toujours placeacutees aux angles

deacutetermineacutes agrave lrsquoanalyse une scegravene virtuelle qursquoon va encoder agrave lrsquoordre 2 De cet encodage on ne conservera que les signaux manquants dans notre exemple les signaux du 2nd ordre U et V Ainsi la scegravene spatialiseacutee sera au final constitueacutee des signaux W X et Y drsquoorigine (transmis) et des signaux U et V syntheacutetiseacutes

Chapitre 4 Reacutesultats et applications 36

422 Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave partir de W Reconstruire une scegravene sonore spatialiseacutee agrave partir drsquoun unique canal mono est

alors difficile et le reacutesultat nrsquoest appreacuteciable que pour des scegravenes simples Il faut pour cela que les diffeacuterentes sources composant cette scegravene aient des supports spectraux aussi distincts que possible Les diffeacuterentes sous-bandes sont alors placeacutees agrave un certain angle transmis en parallegravele et crsquoest cette scegravene reconstitueacutee qui va ecirctre encodeacutee au 1er ordre de maniegravere agrave recreacuteer les signaux X et Y

Figure 47 - Principe de la restitution de lrsquoordre 1 agrave partir du signal mono W Ce scheacutema rappelle une meacutethode deacuteveloppeacutee dans le cas steacutereacuteo appeleacutee BCC

(Binaural Cue Coding) [Faller and Baumgarte 2002] Le principe est drsquoextraire et coder des informations permettant la reconstruction binaurale drsquoun signal agrave savoir les diffeacuterences interaurales drsquointensiteacute et de temps (Interaural LevelTime Difference ILD et ITD) qui correspondent dans le cas drsquoune restitution sur un casque aux diffeacuterences drsquointensiteacute et de temps inter-canal (Inter-Channel LevelTime Difference ICLD et ICTD) qui sont mesureacutees agrave partir drsquoune analyse en sous-bandes Les auteurs y ont plus reacutecemment associeacute un indice de correacutelation interaurale mesureacute agrave partir de la correacutelation inter-canal (ICC) afin de caracteacuteriser la preacutecision spatiale (la ldquolargeurrdquo drsquoune source)

Figure 48 - Scheacutema de principe de la meacutethode BCC [Faller and Baumgarte 2003]

On observe en pratique des deacutefauts lieacutes agrave la brutaliteacute de la proceacutedure une sous-

bande ne peut ecirctre que placeacutee agrave la position indiqueacutee et ne peut pas rester floue diffuse ou encore ecirctre placeacutee agrave plusieurs endroits Pour y remeacutedier nous avons ajouteacute 2 traitements agrave la synthegravese Tour drsquoabord nous avons appliqueacute un leacuteger lissage soulageant les effets deacutesagreacuteables dus au saut du contenu drsquoune sous-bande drsquoun endroit agrave un autre entre de 2 fenecirctres conseacutecutives Les positions varient alors de faccedilon plus souple au sein drsquoune mecircme sous-bande traduisant une hypothegravese de continuiteacute spatiale (pas de deacuteplacement brusque) La contrepartie est que cette hypothegravese est lieacutee agrave une hypothegravese de continuiteacute spectrale

42 Quelques applications 37

La 2egraveme ameacutelioration concerne le positionnement des sources En incluant dans la transmission un critegravere de pertinence on peut savoir srsquoil est raisonnable de placer une sous-bande agrave un angle preacutecis ou bien si lrsquoanalyse eacutetait flou agrave son sujet auquel cas un positionnement impreacutecis serait preacutefeacuterable Le paramegravetre choisi est une combinaison des critegraveres eacutevoqueacutes en 342 il nous permet de placer la sous-bande de maniegravere plus ou moins prononceacutee

43 Comparaison avec une meacutethode existante Certains auteurs ont deacutejagrave essayeacute drsquoanalyser un contenu ambisonique pour

retrouver les positions des sources Ville Pulkki a ainsi deacutecrit dans [Pulkki and Faller 2006] une meacutethode drsquoanalyse du B-format baseacutee sur lrsquoeacutetude des amplitudes des signaux W X Y et Z

Figure 49 - X et Y dans le cas drsquoune sinusoiumlde placeacutee agrave 15deg (agrave gauche) et 120deg (agrave droite)

Les figures ci-dessus montrent les relations drsquoamplitudes (algeacutebriques) qui relient

X et Y agrave lrsquoangle de la source On voit que lrsquoanalyse de ces amplitudes respectives permet de retrouver la position de la source en effet on a pour une source unique les relations de lrsquoeacutequation (11) rappeleacutee ici

⎪⎪

⎪⎪

=

=

=

=

δ

δθ

δθ

sin2

cossin2

coscos2

SZ

SY

SX

SW

(41)

On peut donc theacuteoriquement retrouver les valeurs de θ et δ par relations

trigonomeacutetriques Ainsi on a

⎪⎪⎩

⎪⎪⎨

=

=

2)sin(

)tan(

WZ

XY

δ

θ (42)

Chapitre 4 Reacutesultats et applications 38

On peut donc trouver les angles θ et δ agrave π pregraves Pour lever lrsquoambiguiumlteacute une eacutetude de signe est neacutecessaire Mais dans le cas de θ le signe de X et de Y agrave δ fixeacute deacutepend aussi bien de θ que S Il faut srsquointeacuteresser aux signes de θcos et θsin crsquoest-agrave-dire

aux signes de WX et

WY Dans la pratique on srsquointeacuteressera aux signes de et

pour se preacutevenir des divisions par zeacuteros

XW sdot YW sdot

XW sdot et YW sdot sont proportionnels agrave toujours positif

2S

Les auteurs deacutecrivent eacutegalement dans leur article un critegravere appeleacute diffuseness qui

peut ecirctre compareacute agrave un critegravere de pertinence inverseacute Ce paramegravetre calculeacute par agrave 1 - R ougrave R est un rapport de normes est tregraves proche du critegravere de norme relative deacutecrit en 342 Il peut donc ecirctre utiliseacute de la mecircme faccedilon et permettre ainsi une pleine comparaison

Cette meacutethode a eacuteteacute impleacutementeacutee pour pouvoir ecirctre compareacutee avec la meacutethode

par ACP Tous les paramegravetres ont scrupuleusement eacuteteacute gardeacutes identiques et plusieurs reacuteglages ont eacuteteacute testeacutes Les courbes ci-dessous preacutesentent les reacutesultats des analyses de la scegravene deacutecrite en 332 avec un pas de 50ms un overlap de 50 un NFFT de 2048 et 40 bandes freacutequentielles Nous avons repreacutesenteacute tous les angles trouveacutes crsquoest-agrave-dire un par bande et par trame pour srsquoaffranchir de la seacutelection des k-moyennes

π

0

minusπ

Figure 410 - Angles trouveacutes par lrsquoalgorithme de [Pulkki and Faller 2006] Le diamegravetre du point correspondant agrave la pertinence

43 Comparaison avec une meacutethode existante 39

π

0

minusπ

Figure 411 - Angles trouveacutes par une ACP pour la mecircme scegravene On remarque que les points excentriques sont moins nombreux et plus rarement trouveacutes comme pertinents

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee

441 Position du problegraveme

Une application directe de ces analyses a eacuteteacute deacuteveloppeacutee pour la confeacuterence audio

spatialiseacutee La confeacuterence audio utilise en effet la spatialisation pour permettre une meilleure seacuteparation par lrsquooreille des diffeacuterents locuteurs Ainsi si plusieurs personnes parlent en mecircme temps il sera tregraves difficile de comprendre chacun individuellement si ces voix sont restitueacutees en mono mais on pourra focaliser lrsquoattention sur chacune drsquoentre elles si elles sont seacutepareacutees spatialement (crsquoest lrsquoeffet cocktail party [Cherry 1953])

Lrsquoobjectif eacutetait de veacuterifier qursquoil eacutetait possible de conserver la spatialisation drsquoune

confeacuterence en nrsquoayant transmis qursquoun downmix mono des signaux Ce concept semble se rapprocher de celui deacutecrit en 422 mais une diffeacuterence fondamentale les seacutepare la confeacuterence audio spatialiseacutee nrsquoest pas codeacutee au format ambisonic mais les signaux traiteacutes sont directement les sons provenant des diffeacuterents locuteurs crsquoest-agrave-dire les sources elles-mecircmes Ainsi lrsquoanalyse ne porte plus sur une scegravene spatialiseacutee mais sur des signaux seacutepareacutes Il nrsquoy a ainsi plus drsquoindices spatiaux agrave trouver

Avoir accegraves aux sources permet drsquoobtenir des informations plus preacutecises pour

permettre une seacuteparation apregraves la transmission Comme nous lrsquoavons vu lrsquoanalyse drsquoune scegravene spatialiseacutee ne permet que dans drsquoultimes cas agrave la seacuteparation des sources ce qui est ici notre point de deacutepart et sera en fait notre point drsquoarriveacutee En effet nous tenterons de retrouver les sources seacutepareacutees apregraves la transmission de maniegravere agrave pouvoir par la suite les spatialiser agrave loisir (voir Figure 413)

Chapitre 4 Reacutesultats et applications 40

442 Solution proposeacutee Les paramegravetres extraits ne sont donc plus des positions de sources Nous avons

choisi de mesurer puis transmettre lrsquoeacutenergie de chaque signal dans chaque sous-bande en parallegravele du downmix En effet une bonne seacuteparation sera possible si lrsquoon sait quelle proportion de chaque source compose chaque sous-bande du signal mono

Figure 412 - Scheacutema de principe drsquoune confeacuterence audio spatialiseacutee

Figure 413 - Scheacutema ameacutelioreacute (deacutebit reacuteduit)

en pointilleacutes informations compleacutementaires (eacutenergie) Lrsquoanalyse en sous-bandes a lieu dans le serveur (Figure 414) Celui-ci calcule

lrsquoeacutenergie de chaque signal dans chaque sous-bande sur une trame donneacutee Crsquoest ce paramegravetre qui associeacute au signal mono M permettra la seacuteparation des sources dans le terminal (Figure 415) Ce dernier reacutepartira en effet les diffeacuterentes sous-bandes vers chaque signal reconstitueacute proportionnellement agrave cette information pour reconstruire les 4 sources originales

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee 41

Figure 414 - Analyse principe de lrsquoencodage dans le serveur

Figure 415 - Synthegravese principe du deacutecodage dans le client

Afin de reacuteduire au maximum les informations compleacutementaires agrave transmettre on

peut remarquer qursquoau cours drsquoune confeacuterence audio on a tregraves souvent un seul locuteur les participants ne parlent que tregraves rarement tous en mecircme temps Ceci implique que les signaux en entreacutee sont tregraves souvent tous nuls sauf 1 et appliquer un seuil en entreacutee de lrsquoanalyse permet outre lrsquoallegravegement du traitement drsquoavoir moins de paramegravetres agrave transmettre

Ce scheacutema simplifieacute ne tient pas compte des problegravemes de phase rien nrsquoindique

que les eacutenergies des signaux srsquoajoutent bien dans chaque sous-bande lors du downmix on peut tregraves bien avoir des oppositions de phase La solution est drsquoeffectuer le downmix (la somme) des signaux dans chaque sous-bande en prenant soin drsquoavoir recaleacute les phases au preacutealable Ceci nrsquoa un sens que pour des bandes suffisamment eacutetroites Les deacutecalages temporels appliqueacutes pour le recalage sont alors des paramegravetres suppleacutementaires agrave transmettre et sont pris en compte lors de la synthegravese au niveau du reacutepartiteur qui repositionnera la phase de chaque trame pour chaque signal

Chapitre 4 Reacutesultats et applications 42

443 Bilan Le reacutesultat du deacutecodage a pu ecirctre eacutecouteacute de diffeacuterentes maniegraveres les sources

reconstitueacutees individuellement ensemble en steacutereacuteo drsquoamplitude et sur un systegraveme 51 On note que les sources ont eacuteteacute assez bien seacutepareacutees mais que des artefacts sont audibles en particulier lorsque le nombre de locuteurs simultaneacutes augmentent Ces artefacts sont un meacutelange des voix qui nrsquoest gecircnant que lorsqursquoon les eacutecoute de maniegravere seacutepareacutee En effet lrsquoeacutecoute simultaneacutee de ces signaux syntheacutetiseacutes mecircme placeacutes agrave des positions distinctes sur un systegraveme de diffusion multicanal est tout agrave fait satisfaisante

Ce proceacutedeacute pour pouvoir ecirctre appliqueacute doit fonctionner en temps-reacuteel Cette

contrainte nrsquoa pas du tout eacuteteacute prise en compte lrsquoobjectif eacutetant de valider la faisabiliteacute drsquoune reconstruction Les programmes sous Matlab nrsquoont pas eacuteteacute optimiseacutes et ne respectent pas cette contrainte

43

Conclusion Nous avons preacutesenteacute dans ce rapport le principe et lrsquoapplication de plusieurs

meacutethodes drsquoanalyses spatiales de scegravenes ambisoniques conccedilues et reacutealiseacutee pendant le stage Le format HOA est en effet une repreacutesentation du champ acoustique deacutecomposeacute sur une base drsquoharmoniques spheacuteriques jusqursquoagrave un certain ordre agrave la maniegravere drsquoun deacuteveloppement limiteacute Il contient donc de maniegravere indirecte des indications spatiales qursquoon peut extraire avec des analyses comme lrsquoanalyse en composantes principales

Ces analyses nous permettent de deacuteterminer les positions des sources qui

composent la scegravene sonore Nous avons appliqueacute les reacutesultats de ces analyses agrave 2 types de synthegravese lrsquoune destineacutee aux transmissions bas deacutebit lrsquoautre agrave un traitement de restitution de la preacutecision spatiale dans le cas ougrave des ordres supeacuterieurs dont le but est drsquoaffiner la perception de localisation nrsquoauraient pas pu ecirctre transmis Ces algorithmes par le codage drsquoinformations spatiales qursquoils permettent pourront trouver bien drsquoautres applications dans la transmission et le codage ougrave la description du contenu est de plus en plus utiliseacutee (comme par exemple dans la norme MPEG)

Des ameacuteliorations sont possibles sur plusieurs points tout drsquoabord lrsquoexploitation

de toutes les composantes de lrsquoACP est agrave lrsquoeacutetude et semble pouvoir donner des reacutesultats inteacuteressants Drsquoautre part on a vu que le reacutesultat final est tregraves deacutependant de la bonne convergence de lrsquoalgorithme des k-moyennes utiliseacute pour traiter les donneacutees brutes de lrsquoanalyse en sous-bandes Or cet algorithme neacutecessite des reacuteglages tregraves fins et une connaissance a priori du nombre de sources est presque indispensable Drsquoautres algorithmes plus complexes de suivi de formes pourraient ecirctre avantageusement utiliseacutes pour deacutetecter dans tous les angles trouveacutes lesquels sont susceptibles de former une trajectoire

45

Annexe A

Deacuteveloppement du champ acoustique en harmoniques spheacuteriques

A1 Eacutequation drsquoonde en coordonneacutees spheacuteriques On se place dans lrsquoespace euclidien agrave 3 dimensions muni drsquoun systegraveme de

coordonneacutees spheacuteriques Un point M y est repeacutereacute par son rayon r son azimut θ et son eacuteleacutevation δ tels que repreacutesenteacutes sur la figure ci-dessous

- r est la norme du vecteur position rr crsquoest-agrave-dire la distance OM - [20[ πθ isin est lrsquoangle formeacute par le projeteacute du point sur le plan xOy et lrsquoaxe Ox

- ]2

2

[ ππδ minusisin est lrsquoangle formeacute par le plan xOy et le vecteur position2

Figure A1 - Systegraveme de coordonneacutees spheacuteriques

2 Cet angle diffegravere de lrsquoangle polaire usuel δπϕ minus=

2 habituellement pris entre lrsquoaxe Oz et le

vecteur position

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 46

Les relations entre les coordonneacutees spheacuteriques et les coordonneacutees carteacutesiennes sont

⎪⎩

⎪⎨

===

δδθδθ

sincossincoscos

zryrx

(A1)

On srsquointeacuteresse dans ce repegravere agrave lrsquoeacutequation de propagation des ondes acoustiques

de pression On se place dans les conditions classiques drsquoacoustique lineacuteaire (les variations de p sont petites par rapport agrave la pression atmospheacuterique) en supposant que lrsquoair est un fluide parfait (on y neacutegligera les pheacutenomegravenes dissipatifs) Dans une reacutegion de lrsquoespace ne comprenant pas de sources lrsquoeacutequation drsquoonde srsquoeacutecrit alors

0)(12

2

2 =⎟⎟⎠

⎞⎜⎜⎝

⎛partpart

minus∆ trptc

r (A2)

p eacutetant la pression et c la vitesse de propagation du son dans lrsquoair

Cette eacutequation devient dans le domaine freacutequentiel lrsquoeacutequation de Helmholtz

( ) 0)(2 =+∆ ωrpk r (A3)

ck ω

= eacutetant le nombre drsquoonde

En coordonneacutees spheacuteriques cette eacutequation srsquoeacutecrit

0sin1sin

sin11 2

2

2

222

2 =⎥⎦

⎤⎢⎣

⎡+

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart pk

rrrr

rr δθθθ

θθ (A4)

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques Drsquoapregraves [Bruneau 1983] elle admet des solutions agrave variables seacutepareacutees de la forme

)()()( δθ ΦΘ= rRp (A5) Ces solutions sont respectivement - pour la partie radiale une combinaison des fonctions de Bessel spheacuteriques de

premiegravere et seconde espegravece3 jn et nn

)()()( krBnkrAjrR nn += (A6) 3 Les fonctions de Bessel spheacuteriques de seconde espegravece sont eacutegalement appeleacutees fonctions de

Neumann

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 47

Ces fonctions sont deacutefinies comme suit

(A7)

Figure A2 - Fonctions de Bessel spheacuteriques pour les ordres 0 agrave 5 )(krjm

- pour la partie azimutale les fonctions )(θΘ

)sin()cos()( 21 θθθ ncnc +=Θ (A8) Eacutetant donneacute la deacutefinition de lrsquoangle Θ celui-ci doit neacutecessairement ecirctre de

peacuteriode 2π ))2()(( πθθ +Θ=Θ ce qui impose agrave n drsquoecirctre entier

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 48

- pour la partie polaire les fonctions de Legendre associeacutees )(sinδmnP

nm

nn

mn dPdP

)(sin)(sinsin)(sin

δδ

δδ = pour ⎩⎨⎧

gt=

nmavecnm 321

(A9)

ougrave les )(sinδnP sont les polynocircmes de Legendre de degreacute n en δsin deacutefinis par reacutecurrence

( )

11

22

1

0

sin)12()(sin)1(

1cos321)(sin

sin)(sin0)(sin

minus+ minus+=+

minus=

==

mmm mPPmPmet

P

PP

δδ

ϕδ

δδδ

(A10)

et de formule geacuteneacuterale

mm

m

mm dd

mP )1(sin

)(sin21)(sin 2 minus= δ

δδ (A11)

On peut appliquer aux fonctions )(sinδmnP la semi-normalisation de Schmidt

)(sin)()()(sin~ δεδ mnnmn P

nmnmP

+minus

= ougrave 10 =ε et 2=nε pour 1gen (A12)

En appariant les fonctions polaires et azimutales on deacutefinit les harmoniques

spheacuteriques de degreacute et drsquoordre)1(mnY 0gem 4 mnn lele0 et de degreacute et

drsquoordre (voir Figure A3)

)1(minusmnY 1gem

mnn lele1

)(sin~)sin()(

)(sin~)cos()()1(

)1(

δθδθ

δθδθ

mnmn

mnmn

PnY

PnY

=

=minus

(A13)

4 En geacuteneacuteral lorsque le degreacute et lrsquoordre ne sont pas eacutevoqueacutes conjointement on parle par abus de langage drsquoharmoniques drsquoordre m plutocirct que de degreacute m

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 49

soit

1)(sin

)()()12(2sin)(

)(sin)()()12(2cos)(

1)(sin)1()1()12(cos)(

)1(

)1(

1)1(

1

gt

⎪⎪⎩

⎪⎪⎨

+minus

+=

+minus

+=

=+minus

+=

minus

npourP

nmnmmnY

PnmnmmnY

npourPmmmY

mnmn

mnmn

mm

δθδθ

δθδθ

δθδθ

(A14)

La solution angulaire geacuteneacuterale srsquoeacutecrit alors sous la forme drsquoun deacuteveloppement sur

la base drsquoharmoniques spheacuteriques

( ) ( )sum minus

=minus+=Θ

1

1)1()1()( n

m mnmnmnmnn YBYBθ (A15) La solution geacuteneacuterale est alors la seacuterie de Fourier-Bessel

sum sum sum+infin

= = plusmn=

=0 0 1

)()( )()()(m

m

nmnmnm

m YBkrjikrpσ

σσ δθδθ (A16)

ougrave

intint⎪⎩

⎪⎨⎧

minusisin

isin

plusmnplusmn =

]2

2

[

[20[

)1()1( )()1()(

1

ππδ

πθ

δθδθ

S

mnm

mmn dSYpkrji

B (A17)

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 50

Tableau A1 - Expressions analytiques des harmoniques spheacuteriques pour les ordres 0 agrave 3

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 51

Figure A3 - Repreacutesentation des harmoniques spheacuteriques pour les ordres m = 0 agrave 3 Les

couleurs rouge et bleu indiquent respectivement des valeurs positives et neacutegatives

53

Annexe B

Compleacutements theacuteoriques sur le deacutecodage HOA

B1 Vecteur veacutelociteacute et vecteur eacutenergie Le vecteur veacutelociteacute est un indice de la direction apparente drsquoune source introduit

par Gerzon [Gerzon 1992] Il se calcule comme le rapport de la vitesse particulaire sur la pression acoustique

)()(

)()(1

δθδθ

δθδθ

ρ rprp

ki

rprv

cV nabla

minus=minus=rrr

(B1)

Dans le cas drsquoune onde plane le vecteur veacutelociteacute V

rest ainsi directement un

vecteur unitaire orienteacute vers la direction de provenance de lrsquoonde En geacuteneacuteralisant agrave une superposition drsquoondes planes en phase ou opposition de phase eacutemises par L haut-parleurs agrave eacutequidistance du point drsquoobservation on obtient la formule suivante

VVL

ll

L

lll

urg

ugV r

rr

==

sum

sum

=

=

1

1 (B2)

ougrave deacutesigne la direction du llur egraveme haut-parleur auquel est associeacute le gain gl et Vr Vur correspondent respectivement agrave la norme et agrave la direction du vecteur veacutelociteacute

Le vecteur eacutenergie est un autre indice de direction Il est deacutefinit par

EEL

ll

L

lll

urg

ugE r

rr

==

sum

sum

=

=

1

2

1

2

(B3)

Annexe B Compleacutements theacuteoriques sur le deacutecodage HOA 54

Il peut srsquointerpreacuteter comme une indication de la concentration de lrsquoeacutenergie ( ) et de sa direction moyenne de provenance (

Er

Eur ) On a toujours 1ltEr sauf dans le cas ougrave un seul haut-parleur contribue agrave la reconstruction (dans ce cas ) peut ecirctre consideacutereacute comme un indicateur de preacutecision de la localisation

1=Er Er

B2 Deacutecodages optimiseacutes La restitution la plus confortable drsquoun champ sonore veillera donc agrave maximiser

tout en essayant de garder le plus proche possible de 1 Lrsquooptimisation du deacutecodage consiste alors agrave multiplier chaque coefficient de la matrice de deacutecodage D (voir (111) par des gains calculeacutes drsquoapregraves des critegraveres drsquooptimisation

Er Vr

Ainsi le deacutecodage appeleacute max- maximise la norme du vecteur eacutenergie en

sacrifiant celle du vecteur veacutelociteacute puisqursquoon a dans ce deacutecodage (pour des configurations reacuteguliegraveres de haut-parleurs) Ce deacutecodage est donc avantageux par rapport au deacutecodage basique pour les hautes freacutequences ou dans le cas drsquoun auditoire eacutelargi Le deacutecodage in-phase va encore plus loin en cherchant agrave annuler complegravetement les contributions des haut-parleurs placeacutes agrave lrsquoopposeacute de la direction de provenance de lrsquoonde reproduite Ce critegravere est utile dans le cas drsquoune eacutecoute dans une position tregraves excentreacutee agrave laquelle on pourrait percevoir de faccedilon preacutedominante la contribution en opposition de phase drsquoun tel haut-parleur

Er

EV rr =

Ces diffeacuterents deacutecodages ont chacun des avantages et inconveacutenients Ainsi seul le

deacutecodage basique garantit = 1 le deacutecodage max- permet une preacutecision meilleure notamment en haute freacutequence et le deacutecodage in-phase est plus adapteacute agrave un auditoire plus large Jeacuterocircme Daniel [Daniel 2000] propose ainsi de changer le deacutecodage en fonction de la freacutequence et de lrsquoeacutetendue de la zone drsquoeacutecoute deacutesireacutee

Vr Er

Figure B1 - Deacutecodages les plus approprieacutes par sous-bande et en fonction de lrsquoeacutetendue de la

zone drsquoeacutecoute [Daniel 2000]

55

Annexe C

Analyse en composantes principales

C1 Espace des donneacutees Eacutegalement souvent appeleacutee transformeacutee de Karhunen-Loegraveve5 (TKL) lrsquoanalyse en

composantes principales (ACP) est une technique statistique de repreacutesentation drsquoinformation Introduite sur 2 variables par Pearson [Pearson 1900] elle a eacuteteacute eacutetendue par Hotelling [Hotelling 1933] Elle a pour but de caracteacuteriser des donneacutees drsquoun espace agrave N dimensions dans un sous-espace plus petit en minimisant les pertes drsquoinformation due agrave la projection crsquoest-agrave-dire en maximisant la variance projeteacutee Les donneacutees ainsi reacuteorganiseacutees deviennent indeacutependantes Les variables correacuteleacutees sont remplaceacutees par de nouvelles variables deacutecorreacuteleacutees et de variance maximale combinaisons lineacuteaires des variables initiales

Les donneacutees sont constitueacutees de n variables aleacuteatoires (dans notre cas des canaux)

et p reacutealisations ou individus (des eacutechantillons)

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

pn

p

ji

n

xx

x

xx

M

LLL

MOMNM

MLLM

MNMOM

LLL

1

111

(C1)

Ces donneacutees sont geacuteneacuteralement centreacutees et peuvent aussi ecirctre reacuteduites4 (on note

1x la moyenne de la variable et 1x )( 1xσ sa variance) Reacuteduire ou non le nuage de points (ie les p reacutealisations de la variable aleacuteatoire) est un choix de modegravele

5 Quelques rares sources mentionnent une diffeacuterence entre ACP et TKL en placcedilant celle-ci au

niveau du choix de la reacuteduction des donneacutees dans le cas dune ACP les donneacutees seraient centreacutees et reacuteduites alors qursquoelles seraient uniquement centreacutees pour une TKL

Annexe C Analyse en composantes principales 56

- si on ne reacuteduit pas le nuage une variable agrave forte variance pourrait tirer tout lrsquoeffet de lrsquoACP agrave elle

- si on reacuteduit le nuage une variable qui ne serait qursquoun bruit se retrouverait avec une variance apparente eacutegale agrave une variable informative

M est centreacutee

⎥⎥⎥

⎢⎢⎢

minusminusminus

minusminus=

npn

pi

ji

nn

xxxxxx

xxxxM

K

MM

K

11

11

11

ˆ (C2)

M~ est centreacutee et reacuteduite

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

minusminus

minus

minusminus

=

)()(

)(

)()(~

1

11

1

1

111

n

npn

pi

ij

i

n

nn

xxx

xxx

xxx

xxx

xxx

M

σσ

σ

σσ

K

MM

K

(C3)

On multiplie ensuite la matrice obtenue par sa transposeacutee pour obtenir - La matrice de covariance MMC t

vˆˆ sdot=

- La matrice de correacutelation MMC tr

~~ sdot= Ces matrices sont carreacutees (N x N) symeacutetriques et reacuteelles Elles sont donc

diagonalisables dans une base orthonormeacutee 6 Le principe de lrsquoACP est alors de trouver un axe u issu drsquoune combinaison lineacuteaire

des tel que le critegravere drsquoinertie du nuage autour de cet axe soit maximal Le critegravere drsquoinertie couramment utiliseacute est la variance Il faut donc trouver lrsquoaxe qui porte le maximum de variance crsquoest-agrave-dire lrsquoaxe u tel que la projection du nuage sur cet axe ait une variance maximale

nx

6 Nos donneacutees eacutetant ici des valeurs drsquoeacutechantillons elles sont par nature centreacutees et reacuteduites On

formera donc naturellement la matrice de correacutelation

C2 Diagonalisation 57

C2 Diagonalisation Pour alleacuteger lrsquoeacutecriture de la suite de cette partie nous consideacutererons que les

variables ont eacuteteacute centreacutees et si besoin reacuteduites et nous noterons ces variables

transformeacutees (ainsi

ix ix

iii xxx minuslarr ou bien )( i

iii x

xxxσ

minuslarr ) On fera de mecircme pour M

( ou bien MM ˆlarr MM ~larr ) et C ( vCC larr ou bien rCC larr ) La projection drsquoun eacutechantillon sur un axe u srsquoeacutecrit ix

uMxiu sdot=)(π (C4) La variance empirique de )( iu xπ vaut donc

uMMuxx ttiu

tiu sdotsdotsdot=sdot )()( ππ (C5)

Or on a vu que est diagonalisable dans une base orthonormeacutee donc

on peut noter P le changement de base associeacute et ∆ la matrice diagonale formeacutee de son spectre Ainsi

MMC t=

n

i 1)(λ PPMMC tt ∆==

)()()()( PuPuuPPuxx ttt

iut

iu sdot∆sdot=sdot∆sdot=sdotππ (C6) On pose v = Pu Chercher lrsquoaxe u qui maximise )( iu xπ revient donc agrave chercher le

vecteur v qui maximise ougravevvt ∆ )( 1 ndiag λλ K=∆ avec les iλ rangeacutes par ordre deacutecroissant Ce vecteur est trivialement le premier vecteur unitaire et on a alors

1λ=∆vvt

Ainsi le vecteur qui porte la plus grande part drsquoinertie du nuage est le premier

vecteur propre de C (premier par norme deacutecroissante) De mecircme le deuxiegraveme vecteur qui explique la plus grandelt part de lrsquoinertie restante est le deuxiegraveme vecteur propre de C Finalement la question de lrsquoACP se ramegravene agrave un problegraveme de diagonalisation de la matrice de correacutelation

C3 Code Matlab

function [vep vap] = pca(f N) f donneacutees N nombre de composantes agrave garder cor = f f formation de la matrice de correacutelation [vep vap] = eig(cor) calcul des vecteurs (vep) et valeurs (vap) propres [vap ind] = sort(diag(vap)) tri des valeurs propres par ordre croissant vap = flipud(vap) disposition inverse par ordre drsquoimportance vep = vep( flipud(ind)) classement en conseacutequence des vecteurs propres vep = vep( 1N) on ne garde que les N premiers vecteurs propres

Annexe C Analyse en composantes principales 58

59

Annexe D

Analyse en sous-bandes

D1 La transformeacutee de Fourier agrave court terme (TFCT) Pour affiner lrsquoanalyse les signaux sont donc deacutecoupeacutes en bandes de freacutequence par

TFCT La TFCT consiste agrave effectuer des transformeacutees de Fourier discregravetes sur des portions de signal fenecirctreacutees reacuteguliegraverement espaceacutees

On rappelle que la transformeacutee de Fourier drsquoun signal x(t) est deacutefinie (lorsque

lrsquointeacutegrale existe) par

int+infin

infinminus

minus= dtetxfX ftiπ2)()( (D1)

La transformeacutee de Fourier agrave temps discret (TFTD) drsquoun signal x(t) srsquoeacutecrit

sum+infin

minusinfin=

minus=n

fnienxfX π2)()( (D2)

La transformeacutee de Fourier discregravete (TFD) drsquoun signal discret x(k) est deacutefinie par

sum+infin

minusinfin=

minus=

n

Nkni

enxkXπ2

)()( (D3)

La TFCT discregravete est une TFD observeacutee sur une fenecirctre wa de taille N

summinus

=

minus+=

1

0

2)())(()(

N

n

Nnki

aaa enwtnxkXπ

ττ (D4)

ougrave )(taτ est lrsquoinstant drsquoanalyse

Annexe D Analyse en sous-bandes 60

Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT [Laroche 1995]

D2 Synthegravese par addition-recouvrement Lors de la synthegravese apregraves le deacutecoupage et lrsquoanalyse des fenecirctres on cherche agrave

reconstruire le signal temporel agrave partir de sa repreacutesentation freacutequentielle Pour cela on utilise la meacutethode OLA (overlap and add addition-recouvrement) qui consiste agrave prendre la TFCT inverse des spectres Xt puis agrave additionner les signaux obtenus apregraves les avoir multiplieacutes par une fenecirctre de pondeacuteration en les faisant se recouvrir partiellement

Le reacutesultat est donneacute par

sum=

minusminus=T

tsss tnxtnwnx

s1

))((~))(()(~ ττ τ (D5)

avec )()( tt as ττ = et summinus

=

=1

0

2))((~1)(~ N

k

Nkni

s ektXN

nxs

π

τ τ

Lors de la mise en œuvre de ce traitement il faut srsquoassurer drsquoecirctre en mesure de

reconstruire parfaitement un signal lorsqursquoaucune transformation ne lui est appliqueacutee Le critegravere de reconstruction parfaite condition suffisante est alors

sum=

=minusminusT

tasaa tnwtnw

11))(())(( ττ quelque soit n (D6)

D2 Synthegravese par addition-recouvrement 61

Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add [Laroche 1995]

Plusieurs paramegravetres sont agrave choisir avec soin Le premier drsquoentre eux est le type

de fenecirctre agrave utiliser Les diffeacuterentes options qui se preacutesentent agrave nous sont - la fenecirctre rectangulaire qui preacutesente dans son spectre le lobe principal le plus

eacutetroit mais des lobes secondaires non neacutegligeables - la fenecirctre de Hamming au lobe principal un peu plus large mais pour laquelle le

1er lobe secondaire se situe agrave -43 dB - la fenecirctre de Hann (ou cosinus sureacuteleveacute) qui ressemble agrave la preacuteceacutedente avec un

1er lobe secondaire plus fort mais une pente de 18 dB par octave pour les lobes suivants

- les fenecirctres de Blackman-Harris aux lobes secondaires tregraves bas mais au lobe principal plus large

Fenecirctre Lobe 2aire

(dB) Pente

(dBoct) Bande passante

agrave 6 dB (bins) Rectangulaire -13 -6 121 Triangulaire -27 -12 178

Hann -32 -18 200 Hamming -43 -6 181

Blackman-Harris 4 -92 -6 272

Tableau D1 - Caracteacuteristiques des principales fenecirctres drsquoanalyse [Harris 1978] Le meilleur compromis est donc dans notre contexte la fenecirctre de Hann ou celle

de Hamming

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 41: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

42 Quelques applications 35

Figure 45 - Principe de lrsquoameacutelioration de la preacutecision spatiale

Le principe de la synthegravese est drsquoextraire les sources originales agrave partir de W X Y

et des angles (un angle par trame et par sous-bande) Ceci peut ecirctre reacutealiseacute de maniegravere approcheacutee en deacutecodant lrsquoordre 1 dans les directions des sources Ce deacutecodage revient agrave calculer les signaux qui devraient alimenter des haut-parleurs qui seraient placeacutes agrave ces positions dans le cas drsquoune restitution (voir 122) crsquoest-agrave-dire agrave former des directiviteacutes dans les directions des sources Dans la plupart des cas ce deacutecodage qui fait intervenir une pseudo-inversion de Moore-Penrose (111) est imparfait les sources se retrouvant leacutegegraverement meacutelangeacutees On peut comparer cette seacuteparation agrave celle que ferait un ensemble de microphones agrave directiviteacute hypercardioiumlde coiumlncidents

Figure 46 - Directiviteacutes eacutequivalentes agrave la seacuteparation de 4 sources agrave lrsquoordre 1 Ces sources seacutepareacutees vont ensuite constituer toujours placeacutees aux angles

deacutetermineacutes agrave lrsquoanalyse une scegravene virtuelle qursquoon va encoder agrave lrsquoordre 2 De cet encodage on ne conservera que les signaux manquants dans notre exemple les signaux du 2nd ordre U et V Ainsi la scegravene spatialiseacutee sera au final constitueacutee des signaux W X et Y drsquoorigine (transmis) et des signaux U et V syntheacutetiseacutes

Chapitre 4 Reacutesultats et applications 36

422 Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave partir de W Reconstruire une scegravene sonore spatialiseacutee agrave partir drsquoun unique canal mono est

alors difficile et le reacutesultat nrsquoest appreacuteciable que pour des scegravenes simples Il faut pour cela que les diffeacuterentes sources composant cette scegravene aient des supports spectraux aussi distincts que possible Les diffeacuterentes sous-bandes sont alors placeacutees agrave un certain angle transmis en parallegravele et crsquoest cette scegravene reconstitueacutee qui va ecirctre encodeacutee au 1er ordre de maniegravere agrave recreacuteer les signaux X et Y

Figure 47 - Principe de la restitution de lrsquoordre 1 agrave partir du signal mono W Ce scheacutema rappelle une meacutethode deacuteveloppeacutee dans le cas steacutereacuteo appeleacutee BCC

(Binaural Cue Coding) [Faller and Baumgarte 2002] Le principe est drsquoextraire et coder des informations permettant la reconstruction binaurale drsquoun signal agrave savoir les diffeacuterences interaurales drsquointensiteacute et de temps (Interaural LevelTime Difference ILD et ITD) qui correspondent dans le cas drsquoune restitution sur un casque aux diffeacuterences drsquointensiteacute et de temps inter-canal (Inter-Channel LevelTime Difference ICLD et ICTD) qui sont mesureacutees agrave partir drsquoune analyse en sous-bandes Les auteurs y ont plus reacutecemment associeacute un indice de correacutelation interaurale mesureacute agrave partir de la correacutelation inter-canal (ICC) afin de caracteacuteriser la preacutecision spatiale (la ldquolargeurrdquo drsquoune source)

Figure 48 - Scheacutema de principe de la meacutethode BCC [Faller and Baumgarte 2003]

On observe en pratique des deacutefauts lieacutes agrave la brutaliteacute de la proceacutedure une sous-

bande ne peut ecirctre que placeacutee agrave la position indiqueacutee et ne peut pas rester floue diffuse ou encore ecirctre placeacutee agrave plusieurs endroits Pour y remeacutedier nous avons ajouteacute 2 traitements agrave la synthegravese Tour drsquoabord nous avons appliqueacute un leacuteger lissage soulageant les effets deacutesagreacuteables dus au saut du contenu drsquoune sous-bande drsquoun endroit agrave un autre entre de 2 fenecirctres conseacutecutives Les positions varient alors de faccedilon plus souple au sein drsquoune mecircme sous-bande traduisant une hypothegravese de continuiteacute spatiale (pas de deacuteplacement brusque) La contrepartie est que cette hypothegravese est lieacutee agrave une hypothegravese de continuiteacute spectrale

42 Quelques applications 37

La 2egraveme ameacutelioration concerne le positionnement des sources En incluant dans la transmission un critegravere de pertinence on peut savoir srsquoil est raisonnable de placer une sous-bande agrave un angle preacutecis ou bien si lrsquoanalyse eacutetait flou agrave son sujet auquel cas un positionnement impreacutecis serait preacutefeacuterable Le paramegravetre choisi est une combinaison des critegraveres eacutevoqueacutes en 342 il nous permet de placer la sous-bande de maniegravere plus ou moins prononceacutee

43 Comparaison avec une meacutethode existante Certains auteurs ont deacutejagrave essayeacute drsquoanalyser un contenu ambisonique pour

retrouver les positions des sources Ville Pulkki a ainsi deacutecrit dans [Pulkki and Faller 2006] une meacutethode drsquoanalyse du B-format baseacutee sur lrsquoeacutetude des amplitudes des signaux W X Y et Z

Figure 49 - X et Y dans le cas drsquoune sinusoiumlde placeacutee agrave 15deg (agrave gauche) et 120deg (agrave droite)

Les figures ci-dessus montrent les relations drsquoamplitudes (algeacutebriques) qui relient

X et Y agrave lrsquoangle de la source On voit que lrsquoanalyse de ces amplitudes respectives permet de retrouver la position de la source en effet on a pour une source unique les relations de lrsquoeacutequation (11) rappeleacutee ici

⎪⎪

⎪⎪

=

=

=

=

δ

δθ

δθ

sin2

cossin2

coscos2

SZ

SY

SX

SW

(41)

On peut donc theacuteoriquement retrouver les valeurs de θ et δ par relations

trigonomeacutetriques Ainsi on a

⎪⎪⎩

⎪⎪⎨

=

=

2)sin(

)tan(

WZ

XY

δ

θ (42)

Chapitre 4 Reacutesultats et applications 38

On peut donc trouver les angles θ et δ agrave π pregraves Pour lever lrsquoambiguiumlteacute une eacutetude de signe est neacutecessaire Mais dans le cas de θ le signe de X et de Y agrave δ fixeacute deacutepend aussi bien de θ que S Il faut srsquointeacuteresser aux signes de θcos et θsin crsquoest-agrave-dire

aux signes de WX et

WY Dans la pratique on srsquointeacuteressera aux signes de et

pour se preacutevenir des divisions par zeacuteros

XW sdot YW sdot

XW sdot et YW sdot sont proportionnels agrave toujours positif

2S

Les auteurs deacutecrivent eacutegalement dans leur article un critegravere appeleacute diffuseness qui

peut ecirctre compareacute agrave un critegravere de pertinence inverseacute Ce paramegravetre calculeacute par agrave 1 - R ougrave R est un rapport de normes est tregraves proche du critegravere de norme relative deacutecrit en 342 Il peut donc ecirctre utiliseacute de la mecircme faccedilon et permettre ainsi une pleine comparaison

Cette meacutethode a eacuteteacute impleacutementeacutee pour pouvoir ecirctre compareacutee avec la meacutethode

par ACP Tous les paramegravetres ont scrupuleusement eacuteteacute gardeacutes identiques et plusieurs reacuteglages ont eacuteteacute testeacutes Les courbes ci-dessous preacutesentent les reacutesultats des analyses de la scegravene deacutecrite en 332 avec un pas de 50ms un overlap de 50 un NFFT de 2048 et 40 bandes freacutequentielles Nous avons repreacutesenteacute tous les angles trouveacutes crsquoest-agrave-dire un par bande et par trame pour srsquoaffranchir de la seacutelection des k-moyennes

π

0

minusπ

Figure 410 - Angles trouveacutes par lrsquoalgorithme de [Pulkki and Faller 2006] Le diamegravetre du point correspondant agrave la pertinence

43 Comparaison avec une meacutethode existante 39

π

0

minusπ

Figure 411 - Angles trouveacutes par une ACP pour la mecircme scegravene On remarque que les points excentriques sont moins nombreux et plus rarement trouveacutes comme pertinents

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee

441 Position du problegraveme

Une application directe de ces analyses a eacuteteacute deacuteveloppeacutee pour la confeacuterence audio

spatialiseacutee La confeacuterence audio utilise en effet la spatialisation pour permettre une meilleure seacuteparation par lrsquooreille des diffeacuterents locuteurs Ainsi si plusieurs personnes parlent en mecircme temps il sera tregraves difficile de comprendre chacun individuellement si ces voix sont restitueacutees en mono mais on pourra focaliser lrsquoattention sur chacune drsquoentre elles si elles sont seacutepareacutees spatialement (crsquoest lrsquoeffet cocktail party [Cherry 1953])

Lrsquoobjectif eacutetait de veacuterifier qursquoil eacutetait possible de conserver la spatialisation drsquoune

confeacuterence en nrsquoayant transmis qursquoun downmix mono des signaux Ce concept semble se rapprocher de celui deacutecrit en 422 mais une diffeacuterence fondamentale les seacutepare la confeacuterence audio spatialiseacutee nrsquoest pas codeacutee au format ambisonic mais les signaux traiteacutes sont directement les sons provenant des diffeacuterents locuteurs crsquoest-agrave-dire les sources elles-mecircmes Ainsi lrsquoanalyse ne porte plus sur une scegravene spatialiseacutee mais sur des signaux seacutepareacutes Il nrsquoy a ainsi plus drsquoindices spatiaux agrave trouver

Avoir accegraves aux sources permet drsquoobtenir des informations plus preacutecises pour

permettre une seacuteparation apregraves la transmission Comme nous lrsquoavons vu lrsquoanalyse drsquoune scegravene spatialiseacutee ne permet que dans drsquoultimes cas agrave la seacuteparation des sources ce qui est ici notre point de deacutepart et sera en fait notre point drsquoarriveacutee En effet nous tenterons de retrouver les sources seacutepareacutees apregraves la transmission de maniegravere agrave pouvoir par la suite les spatialiser agrave loisir (voir Figure 413)

Chapitre 4 Reacutesultats et applications 40

442 Solution proposeacutee Les paramegravetres extraits ne sont donc plus des positions de sources Nous avons

choisi de mesurer puis transmettre lrsquoeacutenergie de chaque signal dans chaque sous-bande en parallegravele du downmix En effet une bonne seacuteparation sera possible si lrsquoon sait quelle proportion de chaque source compose chaque sous-bande du signal mono

Figure 412 - Scheacutema de principe drsquoune confeacuterence audio spatialiseacutee

Figure 413 - Scheacutema ameacutelioreacute (deacutebit reacuteduit)

en pointilleacutes informations compleacutementaires (eacutenergie) Lrsquoanalyse en sous-bandes a lieu dans le serveur (Figure 414) Celui-ci calcule

lrsquoeacutenergie de chaque signal dans chaque sous-bande sur une trame donneacutee Crsquoest ce paramegravetre qui associeacute au signal mono M permettra la seacuteparation des sources dans le terminal (Figure 415) Ce dernier reacutepartira en effet les diffeacuterentes sous-bandes vers chaque signal reconstitueacute proportionnellement agrave cette information pour reconstruire les 4 sources originales

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee 41

Figure 414 - Analyse principe de lrsquoencodage dans le serveur

Figure 415 - Synthegravese principe du deacutecodage dans le client

Afin de reacuteduire au maximum les informations compleacutementaires agrave transmettre on

peut remarquer qursquoau cours drsquoune confeacuterence audio on a tregraves souvent un seul locuteur les participants ne parlent que tregraves rarement tous en mecircme temps Ceci implique que les signaux en entreacutee sont tregraves souvent tous nuls sauf 1 et appliquer un seuil en entreacutee de lrsquoanalyse permet outre lrsquoallegravegement du traitement drsquoavoir moins de paramegravetres agrave transmettre

Ce scheacutema simplifieacute ne tient pas compte des problegravemes de phase rien nrsquoindique

que les eacutenergies des signaux srsquoajoutent bien dans chaque sous-bande lors du downmix on peut tregraves bien avoir des oppositions de phase La solution est drsquoeffectuer le downmix (la somme) des signaux dans chaque sous-bande en prenant soin drsquoavoir recaleacute les phases au preacutealable Ceci nrsquoa un sens que pour des bandes suffisamment eacutetroites Les deacutecalages temporels appliqueacutes pour le recalage sont alors des paramegravetres suppleacutementaires agrave transmettre et sont pris en compte lors de la synthegravese au niveau du reacutepartiteur qui repositionnera la phase de chaque trame pour chaque signal

Chapitre 4 Reacutesultats et applications 42

443 Bilan Le reacutesultat du deacutecodage a pu ecirctre eacutecouteacute de diffeacuterentes maniegraveres les sources

reconstitueacutees individuellement ensemble en steacutereacuteo drsquoamplitude et sur un systegraveme 51 On note que les sources ont eacuteteacute assez bien seacutepareacutees mais que des artefacts sont audibles en particulier lorsque le nombre de locuteurs simultaneacutes augmentent Ces artefacts sont un meacutelange des voix qui nrsquoest gecircnant que lorsqursquoon les eacutecoute de maniegravere seacutepareacutee En effet lrsquoeacutecoute simultaneacutee de ces signaux syntheacutetiseacutes mecircme placeacutes agrave des positions distinctes sur un systegraveme de diffusion multicanal est tout agrave fait satisfaisante

Ce proceacutedeacute pour pouvoir ecirctre appliqueacute doit fonctionner en temps-reacuteel Cette

contrainte nrsquoa pas du tout eacuteteacute prise en compte lrsquoobjectif eacutetant de valider la faisabiliteacute drsquoune reconstruction Les programmes sous Matlab nrsquoont pas eacuteteacute optimiseacutes et ne respectent pas cette contrainte

43

Conclusion Nous avons preacutesenteacute dans ce rapport le principe et lrsquoapplication de plusieurs

meacutethodes drsquoanalyses spatiales de scegravenes ambisoniques conccedilues et reacutealiseacutee pendant le stage Le format HOA est en effet une repreacutesentation du champ acoustique deacutecomposeacute sur une base drsquoharmoniques spheacuteriques jusqursquoagrave un certain ordre agrave la maniegravere drsquoun deacuteveloppement limiteacute Il contient donc de maniegravere indirecte des indications spatiales qursquoon peut extraire avec des analyses comme lrsquoanalyse en composantes principales

Ces analyses nous permettent de deacuteterminer les positions des sources qui

composent la scegravene sonore Nous avons appliqueacute les reacutesultats de ces analyses agrave 2 types de synthegravese lrsquoune destineacutee aux transmissions bas deacutebit lrsquoautre agrave un traitement de restitution de la preacutecision spatiale dans le cas ougrave des ordres supeacuterieurs dont le but est drsquoaffiner la perception de localisation nrsquoauraient pas pu ecirctre transmis Ces algorithmes par le codage drsquoinformations spatiales qursquoils permettent pourront trouver bien drsquoautres applications dans la transmission et le codage ougrave la description du contenu est de plus en plus utiliseacutee (comme par exemple dans la norme MPEG)

Des ameacuteliorations sont possibles sur plusieurs points tout drsquoabord lrsquoexploitation

de toutes les composantes de lrsquoACP est agrave lrsquoeacutetude et semble pouvoir donner des reacutesultats inteacuteressants Drsquoautre part on a vu que le reacutesultat final est tregraves deacutependant de la bonne convergence de lrsquoalgorithme des k-moyennes utiliseacute pour traiter les donneacutees brutes de lrsquoanalyse en sous-bandes Or cet algorithme neacutecessite des reacuteglages tregraves fins et une connaissance a priori du nombre de sources est presque indispensable Drsquoautres algorithmes plus complexes de suivi de formes pourraient ecirctre avantageusement utiliseacutes pour deacutetecter dans tous les angles trouveacutes lesquels sont susceptibles de former une trajectoire

45

Annexe A

Deacuteveloppement du champ acoustique en harmoniques spheacuteriques

A1 Eacutequation drsquoonde en coordonneacutees spheacuteriques On se place dans lrsquoespace euclidien agrave 3 dimensions muni drsquoun systegraveme de

coordonneacutees spheacuteriques Un point M y est repeacutereacute par son rayon r son azimut θ et son eacuteleacutevation δ tels que repreacutesenteacutes sur la figure ci-dessous

- r est la norme du vecteur position rr crsquoest-agrave-dire la distance OM - [20[ πθ isin est lrsquoangle formeacute par le projeteacute du point sur le plan xOy et lrsquoaxe Ox

- ]2

2

[ ππδ minusisin est lrsquoangle formeacute par le plan xOy et le vecteur position2

Figure A1 - Systegraveme de coordonneacutees spheacuteriques

2 Cet angle diffegravere de lrsquoangle polaire usuel δπϕ minus=

2 habituellement pris entre lrsquoaxe Oz et le

vecteur position

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 46

Les relations entre les coordonneacutees spheacuteriques et les coordonneacutees carteacutesiennes sont

⎪⎩

⎪⎨

===

δδθδθ

sincossincoscos

zryrx

(A1)

On srsquointeacuteresse dans ce repegravere agrave lrsquoeacutequation de propagation des ondes acoustiques

de pression On se place dans les conditions classiques drsquoacoustique lineacuteaire (les variations de p sont petites par rapport agrave la pression atmospheacuterique) en supposant que lrsquoair est un fluide parfait (on y neacutegligera les pheacutenomegravenes dissipatifs) Dans une reacutegion de lrsquoespace ne comprenant pas de sources lrsquoeacutequation drsquoonde srsquoeacutecrit alors

0)(12

2

2 =⎟⎟⎠

⎞⎜⎜⎝

⎛partpart

minus∆ trptc

r (A2)

p eacutetant la pression et c la vitesse de propagation du son dans lrsquoair

Cette eacutequation devient dans le domaine freacutequentiel lrsquoeacutequation de Helmholtz

( ) 0)(2 =+∆ ωrpk r (A3)

ck ω

= eacutetant le nombre drsquoonde

En coordonneacutees spheacuteriques cette eacutequation srsquoeacutecrit

0sin1sin

sin11 2

2

2

222

2 =⎥⎦

⎤⎢⎣

⎡+

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart pk

rrrr

rr δθθθ

θθ (A4)

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques Drsquoapregraves [Bruneau 1983] elle admet des solutions agrave variables seacutepareacutees de la forme

)()()( δθ ΦΘ= rRp (A5) Ces solutions sont respectivement - pour la partie radiale une combinaison des fonctions de Bessel spheacuteriques de

premiegravere et seconde espegravece3 jn et nn

)()()( krBnkrAjrR nn += (A6) 3 Les fonctions de Bessel spheacuteriques de seconde espegravece sont eacutegalement appeleacutees fonctions de

Neumann

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 47

Ces fonctions sont deacutefinies comme suit

(A7)

Figure A2 - Fonctions de Bessel spheacuteriques pour les ordres 0 agrave 5 )(krjm

- pour la partie azimutale les fonctions )(θΘ

)sin()cos()( 21 θθθ ncnc +=Θ (A8) Eacutetant donneacute la deacutefinition de lrsquoangle Θ celui-ci doit neacutecessairement ecirctre de

peacuteriode 2π ))2()(( πθθ +Θ=Θ ce qui impose agrave n drsquoecirctre entier

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 48

- pour la partie polaire les fonctions de Legendre associeacutees )(sinδmnP

nm

nn

mn dPdP

)(sin)(sinsin)(sin

δδ

δδ = pour ⎩⎨⎧

gt=

nmavecnm 321

(A9)

ougrave les )(sinδnP sont les polynocircmes de Legendre de degreacute n en δsin deacutefinis par reacutecurrence

( )

11

22

1

0

sin)12()(sin)1(

1cos321)(sin

sin)(sin0)(sin

minus+ minus+=+

minus=

==

mmm mPPmPmet

P

PP

δδ

ϕδ

δδδ

(A10)

et de formule geacuteneacuterale

mm

m

mm dd

mP )1(sin

)(sin21)(sin 2 minus= δ

δδ (A11)

On peut appliquer aux fonctions )(sinδmnP la semi-normalisation de Schmidt

)(sin)()()(sin~ δεδ mnnmn P

nmnmP

+minus

= ougrave 10 =ε et 2=nε pour 1gen (A12)

En appariant les fonctions polaires et azimutales on deacutefinit les harmoniques

spheacuteriques de degreacute et drsquoordre)1(mnY 0gem 4 mnn lele0 et de degreacute et

drsquoordre (voir Figure A3)

)1(minusmnY 1gem

mnn lele1

)(sin~)sin()(

)(sin~)cos()()1(

)1(

δθδθ

δθδθ

mnmn

mnmn

PnY

PnY

=

=minus

(A13)

4 En geacuteneacuteral lorsque le degreacute et lrsquoordre ne sont pas eacutevoqueacutes conjointement on parle par abus de langage drsquoharmoniques drsquoordre m plutocirct que de degreacute m

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 49

soit

1)(sin

)()()12(2sin)(

)(sin)()()12(2cos)(

1)(sin)1()1()12(cos)(

)1(

)1(

1)1(

1

gt

⎪⎪⎩

⎪⎪⎨

+minus

+=

+minus

+=

=+minus

+=

minus

npourP

nmnmmnY

PnmnmmnY

npourPmmmY

mnmn

mnmn

mm

δθδθ

δθδθ

δθδθ

(A14)

La solution angulaire geacuteneacuterale srsquoeacutecrit alors sous la forme drsquoun deacuteveloppement sur

la base drsquoharmoniques spheacuteriques

( ) ( )sum minus

=minus+=Θ

1

1)1()1()( n

m mnmnmnmnn YBYBθ (A15) La solution geacuteneacuterale est alors la seacuterie de Fourier-Bessel

sum sum sum+infin

= = plusmn=

=0 0 1

)()( )()()(m

m

nmnmnm

m YBkrjikrpσ

σσ δθδθ (A16)

ougrave

intint⎪⎩

⎪⎨⎧

minusisin

isin

plusmnplusmn =

]2

2

[

[20[

)1()1( )()1()(

1

ππδ

πθ

δθδθ

S

mnm

mmn dSYpkrji

B (A17)

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 50

Tableau A1 - Expressions analytiques des harmoniques spheacuteriques pour les ordres 0 agrave 3

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 51

Figure A3 - Repreacutesentation des harmoniques spheacuteriques pour les ordres m = 0 agrave 3 Les

couleurs rouge et bleu indiquent respectivement des valeurs positives et neacutegatives

53

Annexe B

Compleacutements theacuteoriques sur le deacutecodage HOA

B1 Vecteur veacutelociteacute et vecteur eacutenergie Le vecteur veacutelociteacute est un indice de la direction apparente drsquoune source introduit

par Gerzon [Gerzon 1992] Il se calcule comme le rapport de la vitesse particulaire sur la pression acoustique

)()(

)()(1

δθδθ

δθδθ

ρ rprp

ki

rprv

cV nabla

minus=minus=rrr

(B1)

Dans le cas drsquoune onde plane le vecteur veacutelociteacute V

rest ainsi directement un

vecteur unitaire orienteacute vers la direction de provenance de lrsquoonde En geacuteneacuteralisant agrave une superposition drsquoondes planes en phase ou opposition de phase eacutemises par L haut-parleurs agrave eacutequidistance du point drsquoobservation on obtient la formule suivante

VVL

ll

L

lll

urg

ugV r

rr

==

sum

sum

=

=

1

1 (B2)

ougrave deacutesigne la direction du llur egraveme haut-parleur auquel est associeacute le gain gl et Vr Vur correspondent respectivement agrave la norme et agrave la direction du vecteur veacutelociteacute

Le vecteur eacutenergie est un autre indice de direction Il est deacutefinit par

EEL

ll

L

lll

urg

ugE r

rr

==

sum

sum

=

=

1

2

1

2

(B3)

Annexe B Compleacutements theacuteoriques sur le deacutecodage HOA 54

Il peut srsquointerpreacuteter comme une indication de la concentration de lrsquoeacutenergie ( ) et de sa direction moyenne de provenance (

Er

Eur ) On a toujours 1ltEr sauf dans le cas ougrave un seul haut-parleur contribue agrave la reconstruction (dans ce cas ) peut ecirctre consideacutereacute comme un indicateur de preacutecision de la localisation

1=Er Er

B2 Deacutecodages optimiseacutes La restitution la plus confortable drsquoun champ sonore veillera donc agrave maximiser

tout en essayant de garder le plus proche possible de 1 Lrsquooptimisation du deacutecodage consiste alors agrave multiplier chaque coefficient de la matrice de deacutecodage D (voir (111) par des gains calculeacutes drsquoapregraves des critegraveres drsquooptimisation

Er Vr

Ainsi le deacutecodage appeleacute max- maximise la norme du vecteur eacutenergie en

sacrifiant celle du vecteur veacutelociteacute puisqursquoon a dans ce deacutecodage (pour des configurations reacuteguliegraveres de haut-parleurs) Ce deacutecodage est donc avantageux par rapport au deacutecodage basique pour les hautes freacutequences ou dans le cas drsquoun auditoire eacutelargi Le deacutecodage in-phase va encore plus loin en cherchant agrave annuler complegravetement les contributions des haut-parleurs placeacutes agrave lrsquoopposeacute de la direction de provenance de lrsquoonde reproduite Ce critegravere est utile dans le cas drsquoune eacutecoute dans une position tregraves excentreacutee agrave laquelle on pourrait percevoir de faccedilon preacutedominante la contribution en opposition de phase drsquoun tel haut-parleur

Er

EV rr =

Ces diffeacuterents deacutecodages ont chacun des avantages et inconveacutenients Ainsi seul le

deacutecodage basique garantit = 1 le deacutecodage max- permet une preacutecision meilleure notamment en haute freacutequence et le deacutecodage in-phase est plus adapteacute agrave un auditoire plus large Jeacuterocircme Daniel [Daniel 2000] propose ainsi de changer le deacutecodage en fonction de la freacutequence et de lrsquoeacutetendue de la zone drsquoeacutecoute deacutesireacutee

Vr Er

Figure B1 - Deacutecodages les plus approprieacutes par sous-bande et en fonction de lrsquoeacutetendue de la

zone drsquoeacutecoute [Daniel 2000]

55

Annexe C

Analyse en composantes principales

C1 Espace des donneacutees Eacutegalement souvent appeleacutee transformeacutee de Karhunen-Loegraveve5 (TKL) lrsquoanalyse en

composantes principales (ACP) est une technique statistique de repreacutesentation drsquoinformation Introduite sur 2 variables par Pearson [Pearson 1900] elle a eacuteteacute eacutetendue par Hotelling [Hotelling 1933] Elle a pour but de caracteacuteriser des donneacutees drsquoun espace agrave N dimensions dans un sous-espace plus petit en minimisant les pertes drsquoinformation due agrave la projection crsquoest-agrave-dire en maximisant la variance projeteacutee Les donneacutees ainsi reacuteorganiseacutees deviennent indeacutependantes Les variables correacuteleacutees sont remplaceacutees par de nouvelles variables deacutecorreacuteleacutees et de variance maximale combinaisons lineacuteaires des variables initiales

Les donneacutees sont constitueacutees de n variables aleacuteatoires (dans notre cas des canaux)

et p reacutealisations ou individus (des eacutechantillons)

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

pn

p

ji

n

xx

x

xx

M

LLL

MOMNM

MLLM

MNMOM

LLL

1

111

(C1)

Ces donneacutees sont geacuteneacuteralement centreacutees et peuvent aussi ecirctre reacuteduites4 (on note

1x la moyenne de la variable et 1x )( 1xσ sa variance) Reacuteduire ou non le nuage de points (ie les p reacutealisations de la variable aleacuteatoire) est un choix de modegravele

5 Quelques rares sources mentionnent une diffeacuterence entre ACP et TKL en placcedilant celle-ci au

niveau du choix de la reacuteduction des donneacutees dans le cas dune ACP les donneacutees seraient centreacutees et reacuteduites alors qursquoelles seraient uniquement centreacutees pour une TKL

Annexe C Analyse en composantes principales 56

- si on ne reacuteduit pas le nuage une variable agrave forte variance pourrait tirer tout lrsquoeffet de lrsquoACP agrave elle

- si on reacuteduit le nuage une variable qui ne serait qursquoun bruit se retrouverait avec une variance apparente eacutegale agrave une variable informative

M est centreacutee

⎥⎥⎥

⎢⎢⎢

minusminusminus

minusminus=

npn

pi

ji

nn

xxxxxx

xxxxM

K

MM

K

11

11

11

ˆ (C2)

M~ est centreacutee et reacuteduite

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

minusminus

minus

minusminus

=

)()(

)(

)()(~

1

11

1

1

111

n

npn

pi

ij

i

n

nn

xxx

xxx

xxx

xxx

xxx

M

σσ

σ

σσ

K

MM

K

(C3)

On multiplie ensuite la matrice obtenue par sa transposeacutee pour obtenir - La matrice de covariance MMC t

vˆˆ sdot=

- La matrice de correacutelation MMC tr

~~ sdot= Ces matrices sont carreacutees (N x N) symeacutetriques et reacuteelles Elles sont donc

diagonalisables dans une base orthonormeacutee 6 Le principe de lrsquoACP est alors de trouver un axe u issu drsquoune combinaison lineacuteaire

des tel que le critegravere drsquoinertie du nuage autour de cet axe soit maximal Le critegravere drsquoinertie couramment utiliseacute est la variance Il faut donc trouver lrsquoaxe qui porte le maximum de variance crsquoest-agrave-dire lrsquoaxe u tel que la projection du nuage sur cet axe ait une variance maximale

nx

6 Nos donneacutees eacutetant ici des valeurs drsquoeacutechantillons elles sont par nature centreacutees et reacuteduites On

formera donc naturellement la matrice de correacutelation

C2 Diagonalisation 57

C2 Diagonalisation Pour alleacuteger lrsquoeacutecriture de la suite de cette partie nous consideacutererons que les

variables ont eacuteteacute centreacutees et si besoin reacuteduites et nous noterons ces variables

transformeacutees (ainsi

ix ix

iii xxx minuslarr ou bien )( i

iii x

xxxσ

minuslarr ) On fera de mecircme pour M

( ou bien MM ˆlarr MM ~larr ) et C ( vCC larr ou bien rCC larr ) La projection drsquoun eacutechantillon sur un axe u srsquoeacutecrit ix

uMxiu sdot=)(π (C4) La variance empirique de )( iu xπ vaut donc

uMMuxx ttiu

tiu sdotsdotsdot=sdot )()( ππ (C5)

Or on a vu que est diagonalisable dans une base orthonormeacutee donc

on peut noter P le changement de base associeacute et ∆ la matrice diagonale formeacutee de son spectre Ainsi

MMC t=

n

i 1)(λ PPMMC tt ∆==

)()()()( PuPuuPPuxx ttt

iut

iu sdot∆sdot=sdot∆sdot=sdotππ (C6) On pose v = Pu Chercher lrsquoaxe u qui maximise )( iu xπ revient donc agrave chercher le

vecteur v qui maximise ougravevvt ∆ )( 1 ndiag λλ K=∆ avec les iλ rangeacutes par ordre deacutecroissant Ce vecteur est trivialement le premier vecteur unitaire et on a alors

1λ=∆vvt

Ainsi le vecteur qui porte la plus grande part drsquoinertie du nuage est le premier

vecteur propre de C (premier par norme deacutecroissante) De mecircme le deuxiegraveme vecteur qui explique la plus grandelt part de lrsquoinertie restante est le deuxiegraveme vecteur propre de C Finalement la question de lrsquoACP se ramegravene agrave un problegraveme de diagonalisation de la matrice de correacutelation

C3 Code Matlab

function [vep vap] = pca(f N) f donneacutees N nombre de composantes agrave garder cor = f f formation de la matrice de correacutelation [vep vap] = eig(cor) calcul des vecteurs (vep) et valeurs (vap) propres [vap ind] = sort(diag(vap)) tri des valeurs propres par ordre croissant vap = flipud(vap) disposition inverse par ordre drsquoimportance vep = vep( flipud(ind)) classement en conseacutequence des vecteurs propres vep = vep( 1N) on ne garde que les N premiers vecteurs propres

Annexe C Analyse en composantes principales 58

59

Annexe D

Analyse en sous-bandes

D1 La transformeacutee de Fourier agrave court terme (TFCT) Pour affiner lrsquoanalyse les signaux sont donc deacutecoupeacutes en bandes de freacutequence par

TFCT La TFCT consiste agrave effectuer des transformeacutees de Fourier discregravetes sur des portions de signal fenecirctreacutees reacuteguliegraverement espaceacutees

On rappelle que la transformeacutee de Fourier drsquoun signal x(t) est deacutefinie (lorsque

lrsquointeacutegrale existe) par

int+infin

infinminus

minus= dtetxfX ftiπ2)()( (D1)

La transformeacutee de Fourier agrave temps discret (TFTD) drsquoun signal x(t) srsquoeacutecrit

sum+infin

minusinfin=

minus=n

fnienxfX π2)()( (D2)

La transformeacutee de Fourier discregravete (TFD) drsquoun signal discret x(k) est deacutefinie par

sum+infin

minusinfin=

minus=

n

Nkni

enxkXπ2

)()( (D3)

La TFCT discregravete est une TFD observeacutee sur une fenecirctre wa de taille N

summinus

=

minus+=

1

0

2)())(()(

N

n

Nnki

aaa enwtnxkXπ

ττ (D4)

ougrave )(taτ est lrsquoinstant drsquoanalyse

Annexe D Analyse en sous-bandes 60

Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT [Laroche 1995]

D2 Synthegravese par addition-recouvrement Lors de la synthegravese apregraves le deacutecoupage et lrsquoanalyse des fenecirctres on cherche agrave

reconstruire le signal temporel agrave partir de sa repreacutesentation freacutequentielle Pour cela on utilise la meacutethode OLA (overlap and add addition-recouvrement) qui consiste agrave prendre la TFCT inverse des spectres Xt puis agrave additionner les signaux obtenus apregraves les avoir multiplieacutes par une fenecirctre de pondeacuteration en les faisant se recouvrir partiellement

Le reacutesultat est donneacute par

sum=

minusminus=T

tsss tnxtnwnx

s1

))((~))(()(~ ττ τ (D5)

avec )()( tt as ττ = et summinus

=

=1

0

2))((~1)(~ N

k

Nkni

s ektXN

nxs

π

τ τ

Lors de la mise en œuvre de ce traitement il faut srsquoassurer drsquoecirctre en mesure de

reconstruire parfaitement un signal lorsqursquoaucune transformation ne lui est appliqueacutee Le critegravere de reconstruction parfaite condition suffisante est alors

sum=

=minusminusT

tasaa tnwtnw

11))(())(( ττ quelque soit n (D6)

D2 Synthegravese par addition-recouvrement 61

Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add [Laroche 1995]

Plusieurs paramegravetres sont agrave choisir avec soin Le premier drsquoentre eux est le type

de fenecirctre agrave utiliser Les diffeacuterentes options qui se preacutesentent agrave nous sont - la fenecirctre rectangulaire qui preacutesente dans son spectre le lobe principal le plus

eacutetroit mais des lobes secondaires non neacutegligeables - la fenecirctre de Hamming au lobe principal un peu plus large mais pour laquelle le

1er lobe secondaire se situe agrave -43 dB - la fenecirctre de Hann (ou cosinus sureacuteleveacute) qui ressemble agrave la preacuteceacutedente avec un

1er lobe secondaire plus fort mais une pente de 18 dB par octave pour les lobes suivants

- les fenecirctres de Blackman-Harris aux lobes secondaires tregraves bas mais au lobe principal plus large

Fenecirctre Lobe 2aire

(dB) Pente

(dBoct) Bande passante

agrave 6 dB (bins) Rectangulaire -13 -6 121 Triangulaire -27 -12 178

Hann -32 -18 200 Hamming -43 -6 181

Blackman-Harris 4 -92 -6 272

Tableau D1 - Caracteacuteristiques des principales fenecirctres drsquoanalyse [Harris 1978] Le meilleur compromis est donc dans notre contexte la fenecirctre de Hann ou celle

de Hamming

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 42: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

Chapitre 4 Reacutesultats et applications 36

422 Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave partir de W Reconstruire une scegravene sonore spatialiseacutee agrave partir drsquoun unique canal mono est

alors difficile et le reacutesultat nrsquoest appreacuteciable que pour des scegravenes simples Il faut pour cela que les diffeacuterentes sources composant cette scegravene aient des supports spectraux aussi distincts que possible Les diffeacuterentes sous-bandes sont alors placeacutees agrave un certain angle transmis en parallegravele et crsquoest cette scegravene reconstitueacutee qui va ecirctre encodeacutee au 1er ordre de maniegravere agrave recreacuteer les signaux X et Y

Figure 47 - Principe de la restitution de lrsquoordre 1 agrave partir du signal mono W Ce scheacutema rappelle une meacutethode deacuteveloppeacutee dans le cas steacutereacuteo appeleacutee BCC

(Binaural Cue Coding) [Faller and Baumgarte 2002] Le principe est drsquoextraire et coder des informations permettant la reconstruction binaurale drsquoun signal agrave savoir les diffeacuterences interaurales drsquointensiteacute et de temps (Interaural LevelTime Difference ILD et ITD) qui correspondent dans le cas drsquoune restitution sur un casque aux diffeacuterences drsquointensiteacute et de temps inter-canal (Inter-Channel LevelTime Difference ICLD et ICTD) qui sont mesureacutees agrave partir drsquoune analyse en sous-bandes Les auteurs y ont plus reacutecemment associeacute un indice de correacutelation interaurale mesureacute agrave partir de la correacutelation inter-canal (ICC) afin de caracteacuteriser la preacutecision spatiale (la ldquolargeurrdquo drsquoune source)

Figure 48 - Scheacutema de principe de la meacutethode BCC [Faller and Baumgarte 2003]

On observe en pratique des deacutefauts lieacutes agrave la brutaliteacute de la proceacutedure une sous-

bande ne peut ecirctre que placeacutee agrave la position indiqueacutee et ne peut pas rester floue diffuse ou encore ecirctre placeacutee agrave plusieurs endroits Pour y remeacutedier nous avons ajouteacute 2 traitements agrave la synthegravese Tour drsquoabord nous avons appliqueacute un leacuteger lissage soulageant les effets deacutesagreacuteables dus au saut du contenu drsquoune sous-bande drsquoun endroit agrave un autre entre de 2 fenecirctres conseacutecutives Les positions varient alors de faccedilon plus souple au sein drsquoune mecircme sous-bande traduisant une hypothegravese de continuiteacute spatiale (pas de deacuteplacement brusque) La contrepartie est que cette hypothegravese est lieacutee agrave une hypothegravese de continuiteacute spectrale

42 Quelques applications 37

La 2egraveme ameacutelioration concerne le positionnement des sources En incluant dans la transmission un critegravere de pertinence on peut savoir srsquoil est raisonnable de placer une sous-bande agrave un angle preacutecis ou bien si lrsquoanalyse eacutetait flou agrave son sujet auquel cas un positionnement impreacutecis serait preacutefeacuterable Le paramegravetre choisi est une combinaison des critegraveres eacutevoqueacutes en 342 il nous permet de placer la sous-bande de maniegravere plus ou moins prononceacutee

43 Comparaison avec une meacutethode existante Certains auteurs ont deacutejagrave essayeacute drsquoanalyser un contenu ambisonique pour

retrouver les positions des sources Ville Pulkki a ainsi deacutecrit dans [Pulkki and Faller 2006] une meacutethode drsquoanalyse du B-format baseacutee sur lrsquoeacutetude des amplitudes des signaux W X Y et Z

Figure 49 - X et Y dans le cas drsquoune sinusoiumlde placeacutee agrave 15deg (agrave gauche) et 120deg (agrave droite)

Les figures ci-dessus montrent les relations drsquoamplitudes (algeacutebriques) qui relient

X et Y agrave lrsquoangle de la source On voit que lrsquoanalyse de ces amplitudes respectives permet de retrouver la position de la source en effet on a pour une source unique les relations de lrsquoeacutequation (11) rappeleacutee ici

⎪⎪

⎪⎪

=

=

=

=

δ

δθ

δθ

sin2

cossin2

coscos2

SZ

SY

SX

SW

(41)

On peut donc theacuteoriquement retrouver les valeurs de θ et δ par relations

trigonomeacutetriques Ainsi on a

⎪⎪⎩

⎪⎪⎨

=

=

2)sin(

)tan(

WZ

XY

δ

θ (42)

Chapitre 4 Reacutesultats et applications 38

On peut donc trouver les angles θ et δ agrave π pregraves Pour lever lrsquoambiguiumlteacute une eacutetude de signe est neacutecessaire Mais dans le cas de θ le signe de X et de Y agrave δ fixeacute deacutepend aussi bien de θ que S Il faut srsquointeacuteresser aux signes de θcos et θsin crsquoest-agrave-dire

aux signes de WX et

WY Dans la pratique on srsquointeacuteressera aux signes de et

pour se preacutevenir des divisions par zeacuteros

XW sdot YW sdot

XW sdot et YW sdot sont proportionnels agrave toujours positif

2S

Les auteurs deacutecrivent eacutegalement dans leur article un critegravere appeleacute diffuseness qui

peut ecirctre compareacute agrave un critegravere de pertinence inverseacute Ce paramegravetre calculeacute par agrave 1 - R ougrave R est un rapport de normes est tregraves proche du critegravere de norme relative deacutecrit en 342 Il peut donc ecirctre utiliseacute de la mecircme faccedilon et permettre ainsi une pleine comparaison

Cette meacutethode a eacuteteacute impleacutementeacutee pour pouvoir ecirctre compareacutee avec la meacutethode

par ACP Tous les paramegravetres ont scrupuleusement eacuteteacute gardeacutes identiques et plusieurs reacuteglages ont eacuteteacute testeacutes Les courbes ci-dessous preacutesentent les reacutesultats des analyses de la scegravene deacutecrite en 332 avec un pas de 50ms un overlap de 50 un NFFT de 2048 et 40 bandes freacutequentielles Nous avons repreacutesenteacute tous les angles trouveacutes crsquoest-agrave-dire un par bande et par trame pour srsquoaffranchir de la seacutelection des k-moyennes

π

0

minusπ

Figure 410 - Angles trouveacutes par lrsquoalgorithme de [Pulkki and Faller 2006] Le diamegravetre du point correspondant agrave la pertinence

43 Comparaison avec une meacutethode existante 39

π

0

minusπ

Figure 411 - Angles trouveacutes par une ACP pour la mecircme scegravene On remarque que les points excentriques sont moins nombreux et plus rarement trouveacutes comme pertinents

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee

441 Position du problegraveme

Une application directe de ces analyses a eacuteteacute deacuteveloppeacutee pour la confeacuterence audio

spatialiseacutee La confeacuterence audio utilise en effet la spatialisation pour permettre une meilleure seacuteparation par lrsquooreille des diffeacuterents locuteurs Ainsi si plusieurs personnes parlent en mecircme temps il sera tregraves difficile de comprendre chacun individuellement si ces voix sont restitueacutees en mono mais on pourra focaliser lrsquoattention sur chacune drsquoentre elles si elles sont seacutepareacutees spatialement (crsquoest lrsquoeffet cocktail party [Cherry 1953])

Lrsquoobjectif eacutetait de veacuterifier qursquoil eacutetait possible de conserver la spatialisation drsquoune

confeacuterence en nrsquoayant transmis qursquoun downmix mono des signaux Ce concept semble se rapprocher de celui deacutecrit en 422 mais une diffeacuterence fondamentale les seacutepare la confeacuterence audio spatialiseacutee nrsquoest pas codeacutee au format ambisonic mais les signaux traiteacutes sont directement les sons provenant des diffeacuterents locuteurs crsquoest-agrave-dire les sources elles-mecircmes Ainsi lrsquoanalyse ne porte plus sur une scegravene spatialiseacutee mais sur des signaux seacutepareacutes Il nrsquoy a ainsi plus drsquoindices spatiaux agrave trouver

Avoir accegraves aux sources permet drsquoobtenir des informations plus preacutecises pour

permettre une seacuteparation apregraves la transmission Comme nous lrsquoavons vu lrsquoanalyse drsquoune scegravene spatialiseacutee ne permet que dans drsquoultimes cas agrave la seacuteparation des sources ce qui est ici notre point de deacutepart et sera en fait notre point drsquoarriveacutee En effet nous tenterons de retrouver les sources seacutepareacutees apregraves la transmission de maniegravere agrave pouvoir par la suite les spatialiser agrave loisir (voir Figure 413)

Chapitre 4 Reacutesultats et applications 40

442 Solution proposeacutee Les paramegravetres extraits ne sont donc plus des positions de sources Nous avons

choisi de mesurer puis transmettre lrsquoeacutenergie de chaque signal dans chaque sous-bande en parallegravele du downmix En effet une bonne seacuteparation sera possible si lrsquoon sait quelle proportion de chaque source compose chaque sous-bande du signal mono

Figure 412 - Scheacutema de principe drsquoune confeacuterence audio spatialiseacutee

Figure 413 - Scheacutema ameacutelioreacute (deacutebit reacuteduit)

en pointilleacutes informations compleacutementaires (eacutenergie) Lrsquoanalyse en sous-bandes a lieu dans le serveur (Figure 414) Celui-ci calcule

lrsquoeacutenergie de chaque signal dans chaque sous-bande sur une trame donneacutee Crsquoest ce paramegravetre qui associeacute au signal mono M permettra la seacuteparation des sources dans le terminal (Figure 415) Ce dernier reacutepartira en effet les diffeacuterentes sous-bandes vers chaque signal reconstitueacute proportionnellement agrave cette information pour reconstruire les 4 sources originales

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee 41

Figure 414 - Analyse principe de lrsquoencodage dans le serveur

Figure 415 - Synthegravese principe du deacutecodage dans le client

Afin de reacuteduire au maximum les informations compleacutementaires agrave transmettre on

peut remarquer qursquoau cours drsquoune confeacuterence audio on a tregraves souvent un seul locuteur les participants ne parlent que tregraves rarement tous en mecircme temps Ceci implique que les signaux en entreacutee sont tregraves souvent tous nuls sauf 1 et appliquer un seuil en entreacutee de lrsquoanalyse permet outre lrsquoallegravegement du traitement drsquoavoir moins de paramegravetres agrave transmettre

Ce scheacutema simplifieacute ne tient pas compte des problegravemes de phase rien nrsquoindique

que les eacutenergies des signaux srsquoajoutent bien dans chaque sous-bande lors du downmix on peut tregraves bien avoir des oppositions de phase La solution est drsquoeffectuer le downmix (la somme) des signaux dans chaque sous-bande en prenant soin drsquoavoir recaleacute les phases au preacutealable Ceci nrsquoa un sens que pour des bandes suffisamment eacutetroites Les deacutecalages temporels appliqueacutes pour le recalage sont alors des paramegravetres suppleacutementaires agrave transmettre et sont pris en compte lors de la synthegravese au niveau du reacutepartiteur qui repositionnera la phase de chaque trame pour chaque signal

Chapitre 4 Reacutesultats et applications 42

443 Bilan Le reacutesultat du deacutecodage a pu ecirctre eacutecouteacute de diffeacuterentes maniegraveres les sources

reconstitueacutees individuellement ensemble en steacutereacuteo drsquoamplitude et sur un systegraveme 51 On note que les sources ont eacuteteacute assez bien seacutepareacutees mais que des artefacts sont audibles en particulier lorsque le nombre de locuteurs simultaneacutes augmentent Ces artefacts sont un meacutelange des voix qui nrsquoest gecircnant que lorsqursquoon les eacutecoute de maniegravere seacutepareacutee En effet lrsquoeacutecoute simultaneacutee de ces signaux syntheacutetiseacutes mecircme placeacutes agrave des positions distinctes sur un systegraveme de diffusion multicanal est tout agrave fait satisfaisante

Ce proceacutedeacute pour pouvoir ecirctre appliqueacute doit fonctionner en temps-reacuteel Cette

contrainte nrsquoa pas du tout eacuteteacute prise en compte lrsquoobjectif eacutetant de valider la faisabiliteacute drsquoune reconstruction Les programmes sous Matlab nrsquoont pas eacuteteacute optimiseacutes et ne respectent pas cette contrainte

43

Conclusion Nous avons preacutesenteacute dans ce rapport le principe et lrsquoapplication de plusieurs

meacutethodes drsquoanalyses spatiales de scegravenes ambisoniques conccedilues et reacutealiseacutee pendant le stage Le format HOA est en effet une repreacutesentation du champ acoustique deacutecomposeacute sur une base drsquoharmoniques spheacuteriques jusqursquoagrave un certain ordre agrave la maniegravere drsquoun deacuteveloppement limiteacute Il contient donc de maniegravere indirecte des indications spatiales qursquoon peut extraire avec des analyses comme lrsquoanalyse en composantes principales

Ces analyses nous permettent de deacuteterminer les positions des sources qui

composent la scegravene sonore Nous avons appliqueacute les reacutesultats de ces analyses agrave 2 types de synthegravese lrsquoune destineacutee aux transmissions bas deacutebit lrsquoautre agrave un traitement de restitution de la preacutecision spatiale dans le cas ougrave des ordres supeacuterieurs dont le but est drsquoaffiner la perception de localisation nrsquoauraient pas pu ecirctre transmis Ces algorithmes par le codage drsquoinformations spatiales qursquoils permettent pourront trouver bien drsquoautres applications dans la transmission et le codage ougrave la description du contenu est de plus en plus utiliseacutee (comme par exemple dans la norme MPEG)

Des ameacuteliorations sont possibles sur plusieurs points tout drsquoabord lrsquoexploitation

de toutes les composantes de lrsquoACP est agrave lrsquoeacutetude et semble pouvoir donner des reacutesultats inteacuteressants Drsquoautre part on a vu que le reacutesultat final est tregraves deacutependant de la bonne convergence de lrsquoalgorithme des k-moyennes utiliseacute pour traiter les donneacutees brutes de lrsquoanalyse en sous-bandes Or cet algorithme neacutecessite des reacuteglages tregraves fins et une connaissance a priori du nombre de sources est presque indispensable Drsquoautres algorithmes plus complexes de suivi de formes pourraient ecirctre avantageusement utiliseacutes pour deacutetecter dans tous les angles trouveacutes lesquels sont susceptibles de former une trajectoire

45

Annexe A

Deacuteveloppement du champ acoustique en harmoniques spheacuteriques

A1 Eacutequation drsquoonde en coordonneacutees spheacuteriques On se place dans lrsquoespace euclidien agrave 3 dimensions muni drsquoun systegraveme de

coordonneacutees spheacuteriques Un point M y est repeacutereacute par son rayon r son azimut θ et son eacuteleacutevation δ tels que repreacutesenteacutes sur la figure ci-dessous

- r est la norme du vecteur position rr crsquoest-agrave-dire la distance OM - [20[ πθ isin est lrsquoangle formeacute par le projeteacute du point sur le plan xOy et lrsquoaxe Ox

- ]2

2

[ ππδ minusisin est lrsquoangle formeacute par le plan xOy et le vecteur position2

Figure A1 - Systegraveme de coordonneacutees spheacuteriques

2 Cet angle diffegravere de lrsquoangle polaire usuel δπϕ minus=

2 habituellement pris entre lrsquoaxe Oz et le

vecteur position

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 46

Les relations entre les coordonneacutees spheacuteriques et les coordonneacutees carteacutesiennes sont

⎪⎩

⎪⎨

===

δδθδθ

sincossincoscos

zryrx

(A1)

On srsquointeacuteresse dans ce repegravere agrave lrsquoeacutequation de propagation des ondes acoustiques

de pression On se place dans les conditions classiques drsquoacoustique lineacuteaire (les variations de p sont petites par rapport agrave la pression atmospheacuterique) en supposant que lrsquoair est un fluide parfait (on y neacutegligera les pheacutenomegravenes dissipatifs) Dans une reacutegion de lrsquoespace ne comprenant pas de sources lrsquoeacutequation drsquoonde srsquoeacutecrit alors

0)(12

2

2 =⎟⎟⎠

⎞⎜⎜⎝

⎛partpart

minus∆ trptc

r (A2)

p eacutetant la pression et c la vitesse de propagation du son dans lrsquoair

Cette eacutequation devient dans le domaine freacutequentiel lrsquoeacutequation de Helmholtz

( ) 0)(2 =+∆ ωrpk r (A3)

ck ω

= eacutetant le nombre drsquoonde

En coordonneacutees spheacuteriques cette eacutequation srsquoeacutecrit

0sin1sin

sin11 2

2

2

222

2 =⎥⎦

⎤⎢⎣

⎡+

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart pk

rrrr

rr δθθθ

θθ (A4)

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques Drsquoapregraves [Bruneau 1983] elle admet des solutions agrave variables seacutepareacutees de la forme

)()()( δθ ΦΘ= rRp (A5) Ces solutions sont respectivement - pour la partie radiale une combinaison des fonctions de Bessel spheacuteriques de

premiegravere et seconde espegravece3 jn et nn

)()()( krBnkrAjrR nn += (A6) 3 Les fonctions de Bessel spheacuteriques de seconde espegravece sont eacutegalement appeleacutees fonctions de

Neumann

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 47

Ces fonctions sont deacutefinies comme suit

(A7)

Figure A2 - Fonctions de Bessel spheacuteriques pour les ordres 0 agrave 5 )(krjm

- pour la partie azimutale les fonctions )(θΘ

)sin()cos()( 21 θθθ ncnc +=Θ (A8) Eacutetant donneacute la deacutefinition de lrsquoangle Θ celui-ci doit neacutecessairement ecirctre de

peacuteriode 2π ))2()(( πθθ +Θ=Θ ce qui impose agrave n drsquoecirctre entier

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 48

- pour la partie polaire les fonctions de Legendre associeacutees )(sinδmnP

nm

nn

mn dPdP

)(sin)(sinsin)(sin

δδ

δδ = pour ⎩⎨⎧

gt=

nmavecnm 321

(A9)

ougrave les )(sinδnP sont les polynocircmes de Legendre de degreacute n en δsin deacutefinis par reacutecurrence

( )

11

22

1

0

sin)12()(sin)1(

1cos321)(sin

sin)(sin0)(sin

minus+ minus+=+

minus=

==

mmm mPPmPmet

P

PP

δδ

ϕδ

δδδ

(A10)

et de formule geacuteneacuterale

mm

m

mm dd

mP )1(sin

)(sin21)(sin 2 minus= δ

δδ (A11)

On peut appliquer aux fonctions )(sinδmnP la semi-normalisation de Schmidt

)(sin)()()(sin~ δεδ mnnmn P

nmnmP

+minus

= ougrave 10 =ε et 2=nε pour 1gen (A12)

En appariant les fonctions polaires et azimutales on deacutefinit les harmoniques

spheacuteriques de degreacute et drsquoordre)1(mnY 0gem 4 mnn lele0 et de degreacute et

drsquoordre (voir Figure A3)

)1(minusmnY 1gem

mnn lele1

)(sin~)sin()(

)(sin~)cos()()1(

)1(

δθδθ

δθδθ

mnmn

mnmn

PnY

PnY

=

=minus

(A13)

4 En geacuteneacuteral lorsque le degreacute et lrsquoordre ne sont pas eacutevoqueacutes conjointement on parle par abus de langage drsquoharmoniques drsquoordre m plutocirct que de degreacute m

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 49

soit

1)(sin

)()()12(2sin)(

)(sin)()()12(2cos)(

1)(sin)1()1()12(cos)(

)1(

)1(

1)1(

1

gt

⎪⎪⎩

⎪⎪⎨

+minus

+=

+minus

+=

=+minus

+=

minus

npourP

nmnmmnY

PnmnmmnY

npourPmmmY

mnmn

mnmn

mm

δθδθ

δθδθ

δθδθ

(A14)

La solution angulaire geacuteneacuterale srsquoeacutecrit alors sous la forme drsquoun deacuteveloppement sur

la base drsquoharmoniques spheacuteriques

( ) ( )sum minus

=minus+=Θ

1

1)1()1()( n

m mnmnmnmnn YBYBθ (A15) La solution geacuteneacuterale est alors la seacuterie de Fourier-Bessel

sum sum sum+infin

= = plusmn=

=0 0 1

)()( )()()(m

m

nmnmnm

m YBkrjikrpσ

σσ δθδθ (A16)

ougrave

intint⎪⎩

⎪⎨⎧

minusisin

isin

plusmnplusmn =

]2

2

[

[20[

)1()1( )()1()(

1

ππδ

πθ

δθδθ

S

mnm

mmn dSYpkrji

B (A17)

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 50

Tableau A1 - Expressions analytiques des harmoniques spheacuteriques pour les ordres 0 agrave 3

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 51

Figure A3 - Repreacutesentation des harmoniques spheacuteriques pour les ordres m = 0 agrave 3 Les

couleurs rouge et bleu indiquent respectivement des valeurs positives et neacutegatives

53

Annexe B

Compleacutements theacuteoriques sur le deacutecodage HOA

B1 Vecteur veacutelociteacute et vecteur eacutenergie Le vecteur veacutelociteacute est un indice de la direction apparente drsquoune source introduit

par Gerzon [Gerzon 1992] Il se calcule comme le rapport de la vitesse particulaire sur la pression acoustique

)()(

)()(1

δθδθ

δθδθ

ρ rprp

ki

rprv

cV nabla

minus=minus=rrr

(B1)

Dans le cas drsquoune onde plane le vecteur veacutelociteacute V

rest ainsi directement un

vecteur unitaire orienteacute vers la direction de provenance de lrsquoonde En geacuteneacuteralisant agrave une superposition drsquoondes planes en phase ou opposition de phase eacutemises par L haut-parleurs agrave eacutequidistance du point drsquoobservation on obtient la formule suivante

VVL

ll

L

lll

urg

ugV r

rr

==

sum

sum

=

=

1

1 (B2)

ougrave deacutesigne la direction du llur egraveme haut-parleur auquel est associeacute le gain gl et Vr Vur correspondent respectivement agrave la norme et agrave la direction du vecteur veacutelociteacute

Le vecteur eacutenergie est un autre indice de direction Il est deacutefinit par

EEL

ll

L

lll

urg

ugE r

rr

==

sum

sum

=

=

1

2

1

2

(B3)

Annexe B Compleacutements theacuteoriques sur le deacutecodage HOA 54

Il peut srsquointerpreacuteter comme une indication de la concentration de lrsquoeacutenergie ( ) et de sa direction moyenne de provenance (

Er

Eur ) On a toujours 1ltEr sauf dans le cas ougrave un seul haut-parleur contribue agrave la reconstruction (dans ce cas ) peut ecirctre consideacutereacute comme un indicateur de preacutecision de la localisation

1=Er Er

B2 Deacutecodages optimiseacutes La restitution la plus confortable drsquoun champ sonore veillera donc agrave maximiser

tout en essayant de garder le plus proche possible de 1 Lrsquooptimisation du deacutecodage consiste alors agrave multiplier chaque coefficient de la matrice de deacutecodage D (voir (111) par des gains calculeacutes drsquoapregraves des critegraveres drsquooptimisation

Er Vr

Ainsi le deacutecodage appeleacute max- maximise la norme du vecteur eacutenergie en

sacrifiant celle du vecteur veacutelociteacute puisqursquoon a dans ce deacutecodage (pour des configurations reacuteguliegraveres de haut-parleurs) Ce deacutecodage est donc avantageux par rapport au deacutecodage basique pour les hautes freacutequences ou dans le cas drsquoun auditoire eacutelargi Le deacutecodage in-phase va encore plus loin en cherchant agrave annuler complegravetement les contributions des haut-parleurs placeacutes agrave lrsquoopposeacute de la direction de provenance de lrsquoonde reproduite Ce critegravere est utile dans le cas drsquoune eacutecoute dans une position tregraves excentreacutee agrave laquelle on pourrait percevoir de faccedilon preacutedominante la contribution en opposition de phase drsquoun tel haut-parleur

Er

EV rr =

Ces diffeacuterents deacutecodages ont chacun des avantages et inconveacutenients Ainsi seul le

deacutecodage basique garantit = 1 le deacutecodage max- permet une preacutecision meilleure notamment en haute freacutequence et le deacutecodage in-phase est plus adapteacute agrave un auditoire plus large Jeacuterocircme Daniel [Daniel 2000] propose ainsi de changer le deacutecodage en fonction de la freacutequence et de lrsquoeacutetendue de la zone drsquoeacutecoute deacutesireacutee

Vr Er

Figure B1 - Deacutecodages les plus approprieacutes par sous-bande et en fonction de lrsquoeacutetendue de la

zone drsquoeacutecoute [Daniel 2000]

55

Annexe C

Analyse en composantes principales

C1 Espace des donneacutees Eacutegalement souvent appeleacutee transformeacutee de Karhunen-Loegraveve5 (TKL) lrsquoanalyse en

composantes principales (ACP) est une technique statistique de repreacutesentation drsquoinformation Introduite sur 2 variables par Pearson [Pearson 1900] elle a eacuteteacute eacutetendue par Hotelling [Hotelling 1933] Elle a pour but de caracteacuteriser des donneacutees drsquoun espace agrave N dimensions dans un sous-espace plus petit en minimisant les pertes drsquoinformation due agrave la projection crsquoest-agrave-dire en maximisant la variance projeteacutee Les donneacutees ainsi reacuteorganiseacutees deviennent indeacutependantes Les variables correacuteleacutees sont remplaceacutees par de nouvelles variables deacutecorreacuteleacutees et de variance maximale combinaisons lineacuteaires des variables initiales

Les donneacutees sont constitueacutees de n variables aleacuteatoires (dans notre cas des canaux)

et p reacutealisations ou individus (des eacutechantillons)

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

pn

p

ji

n

xx

x

xx

M

LLL

MOMNM

MLLM

MNMOM

LLL

1

111

(C1)

Ces donneacutees sont geacuteneacuteralement centreacutees et peuvent aussi ecirctre reacuteduites4 (on note

1x la moyenne de la variable et 1x )( 1xσ sa variance) Reacuteduire ou non le nuage de points (ie les p reacutealisations de la variable aleacuteatoire) est un choix de modegravele

5 Quelques rares sources mentionnent une diffeacuterence entre ACP et TKL en placcedilant celle-ci au

niveau du choix de la reacuteduction des donneacutees dans le cas dune ACP les donneacutees seraient centreacutees et reacuteduites alors qursquoelles seraient uniquement centreacutees pour une TKL

Annexe C Analyse en composantes principales 56

- si on ne reacuteduit pas le nuage une variable agrave forte variance pourrait tirer tout lrsquoeffet de lrsquoACP agrave elle

- si on reacuteduit le nuage une variable qui ne serait qursquoun bruit se retrouverait avec une variance apparente eacutegale agrave une variable informative

M est centreacutee

⎥⎥⎥

⎢⎢⎢

minusminusminus

minusminus=

npn

pi

ji

nn

xxxxxx

xxxxM

K

MM

K

11

11

11

ˆ (C2)

M~ est centreacutee et reacuteduite

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

minusminus

minus

minusminus

=

)()(

)(

)()(~

1

11

1

1

111

n

npn

pi

ij

i

n

nn

xxx

xxx

xxx

xxx

xxx

M

σσ

σ

σσ

K

MM

K

(C3)

On multiplie ensuite la matrice obtenue par sa transposeacutee pour obtenir - La matrice de covariance MMC t

vˆˆ sdot=

- La matrice de correacutelation MMC tr

~~ sdot= Ces matrices sont carreacutees (N x N) symeacutetriques et reacuteelles Elles sont donc

diagonalisables dans une base orthonormeacutee 6 Le principe de lrsquoACP est alors de trouver un axe u issu drsquoune combinaison lineacuteaire

des tel que le critegravere drsquoinertie du nuage autour de cet axe soit maximal Le critegravere drsquoinertie couramment utiliseacute est la variance Il faut donc trouver lrsquoaxe qui porte le maximum de variance crsquoest-agrave-dire lrsquoaxe u tel que la projection du nuage sur cet axe ait une variance maximale

nx

6 Nos donneacutees eacutetant ici des valeurs drsquoeacutechantillons elles sont par nature centreacutees et reacuteduites On

formera donc naturellement la matrice de correacutelation

C2 Diagonalisation 57

C2 Diagonalisation Pour alleacuteger lrsquoeacutecriture de la suite de cette partie nous consideacutererons que les

variables ont eacuteteacute centreacutees et si besoin reacuteduites et nous noterons ces variables

transformeacutees (ainsi

ix ix

iii xxx minuslarr ou bien )( i

iii x

xxxσ

minuslarr ) On fera de mecircme pour M

( ou bien MM ˆlarr MM ~larr ) et C ( vCC larr ou bien rCC larr ) La projection drsquoun eacutechantillon sur un axe u srsquoeacutecrit ix

uMxiu sdot=)(π (C4) La variance empirique de )( iu xπ vaut donc

uMMuxx ttiu

tiu sdotsdotsdot=sdot )()( ππ (C5)

Or on a vu que est diagonalisable dans une base orthonormeacutee donc

on peut noter P le changement de base associeacute et ∆ la matrice diagonale formeacutee de son spectre Ainsi

MMC t=

n

i 1)(λ PPMMC tt ∆==

)()()()( PuPuuPPuxx ttt

iut

iu sdot∆sdot=sdot∆sdot=sdotππ (C6) On pose v = Pu Chercher lrsquoaxe u qui maximise )( iu xπ revient donc agrave chercher le

vecteur v qui maximise ougravevvt ∆ )( 1 ndiag λλ K=∆ avec les iλ rangeacutes par ordre deacutecroissant Ce vecteur est trivialement le premier vecteur unitaire et on a alors

1λ=∆vvt

Ainsi le vecteur qui porte la plus grande part drsquoinertie du nuage est le premier

vecteur propre de C (premier par norme deacutecroissante) De mecircme le deuxiegraveme vecteur qui explique la plus grandelt part de lrsquoinertie restante est le deuxiegraveme vecteur propre de C Finalement la question de lrsquoACP se ramegravene agrave un problegraveme de diagonalisation de la matrice de correacutelation

C3 Code Matlab

function [vep vap] = pca(f N) f donneacutees N nombre de composantes agrave garder cor = f f formation de la matrice de correacutelation [vep vap] = eig(cor) calcul des vecteurs (vep) et valeurs (vap) propres [vap ind] = sort(diag(vap)) tri des valeurs propres par ordre croissant vap = flipud(vap) disposition inverse par ordre drsquoimportance vep = vep( flipud(ind)) classement en conseacutequence des vecteurs propres vep = vep( 1N) on ne garde que les N premiers vecteurs propres

Annexe C Analyse en composantes principales 58

59

Annexe D

Analyse en sous-bandes

D1 La transformeacutee de Fourier agrave court terme (TFCT) Pour affiner lrsquoanalyse les signaux sont donc deacutecoupeacutes en bandes de freacutequence par

TFCT La TFCT consiste agrave effectuer des transformeacutees de Fourier discregravetes sur des portions de signal fenecirctreacutees reacuteguliegraverement espaceacutees

On rappelle que la transformeacutee de Fourier drsquoun signal x(t) est deacutefinie (lorsque

lrsquointeacutegrale existe) par

int+infin

infinminus

minus= dtetxfX ftiπ2)()( (D1)

La transformeacutee de Fourier agrave temps discret (TFTD) drsquoun signal x(t) srsquoeacutecrit

sum+infin

minusinfin=

minus=n

fnienxfX π2)()( (D2)

La transformeacutee de Fourier discregravete (TFD) drsquoun signal discret x(k) est deacutefinie par

sum+infin

minusinfin=

minus=

n

Nkni

enxkXπ2

)()( (D3)

La TFCT discregravete est une TFD observeacutee sur une fenecirctre wa de taille N

summinus

=

minus+=

1

0

2)())(()(

N

n

Nnki

aaa enwtnxkXπ

ττ (D4)

ougrave )(taτ est lrsquoinstant drsquoanalyse

Annexe D Analyse en sous-bandes 60

Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT [Laroche 1995]

D2 Synthegravese par addition-recouvrement Lors de la synthegravese apregraves le deacutecoupage et lrsquoanalyse des fenecirctres on cherche agrave

reconstruire le signal temporel agrave partir de sa repreacutesentation freacutequentielle Pour cela on utilise la meacutethode OLA (overlap and add addition-recouvrement) qui consiste agrave prendre la TFCT inverse des spectres Xt puis agrave additionner les signaux obtenus apregraves les avoir multiplieacutes par une fenecirctre de pondeacuteration en les faisant se recouvrir partiellement

Le reacutesultat est donneacute par

sum=

minusminus=T

tsss tnxtnwnx

s1

))((~))(()(~ ττ τ (D5)

avec )()( tt as ττ = et summinus

=

=1

0

2))((~1)(~ N

k

Nkni

s ektXN

nxs

π

τ τ

Lors de la mise en œuvre de ce traitement il faut srsquoassurer drsquoecirctre en mesure de

reconstruire parfaitement un signal lorsqursquoaucune transformation ne lui est appliqueacutee Le critegravere de reconstruction parfaite condition suffisante est alors

sum=

=minusminusT

tasaa tnwtnw

11))(())(( ττ quelque soit n (D6)

D2 Synthegravese par addition-recouvrement 61

Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add [Laroche 1995]

Plusieurs paramegravetres sont agrave choisir avec soin Le premier drsquoentre eux est le type

de fenecirctre agrave utiliser Les diffeacuterentes options qui se preacutesentent agrave nous sont - la fenecirctre rectangulaire qui preacutesente dans son spectre le lobe principal le plus

eacutetroit mais des lobes secondaires non neacutegligeables - la fenecirctre de Hamming au lobe principal un peu plus large mais pour laquelle le

1er lobe secondaire se situe agrave -43 dB - la fenecirctre de Hann (ou cosinus sureacuteleveacute) qui ressemble agrave la preacuteceacutedente avec un

1er lobe secondaire plus fort mais une pente de 18 dB par octave pour les lobes suivants

- les fenecirctres de Blackman-Harris aux lobes secondaires tregraves bas mais au lobe principal plus large

Fenecirctre Lobe 2aire

(dB) Pente

(dBoct) Bande passante

agrave 6 dB (bins) Rectangulaire -13 -6 121 Triangulaire -27 -12 178

Hann -32 -18 200 Hamming -43 -6 181

Blackman-Harris 4 -92 -6 272

Tableau D1 - Caracteacuteristiques des principales fenecirctres drsquoanalyse [Harris 1978] Le meilleur compromis est donc dans notre contexte la fenecirctre de Hann ou celle

de Hamming

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 43: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

42 Quelques applications 37

La 2egraveme ameacutelioration concerne le positionnement des sources En incluant dans la transmission un critegravere de pertinence on peut savoir srsquoil est raisonnable de placer une sous-bande agrave un angle preacutecis ou bien si lrsquoanalyse eacutetait flou agrave son sujet auquel cas un positionnement impreacutecis serait preacutefeacuterable Le paramegravetre choisi est une combinaison des critegraveres eacutevoqueacutes en 342 il nous permet de placer la sous-bande de maniegravere plus ou moins prononceacutee

43 Comparaison avec une meacutethode existante Certains auteurs ont deacutejagrave essayeacute drsquoanalyser un contenu ambisonique pour

retrouver les positions des sources Ville Pulkki a ainsi deacutecrit dans [Pulkki and Faller 2006] une meacutethode drsquoanalyse du B-format baseacutee sur lrsquoeacutetude des amplitudes des signaux W X Y et Z

Figure 49 - X et Y dans le cas drsquoune sinusoiumlde placeacutee agrave 15deg (agrave gauche) et 120deg (agrave droite)

Les figures ci-dessus montrent les relations drsquoamplitudes (algeacutebriques) qui relient

X et Y agrave lrsquoangle de la source On voit que lrsquoanalyse de ces amplitudes respectives permet de retrouver la position de la source en effet on a pour une source unique les relations de lrsquoeacutequation (11) rappeleacutee ici

⎪⎪

⎪⎪

=

=

=

=

δ

δθ

δθ

sin2

cossin2

coscos2

SZ

SY

SX

SW

(41)

On peut donc theacuteoriquement retrouver les valeurs de θ et δ par relations

trigonomeacutetriques Ainsi on a

⎪⎪⎩

⎪⎪⎨

=

=

2)sin(

)tan(

WZ

XY

δ

θ (42)

Chapitre 4 Reacutesultats et applications 38

On peut donc trouver les angles θ et δ agrave π pregraves Pour lever lrsquoambiguiumlteacute une eacutetude de signe est neacutecessaire Mais dans le cas de θ le signe de X et de Y agrave δ fixeacute deacutepend aussi bien de θ que S Il faut srsquointeacuteresser aux signes de θcos et θsin crsquoest-agrave-dire

aux signes de WX et

WY Dans la pratique on srsquointeacuteressera aux signes de et

pour se preacutevenir des divisions par zeacuteros

XW sdot YW sdot

XW sdot et YW sdot sont proportionnels agrave toujours positif

2S

Les auteurs deacutecrivent eacutegalement dans leur article un critegravere appeleacute diffuseness qui

peut ecirctre compareacute agrave un critegravere de pertinence inverseacute Ce paramegravetre calculeacute par agrave 1 - R ougrave R est un rapport de normes est tregraves proche du critegravere de norme relative deacutecrit en 342 Il peut donc ecirctre utiliseacute de la mecircme faccedilon et permettre ainsi une pleine comparaison

Cette meacutethode a eacuteteacute impleacutementeacutee pour pouvoir ecirctre compareacutee avec la meacutethode

par ACP Tous les paramegravetres ont scrupuleusement eacuteteacute gardeacutes identiques et plusieurs reacuteglages ont eacuteteacute testeacutes Les courbes ci-dessous preacutesentent les reacutesultats des analyses de la scegravene deacutecrite en 332 avec un pas de 50ms un overlap de 50 un NFFT de 2048 et 40 bandes freacutequentielles Nous avons repreacutesenteacute tous les angles trouveacutes crsquoest-agrave-dire un par bande et par trame pour srsquoaffranchir de la seacutelection des k-moyennes

π

0

minusπ

Figure 410 - Angles trouveacutes par lrsquoalgorithme de [Pulkki and Faller 2006] Le diamegravetre du point correspondant agrave la pertinence

43 Comparaison avec une meacutethode existante 39

π

0

minusπ

Figure 411 - Angles trouveacutes par une ACP pour la mecircme scegravene On remarque que les points excentriques sont moins nombreux et plus rarement trouveacutes comme pertinents

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee

441 Position du problegraveme

Une application directe de ces analyses a eacuteteacute deacuteveloppeacutee pour la confeacuterence audio

spatialiseacutee La confeacuterence audio utilise en effet la spatialisation pour permettre une meilleure seacuteparation par lrsquooreille des diffeacuterents locuteurs Ainsi si plusieurs personnes parlent en mecircme temps il sera tregraves difficile de comprendre chacun individuellement si ces voix sont restitueacutees en mono mais on pourra focaliser lrsquoattention sur chacune drsquoentre elles si elles sont seacutepareacutees spatialement (crsquoest lrsquoeffet cocktail party [Cherry 1953])

Lrsquoobjectif eacutetait de veacuterifier qursquoil eacutetait possible de conserver la spatialisation drsquoune

confeacuterence en nrsquoayant transmis qursquoun downmix mono des signaux Ce concept semble se rapprocher de celui deacutecrit en 422 mais une diffeacuterence fondamentale les seacutepare la confeacuterence audio spatialiseacutee nrsquoest pas codeacutee au format ambisonic mais les signaux traiteacutes sont directement les sons provenant des diffeacuterents locuteurs crsquoest-agrave-dire les sources elles-mecircmes Ainsi lrsquoanalyse ne porte plus sur une scegravene spatialiseacutee mais sur des signaux seacutepareacutes Il nrsquoy a ainsi plus drsquoindices spatiaux agrave trouver

Avoir accegraves aux sources permet drsquoobtenir des informations plus preacutecises pour

permettre une seacuteparation apregraves la transmission Comme nous lrsquoavons vu lrsquoanalyse drsquoune scegravene spatialiseacutee ne permet que dans drsquoultimes cas agrave la seacuteparation des sources ce qui est ici notre point de deacutepart et sera en fait notre point drsquoarriveacutee En effet nous tenterons de retrouver les sources seacutepareacutees apregraves la transmission de maniegravere agrave pouvoir par la suite les spatialiser agrave loisir (voir Figure 413)

Chapitre 4 Reacutesultats et applications 40

442 Solution proposeacutee Les paramegravetres extraits ne sont donc plus des positions de sources Nous avons

choisi de mesurer puis transmettre lrsquoeacutenergie de chaque signal dans chaque sous-bande en parallegravele du downmix En effet une bonne seacuteparation sera possible si lrsquoon sait quelle proportion de chaque source compose chaque sous-bande du signal mono

Figure 412 - Scheacutema de principe drsquoune confeacuterence audio spatialiseacutee

Figure 413 - Scheacutema ameacutelioreacute (deacutebit reacuteduit)

en pointilleacutes informations compleacutementaires (eacutenergie) Lrsquoanalyse en sous-bandes a lieu dans le serveur (Figure 414) Celui-ci calcule

lrsquoeacutenergie de chaque signal dans chaque sous-bande sur une trame donneacutee Crsquoest ce paramegravetre qui associeacute au signal mono M permettra la seacuteparation des sources dans le terminal (Figure 415) Ce dernier reacutepartira en effet les diffeacuterentes sous-bandes vers chaque signal reconstitueacute proportionnellement agrave cette information pour reconstruire les 4 sources originales

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee 41

Figure 414 - Analyse principe de lrsquoencodage dans le serveur

Figure 415 - Synthegravese principe du deacutecodage dans le client

Afin de reacuteduire au maximum les informations compleacutementaires agrave transmettre on

peut remarquer qursquoau cours drsquoune confeacuterence audio on a tregraves souvent un seul locuteur les participants ne parlent que tregraves rarement tous en mecircme temps Ceci implique que les signaux en entreacutee sont tregraves souvent tous nuls sauf 1 et appliquer un seuil en entreacutee de lrsquoanalyse permet outre lrsquoallegravegement du traitement drsquoavoir moins de paramegravetres agrave transmettre

Ce scheacutema simplifieacute ne tient pas compte des problegravemes de phase rien nrsquoindique

que les eacutenergies des signaux srsquoajoutent bien dans chaque sous-bande lors du downmix on peut tregraves bien avoir des oppositions de phase La solution est drsquoeffectuer le downmix (la somme) des signaux dans chaque sous-bande en prenant soin drsquoavoir recaleacute les phases au preacutealable Ceci nrsquoa un sens que pour des bandes suffisamment eacutetroites Les deacutecalages temporels appliqueacutes pour le recalage sont alors des paramegravetres suppleacutementaires agrave transmettre et sont pris en compte lors de la synthegravese au niveau du reacutepartiteur qui repositionnera la phase de chaque trame pour chaque signal

Chapitre 4 Reacutesultats et applications 42

443 Bilan Le reacutesultat du deacutecodage a pu ecirctre eacutecouteacute de diffeacuterentes maniegraveres les sources

reconstitueacutees individuellement ensemble en steacutereacuteo drsquoamplitude et sur un systegraveme 51 On note que les sources ont eacuteteacute assez bien seacutepareacutees mais que des artefacts sont audibles en particulier lorsque le nombre de locuteurs simultaneacutes augmentent Ces artefacts sont un meacutelange des voix qui nrsquoest gecircnant que lorsqursquoon les eacutecoute de maniegravere seacutepareacutee En effet lrsquoeacutecoute simultaneacutee de ces signaux syntheacutetiseacutes mecircme placeacutes agrave des positions distinctes sur un systegraveme de diffusion multicanal est tout agrave fait satisfaisante

Ce proceacutedeacute pour pouvoir ecirctre appliqueacute doit fonctionner en temps-reacuteel Cette

contrainte nrsquoa pas du tout eacuteteacute prise en compte lrsquoobjectif eacutetant de valider la faisabiliteacute drsquoune reconstruction Les programmes sous Matlab nrsquoont pas eacuteteacute optimiseacutes et ne respectent pas cette contrainte

43

Conclusion Nous avons preacutesenteacute dans ce rapport le principe et lrsquoapplication de plusieurs

meacutethodes drsquoanalyses spatiales de scegravenes ambisoniques conccedilues et reacutealiseacutee pendant le stage Le format HOA est en effet une repreacutesentation du champ acoustique deacutecomposeacute sur une base drsquoharmoniques spheacuteriques jusqursquoagrave un certain ordre agrave la maniegravere drsquoun deacuteveloppement limiteacute Il contient donc de maniegravere indirecte des indications spatiales qursquoon peut extraire avec des analyses comme lrsquoanalyse en composantes principales

Ces analyses nous permettent de deacuteterminer les positions des sources qui

composent la scegravene sonore Nous avons appliqueacute les reacutesultats de ces analyses agrave 2 types de synthegravese lrsquoune destineacutee aux transmissions bas deacutebit lrsquoautre agrave un traitement de restitution de la preacutecision spatiale dans le cas ougrave des ordres supeacuterieurs dont le but est drsquoaffiner la perception de localisation nrsquoauraient pas pu ecirctre transmis Ces algorithmes par le codage drsquoinformations spatiales qursquoils permettent pourront trouver bien drsquoautres applications dans la transmission et le codage ougrave la description du contenu est de plus en plus utiliseacutee (comme par exemple dans la norme MPEG)

Des ameacuteliorations sont possibles sur plusieurs points tout drsquoabord lrsquoexploitation

de toutes les composantes de lrsquoACP est agrave lrsquoeacutetude et semble pouvoir donner des reacutesultats inteacuteressants Drsquoautre part on a vu que le reacutesultat final est tregraves deacutependant de la bonne convergence de lrsquoalgorithme des k-moyennes utiliseacute pour traiter les donneacutees brutes de lrsquoanalyse en sous-bandes Or cet algorithme neacutecessite des reacuteglages tregraves fins et une connaissance a priori du nombre de sources est presque indispensable Drsquoautres algorithmes plus complexes de suivi de formes pourraient ecirctre avantageusement utiliseacutes pour deacutetecter dans tous les angles trouveacutes lesquels sont susceptibles de former une trajectoire

45

Annexe A

Deacuteveloppement du champ acoustique en harmoniques spheacuteriques

A1 Eacutequation drsquoonde en coordonneacutees spheacuteriques On se place dans lrsquoespace euclidien agrave 3 dimensions muni drsquoun systegraveme de

coordonneacutees spheacuteriques Un point M y est repeacutereacute par son rayon r son azimut θ et son eacuteleacutevation δ tels que repreacutesenteacutes sur la figure ci-dessous

- r est la norme du vecteur position rr crsquoest-agrave-dire la distance OM - [20[ πθ isin est lrsquoangle formeacute par le projeteacute du point sur le plan xOy et lrsquoaxe Ox

- ]2

2

[ ππδ minusisin est lrsquoangle formeacute par le plan xOy et le vecteur position2

Figure A1 - Systegraveme de coordonneacutees spheacuteriques

2 Cet angle diffegravere de lrsquoangle polaire usuel δπϕ minus=

2 habituellement pris entre lrsquoaxe Oz et le

vecteur position

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 46

Les relations entre les coordonneacutees spheacuteriques et les coordonneacutees carteacutesiennes sont

⎪⎩

⎪⎨

===

δδθδθ

sincossincoscos

zryrx

(A1)

On srsquointeacuteresse dans ce repegravere agrave lrsquoeacutequation de propagation des ondes acoustiques

de pression On se place dans les conditions classiques drsquoacoustique lineacuteaire (les variations de p sont petites par rapport agrave la pression atmospheacuterique) en supposant que lrsquoair est un fluide parfait (on y neacutegligera les pheacutenomegravenes dissipatifs) Dans une reacutegion de lrsquoespace ne comprenant pas de sources lrsquoeacutequation drsquoonde srsquoeacutecrit alors

0)(12

2

2 =⎟⎟⎠

⎞⎜⎜⎝

⎛partpart

minus∆ trptc

r (A2)

p eacutetant la pression et c la vitesse de propagation du son dans lrsquoair

Cette eacutequation devient dans le domaine freacutequentiel lrsquoeacutequation de Helmholtz

( ) 0)(2 =+∆ ωrpk r (A3)

ck ω

= eacutetant le nombre drsquoonde

En coordonneacutees spheacuteriques cette eacutequation srsquoeacutecrit

0sin1sin

sin11 2

2

2

222

2 =⎥⎦

⎤⎢⎣

⎡+

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart pk

rrrr

rr δθθθ

θθ (A4)

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques Drsquoapregraves [Bruneau 1983] elle admet des solutions agrave variables seacutepareacutees de la forme

)()()( δθ ΦΘ= rRp (A5) Ces solutions sont respectivement - pour la partie radiale une combinaison des fonctions de Bessel spheacuteriques de

premiegravere et seconde espegravece3 jn et nn

)()()( krBnkrAjrR nn += (A6) 3 Les fonctions de Bessel spheacuteriques de seconde espegravece sont eacutegalement appeleacutees fonctions de

Neumann

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 47

Ces fonctions sont deacutefinies comme suit

(A7)

Figure A2 - Fonctions de Bessel spheacuteriques pour les ordres 0 agrave 5 )(krjm

- pour la partie azimutale les fonctions )(θΘ

)sin()cos()( 21 θθθ ncnc +=Θ (A8) Eacutetant donneacute la deacutefinition de lrsquoangle Θ celui-ci doit neacutecessairement ecirctre de

peacuteriode 2π ))2()(( πθθ +Θ=Θ ce qui impose agrave n drsquoecirctre entier

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 48

- pour la partie polaire les fonctions de Legendre associeacutees )(sinδmnP

nm

nn

mn dPdP

)(sin)(sinsin)(sin

δδ

δδ = pour ⎩⎨⎧

gt=

nmavecnm 321

(A9)

ougrave les )(sinδnP sont les polynocircmes de Legendre de degreacute n en δsin deacutefinis par reacutecurrence

( )

11

22

1

0

sin)12()(sin)1(

1cos321)(sin

sin)(sin0)(sin

minus+ minus+=+

minus=

==

mmm mPPmPmet

P

PP

δδ

ϕδ

δδδ

(A10)

et de formule geacuteneacuterale

mm

m

mm dd

mP )1(sin

)(sin21)(sin 2 minus= δ

δδ (A11)

On peut appliquer aux fonctions )(sinδmnP la semi-normalisation de Schmidt

)(sin)()()(sin~ δεδ mnnmn P

nmnmP

+minus

= ougrave 10 =ε et 2=nε pour 1gen (A12)

En appariant les fonctions polaires et azimutales on deacutefinit les harmoniques

spheacuteriques de degreacute et drsquoordre)1(mnY 0gem 4 mnn lele0 et de degreacute et

drsquoordre (voir Figure A3)

)1(minusmnY 1gem

mnn lele1

)(sin~)sin()(

)(sin~)cos()()1(

)1(

δθδθ

δθδθ

mnmn

mnmn

PnY

PnY

=

=minus

(A13)

4 En geacuteneacuteral lorsque le degreacute et lrsquoordre ne sont pas eacutevoqueacutes conjointement on parle par abus de langage drsquoharmoniques drsquoordre m plutocirct que de degreacute m

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 49

soit

1)(sin

)()()12(2sin)(

)(sin)()()12(2cos)(

1)(sin)1()1()12(cos)(

)1(

)1(

1)1(

1

gt

⎪⎪⎩

⎪⎪⎨

+minus

+=

+minus

+=

=+minus

+=

minus

npourP

nmnmmnY

PnmnmmnY

npourPmmmY

mnmn

mnmn

mm

δθδθ

δθδθ

δθδθ

(A14)

La solution angulaire geacuteneacuterale srsquoeacutecrit alors sous la forme drsquoun deacuteveloppement sur

la base drsquoharmoniques spheacuteriques

( ) ( )sum minus

=minus+=Θ

1

1)1()1()( n

m mnmnmnmnn YBYBθ (A15) La solution geacuteneacuterale est alors la seacuterie de Fourier-Bessel

sum sum sum+infin

= = plusmn=

=0 0 1

)()( )()()(m

m

nmnmnm

m YBkrjikrpσ

σσ δθδθ (A16)

ougrave

intint⎪⎩

⎪⎨⎧

minusisin

isin

plusmnplusmn =

]2

2

[

[20[

)1()1( )()1()(

1

ππδ

πθ

δθδθ

S

mnm

mmn dSYpkrji

B (A17)

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 50

Tableau A1 - Expressions analytiques des harmoniques spheacuteriques pour les ordres 0 agrave 3

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 51

Figure A3 - Repreacutesentation des harmoniques spheacuteriques pour les ordres m = 0 agrave 3 Les

couleurs rouge et bleu indiquent respectivement des valeurs positives et neacutegatives

53

Annexe B

Compleacutements theacuteoriques sur le deacutecodage HOA

B1 Vecteur veacutelociteacute et vecteur eacutenergie Le vecteur veacutelociteacute est un indice de la direction apparente drsquoune source introduit

par Gerzon [Gerzon 1992] Il se calcule comme le rapport de la vitesse particulaire sur la pression acoustique

)()(

)()(1

δθδθ

δθδθ

ρ rprp

ki

rprv

cV nabla

minus=minus=rrr

(B1)

Dans le cas drsquoune onde plane le vecteur veacutelociteacute V

rest ainsi directement un

vecteur unitaire orienteacute vers la direction de provenance de lrsquoonde En geacuteneacuteralisant agrave une superposition drsquoondes planes en phase ou opposition de phase eacutemises par L haut-parleurs agrave eacutequidistance du point drsquoobservation on obtient la formule suivante

VVL

ll

L

lll

urg

ugV r

rr

==

sum

sum

=

=

1

1 (B2)

ougrave deacutesigne la direction du llur egraveme haut-parleur auquel est associeacute le gain gl et Vr Vur correspondent respectivement agrave la norme et agrave la direction du vecteur veacutelociteacute

Le vecteur eacutenergie est un autre indice de direction Il est deacutefinit par

EEL

ll

L

lll

urg

ugE r

rr

==

sum

sum

=

=

1

2

1

2

(B3)

Annexe B Compleacutements theacuteoriques sur le deacutecodage HOA 54

Il peut srsquointerpreacuteter comme une indication de la concentration de lrsquoeacutenergie ( ) et de sa direction moyenne de provenance (

Er

Eur ) On a toujours 1ltEr sauf dans le cas ougrave un seul haut-parleur contribue agrave la reconstruction (dans ce cas ) peut ecirctre consideacutereacute comme un indicateur de preacutecision de la localisation

1=Er Er

B2 Deacutecodages optimiseacutes La restitution la plus confortable drsquoun champ sonore veillera donc agrave maximiser

tout en essayant de garder le plus proche possible de 1 Lrsquooptimisation du deacutecodage consiste alors agrave multiplier chaque coefficient de la matrice de deacutecodage D (voir (111) par des gains calculeacutes drsquoapregraves des critegraveres drsquooptimisation

Er Vr

Ainsi le deacutecodage appeleacute max- maximise la norme du vecteur eacutenergie en

sacrifiant celle du vecteur veacutelociteacute puisqursquoon a dans ce deacutecodage (pour des configurations reacuteguliegraveres de haut-parleurs) Ce deacutecodage est donc avantageux par rapport au deacutecodage basique pour les hautes freacutequences ou dans le cas drsquoun auditoire eacutelargi Le deacutecodage in-phase va encore plus loin en cherchant agrave annuler complegravetement les contributions des haut-parleurs placeacutes agrave lrsquoopposeacute de la direction de provenance de lrsquoonde reproduite Ce critegravere est utile dans le cas drsquoune eacutecoute dans une position tregraves excentreacutee agrave laquelle on pourrait percevoir de faccedilon preacutedominante la contribution en opposition de phase drsquoun tel haut-parleur

Er

EV rr =

Ces diffeacuterents deacutecodages ont chacun des avantages et inconveacutenients Ainsi seul le

deacutecodage basique garantit = 1 le deacutecodage max- permet une preacutecision meilleure notamment en haute freacutequence et le deacutecodage in-phase est plus adapteacute agrave un auditoire plus large Jeacuterocircme Daniel [Daniel 2000] propose ainsi de changer le deacutecodage en fonction de la freacutequence et de lrsquoeacutetendue de la zone drsquoeacutecoute deacutesireacutee

Vr Er

Figure B1 - Deacutecodages les plus approprieacutes par sous-bande et en fonction de lrsquoeacutetendue de la

zone drsquoeacutecoute [Daniel 2000]

55

Annexe C

Analyse en composantes principales

C1 Espace des donneacutees Eacutegalement souvent appeleacutee transformeacutee de Karhunen-Loegraveve5 (TKL) lrsquoanalyse en

composantes principales (ACP) est une technique statistique de repreacutesentation drsquoinformation Introduite sur 2 variables par Pearson [Pearson 1900] elle a eacuteteacute eacutetendue par Hotelling [Hotelling 1933] Elle a pour but de caracteacuteriser des donneacutees drsquoun espace agrave N dimensions dans un sous-espace plus petit en minimisant les pertes drsquoinformation due agrave la projection crsquoest-agrave-dire en maximisant la variance projeteacutee Les donneacutees ainsi reacuteorganiseacutees deviennent indeacutependantes Les variables correacuteleacutees sont remplaceacutees par de nouvelles variables deacutecorreacuteleacutees et de variance maximale combinaisons lineacuteaires des variables initiales

Les donneacutees sont constitueacutees de n variables aleacuteatoires (dans notre cas des canaux)

et p reacutealisations ou individus (des eacutechantillons)

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

pn

p

ji

n

xx

x

xx

M

LLL

MOMNM

MLLM

MNMOM

LLL

1

111

(C1)

Ces donneacutees sont geacuteneacuteralement centreacutees et peuvent aussi ecirctre reacuteduites4 (on note

1x la moyenne de la variable et 1x )( 1xσ sa variance) Reacuteduire ou non le nuage de points (ie les p reacutealisations de la variable aleacuteatoire) est un choix de modegravele

5 Quelques rares sources mentionnent une diffeacuterence entre ACP et TKL en placcedilant celle-ci au

niveau du choix de la reacuteduction des donneacutees dans le cas dune ACP les donneacutees seraient centreacutees et reacuteduites alors qursquoelles seraient uniquement centreacutees pour une TKL

Annexe C Analyse en composantes principales 56

- si on ne reacuteduit pas le nuage une variable agrave forte variance pourrait tirer tout lrsquoeffet de lrsquoACP agrave elle

- si on reacuteduit le nuage une variable qui ne serait qursquoun bruit se retrouverait avec une variance apparente eacutegale agrave une variable informative

M est centreacutee

⎥⎥⎥

⎢⎢⎢

minusminusminus

minusminus=

npn

pi

ji

nn

xxxxxx

xxxxM

K

MM

K

11

11

11

ˆ (C2)

M~ est centreacutee et reacuteduite

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

minusminus

minus

minusminus

=

)()(

)(

)()(~

1

11

1

1

111

n

npn

pi

ij

i

n

nn

xxx

xxx

xxx

xxx

xxx

M

σσ

σ

σσ

K

MM

K

(C3)

On multiplie ensuite la matrice obtenue par sa transposeacutee pour obtenir - La matrice de covariance MMC t

vˆˆ sdot=

- La matrice de correacutelation MMC tr

~~ sdot= Ces matrices sont carreacutees (N x N) symeacutetriques et reacuteelles Elles sont donc

diagonalisables dans une base orthonormeacutee 6 Le principe de lrsquoACP est alors de trouver un axe u issu drsquoune combinaison lineacuteaire

des tel que le critegravere drsquoinertie du nuage autour de cet axe soit maximal Le critegravere drsquoinertie couramment utiliseacute est la variance Il faut donc trouver lrsquoaxe qui porte le maximum de variance crsquoest-agrave-dire lrsquoaxe u tel que la projection du nuage sur cet axe ait une variance maximale

nx

6 Nos donneacutees eacutetant ici des valeurs drsquoeacutechantillons elles sont par nature centreacutees et reacuteduites On

formera donc naturellement la matrice de correacutelation

C2 Diagonalisation 57

C2 Diagonalisation Pour alleacuteger lrsquoeacutecriture de la suite de cette partie nous consideacutererons que les

variables ont eacuteteacute centreacutees et si besoin reacuteduites et nous noterons ces variables

transformeacutees (ainsi

ix ix

iii xxx minuslarr ou bien )( i

iii x

xxxσ

minuslarr ) On fera de mecircme pour M

( ou bien MM ˆlarr MM ~larr ) et C ( vCC larr ou bien rCC larr ) La projection drsquoun eacutechantillon sur un axe u srsquoeacutecrit ix

uMxiu sdot=)(π (C4) La variance empirique de )( iu xπ vaut donc

uMMuxx ttiu

tiu sdotsdotsdot=sdot )()( ππ (C5)

Or on a vu que est diagonalisable dans une base orthonormeacutee donc

on peut noter P le changement de base associeacute et ∆ la matrice diagonale formeacutee de son spectre Ainsi

MMC t=

n

i 1)(λ PPMMC tt ∆==

)()()()( PuPuuPPuxx ttt

iut

iu sdot∆sdot=sdot∆sdot=sdotππ (C6) On pose v = Pu Chercher lrsquoaxe u qui maximise )( iu xπ revient donc agrave chercher le

vecteur v qui maximise ougravevvt ∆ )( 1 ndiag λλ K=∆ avec les iλ rangeacutes par ordre deacutecroissant Ce vecteur est trivialement le premier vecteur unitaire et on a alors

1λ=∆vvt

Ainsi le vecteur qui porte la plus grande part drsquoinertie du nuage est le premier

vecteur propre de C (premier par norme deacutecroissante) De mecircme le deuxiegraveme vecteur qui explique la plus grandelt part de lrsquoinertie restante est le deuxiegraveme vecteur propre de C Finalement la question de lrsquoACP se ramegravene agrave un problegraveme de diagonalisation de la matrice de correacutelation

C3 Code Matlab

function [vep vap] = pca(f N) f donneacutees N nombre de composantes agrave garder cor = f f formation de la matrice de correacutelation [vep vap] = eig(cor) calcul des vecteurs (vep) et valeurs (vap) propres [vap ind] = sort(diag(vap)) tri des valeurs propres par ordre croissant vap = flipud(vap) disposition inverse par ordre drsquoimportance vep = vep( flipud(ind)) classement en conseacutequence des vecteurs propres vep = vep( 1N) on ne garde que les N premiers vecteurs propres

Annexe C Analyse en composantes principales 58

59

Annexe D

Analyse en sous-bandes

D1 La transformeacutee de Fourier agrave court terme (TFCT) Pour affiner lrsquoanalyse les signaux sont donc deacutecoupeacutes en bandes de freacutequence par

TFCT La TFCT consiste agrave effectuer des transformeacutees de Fourier discregravetes sur des portions de signal fenecirctreacutees reacuteguliegraverement espaceacutees

On rappelle que la transformeacutee de Fourier drsquoun signal x(t) est deacutefinie (lorsque

lrsquointeacutegrale existe) par

int+infin

infinminus

minus= dtetxfX ftiπ2)()( (D1)

La transformeacutee de Fourier agrave temps discret (TFTD) drsquoun signal x(t) srsquoeacutecrit

sum+infin

minusinfin=

minus=n

fnienxfX π2)()( (D2)

La transformeacutee de Fourier discregravete (TFD) drsquoun signal discret x(k) est deacutefinie par

sum+infin

minusinfin=

minus=

n

Nkni

enxkXπ2

)()( (D3)

La TFCT discregravete est une TFD observeacutee sur une fenecirctre wa de taille N

summinus

=

minus+=

1

0

2)())(()(

N

n

Nnki

aaa enwtnxkXπ

ττ (D4)

ougrave )(taτ est lrsquoinstant drsquoanalyse

Annexe D Analyse en sous-bandes 60

Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT [Laroche 1995]

D2 Synthegravese par addition-recouvrement Lors de la synthegravese apregraves le deacutecoupage et lrsquoanalyse des fenecirctres on cherche agrave

reconstruire le signal temporel agrave partir de sa repreacutesentation freacutequentielle Pour cela on utilise la meacutethode OLA (overlap and add addition-recouvrement) qui consiste agrave prendre la TFCT inverse des spectres Xt puis agrave additionner les signaux obtenus apregraves les avoir multiplieacutes par une fenecirctre de pondeacuteration en les faisant se recouvrir partiellement

Le reacutesultat est donneacute par

sum=

minusminus=T

tsss tnxtnwnx

s1

))((~))(()(~ ττ τ (D5)

avec )()( tt as ττ = et summinus

=

=1

0

2))((~1)(~ N

k

Nkni

s ektXN

nxs

π

τ τ

Lors de la mise en œuvre de ce traitement il faut srsquoassurer drsquoecirctre en mesure de

reconstruire parfaitement un signal lorsqursquoaucune transformation ne lui est appliqueacutee Le critegravere de reconstruction parfaite condition suffisante est alors

sum=

=minusminusT

tasaa tnwtnw

11))(())(( ττ quelque soit n (D6)

D2 Synthegravese par addition-recouvrement 61

Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add [Laroche 1995]

Plusieurs paramegravetres sont agrave choisir avec soin Le premier drsquoentre eux est le type

de fenecirctre agrave utiliser Les diffeacuterentes options qui se preacutesentent agrave nous sont - la fenecirctre rectangulaire qui preacutesente dans son spectre le lobe principal le plus

eacutetroit mais des lobes secondaires non neacutegligeables - la fenecirctre de Hamming au lobe principal un peu plus large mais pour laquelle le

1er lobe secondaire se situe agrave -43 dB - la fenecirctre de Hann (ou cosinus sureacuteleveacute) qui ressemble agrave la preacuteceacutedente avec un

1er lobe secondaire plus fort mais une pente de 18 dB par octave pour les lobes suivants

- les fenecirctres de Blackman-Harris aux lobes secondaires tregraves bas mais au lobe principal plus large

Fenecirctre Lobe 2aire

(dB) Pente

(dBoct) Bande passante

agrave 6 dB (bins) Rectangulaire -13 -6 121 Triangulaire -27 -12 178

Hann -32 -18 200 Hamming -43 -6 181

Blackman-Harris 4 -92 -6 272

Tableau D1 - Caracteacuteristiques des principales fenecirctres drsquoanalyse [Harris 1978] Le meilleur compromis est donc dans notre contexte la fenecirctre de Hann ou celle

de Hamming

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 44: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

Chapitre 4 Reacutesultats et applications 38

On peut donc trouver les angles θ et δ agrave π pregraves Pour lever lrsquoambiguiumlteacute une eacutetude de signe est neacutecessaire Mais dans le cas de θ le signe de X et de Y agrave δ fixeacute deacutepend aussi bien de θ que S Il faut srsquointeacuteresser aux signes de θcos et θsin crsquoest-agrave-dire

aux signes de WX et

WY Dans la pratique on srsquointeacuteressera aux signes de et

pour se preacutevenir des divisions par zeacuteros

XW sdot YW sdot

XW sdot et YW sdot sont proportionnels agrave toujours positif

2S

Les auteurs deacutecrivent eacutegalement dans leur article un critegravere appeleacute diffuseness qui

peut ecirctre compareacute agrave un critegravere de pertinence inverseacute Ce paramegravetre calculeacute par agrave 1 - R ougrave R est un rapport de normes est tregraves proche du critegravere de norme relative deacutecrit en 342 Il peut donc ecirctre utiliseacute de la mecircme faccedilon et permettre ainsi une pleine comparaison

Cette meacutethode a eacuteteacute impleacutementeacutee pour pouvoir ecirctre compareacutee avec la meacutethode

par ACP Tous les paramegravetres ont scrupuleusement eacuteteacute gardeacutes identiques et plusieurs reacuteglages ont eacuteteacute testeacutes Les courbes ci-dessous preacutesentent les reacutesultats des analyses de la scegravene deacutecrite en 332 avec un pas de 50ms un overlap de 50 un NFFT de 2048 et 40 bandes freacutequentielles Nous avons repreacutesenteacute tous les angles trouveacutes crsquoest-agrave-dire un par bande et par trame pour srsquoaffranchir de la seacutelection des k-moyennes

π

0

minusπ

Figure 410 - Angles trouveacutes par lrsquoalgorithme de [Pulkki and Faller 2006] Le diamegravetre du point correspondant agrave la pertinence

43 Comparaison avec une meacutethode existante 39

π

0

minusπ

Figure 411 - Angles trouveacutes par une ACP pour la mecircme scegravene On remarque que les points excentriques sont moins nombreux et plus rarement trouveacutes comme pertinents

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee

441 Position du problegraveme

Une application directe de ces analyses a eacuteteacute deacuteveloppeacutee pour la confeacuterence audio

spatialiseacutee La confeacuterence audio utilise en effet la spatialisation pour permettre une meilleure seacuteparation par lrsquooreille des diffeacuterents locuteurs Ainsi si plusieurs personnes parlent en mecircme temps il sera tregraves difficile de comprendre chacun individuellement si ces voix sont restitueacutees en mono mais on pourra focaliser lrsquoattention sur chacune drsquoentre elles si elles sont seacutepareacutees spatialement (crsquoest lrsquoeffet cocktail party [Cherry 1953])

Lrsquoobjectif eacutetait de veacuterifier qursquoil eacutetait possible de conserver la spatialisation drsquoune

confeacuterence en nrsquoayant transmis qursquoun downmix mono des signaux Ce concept semble se rapprocher de celui deacutecrit en 422 mais une diffeacuterence fondamentale les seacutepare la confeacuterence audio spatialiseacutee nrsquoest pas codeacutee au format ambisonic mais les signaux traiteacutes sont directement les sons provenant des diffeacuterents locuteurs crsquoest-agrave-dire les sources elles-mecircmes Ainsi lrsquoanalyse ne porte plus sur une scegravene spatialiseacutee mais sur des signaux seacutepareacutes Il nrsquoy a ainsi plus drsquoindices spatiaux agrave trouver

Avoir accegraves aux sources permet drsquoobtenir des informations plus preacutecises pour

permettre une seacuteparation apregraves la transmission Comme nous lrsquoavons vu lrsquoanalyse drsquoune scegravene spatialiseacutee ne permet que dans drsquoultimes cas agrave la seacuteparation des sources ce qui est ici notre point de deacutepart et sera en fait notre point drsquoarriveacutee En effet nous tenterons de retrouver les sources seacutepareacutees apregraves la transmission de maniegravere agrave pouvoir par la suite les spatialiser agrave loisir (voir Figure 413)

Chapitre 4 Reacutesultats et applications 40

442 Solution proposeacutee Les paramegravetres extraits ne sont donc plus des positions de sources Nous avons

choisi de mesurer puis transmettre lrsquoeacutenergie de chaque signal dans chaque sous-bande en parallegravele du downmix En effet une bonne seacuteparation sera possible si lrsquoon sait quelle proportion de chaque source compose chaque sous-bande du signal mono

Figure 412 - Scheacutema de principe drsquoune confeacuterence audio spatialiseacutee

Figure 413 - Scheacutema ameacutelioreacute (deacutebit reacuteduit)

en pointilleacutes informations compleacutementaires (eacutenergie) Lrsquoanalyse en sous-bandes a lieu dans le serveur (Figure 414) Celui-ci calcule

lrsquoeacutenergie de chaque signal dans chaque sous-bande sur une trame donneacutee Crsquoest ce paramegravetre qui associeacute au signal mono M permettra la seacuteparation des sources dans le terminal (Figure 415) Ce dernier reacutepartira en effet les diffeacuterentes sous-bandes vers chaque signal reconstitueacute proportionnellement agrave cette information pour reconstruire les 4 sources originales

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee 41

Figure 414 - Analyse principe de lrsquoencodage dans le serveur

Figure 415 - Synthegravese principe du deacutecodage dans le client

Afin de reacuteduire au maximum les informations compleacutementaires agrave transmettre on

peut remarquer qursquoau cours drsquoune confeacuterence audio on a tregraves souvent un seul locuteur les participants ne parlent que tregraves rarement tous en mecircme temps Ceci implique que les signaux en entreacutee sont tregraves souvent tous nuls sauf 1 et appliquer un seuil en entreacutee de lrsquoanalyse permet outre lrsquoallegravegement du traitement drsquoavoir moins de paramegravetres agrave transmettre

Ce scheacutema simplifieacute ne tient pas compte des problegravemes de phase rien nrsquoindique

que les eacutenergies des signaux srsquoajoutent bien dans chaque sous-bande lors du downmix on peut tregraves bien avoir des oppositions de phase La solution est drsquoeffectuer le downmix (la somme) des signaux dans chaque sous-bande en prenant soin drsquoavoir recaleacute les phases au preacutealable Ceci nrsquoa un sens que pour des bandes suffisamment eacutetroites Les deacutecalages temporels appliqueacutes pour le recalage sont alors des paramegravetres suppleacutementaires agrave transmettre et sont pris en compte lors de la synthegravese au niveau du reacutepartiteur qui repositionnera la phase de chaque trame pour chaque signal

Chapitre 4 Reacutesultats et applications 42

443 Bilan Le reacutesultat du deacutecodage a pu ecirctre eacutecouteacute de diffeacuterentes maniegraveres les sources

reconstitueacutees individuellement ensemble en steacutereacuteo drsquoamplitude et sur un systegraveme 51 On note que les sources ont eacuteteacute assez bien seacutepareacutees mais que des artefacts sont audibles en particulier lorsque le nombre de locuteurs simultaneacutes augmentent Ces artefacts sont un meacutelange des voix qui nrsquoest gecircnant que lorsqursquoon les eacutecoute de maniegravere seacutepareacutee En effet lrsquoeacutecoute simultaneacutee de ces signaux syntheacutetiseacutes mecircme placeacutes agrave des positions distinctes sur un systegraveme de diffusion multicanal est tout agrave fait satisfaisante

Ce proceacutedeacute pour pouvoir ecirctre appliqueacute doit fonctionner en temps-reacuteel Cette

contrainte nrsquoa pas du tout eacuteteacute prise en compte lrsquoobjectif eacutetant de valider la faisabiliteacute drsquoune reconstruction Les programmes sous Matlab nrsquoont pas eacuteteacute optimiseacutes et ne respectent pas cette contrainte

43

Conclusion Nous avons preacutesenteacute dans ce rapport le principe et lrsquoapplication de plusieurs

meacutethodes drsquoanalyses spatiales de scegravenes ambisoniques conccedilues et reacutealiseacutee pendant le stage Le format HOA est en effet une repreacutesentation du champ acoustique deacutecomposeacute sur une base drsquoharmoniques spheacuteriques jusqursquoagrave un certain ordre agrave la maniegravere drsquoun deacuteveloppement limiteacute Il contient donc de maniegravere indirecte des indications spatiales qursquoon peut extraire avec des analyses comme lrsquoanalyse en composantes principales

Ces analyses nous permettent de deacuteterminer les positions des sources qui

composent la scegravene sonore Nous avons appliqueacute les reacutesultats de ces analyses agrave 2 types de synthegravese lrsquoune destineacutee aux transmissions bas deacutebit lrsquoautre agrave un traitement de restitution de la preacutecision spatiale dans le cas ougrave des ordres supeacuterieurs dont le but est drsquoaffiner la perception de localisation nrsquoauraient pas pu ecirctre transmis Ces algorithmes par le codage drsquoinformations spatiales qursquoils permettent pourront trouver bien drsquoautres applications dans la transmission et le codage ougrave la description du contenu est de plus en plus utiliseacutee (comme par exemple dans la norme MPEG)

Des ameacuteliorations sont possibles sur plusieurs points tout drsquoabord lrsquoexploitation

de toutes les composantes de lrsquoACP est agrave lrsquoeacutetude et semble pouvoir donner des reacutesultats inteacuteressants Drsquoautre part on a vu que le reacutesultat final est tregraves deacutependant de la bonne convergence de lrsquoalgorithme des k-moyennes utiliseacute pour traiter les donneacutees brutes de lrsquoanalyse en sous-bandes Or cet algorithme neacutecessite des reacuteglages tregraves fins et une connaissance a priori du nombre de sources est presque indispensable Drsquoautres algorithmes plus complexes de suivi de formes pourraient ecirctre avantageusement utiliseacutes pour deacutetecter dans tous les angles trouveacutes lesquels sont susceptibles de former une trajectoire

45

Annexe A

Deacuteveloppement du champ acoustique en harmoniques spheacuteriques

A1 Eacutequation drsquoonde en coordonneacutees spheacuteriques On se place dans lrsquoespace euclidien agrave 3 dimensions muni drsquoun systegraveme de

coordonneacutees spheacuteriques Un point M y est repeacutereacute par son rayon r son azimut θ et son eacuteleacutevation δ tels que repreacutesenteacutes sur la figure ci-dessous

- r est la norme du vecteur position rr crsquoest-agrave-dire la distance OM - [20[ πθ isin est lrsquoangle formeacute par le projeteacute du point sur le plan xOy et lrsquoaxe Ox

- ]2

2

[ ππδ minusisin est lrsquoangle formeacute par le plan xOy et le vecteur position2

Figure A1 - Systegraveme de coordonneacutees spheacuteriques

2 Cet angle diffegravere de lrsquoangle polaire usuel δπϕ minus=

2 habituellement pris entre lrsquoaxe Oz et le

vecteur position

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 46

Les relations entre les coordonneacutees spheacuteriques et les coordonneacutees carteacutesiennes sont

⎪⎩

⎪⎨

===

δδθδθ

sincossincoscos

zryrx

(A1)

On srsquointeacuteresse dans ce repegravere agrave lrsquoeacutequation de propagation des ondes acoustiques

de pression On se place dans les conditions classiques drsquoacoustique lineacuteaire (les variations de p sont petites par rapport agrave la pression atmospheacuterique) en supposant que lrsquoair est un fluide parfait (on y neacutegligera les pheacutenomegravenes dissipatifs) Dans une reacutegion de lrsquoespace ne comprenant pas de sources lrsquoeacutequation drsquoonde srsquoeacutecrit alors

0)(12

2

2 =⎟⎟⎠

⎞⎜⎜⎝

⎛partpart

minus∆ trptc

r (A2)

p eacutetant la pression et c la vitesse de propagation du son dans lrsquoair

Cette eacutequation devient dans le domaine freacutequentiel lrsquoeacutequation de Helmholtz

( ) 0)(2 =+∆ ωrpk r (A3)

ck ω

= eacutetant le nombre drsquoonde

En coordonneacutees spheacuteriques cette eacutequation srsquoeacutecrit

0sin1sin

sin11 2

2

2

222

2 =⎥⎦

⎤⎢⎣

⎡+

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart pk

rrrr

rr δθθθ

θθ (A4)

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques Drsquoapregraves [Bruneau 1983] elle admet des solutions agrave variables seacutepareacutees de la forme

)()()( δθ ΦΘ= rRp (A5) Ces solutions sont respectivement - pour la partie radiale une combinaison des fonctions de Bessel spheacuteriques de

premiegravere et seconde espegravece3 jn et nn

)()()( krBnkrAjrR nn += (A6) 3 Les fonctions de Bessel spheacuteriques de seconde espegravece sont eacutegalement appeleacutees fonctions de

Neumann

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 47

Ces fonctions sont deacutefinies comme suit

(A7)

Figure A2 - Fonctions de Bessel spheacuteriques pour les ordres 0 agrave 5 )(krjm

- pour la partie azimutale les fonctions )(θΘ

)sin()cos()( 21 θθθ ncnc +=Θ (A8) Eacutetant donneacute la deacutefinition de lrsquoangle Θ celui-ci doit neacutecessairement ecirctre de

peacuteriode 2π ))2()(( πθθ +Θ=Θ ce qui impose agrave n drsquoecirctre entier

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 48

- pour la partie polaire les fonctions de Legendre associeacutees )(sinδmnP

nm

nn

mn dPdP

)(sin)(sinsin)(sin

δδ

δδ = pour ⎩⎨⎧

gt=

nmavecnm 321

(A9)

ougrave les )(sinδnP sont les polynocircmes de Legendre de degreacute n en δsin deacutefinis par reacutecurrence

( )

11

22

1

0

sin)12()(sin)1(

1cos321)(sin

sin)(sin0)(sin

minus+ minus+=+

minus=

==

mmm mPPmPmet

P

PP

δδ

ϕδ

δδδ

(A10)

et de formule geacuteneacuterale

mm

m

mm dd

mP )1(sin

)(sin21)(sin 2 minus= δ

δδ (A11)

On peut appliquer aux fonctions )(sinδmnP la semi-normalisation de Schmidt

)(sin)()()(sin~ δεδ mnnmn P

nmnmP

+minus

= ougrave 10 =ε et 2=nε pour 1gen (A12)

En appariant les fonctions polaires et azimutales on deacutefinit les harmoniques

spheacuteriques de degreacute et drsquoordre)1(mnY 0gem 4 mnn lele0 et de degreacute et

drsquoordre (voir Figure A3)

)1(minusmnY 1gem

mnn lele1

)(sin~)sin()(

)(sin~)cos()()1(

)1(

δθδθ

δθδθ

mnmn

mnmn

PnY

PnY

=

=minus

(A13)

4 En geacuteneacuteral lorsque le degreacute et lrsquoordre ne sont pas eacutevoqueacutes conjointement on parle par abus de langage drsquoharmoniques drsquoordre m plutocirct que de degreacute m

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 49

soit

1)(sin

)()()12(2sin)(

)(sin)()()12(2cos)(

1)(sin)1()1()12(cos)(

)1(

)1(

1)1(

1

gt

⎪⎪⎩

⎪⎪⎨

+minus

+=

+minus

+=

=+minus

+=

minus

npourP

nmnmmnY

PnmnmmnY

npourPmmmY

mnmn

mnmn

mm

δθδθ

δθδθ

δθδθ

(A14)

La solution angulaire geacuteneacuterale srsquoeacutecrit alors sous la forme drsquoun deacuteveloppement sur

la base drsquoharmoniques spheacuteriques

( ) ( )sum minus

=minus+=Θ

1

1)1()1()( n

m mnmnmnmnn YBYBθ (A15) La solution geacuteneacuterale est alors la seacuterie de Fourier-Bessel

sum sum sum+infin

= = plusmn=

=0 0 1

)()( )()()(m

m

nmnmnm

m YBkrjikrpσ

σσ δθδθ (A16)

ougrave

intint⎪⎩

⎪⎨⎧

minusisin

isin

plusmnplusmn =

]2

2

[

[20[

)1()1( )()1()(

1

ππδ

πθ

δθδθ

S

mnm

mmn dSYpkrji

B (A17)

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 50

Tableau A1 - Expressions analytiques des harmoniques spheacuteriques pour les ordres 0 agrave 3

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 51

Figure A3 - Repreacutesentation des harmoniques spheacuteriques pour les ordres m = 0 agrave 3 Les

couleurs rouge et bleu indiquent respectivement des valeurs positives et neacutegatives

53

Annexe B

Compleacutements theacuteoriques sur le deacutecodage HOA

B1 Vecteur veacutelociteacute et vecteur eacutenergie Le vecteur veacutelociteacute est un indice de la direction apparente drsquoune source introduit

par Gerzon [Gerzon 1992] Il se calcule comme le rapport de la vitesse particulaire sur la pression acoustique

)()(

)()(1

δθδθ

δθδθ

ρ rprp

ki

rprv

cV nabla

minus=minus=rrr

(B1)

Dans le cas drsquoune onde plane le vecteur veacutelociteacute V

rest ainsi directement un

vecteur unitaire orienteacute vers la direction de provenance de lrsquoonde En geacuteneacuteralisant agrave une superposition drsquoondes planes en phase ou opposition de phase eacutemises par L haut-parleurs agrave eacutequidistance du point drsquoobservation on obtient la formule suivante

VVL

ll

L

lll

urg

ugV r

rr

==

sum

sum

=

=

1

1 (B2)

ougrave deacutesigne la direction du llur egraveme haut-parleur auquel est associeacute le gain gl et Vr Vur correspondent respectivement agrave la norme et agrave la direction du vecteur veacutelociteacute

Le vecteur eacutenergie est un autre indice de direction Il est deacutefinit par

EEL

ll

L

lll

urg

ugE r

rr

==

sum

sum

=

=

1

2

1

2

(B3)

Annexe B Compleacutements theacuteoriques sur le deacutecodage HOA 54

Il peut srsquointerpreacuteter comme une indication de la concentration de lrsquoeacutenergie ( ) et de sa direction moyenne de provenance (

Er

Eur ) On a toujours 1ltEr sauf dans le cas ougrave un seul haut-parleur contribue agrave la reconstruction (dans ce cas ) peut ecirctre consideacutereacute comme un indicateur de preacutecision de la localisation

1=Er Er

B2 Deacutecodages optimiseacutes La restitution la plus confortable drsquoun champ sonore veillera donc agrave maximiser

tout en essayant de garder le plus proche possible de 1 Lrsquooptimisation du deacutecodage consiste alors agrave multiplier chaque coefficient de la matrice de deacutecodage D (voir (111) par des gains calculeacutes drsquoapregraves des critegraveres drsquooptimisation

Er Vr

Ainsi le deacutecodage appeleacute max- maximise la norme du vecteur eacutenergie en

sacrifiant celle du vecteur veacutelociteacute puisqursquoon a dans ce deacutecodage (pour des configurations reacuteguliegraveres de haut-parleurs) Ce deacutecodage est donc avantageux par rapport au deacutecodage basique pour les hautes freacutequences ou dans le cas drsquoun auditoire eacutelargi Le deacutecodage in-phase va encore plus loin en cherchant agrave annuler complegravetement les contributions des haut-parleurs placeacutes agrave lrsquoopposeacute de la direction de provenance de lrsquoonde reproduite Ce critegravere est utile dans le cas drsquoune eacutecoute dans une position tregraves excentreacutee agrave laquelle on pourrait percevoir de faccedilon preacutedominante la contribution en opposition de phase drsquoun tel haut-parleur

Er

EV rr =

Ces diffeacuterents deacutecodages ont chacun des avantages et inconveacutenients Ainsi seul le

deacutecodage basique garantit = 1 le deacutecodage max- permet une preacutecision meilleure notamment en haute freacutequence et le deacutecodage in-phase est plus adapteacute agrave un auditoire plus large Jeacuterocircme Daniel [Daniel 2000] propose ainsi de changer le deacutecodage en fonction de la freacutequence et de lrsquoeacutetendue de la zone drsquoeacutecoute deacutesireacutee

Vr Er

Figure B1 - Deacutecodages les plus approprieacutes par sous-bande et en fonction de lrsquoeacutetendue de la

zone drsquoeacutecoute [Daniel 2000]

55

Annexe C

Analyse en composantes principales

C1 Espace des donneacutees Eacutegalement souvent appeleacutee transformeacutee de Karhunen-Loegraveve5 (TKL) lrsquoanalyse en

composantes principales (ACP) est une technique statistique de repreacutesentation drsquoinformation Introduite sur 2 variables par Pearson [Pearson 1900] elle a eacuteteacute eacutetendue par Hotelling [Hotelling 1933] Elle a pour but de caracteacuteriser des donneacutees drsquoun espace agrave N dimensions dans un sous-espace plus petit en minimisant les pertes drsquoinformation due agrave la projection crsquoest-agrave-dire en maximisant la variance projeteacutee Les donneacutees ainsi reacuteorganiseacutees deviennent indeacutependantes Les variables correacuteleacutees sont remplaceacutees par de nouvelles variables deacutecorreacuteleacutees et de variance maximale combinaisons lineacuteaires des variables initiales

Les donneacutees sont constitueacutees de n variables aleacuteatoires (dans notre cas des canaux)

et p reacutealisations ou individus (des eacutechantillons)

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

pn

p

ji

n

xx

x

xx

M

LLL

MOMNM

MLLM

MNMOM

LLL

1

111

(C1)

Ces donneacutees sont geacuteneacuteralement centreacutees et peuvent aussi ecirctre reacuteduites4 (on note

1x la moyenne de la variable et 1x )( 1xσ sa variance) Reacuteduire ou non le nuage de points (ie les p reacutealisations de la variable aleacuteatoire) est un choix de modegravele

5 Quelques rares sources mentionnent une diffeacuterence entre ACP et TKL en placcedilant celle-ci au

niveau du choix de la reacuteduction des donneacutees dans le cas dune ACP les donneacutees seraient centreacutees et reacuteduites alors qursquoelles seraient uniquement centreacutees pour une TKL

Annexe C Analyse en composantes principales 56

- si on ne reacuteduit pas le nuage une variable agrave forte variance pourrait tirer tout lrsquoeffet de lrsquoACP agrave elle

- si on reacuteduit le nuage une variable qui ne serait qursquoun bruit se retrouverait avec une variance apparente eacutegale agrave une variable informative

M est centreacutee

⎥⎥⎥

⎢⎢⎢

minusminusminus

minusminus=

npn

pi

ji

nn

xxxxxx

xxxxM

K

MM

K

11

11

11

ˆ (C2)

M~ est centreacutee et reacuteduite

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

minusminus

minus

minusminus

=

)()(

)(

)()(~

1

11

1

1

111

n

npn

pi

ij

i

n

nn

xxx

xxx

xxx

xxx

xxx

M

σσ

σ

σσ

K

MM

K

(C3)

On multiplie ensuite la matrice obtenue par sa transposeacutee pour obtenir - La matrice de covariance MMC t

vˆˆ sdot=

- La matrice de correacutelation MMC tr

~~ sdot= Ces matrices sont carreacutees (N x N) symeacutetriques et reacuteelles Elles sont donc

diagonalisables dans une base orthonormeacutee 6 Le principe de lrsquoACP est alors de trouver un axe u issu drsquoune combinaison lineacuteaire

des tel que le critegravere drsquoinertie du nuage autour de cet axe soit maximal Le critegravere drsquoinertie couramment utiliseacute est la variance Il faut donc trouver lrsquoaxe qui porte le maximum de variance crsquoest-agrave-dire lrsquoaxe u tel que la projection du nuage sur cet axe ait une variance maximale

nx

6 Nos donneacutees eacutetant ici des valeurs drsquoeacutechantillons elles sont par nature centreacutees et reacuteduites On

formera donc naturellement la matrice de correacutelation

C2 Diagonalisation 57

C2 Diagonalisation Pour alleacuteger lrsquoeacutecriture de la suite de cette partie nous consideacutererons que les

variables ont eacuteteacute centreacutees et si besoin reacuteduites et nous noterons ces variables

transformeacutees (ainsi

ix ix

iii xxx minuslarr ou bien )( i

iii x

xxxσ

minuslarr ) On fera de mecircme pour M

( ou bien MM ˆlarr MM ~larr ) et C ( vCC larr ou bien rCC larr ) La projection drsquoun eacutechantillon sur un axe u srsquoeacutecrit ix

uMxiu sdot=)(π (C4) La variance empirique de )( iu xπ vaut donc

uMMuxx ttiu

tiu sdotsdotsdot=sdot )()( ππ (C5)

Or on a vu que est diagonalisable dans une base orthonormeacutee donc

on peut noter P le changement de base associeacute et ∆ la matrice diagonale formeacutee de son spectre Ainsi

MMC t=

n

i 1)(λ PPMMC tt ∆==

)()()()( PuPuuPPuxx ttt

iut

iu sdot∆sdot=sdot∆sdot=sdotππ (C6) On pose v = Pu Chercher lrsquoaxe u qui maximise )( iu xπ revient donc agrave chercher le

vecteur v qui maximise ougravevvt ∆ )( 1 ndiag λλ K=∆ avec les iλ rangeacutes par ordre deacutecroissant Ce vecteur est trivialement le premier vecteur unitaire et on a alors

1λ=∆vvt

Ainsi le vecteur qui porte la plus grande part drsquoinertie du nuage est le premier

vecteur propre de C (premier par norme deacutecroissante) De mecircme le deuxiegraveme vecteur qui explique la plus grandelt part de lrsquoinertie restante est le deuxiegraveme vecteur propre de C Finalement la question de lrsquoACP se ramegravene agrave un problegraveme de diagonalisation de la matrice de correacutelation

C3 Code Matlab

function [vep vap] = pca(f N) f donneacutees N nombre de composantes agrave garder cor = f f formation de la matrice de correacutelation [vep vap] = eig(cor) calcul des vecteurs (vep) et valeurs (vap) propres [vap ind] = sort(diag(vap)) tri des valeurs propres par ordre croissant vap = flipud(vap) disposition inverse par ordre drsquoimportance vep = vep( flipud(ind)) classement en conseacutequence des vecteurs propres vep = vep( 1N) on ne garde que les N premiers vecteurs propres

Annexe C Analyse en composantes principales 58

59

Annexe D

Analyse en sous-bandes

D1 La transformeacutee de Fourier agrave court terme (TFCT) Pour affiner lrsquoanalyse les signaux sont donc deacutecoupeacutes en bandes de freacutequence par

TFCT La TFCT consiste agrave effectuer des transformeacutees de Fourier discregravetes sur des portions de signal fenecirctreacutees reacuteguliegraverement espaceacutees

On rappelle que la transformeacutee de Fourier drsquoun signal x(t) est deacutefinie (lorsque

lrsquointeacutegrale existe) par

int+infin

infinminus

minus= dtetxfX ftiπ2)()( (D1)

La transformeacutee de Fourier agrave temps discret (TFTD) drsquoun signal x(t) srsquoeacutecrit

sum+infin

minusinfin=

minus=n

fnienxfX π2)()( (D2)

La transformeacutee de Fourier discregravete (TFD) drsquoun signal discret x(k) est deacutefinie par

sum+infin

minusinfin=

minus=

n

Nkni

enxkXπ2

)()( (D3)

La TFCT discregravete est une TFD observeacutee sur une fenecirctre wa de taille N

summinus

=

minus+=

1

0

2)())(()(

N

n

Nnki

aaa enwtnxkXπ

ττ (D4)

ougrave )(taτ est lrsquoinstant drsquoanalyse

Annexe D Analyse en sous-bandes 60

Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT [Laroche 1995]

D2 Synthegravese par addition-recouvrement Lors de la synthegravese apregraves le deacutecoupage et lrsquoanalyse des fenecirctres on cherche agrave

reconstruire le signal temporel agrave partir de sa repreacutesentation freacutequentielle Pour cela on utilise la meacutethode OLA (overlap and add addition-recouvrement) qui consiste agrave prendre la TFCT inverse des spectres Xt puis agrave additionner les signaux obtenus apregraves les avoir multiplieacutes par une fenecirctre de pondeacuteration en les faisant se recouvrir partiellement

Le reacutesultat est donneacute par

sum=

minusminus=T

tsss tnxtnwnx

s1

))((~))(()(~ ττ τ (D5)

avec )()( tt as ττ = et summinus

=

=1

0

2))((~1)(~ N

k

Nkni

s ektXN

nxs

π

τ τ

Lors de la mise en œuvre de ce traitement il faut srsquoassurer drsquoecirctre en mesure de

reconstruire parfaitement un signal lorsqursquoaucune transformation ne lui est appliqueacutee Le critegravere de reconstruction parfaite condition suffisante est alors

sum=

=minusminusT

tasaa tnwtnw

11))(())(( ττ quelque soit n (D6)

D2 Synthegravese par addition-recouvrement 61

Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add [Laroche 1995]

Plusieurs paramegravetres sont agrave choisir avec soin Le premier drsquoentre eux est le type

de fenecirctre agrave utiliser Les diffeacuterentes options qui se preacutesentent agrave nous sont - la fenecirctre rectangulaire qui preacutesente dans son spectre le lobe principal le plus

eacutetroit mais des lobes secondaires non neacutegligeables - la fenecirctre de Hamming au lobe principal un peu plus large mais pour laquelle le

1er lobe secondaire se situe agrave -43 dB - la fenecirctre de Hann (ou cosinus sureacuteleveacute) qui ressemble agrave la preacuteceacutedente avec un

1er lobe secondaire plus fort mais une pente de 18 dB par octave pour les lobes suivants

- les fenecirctres de Blackman-Harris aux lobes secondaires tregraves bas mais au lobe principal plus large

Fenecirctre Lobe 2aire

(dB) Pente

(dBoct) Bande passante

agrave 6 dB (bins) Rectangulaire -13 -6 121 Triangulaire -27 -12 178

Hann -32 -18 200 Hamming -43 -6 181

Blackman-Harris 4 -92 -6 272

Tableau D1 - Caracteacuteristiques des principales fenecirctres drsquoanalyse [Harris 1978] Le meilleur compromis est donc dans notre contexte la fenecirctre de Hann ou celle

de Hamming

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 45: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

43 Comparaison avec une meacutethode existante 39

π

0

minusπ

Figure 411 - Angles trouveacutes par une ACP pour la mecircme scegravene On remarque que les points excentriques sont moins nombreux et plus rarement trouveacutes comme pertinents

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee

441 Position du problegraveme

Une application directe de ces analyses a eacuteteacute deacuteveloppeacutee pour la confeacuterence audio

spatialiseacutee La confeacuterence audio utilise en effet la spatialisation pour permettre une meilleure seacuteparation par lrsquooreille des diffeacuterents locuteurs Ainsi si plusieurs personnes parlent en mecircme temps il sera tregraves difficile de comprendre chacun individuellement si ces voix sont restitueacutees en mono mais on pourra focaliser lrsquoattention sur chacune drsquoentre elles si elles sont seacutepareacutees spatialement (crsquoest lrsquoeffet cocktail party [Cherry 1953])

Lrsquoobjectif eacutetait de veacuterifier qursquoil eacutetait possible de conserver la spatialisation drsquoune

confeacuterence en nrsquoayant transmis qursquoun downmix mono des signaux Ce concept semble se rapprocher de celui deacutecrit en 422 mais une diffeacuterence fondamentale les seacutepare la confeacuterence audio spatialiseacutee nrsquoest pas codeacutee au format ambisonic mais les signaux traiteacutes sont directement les sons provenant des diffeacuterents locuteurs crsquoest-agrave-dire les sources elles-mecircmes Ainsi lrsquoanalyse ne porte plus sur une scegravene spatialiseacutee mais sur des signaux seacutepareacutes Il nrsquoy a ainsi plus drsquoindices spatiaux agrave trouver

Avoir accegraves aux sources permet drsquoobtenir des informations plus preacutecises pour

permettre une seacuteparation apregraves la transmission Comme nous lrsquoavons vu lrsquoanalyse drsquoune scegravene spatialiseacutee ne permet que dans drsquoultimes cas agrave la seacuteparation des sources ce qui est ici notre point de deacutepart et sera en fait notre point drsquoarriveacutee En effet nous tenterons de retrouver les sources seacutepareacutees apregraves la transmission de maniegravere agrave pouvoir par la suite les spatialiser agrave loisir (voir Figure 413)

Chapitre 4 Reacutesultats et applications 40

442 Solution proposeacutee Les paramegravetres extraits ne sont donc plus des positions de sources Nous avons

choisi de mesurer puis transmettre lrsquoeacutenergie de chaque signal dans chaque sous-bande en parallegravele du downmix En effet une bonne seacuteparation sera possible si lrsquoon sait quelle proportion de chaque source compose chaque sous-bande du signal mono

Figure 412 - Scheacutema de principe drsquoune confeacuterence audio spatialiseacutee

Figure 413 - Scheacutema ameacutelioreacute (deacutebit reacuteduit)

en pointilleacutes informations compleacutementaires (eacutenergie) Lrsquoanalyse en sous-bandes a lieu dans le serveur (Figure 414) Celui-ci calcule

lrsquoeacutenergie de chaque signal dans chaque sous-bande sur une trame donneacutee Crsquoest ce paramegravetre qui associeacute au signal mono M permettra la seacuteparation des sources dans le terminal (Figure 415) Ce dernier reacutepartira en effet les diffeacuterentes sous-bandes vers chaque signal reconstitueacute proportionnellement agrave cette information pour reconstruire les 4 sources originales

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee 41

Figure 414 - Analyse principe de lrsquoencodage dans le serveur

Figure 415 - Synthegravese principe du deacutecodage dans le client

Afin de reacuteduire au maximum les informations compleacutementaires agrave transmettre on

peut remarquer qursquoau cours drsquoune confeacuterence audio on a tregraves souvent un seul locuteur les participants ne parlent que tregraves rarement tous en mecircme temps Ceci implique que les signaux en entreacutee sont tregraves souvent tous nuls sauf 1 et appliquer un seuil en entreacutee de lrsquoanalyse permet outre lrsquoallegravegement du traitement drsquoavoir moins de paramegravetres agrave transmettre

Ce scheacutema simplifieacute ne tient pas compte des problegravemes de phase rien nrsquoindique

que les eacutenergies des signaux srsquoajoutent bien dans chaque sous-bande lors du downmix on peut tregraves bien avoir des oppositions de phase La solution est drsquoeffectuer le downmix (la somme) des signaux dans chaque sous-bande en prenant soin drsquoavoir recaleacute les phases au preacutealable Ceci nrsquoa un sens que pour des bandes suffisamment eacutetroites Les deacutecalages temporels appliqueacutes pour le recalage sont alors des paramegravetres suppleacutementaires agrave transmettre et sont pris en compte lors de la synthegravese au niveau du reacutepartiteur qui repositionnera la phase de chaque trame pour chaque signal

Chapitre 4 Reacutesultats et applications 42

443 Bilan Le reacutesultat du deacutecodage a pu ecirctre eacutecouteacute de diffeacuterentes maniegraveres les sources

reconstitueacutees individuellement ensemble en steacutereacuteo drsquoamplitude et sur un systegraveme 51 On note que les sources ont eacuteteacute assez bien seacutepareacutees mais que des artefacts sont audibles en particulier lorsque le nombre de locuteurs simultaneacutes augmentent Ces artefacts sont un meacutelange des voix qui nrsquoest gecircnant que lorsqursquoon les eacutecoute de maniegravere seacutepareacutee En effet lrsquoeacutecoute simultaneacutee de ces signaux syntheacutetiseacutes mecircme placeacutes agrave des positions distinctes sur un systegraveme de diffusion multicanal est tout agrave fait satisfaisante

Ce proceacutedeacute pour pouvoir ecirctre appliqueacute doit fonctionner en temps-reacuteel Cette

contrainte nrsquoa pas du tout eacuteteacute prise en compte lrsquoobjectif eacutetant de valider la faisabiliteacute drsquoune reconstruction Les programmes sous Matlab nrsquoont pas eacuteteacute optimiseacutes et ne respectent pas cette contrainte

43

Conclusion Nous avons preacutesenteacute dans ce rapport le principe et lrsquoapplication de plusieurs

meacutethodes drsquoanalyses spatiales de scegravenes ambisoniques conccedilues et reacutealiseacutee pendant le stage Le format HOA est en effet une repreacutesentation du champ acoustique deacutecomposeacute sur une base drsquoharmoniques spheacuteriques jusqursquoagrave un certain ordre agrave la maniegravere drsquoun deacuteveloppement limiteacute Il contient donc de maniegravere indirecte des indications spatiales qursquoon peut extraire avec des analyses comme lrsquoanalyse en composantes principales

Ces analyses nous permettent de deacuteterminer les positions des sources qui

composent la scegravene sonore Nous avons appliqueacute les reacutesultats de ces analyses agrave 2 types de synthegravese lrsquoune destineacutee aux transmissions bas deacutebit lrsquoautre agrave un traitement de restitution de la preacutecision spatiale dans le cas ougrave des ordres supeacuterieurs dont le but est drsquoaffiner la perception de localisation nrsquoauraient pas pu ecirctre transmis Ces algorithmes par le codage drsquoinformations spatiales qursquoils permettent pourront trouver bien drsquoautres applications dans la transmission et le codage ougrave la description du contenu est de plus en plus utiliseacutee (comme par exemple dans la norme MPEG)

Des ameacuteliorations sont possibles sur plusieurs points tout drsquoabord lrsquoexploitation

de toutes les composantes de lrsquoACP est agrave lrsquoeacutetude et semble pouvoir donner des reacutesultats inteacuteressants Drsquoautre part on a vu que le reacutesultat final est tregraves deacutependant de la bonne convergence de lrsquoalgorithme des k-moyennes utiliseacute pour traiter les donneacutees brutes de lrsquoanalyse en sous-bandes Or cet algorithme neacutecessite des reacuteglages tregraves fins et une connaissance a priori du nombre de sources est presque indispensable Drsquoautres algorithmes plus complexes de suivi de formes pourraient ecirctre avantageusement utiliseacutes pour deacutetecter dans tous les angles trouveacutes lesquels sont susceptibles de former une trajectoire

45

Annexe A

Deacuteveloppement du champ acoustique en harmoniques spheacuteriques

A1 Eacutequation drsquoonde en coordonneacutees spheacuteriques On se place dans lrsquoespace euclidien agrave 3 dimensions muni drsquoun systegraveme de

coordonneacutees spheacuteriques Un point M y est repeacutereacute par son rayon r son azimut θ et son eacuteleacutevation δ tels que repreacutesenteacutes sur la figure ci-dessous

- r est la norme du vecteur position rr crsquoest-agrave-dire la distance OM - [20[ πθ isin est lrsquoangle formeacute par le projeteacute du point sur le plan xOy et lrsquoaxe Ox

- ]2

2

[ ππδ minusisin est lrsquoangle formeacute par le plan xOy et le vecteur position2

Figure A1 - Systegraveme de coordonneacutees spheacuteriques

2 Cet angle diffegravere de lrsquoangle polaire usuel δπϕ minus=

2 habituellement pris entre lrsquoaxe Oz et le

vecteur position

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 46

Les relations entre les coordonneacutees spheacuteriques et les coordonneacutees carteacutesiennes sont

⎪⎩

⎪⎨

===

δδθδθ

sincossincoscos

zryrx

(A1)

On srsquointeacuteresse dans ce repegravere agrave lrsquoeacutequation de propagation des ondes acoustiques

de pression On se place dans les conditions classiques drsquoacoustique lineacuteaire (les variations de p sont petites par rapport agrave la pression atmospheacuterique) en supposant que lrsquoair est un fluide parfait (on y neacutegligera les pheacutenomegravenes dissipatifs) Dans une reacutegion de lrsquoespace ne comprenant pas de sources lrsquoeacutequation drsquoonde srsquoeacutecrit alors

0)(12

2

2 =⎟⎟⎠

⎞⎜⎜⎝

⎛partpart

minus∆ trptc

r (A2)

p eacutetant la pression et c la vitesse de propagation du son dans lrsquoair

Cette eacutequation devient dans le domaine freacutequentiel lrsquoeacutequation de Helmholtz

( ) 0)(2 =+∆ ωrpk r (A3)

ck ω

= eacutetant le nombre drsquoonde

En coordonneacutees spheacuteriques cette eacutequation srsquoeacutecrit

0sin1sin

sin11 2

2

2

222

2 =⎥⎦

⎤⎢⎣

⎡+

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart pk

rrrr

rr δθθθ

θθ (A4)

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques Drsquoapregraves [Bruneau 1983] elle admet des solutions agrave variables seacutepareacutees de la forme

)()()( δθ ΦΘ= rRp (A5) Ces solutions sont respectivement - pour la partie radiale une combinaison des fonctions de Bessel spheacuteriques de

premiegravere et seconde espegravece3 jn et nn

)()()( krBnkrAjrR nn += (A6) 3 Les fonctions de Bessel spheacuteriques de seconde espegravece sont eacutegalement appeleacutees fonctions de

Neumann

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 47

Ces fonctions sont deacutefinies comme suit

(A7)

Figure A2 - Fonctions de Bessel spheacuteriques pour les ordres 0 agrave 5 )(krjm

- pour la partie azimutale les fonctions )(θΘ

)sin()cos()( 21 θθθ ncnc +=Θ (A8) Eacutetant donneacute la deacutefinition de lrsquoangle Θ celui-ci doit neacutecessairement ecirctre de

peacuteriode 2π ))2()(( πθθ +Θ=Θ ce qui impose agrave n drsquoecirctre entier

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 48

- pour la partie polaire les fonctions de Legendre associeacutees )(sinδmnP

nm

nn

mn dPdP

)(sin)(sinsin)(sin

δδ

δδ = pour ⎩⎨⎧

gt=

nmavecnm 321

(A9)

ougrave les )(sinδnP sont les polynocircmes de Legendre de degreacute n en δsin deacutefinis par reacutecurrence

( )

11

22

1

0

sin)12()(sin)1(

1cos321)(sin

sin)(sin0)(sin

minus+ minus+=+

minus=

==

mmm mPPmPmet

P

PP

δδ

ϕδ

δδδ

(A10)

et de formule geacuteneacuterale

mm

m

mm dd

mP )1(sin

)(sin21)(sin 2 minus= δ

δδ (A11)

On peut appliquer aux fonctions )(sinδmnP la semi-normalisation de Schmidt

)(sin)()()(sin~ δεδ mnnmn P

nmnmP

+minus

= ougrave 10 =ε et 2=nε pour 1gen (A12)

En appariant les fonctions polaires et azimutales on deacutefinit les harmoniques

spheacuteriques de degreacute et drsquoordre)1(mnY 0gem 4 mnn lele0 et de degreacute et

drsquoordre (voir Figure A3)

)1(minusmnY 1gem

mnn lele1

)(sin~)sin()(

)(sin~)cos()()1(

)1(

δθδθ

δθδθ

mnmn

mnmn

PnY

PnY

=

=minus

(A13)

4 En geacuteneacuteral lorsque le degreacute et lrsquoordre ne sont pas eacutevoqueacutes conjointement on parle par abus de langage drsquoharmoniques drsquoordre m plutocirct que de degreacute m

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 49

soit

1)(sin

)()()12(2sin)(

)(sin)()()12(2cos)(

1)(sin)1()1()12(cos)(

)1(

)1(

1)1(

1

gt

⎪⎪⎩

⎪⎪⎨

+minus

+=

+minus

+=

=+minus

+=

minus

npourP

nmnmmnY

PnmnmmnY

npourPmmmY

mnmn

mnmn

mm

δθδθ

δθδθ

δθδθ

(A14)

La solution angulaire geacuteneacuterale srsquoeacutecrit alors sous la forme drsquoun deacuteveloppement sur

la base drsquoharmoniques spheacuteriques

( ) ( )sum minus

=minus+=Θ

1

1)1()1()( n

m mnmnmnmnn YBYBθ (A15) La solution geacuteneacuterale est alors la seacuterie de Fourier-Bessel

sum sum sum+infin

= = plusmn=

=0 0 1

)()( )()()(m

m

nmnmnm

m YBkrjikrpσ

σσ δθδθ (A16)

ougrave

intint⎪⎩

⎪⎨⎧

minusisin

isin

plusmnplusmn =

]2

2

[

[20[

)1()1( )()1()(

1

ππδ

πθ

δθδθ

S

mnm

mmn dSYpkrji

B (A17)

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 50

Tableau A1 - Expressions analytiques des harmoniques spheacuteriques pour les ordres 0 agrave 3

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 51

Figure A3 - Repreacutesentation des harmoniques spheacuteriques pour les ordres m = 0 agrave 3 Les

couleurs rouge et bleu indiquent respectivement des valeurs positives et neacutegatives

53

Annexe B

Compleacutements theacuteoriques sur le deacutecodage HOA

B1 Vecteur veacutelociteacute et vecteur eacutenergie Le vecteur veacutelociteacute est un indice de la direction apparente drsquoune source introduit

par Gerzon [Gerzon 1992] Il se calcule comme le rapport de la vitesse particulaire sur la pression acoustique

)()(

)()(1

δθδθ

δθδθ

ρ rprp

ki

rprv

cV nabla

minus=minus=rrr

(B1)

Dans le cas drsquoune onde plane le vecteur veacutelociteacute V

rest ainsi directement un

vecteur unitaire orienteacute vers la direction de provenance de lrsquoonde En geacuteneacuteralisant agrave une superposition drsquoondes planes en phase ou opposition de phase eacutemises par L haut-parleurs agrave eacutequidistance du point drsquoobservation on obtient la formule suivante

VVL

ll

L

lll

urg

ugV r

rr

==

sum

sum

=

=

1

1 (B2)

ougrave deacutesigne la direction du llur egraveme haut-parleur auquel est associeacute le gain gl et Vr Vur correspondent respectivement agrave la norme et agrave la direction du vecteur veacutelociteacute

Le vecteur eacutenergie est un autre indice de direction Il est deacutefinit par

EEL

ll

L

lll

urg

ugE r

rr

==

sum

sum

=

=

1

2

1

2

(B3)

Annexe B Compleacutements theacuteoriques sur le deacutecodage HOA 54

Il peut srsquointerpreacuteter comme une indication de la concentration de lrsquoeacutenergie ( ) et de sa direction moyenne de provenance (

Er

Eur ) On a toujours 1ltEr sauf dans le cas ougrave un seul haut-parleur contribue agrave la reconstruction (dans ce cas ) peut ecirctre consideacutereacute comme un indicateur de preacutecision de la localisation

1=Er Er

B2 Deacutecodages optimiseacutes La restitution la plus confortable drsquoun champ sonore veillera donc agrave maximiser

tout en essayant de garder le plus proche possible de 1 Lrsquooptimisation du deacutecodage consiste alors agrave multiplier chaque coefficient de la matrice de deacutecodage D (voir (111) par des gains calculeacutes drsquoapregraves des critegraveres drsquooptimisation

Er Vr

Ainsi le deacutecodage appeleacute max- maximise la norme du vecteur eacutenergie en

sacrifiant celle du vecteur veacutelociteacute puisqursquoon a dans ce deacutecodage (pour des configurations reacuteguliegraveres de haut-parleurs) Ce deacutecodage est donc avantageux par rapport au deacutecodage basique pour les hautes freacutequences ou dans le cas drsquoun auditoire eacutelargi Le deacutecodage in-phase va encore plus loin en cherchant agrave annuler complegravetement les contributions des haut-parleurs placeacutes agrave lrsquoopposeacute de la direction de provenance de lrsquoonde reproduite Ce critegravere est utile dans le cas drsquoune eacutecoute dans une position tregraves excentreacutee agrave laquelle on pourrait percevoir de faccedilon preacutedominante la contribution en opposition de phase drsquoun tel haut-parleur

Er

EV rr =

Ces diffeacuterents deacutecodages ont chacun des avantages et inconveacutenients Ainsi seul le

deacutecodage basique garantit = 1 le deacutecodage max- permet une preacutecision meilleure notamment en haute freacutequence et le deacutecodage in-phase est plus adapteacute agrave un auditoire plus large Jeacuterocircme Daniel [Daniel 2000] propose ainsi de changer le deacutecodage en fonction de la freacutequence et de lrsquoeacutetendue de la zone drsquoeacutecoute deacutesireacutee

Vr Er

Figure B1 - Deacutecodages les plus approprieacutes par sous-bande et en fonction de lrsquoeacutetendue de la

zone drsquoeacutecoute [Daniel 2000]

55

Annexe C

Analyse en composantes principales

C1 Espace des donneacutees Eacutegalement souvent appeleacutee transformeacutee de Karhunen-Loegraveve5 (TKL) lrsquoanalyse en

composantes principales (ACP) est une technique statistique de repreacutesentation drsquoinformation Introduite sur 2 variables par Pearson [Pearson 1900] elle a eacuteteacute eacutetendue par Hotelling [Hotelling 1933] Elle a pour but de caracteacuteriser des donneacutees drsquoun espace agrave N dimensions dans un sous-espace plus petit en minimisant les pertes drsquoinformation due agrave la projection crsquoest-agrave-dire en maximisant la variance projeteacutee Les donneacutees ainsi reacuteorganiseacutees deviennent indeacutependantes Les variables correacuteleacutees sont remplaceacutees par de nouvelles variables deacutecorreacuteleacutees et de variance maximale combinaisons lineacuteaires des variables initiales

Les donneacutees sont constitueacutees de n variables aleacuteatoires (dans notre cas des canaux)

et p reacutealisations ou individus (des eacutechantillons)

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

pn

p

ji

n

xx

x

xx

M

LLL

MOMNM

MLLM

MNMOM

LLL

1

111

(C1)

Ces donneacutees sont geacuteneacuteralement centreacutees et peuvent aussi ecirctre reacuteduites4 (on note

1x la moyenne de la variable et 1x )( 1xσ sa variance) Reacuteduire ou non le nuage de points (ie les p reacutealisations de la variable aleacuteatoire) est un choix de modegravele

5 Quelques rares sources mentionnent une diffeacuterence entre ACP et TKL en placcedilant celle-ci au

niveau du choix de la reacuteduction des donneacutees dans le cas dune ACP les donneacutees seraient centreacutees et reacuteduites alors qursquoelles seraient uniquement centreacutees pour une TKL

Annexe C Analyse en composantes principales 56

- si on ne reacuteduit pas le nuage une variable agrave forte variance pourrait tirer tout lrsquoeffet de lrsquoACP agrave elle

- si on reacuteduit le nuage une variable qui ne serait qursquoun bruit se retrouverait avec une variance apparente eacutegale agrave une variable informative

M est centreacutee

⎥⎥⎥

⎢⎢⎢

minusminusminus

minusminus=

npn

pi

ji

nn

xxxxxx

xxxxM

K

MM

K

11

11

11

ˆ (C2)

M~ est centreacutee et reacuteduite

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

minusminus

minus

minusminus

=

)()(

)(

)()(~

1

11

1

1

111

n

npn

pi

ij

i

n

nn

xxx

xxx

xxx

xxx

xxx

M

σσ

σ

σσ

K

MM

K

(C3)

On multiplie ensuite la matrice obtenue par sa transposeacutee pour obtenir - La matrice de covariance MMC t

vˆˆ sdot=

- La matrice de correacutelation MMC tr

~~ sdot= Ces matrices sont carreacutees (N x N) symeacutetriques et reacuteelles Elles sont donc

diagonalisables dans une base orthonormeacutee 6 Le principe de lrsquoACP est alors de trouver un axe u issu drsquoune combinaison lineacuteaire

des tel que le critegravere drsquoinertie du nuage autour de cet axe soit maximal Le critegravere drsquoinertie couramment utiliseacute est la variance Il faut donc trouver lrsquoaxe qui porte le maximum de variance crsquoest-agrave-dire lrsquoaxe u tel que la projection du nuage sur cet axe ait une variance maximale

nx

6 Nos donneacutees eacutetant ici des valeurs drsquoeacutechantillons elles sont par nature centreacutees et reacuteduites On

formera donc naturellement la matrice de correacutelation

C2 Diagonalisation 57

C2 Diagonalisation Pour alleacuteger lrsquoeacutecriture de la suite de cette partie nous consideacutererons que les

variables ont eacuteteacute centreacutees et si besoin reacuteduites et nous noterons ces variables

transformeacutees (ainsi

ix ix

iii xxx minuslarr ou bien )( i

iii x

xxxσ

minuslarr ) On fera de mecircme pour M

( ou bien MM ˆlarr MM ~larr ) et C ( vCC larr ou bien rCC larr ) La projection drsquoun eacutechantillon sur un axe u srsquoeacutecrit ix

uMxiu sdot=)(π (C4) La variance empirique de )( iu xπ vaut donc

uMMuxx ttiu

tiu sdotsdotsdot=sdot )()( ππ (C5)

Or on a vu que est diagonalisable dans une base orthonormeacutee donc

on peut noter P le changement de base associeacute et ∆ la matrice diagonale formeacutee de son spectre Ainsi

MMC t=

n

i 1)(λ PPMMC tt ∆==

)()()()( PuPuuPPuxx ttt

iut

iu sdot∆sdot=sdot∆sdot=sdotππ (C6) On pose v = Pu Chercher lrsquoaxe u qui maximise )( iu xπ revient donc agrave chercher le

vecteur v qui maximise ougravevvt ∆ )( 1 ndiag λλ K=∆ avec les iλ rangeacutes par ordre deacutecroissant Ce vecteur est trivialement le premier vecteur unitaire et on a alors

1λ=∆vvt

Ainsi le vecteur qui porte la plus grande part drsquoinertie du nuage est le premier

vecteur propre de C (premier par norme deacutecroissante) De mecircme le deuxiegraveme vecteur qui explique la plus grandelt part de lrsquoinertie restante est le deuxiegraveme vecteur propre de C Finalement la question de lrsquoACP se ramegravene agrave un problegraveme de diagonalisation de la matrice de correacutelation

C3 Code Matlab

function [vep vap] = pca(f N) f donneacutees N nombre de composantes agrave garder cor = f f formation de la matrice de correacutelation [vep vap] = eig(cor) calcul des vecteurs (vep) et valeurs (vap) propres [vap ind] = sort(diag(vap)) tri des valeurs propres par ordre croissant vap = flipud(vap) disposition inverse par ordre drsquoimportance vep = vep( flipud(ind)) classement en conseacutequence des vecteurs propres vep = vep( 1N) on ne garde que les N premiers vecteurs propres

Annexe C Analyse en composantes principales 58

59

Annexe D

Analyse en sous-bandes

D1 La transformeacutee de Fourier agrave court terme (TFCT) Pour affiner lrsquoanalyse les signaux sont donc deacutecoupeacutes en bandes de freacutequence par

TFCT La TFCT consiste agrave effectuer des transformeacutees de Fourier discregravetes sur des portions de signal fenecirctreacutees reacuteguliegraverement espaceacutees

On rappelle que la transformeacutee de Fourier drsquoun signal x(t) est deacutefinie (lorsque

lrsquointeacutegrale existe) par

int+infin

infinminus

minus= dtetxfX ftiπ2)()( (D1)

La transformeacutee de Fourier agrave temps discret (TFTD) drsquoun signal x(t) srsquoeacutecrit

sum+infin

minusinfin=

minus=n

fnienxfX π2)()( (D2)

La transformeacutee de Fourier discregravete (TFD) drsquoun signal discret x(k) est deacutefinie par

sum+infin

minusinfin=

minus=

n

Nkni

enxkXπ2

)()( (D3)

La TFCT discregravete est une TFD observeacutee sur une fenecirctre wa de taille N

summinus

=

minus+=

1

0

2)())(()(

N

n

Nnki

aaa enwtnxkXπ

ττ (D4)

ougrave )(taτ est lrsquoinstant drsquoanalyse

Annexe D Analyse en sous-bandes 60

Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT [Laroche 1995]

D2 Synthegravese par addition-recouvrement Lors de la synthegravese apregraves le deacutecoupage et lrsquoanalyse des fenecirctres on cherche agrave

reconstruire le signal temporel agrave partir de sa repreacutesentation freacutequentielle Pour cela on utilise la meacutethode OLA (overlap and add addition-recouvrement) qui consiste agrave prendre la TFCT inverse des spectres Xt puis agrave additionner les signaux obtenus apregraves les avoir multiplieacutes par une fenecirctre de pondeacuteration en les faisant se recouvrir partiellement

Le reacutesultat est donneacute par

sum=

minusminus=T

tsss tnxtnwnx

s1

))((~))(()(~ ττ τ (D5)

avec )()( tt as ττ = et summinus

=

=1

0

2))((~1)(~ N

k

Nkni

s ektXN

nxs

π

τ τ

Lors de la mise en œuvre de ce traitement il faut srsquoassurer drsquoecirctre en mesure de

reconstruire parfaitement un signal lorsqursquoaucune transformation ne lui est appliqueacutee Le critegravere de reconstruction parfaite condition suffisante est alors

sum=

=minusminusT

tasaa tnwtnw

11))(())(( ττ quelque soit n (D6)

D2 Synthegravese par addition-recouvrement 61

Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add [Laroche 1995]

Plusieurs paramegravetres sont agrave choisir avec soin Le premier drsquoentre eux est le type

de fenecirctre agrave utiliser Les diffeacuterentes options qui se preacutesentent agrave nous sont - la fenecirctre rectangulaire qui preacutesente dans son spectre le lobe principal le plus

eacutetroit mais des lobes secondaires non neacutegligeables - la fenecirctre de Hamming au lobe principal un peu plus large mais pour laquelle le

1er lobe secondaire se situe agrave -43 dB - la fenecirctre de Hann (ou cosinus sureacuteleveacute) qui ressemble agrave la preacuteceacutedente avec un

1er lobe secondaire plus fort mais une pente de 18 dB par octave pour les lobes suivants

- les fenecirctres de Blackman-Harris aux lobes secondaires tregraves bas mais au lobe principal plus large

Fenecirctre Lobe 2aire

(dB) Pente

(dBoct) Bande passante

agrave 6 dB (bins) Rectangulaire -13 -6 121 Triangulaire -27 -12 178

Hann -32 -18 200 Hamming -43 -6 181

Blackman-Harris 4 -92 -6 272

Tableau D1 - Caracteacuteristiques des principales fenecirctres drsquoanalyse [Harris 1978] Le meilleur compromis est donc dans notre contexte la fenecirctre de Hann ou celle

de Hamming

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 46: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

Chapitre 4 Reacutesultats et applications 40

442 Solution proposeacutee Les paramegravetres extraits ne sont donc plus des positions de sources Nous avons

choisi de mesurer puis transmettre lrsquoeacutenergie de chaque signal dans chaque sous-bande en parallegravele du downmix En effet une bonne seacuteparation sera possible si lrsquoon sait quelle proportion de chaque source compose chaque sous-bande du signal mono

Figure 412 - Scheacutema de principe drsquoune confeacuterence audio spatialiseacutee

Figure 413 - Scheacutema ameacutelioreacute (deacutebit reacuteduit)

en pointilleacutes informations compleacutementaires (eacutenergie) Lrsquoanalyse en sous-bandes a lieu dans le serveur (Figure 414) Celui-ci calcule

lrsquoeacutenergie de chaque signal dans chaque sous-bande sur une trame donneacutee Crsquoest ce paramegravetre qui associeacute au signal mono M permettra la seacuteparation des sources dans le terminal (Figure 415) Ce dernier reacutepartira en effet les diffeacuterentes sous-bandes vers chaque signal reconstitueacute proportionnellement agrave cette information pour reconstruire les 4 sources originales

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee 41

Figure 414 - Analyse principe de lrsquoencodage dans le serveur

Figure 415 - Synthegravese principe du deacutecodage dans le client

Afin de reacuteduire au maximum les informations compleacutementaires agrave transmettre on

peut remarquer qursquoau cours drsquoune confeacuterence audio on a tregraves souvent un seul locuteur les participants ne parlent que tregraves rarement tous en mecircme temps Ceci implique que les signaux en entreacutee sont tregraves souvent tous nuls sauf 1 et appliquer un seuil en entreacutee de lrsquoanalyse permet outre lrsquoallegravegement du traitement drsquoavoir moins de paramegravetres agrave transmettre

Ce scheacutema simplifieacute ne tient pas compte des problegravemes de phase rien nrsquoindique

que les eacutenergies des signaux srsquoajoutent bien dans chaque sous-bande lors du downmix on peut tregraves bien avoir des oppositions de phase La solution est drsquoeffectuer le downmix (la somme) des signaux dans chaque sous-bande en prenant soin drsquoavoir recaleacute les phases au preacutealable Ceci nrsquoa un sens que pour des bandes suffisamment eacutetroites Les deacutecalages temporels appliqueacutes pour le recalage sont alors des paramegravetres suppleacutementaires agrave transmettre et sont pris en compte lors de la synthegravese au niveau du reacutepartiteur qui repositionnera la phase de chaque trame pour chaque signal

Chapitre 4 Reacutesultats et applications 42

443 Bilan Le reacutesultat du deacutecodage a pu ecirctre eacutecouteacute de diffeacuterentes maniegraveres les sources

reconstitueacutees individuellement ensemble en steacutereacuteo drsquoamplitude et sur un systegraveme 51 On note que les sources ont eacuteteacute assez bien seacutepareacutees mais que des artefacts sont audibles en particulier lorsque le nombre de locuteurs simultaneacutes augmentent Ces artefacts sont un meacutelange des voix qui nrsquoest gecircnant que lorsqursquoon les eacutecoute de maniegravere seacutepareacutee En effet lrsquoeacutecoute simultaneacutee de ces signaux syntheacutetiseacutes mecircme placeacutes agrave des positions distinctes sur un systegraveme de diffusion multicanal est tout agrave fait satisfaisante

Ce proceacutedeacute pour pouvoir ecirctre appliqueacute doit fonctionner en temps-reacuteel Cette

contrainte nrsquoa pas du tout eacuteteacute prise en compte lrsquoobjectif eacutetant de valider la faisabiliteacute drsquoune reconstruction Les programmes sous Matlab nrsquoont pas eacuteteacute optimiseacutes et ne respectent pas cette contrainte

43

Conclusion Nous avons preacutesenteacute dans ce rapport le principe et lrsquoapplication de plusieurs

meacutethodes drsquoanalyses spatiales de scegravenes ambisoniques conccedilues et reacutealiseacutee pendant le stage Le format HOA est en effet une repreacutesentation du champ acoustique deacutecomposeacute sur une base drsquoharmoniques spheacuteriques jusqursquoagrave un certain ordre agrave la maniegravere drsquoun deacuteveloppement limiteacute Il contient donc de maniegravere indirecte des indications spatiales qursquoon peut extraire avec des analyses comme lrsquoanalyse en composantes principales

Ces analyses nous permettent de deacuteterminer les positions des sources qui

composent la scegravene sonore Nous avons appliqueacute les reacutesultats de ces analyses agrave 2 types de synthegravese lrsquoune destineacutee aux transmissions bas deacutebit lrsquoautre agrave un traitement de restitution de la preacutecision spatiale dans le cas ougrave des ordres supeacuterieurs dont le but est drsquoaffiner la perception de localisation nrsquoauraient pas pu ecirctre transmis Ces algorithmes par le codage drsquoinformations spatiales qursquoils permettent pourront trouver bien drsquoautres applications dans la transmission et le codage ougrave la description du contenu est de plus en plus utiliseacutee (comme par exemple dans la norme MPEG)

Des ameacuteliorations sont possibles sur plusieurs points tout drsquoabord lrsquoexploitation

de toutes les composantes de lrsquoACP est agrave lrsquoeacutetude et semble pouvoir donner des reacutesultats inteacuteressants Drsquoautre part on a vu que le reacutesultat final est tregraves deacutependant de la bonne convergence de lrsquoalgorithme des k-moyennes utiliseacute pour traiter les donneacutees brutes de lrsquoanalyse en sous-bandes Or cet algorithme neacutecessite des reacuteglages tregraves fins et une connaissance a priori du nombre de sources est presque indispensable Drsquoautres algorithmes plus complexes de suivi de formes pourraient ecirctre avantageusement utiliseacutes pour deacutetecter dans tous les angles trouveacutes lesquels sont susceptibles de former une trajectoire

45

Annexe A

Deacuteveloppement du champ acoustique en harmoniques spheacuteriques

A1 Eacutequation drsquoonde en coordonneacutees spheacuteriques On se place dans lrsquoespace euclidien agrave 3 dimensions muni drsquoun systegraveme de

coordonneacutees spheacuteriques Un point M y est repeacutereacute par son rayon r son azimut θ et son eacuteleacutevation δ tels que repreacutesenteacutes sur la figure ci-dessous

- r est la norme du vecteur position rr crsquoest-agrave-dire la distance OM - [20[ πθ isin est lrsquoangle formeacute par le projeteacute du point sur le plan xOy et lrsquoaxe Ox

- ]2

2

[ ππδ minusisin est lrsquoangle formeacute par le plan xOy et le vecteur position2

Figure A1 - Systegraveme de coordonneacutees spheacuteriques

2 Cet angle diffegravere de lrsquoangle polaire usuel δπϕ minus=

2 habituellement pris entre lrsquoaxe Oz et le

vecteur position

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 46

Les relations entre les coordonneacutees spheacuteriques et les coordonneacutees carteacutesiennes sont

⎪⎩

⎪⎨

===

δδθδθ

sincossincoscos

zryrx

(A1)

On srsquointeacuteresse dans ce repegravere agrave lrsquoeacutequation de propagation des ondes acoustiques

de pression On se place dans les conditions classiques drsquoacoustique lineacuteaire (les variations de p sont petites par rapport agrave la pression atmospheacuterique) en supposant que lrsquoair est un fluide parfait (on y neacutegligera les pheacutenomegravenes dissipatifs) Dans une reacutegion de lrsquoespace ne comprenant pas de sources lrsquoeacutequation drsquoonde srsquoeacutecrit alors

0)(12

2

2 =⎟⎟⎠

⎞⎜⎜⎝

⎛partpart

minus∆ trptc

r (A2)

p eacutetant la pression et c la vitesse de propagation du son dans lrsquoair

Cette eacutequation devient dans le domaine freacutequentiel lrsquoeacutequation de Helmholtz

( ) 0)(2 =+∆ ωrpk r (A3)

ck ω

= eacutetant le nombre drsquoonde

En coordonneacutees spheacuteriques cette eacutequation srsquoeacutecrit

0sin1sin

sin11 2

2

2

222

2 =⎥⎦

⎤⎢⎣

⎡+

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart pk

rrrr

rr δθθθ

θθ (A4)

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques Drsquoapregraves [Bruneau 1983] elle admet des solutions agrave variables seacutepareacutees de la forme

)()()( δθ ΦΘ= rRp (A5) Ces solutions sont respectivement - pour la partie radiale une combinaison des fonctions de Bessel spheacuteriques de

premiegravere et seconde espegravece3 jn et nn

)()()( krBnkrAjrR nn += (A6) 3 Les fonctions de Bessel spheacuteriques de seconde espegravece sont eacutegalement appeleacutees fonctions de

Neumann

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 47

Ces fonctions sont deacutefinies comme suit

(A7)

Figure A2 - Fonctions de Bessel spheacuteriques pour les ordres 0 agrave 5 )(krjm

- pour la partie azimutale les fonctions )(θΘ

)sin()cos()( 21 θθθ ncnc +=Θ (A8) Eacutetant donneacute la deacutefinition de lrsquoangle Θ celui-ci doit neacutecessairement ecirctre de

peacuteriode 2π ))2()(( πθθ +Θ=Θ ce qui impose agrave n drsquoecirctre entier

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 48

- pour la partie polaire les fonctions de Legendre associeacutees )(sinδmnP

nm

nn

mn dPdP

)(sin)(sinsin)(sin

δδ

δδ = pour ⎩⎨⎧

gt=

nmavecnm 321

(A9)

ougrave les )(sinδnP sont les polynocircmes de Legendre de degreacute n en δsin deacutefinis par reacutecurrence

( )

11

22

1

0

sin)12()(sin)1(

1cos321)(sin

sin)(sin0)(sin

minus+ minus+=+

minus=

==

mmm mPPmPmet

P

PP

δδ

ϕδ

δδδ

(A10)

et de formule geacuteneacuterale

mm

m

mm dd

mP )1(sin

)(sin21)(sin 2 minus= δ

δδ (A11)

On peut appliquer aux fonctions )(sinδmnP la semi-normalisation de Schmidt

)(sin)()()(sin~ δεδ mnnmn P

nmnmP

+minus

= ougrave 10 =ε et 2=nε pour 1gen (A12)

En appariant les fonctions polaires et azimutales on deacutefinit les harmoniques

spheacuteriques de degreacute et drsquoordre)1(mnY 0gem 4 mnn lele0 et de degreacute et

drsquoordre (voir Figure A3)

)1(minusmnY 1gem

mnn lele1

)(sin~)sin()(

)(sin~)cos()()1(

)1(

δθδθ

δθδθ

mnmn

mnmn

PnY

PnY

=

=minus

(A13)

4 En geacuteneacuteral lorsque le degreacute et lrsquoordre ne sont pas eacutevoqueacutes conjointement on parle par abus de langage drsquoharmoniques drsquoordre m plutocirct que de degreacute m

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 49

soit

1)(sin

)()()12(2sin)(

)(sin)()()12(2cos)(

1)(sin)1()1()12(cos)(

)1(

)1(

1)1(

1

gt

⎪⎪⎩

⎪⎪⎨

+minus

+=

+minus

+=

=+minus

+=

minus

npourP

nmnmmnY

PnmnmmnY

npourPmmmY

mnmn

mnmn

mm

δθδθ

δθδθ

δθδθ

(A14)

La solution angulaire geacuteneacuterale srsquoeacutecrit alors sous la forme drsquoun deacuteveloppement sur

la base drsquoharmoniques spheacuteriques

( ) ( )sum minus

=minus+=Θ

1

1)1()1()( n

m mnmnmnmnn YBYBθ (A15) La solution geacuteneacuterale est alors la seacuterie de Fourier-Bessel

sum sum sum+infin

= = plusmn=

=0 0 1

)()( )()()(m

m

nmnmnm

m YBkrjikrpσ

σσ δθδθ (A16)

ougrave

intint⎪⎩

⎪⎨⎧

minusisin

isin

plusmnplusmn =

]2

2

[

[20[

)1()1( )()1()(

1

ππδ

πθ

δθδθ

S

mnm

mmn dSYpkrji

B (A17)

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 50

Tableau A1 - Expressions analytiques des harmoniques spheacuteriques pour les ordres 0 agrave 3

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 51

Figure A3 - Repreacutesentation des harmoniques spheacuteriques pour les ordres m = 0 agrave 3 Les

couleurs rouge et bleu indiquent respectivement des valeurs positives et neacutegatives

53

Annexe B

Compleacutements theacuteoriques sur le deacutecodage HOA

B1 Vecteur veacutelociteacute et vecteur eacutenergie Le vecteur veacutelociteacute est un indice de la direction apparente drsquoune source introduit

par Gerzon [Gerzon 1992] Il se calcule comme le rapport de la vitesse particulaire sur la pression acoustique

)()(

)()(1

δθδθ

δθδθ

ρ rprp

ki

rprv

cV nabla

minus=minus=rrr

(B1)

Dans le cas drsquoune onde plane le vecteur veacutelociteacute V

rest ainsi directement un

vecteur unitaire orienteacute vers la direction de provenance de lrsquoonde En geacuteneacuteralisant agrave une superposition drsquoondes planes en phase ou opposition de phase eacutemises par L haut-parleurs agrave eacutequidistance du point drsquoobservation on obtient la formule suivante

VVL

ll

L

lll

urg

ugV r

rr

==

sum

sum

=

=

1

1 (B2)

ougrave deacutesigne la direction du llur egraveme haut-parleur auquel est associeacute le gain gl et Vr Vur correspondent respectivement agrave la norme et agrave la direction du vecteur veacutelociteacute

Le vecteur eacutenergie est un autre indice de direction Il est deacutefinit par

EEL

ll

L

lll

urg

ugE r

rr

==

sum

sum

=

=

1

2

1

2

(B3)

Annexe B Compleacutements theacuteoriques sur le deacutecodage HOA 54

Il peut srsquointerpreacuteter comme une indication de la concentration de lrsquoeacutenergie ( ) et de sa direction moyenne de provenance (

Er

Eur ) On a toujours 1ltEr sauf dans le cas ougrave un seul haut-parleur contribue agrave la reconstruction (dans ce cas ) peut ecirctre consideacutereacute comme un indicateur de preacutecision de la localisation

1=Er Er

B2 Deacutecodages optimiseacutes La restitution la plus confortable drsquoun champ sonore veillera donc agrave maximiser

tout en essayant de garder le plus proche possible de 1 Lrsquooptimisation du deacutecodage consiste alors agrave multiplier chaque coefficient de la matrice de deacutecodage D (voir (111) par des gains calculeacutes drsquoapregraves des critegraveres drsquooptimisation

Er Vr

Ainsi le deacutecodage appeleacute max- maximise la norme du vecteur eacutenergie en

sacrifiant celle du vecteur veacutelociteacute puisqursquoon a dans ce deacutecodage (pour des configurations reacuteguliegraveres de haut-parleurs) Ce deacutecodage est donc avantageux par rapport au deacutecodage basique pour les hautes freacutequences ou dans le cas drsquoun auditoire eacutelargi Le deacutecodage in-phase va encore plus loin en cherchant agrave annuler complegravetement les contributions des haut-parleurs placeacutes agrave lrsquoopposeacute de la direction de provenance de lrsquoonde reproduite Ce critegravere est utile dans le cas drsquoune eacutecoute dans une position tregraves excentreacutee agrave laquelle on pourrait percevoir de faccedilon preacutedominante la contribution en opposition de phase drsquoun tel haut-parleur

Er

EV rr =

Ces diffeacuterents deacutecodages ont chacun des avantages et inconveacutenients Ainsi seul le

deacutecodage basique garantit = 1 le deacutecodage max- permet une preacutecision meilleure notamment en haute freacutequence et le deacutecodage in-phase est plus adapteacute agrave un auditoire plus large Jeacuterocircme Daniel [Daniel 2000] propose ainsi de changer le deacutecodage en fonction de la freacutequence et de lrsquoeacutetendue de la zone drsquoeacutecoute deacutesireacutee

Vr Er

Figure B1 - Deacutecodages les plus approprieacutes par sous-bande et en fonction de lrsquoeacutetendue de la

zone drsquoeacutecoute [Daniel 2000]

55

Annexe C

Analyse en composantes principales

C1 Espace des donneacutees Eacutegalement souvent appeleacutee transformeacutee de Karhunen-Loegraveve5 (TKL) lrsquoanalyse en

composantes principales (ACP) est une technique statistique de repreacutesentation drsquoinformation Introduite sur 2 variables par Pearson [Pearson 1900] elle a eacuteteacute eacutetendue par Hotelling [Hotelling 1933] Elle a pour but de caracteacuteriser des donneacutees drsquoun espace agrave N dimensions dans un sous-espace plus petit en minimisant les pertes drsquoinformation due agrave la projection crsquoest-agrave-dire en maximisant la variance projeteacutee Les donneacutees ainsi reacuteorganiseacutees deviennent indeacutependantes Les variables correacuteleacutees sont remplaceacutees par de nouvelles variables deacutecorreacuteleacutees et de variance maximale combinaisons lineacuteaires des variables initiales

Les donneacutees sont constitueacutees de n variables aleacuteatoires (dans notre cas des canaux)

et p reacutealisations ou individus (des eacutechantillons)

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

pn

p

ji

n

xx

x

xx

M

LLL

MOMNM

MLLM

MNMOM

LLL

1

111

(C1)

Ces donneacutees sont geacuteneacuteralement centreacutees et peuvent aussi ecirctre reacuteduites4 (on note

1x la moyenne de la variable et 1x )( 1xσ sa variance) Reacuteduire ou non le nuage de points (ie les p reacutealisations de la variable aleacuteatoire) est un choix de modegravele

5 Quelques rares sources mentionnent une diffeacuterence entre ACP et TKL en placcedilant celle-ci au

niveau du choix de la reacuteduction des donneacutees dans le cas dune ACP les donneacutees seraient centreacutees et reacuteduites alors qursquoelles seraient uniquement centreacutees pour une TKL

Annexe C Analyse en composantes principales 56

- si on ne reacuteduit pas le nuage une variable agrave forte variance pourrait tirer tout lrsquoeffet de lrsquoACP agrave elle

- si on reacuteduit le nuage une variable qui ne serait qursquoun bruit se retrouverait avec une variance apparente eacutegale agrave une variable informative

M est centreacutee

⎥⎥⎥

⎢⎢⎢

minusminusminus

minusminus=

npn

pi

ji

nn

xxxxxx

xxxxM

K

MM

K

11

11

11

ˆ (C2)

M~ est centreacutee et reacuteduite

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

minusminus

minus

minusminus

=

)()(

)(

)()(~

1

11

1

1

111

n

npn

pi

ij

i

n

nn

xxx

xxx

xxx

xxx

xxx

M

σσ

σ

σσ

K

MM

K

(C3)

On multiplie ensuite la matrice obtenue par sa transposeacutee pour obtenir - La matrice de covariance MMC t

vˆˆ sdot=

- La matrice de correacutelation MMC tr

~~ sdot= Ces matrices sont carreacutees (N x N) symeacutetriques et reacuteelles Elles sont donc

diagonalisables dans une base orthonormeacutee 6 Le principe de lrsquoACP est alors de trouver un axe u issu drsquoune combinaison lineacuteaire

des tel que le critegravere drsquoinertie du nuage autour de cet axe soit maximal Le critegravere drsquoinertie couramment utiliseacute est la variance Il faut donc trouver lrsquoaxe qui porte le maximum de variance crsquoest-agrave-dire lrsquoaxe u tel que la projection du nuage sur cet axe ait une variance maximale

nx

6 Nos donneacutees eacutetant ici des valeurs drsquoeacutechantillons elles sont par nature centreacutees et reacuteduites On

formera donc naturellement la matrice de correacutelation

C2 Diagonalisation 57

C2 Diagonalisation Pour alleacuteger lrsquoeacutecriture de la suite de cette partie nous consideacutererons que les

variables ont eacuteteacute centreacutees et si besoin reacuteduites et nous noterons ces variables

transformeacutees (ainsi

ix ix

iii xxx minuslarr ou bien )( i

iii x

xxxσ

minuslarr ) On fera de mecircme pour M

( ou bien MM ˆlarr MM ~larr ) et C ( vCC larr ou bien rCC larr ) La projection drsquoun eacutechantillon sur un axe u srsquoeacutecrit ix

uMxiu sdot=)(π (C4) La variance empirique de )( iu xπ vaut donc

uMMuxx ttiu

tiu sdotsdotsdot=sdot )()( ππ (C5)

Or on a vu que est diagonalisable dans une base orthonormeacutee donc

on peut noter P le changement de base associeacute et ∆ la matrice diagonale formeacutee de son spectre Ainsi

MMC t=

n

i 1)(λ PPMMC tt ∆==

)()()()( PuPuuPPuxx ttt

iut

iu sdot∆sdot=sdot∆sdot=sdotππ (C6) On pose v = Pu Chercher lrsquoaxe u qui maximise )( iu xπ revient donc agrave chercher le

vecteur v qui maximise ougravevvt ∆ )( 1 ndiag λλ K=∆ avec les iλ rangeacutes par ordre deacutecroissant Ce vecteur est trivialement le premier vecteur unitaire et on a alors

1λ=∆vvt

Ainsi le vecteur qui porte la plus grande part drsquoinertie du nuage est le premier

vecteur propre de C (premier par norme deacutecroissante) De mecircme le deuxiegraveme vecteur qui explique la plus grandelt part de lrsquoinertie restante est le deuxiegraveme vecteur propre de C Finalement la question de lrsquoACP se ramegravene agrave un problegraveme de diagonalisation de la matrice de correacutelation

C3 Code Matlab

function [vep vap] = pca(f N) f donneacutees N nombre de composantes agrave garder cor = f f formation de la matrice de correacutelation [vep vap] = eig(cor) calcul des vecteurs (vep) et valeurs (vap) propres [vap ind] = sort(diag(vap)) tri des valeurs propres par ordre croissant vap = flipud(vap) disposition inverse par ordre drsquoimportance vep = vep( flipud(ind)) classement en conseacutequence des vecteurs propres vep = vep( 1N) on ne garde que les N premiers vecteurs propres

Annexe C Analyse en composantes principales 58

59

Annexe D

Analyse en sous-bandes

D1 La transformeacutee de Fourier agrave court terme (TFCT) Pour affiner lrsquoanalyse les signaux sont donc deacutecoupeacutes en bandes de freacutequence par

TFCT La TFCT consiste agrave effectuer des transformeacutees de Fourier discregravetes sur des portions de signal fenecirctreacutees reacuteguliegraverement espaceacutees

On rappelle que la transformeacutee de Fourier drsquoun signal x(t) est deacutefinie (lorsque

lrsquointeacutegrale existe) par

int+infin

infinminus

minus= dtetxfX ftiπ2)()( (D1)

La transformeacutee de Fourier agrave temps discret (TFTD) drsquoun signal x(t) srsquoeacutecrit

sum+infin

minusinfin=

minus=n

fnienxfX π2)()( (D2)

La transformeacutee de Fourier discregravete (TFD) drsquoun signal discret x(k) est deacutefinie par

sum+infin

minusinfin=

minus=

n

Nkni

enxkXπ2

)()( (D3)

La TFCT discregravete est une TFD observeacutee sur une fenecirctre wa de taille N

summinus

=

minus+=

1

0

2)())(()(

N

n

Nnki

aaa enwtnxkXπ

ττ (D4)

ougrave )(taτ est lrsquoinstant drsquoanalyse

Annexe D Analyse en sous-bandes 60

Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT [Laroche 1995]

D2 Synthegravese par addition-recouvrement Lors de la synthegravese apregraves le deacutecoupage et lrsquoanalyse des fenecirctres on cherche agrave

reconstruire le signal temporel agrave partir de sa repreacutesentation freacutequentielle Pour cela on utilise la meacutethode OLA (overlap and add addition-recouvrement) qui consiste agrave prendre la TFCT inverse des spectres Xt puis agrave additionner les signaux obtenus apregraves les avoir multiplieacutes par une fenecirctre de pondeacuteration en les faisant se recouvrir partiellement

Le reacutesultat est donneacute par

sum=

minusminus=T

tsss tnxtnwnx

s1

))((~))(()(~ ττ τ (D5)

avec )()( tt as ττ = et summinus

=

=1

0

2))((~1)(~ N

k

Nkni

s ektXN

nxs

π

τ τ

Lors de la mise en œuvre de ce traitement il faut srsquoassurer drsquoecirctre en mesure de

reconstruire parfaitement un signal lorsqursquoaucune transformation ne lui est appliqueacutee Le critegravere de reconstruction parfaite condition suffisante est alors

sum=

=minusminusT

tasaa tnwtnw

11))(())(( ττ quelque soit n (D6)

D2 Synthegravese par addition-recouvrement 61

Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add [Laroche 1995]

Plusieurs paramegravetres sont agrave choisir avec soin Le premier drsquoentre eux est le type

de fenecirctre agrave utiliser Les diffeacuterentes options qui se preacutesentent agrave nous sont - la fenecirctre rectangulaire qui preacutesente dans son spectre le lobe principal le plus

eacutetroit mais des lobes secondaires non neacutegligeables - la fenecirctre de Hamming au lobe principal un peu plus large mais pour laquelle le

1er lobe secondaire se situe agrave -43 dB - la fenecirctre de Hann (ou cosinus sureacuteleveacute) qui ressemble agrave la preacuteceacutedente avec un

1er lobe secondaire plus fort mais une pente de 18 dB par octave pour les lobes suivants

- les fenecirctres de Blackman-Harris aux lobes secondaires tregraves bas mais au lobe principal plus large

Fenecirctre Lobe 2aire

(dB) Pente

(dBoct) Bande passante

agrave 6 dB (bins) Rectangulaire -13 -6 121 Triangulaire -27 -12 178

Hann -32 -18 200 Hamming -43 -6 181

Blackman-Harris 4 -92 -6 272

Tableau D1 - Caracteacuteristiques des principales fenecirctres drsquoanalyse [Harris 1978] Le meilleur compromis est donc dans notre contexte la fenecirctre de Hann ou celle

de Hamming

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 47: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

44 Deacuteveloppement drsquoune application pour la confeacuterence audio spatialiseacutee 41

Figure 414 - Analyse principe de lrsquoencodage dans le serveur

Figure 415 - Synthegravese principe du deacutecodage dans le client

Afin de reacuteduire au maximum les informations compleacutementaires agrave transmettre on

peut remarquer qursquoau cours drsquoune confeacuterence audio on a tregraves souvent un seul locuteur les participants ne parlent que tregraves rarement tous en mecircme temps Ceci implique que les signaux en entreacutee sont tregraves souvent tous nuls sauf 1 et appliquer un seuil en entreacutee de lrsquoanalyse permet outre lrsquoallegravegement du traitement drsquoavoir moins de paramegravetres agrave transmettre

Ce scheacutema simplifieacute ne tient pas compte des problegravemes de phase rien nrsquoindique

que les eacutenergies des signaux srsquoajoutent bien dans chaque sous-bande lors du downmix on peut tregraves bien avoir des oppositions de phase La solution est drsquoeffectuer le downmix (la somme) des signaux dans chaque sous-bande en prenant soin drsquoavoir recaleacute les phases au preacutealable Ceci nrsquoa un sens que pour des bandes suffisamment eacutetroites Les deacutecalages temporels appliqueacutes pour le recalage sont alors des paramegravetres suppleacutementaires agrave transmettre et sont pris en compte lors de la synthegravese au niveau du reacutepartiteur qui repositionnera la phase de chaque trame pour chaque signal

Chapitre 4 Reacutesultats et applications 42

443 Bilan Le reacutesultat du deacutecodage a pu ecirctre eacutecouteacute de diffeacuterentes maniegraveres les sources

reconstitueacutees individuellement ensemble en steacutereacuteo drsquoamplitude et sur un systegraveme 51 On note que les sources ont eacuteteacute assez bien seacutepareacutees mais que des artefacts sont audibles en particulier lorsque le nombre de locuteurs simultaneacutes augmentent Ces artefacts sont un meacutelange des voix qui nrsquoest gecircnant que lorsqursquoon les eacutecoute de maniegravere seacutepareacutee En effet lrsquoeacutecoute simultaneacutee de ces signaux syntheacutetiseacutes mecircme placeacutes agrave des positions distinctes sur un systegraveme de diffusion multicanal est tout agrave fait satisfaisante

Ce proceacutedeacute pour pouvoir ecirctre appliqueacute doit fonctionner en temps-reacuteel Cette

contrainte nrsquoa pas du tout eacuteteacute prise en compte lrsquoobjectif eacutetant de valider la faisabiliteacute drsquoune reconstruction Les programmes sous Matlab nrsquoont pas eacuteteacute optimiseacutes et ne respectent pas cette contrainte

43

Conclusion Nous avons preacutesenteacute dans ce rapport le principe et lrsquoapplication de plusieurs

meacutethodes drsquoanalyses spatiales de scegravenes ambisoniques conccedilues et reacutealiseacutee pendant le stage Le format HOA est en effet une repreacutesentation du champ acoustique deacutecomposeacute sur une base drsquoharmoniques spheacuteriques jusqursquoagrave un certain ordre agrave la maniegravere drsquoun deacuteveloppement limiteacute Il contient donc de maniegravere indirecte des indications spatiales qursquoon peut extraire avec des analyses comme lrsquoanalyse en composantes principales

Ces analyses nous permettent de deacuteterminer les positions des sources qui

composent la scegravene sonore Nous avons appliqueacute les reacutesultats de ces analyses agrave 2 types de synthegravese lrsquoune destineacutee aux transmissions bas deacutebit lrsquoautre agrave un traitement de restitution de la preacutecision spatiale dans le cas ougrave des ordres supeacuterieurs dont le but est drsquoaffiner la perception de localisation nrsquoauraient pas pu ecirctre transmis Ces algorithmes par le codage drsquoinformations spatiales qursquoils permettent pourront trouver bien drsquoautres applications dans la transmission et le codage ougrave la description du contenu est de plus en plus utiliseacutee (comme par exemple dans la norme MPEG)

Des ameacuteliorations sont possibles sur plusieurs points tout drsquoabord lrsquoexploitation

de toutes les composantes de lrsquoACP est agrave lrsquoeacutetude et semble pouvoir donner des reacutesultats inteacuteressants Drsquoautre part on a vu que le reacutesultat final est tregraves deacutependant de la bonne convergence de lrsquoalgorithme des k-moyennes utiliseacute pour traiter les donneacutees brutes de lrsquoanalyse en sous-bandes Or cet algorithme neacutecessite des reacuteglages tregraves fins et une connaissance a priori du nombre de sources est presque indispensable Drsquoautres algorithmes plus complexes de suivi de formes pourraient ecirctre avantageusement utiliseacutes pour deacutetecter dans tous les angles trouveacutes lesquels sont susceptibles de former une trajectoire

45

Annexe A

Deacuteveloppement du champ acoustique en harmoniques spheacuteriques

A1 Eacutequation drsquoonde en coordonneacutees spheacuteriques On se place dans lrsquoespace euclidien agrave 3 dimensions muni drsquoun systegraveme de

coordonneacutees spheacuteriques Un point M y est repeacutereacute par son rayon r son azimut θ et son eacuteleacutevation δ tels que repreacutesenteacutes sur la figure ci-dessous

- r est la norme du vecteur position rr crsquoest-agrave-dire la distance OM - [20[ πθ isin est lrsquoangle formeacute par le projeteacute du point sur le plan xOy et lrsquoaxe Ox

- ]2

2

[ ππδ minusisin est lrsquoangle formeacute par le plan xOy et le vecteur position2

Figure A1 - Systegraveme de coordonneacutees spheacuteriques

2 Cet angle diffegravere de lrsquoangle polaire usuel δπϕ minus=

2 habituellement pris entre lrsquoaxe Oz et le

vecteur position

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 46

Les relations entre les coordonneacutees spheacuteriques et les coordonneacutees carteacutesiennes sont

⎪⎩

⎪⎨

===

δδθδθ

sincossincoscos

zryrx

(A1)

On srsquointeacuteresse dans ce repegravere agrave lrsquoeacutequation de propagation des ondes acoustiques

de pression On se place dans les conditions classiques drsquoacoustique lineacuteaire (les variations de p sont petites par rapport agrave la pression atmospheacuterique) en supposant que lrsquoair est un fluide parfait (on y neacutegligera les pheacutenomegravenes dissipatifs) Dans une reacutegion de lrsquoespace ne comprenant pas de sources lrsquoeacutequation drsquoonde srsquoeacutecrit alors

0)(12

2

2 =⎟⎟⎠

⎞⎜⎜⎝

⎛partpart

minus∆ trptc

r (A2)

p eacutetant la pression et c la vitesse de propagation du son dans lrsquoair

Cette eacutequation devient dans le domaine freacutequentiel lrsquoeacutequation de Helmholtz

( ) 0)(2 =+∆ ωrpk r (A3)

ck ω

= eacutetant le nombre drsquoonde

En coordonneacutees spheacuteriques cette eacutequation srsquoeacutecrit

0sin1sin

sin11 2

2

2

222

2 =⎥⎦

⎤⎢⎣

⎡+

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart pk

rrrr

rr δθθθ

θθ (A4)

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques Drsquoapregraves [Bruneau 1983] elle admet des solutions agrave variables seacutepareacutees de la forme

)()()( δθ ΦΘ= rRp (A5) Ces solutions sont respectivement - pour la partie radiale une combinaison des fonctions de Bessel spheacuteriques de

premiegravere et seconde espegravece3 jn et nn

)()()( krBnkrAjrR nn += (A6) 3 Les fonctions de Bessel spheacuteriques de seconde espegravece sont eacutegalement appeleacutees fonctions de

Neumann

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 47

Ces fonctions sont deacutefinies comme suit

(A7)

Figure A2 - Fonctions de Bessel spheacuteriques pour les ordres 0 agrave 5 )(krjm

- pour la partie azimutale les fonctions )(θΘ

)sin()cos()( 21 θθθ ncnc +=Θ (A8) Eacutetant donneacute la deacutefinition de lrsquoangle Θ celui-ci doit neacutecessairement ecirctre de

peacuteriode 2π ))2()(( πθθ +Θ=Θ ce qui impose agrave n drsquoecirctre entier

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 48

- pour la partie polaire les fonctions de Legendre associeacutees )(sinδmnP

nm

nn

mn dPdP

)(sin)(sinsin)(sin

δδ

δδ = pour ⎩⎨⎧

gt=

nmavecnm 321

(A9)

ougrave les )(sinδnP sont les polynocircmes de Legendre de degreacute n en δsin deacutefinis par reacutecurrence

( )

11

22

1

0

sin)12()(sin)1(

1cos321)(sin

sin)(sin0)(sin

minus+ minus+=+

minus=

==

mmm mPPmPmet

P

PP

δδ

ϕδ

δδδ

(A10)

et de formule geacuteneacuterale

mm

m

mm dd

mP )1(sin

)(sin21)(sin 2 minus= δ

δδ (A11)

On peut appliquer aux fonctions )(sinδmnP la semi-normalisation de Schmidt

)(sin)()()(sin~ δεδ mnnmn P

nmnmP

+minus

= ougrave 10 =ε et 2=nε pour 1gen (A12)

En appariant les fonctions polaires et azimutales on deacutefinit les harmoniques

spheacuteriques de degreacute et drsquoordre)1(mnY 0gem 4 mnn lele0 et de degreacute et

drsquoordre (voir Figure A3)

)1(minusmnY 1gem

mnn lele1

)(sin~)sin()(

)(sin~)cos()()1(

)1(

δθδθ

δθδθ

mnmn

mnmn

PnY

PnY

=

=minus

(A13)

4 En geacuteneacuteral lorsque le degreacute et lrsquoordre ne sont pas eacutevoqueacutes conjointement on parle par abus de langage drsquoharmoniques drsquoordre m plutocirct que de degreacute m

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 49

soit

1)(sin

)()()12(2sin)(

)(sin)()()12(2cos)(

1)(sin)1()1()12(cos)(

)1(

)1(

1)1(

1

gt

⎪⎪⎩

⎪⎪⎨

+minus

+=

+minus

+=

=+minus

+=

minus

npourP

nmnmmnY

PnmnmmnY

npourPmmmY

mnmn

mnmn

mm

δθδθ

δθδθ

δθδθ

(A14)

La solution angulaire geacuteneacuterale srsquoeacutecrit alors sous la forme drsquoun deacuteveloppement sur

la base drsquoharmoniques spheacuteriques

( ) ( )sum minus

=minus+=Θ

1

1)1()1()( n

m mnmnmnmnn YBYBθ (A15) La solution geacuteneacuterale est alors la seacuterie de Fourier-Bessel

sum sum sum+infin

= = plusmn=

=0 0 1

)()( )()()(m

m

nmnmnm

m YBkrjikrpσ

σσ δθδθ (A16)

ougrave

intint⎪⎩

⎪⎨⎧

minusisin

isin

plusmnplusmn =

]2

2

[

[20[

)1()1( )()1()(

1

ππδ

πθ

δθδθ

S

mnm

mmn dSYpkrji

B (A17)

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 50

Tableau A1 - Expressions analytiques des harmoniques spheacuteriques pour les ordres 0 agrave 3

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 51

Figure A3 - Repreacutesentation des harmoniques spheacuteriques pour les ordres m = 0 agrave 3 Les

couleurs rouge et bleu indiquent respectivement des valeurs positives et neacutegatives

53

Annexe B

Compleacutements theacuteoriques sur le deacutecodage HOA

B1 Vecteur veacutelociteacute et vecteur eacutenergie Le vecteur veacutelociteacute est un indice de la direction apparente drsquoune source introduit

par Gerzon [Gerzon 1992] Il se calcule comme le rapport de la vitesse particulaire sur la pression acoustique

)()(

)()(1

δθδθ

δθδθ

ρ rprp

ki

rprv

cV nabla

minus=minus=rrr

(B1)

Dans le cas drsquoune onde plane le vecteur veacutelociteacute V

rest ainsi directement un

vecteur unitaire orienteacute vers la direction de provenance de lrsquoonde En geacuteneacuteralisant agrave une superposition drsquoondes planes en phase ou opposition de phase eacutemises par L haut-parleurs agrave eacutequidistance du point drsquoobservation on obtient la formule suivante

VVL

ll

L

lll

urg

ugV r

rr

==

sum

sum

=

=

1

1 (B2)

ougrave deacutesigne la direction du llur egraveme haut-parleur auquel est associeacute le gain gl et Vr Vur correspondent respectivement agrave la norme et agrave la direction du vecteur veacutelociteacute

Le vecteur eacutenergie est un autre indice de direction Il est deacutefinit par

EEL

ll

L

lll

urg

ugE r

rr

==

sum

sum

=

=

1

2

1

2

(B3)

Annexe B Compleacutements theacuteoriques sur le deacutecodage HOA 54

Il peut srsquointerpreacuteter comme une indication de la concentration de lrsquoeacutenergie ( ) et de sa direction moyenne de provenance (

Er

Eur ) On a toujours 1ltEr sauf dans le cas ougrave un seul haut-parleur contribue agrave la reconstruction (dans ce cas ) peut ecirctre consideacutereacute comme un indicateur de preacutecision de la localisation

1=Er Er

B2 Deacutecodages optimiseacutes La restitution la plus confortable drsquoun champ sonore veillera donc agrave maximiser

tout en essayant de garder le plus proche possible de 1 Lrsquooptimisation du deacutecodage consiste alors agrave multiplier chaque coefficient de la matrice de deacutecodage D (voir (111) par des gains calculeacutes drsquoapregraves des critegraveres drsquooptimisation

Er Vr

Ainsi le deacutecodage appeleacute max- maximise la norme du vecteur eacutenergie en

sacrifiant celle du vecteur veacutelociteacute puisqursquoon a dans ce deacutecodage (pour des configurations reacuteguliegraveres de haut-parleurs) Ce deacutecodage est donc avantageux par rapport au deacutecodage basique pour les hautes freacutequences ou dans le cas drsquoun auditoire eacutelargi Le deacutecodage in-phase va encore plus loin en cherchant agrave annuler complegravetement les contributions des haut-parleurs placeacutes agrave lrsquoopposeacute de la direction de provenance de lrsquoonde reproduite Ce critegravere est utile dans le cas drsquoune eacutecoute dans une position tregraves excentreacutee agrave laquelle on pourrait percevoir de faccedilon preacutedominante la contribution en opposition de phase drsquoun tel haut-parleur

Er

EV rr =

Ces diffeacuterents deacutecodages ont chacun des avantages et inconveacutenients Ainsi seul le

deacutecodage basique garantit = 1 le deacutecodage max- permet une preacutecision meilleure notamment en haute freacutequence et le deacutecodage in-phase est plus adapteacute agrave un auditoire plus large Jeacuterocircme Daniel [Daniel 2000] propose ainsi de changer le deacutecodage en fonction de la freacutequence et de lrsquoeacutetendue de la zone drsquoeacutecoute deacutesireacutee

Vr Er

Figure B1 - Deacutecodages les plus approprieacutes par sous-bande et en fonction de lrsquoeacutetendue de la

zone drsquoeacutecoute [Daniel 2000]

55

Annexe C

Analyse en composantes principales

C1 Espace des donneacutees Eacutegalement souvent appeleacutee transformeacutee de Karhunen-Loegraveve5 (TKL) lrsquoanalyse en

composantes principales (ACP) est une technique statistique de repreacutesentation drsquoinformation Introduite sur 2 variables par Pearson [Pearson 1900] elle a eacuteteacute eacutetendue par Hotelling [Hotelling 1933] Elle a pour but de caracteacuteriser des donneacutees drsquoun espace agrave N dimensions dans un sous-espace plus petit en minimisant les pertes drsquoinformation due agrave la projection crsquoest-agrave-dire en maximisant la variance projeteacutee Les donneacutees ainsi reacuteorganiseacutees deviennent indeacutependantes Les variables correacuteleacutees sont remplaceacutees par de nouvelles variables deacutecorreacuteleacutees et de variance maximale combinaisons lineacuteaires des variables initiales

Les donneacutees sont constitueacutees de n variables aleacuteatoires (dans notre cas des canaux)

et p reacutealisations ou individus (des eacutechantillons)

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

pn

p

ji

n

xx

x

xx

M

LLL

MOMNM

MLLM

MNMOM

LLL

1

111

(C1)

Ces donneacutees sont geacuteneacuteralement centreacutees et peuvent aussi ecirctre reacuteduites4 (on note

1x la moyenne de la variable et 1x )( 1xσ sa variance) Reacuteduire ou non le nuage de points (ie les p reacutealisations de la variable aleacuteatoire) est un choix de modegravele

5 Quelques rares sources mentionnent une diffeacuterence entre ACP et TKL en placcedilant celle-ci au

niveau du choix de la reacuteduction des donneacutees dans le cas dune ACP les donneacutees seraient centreacutees et reacuteduites alors qursquoelles seraient uniquement centreacutees pour une TKL

Annexe C Analyse en composantes principales 56

- si on ne reacuteduit pas le nuage une variable agrave forte variance pourrait tirer tout lrsquoeffet de lrsquoACP agrave elle

- si on reacuteduit le nuage une variable qui ne serait qursquoun bruit se retrouverait avec une variance apparente eacutegale agrave une variable informative

M est centreacutee

⎥⎥⎥

⎢⎢⎢

minusminusminus

minusminus=

npn

pi

ji

nn

xxxxxx

xxxxM

K

MM

K

11

11

11

ˆ (C2)

M~ est centreacutee et reacuteduite

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

minusminus

minus

minusminus

=

)()(

)(

)()(~

1

11

1

1

111

n

npn

pi

ij

i

n

nn

xxx

xxx

xxx

xxx

xxx

M

σσ

σ

σσ

K

MM

K

(C3)

On multiplie ensuite la matrice obtenue par sa transposeacutee pour obtenir - La matrice de covariance MMC t

vˆˆ sdot=

- La matrice de correacutelation MMC tr

~~ sdot= Ces matrices sont carreacutees (N x N) symeacutetriques et reacuteelles Elles sont donc

diagonalisables dans une base orthonormeacutee 6 Le principe de lrsquoACP est alors de trouver un axe u issu drsquoune combinaison lineacuteaire

des tel que le critegravere drsquoinertie du nuage autour de cet axe soit maximal Le critegravere drsquoinertie couramment utiliseacute est la variance Il faut donc trouver lrsquoaxe qui porte le maximum de variance crsquoest-agrave-dire lrsquoaxe u tel que la projection du nuage sur cet axe ait une variance maximale

nx

6 Nos donneacutees eacutetant ici des valeurs drsquoeacutechantillons elles sont par nature centreacutees et reacuteduites On

formera donc naturellement la matrice de correacutelation

C2 Diagonalisation 57

C2 Diagonalisation Pour alleacuteger lrsquoeacutecriture de la suite de cette partie nous consideacutererons que les

variables ont eacuteteacute centreacutees et si besoin reacuteduites et nous noterons ces variables

transformeacutees (ainsi

ix ix

iii xxx minuslarr ou bien )( i

iii x

xxxσ

minuslarr ) On fera de mecircme pour M

( ou bien MM ˆlarr MM ~larr ) et C ( vCC larr ou bien rCC larr ) La projection drsquoun eacutechantillon sur un axe u srsquoeacutecrit ix

uMxiu sdot=)(π (C4) La variance empirique de )( iu xπ vaut donc

uMMuxx ttiu

tiu sdotsdotsdot=sdot )()( ππ (C5)

Or on a vu que est diagonalisable dans une base orthonormeacutee donc

on peut noter P le changement de base associeacute et ∆ la matrice diagonale formeacutee de son spectre Ainsi

MMC t=

n

i 1)(λ PPMMC tt ∆==

)()()()( PuPuuPPuxx ttt

iut

iu sdot∆sdot=sdot∆sdot=sdotππ (C6) On pose v = Pu Chercher lrsquoaxe u qui maximise )( iu xπ revient donc agrave chercher le

vecteur v qui maximise ougravevvt ∆ )( 1 ndiag λλ K=∆ avec les iλ rangeacutes par ordre deacutecroissant Ce vecteur est trivialement le premier vecteur unitaire et on a alors

1λ=∆vvt

Ainsi le vecteur qui porte la plus grande part drsquoinertie du nuage est le premier

vecteur propre de C (premier par norme deacutecroissante) De mecircme le deuxiegraveme vecteur qui explique la plus grandelt part de lrsquoinertie restante est le deuxiegraveme vecteur propre de C Finalement la question de lrsquoACP se ramegravene agrave un problegraveme de diagonalisation de la matrice de correacutelation

C3 Code Matlab

function [vep vap] = pca(f N) f donneacutees N nombre de composantes agrave garder cor = f f formation de la matrice de correacutelation [vep vap] = eig(cor) calcul des vecteurs (vep) et valeurs (vap) propres [vap ind] = sort(diag(vap)) tri des valeurs propres par ordre croissant vap = flipud(vap) disposition inverse par ordre drsquoimportance vep = vep( flipud(ind)) classement en conseacutequence des vecteurs propres vep = vep( 1N) on ne garde que les N premiers vecteurs propres

Annexe C Analyse en composantes principales 58

59

Annexe D

Analyse en sous-bandes

D1 La transformeacutee de Fourier agrave court terme (TFCT) Pour affiner lrsquoanalyse les signaux sont donc deacutecoupeacutes en bandes de freacutequence par

TFCT La TFCT consiste agrave effectuer des transformeacutees de Fourier discregravetes sur des portions de signal fenecirctreacutees reacuteguliegraverement espaceacutees

On rappelle que la transformeacutee de Fourier drsquoun signal x(t) est deacutefinie (lorsque

lrsquointeacutegrale existe) par

int+infin

infinminus

minus= dtetxfX ftiπ2)()( (D1)

La transformeacutee de Fourier agrave temps discret (TFTD) drsquoun signal x(t) srsquoeacutecrit

sum+infin

minusinfin=

minus=n

fnienxfX π2)()( (D2)

La transformeacutee de Fourier discregravete (TFD) drsquoun signal discret x(k) est deacutefinie par

sum+infin

minusinfin=

minus=

n

Nkni

enxkXπ2

)()( (D3)

La TFCT discregravete est une TFD observeacutee sur une fenecirctre wa de taille N

summinus

=

minus+=

1

0

2)())(()(

N

n

Nnki

aaa enwtnxkXπ

ττ (D4)

ougrave )(taτ est lrsquoinstant drsquoanalyse

Annexe D Analyse en sous-bandes 60

Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT [Laroche 1995]

D2 Synthegravese par addition-recouvrement Lors de la synthegravese apregraves le deacutecoupage et lrsquoanalyse des fenecirctres on cherche agrave

reconstruire le signal temporel agrave partir de sa repreacutesentation freacutequentielle Pour cela on utilise la meacutethode OLA (overlap and add addition-recouvrement) qui consiste agrave prendre la TFCT inverse des spectres Xt puis agrave additionner les signaux obtenus apregraves les avoir multiplieacutes par une fenecirctre de pondeacuteration en les faisant se recouvrir partiellement

Le reacutesultat est donneacute par

sum=

minusminus=T

tsss tnxtnwnx

s1

))((~))(()(~ ττ τ (D5)

avec )()( tt as ττ = et summinus

=

=1

0

2))((~1)(~ N

k

Nkni

s ektXN

nxs

π

τ τ

Lors de la mise en œuvre de ce traitement il faut srsquoassurer drsquoecirctre en mesure de

reconstruire parfaitement un signal lorsqursquoaucune transformation ne lui est appliqueacutee Le critegravere de reconstruction parfaite condition suffisante est alors

sum=

=minusminusT

tasaa tnwtnw

11))(())(( ττ quelque soit n (D6)

D2 Synthegravese par addition-recouvrement 61

Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add [Laroche 1995]

Plusieurs paramegravetres sont agrave choisir avec soin Le premier drsquoentre eux est le type

de fenecirctre agrave utiliser Les diffeacuterentes options qui se preacutesentent agrave nous sont - la fenecirctre rectangulaire qui preacutesente dans son spectre le lobe principal le plus

eacutetroit mais des lobes secondaires non neacutegligeables - la fenecirctre de Hamming au lobe principal un peu plus large mais pour laquelle le

1er lobe secondaire se situe agrave -43 dB - la fenecirctre de Hann (ou cosinus sureacuteleveacute) qui ressemble agrave la preacuteceacutedente avec un

1er lobe secondaire plus fort mais une pente de 18 dB par octave pour les lobes suivants

- les fenecirctres de Blackman-Harris aux lobes secondaires tregraves bas mais au lobe principal plus large

Fenecirctre Lobe 2aire

(dB) Pente

(dBoct) Bande passante

agrave 6 dB (bins) Rectangulaire -13 -6 121 Triangulaire -27 -12 178

Hann -32 -18 200 Hamming -43 -6 181

Blackman-Harris 4 -92 -6 272

Tableau D1 - Caracteacuteristiques des principales fenecirctres drsquoanalyse [Harris 1978] Le meilleur compromis est donc dans notre contexte la fenecirctre de Hann ou celle

de Hamming

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 48: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

Chapitre 4 Reacutesultats et applications 42

443 Bilan Le reacutesultat du deacutecodage a pu ecirctre eacutecouteacute de diffeacuterentes maniegraveres les sources

reconstitueacutees individuellement ensemble en steacutereacuteo drsquoamplitude et sur un systegraveme 51 On note que les sources ont eacuteteacute assez bien seacutepareacutees mais que des artefacts sont audibles en particulier lorsque le nombre de locuteurs simultaneacutes augmentent Ces artefacts sont un meacutelange des voix qui nrsquoest gecircnant que lorsqursquoon les eacutecoute de maniegravere seacutepareacutee En effet lrsquoeacutecoute simultaneacutee de ces signaux syntheacutetiseacutes mecircme placeacutes agrave des positions distinctes sur un systegraveme de diffusion multicanal est tout agrave fait satisfaisante

Ce proceacutedeacute pour pouvoir ecirctre appliqueacute doit fonctionner en temps-reacuteel Cette

contrainte nrsquoa pas du tout eacuteteacute prise en compte lrsquoobjectif eacutetant de valider la faisabiliteacute drsquoune reconstruction Les programmes sous Matlab nrsquoont pas eacuteteacute optimiseacutes et ne respectent pas cette contrainte

43

Conclusion Nous avons preacutesenteacute dans ce rapport le principe et lrsquoapplication de plusieurs

meacutethodes drsquoanalyses spatiales de scegravenes ambisoniques conccedilues et reacutealiseacutee pendant le stage Le format HOA est en effet une repreacutesentation du champ acoustique deacutecomposeacute sur une base drsquoharmoniques spheacuteriques jusqursquoagrave un certain ordre agrave la maniegravere drsquoun deacuteveloppement limiteacute Il contient donc de maniegravere indirecte des indications spatiales qursquoon peut extraire avec des analyses comme lrsquoanalyse en composantes principales

Ces analyses nous permettent de deacuteterminer les positions des sources qui

composent la scegravene sonore Nous avons appliqueacute les reacutesultats de ces analyses agrave 2 types de synthegravese lrsquoune destineacutee aux transmissions bas deacutebit lrsquoautre agrave un traitement de restitution de la preacutecision spatiale dans le cas ougrave des ordres supeacuterieurs dont le but est drsquoaffiner la perception de localisation nrsquoauraient pas pu ecirctre transmis Ces algorithmes par le codage drsquoinformations spatiales qursquoils permettent pourront trouver bien drsquoautres applications dans la transmission et le codage ougrave la description du contenu est de plus en plus utiliseacutee (comme par exemple dans la norme MPEG)

Des ameacuteliorations sont possibles sur plusieurs points tout drsquoabord lrsquoexploitation

de toutes les composantes de lrsquoACP est agrave lrsquoeacutetude et semble pouvoir donner des reacutesultats inteacuteressants Drsquoautre part on a vu que le reacutesultat final est tregraves deacutependant de la bonne convergence de lrsquoalgorithme des k-moyennes utiliseacute pour traiter les donneacutees brutes de lrsquoanalyse en sous-bandes Or cet algorithme neacutecessite des reacuteglages tregraves fins et une connaissance a priori du nombre de sources est presque indispensable Drsquoautres algorithmes plus complexes de suivi de formes pourraient ecirctre avantageusement utiliseacutes pour deacutetecter dans tous les angles trouveacutes lesquels sont susceptibles de former une trajectoire

45

Annexe A

Deacuteveloppement du champ acoustique en harmoniques spheacuteriques

A1 Eacutequation drsquoonde en coordonneacutees spheacuteriques On se place dans lrsquoespace euclidien agrave 3 dimensions muni drsquoun systegraveme de

coordonneacutees spheacuteriques Un point M y est repeacutereacute par son rayon r son azimut θ et son eacuteleacutevation δ tels que repreacutesenteacutes sur la figure ci-dessous

- r est la norme du vecteur position rr crsquoest-agrave-dire la distance OM - [20[ πθ isin est lrsquoangle formeacute par le projeteacute du point sur le plan xOy et lrsquoaxe Ox

- ]2

2

[ ππδ minusisin est lrsquoangle formeacute par le plan xOy et le vecteur position2

Figure A1 - Systegraveme de coordonneacutees spheacuteriques

2 Cet angle diffegravere de lrsquoangle polaire usuel δπϕ minus=

2 habituellement pris entre lrsquoaxe Oz et le

vecteur position

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 46

Les relations entre les coordonneacutees spheacuteriques et les coordonneacutees carteacutesiennes sont

⎪⎩

⎪⎨

===

δδθδθ

sincossincoscos

zryrx

(A1)

On srsquointeacuteresse dans ce repegravere agrave lrsquoeacutequation de propagation des ondes acoustiques

de pression On se place dans les conditions classiques drsquoacoustique lineacuteaire (les variations de p sont petites par rapport agrave la pression atmospheacuterique) en supposant que lrsquoair est un fluide parfait (on y neacutegligera les pheacutenomegravenes dissipatifs) Dans une reacutegion de lrsquoespace ne comprenant pas de sources lrsquoeacutequation drsquoonde srsquoeacutecrit alors

0)(12

2

2 =⎟⎟⎠

⎞⎜⎜⎝

⎛partpart

minus∆ trptc

r (A2)

p eacutetant la pression et c la vitesse de propagation du son dans lrsquoair

Cette eacutequation devient dans le domaine freacutequentiel lrsquoeacutequation de Helmholtz

( ) 0)(2 =+∆ ωrpk r (A3)

ck ω

= eacutetant le nombre drsquoonde

En coordonneacutees spheacuteriques cette eacutequation srsquoeacutecrit

0sin1sin

sin11 2

2

2

222

2 =⎥⎦

⎤⎢⎣

⎡+

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart pk

rrrr

rr δθθθ

θθ (A4)

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques Drsquoapregraves [Bruneau 1983] elle admet des solutions agrave variables seacutepareacutees de la forme

)()()( δθ ΦΘ= rRp (A5) Ces solutions sont respectivement - pour la partie radiale une combinaison des fonctions de Bessel spheacuteriques de

premiegravere et seconde espegravece3 jn et nn

)()()( krBnkrAjrR nn += (A6) 3 Les fonctions de Bessel spheacuteriques de seconde espegravece sont eacutegalement appeleacutees fonctions de

Neumann

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 47

Ces fonctions sont deacutefinies comme suit

(A7)

Figure A2 - Fonctions de Bessel spheacuteriques pour les ordres 0 agrave 5 )(krjm

- pour la partie azimutale les fonctions )(θΘ

)sin()cos()( 21 θθθ ncnc +=Θ (A8) Eacutetant donneacute la deacutefinition de lrsquoangle Θ celui-ci doit neacutecessairement ecirctre de

peacuteriode 2π ))2()(( πθθ +Θ=Θ ce qui impose agrave n drsquoecirctre entier

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 48

- pour la partie polaire les fonctions de Legendre associeacutees )(sinδmnP

nm

nn

mn dPdP

)(sin)(sinsin)(sin

δδ

δδ = pour ⎩⎨⎧

gt=

nmavecnm 321

(A9)

ougrave les )(sinδnP sont les polynocircmes de Legendre de degreacute n en δsin deacutefinis par reacutecurrence

( )

11

22

1

0

sin)12()(sin)1(

1cos321)(sin

sin)(sin0)(sin

minus+ minus+=+

minus=

==

mmm mPPmPmet

P

PP

δδ

ϕδ

δδδ

(A10)

et de formule geacuteneacuterale

mm

m

mm dd

mP )1(sin

)(sin21)(sin 2 minus= δ

δδ (A11)

On peut appliquer aux fonctions )(sinδmnP la semi-normalisation de Schmidt

)(sin)()()(sin~ δεδ mnnmn P

nmnmP

+minus

= ougrave 10 =ε et 2=nε pour 1gen (A12)

En appariant les fonctions polaires et azimutales on deacutefinit les harmoniques

spheacuteriques de degreacute et drsquoordre)1(mnY 0gem 4 mnn lele0 et de degreacute et

drsquoordre (voir Figure A3)

)1(minusmnY 1gem

mnn lele1

)(sin~)sin()(

)(sin~)cos()()1(

)1(

δθδθ

δθδθ

mnmn

mnmn

PnY

PnY

=

=minus

(A13)

4 En geacuteneacuteral lorsque le degreacute et lrsquoordre ne sont pas eacutevoqueacutes conjointement on parle par abus de langage drsquoharmoniques drsquoordre m plutocirct que de degreacute m

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 49

soit

1)(sin

)()()12(2sin)(

)(sin)()()12(2cos)(

1)(sin)1()1()12(cos)(

)1(

)1(

1)1(

1

gt

⎪⎪⎩

⎪⎪⎨

+minus

+=

+minus

+=

=+minus

+=

minus

npourP

nmnmmnY

PnmnmmnY

npourPmmmY

mnmn

mnmn

mm

δθδθ

δθδθ

δθδθ

(A14)

La solution angulaire geacuteneacuterale srsquoeacutecrit alors sous la forme drsquoun deacuteveloppement sur

la base drsquoharmoniques spheacuteriques

( ) ( )sum minus

=minus+=Θ

1

1)1()1()( n

m mnmnmnmnn YBYBθ (A15) La solution geacuteneacuterale est alors la seacuterie de Fourier-Bessel

sum sum sum+infin

= = plusmn=

=0 0 1

)()( )()()(m

m

nmnmnm

m YBkrjikrpσ

σσ δθδθ (A16)

ougrave

intint⎪⎩

⎪⎨⎧

minusisin

isin

plusmnplusmn =

]2

2

[

[20[

)1()1( )()1()(

1

ππδ

πθ

δθδθ

S

mnm

mmn dSYpkrji

B (A17)

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 50

Tableau A1 - Expressions analytiques des harmoniques spheacuteriques pour les ordres 0 agrave 3

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 51

Figure A3 - Repreacutesentation des harmoniques spheacuteriques pour les ordres m = 0 agrave 3 Les

couleurs rouge et bleu indiquent respectivement des valeurs positives et neacutegatives

53

Annexe B

Compleacutements theacuteoriques sur le deacutecodage HOA

B1 Vecteur veacutelociteacute et vecteur eacutenergie Le vecteur veacutelociteacute est un indice de la direction apparente drsquoune source introduit

par Gerzon [Gerzon 1992] Il se calcule comme le rapport de la vitesse particulaire sur la pression acoustique

)()(

)()(1

δθδθ

δθδθ

ρ rprp

ki

rprv

cV nabla

minus=minus=rrr

(B1)

Dans le cas drsquoune onde plane le vecteur veacutelociteacute V

rest ainsi directement un

vecteur unitaire orienteacute vers la direction de provenance de lrsquoonde En geacuteneacuteralisant agrave une superposition drsquoondes planes en phase ou opposition de phase eacutemises par L haut-parleurs agrave eacutequidistance du point drsquoobservation on obtient la formule suivante

VVL

ll

L

lll

urg

ugV r

rr

==

sum

sum

=

=

1

1 (B2)

ougrave deacutesigne la direction du llur egraveme haut-parleur auquel est associeacute le gain gl et Vr Vur correspondent respectivement agrave la norme et agrave la direction du vecteur veacutelociteacute

Le vecteur eacutenergie est un autre indice de direction Il est deacutefinit par

EEL

ll

L

lll

urg

ugE r

rr

==

sum

sum

=

=

1

2

1

2

(B3)

Annexe B Compleacutements theacuteoriques sur le deacutecodage HOA 54

Il peut srsquointerpreacuteter comme une indication de la concentration de lrsquoeacutenergie ( ) et de sa direction moyenne de provenance (

Er

Eur ) On a toujours 1ltEr sauf dans le cas ougrave un seul haut-parleur contribue agrave la reconstruction (dans ce cas ) peut ecirctre consideacutereacute comme un indicateur de preacutecision de la localisation

1=Er Er

B2 Deacutecodages optimiseacutes La restitution la plus confortable drsquoun champ sonore veillera donc agrave maximiser

tout en essayant de garder le plus proche possible de 1 Lrsquooptimisation du deacutecodage consiste alors agrave multiplier chaque coefficient de la matrice de deacutecodage D (voir (111) par des gains calculeacutes drsquoapregraves des critegraveres drsquooptimisation

Er Vr

Ainsi le deacutecodage appeleacute max- maximise la norme du vecteur eacutenergie en

sacrifiant celle du vecteur veacutelociteacute puisqursquoon a dans ce deacutecodage (pour des configurations reacuteguliegraveres de haut-parleurs) Ce deacutecodage est donc avantageux par rapport au deacutecodage basique pour les hautes freacutequences ou dans le cas drsquoun auditoire eacutelargi Le deacutecodage in-phase va encore plus loin en cherchant agrave annuler complegravetement les contributions des haut-parleurs placeacutes agrave lrsquoopposeacute de la direction de provenance de lrsquoonde reproduite Ce critegravere est utile dans le cas drsquoune eacutecoute dans une position tregraves excentreacutee agrave laquelle on pourrait percevoir de faccedilon preacutedominante la contribution en opposition de phase drsquoun tel haut-parleur

Er

EV rr =

Ces diffeacuterents deacutecodages ont chacun des avantages et inconveacutenients Ainsi seul le

deacutecodage basique garantit = 1 le deacutecodage max- permet une preacutecision meilleure notamment en haute freacutequence et le deacutecodage in-phase est plus adapteacute agrave un auditoire plus large Jeacuterocircme Daniel [Daniel 2000] propose ainsi de changer le deacutecodage en fonction de la freacutequence et de lrsquoeacutetendue de la zone drsquoeacutecoute deacutesireacutee

Vr Er

Figure B1 - Deacutecodages les plus approprieacutes par sous-bande et en fonction de lrsquoeacutetendue de la

zone drsquoeacutecoute [Daniel 2000]

55

Annexe C

Analyse en composantes principales

C1 Espace des donneacutees Eacutegalement souvent appeleacutee transformeacutee de Karhunen-Loegraveve5 (TKL) lrsquoanalyse en

composantes principales (ACP) est une technique statistique de repreacutesentation drsquoinformation Introduite sur 2 variables par Pearson [Pearson 1900] elle a eacuteteacute eacutetendue par Hotelling [Hotelling 1933] Elle a pour but de caracteacuteriser des donneacutees drsquoun espace agrave N dimensions dans un sous-espace plus petit en minimisant les pertes drsquoinformation due agrave la projection crsquoest-agrave-dire en maximisant la variance projeteacutee Les donneacutees ainsi reacuteorganiseacutees deviennent indeacutependantes Les variables correacuteleacutees sont remplaceacutees par de nouvelles variables deacutecorreacuteleacutees et de variance maximale combinaisons lineacuteaires des variables initiales

Les donneacutees sont constitueacutees de n variables aleacuteatoires (dans notre cas des canaux)

et p reacutealisations ou individus (des eacutechantillons)

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

pn

p

ji

n

xx

x

xx

M

LLL

MOMNM

MLLM

MNMOM

LLL

1

111

(C1)

Ces donneacutees sont geacuteneacuteralement centreacutees et peuvent aussi ecirctre reacuteduites4 (on note

1x la moyenne de la variable et 1x )( 1xσ sa variance) Reacuteduire ou non le nuage de points (ie les p reacutealisations de la variable aleacuteatoire) est un choix de modegravele

5 Quelques rares sources mentionnent une diffeacuterence entre ACP et TKL en placcedilant celle-ci au

niveau du choix de la reacuteduction des donneacutees dans le cas dune ACP les donneacutees seraient centreacutees et reacuteduites alors qursquoelles seraient uniquement centreacutees pour une TKL

Annexe C Analyse en composantes principales 56

- si on ne reacuteduit pas le nuage une variable agrave forte variance pourrait tirer tout lrsquoeffet de lrsquoACP agrave elle

- si on reacuteduit le nuage une variable qui ne serait qursquoun bruit se retrouverait avec une variance apparente eacutegale agrave une variable informative

M est centreacutee

⎥⎥⎥

⎢⎢⎢

minusminusminus

minusminus=

npn

pi

ji

nn

xxxxxx

xxxxM

K

MM

K

11

11

11

ˆ (C2)

M~ est centreacutee et reacuteduite

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

minusminus

minus

minusminus

=

)()(

)(

)()(~

1

11

1

1

111

n

npn

pi

ij

i

n

nn

xxx

xxx

xxx

xxx

xxx

M

σσ

σ

σσ

K

MM

K

(C3)

On multiplie ensuite la matrice obtenue par sa transposeacutee pour obtenir - La matrice de covariance MMC t

vˆˆ sdot=

- La matrice de correacutelation MMC tr

~~ sdot= Ces matrices sont carreacutees (N x N) symeacutetriques et reacuteelles Elles sont donc

diagonalisables dans une base orthonormeacutee 6 Le principe de lrsquoACP est alors de trouver un axe u issu drsquoune combinaison lineacuteaire

des tel que le critegravere drsquoinertie du nuage autour de cet axe soit maximal Le critegravere drsquoinertie couramment utiliseacute est la variance Il faut donc trouver lrsquoaxe qui porte le maximum de variance crsquoest-agrave-dire lrsquoaxe u tel que la projection du nuage sur cet axe ait une variance maximale

nx

6 Nos donneacutees eacutetant ici des valeurs drsquoeacutechantillons elles sont par nature centreacutees et reacuteduites On

formera donc naturellement la matrice de correacutelation

C2 Diagonalisation 57

C2 Diagonalisation Pour alleacuteger lrsquoeacutecriture de la suite de cette partie nous consideacutererons que les

variables ont eacuteteacute centreacutees et si besoin reacuteduites et nous noterons ces variables

transformeacutees (ainsi

ix ix

iii xxx minuslarr ou bien )( i

iii x

xxxσ

minuslarr ) On fera de mecircme pour M

( ou bien MM ˆlarr MM ~larr ) et C ( vCC larr ou bien rCC larr ) La projection drsquoun eacutechantillon sur un axe u srsquoeacutecrit ix

uMxiu sdot=)(π (C4) La variance empirique de )( iu xπ vaut donc

uMMuxx ttiu

tiu sdotsdotsdot=sdot )()( ππ (C5)

Or on a vu que est diagonalisable dans une base orthonormeacutee donc

on peut noter P le changement de base associeacute et ∆ la matrice diagonale formeacutee de son spectre Ainsi

MMC t=

n

i 1)(λ PPMMC tt ∆==

)()()()( PuPuuPPuxx ttt

iut

iu sdot∆sdot=sdot∆sdot=sdotππ (C6) On pose v = Pu Chercher lrsquoaxe u qui maximise )( iu xπ revient donc agrave chercher le

vecteur v qui maximise ougravevvt ∆ )( 1 ndiag λλ K=∆ avec les iλ rangeacutes par ordre deacutecroissant Ce vecteur est trivialement le premier vecteur unitaire et on a alors

1λ=∆vvt

Ainsi le vecteur qui porte la plus grande part drsquoinertie du nuage est le premier

vecteur propre de C (premier par norme deacutecroissante) De mecircme le deuxiegraveme vecteur qui explique la plus grandelt part de lrsquoinertie restante est le deuxiegraveme vecteur propre de C Finalement la question de lrsquoACP se ramegravene agrave un problegraveme de diagonalisation de la matrice de correacutelation

C3 Code Matlab

function [vep vap] = pca(f N) f donneacutees N nombre de composantes agrave garder cor = f f formation de la matrice de correacutelation [vep vap] = eig(cor) calcul des vecteurs (vep) et valeurs (vap) propres [vap ind] = sort(diag(vap)) tri des valeurs propres par ordre croissant vap = flipud(vap) disposition inverse par ordre drsquoimportance vep = vep( flipud(ind)) classement en conseacutequence des vecteurs propres vep = vep( 1N) on ne garde que les N premiers vecteurs propres

Annexe C Analyse en composantes principales 58

59

Annexe D

Analyse en sous-bandes

D1 La transformeacutee de Fourier agrave court terme (TFCT) Pour affiner lrsquoanalyse les signaux sont donc deacutecoupeacutes en bandes de freacutequence par

TFCT La TFCT consiste agrave effectuer des transformeacutees de Fourier discregravetes sur des portions de signal fenecirctreacutees reacuteguliegraverement espaceacutees

On rappelle que la transformeacutee de Fourier drsquoun signal x(t) est deacutefinie (lorsque

lrsquointeacutegrale existe) par

int+infin

infinminus

minus= dtetxfX ftiπ2)()( (D1)

La transformeacutee de Fourier agrave temps discret (TFTD) drsquoun signal x(t) srsquoeacutecrit

sum+infin

minusinfin=

minus=n

fnienxfX π2)()( (D2)

La transformeacutee de Fourier discregravete (TFD) drsquoun signal discret x(k) est deacutefinie par

sum+infin

minusinfin=

minus=

n

Nkni

enxkXπ2

)()( (D3)

La TFCT discregravete est une TFD observeacutee sur une fenecirctre wa de taille N

summinus

=

minus+=

1

0

2)())(()(

N

n

Nnki

aaa enwtnxkXπ

ττ (D4)

ougrave )(taτ est lrsquoinstant drsquoanalyse

Annexe D Analyse en sous-bandes 60

Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT [Laroche 1995]

D2 Synthegravese par addition-recouvrement Lors de la synthegravese apregraves le deacutecoupage et lrsquoanalyse des fenecirctres on cherche agrave

reconstruire le signal temporel agrave partir de sa repreacutesentation freacutequentielle Pour cela on utilise la meacutethode OLA (overlap and add addition-recouvrement) qui consiste agrave prendre la TFCT inverse des spectres Xt puis agrave additionner les signaux obtenus apregraves les avoir multiplieacutes par une fenecirctre de pondeacuteration en les faisant se recouvrir partiellement

Le reacutesultat est donneacute par

sum=

minusminus=T

tsss tnxtnwnx

s1

))((~))(()(~ ττ τ (D5)

avec )()( tt as ττ = et summinus

=

=1

0

2))((~1)(~ N

k

Nkni

s ektXN

nxs

π

τ τ

Lors de la mise en œuvre de ce traitement il faut srsquoassurer drsquoecirctre en mesure de

reconstruire parfaitement un signal lorsqursquoaucune transformation ne lui est appliqueacutee Le critegravere de reconstruction parfaite condition suffisante est alors

sum=

=minusminusT

tasaa tnwtnw

11))(())(( ττ quelque soit n (D6)

D2 Synthegravese par addition-recouvrement 61

Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add [Laroche 1995]

Plusieurs paramegravetres sont agrave choisir avec soin Le premier drsquoentre eux est le type

de fenecirctre agrave utiliser Les diffeacuterentes options qui se preacutesentent agrave nous sont - la fenecirctre rectangulaire qui preacutesente dans son spectre le lobe principal le plus

eacutetroit mais des lobes secondaires non neacutegligeables - la fenecirctre de Hamming au lobe principal un peu plus large mais pour laquelle le

1er lobe secondaire se situe agrave -43 dB - la fenecirctre de Hann (ou cosinus sureacuteleveacute) qui ressemble agrave la preacuteceacutedente avec un

1er lobe secondaire plus fort mais une pente de 18 dB par octave pour les lobes suivants

- les fenecirctres de Blackman-Harris aux lobes secondaires tregraves bas mais au lobe principal plus large

Fenecirctre Lobe 2aire

(dB) Pente

(dBoct) Bande passante

agrave 6 dB (bins) Rectangulaire -13 -6 121 Triangulaire -27 -12 178

Hann -32 -18 200 Hamming -43 -6 181

Blackman-Harris 4 -92 -6 272

Tableau D1 - Caracteacuteristiques des principales fenecirctres drsquoanalyse [Harris 1978] Le meilleur compromis est donc dans notre contexte la fenecirctre de Hann ou celle

de Hamming

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 49: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

43

Conclusion Nous avons preacutesenteacute dans ce rapport le principe et lrsquoapplication de plusieurs

meacutethodes drsquoanalyses spatiales de scegravenes ambisoniques conccedilues et reacutealiseacutee pendant le stage Le format HOA est en effet une repreacutesentation du champ acoustique deacutecomposeacute sur une base drsquoharmoniques spheacuteriques jusqursquoagrave un certain ordre agrave la maniegravere drsquoun deacuteveloppement limiteacute Il contient donc de maniegravere indirecte des indications spatiales qursquoon peut extraire avec des analyses comme lrsquoanalyse en composantes principales

Ces analyses nous permettent de deacuteterminer les positions des sources qui

composent la scegravene sonore Nous avons appliqueacute les reacutesultats de ces analyses agrave 2 types de synthegravese lrsquoune destineacutee aux transmissions bas deacutebit lrsquoautre agrave un traitement de restitution de la preacutecision spatiale dans le cas ougrave des ordres supeacuterieurs dont le but est drsquoaffiner la perception de localisation nrsquoauraient pas pu ecirctre transmis Ces algorithmes par le codage drsquoinformations spatiales qursquoils permettent pourront trouver bien drsquoautres applications dans la transmission et le codage ougrave la description du contenu est de plus en plus utiliseacutee (comme par exemple dans la norme MPEG)

Des ameacuteliorations sont possibles sur plusieurs points tout drsquoabord lrsquoexploitation

de toutes les composantes de lrsquoACP est agrave lrsquoeacutetude et semble pouvoir donner des reacutesultats inteacuteressants Drsquoautre part on a vu que le reacutesultat final est tregraves deacutependant de la bonne convergence de lrsquoalgorithme des k-moyennes utiliseacute pour traiter les donneacutees brutes de lrsquoanalyse en sous-bandes Or cet algorithme neacutecessite des reacuteglages tregraves fins et une connaissance a priori du nombre de sources est presque indispensable Drsquoautres algorithmes plus complexes de suivi de formes pourraient ecirctre avantageusement utiliseacutes pour deacutetecter dans tous les angles trouveacutes lesquels sont susceptibles de former une trajectoire

45

Annexe A

Deacuteveloppement du champ acoustique en harmoniques spheacuteriques

A1 Eacutequation drsquoonde en coordonneacutees spheacuteriques On se place dans lrsquoespace euclidien agrave 3 dimensions muni drsquoun systegraveme de

coordonneacutees spheacuteriques Un point M y est repeacutereacute par son rayon r son azimut θ et son eacuteleacutevation δ tels que repreacutesenteacutes sur la figure ci-dessous

- r est la norme du vecteur position rr crsquoest-agrave-dire la distance OM - [20[ πθ isin est lrsquoangle formeacute par le projeteacute du point sur le plan xOy et lrsquoaxe Ox

- ]2

2

[ ππδ minusisin est lrsquoangle formeacute par le plan xOy et le vecteur position2

Figure A1 - Systegraveme de coordonneacutees spheacuteriques

2 Cet angle diffegravere de lrsquoangle polaire usuel δπϕ minus=

2 habituellement pris entre lrsquoaxe Oz et le

vecteur position

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 46

Les relations entre les coordonneacutees spheacuteriques et les coordonneacutees carteacutesiennes sont

⎪⎩

⎪⎨

===

δδθδθ

sincossincoscos

zryrx

(A1)

On srsquointeacuteresse dans ce repegravere agrave lrsquoeacutequation de propagation des ondes acoustiques

de pression On se place dans les conditions classiques drsquoacoustique lineacuteaire (les variations de p sont petites par rapport agrave la pression atmospheacuterique) en supposant que lrsquoair est un fluide parfait (on y neacutegligera les pheacutenomegravenes dissipatifs) Dans une reacutegion de lrsquoespace ne comprenant pas de sources lrsquoeacutequation drsquoonde srsquoeacutecrit alors

0)(12

2

2 =⎟⎟⎠

⎞⎜⎜⎝

⎛partpart

minus∆ trptc

r (A2)

p eacutetant la pression et c la vitesse de propagation du son dans lrsquoair

Cette eacutequation devient dans le domaine freacutequentiel lrsquoeacutequation de Helmholtz

( ) 0)(2 =+∆ ωrpk r (A3)

ck ω

= eacutetant le nombre drsquoonde

En coordonneacutees spheacuteriques cette eacutequation srsquoeacutecrit

0sin1sin

sin11 2

2

2

222

2 =⎥⎦

⎤⎢⎣

⎡+

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart pk

rrrr

rr δθθθ

θθ (A4)

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques Drsquoapregraves [Bruneau 1983] elle admet des solutions agrave variables seacutepareacutees de la forme

)()()( δθ ΦΘ= rRp (A5) Ces solutions sont respectivement - pour la partie radiale une combinaison des fonctions de Bessel spheacuteriques de

premiegravere et seconde espegravece3 jn et nn

)()()( krBnkrAjrR nn += (A6) 3 Les fonctions de Bessel spheacuteriques de seconde espegravece sont eacutegalement appeleacutees fonctions de

Neumann

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 47

Ces fonctions sont deacutefinies comme suit

(A7)

Figure A2 - Fonctions de Bessel spheacuteriques pour les ordres 0 agrave 5 )(krjm

- pour la partie azimutale les fonctions )(θΘ

)sin()cos()( 21 θθθ ncnc +=Θ (A8) Eacutetant donneacute la deacutefinition de lrsquoangle Θ celui-ci doit neacutecessairement ecirctre de

peacuteriode 2π ))2()(( πθθ +Θ=Θ ce qui impose agrave n drsquoecirctre entier

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 48

- pour la partie polaire les fonctions de Legendre associeacutees )(sinδmnP

nm

nn

mn dPdP

)(sin)(sinsin)(sin

δδ

δδ = pour ⎩⎨⎧

gt=

nmavecnm 321

(A9)

ougrave les )(sinδnP sont les polynocircmes de Legendre de degreacute n en δsin deacutefinis par reacutecurrence

( )

11

22

1

0

sin)12()(sin)1(

1cos321)(sin

sin)(sin0)(sin

minus+ minus+=+

minus=

==

mmm mPPmPmet

P

PP

δδ

ϕδ

δδδ

(A10)

et de formule geacuteneacuterale

mm

m

mm dd

mP )1(sin

)(sin21)(sin 2 minus= δ

δδ (A11)

On peut appliquer aux fonctions )(sinδmnP la semi-normalisation de Schmidt

)(sin)()()(sin~ δεδ mnnmn P

nmnmP

+minus

= ougrave 10 =ε et 2=nε pour 1gen (A12)

En appariant les fonctions polaires et azimutales on deacutefinit les harmoniques

spheacuteriques de degreacute et drsquoordre)1(mnY 0gem 4 mnn lele0 et de degreacute et

drsquoordre (voir Figure A3)

)1(minusmnY 1gem

mnn lele1

)(sin~)sin()(

)(sin~)cos()()1(

)1(

δθδθ

δθδθ

mnmn

mnmn

PnY

PnY

=

=minus

(A13)

4 En geacuteneacuteral lorsque le degreacute et lrsquoordre ne sont pas eacutevoqueacutes conjointement on parle par abus de langage drsquoharmoniques drsquoordre m plutocirct que de degreacute m

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 49

soit

1)(sin

)()()12(2sin)(

)(sin)()()12(2cos)(

1)(sin)1()1()12(cos)(

)1(

)1(

1)1(

1

gt

⎪⎪⎩

⎪⎪⎨

+minus

+=

+minus

+=

=+minus

+=

minus

npourP

nmnmmnY

PnmnmmnY

npourPmmmY

mnmn

mnmn

mm

δθδθ

δθδθ

δθδθ

(A14)

La solution angulaire geacuteneacuterale srsquoeacutecrit alors sous la forme drsquoun deacuteveloppement sur

la base drsquoharmoniques spheacuteriques

( ) ( )sum minus

=minus+=Θ

1

1)1()1()( n

m mnmnmnmnn YBYBθ (A15) La solution geacuteneacuterale est alors la seacuterie de Fourier-Bessel

sum sum sum+infin

= = plusmn=

=0 0 1

)()( )()()(m

m

nmnmnm

m YBkrjikrpσ

σσ δθδθ (A16)

ougrave

intint⎪⎩

⎪⎨⎧

minusisin

isin

plusmnplusmn =

]2

2

[

[20[

)1()1( )()1()(

1

ππδ

πθ

δθδθ

S

mnm

mmn dSYpkrji

B (A17)

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 50

Tableau A1 - Expressions analytiques des harmoniques spheacuteriques pour les ordres 0 agrave 3

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 51

Figure A3 - Repreacutesentation des harmoniques spheacuteriques pour les ordres m = 0 agrave 3 Les

couleurs rouge et bleu indiquent respectivement des valeurs positives et neacutegatives

53

Annexe B

Compleacutements theacuteoriques sur le deacutecodage HOA

B1 Vecteur veacutelociteacute et vecteur eacutenergie Le vecteur veacutelociteacute est un indice de la direction apparente drsquoune source introduit

par Gerzon [Gerzon 1992] Il se calcule comme le rapport de la vitesse particulaire sur la pression acoustique

)()(

)()(1

δθδθ

δθδθ

ρ rprp

ki

rprv

cV nabla

minus=minus=rrr

(B1)

Dans le cas drsquoune onde plane le vecteur veacutelociteacute V

rest ainsi directement un

vecteur unitaire orienteacute vers la direction de provenance de lrsquoonde En geacuteneacuteralisant agrave une superposition drsquoondes planes en phase ou opposition de phase eacutemises par L haut-parleurs agrave eacutequidistance du point drsquoobservation on obtient la formule suivante

VVL

ll

L

lll

urg

ugV r

rr

==

sum

sum

=

=

1

1 (B2)

ougrave deacutesigne la direction du llur egraveme haut-parleur auquel est associeacute le gain gl et Vr Vur correspondent respectivement agrave la norme et agrave la direction du vecteur veacutelociteacute

Le vecteur eacutenergie est un autre indice de direction Il est deacutefinit par

EEL

ll

L

lll

urg

ugE r

rr

==

sum

sum

=

=

1

2

1

2

(B3)

Annexe B Compleacutements theacuteoriques sur le deacutecodage HOA 54

Il peut srsquointerpreacuteter comme une indication de la concentration de lrsquoeacutenergie ( ) et de sa direction moyenne de provenance (

Er

Eur ) On a toujours 1ltEr sauf dans le cas ougrave un seul haut-parleur contribue agrave la reconstruction (dans ce cas ) peut ecirctre consideacutereacute comme un indicateur de preacutecision de la localisation

1=Er Er

B2 Deacutecodages optimiseacutes La restitution la plus confortable drsquoun champ sonore veillera donc agrave maximiser

tout en essayant de garder le plus proche possible de 1 Lrsquooptimisation du deacutecodage consiste alors agrave multiplier chaque coefficient de la matrice de deacutecodage D (voir (111) par des gains calculeacutes drsquoapregraves des critegraveres drsquooptimisation

Er Vr

Ainsi le deacutecodage appeleacute max- maximise la norme du vecteur eacutenergie en

sacrifiant celle du vecteur veacutelociteacute puisqursquoon a dans ce deacutecodage (pour des configurations reacuteguliegraveres de haut-parleurs) Ce deacutecodage est donc avantageux par rapport au deacutecodage basique pour les hautes freacutequences ou dans le cas drsquoun auditoire eacutelargi Le deacutecodage in-phase va encore plus loin en cherchant agrave annuler complegravetement les contributions des haut-parleurs placeacutes agrave lrsquoopposeacute de la direction de provenance de lrsquoonde reproduite Ce critegravere est utile dans le cas drsquoune eacutecoute dans une position tregraves excentreacutee agrave laquelle on pourrait percevoir de faccedilon preacutedominante la contribution en opposition de phase drsquoun tel haut-parleur

Er

EV rr =

Ces diffeacuterents deacutecodages ont chacun des avantages et inconveacutenients Ainsi seul le

deacutecodage basique garantit = 1 le deacutecodage max- permet une preacutecision meilleure notamment en haute freacutequence et le deacutecodage in-phase est plus adapteacute agrave un auditoire plus large Jeacuterocircme Daniel [Daniel 2000] propose ainsi de changer le deacutecodage en fonction de la freacutequence et de lrsquoeacutetendue de la zone drsquoeacutecoute deacutesireacutee

Vr Er

Figure B1 - Deacutecodages les plus approprieacutes par sous-bande et en fonction de lrsquoeacutetendue de la

zone drsquoeacutecoute [Daniel 2000]

55

Annexe C

Analyse en composantes principales

C1 Espace des donneacutees Eacutegalement souvent appeleacutee transformeacutee de Karhunen-Loegraveve5 (TKL) lrsquoanalyse en

composantes principales (ACP) est une technique statistique de repreacutesentation drsquoinformation Introduite sur 2 variables par Pearson [Pearson 1900] elle a eacuteteacute eacutetendue par Hotelling [Hotelling 1933] Elle a pour but de caracteacuteriser des donneacutees drsquoun espace agrave N dimensions dans un sous-espace plus petit en minimisant les pertes drsquoinformation due agrave la projection crsquoest-agrave-dire en maximisant la variance projeteacutee Les donneacutees ainsi reacuteorganiseacutees deviennent indeacutependantes Les variables correacuteleacutees sont remplaceacutees par de nouvelles variables deacutecorreacuteleacutees et de variance maximale combinaisons lineacuteaires des variables initiales

Les donneacutees sont constitueacutees de n variables aleacuteatoires (dans notre cas des canaux)

et p reacutealisations ou individus (des eacutechantillons)

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

pn

p

ji

n

xx

x

xx

M

LLL

MOMNM

MLLM

MNMOM

LLL

1

111

(C1)

Ces donneacutees sont geacuteneacuteralement centreacutees et peuvent aussi ecirctre reacuteduites4 (on note

1x la moyenne de la variable et 1x )( 1xσ sa variance) Reacuteduire ou non le nuage de points (ie les p reacutealisations de la variable aleacuteatoire) est un choix de modegravele

5 Quelques rares sources mentionnent une diffeacuterence entre ACP et TKL en placcedilant celle-ci au

niveau du choix de la reacuteduction des donneacutees dans le cas dune ACP les donneacutees seraient centreacutees et reacuteduites alors qursquoelles seraient uniquement centreacutees pour une TKL

Annexe C Analyse en composantes principales 56

- si on ne reacuteduit pas le nuage une variable agrave forte variance pourrait tirer tout lrsquoeffet de lrsquoACP agrave elle

- si on reacuteduit le nuage une variable qui ne serait qursquoun bruit se retrouverait avec une variance apparente eacutegale agrave une variable informative

M est centreacutee

⎥⎥⎥

⎢⎢⎢

minusminusminus

minusminus=

npn

pi

ji

nn

xxxxxx

xxxxM

K

MM

K

11

11

11

ˆ (C2)

M~ est centreacutee et reacuteduite

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

minusminus

minus

minusminus

=

)()(

)(

)()(~

1

11

1

1

111

n

npn

pi

ij

i

n

nn

xxx

xxx

xxx

xxx

xxx

M

σσ

σ

σσ

K

MM

K

(C3)

On multiplie ensuite la matrice obtenue par sa transposeacutee pour obtenir - La matrice de covariance MMC t

vˆˆ sdot=

- La matrice de correacutelation MMC tr

~~ sdot= Ces matrices sont carreacutees (N x N) symeacutetriques et reacuteelles Elles sont donc

diagonalisables dans une base orthonormeacutee 6 Le principe de lrsquoACP est alors de trouver un axe u issu drsquoune combinaison lineacuteaire

des tel que le critegravere drsquoinertie du nuage autour de cet axe soit maximal Le critegravere drsquoinertie couramment utiliseacute est la variance Il faut donc trouver lrsquoaxe qui porte le maximum de variance crsquoest-agrave-dire lrsquoaxe u tel que la projection du nuage sur cet axe ait une variance maximale

nx

6 Nos donneacutees eacutetant ici des valeurs drsquoeacutechantillons elles sont par nature centreacutees et reacuteduites On

formera donc naturellement la matrice de correacutelation

C2 Diagonalisation 57

C2 Diagonalisation Pour alleacuteger lrsquoeacutecriture de la suite de cette partie nous consideacutererons que les

variables ont eacuteteacute centreacutees et si besoin reacuteduites et nous noterons ces variables

transformeacutees (ainsi

ix ix

iii xxx minuslarr ou bien )( i

iii x

xxxσ

minuslarr ) On fera de mecircme pour M

( ou bien MM ˆlarr MM ~larr ) et C ( vCC larr ou bien rCC larr ) La projection drsquoun eacutechantillon sur un axe u srsquoeacutecrit ix

uMxiu sdot=)(π (C4) La variance empirique de )( iu xπ vaut donc

uMMuxx ttiu

tiu sdotsdotsdot=sdot )()( ππ (C5)

Or on a vu que est diagonalisable dans une base orthonormeacutee donc

on peut noter P le changement de base associeacute et ∆ la matrice diagonale formeacutee de son spectre Ainsi

MMC t=

n

i 1)(λ PPMMC tt ∆==

)()()()( PuPuuPPuxx ttt

iut

iu sdot∆sdot=sdot∆sdot=sdotππ (C6) On pose v = Pu Chercher lrsquoaxe u qui maximise )( iu xπ revient donc agrave chercher le

vecteur v qui maximise ougravevvt ∆ )( 1 ndiag λλ K=∆ avec les iλ rangeacutes par ordre deacutecroissant Ce vecteur est trivialement le premier vecteur unitaire et on a alors

1λ=∆vvt

Ainsi le vecteur qui porte la plus grande part drsquoinertie du nuage est le premier

vecteur propre de C (premier par norme deacutecroissante) De mecircme le deuxiegraveme vecteur qui explique la plus grandelt part de lrsquoinertie restante est le deuxiegraveme vecteur propre de C Finalement la question de lrsquoACP se ramegravene agrave un problegraveme de diagonalisation de la matrice de correacutelation

C3 Code Matlab

function [vep vap] = pca(f N) f donneacutees N nombre de composantes agrave garder cor = f f formation de la matrice de correacutelation [vep vap] = eig(cor) calcul des vecteurs (vep) et valeurs (vap) propres [vap ind] = sort(diag(vap)) tri des valeurs propres par ordre croissant vap = flipud(vap) disposition inverse par ordre drsquoimportance vep = vep( flipud(ind)) classement en conseacutequence des vecteurs propres vep = vep( 1N) on ne garde que les N premiers vecteurs propres

Annexe C Analyse en composantes principales 58

59

Annexe D

Analyse en sous-bandes

D1 La transformeacutee de Fourier agrave court terme (TFCT) Pour affiner lrsquoanalyse les signaux sont donc deacutecoupeacutes en bandes de freacutequence par

TFCT La TFCT consiste agrave effectuer des transformeacutees de Fourier discregravetes sur des portions de signal fenecirctreacutees reacuteguliegraverement espaceacutees

On rappelle que la transformeacutee de Fourier drsquoun signal x(t) est deacutefinie (lorsque

lrsquointeacutegrale existe) par

int+infin

infinminus

minus= dtetxfX ftiπ2)()( (D1)

La transformeacutee de Fourier agrave temps discret (TFTD) drsquoun signal x(t) srsquoeacutecrit

sum+infin

minusinfin=

minus=n

fnienxfX π2)()( (D2)

La transformeacutee de Fourier discregravete (TFD) drsquoun signal discret x(k) est deacutefinie par

sum+infin

minusinfin=

minus=

n

Nkni

enxkXπ2

)()( (D3)

La TFCT discregravete est une TFD observeacutee sur une fenecirctre wa de taille N

summinus

=

minus+=

1

0

2)())(()(

N

n

Nnki

aaa enwtnxkXπ

ττ (D4)

ougrave )(taτ est lrsquoinstant drsquoanalyse

Annexe D Analyse en sous-bandes 60

Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT [Laroche 1995]

D2 Synthegravese par addition-recouvrement Lors de la synthegravese apregraves le deacutecoupage et lrsquoanalyse des fenecirctres on cherche agrave

reconstruire le signal temporel agrave partir de sa repreacutesentation freacutequentielle Pour cela on utilise la meacutethode OLA (overlap and add addition-recouvrement) qui consiste agrave prendre la TFCT inverse des spectres Xt puis agrave additionner les signaux obtenus apregraves les avoir multiplieacutes par une fenecirctre de pondeacuteration en les faisant se recouvrir partiellement

Le reacutesultat est donneacute par

sum=

minusminus=T

tsss tnxtnwnx

s1

))((~))(()(~ ττ τ (D5)

avec )()( tt as ττ = et summinus

=

=1

0

2))((~1)(~ N

k

Nkni

s ektXN

nxs

π

τ τ

Lors de la mise en œuvre de ce traitement il faut srsquoassurer drsquoecirctre en mesure de

reconstruire parfaitement un signal lorsqursquoaucune transformation ne lui est appliqueacutee Le critegravere de reconstruction parfaite condition suffisante est alors

sum=

=minusminusT

tasaa tnwtnw

11))(())(( ττ quelque soit n (D6)

D2 Synthegravese par addition-recouvrement 61

Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add [Laroche 1995]

Plusieurs paramegravetres sont agrave choisir avec soin Le premier drsquoentre eux est le type

de fenecirctre agrave utiliser Les diffeacuterentes options qui se preacutesentent agrave nous sont - la fenecirctre rectangulaire qui preacutesente dans son spectre le lobe principal le plus

eacutetroit mais des lobes secondaires non neacutegligeables - la fenecirctre de Hamming au lobe principal un peu plus large mais pour laquelle le

1er lobe secondaire se situe agrave -43 dB - la fenecirctre de Hann (ou cosinus sureacuteleveacute) qui ressemble agrave la preacuteceacutedente avec un

1er lobe secondaire plus fort mais une pente de 18 dB par octave pour les lobes suivants

- les fenecirctres de Blackman-Harris aux lobes secondaires tregraves bas mais au lobe principal plus large

Fenecirctre Lobe 2aire

(dB) Pente

(dBoct) Bande passante

agrave 6 dB (bins) Rectangulaire -13 -6 121 Triangulaire -27 -12 178

Hann -32 -18 200 Hamming -43 -6 181

Blackman-Harris 4 -92 -6 272

Tableau D1 - Caracteacuteristiques des principales fenecirctres drsquoanalyse [Harris 1978] Le meilleur compromis est donc dans notre contexte la fenecirctre de Hann ou celle

de Hamming

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 50: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

45

Annexe A

Deacuteveloppement du champ acoustique en harmoniques spheacuteriques

A1 Eacutequation drsquoonde en coordonneacutees spheacuteriques On se place dans lrsquoespace euclidien agrave 3 dimensions muni drsquoun systegraveme de

coordonneacutees spheacuteriques Un point M y est repeacutereacute par son rayon r son azimut θ et son eacuteleacutevation δ tels que repreacutesenteacutes sur la figure ci-dessous

- r est la norme du vecteur position rr crsquoest-agrave-dire la distance OM - [20[ πθ isin est lrsquoangle formeacute par le projeteacute du point sur le plan xOy et lrsquoaxe Ox

- ]2

2

[ ππδ minusisin est lrsquoangle formeacute par le plan xOy et le vecteur position2

Figure A1 - Systegraveme de coordonneacutees spheacuteriques

2 Cet angle diffegravere de lrsquoangle polaire usuel δπϕ minus=

2 habituellement pris entre lrsquoaxe Oz et le

vecteur position

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 46

Les relations entre les coordonneacutees spheacuteriques et les coordonneacutees carteacutesiennes sont

⎪⎩

⎪⎨

===

δδθδθ

sincossincoscos

zryrx

(A1)

On srsquointeacuteresse dans ce repegravere agrave lrsquoeacutequation de propagation des ondes acoustiques

de pression On se place dans les conditions classiques drsquoacoustique lineacuteaire (les variations de p sont petites par rapport agrave la pression atmospheacuterique) en supposant que lrsquoair est un fluide parfait (on y neacutegligera les pheacutenomegravenes dissipatifs) Dans une reacutegion de lrsquoespace ne comprenant pas de sources lrsquoeacutequation drsquoonde srsquoeacutecrit alors

0)(12

2

2 =⎟⎟⎠

⎞⎜⎜⎝

⎛partpart

minus∆ trptc

r (A2)

p eacutetant la pression et c la vitesse de propagation du son dans lrsquoair

Cette eacutequation devient dans le domaine freacutequentiel lrsquoeacutequation de Helmholtz

( ) 0)(2 =+∆ ωrpk r (A3)

ck ω

= eacutetant le nombre drsquoonde

En coordonneacutees spheacuteriques cette eacutequation srsquoeacutecrit

0sin1sin

sin11 2

2

2

222

2 =⎥⎦

⎤⎢⎣

⎡+

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart pk

rrrr

rr δθθθ

θθ (A4)

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques Drsquoapregraves [Bruneau 1983] elle admet des solutions agrave variables seacutepareacutees de la forme

)()()( δθ ΦΘ= rRp (A5) Ces solutions sont respectivement - pour la partie radiale une combinaison des fonctions de Bessel spheacuteriques de

premiegravere et seconde espegravece3 jn et nn

)()()( krBnkrAjrR nn += (A6) 3 Les fonctions de Bessel spheacuteriques de seconde espegravece sont eacutegalement appeleacutees fonctions de

Neumann

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 47

Ces fonctions sont deacutefinies comme suit

(A7)

Figure A2 - Fonctions de Bessel spheacuteriques pour les ordres 0 agrave 5 )(krjm

- pour la partie azimutale les fonctions )(θΘ

)sin()cos()( 21 θθθ ncnc +=Θ (A8) Eacutetant donneacute la deacutefinition de lrsquoangle Θ celui-ci doit neacutecessairement ecirctre de

peacuteriode 2π ))2()(( πθθ +Θ=Θ ce qui impose agrave n drsquoecirctre entier

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 48

- pour la partie polaire les fonctions de Legendre associeacutees )(sinδmnP

nm

nn

mn dPdP

)(sin)(sinsin)(sin

δδ

δδ = pour ⎩⎨⎧

gt=

nmavecnm 321

(A9)

ougrave les )(sinδnP sont les polynocircmes de Legendre de degreacute n en δsin deacutefinis par reacutecurrence

( )

11

22

1

0

sin)12()(sin)1(

1cos321)(sin

sin)(sin0)(sin

minus+ minus+=+

minus=

==

mmm mPPmPmet

P

PP

δδ

ϕδ

δδδ

(A10)

et de formule geacuteneacuterale

mm

m

mm dd

mP )1(sin

)(sin21)(sin 2 minus= δ

δδ (A11)

On peut appliquer aux fonctions )(sinδmnP la semi-normalisation de Schmidt

)(sin)()()(sin~ δεδ mnnmn P

nmnmP

+minus

= ougrave 10 =ε et 2=nε pour 1gen (A12)

En appariant les fonctions polaires et azimutales on deacutefinit les harmoniques

spheacuteriques de degreacute et drsquoordre)1(mnY 0gem 4 mnn lele0 et de degreacute et

drsquoordre (voir Figure A3)

)1(minusmnY 1gem

mnn lele1

)(sin~)sin()(

)(sin~)cos()()1(

)1(

δθδθ

δθδθ

mnmn

mnmn

PnY

PnY

=

=minus

(A13)

4 En geacuteneacuteral lorsque le degreacute et lrsquoordre ne sont pas eacutevoqueacutes conjointement on parle par abus de langage drsquoharmoniques drsquoordre m plutocirct que de degreacute m

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 49

soit

1)(sin

)()()12(2sin)(

)(sin)()()12(2cos)(

1)(sin)1()1()12(cos)(

)1(

)1(

1)1(

1

gt

⎪⎪⎩

⎪⎪⎨

+minus

+=

+minus

+=

=+minus

+=

minus

npourP

nmnmmnY

PnmnmmnY

npourPmmmY

mnmn

mnmn

mm

δθδθ

δθδθ

δθδθ

(A14)

La solution angulaire geacuteneacuterale srsquoeacutecrit alors sous la forme drsquoun deacuteveloppement sur

la base drsquoharmoniques spheacuteriques

( ) ( )sum minus

=minus+=Θ

1

1)1()1()( n

m mnmnmnmnn YBYBθ (A15) La solution geacuteneacuterale est alors la seacuterie de Fourier-Bessel

sum sum sum+infin

= = plusmn=

=0 0 1

)()( )()()(m

m

nmnmnm

m YBkrjikrpσ

σσ δθδθ (A16)

ougrave

intint⎪⎩

⎪⎨⎧

minusisin

isin

plusmnplusmn =

]2

2

[

[20[

)1()1( )()1()(

1

ππδ

πθ

δθδθ

S

mnm

mmn dSYpkrji

B (A17)

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 50

Tableau A1 - Expressions analytiques des harmoniques spheacuteriques pour les ordres 0 agrave 3

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 51

Figure A3 - Repreacutesentation des harmoniques spheacuteriques pour les ordres m = 0 agrave 3 Les

couleurs rouge et bleu indiquent respectivement des valeurs positives et neacutegatives

53

Annexe B

Compleacutements theacuteoriques sur le deacutecodage HOA

B1 Vecteur veacutelociteacute et vecteur eacutenergie Le vecteur veacutelociteacute est un indice de la direction apparente drsquoune source introduit

par Gerzon [Gerzon 1992] Il se calcule comme le rapport de la vitesse particulaire sur la pression acoustique

)()(

)()(1

δθδθ

δθδθ

ρ rprp

ki

rprv

cV nabla

minus=minus=rrr

(B1)

Dans le cas drsquoune onde plane le vecteur veacutelociteacute V

rest ainsi directement un

vecteur unitaire orienteacute vers la direction de provenance de lrsquoonde En geacuteneacuteralisant agrave une superposition drsquoondes planes en phase ou opposition de phase eacutemises par L haut-parleurs agrave eacutequidistance du point drsquoobservation on obtient la formule suivante

VVL

ll

L

lll

urg

ugV r

rr

==

sum

sum

=

=

1

1 (B2)

ougrave deacutesigne la direction du llur egraveme haut-parleur auquel est associeacute le gain gl et Vr Vur correspondent respectivement agrave la norme et agrave la direction du vecteur veacutelociteacute

Le vecteur eacutenergie est un autre indice de direction Il est deacutefinit par

EEL

ll

L

lll

urg

ugE r

rr

==

sum

sum

=

=

1

2

1

2

(B3)

Annexe B Compleacutements theacuteoriques sur le deacutecodage HOA 54

Il peut srsquointerpreacuteter comme une indication de la concentration de lrsquoeacutenergie ( ) et de sa direction moyenne de provenance (

Er

Eur ) On a toujours 1ltEr sauf dans le cas ougrave un seul haut-parleur contribue agrave la reconstruction (dans ce cas ) peut ecirctre consideacutereacute comme un indicateur de preacutecision de la localisation

1=Er Er

B2 Deacutecodages optimiseacutes La restitution la plus confortable drsquoun champ sonore veillera donc agrave maximiser

tout en essayant de garder le plus proche possible de 1 Lrsquooptimisation du deacutecodage consiste alors agrave multiplier chaque coefficient de la matrice de deacutecodage D (voir (111) par des gains calculeacutes drsquoapregraves des critegraveres drsquooptimisation

Er Vr

Ainsi le deacutecodage appeleacute max- maximise la norme du vecteur eacutenergie en

sacrifiant celle du vecteur veacutelociteacute puisqursquoon a dans ce deacutecodage (pour des configurations reacuteguliegraveres de haut-parleurs) Ce deacutecodage est donc avantageux par rapport au deacutecodage basique pour les hautes freacutequences ou dans le cas drsquoun auditoire eacutelargi Le deacutecodage in-phase va encore plus loin en cherchant agrave annuler complegravetement les contributions des haut-parleurs placeacutes agrave lrsquoopposeacute de la direction de provenance de lrsquoonde reproduite Ce critegravere est utile dans le cas drsquoune eacutecoute dans une position tregraves excentreacutee agrave laquelle on pourrait percevoir de faccedilon preacutedominante la contribution en opposition de phase drsquoun tel haut-parleur

Er

EV rr =

Ces diffeacuterents deacutecodages ont chacun des avantages et inconveacutenients Ainsi seul le

deacutecodage basique garantit = 1 le deacutecodage max- permet une preacutecision meilleure notamment en haute freacutequence et le deacutecodage in-phase est plus adapteacute agrave un auditoire plus large Jeacuterocircme Daniel [Daniel 2000] propose ainsi de changer le deacutecodage en fonction de la freacutequence et de lrsquoeacutetendue de la zone drsquoeacutecoute deacutesireacutee

Vr Er

Figure B1 - Deacutecodages les plus approprieacutes par sous-bande et en fonction de lrsquoeacutetendue de la

zone drsquoeacutecoute [Daniel 2000]

55

Annexe C

Analyse en composantes principales

C1 Espace des donneacutees Eacutegalement souvent appeleacutee transformeacutee de Karhunen-Loegraveve5 (TKL) lrsquoanalyse en

composantes principales (ACP) est une technique statistique de repreacutesentation drsquoinformation Introduite sur 2 variables par Pearson [Pearson 1900] elle a eacuteteacute eacutetendue par Hotelling [Hotelling 1933] Elle a pour but de caracteacuteriser des donneacutees drsquoun espace agrave N dimensions dans un sous-espace plus petit en minimisant les pertes drsquoinformation due agrave la projection crsquoest-agrave-dire en maximisant la variance projeteacutee Les donneacutees ainsi reacuteorganiseacutees deviennent indeacutependantes Les variables correacuteleacutees sont remplaceacutees par de nouvelles variables deacutecorreacuteleacutees et de variance maximale combinaisons lineacuteaires des variables initiales

Les donneacutees sont constitueacutees de n variables aleacuteatoires (dans notre cas des canaux)

et p reacutealisations ou individus (des eacutechantillons)

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

pn

p

ji

n

xx

x

xx

M

LLL

MOMNM

MLLM

MNMOM

LLL

1

111

(C1)

Ces donneacutees sont geacuteneacuteralement centreacutees et peuvent aussi ecirctre reacuteduites4 (on note

1x la moyenne de la variable et 1x )( 1xσ sa variance) Reacuteduire ou non le nuage de points (ie les p reacutealisations de la variable aleacuteatoire) est un choix de modegravele

5 Quelques rares sources mentionnent une diffeacuterence entre ACP et TKL en placcedilant celle-ci au

niveau du choix de la reacuteduction des donneacutees dans le cas dune ACP les donneacutees seraient centreacutees et reacuteduites alors qursquoelles seraient uniquement centreacutees pour une TKL

Annexe C Analyse en composantes principales 56

- si on ne reacuteduit pas le nuage une variable agrave forte variance pourrait tirer tout lrsquoeffet de lrsquoACP agrave elle

- si on reacuteduit le nuage une variable qui ne serait qursquoun bruit se retrouverait avec une variance apparente eacutegale agrave une variable informative

M est centreacutee

⎥⎥⎥

⎢⎢⎢

minusminusminus

minusminus=

npn

pi

ji

nn

xxxxxx

xxxxM

K

MM

K

11

11

11

ˆ (C2)

M~ est centreacutee et reacuteduite

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

minusminus

minus

minusminus

=

)()(

)(

)()(~

1

11

1

1

111

n

npn

pi

ij

i

n

nn

xxx

xxx

xxx

xxx

xxx

M

σσ

σ

σσ

K

MM

K

(C3)

On multiplie ensuite la matrice obtenue par sa transposeacutee pour obtenir - La matrice de covariance MMC t

vˆˆ sdot=

- La matrice de correacutelation MMC tr

~~ sdot= Ces matrices sont carreacutees (N x N) symeacutetriques et reacuteelles Elles sont donc

diagonalisables dans une base orthonormeacutee 6 Le principe de lrsquoACP est alors de trouver un axe u issu drsquoune combinaison lineacuteaire

des tel que le critegravere drsquoinertie du nuage autour de cet axe soit maximal Le critegravere drsquoinertie couramment utiliseacute est la variance Il faut donc trouver lrsquoaxe qui porte le maximum de variance crsquoest-agrave-dire lrsquoaxe u tel que la projection du nuage sur cet axe ait une variance maximale

nx

6 Nos donneacutees eacutetant ici des valeurs drsquoeacutechantillons elles sont par nature centreacutees et reacuteduites On

formera donc naturellement la matrice de correacutelation

C2 Diagonalisation 57

C2 Diagonalisation Pour alleacuteger lrsquoeacutecriture de la suite de cette partie nous consideacutererons que les

variables ont eacuteteacute centreacutees et si besoin reacuteduites et nous noterons ces variables

transformeacutees (ainsi

ix ix

iii xxx minuslarr ou bien )( i

iii x

xxxσ

minuslarr ) On fera de mecircme pour M

( ou bien MM ˆlarr MM ~larr ) et C ( vCC larr ou bien rCC larr ) La projection drsquoun eacutechantillon sur un axe u srsquoeacutecrit ix

uMxiu sdot=)(π (C4) La variance empirique de )( iu xπ vaut donc

uMMuxx ttiu

tiu sdotsdotsdot=sdot )()( ππ (C5)

Or on a vu que est diagonalisable dans une base orthonormeacutee donc

on peut noter P le changement de base associeacute et ∆ la matrice diagonale formeacutee de son spectre Ainsi

MMC t=

n

i 1)(λ PPMMC tt ∆==

)()()()( PuPuuPPuxx ttt

iut

iu sdot∆sdot=sdot∆sdot=sdotππ (C6) On pose v = Pu Chercher lrsquoaxe u qui maximise )( iu xπ revient donc agrave chercher le

vecteur v qui maximise ougravevvt ∆ )( 1 ndiag λλ K=∆ avec les iλ rangeacutes par ordre deacutecroissant Ce vecteur est trivialement le premier vecteur unitaire et on a alors

1λ=∆vvt

Ainsi le vecteur qui porte la plus grande part drsquoinertie du nuage est le premier

vecteur propre de C (premier par norme deacutecroissante) De mecircme le deuxiegraveme vecteur qui explique la plus grandelt part de lrsquoinertie restante est le deuxiegraveme vecteur propre de C Finalement la question de lrsquoACP se ramegravene agrave un problegraveme de diagonalisation de la matrice de correacutelation

C3 Code Matlab

function [vep vap] = pca(f N) f donneacutees N nombre de composantes agrave garder cor = f f formation de la matrice de correacutelation [vep vap] = eig(cor) calcul des vecteurs (vep) et valeurs (vap) propres [vap ind] = sort(diag(vap)) tri des valeurs propres par ordre croissant vap = flipud(vap) disposition inverse par ordre drsquoimportance vep = vep( flipud(ind)) classement en conseacutequence des vecteurs propres vep = vep( 1N) on ne garde que les N premiers vecteurs propres

Annexe C Analyse en composantes principales 58

59

Annexe D

Analyse en sous-bandes

D1 La transformeacutee de Fourier agrave court terme (TFCT) Pour affiner lrsquoanalyse les signaux sont donc deacutecoupeacutes en bandes de freacutequence par

TFCT La TFCT consiste agrave effectuer des transformeacutees de Fourier discregravetes sur des portions de signal fenecirctreacutees reacuteguliegraverement espaceacutees

On rappelle que la transformeacutee de Fourier drsquoun signal x(t) est deacutefinie (lorsque

lrsquointeacutegrale existe) par

int+infin

infinminus

minus= dtetxfX ftiπ2)()( (D1)

La transformeacutee de Fourier agrave temps discret (TFTD) drsquoun signal x(t) srsquoeacutecrit

sum+infin

minusinfin=

minus=n

fnienxfX π2)()( (D2)

La transformeacutee de Fourier discregravete (TFD) drsquoun signal discret x(k) est deacutefinie par

sum+infin

minusinfin=

minus=

n

Nkni

enxkXπ2

)()( (D3)

La TFCT discregravete est une TFD observeacutee sur une fenecirctre wa de taille N

summinus

=

minus+=

1

0

2)())(()(

N

n

Nnki

aaa enwtnxkXπ

ττ (D4)

ougrave )(taτ est lrsquoinstant drsquoanalyse

Annexe D Analyse en sous-bandes 60

Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT [Laroche 1995]

D2 Synthegravese par addition-recouvrement Lors de la synthegravese apregraves le deacutecoupage et lrsquoanalyse des fenecirctres on cherche agrave

reconstruire le signal temporel agrave partir de sa repreacutesentation freacutequentielle Pour cela on utilise la meacutethode OLA (overlap and add addition-recouvrement) qui consiste agrave prendre la TFCT inverse des spectres Xt puis agrave additionner les signaux obtenus apregraves les avoir multiplieacutes par une fenecirctre de pondeacuteration en les faisant se recouvrir partiellement

Le reacutesultat est donneacute par

sum=

minusminus=T

tsss tnxtnwnx

s1

))((~))(()(~ ττ τ (D5)

avec )()( tt as ττ = et summinus

=

=1

0

2))((~1)(~ N

k

Nkni

s ektXN

nxs

π

τ τ

Lors de la mise en œuvre de ce traitement il faut srsquoassurer drsquoecirctre en mesure de

reconstruire parfaitement un signal lorsqursquoaucune transformation ne lui est appliqueacutee Le critegravere de reconstruction parfaite condition suffisante est alors

sum=

=minusminusT

tasaa tnwtnw

11))(())(( ττ quelque soit n (D6)

D2 Synthegravese par addition-recouvrement 61

Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add [Laroche 1995]

Plusieurs paramegravetres sont agrave choisir avec soin Le premier drsquoentre eux est le type

de fenecirctre agrave utiliser Les diffeacuterentes options qui se preacutesentent agrave nous sont - la fenecirctre rectangulaire qui preacutesente dans son spectre le lobe principal le plus

eacutetroit mais des lobes secondaires non neacutegligeables - la fenecirctre de Hamming au lobe principal un peu plus large mais pour laquelle le

1er lobe secondaire se situe agrave -43 dB - la fenecirctre de Hann (ou cosinus sureacuteleveacute) qui ressemble agrave la preacuteceacutedente avec un

1er lobe secondaire plus fort mais une pente de 18 dB par octave pour les lobes suivants

- les fenecirctres de Blackman-Harris aux lobes secondaires tregraves bas mais au lobe principal plus large

Fenecirctre Lobe 2aire

(dB) Pente

(dBoct) Bande passante

agrave 6 dB (bins) Rectangulaire -13 -6 121 Triangulaire -27 -12 178

Hann -32 -18 200 Hamming -43 -6 181

Blackman-Harris 4 -92 -6 272

Tableau D1 - Caracteacuteristiques des principales fenecirctres drsquoanalyse [Harris 1978] Le meilleur compromis est donc dans notre contexte la fenecirctre de Hann ou celle

de Hamming

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 51: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 46

Les relations entre les coordonneacutees spheacuteriques et les coordonneacutees carteacutesiennes sont

⎪⎩

⎪⎨

===

δδθδθ

sincossincoscos

zryrx

(A1)

On srsquointeacuteresse dans ce repegravere agrave lrsquoeacutequation de propagation des ondes acoustiques

de pression On se place dans les conditions classiques drsquoacoustique lineacuteaire (les variations de p sont petites par rapport agrave la pression atmospheacuterique) en supposant que lrsquoair est un fluide parfait (on y neacutegligera les pheacutenomegravenes dissipatifs) Dans une reacutegion de lrsquoespace ne comprenant pas de sources lrsquoeacutequation drsquoonde srsquoeacutecrit alors

0)(12

2

2 =⎟⎟⎠

⎞⎜⎜⎝

⎛partpart

minus∆ trptc

r (A2)

p eacutetant la pression et c la vitesse de propagation du son dans lrsquoair

Cette eacutequation devient dans le domaine freacutequentiel lrsquoeacutequation de Helmholtz

( ) 0)(2 =+∆ ωrpk r (A3)

ck ω

= eacutetant le nombre drsquoonde

En coordonneacutees spheacuteriques cette eacutequation srsquoeacutecrit

0sin1sin

sin11 2

2

2

222

2 =⎥⎦

⎤⎢⎣

⎡+

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart

+⎟⎠⎞

⎜⎝⎛

partpart

partpart pk

rrrr

rr δθθθ

θθ (A4)

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques Drsquoapregraves [Bruneau 1983] elle admet des solutions agrave variables seacutepareacutees de la forme

)()()( δθ ΦΘ= rRp (A5) Ces solutions sont respectivement - pour la partie radiale une combinaison des fonctions de Bessel spheacuteriques de

premiegravere et seconde espegravece3 jn et nn

)()()( krBnkrAjrR nn += (A6) 3 Les fonctions de Bessel spheacuteriques de seconde espegravece sont eacutegalement appeleacutees fonctions de

Neumann

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 47

Ces fonctions sont deacutefinies comme suit

(A7)

Figure A2 - Fonctions de Bessel spheacuteriques pour les ordres 0 agrave 5 )(krjm

- pour la partie azimutale les fonctions )(θΘ

)sin()cos()( 21 θθθ ncnc +=Θ (A8) Eacutetant donneacute la deacutefinition de lrsquoangle Θ celui-ci doit neacutecessairement ecirctre de

peacuteriode 2π ))2()(( πθθ +Θ=Θ ce qui impose agrave n drsquoecirctre entier

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 48

- pour la partie polaire les fonctions de Legendre associeacutees )(sinδmnP

nm

nn

mn dPdP

)(sin)(sinsin)(sin

δδ

δδ = pour ⎩⎨⎧

gt=

nmavecnm 321

(A9)

ougrave les )(sinδnP sont les polynocircmes de Legendre de degreacute n en δsin deacutefinis par reacutecurrence

( )

11

22

1

0

sin)12()(sin)1(

1cos321)(sin

sin)(sin0)(sin

minus+ minus+=+

minus=

==

mmm mPPmPmet

P

PP

δδ

ϕδ

δδδ

(A10)

et de formule geacuteneacuterale

mm

m

mm dd

mP )1(sin

)(sin21)(sin 2 minus= δ

δδ (A11)

On peut appliquer aux fonctions )(sinδmnP la semi-normalisation de Schmidt

)(sin)()()(sin~ δεδ mnnmn P

nmnmP

+minus

= ougrave 10 =ε et 2=nε pour 1gen (A12)

En appariant les fonctions polaires et azimutales on deacutefinit les harmoniques

spheacuteriques de degreacute et drsquoordre)1(mnY 0gem 4 mnn lele0 et de degreacute et

drsquoordre (voir Figure A3)

)1(minusmnY 1gem

mnn lele1

)(sin~)sin()(

)(sin~)cos()()1(

)1(

δθδθ

δθδθ

mnmn

mnmn

PnY

PnY

=

=minus

(A13)

4 En geacuteneacuteral lorsque le degreacute et lrsquoordre ne sont pas eacutevoqueacutes conjointement on parle par abus de langage drsquoharmoniques drsquoordre m plutocirct que de degreacute m

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 49

soit

1)(sin

)()()12(2sin)(

)(sin)()()12(2cos)(

1)(sin)1()1()12(cos)(

)1(

)1(

1)1(

1

gt

⎪⎪⎩

⎪⎪⎨

+minus

+=

+minus

+=

=+minus

+=

minus

npourP

nmnmmnY

PnmnmmnY

npourPmmmY

mnmn

mnmn

mm

δθδθ

δθδθ

δθδθ

(A14)

La solution angulaire geacuteneacuterale srsquoeacutecrit alors sous la forme drsquoun deacuteveloppement sur

la base drsquoharmoniques spheacuteriques

( ) ( )sum minus

=minus+=Θ

1

1)1()1()( n

m mnmnmnmnn YBYBθ (A15) La solution geacuteneacuterale est alors la seacuterie de Fourier-Bessel

sum sum sum+infin

= = plusmn=

=0 0 1

)()( )()()(m

m

nmnmnm

m YBkrjikrpσ

σσ δθδθ (A16)

ougrave

intint⎪⎩

⎪⎨⎧

minusisin

isin

plusmnplusmn =

]2

2

[

[20[

)1()1( )()1()(

1

ππδ

πθ

δθδθ

S

mnm

mmn dSYpkrji

B (A17)

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 50

Tableau A1 - Expressions analytiques des harmoniques spheacuteriques pour les ordres 0 agrave 3

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 51

Figure A3 - Repreacutesentation des harmoniques spheacuteriques pour les ordres m = 0 agrave 3 Les

couleurs rouge et bleu indiquent respectivement des valeurs positives et neacutegatives

53

Annexe B

Compleacutements theacuteoriques sur le deacutecodage HOA

B1 Vecteur veacutelociteacute et vecteur eacutenergie Le vecteur veacutelociteacute est un indice de la direction apparente drsquoune source introduit

par Gerzon [Gerzon 1992] Il se calcule comme le rapport de la vitesse particulaire sur la pression acoustique

)()(

)()(1

δθδθ

δθδθ

ρ rprp

ki

rprv

cV nabla

minus=minus=rrr

(B1)

Dans le cas drsquoune onde plane le vecteur veacutelociteacute V

rest ainsi directement un

vecteur unitaire orienteacute vers la direction de provenance de lrsquoonde En geacuteneacuteralisant agrave une superposition drsquoondes planes en phase ou opposition de phase eacutemises par L haut-parleurs agrave eacutequidistance du point drsquoobservation on obtient la formule suivante

VVL

ll

L

lll

urg

ugV r

rr

==

sum

sum

=

=

1

1 (B2)

ougrave deacutesigne la direction du llur egraveme haut-parleur auquel est associeacute le gain gl et Vr Vur correspondent respectivement agrave la norme et agrave la direction du vecteur veacutelociteacute

Le vecteur eacutenergie est un autre indice de direction Il est deacutefinit par

EEL

ll

L

lll

urg

ugE r

rr

==

sum

sum

=

=

1

2

1

2

(B3)

Annexe B Compleacutements theacuteoriques sur le deacutecodage HOA 54

Il peut srsquointerpreacuteter comme une indication de la concentration de lrsquoeacutenergie ( ) et de sa direction moyenne de provenance (

Er

Eur ) On a toujours 1ltEr sauf dans le cas ougrave un seul haut-parleur contribue agrave la reconstruction (dans ce cas ) peut ecirctre consideacutereacute comme un indicateur de preacutecision de la localisation

1=Er Er

B2 Deacutecodages optimiseacutes La restitution la plus confortable drsquoun champ sonore veillera donc agrave maximiser

tout en essayant de garder le plus proche possible de 1 Lrsquooptimisation du deacutecodage consiste alors agrave multiplier chaque coefficient de la matrice de deacutecodage D (voir (111) par des gains calculeacutes drsquoapregraves des critegraveres drsquooptimisation

Er Vr

Ainsi le deacutecodage appeleacute max- maximise la norme du vecteur eacutenergie en

sacrifiant celle du vecteur veacutelociteacute puisqursquoon a dans ce deacutecodage (pour des configurations reacuteguliegraveres de haut-parleurs) Ce deacutecodage est donc avantageux par rapport au deacutecodage basique pour les hautes freacutequences ou dans le cas drsquoun auditoire eacutelargi Le deacutecodage in-phase va encore plus loin en cherchant agrave annuler complegravetement les contributions des haut-parleurs placeacutes agrave lrsquoopposeacute de la direction de provenance de lrsquoonde reproduite Ce critegravere est utile dans le cas drsquoune eacutecoute dans une position tregraves excentreacutee agrave laquelle on pourrait percevoir de faccedilon preacutedominante la contribution en opposition de phase drsquoun tel haut-parleur

Er

EV rr =

Ces diffeacuterents deacutecodages ont chacun des avantages et inconveacutenients Ainsi seul le

deacutecodage basique garantit = 1 le deacutecodage max- permet une preacutecision meilleure notamment en haute freacutequence et le deacutecodage in-phase est plus adapteacute agrave un auditoire plus large Jeacuterocircme Daniel [Daniel 2000] propose ainsi de changer le deacutecodage en fonction de la freacutequence et de lrsquoeacutetendue de la zone drsquoeacutecoute deacutesireacutee

Vr Er

Figure B1 - Deacutecodages les plus approprieacutes par sous-bande et en fonction de lrsquoeacutetendue de la

zone drsquoeacutecoute [Daniel 2000]

55

Annexe C

Analyse en composantes principales

C1 Espace des donneacutees Eacutegalement souvent appeleacutee transformeacutee de Karhunen-Loegraveve5 (TKL) lrsquoanalyse en

composantes principales (ACP) est une technique statistique de repreacutesentation drsquoinformation Introduite sur 2 variables par Pearson [Pearson 1900] elle a eacuteteacute eacutetendue par Hotelling [Hotelling 1933] Elle a pour but de caracteacuteriser des donneacutees drsquoun espace agrave N dimensions dans un sous-espace plus petit en minimisant les pertes drsquoinformation due agrave la projection crsquoest-agrave-dire en maximisant la variance projeteacutee Les donneacutees ainsi reacuteorganiseacutees deviennent indeacutependantes Les variables correacuteleacutees sont remplaceacutees par de nouvelles variables deacutecorreacuteleacutees et de variance maximale combinaisons lineacuteaires des variables initiales

Les donneacutees sont constitueacutees de n variables aleacuteatoires (dans notre cas des canaux)

et p reacutealisations ou individus (des eacutechantillons)

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

pn

p

ji

n

xx

x

xx

M

LLL

MOMNM

MLLM

MNMOM

LLL

1

111

(C1)

Ces donneacutees sont geacuteneacuteralement centreacutees et peuvent aussi ecirctre reacuteduites4 (on note

1x la moyenne de la variable et 1x )( 1xσ sa variance) Reacuteduire ou non le nuage de points (ie les p reacutealisations de la variable aleacuteatoire) est un choix de modegravele

5 Quelques rares sources mentionnent une diffeacuterence entre ACP et TKL en placcedilant celle-ci au

niveau du choix de la reacuteduction des donneacutees dans le cas dune ACP les donneacutees seraient centreacutees et reacuteduites alors qursquoelles seraient uniquement centreacutees pour une TKL

Annexe C Analyse en composantes principales 56

- si on ne reacuteduit pas le nuage une variable agrave forte variance pourrait tirer tout lrsquoeffet de lrsquoACP agrave elle

- si on reacuteduit le nuage une variable qui ne serait qursquoun bruit se retrouverait avec une variance apparente eacutegale agrave une variable informative

M est centreacutee

⎥⎥⎥

⎢⎢⎢

minusminusminus

minusminus=

npn

pi

ji

nn

xxxxxx

xxxxM

K

MM

K

11

11

11

ˆ (C2)

M~ est centreacutee et reacuteduite

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

minusminus

minus

minusminus

=

)()(

)(

)()(~

1

11

1

1

111

n

npn

pi

ij

i

n

nn

xxx

xxx

xxx

xxx

xxx

M

σσ

σ

σσ

K

MM

K

(C3)

On multiplie ensuite la matrice obtenue par sa transposeacutee pour obtenir - La matrice de covariance MMC t

vˆˆ sdot=

- La matrice de correacutelation MMC tr

~~ sdot= Ces matrices sont carreacutees (N x N) symeacutetriques et reacuteelles Elles sont donc

diagonalisables dans une base orthonormeacutee 6 Le principe de lrsquoACP est alors de trouver un axe u issu drsquoune combinaison lineacuteaire

des tel que le critegravere drsquoinertie du nuage autour de cet axe soit maximal Le critegravere drsquoinertie couramment utiliseacute est la variance Il faut donc trouver lrsquoaxe qui porte le maximum de variance crsquoest-agrave-dire lrsquoaxe u tel que la projection du nuage sur cet axe ait une variance maximale

nx

6 Nos donneacutees eacutetant ici des valeurs drsquoeacutechantillons elles sont par nature centreacutees et reacuteduites On

formera donc naturellement la matrice de correacutelation

C2 Diagonalisation 57

C2 Diagonalisation Pour alleacuteger lrsquoeacutecriture de la suite de cette partie nous consideacutererons que les

variables ont eacuteteacute centreacutees et si besoin reacuteduites et nous noterons ces variables

transformeacutees (ainsi

ix ix

iii xxx minuslarr ou bien )( i

iii x

xxxσ

minuslarr ) On fera de mecircme pour M

( ou bien MM ˆlarr MM ~larr ) et C ( vCC larr ou bien rCC larr ) La projection drsquoun eacutechantillon sur un axe u srsquoeacutecrit ix

uMxiu sdot=)(π (C4) La variance empirique de )( iu xπ vaut donc

uMMuxx ttiu

tiu sdotsdotsdot=sdot )()( ππ (C5)

Or on a vu que est diagonalisable dans une base orthonormeacutee donc

on peut noter P le changement de base associeacute et ∆ la matrice diagonale formeacutee de son spectre Ainsi

MMC t=

n

i 1)(λ PPMMC tt ∆==

)()()()( PuPuuPPuxx ttt

iut

iu sdot∆sdot=sdot∆sdot=sdotππ (C6) On pose v = Pu Chercher lrsquoaxe u qui maximise )( iu xπ revient donc agrave chercher le

vecteur v qui maximise ougravevvt ∆ )( 1 ndiag λλ K=∆ avec les iλ rangeacutes par ordre deacutecroissant Ce vecteur est trivialement le premier vecteur unitaire et on a alors

1λ=∆vvt

Ainsi le vecteur qui porte la plus grande part drsquoinertie du nuage est le premier

vecteur propre de C (premier par norme deacutecroissante) De mecircme le deuxiegraveme vecteur qui explique la plus grandelt part de lrsquoinertie restante est le deuxiegraveme vecteur propre de C Finalement la question de lrsquoACP se ramegravene agrave un problegraveme de diagonalisation de la matrice de correacutelation

C3 Code Matlab

function [vep vap] = pca(f N) f donneacutees N nombre de composantes agrave garder cor = f f formation de la matrice de correacutelation [vep vap] = eig(cor) calcul des vecteurs (vep) et valeurs (vap) propres [vap ind] = sort(diag(vap)) tri des valeurs propres par ordre croissant vap = flipud(vap) disposition inverse par ordre drsquoimportance vep = vep( flipud(ind)) classement en conseacutequence des vecteurs propres vep = vep( 1N) on ne garde que les N premiers vecteurs propres

Annexe C Analyse en composantes principales 58

59

Annexe D

Analyse en sous-bandes

D1 La transformeacutee de Fourier agrave court terme (TFCT) Pour affiner lrsquoanalyse les signaux sont donc deacutecoupeacutes en bandes de freacutequence par

TFCT La TFCT consiste agrave effectuer des transformeacutees de Fourier discregravetes sur des portions de signal fenecirctreacutees reacuteguliegraverement espaceacutees

On rappelle que la transformeacutee de Fourier drsquoun signal x(t) est deacutefinie (lorsque

lrsquointeacutegrale existe) par

int+infin

infinminus

minus= dtetxfX ftiπ2)()( (D1)

La transformeacutee de Fourier agrave temps discret (TFTD) drsquoun signal x(t) srsquoeacutecrit

sum+infin

minusinfin=

minus=n

fnienxfX π2)()( (D2)

La transformeacutee de Fourier discregravete (TFD) drsquoun signal discret x(k) est deacutefinie par

sum+infin

minusinfin=

minus=

n

Nkni

enxkXπ2

)()( (D3)

La TFCT discregravete est une TFD observeacutee sur une fenecirctre wa de taille N

summinus

=

minus+=

1

0

2)())(()(

N

n

Nnki

aaa enwtnxkXπ

ττ (D4)

ougrave )(taτ est lrsquoinstant drsquoanalyse

Annexe D Analyse en sous-bandes 60

Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT [Laroche 1995]

D2 Synthegravese par addition-recouvrement Lors de la synthegravese apregraves le deacutecoupage et lrsquoanalyse des fenecirctres on cherche agrave

reconstruire le signal temporel agrave partir de sa repreacutesentation freacutequentielle Pour cela on utilise la meacutethode OLA (overlap and add addition-recouvrement) qui consiste agrave prendre la TFCT inverse des spectres Xt puis agrave additionner les signaux obtenus apregraves les avoir multiplieacutes par une fenecirctre de pondeacuteration en les faisant se recouvrir partiellement

Le reacutesultat est donneacute par

sum=

minusminus=T

tsss tnxtnwnx

s1

))((~))(()(~ ττ τ (D5)

avec )()( tt as ττ = et summinus

=

=1

0

2))((~1)(~ N

k

Nkni

s ektXN

nxs

π

τ τ

Lors de la mise en œuvre de ce traitement il faut srsquoassurer drsquoecirctre en mesure de

reconstruire parfaitement un signal lorsqursquoaucune transformation ne lui est appliqueacutee Le critegravere de reconstruction parfaite condition suffisante est alors

sum=

=minusminusT

tasaa tnwtnw

11))(())(( ττ quelque soit n (D6)

D2 Synthegravese par addition-recouvrement 61

Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add [Laroche 1995]

Plusieurs paramegravetres sont agrave choisir avec soin Le premier drsquoentre eux est le type

de fenecirctre agrave utiliser Les diffeacuterentes options qui se preacutesentent agrave nous sont - la fenecirctre rectangulaire qui preacutesente dans son spectre le lobe principal le plus

eacutetroit mais des lobes secondaires non neacutegligeables - la fenecirctre de Hamming au lobe principal un peu plus large mais pour laquelle le

1er lobe secondaire se situe agrave -43 dB - la fenecirctre de Hann (ou cosinus sureacuteleveacute) qui ressemble agrave la preacuteceacutedente avec un

1er lobe secondaire plus fort mais une pente de 18 dB par octave pour les lobes suivants

- les fenecirctres de Blackman-Harris aux lobes secondaires tregraves bas mais au lobe principal plus large

Fenecirctre Lobe 2aire

(dB) Pente

(dBoct) Bande passante

agrave 6 dB (bins) Rectangulaire -13 -6 121 Triangulaire -27 -12 178

Hann -32 -18 200 Hamming -43 -6 181

Blackman-Harris 4 -92 -6 272

Tableau D1 - Caracteacuteristiques des principales fenecirctres drsquoanalyse [Harris 1978] Le meilleur compromis est donc dans notre contexte la fenecirctre de Hann ou celle

de Hamming

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 52: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 47

Ces fonctions sont deacutefinies comme suit

(A7)

Figure A2 - Fonctions de Bessel spheacuteriques pour les ordres 0 agrave 5 )(krjm

- pour la partie azimutale les fonctions )(θΘ

)sin()cos()( 21 θθθ ncnc +=Θ (A8) Eacutetant donneacute la deacutefinition de lrsquoangle Θ celui-ci doit neacutecessairement ecirctre de

peacuteriode 2π ))2()(( πθθ +Θ=Θ ce qui impose agrave n drsquoecirctre entier

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 48

- pour la partie polaire les fonctions de Legendre associeacutees )(sinδmnP

nm

nn

mn dPdP

)(sin)(sinsin)(sin

δδ

δδ = pour ⎩⎨⎧

gt=

nmavecnm 321

(A9)

ougrave les )(sinδnP sont les polynocircmes de Legendre de degreacute n en δsin deacutefinis par reacutecurrence

( )

11

22

1

0

sin)12()(sin)1(

1cos321)(sin

sin)(sin0)(sin

minus+ minus+=+

minus=

==

mmm mPPmPmet

P

PP

δδ

ϕδ

δδδ

(A10)

et de formule geacuteneacuterale

mm

m

mm dd

mP )1(sin

)(sin21)(sin 2 minus= δ

δδ (A11)

On peut appliquer aux fonctions )(sinδmnP la semi-normalisation de Schmidt

)(sin)()()(sin~ δεδ mnnmn P

nmnmP

+minus

= ougrave 10 =ε et 2=nε pour 1gen (A12)

En appariant les fonctions polaires et azimutales on deacutefinit les harmoniques

spheacuteriques de degreacute et drsquoordre)1(mnY 0gem 4 mnn lele0 et de degreacute et

drsquoordre (voir Figure A3)

)1(minusmnY 1gem

mnn lele1

)(sin~)sin()(

)(sin~)cos()()1(

)1(

δθδθ

δθδθ

mnmn

mnmn

PnY

PnY

=

=minus

(A13)

4 En geacuteneacuteral lorsque le degreacute et lrsquoordre ne sont pas eacutevoqueacutes conjointement on parle par abus de langage drsquoharmoniques drsquoordre m plutocirct que de degreacute m

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 49

soit

1)(sin

)()()12(2sin)(

)(sin)()()12(2cos)(

1)(sin)1()1()12(cos)(

)1(

)1(

1)1(

1

gt

⎪⎪⎩

⎪⎪⎨

+minus

+=

+minus

+=

=+minus

+=

minus

npourP

nmnmmnY

PnmnmmnY

npourPmmmY

mnmn

mnmn

mm

δθδθ

δθδθ

δθδθ

(A14)

La solution angulaire geacuteneacuterale srsquoeacutecrit alors sous la forme drsquoun deacuteveloppement sur

la base drsquoharmoniques spheacuteriques

( ) ( )sum minus

=minus+=Θ

1

1)1()1()( n

m mnmnmnmnn YBYBθ (A15) La solution geacuteneacuterale est alors la seacuterie de Fourier-Bessel

sum sum sum+infin

= = plusmn=

=0 0 1

)()( )()()(m

m

nmnmnm

m YBkrjikrpσ

σσ δθδθ (A16)

ougrave

intint⎪⎩

⎪⎨⎧

minusisin

isin

plusmnplusmn =

]2

2

[

[20[

)1()1( )()1()(

1

ππδ

πθ

δθδθ

S

mnm

mmn dSYpkrji

B (A17)

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 50

Tableau A1 - Expressions analytiques des harmoniques spheacuteriques pour les ordres 0 agrave 3

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 51

Figure A3 - Repreacutesentation des harmoniques spheacuteriques pour les ordres m = 0 agrave 3 Les

couleurs rouge et bleu indiquent respectivement des valeurs positives et neacutegatives

53

Annexe B

Compleacutements theacuteoriques sur le deacutecodage HOA

B1 Vecteur veacutelociteacute et vecteur eacutenergie Le vecteur veacutelociteacute est un indice de la direction apparente drsquoune source introduit

par Gerzon [Gerzon 1992] Il se calcule comme le rapport de la vitesse particulaire sur la pression acoustique

)()(

)()(1

δθδθ

δθδθ

ρ rprp

ki

rprv

cV nabla

minus=minus=rrr

(B1)

Dans le cas drsquoune onde plane le vecteur veacutelociteacute V

rest ainsi directement un

vecteur unitaire orienteacute vers la direction de provenance de lrsquoonde En geacuteneacuteralisant agrave une superposition drsquoondes planes en phase ou opposition de phase eacutemises par L haut-parleurs agrave eacutequidistance du point drsquoobservation on obtient la formule suivante

VVL

ll

L

lll

urg

ugV r

rr

==

sum

sum

=

=

1

1 (B2)

ougrave deacutesigne la direction du llur egraveme haut-parleur auquel est associeacute le gain gl et Vr Vur correspondent respectivement agrave la norme et agrave la direction du vecteur veacutelociteacute

Le vecteur eacutenergie est un autre indice de direction Il est deacutefinit par

EEL

ll

L

lll

urg

ugE r

rr

==

sum

sum

=

=

1

2

1

2

(B3)

Annexe B Compleacutements theacuteoriques sur le deacutecodage HOA 54

Il peut srsquointerpreacuteter comme une indication de la concentration de lrsquoeacutenergie ( ) et de sa direction moyenne de provenance (

Er

Eur ) On a toujours 1ltEr sauf dans le cas ougrave un seul haut-parleur contribue agrave la reconstruction (dans ce cas ) peut ecirctre consideacutereacute comme un indicateur de preacutecision de la localisation

1=Er Er

B2 Deacutecodages optimiseacutes La restitution la plus confortable drsquoun champ sonore veillera donc agrave maximiser

tout en essayant de garder le plus proche possible de 1 Lrsquooptimisation du deacutecodage consiste alors agrave multiplier chaque coefficient de la matrice de deacutecodage D (voir (111) par des gains calculeacutes drsquoapregraves des critegraveres drsquooptimisation

Er Vr

Ainsi le deacutecodage appeleacute max- maximise la norme du vecteur eacutenergie en

sacrifiant celle du vecteur veacutelociteacute puisqursquoon a dans ce deacutecodage (pour des configurations reacuteguliegraveres de haut-parleurs) Ce deacutecodage est donc avantageux par rapport au deacutecodage basique pour les hautes freacutequences ou dans le cas drsquoun auditoire eacutelargi Le deacutecodage in-phase va encore plus loin en cherchant agrave annuler complegravetement les contributions des haut-parleurs placeacutes agrave lrsquoopposeacute de la direction de provenance de lrsquoonde reproduite Ce critegravere est utile dans le cas drsquoune eacutecoute dans une position tregraves excentreacutee agrave laquelle on pourrait percevoir de faccedilon preacutedominante la contribution en opposition de phase drsquoun tel haut-parleur

Er

EV rr =

Ces diffeacuterents deacutecodages ont chacun des avantages et inconveacutenients Ainsi seul le

deacutecodage basique garantit = 1 le deacutecodage max- permet une preacutecision meilleure notamment en haute freacutequence et le deacutecodage in-phase est plus adapteacute agrave un auditoire plus large Jeacuterocircme Daniel [Daniel 2000] propose ainsi de changer le deacutecodage en fonction de la freacutequence et de lrsquoeacutetendue de la zone drsquoeacutecoute deacutesireacutee

Vr Er

Figure B1 - Deacutecodages les plus approprieacutes par sous-bande et en fonction de lrsquoeacutetendue de la

zone drsquoeacutecoute [Daniel 2000]

55

Annexe C

Analyse en composantes principales

C1 Espace des donneacutees Eacutegalement souvent appeleacutee transformeacutee de Karhunen-Loegraveve5 (TKL) lrsquoanalyse en

composantes principales (ACP) est une technique statistique de repreacutesentation drsquoinformation Introduite sur 2 variables par Pearson [Pearson 1900] elle a eacuteteacute eacutetendue par Hotelling [Hotelling 1933] Elle a pour but de caracteacuteriser des donneacutees drsquoun espace agrave N dimensions dans un sous-espace plus petit en minimisant les pertes drsquoinformation due agrave la projection crsquoest-agrave-dire en maximisant la variance projeteacutee Les donneacutees ainsi reacuteorganiseacutees deviennent indeacutependantes Les variables correacuteleacutees sont remplaceacutees par de nouvelles variables deacutecorreacuteleacutees et de variance maximale combinaisons lineacuteaires des variables initiales

Les donneacutees sont constitueacutees de n variables aleacuteatoires (dans notre cas des canaux)

et p reacutealisations ou individus (des eacutechantillons)

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

pn

p

ji

n

xx

x

xx

M

LLL

MOMNM

MLLM

MNMOM

LLL

1

111

(C1)

Ces donneacutees sont geacuteneacuteralement centreacutees et peuvent aussi ecirctre reacuteduites4 (on note

1x la moyenne de la variable et 1x )( 1xσ sa variance) Reacuteduire ou non le nuage de points (ie les p reacutealisations de la variable aleacuteatoire) est un choix de modegravele

5 Quelques rares sources mentionnent une diffeacuterence entre ACP et TKL en placcedilant celle-ci au

niveau du choix de la reacuteduction des donneacutees dans le cas dune ACP les donneacutees seraient centreacutees et reacuteduites alors qursquoelles seraient uniquement centreacutees pour une TKL

Annexe C Analyse en composantes principales 56

- si on ne reacuteduit pas le nuage une variable agrave forte variance pourrait tirer tout lrsquoeffet de lrsquoACP agrave elle

- si on reacuteduit le nuage une variable qui ne serait qursquoun bruit se retrouverait avec une variance apparente eacutegale agrave une variable informative

M est centreacutee

⎥⎥⎥

⎢⎢⎢

minusminusminus

minusminus=

npn

pi

ji

nn

xxxxxx

xxxxM

K

MM

K

11

11

11

ˆ (C2)

M~ est centreacutee et reacuteduite

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

minusminus

minus

minusminus

=

)()(

)(

)()(~

1

11

1

1

111

n

npn

pi

ij

i

n

nn

xxx

xxx

xxx

xxx

xxx

M

σσ

σ

σσ

K

MM

K

(C3)

On multiplie ensuite la matrice obtenue par sa transposeacutee pour obtenir - La matrice de covariance MMC t

vˆˆ sdot=

- La matrice de correacutelation MMC tr

~~ sdot= Ces matrices sont carreacutees (N x N) symeacutetriques et reacuteelles Elles sont donc

diagonalisables dans une base orthonormeacutee 6 Le principe de lrsquoACP est alors de trouver un axe u issu drsquoune combinaison lineacuteaire

des tel que le critegravere drsquoinertie du nuage autour de cet axe soit maximal Le critegravere drsquoinertie couramment utiliseacute est la variance Il faut donc trouver lrsquoaxe qui porte le maximum de variance crsquoest-agrave-dire lrsquoaxe u tel que la projection du nuage sur cet axe ait une variance maximale

nx

6 Nos donneacutees eacutetant ici des valeurs drsquoeacutechantillons elles sont par nature centreacutees et reacuteduites On

formera donc naturellement la matrice de correacutelation

C2 Diagonalisation 57

C2 Diagonalisation Pour alleacuteger lrsquoeacutecriture de la suite de cette partie nous consideacutererons que les

variables ont eacuteteacute centreacutees et si besoin reacuteduites et nous noterons ces variables

transformeacutees (ainsi

ix ix

iii xxx minuslarr ou bien )( i

iii x

xxxσ

minuslarr ) On fera de mecircme pour M

( ou bien MM ˆlarr MM ~larr ) et C ( vCC larr ou bien rCC larr ) La projection drsquoun eacutechantillon sur un axe u srsquoeacutecrit ix

uMxiu sdot=)(π (C4) La variance empirique de )( iu xπ vaut donc

uMMuxx ttiu

tiu sdotsdotsdot=sdot )()( ππ (C5)

Or on a vu que est diagonalisable dans une base orthonormeacutee donc

on peut noter P le changement de base associeacute et ∆ la matrice diagonale formeacutee de son spectre Ainsi

MMC t=

n

i 1)(λ PPMMC tt ∆==

)()()()( PuPuuPPuxx ttt

iut

iu sdot∆sdot=sdot∆sdot=sdotππ (C6) On pose v = Pu Chercher lrsquoaxe u qui maximise )( iu xπ revient donc agrave chercher le

vecteur v qui maximise ougravevvt ∆ )( 1 ndiag λλ K=∆ avec les iλ rangeacutes par ordre deacutecroissant Ce vecteur est trivialement le premier vecteur unitaire et on a alors

1λ=∆vvt

Ainsi le vecteur qui porte la plus grande part drsquoinertie du nuage est le premier

vecteur propre de C (premier par norme deacutecroissante) De mecircme le deuxiegraveme vecteur qui explique la plus grandelt part de lrsquoinertie restante est le deuxiegraveme vecteur propre de C Finalement la question de lrsquoACP se ramegravene agrave un problegraveme de diagonalisation de la matrice de correacutelation

C3 Code Matlab

function [vep vap] = pca(f N) f donneacutees N nombre de composantes agrave garder cor = f f formation de la matrice de correacutelation [vep vap] = eig(cor) calcul des vecteurs (vep) et valeurs (vap) propres [vap ind] = sort(diag(vap)) tri des valeurs propres par ordre croissant vap = flipud(vap) disposition inverse par ordre drsquoimportance vep = vep( flipud(ind)) classement en conseacutequence des vecteurs propres vep = vep( 1N) on ne garde que les N premiers vecteurs propres

Annexe C Analyse en composantes principales 58

59

Annexe D

Analyse en sous-bandes

D1 La transformeacutee de Fourier agrave court terme (TFCT) Pour affiner lrsquoanalyse les signaux sont donc deacutecoupeacutes en bandes de freacutequence par

TFCT La TFCT consiste agrave effectuer des transformeacutees de Fourier discregravetes sur des portions de signal fenecirctreacutees reacuteguliegraverement espaceacutees

On rappelle que la transformeacutee de Fourier drsquoun signal x(t) est deacutefinie (lorsque

lrsquointeacutegrale existe) par

int+infin

infinminus

minus= dtetxfX ftiπ2)()( (D1)

La transformeacutee de Fourier agrave temps discret (TFTD) drsquoun signal x(t) srsquoeacutecrit

sum+infin

minusinfin=

minus=n

fnienxfX π2)()( (D2)

La transformeacutee de Fourier discregravete (TFD) drsquoun signal discret x(k) est deacutefinie par

sum+infin

minusinfin=

minus=

n

Nkni

enxkXπ2

)()( (D3)

La TFCT discregravete est une TFD observeacutee sur une fenecirctre wa de taille N

summinus

=

minus+=

1

0

2)())(()(

N

n

Nnki

aaa enwtnxkXπ

ττ (D4)

ougrave )(taτ est lrsquoinstant drsquoanalyse

Annexe D Analyse en sous-bandes 60

Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT [Laroche 1995]

D2 Synthegravese par addition-recouvrement Lors de la synthegravese apregraves le deacutecoupage et lrsquoanalyse des fenecirctres on cherche agrave

reconstruire le signal temporel agrave partir de sa repreacutesentation freacutequentielle Pour cela on utilise la meacutethode OLA (overlap and add addition-recouvrement) qui consiste agrave prendre la TFCT inverse des spectres Xt puis agrave additionner les signaux obtenus apregraves les avoir multiplieacutes par une fenecirctre de pondeacuteration en les faisant se recouvrir partiellement

Le reacutesultat est donneacute par

sum=

minusminus=T

tsss tnxtnwnx

s1

))((~))(()(~ ττ τ (D5)

avec )()( tt as ττ = et summinus

=

=1

0

2))((~1)(~ N

k

Nkni

s ektXN

nxs

π

τ τ

Lors de la mise en œuvre de ce traitement il faut srsquoassurer drsquoecirctre en mesure de

reconstruire parfaitement un signal lorsqursquoaucune transformation ne lui est appliqueacutee Le critegravere de reconstruction parfaite condition suffisante est alors

sum=

=minusminusT

tasaa tnwtnw

11))(())(( ττ quelque soit n (D6)

D2 Synthegravese par addition-recouvrement 61

Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add [Laroche 1995]

Plusieurs paramegravetres sont agrave choisir avec soin Le premier drsquoentre eux est le type

de fenecirctre agrave utiliser Les diffeacuterentes options qui se preacutesentent agrave nous sont - la fenecirctre rectangulaire qui preacutesente dans son spectre le lobe principal le plus

eacutetroit mais des lobes secondaires non neacutegligeables - la fenecirctre de Hamming au lobe principal un peu plus large mais pour laquelle le

1er lobe secondaire se situe agrave -43 dB - la fenecirctre de Hann (ou cosinus sureacuteleveacute) qui ressemble agrave la preacuteceacutedente avec un

1er lobe secondaire plus fort mais une pente de 18 dB par octave pour les lobes suivants

- les fenecirctres de Blackman-Harris aux lobes secondaires tregraves bas mais au lobe principal plus large

Fenecirctre Lobe 2aire

(dB) Pente

(dBoct) Bande passante

agrave 6 dB (bins) Rectangulaire -13 -6 121 Triangulaire -27 -12 178

Hann -32 -18 200 Hamming -43 -6 181

Blackman-Harris 4 -92 -6 272

Tableau D1 - Caracteacuteristiques des principales fenecirctres drsquoanalyse [Harris 1978] Le meilleur compromis est donc dans notre contexte la fenecirctre de Hann ou celle

de Hamming

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 53: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 48

- pour la partie polaire les fonctions de Legendre associeacutees )(sinδmnP

nm

nn

mn dPdP

)(sin)(sinsin)(sin

δδ

δδ = pour ⎩⎨⎧

gt=

nmavecnm 321

(A9)

ougrave les )(sinδnP sont les polynocircmes de Legendre de degreacute n en δsin deacutefinis par reacutecurrence

( )

11

22

1

0

sin)12()(sin)1(

1cos321)(sin

sin)(sin0)(sin

minus+ minus+=+

minus=

==

mmm mPPmPmet

P

PP

δδ

ϕδ

δδδ

(A10)

et de formule geacuteneacuterale

mm

m

mm dd

mP )1(sin

)(sin21)(sin 2 minus= δ

δδ (A11)

On peut appliquer aux fonctions )(sinδmnP la semi-normalisation de Schmidt

)(sin)()()(sin~ δεδ mnnmn P

nmnmP

+minus

= ougrave 10 =ε et 2=nε pour 1gen (A12)

En appariant les fonctions polaires et azimutales on deacutefinit les harmoniques

spheacuteriques de degreacute et drsquoordre)1(mnY 0gem 4 mnn lele0 et de degreacute et

drsquoordre (voir Figure A3)

)1(minusmnY 1gem

mnn lele1

)(sin~)sin()(

)(sin~)cos()()1(

)1(

δθδθ

δθδθ

mnmn

mnmn

PnY

PnY

=

=minus

(A13)

4 En geacuteneacuteral lorsque le degreacute et lrsquoordre ne sont pas eacutevoqueacutes conjointement on parle par abus de langage drsquoharmoniques drsquoordre m plutocirct que de degreacute m

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 49

soit

1)(sin

)()()12(2sin)(

)(sin)()()12(2cos)(

1)(sin)1()1()12(cos)(

)1(

)1(

1)1(

1

gt

⎪⎪⎩

⎪⎪⎨

+minus

+=

+minus

+=

=+minus

+=

minus

npourP

nmnmmnY

PnmnmmnY

npourPmmmY

mnmn

mnmn

mm

δθδθ

δθδθ

δθδθ

(A14)

La solution angulaire geacuteneacuterale srsquoeacutecrit alors sous la forme drsquoun deacuteveloppement sur

la base drsquoharmoniques spheacuteriques

( ) ( )sum minus

=minus+=Θ

1

1)1()1()( n

m mnmnmnmnn YBYBθ (A15) La solution geacuteneacuterale est alors la seacuterie de Fourier-Bessel

sum sum sum+infin

= = plusmn=

=0 0 1

)()( )()()(m

m

nmnmnm

m YBkrjikrpσ

σσ δθδθ (A16)

ougrave

intint⎪⎩

⎪⎨⎧

minusisin

isin

plusmnplusmn =

]2

2

[

[20[

)1()1( )()1()(

1

ππδ

πθ

δθδθ

S

mnm

mmn dSYpkrji

B (A17)

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 50

Tableau A1 - Expressions analytiques des harmoniques spheacuteriques pour les ordres 0 agrave 3

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 51

Figure A3 - Repreacutesentation des harmoniques spheacuteriques pour les ordres m = 0 agrave 3 Les

couleurs rouge et bleu indiquent respectivement des valeurs positives et neacutegatives

53

Annexe B

Compleacutements theacuteoriques sur le deacutecodage HOA

B1 Vecteur veacutelociteacute et vecteur eacutenergie Le vecteur veacutelociteacute est un indice de la direction apparente drsquoune source introduit

par Gerzon [Gerzon 1992] Il se calcule comme le rapport de la vitesse particulaire sur la pression acoustique

)()(

)()(1

δθδθ

δθδθ

ρ rprp

ki

rprv

cV nabla

minus=minus=rrr

(B1)

Dans le cas drsquoune onde plane le vecteur veacutelociteacute V

rest ainsi directement un

vecteur unitaire orienteacute vers la direction de provenance de lrsquoonde En geacuteneacuteralisant agrave une superposition drsquoondes planes en phase ou opposition de phase eacutemises par L haut-parleurs agrave eacutequidistance du point drsquoobservation on obtient la formule suivante

VVL

ll

L

lll

urg

ugV r

rr

==

sum

sum

=

=

1

1 (B2)

ougrave deacutesigne la direction du llur egraveme haut-parleur auquel est associeacute le gain gl et Vr Vur correspondent respectivement agrave la norme et agrave la direction du vecteur veacutelociteacute

Le vecteur eacutenergie est un autre indice de direction Il est deacutefinit par

EEL

ll

L

lll

urg

ugE r

rr

==

sum

sum

=

=

1

2

1

2

(B3)

Annexe B Compleacutements theacuteoriques sur le deacutecodage HOA 54

Il peut srsquointerpreacuteter comme une indication de la concentration de lrsquoeacutenergie ( ) et de sa direction moyenne de provenance (

Er

Eur ) On a toujours 1ltEr sauf dans le cas ougrave un seul haut-parleur contribue agrave la reconstruction (dans ce cas ) peut ecirctre consideacutereacute comme un indicateur de preacutecision de la localisation

1=Er Er

B2 Deacutecodages optimiseacutes La restitution la plus confortable drsquoun champ sonore veillera donc agrave maximiser

tout en essayant de garder le plus proche possible de 1 Lrsquooptimisation du deacutecodage consiste alors agrave multiplier chaque coefficient de la matrice de deacutecodage D (voir (111) par des gains calculeacutes drsquoapregraves des critegraveres drsquooptimisation

Er Vr

Ainsi le deacutecodage appeleacute max- maximise la norme du vecteur eacutenergie en

sacrifiant celle du vecteur veacutelociteacute puisqursquoon a dans ce deacutecodage (pour des configurations reacuteguliegraveres de haut-parleurs) Ce deacutecodage est donc avantageux par rapport au deacutecodage basique pour les hautes freacutequences ou dans le cas drsquoun auditoire eacutelargi Le deacutecodage in-phase va encore plus loin en cherchant agrave annuler complegravetement les contributions des haut-parleurs placeacutes agrave lrsquoopposeacute de la direction de provenance de lrsquoonde reproduite Ce critegravere est utile dans le cas drsquoune eacutecoute dans une position tregraves excentreacutee agrave laquelle on pourrait percevoir de faccedilon preacutedominante la contribution en opposition de phase drsquoun tel haut-parleur

Er

EV rr =

Ces diffeacuterents deacutecodages ont chacun des avantages et inconveacutenients Ainsi seul le

deacutecodage basique garantit = 1 le deacutecodage max- permet une preacutecision meilleure notamment en haute freacutequence et le deacutecodage in-phase est plus adapteacute agrave un auditoire plus large Jeacuterocircme Daniel [Daniel 2000] propose ainsi de changer le deacutecodage en fonction de la freacutequence et de lrsquoeacutetendue de la zone drsquoeacutecoute deacutesireacutee

Vr Er

Figure B1 - Deacutecodages les plus approprieacutes par sous-bande et en fonction de lrsquoeacutetendue de la

zone drsquoeacutecoute [Daniel 2000]

55

Annexe C

Analyse en composantes principales

C1 Espace des donneacutees Eacutegalement souvent appeleacutee transformeacutee de Karhunen-Loegraveve5 (TKL) lrsquoanalyse en

composantes principales (ACP) est une technique statistique de repreacutesentation drsquoinformation Introduite sur 2 variables par Pearson [Pearson 1900] elle a eacuteteacute eacutetendue par Hotelling [Hotelling 1933] Elle a pour but de caracteacuteriser des donneacutees drsquoun espace agrave N dimensions dans un sous-espace plus petit en minimisant les pertes drsquoinformation due agrave la projection crsquoest-agrave-dire en maximisant la variance projeteacutee Les donneacutees ainsi reacuteorganiseacutees deviennent indeacutependantes Les variables correacuteleacutees sont remplaceacutees par de nouvelles variables deacutecorreacuteleacutees et de variance maximale combinaisons lineacuteaires des variables initiales

Les donneacutees sont constitueacutees de n variables aleacuteatoires (dans notre cas des canaux)

et p reacutealisations ou individus (des eacutechantillons)

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

pn

p

ji

n

xx

x

xx

M

LLL

MOMNM

MLLM

MNMOM

LLL

1

111

(C1)

Ces donneacutees sont geacuteneacuteralement centreacutees et peuvent aussi ecirctre reacuteduites4 (on note

1x la moyenne de la variable et 1x )( 1xσ sa variance) Reacuteduire ou non le nuage de points (ie les p reacutealisations de la variable aleacuteatoire) est un choix de modegravele

5 Quelques rares sources mentionnent une diffeacuterence entre ACP et TKL en placcedilant celle-ci au

niveau du choix de la reacuteduction des donneacutees dans le cas dune ACP les donneacutees seraient centreacutees et reacuteduites alors qursquoelles seraient uniquement centreacutees pour une TKL

Annexe C Analyse en composantes principales 56

- si on ne reacuteduit pas le nuage une variable agrave forte variance pourrait tirer tout lrsquoeffet de lrsquoACP agrave elle

- si on reacuteduit le nuage une variable qui ne serait qursquoun bruit se retrouverait avec une variance apparente eacutegale agrave une variable informative

M est centreacutee

⎥⎥⎥

⎢⎢⎢

minusminusminus

minusminus=

npn

pi

ji

nn

xxxxxx

xxxxM

K

MM

K

11

11

11

ˆ (C2)

M~ est centreacutee et reacuteduite

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

minusminus

minus

minusminus

=

)()(

)(

)()(~

1

11

1

1

111

n

npn

pi

ij

i

n

nn

xxx

xxx

xxx

xxx

xxx

M

σσ

σ

σσ

K

MM

K

(C3)

On multiplie ensuite la matrice obtenue par sa transposeacutee pour obtenir - La matrice de covariance MMC t

vˆˆ sdot=

- La matrice de correacutelation MMC tr

~~ sdot= Ces matrices sont carreacutees (N x N) symeacutetriques et reacuteelles Elles sont donc

diagonalisables dans une base orthonormeacutee 6 Le principe de lrsquoACP est alors de trouver un axe u issu drsquoune combinaison lineacuteaire

des tel que le critegravere drsquoinertie du nuage autour de cet axe soit maximal Le critegravere drsquoinertie couramment utiliseacute est la variance Il faut donc trouver lrsquoaxe qui porte le maximum de variance crsquoest-agrave-dire lrsquoaxe u tel que la projection du nuage sur cet axe ait une variance maximale

nx

6 Nos donneacutees eacutetant ici des valeurs drsquoeacutechantillons elles sont par nature centreacutees et reacuteduites On

formera donc naturellement la matrice de correacutelation

C2 Diagonalisation 57

C2 Diagonalisation Pour alleacuteger lrsquoeacutecriture de la suite de cette partie nous consideacutererons que les

variables ont eacuteteacute centreacutees et si besoin reacuteduites et nous noterons ces variables

transformeacutees (ainsi

ix ix

iii xxx minuslarr ou bien )( i

iii x

xxxσ

minuslarr ) On fera de mecircme pour M

( ou bien MM ˆlarr MM ~larr ) et C ( vCC larr ou bien rCC larr ) La projection drsquoun eacutechantillon sur un axe u srsquoeacutecrit ix

uMxiu sdot=)(π (C4) La variance empirique de )( iu xπ vaut donc

uMMuxx ttiu

tiu sdotsdotsdot=sdot )()( ππ (C5)

Or on a vu que est diagonalisable dans une base orthonormeacutee donc

on peut noter P le changement de base associeacute et ∆ la matrice diagonale formeacutee de son spectre Ainsi

MMC t=

n

i 1)(λ PPMMC tt ∆==

)()()()( PuPuuPPuxx ttt

iut

iu sdot∆sdot=sdot∆sdot=sdotππ (C6) On pose v = Pu Chercher lrsquoaxe u qui maximise )( iu xπ revient donc agrave chercher le

vecteur v qui maximise ougravevvt ∆ )( 1 ndiag λλ K=∆ avec les iλ rangeacutes par ordre deacutecroissant Ce vecteur est trivialement le premier vecteur unitaire et on a alors

1λ=∆vvt

Ainsi le vecteur qui porte la plus grande part drsquoinertie du nuage est le premier

vecteur propre de C (premier par norme deacutecroissante) De mecircme le deuxiegraveme vecteur qui explique la plus grandelt part de lrsquoinertie restante est le deuxiegraveme vecteur propre de C Finalement la question de lrsquoACP se ramegravene agrave un problegraveme de diagonalisation de la matrice de correacutelation

C3 Code Matlab

function [vep vap] = pca(f N) f donneacutees N nombre de composantes agrave garder cor = f f formation de la matrice de correacutelation [vep vap] = eig(cor) calcul des vecteurs (vep) et valeurs (vap) propres [vap ind] = sort(diag(vap)) tri des valeurs propres par ordre croissant vap = flipud(vap) disposition inverse par ordre drsquoimportance vep = vep( flipud(ind)) classement en conseacutequence des vecteurs propres vep = vep( 1N) on ne garde que les N premiers vecteurs propres

Annexe C Analyse en composantes principales 58

59

Annexe D

Analyse en sous-bandes

D1 La transformeacutee de Fourier agrave court terme (TFCT) Pour affiner lrsquoanalyse les signaux sont donc deacutecoupeacutes en bandes de freacutequence par

TFCT La TFCT consiste agrave effectuer des transformeacutees de Fourier discregravetes sur des portions de signal fenecirctreacutees reacuteguliegraverement espaceacutees

On rappelle que la transformeacutee de Fourier drsquoun signal x(t) est deacutefinie (lorsque

lrsquointeacutegrale existe) par

int+infin

infinminus

minus= dtetxfX ftiπ2)()( (D1)

La transformeacutee de Fourier agrave temps discret (TFTD) drsquoun signal x(t) srsquoeacutecrit

sum+infin

minusinfin=

minus=n

fnienxfX π2)()( (D2)

La transformeacutee de Fourier discregravete (TFD) drsquoun signal discret x(k) est deacutefinie par

sum+infin

minusinfin=

minus=

n

Nkni

enxkXπ2

)()( (D3)

La TFCT discregravete est une TFD observeacutee sur une fenecirctre wa de taille N

summinus

=

minus+=

1

0

2)())(()(

N

n

Nnki

aaa enwtnxkXπ

ττ (D4)

ougrave )(taτ est lrsquoinstant drsquoanalyse

Annexe D Analyse en sous-bandes 60

Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT [Laroche 1995]

D2 Synthegravese par addition-recouvrement Lors de la synthegravese apregraves le deacutecoupage et lrsquoanalyse des fenecirctres on cherche agrave

reconstruire le signal temporel agrave partir de sa repreacutesentation freacutequentielle Pour cela on utilise la meacutethode OLA (overlap and add addition-recouvrement) qui consiste agrave prendre la TFCT inverse des spectres Xt puis agrave additionner les signaux obtenus apregraves les avoir multiplieacutes par une fenecirctre de pondeacuteration en les faisant se recouvrir partiellement

Le reacutesultat est donneacute par

sum=

minusminus=T

tsss tnxtnwnx

s1

))((~))(()(~ ττ τ (D5)

avec )()( tt as ττ = et summinus

=

=1

0

2))((~1)(~ N

k

Nkni

s ektXN

nxs

π

τ τ

Lors de la mise en œuvre de ce traitement il faut srsquoassurer drsquoecirctre en mesure de

reconstruire parfaitement un signal lorsqursquoaucune transformation ne lui est appliqueacutee Le critegravere de reconstruction parfaite condition suffisante est alors

sum=

=minusminusT

tasaa tnwtnw

11))(())(( ττ quelque soit n (D6)

D2 Synthegravese par addition-recouvrement 61

Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add [Laroche 1995]

Plusieurs paramegravetres sont agrave choisir avec soin Le premier drsquoentre eux est le type

de fenecirctre agrave utiliser Les diffeacuterentes options qui se preacutesentent agrave nous sont - la fenecirctre rectangulaire qui preacutesente dans son spectre le lobe principal le plus

eacutetroit mais des lobes secondaires non neacutegligeables - la fenecirctre de Hamming au lobe principal un peu plus large mais pour laquelle le

1er lobe secondaire se situe agrave -43 dB - la fenecirctre de Hann (ou cosinus sureacuteleveacute) qui ressemble agrave la preacuteceacutedente avec un

1er lobe secondaire plus fort mais une pente de 18 dB par octave pour les lobes suivants

- les fenecirctres de Blackman-Harris aux lobes secondaires tregraves bas mais au lobe principal plus large

Fenecirctre Lobe 2aire

(dB) Pente

(dBoct) Bande passante

agrave 6 dB (bins) Rectangulaire -13 -6 121 Triangulaire -27 -12 178

Hann -32 -18 200 Hamming -43 -6 181

Blackman-Harris 4 -92 -6 272

Tableau D1 - Caracteacuteristiques des principales fenecirctres drsquoanalyse [Harris 1978] Le meilleur compromis est donc dans notre contexte la fenecirctre de Hann ou celle

de Hamming

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 54: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 49

soit

1)(sin

)()()12(2sin)(

)(sin)()()12(2cos)(

1)(sin)1()1()12(cos)(

)1(

)1(

1)1(

1

gt

⎪⎪⎩

⎪⎪⎨

+minus

+=

+minus

+=

=+minus

+=

minus

npourP

nmnmmnY

PnmnmmnY

npourPmmmY

mnmn

mnmn

mm

δθδθ

δθδθ

δθδθ

(A14)

La solution angulaire geacuteneacuterale srsquoeacutecrit alors sous la forme drsquoun deacuteveloppement sur

la base drsquoharmoniques spheacuteriques

( ) ( )sum minus

=minus+=Θ

1

1)1()1()( n

m mnmnmnmnn YBYBθ (A15) La solution geacuteneacuterale est alors la seacuterie de Fourier-Bessel

sum sum sum+infin

= = plusmn=

=0 0 1

)()( )()()(m

m

nmnmnm

m YBkrjikrpσ

σσ δθδθ (A16)

ougrave

intint⎪⎩

⎪⎨⎧

minusisin

isin

plusmnplusmn =

]2

2

[

[20[

)1()1( )()1()(

1

ππδ

πθ

δθδθ

S

mnm

mmn dSYpkrji

B (A17)

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 50

Tableau A1 - Expressions analytiques des harmoniques spheacuteriques pour les ordres 0 agrave 3

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 51

Figure A3 - Repreacutesentation des harmoniques spheacuteriques pour les ordres m = 0 agrave 3 Les

couleurs rouge et bleu indiquent respectivement des valeurs positives et neacutegatives

53

Annexe B

Compleacutements theacuteoriques sur le deacutecodage HOA

B1 Vecteur veacutelociteacute et vecteur eacutenergie Le vecteur veacutelociteacute est un indice de la direction apparente drsquoune source introduit

par Gerzon [Gerzon 1992] Il se calcule comme le rapport de la vitesse particulaire sur la pression acoustique

)()(

)()(1

δθδθ

δθδθ

ρ rprp

ki

rprv

cV nabla

minus=minus=rrr

(B1)

Dans le cas drsquoune onde plane le vecteur veacutelociteacute V

rest ainsi directement un

vecteur unitaire orienteacute vers la direction de provenance de lrsquoonde En geacuteneacuteralisant agrave une superposition drsquoondes planes en phase ou opposition de phase eacutemises par L haut-parleurs agrave eacutequidistance du point drsquoobservation on obtient la formule suivante

VVL

ll

L

lll

urg

ugV r

rr

==

sum

sum

=

=

1

1 (B2)

ougrave deacutesigne la direction du llur egraveme haut-parleur auquel est associeacute le gain gl et Vr Vur correspondent respectivement agrave la norme et agrave la direction du vecteur veacutelociteacute

Le vecteur eacutenergie est un autre indice de direction Il est deacutefinit par

EEL

ll

L

lll

urg

ugE r

rr

==

sum

sum

=

=

1

2

1

2

(B3)

Annexe B Compleacutements theacuteoriques sur le deacutecodage HOA 54

Il peut srsquointerpreacuteter comme une indication de la concentration de lrsquoeacutenergie ( ) et de sa direction moyenne de provenance (

Er

Eur ) On a toujours 1ltEr sauf dans le cas ougrave un seul haut-parleur contribue agrave la reconstruction (dans ce cas ) peut ecirctre consideacutereacute comme un indicateur de preacutecision de la localisation

1=Er Er

B2 Deacutecodages optimiseacutes La restitution la plus confortable drsquoun champ sonore veillera donc agrave maximiser

tout en essayant de garder le plus proche possible de 1 Lrsquooptimisation du deacutecodage consiste alors agrave multiplier chaque coefficient de la matrice de deacutecodage D (voir (111) par des gains calculeacutes drsquoapregraves des critegraveres drsquooptimisation

Er Vr

Ainsi le deacutecodage appeleacute max- maximise la norme du vecteur eacutenergie en

sacrifiant celle du vecteur veacutelociteacute puisqursquoon a dans ce deacutecodage (pour des configurations reacuteguliegraveres de haut-parleurs) Ce deacutecodage est donc avantageux par rapport au deacutecodage basique pour les hautes freacutequences ou dans le cas drsquoun auditoire eacutelargi Le deacutecodage in-phase va encore plus loin en cherchant agrave annuler complegravetement les contributions des haut-parleurs placeacutes agrave lrsquoopposeacute de la direction de provenance de lrsquoonde reproduite Ce critegravere est utile dans le cas drsquoune eacutecoute dans une position tregraves excentreacutee agrave laquelle on pourrait percevoir de faccedilon preacutedominante la contribution en opposition de phase drsquoun tel haut-parleur

Er

EV rr =

Ces diffeacuterents deacutecodages ont chacun des avantages et inconveacutenients Ainsi seul le

deacutecodage basique garantit = 1 le deacutecodage max- permet une preacutecision meilleure notamment en haute freacutequence et le deacutecodage in-phase est plus adapteacute agrave un auditoire plus large Jeacuterocircme Daniel [Daniel 2000] propose ainsi de changer le deacutecodage en fonction de la freacutequence et de lrsquoeacutetendue de la zone drsquoeacutecoute deacutesireacutee

Vr Er

Figure B1 - Deacutecodages les plus approprieacutes par sous-bande et en fonction de lrsquoeacutetendue de la

zone drsquoeacutecoute [Daniel 2000]

55

Annexe C

Analyse en composantes principales

C1 Espace des donneacutees Eacutegalement souvent appeleacutee transformeacutee de Karhunen-Loegraveve5 (TKL) lrsquoanalyse en

composantes principales (ACP) est une technique statistique de repreacutesentation drsquoinformation Introduite sur 2 variables par Pearson [Pearson 1900] elle a eacuteteacute eacutetendue par Hotelling [Hotelling 1933] Elle a pour but de caracteacuteriser des donneacutees drsquoun espace agrave N dimensions dans un sous-espace plus petit en minimisant les pertes drsquoinformation due agrave la projection crsquoest-agrave-dire en maximisant la variance projeteacutee Les donneacutees ainsi reacuteorganiseacutees deviennent indeacutependantes Les variables correacuteleacutees sont remplaceacutees par de nouvelles variables deacutecorreacuteleacutees et de variance maximale combinaisons lineacuteaires des variables initiales

Les donneacutees sont constitueacutees de n variables aleacuteatoires (dans notre cas des canaux)

et p reacutealisations ou individus (des eacutechantillons)

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

pn

p

ji

n

xx

x

xx

M

LLL

MOMNM

MLLM

MNMOM

LLL

1

111

(C1)

Ces donneacutees sont geacuteneacuteralement centreacutees et peuvent aussi ecirctre reacuteduites4 (on note

1x la moyenne de la variable et 1x )( 1xσ sa variance) Reacuteduire ou non le nuage de points (ie les p reacutealisations de la variable aleacuteatoire) est un choix de modegravele

5 Quelques rares sources mentionnent une diffeacuterence entre ACP et TKL en placcedilant celle-ci au

niveau du choix de la reacuteduction des donneacutees dans le cas dune ACP les donneacutees seraient centreacutees et reacuteduites alors qursquoelles seraient uniquement centreacutees pour une TKL

Annexe C Analyse en composantes principales 56

- si on ne reacuteduit pas le nuage une variable agrave forte variance pourrait tirer tout lrsquoeffet de lrsquoACP agrave elle

- si on reacuteduit le nuage une variable qui ne serait qursquoun bruit se retrouverait avec une variance apparente eacutegale agrave une variable informative

M est centreacutee

⎥⎥⎥

⎢⎢⎢

minusminusminus

minusminus=

npn

pi

ji

nn

xxxxxx

xxxxM

K

MM

K

11

11

11

ˆ (C2)

M~ est centreacutee et reacuteduite

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

minusminus

minus

minusminus

=

)()(

)(

)()(~

1

11

1

1

111

n

npn

pi

ij

i

n

nn

xxx

xxx

xxx

xxx

xxx

M

σσ

σ

σσ

K

MM

K

(C3)

On multiplie ensuite la matrice obtenue par sa transposeacutee pour obtenir - La matrice de covariance MMC t

vˆˆ sdot=

- La matrice de correacutelation MMC tr

~~ sdot= Ces matrices sont carreacutees (N x N) symeacutetriques et reacuteelles Elles sont donc

diagonalisables dans une base orthonormeacutee 6 Le principe de lrsquoACP est alors de trouver un axe u issu drsquoune combinaison lineacuteaire

des tel que le critegravere drsquoinertie du nuage autour de cet axe soit maximal Le critegravere drsquoinertie couramment utiliseacute est la variance Il faut donc trouver lrsquoaxe qui porte le maximum de variance crsquoest-agrave-dire lrsquoaxe u tel que la projection du nuage sur cet axe ait une variance maximale

nx

6 Nos donneacutees eacutetant ici des valeurs drsquoeacutechantillons elles sont par nature centreacutees et reacuteduites On

formera donc naturellement la matrice de correacutelation

C2 Diagonalisation 57

C2 Diagonalisation Pour alleacuteger lrsquoeacutecriture de la suite de cette partie nous consideacutererons que les

variables ont eacuteteacute centreacutees et si besoin reacuteduites et nous noterons ces variables

transformeacutees (ainsi

ix ix

iii xxx minuslarr ou bien )( i

iii x

xxxσ

minuslarr ) On fera de mecircme pour M

( ou bien MM ˆlarr MM ~larr ) et C ( vCC larr ou bien rCC larr ) La projection drsquoun eacutechantillon sur un axe u srsquoeacutecrit ix

uMxiu sdot=)(π (C4) La variance empirique de )( iu xπ vaut donc

uMMuxx ttiu

tiu sdotsdotsdot=sdot )()( ππ (C5)

Or on a vu que est diagonalisable dans une base orthonormeacutee donc

on peut noter P le changement de base associeacute et ∆ la matrice diagonale formeacutee de son spectre Ainsi

MMC t=

n

i 1)(λ PPMMC tt ∆==

)()()()( PuPuuPPuxx ttt

iut

iu sdot∆sdot=sdot∆sdot=sdotππ (C6) On pose v = Pu Chercher lrsquoaxe u qui maximise )( iu xπ revient donc agrave chercher le

vecteur v qui maximise ougravevvt ∆ )( 1 ndiag λλ K=∆ avec les iλ rangeacutes par ordre deacutecroissant Ce vecteur est trivialement le premier vecteur unitaire et on a alors

1λ=∆vvt

Ainsi le vecteur qui porte la plus grande part drsquoinertie du nuage est le premier

vecteur propre de C (premier par norme deacutecroissante) De mecircme le deuxiegraveme vecteur qui explique la plus grandelt part de lrsquoinertie restante est le deuxiegraveme vecteur propre de C Finalement la question de lrsquoACP se ramegravene agrave un problegraveme de diagonalisation de la matrice de correacutelation

C3 Code Matlab

function [vep vap] = pca(f N) f donneacutees N nombre de composantes agrave garder cor = f f formation de la matrice de correacutelation [vep vap] = eig(cor) calcul des vecteurs (vep) et valeurs (vap) propres [vap ind] = sort(diag(vap)) tri des valeurs propres par ordre croissant vap = flipud(vap) disposition inverse par ordre drsquoimportance vep = vep( flipud(ind)) classement en conseacutequence des vecteurs propres vep = vep( 1N) on ne garde que les N premiers vecteurs propres

Annexe C Analyse en composantes principales 58

59

Annexe D

Analyse en sous-bandes

D1 La transformeacutee de Fourier agrave court terme (TFCT) Pour affiner lrsquoanalyse les signaux sont donc deacutecoupeacutes en bandes de freacutequence par

TFCT La TFCT consiste agrave effectuer des transformeacutees de Fourier discregravetes sur des portions de signal fenecirctreacutees reacuteguliegraverement espaceacutees

On rappelle que la transformeacutee de Fourier drsquoun signal x(t) est deacutefinie (lorsque

lrsquointeacutegrale existe) par

int+infin

infinminus

minus= dtetxfX ftiπ2)()( (D1)

La transformeacutee de Fourier agrave temps discret (TFTD) drsquoun signal x(t) srsquoeacutecrit

sum+infin

minusinfin=

minus=n

fnienxfX π2)()( (D2)

La transformeacutee de Fourier discregravete (TFD) drsquoun signal discret x(k) est deacutefinie par

sum+infin

minusinfin=

minus=

n

Nkni

enxkXπ2

)()( (D3)

La TFCT discregravete est une TFD observeacutee sur une fenecirctre wa de taille N

summinus

=

minus+=

1

0

2)())(()(

N

n

Nnki

aaa enwtnxkXπ

ττ (D4)

ougrave )(taτ est lrsquoinstant drsquoanalyse

Annexe D Analyse en sous-bandes 60

Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT [Laroche 1995]

D2 Synthegravese par addition-recouvrement Lors de la synthegravese apregraves le deacutecoupage et lrsquoanalyse des fenecirctres on cherche agrave

reconstruire le signal temporel agrave partir de sa repreacutesentation freacutequentielle Pour cela on utilise la meacutethode OLA (overlap and add addition-recouvrement) qui consiste agrave prendre la TFCT inverse des spectres Xt puis agrave additionner les signaux obtenus apregraves les avoir multiplieacutes par une fenecirctre de pondeacuteration en les faisant se recouvrir partiellement

Le reacutesultat est donneacute par

sum=

minusminus=T

tsss tnxtnwnx

s1

))((~))(()(~ ττ τ (D5)

avec )()( tt as ττ = et summinus

=

=1

0

2))((~1)(~ N

k

Nkni

s ektXN

nxs

π

τ τ

Lors de la mise en œuvre de ce traitement il faut srsquoassurer drsquoecirctre en mesure de

reconstruire parfaitement un signal lorsqursquoaucune transformation ne lui est appliqueacutee Le critegravere de reconstruction parfaite condition suffisante est alors

sum=

=minusminusT

tasaa tnwtnw

11))(())(( ττ quelque soit n (D6)

D2 Synthegravese par addition-recouvrement 61

Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add [Laroche 1995]

Plusieurs paramegravetres sont agrave choisir avec soin Le premier drsquoentre eux est le type

de fenecirctre agrave utiliser Les diffeacuterentes options qui se preacutesentent agrave nous sont - la fenecirctre rectangulaire qui preacutesente dans son spectre le lobe principal le plus

eacutetroit mais des lobes secondaires non neacutegligeables - la fenecirctre de Hamming au lobe principal un peu plus large mais pour laquelle le

1er lobe secondaire se situe agrave -43 dB - la fenecirctre de Hann (ou cosinus sureacuteleveacute) qui ressemble agrave la preacuteceacutedente avec un

1er lobe secondaire plus fort mais une pente de 18 dB par octave pour les lobes suivants

- les fenecirctres de Blackman-Harris aux lobes secondaires tregraves bas mais au lobe principal plus large

Fenecirctre Lobe 2aire

(dB) Pente

(dBoct) Bande passante

agrave 6 dB (bins) Rectangulaire -13 -6 121 Triangulaire -27 -12 178

Hann -32 -18 200 Hamming -43 -6 181

Blackman-Harris 4 -92 -6 272

Tableau D1 - Caracteacuteristiques des principales fenecirctres drsquoanalyse [Harris 1978] Le meilleur compromis est donc dans notre contexte la fenecirctre de Hann ou celle

de Hamming

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 55: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

Annexe A Deacuteveloppement du champ acoustique en harmoniques spheacuteriques 50

Tableau A1 - Expressions analytiques des harmoniques spheacuteriques pour les ordres 0 agrave 3

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 51

Figure A3 - Repreacutesentation des harmoniques spheacuteriques pour les ordres m = 0 agrave 3 Les

couleurs rouge et bleu indiquent respectivement des valeurs positives et neacutegatives

53

Annexe B

Compleacutements theacuteoriques sur le deacutecodage HOA

B1 Vecteur veacutelociteacute et vecteur eacutenergie Le vecteur veacutelociteacute est un indice de la direction apparente drsquoune source introduit

par Gerzon [Gerzon 1992] Il se calcule comme le rapport de la vitesse particulaire sur la pression acoustique

)()(

)()(1

δθδθ

δθδθ

ρ rprp

ki

rprv

cV nabla

minus=minus=rrr

(B1)

Dans le cas drsquoune onde plane le vecteur veacutelociteacute V

rest ainsi directement un

vecteur unitaire orienteacute vers la direction de provenance de lrsquoonde En geacuteneacuteralisant agrave une superposition drsquoondes planes en phase ou opposition de phase eacutemises par L haut-parleurs agrave eacutequidistance du point drsquoobservation on obtient la formule suivante

VVL

ll

L

lll

urg

ugV r

rr

==

sum

sum

=

=

1

1 (B2)

ougrave deacutesigne la direction du llur egraveme haut-parleur auquel est associeacute le gain gl et Vr Vur correspondent respectivement agrave la norme et agrave la direction du vecteur veacutelociteacute

Le vecteur eacutenergie est un autre indice de direction Il est deacutefinit par

EEL

ll

L

lll

urg

ugE r

rr

==

sum

sum

=

=

1

2

1

2

(B3)

Annexe B Compleacutements theacuteoriques sur le deacutecodage HOA 54

Il peut srsquointerpreacuteter comme une indication de la concentration de lrsquoeacutenergie ( ) et de sa direction moyenne de provenance (

Er

Eur ) On a toujours 1ltEr sauf dans le cas ougrave un seul haut-parleur contribue agrave la reconstruction (dans ce cas ) peut ecirctre consideacutereacute comme un indicateur de preacutecision de la localisation

1=Er Er

B2 Deacutecodages optimiseacutes La restitution la plus confortable drsquoun champ sonore veillera donc agrave maximiser

tout en essayant de garder le plus proche possible de 1 Lrsquooptimisation du deacutecodage consiste alors agrave multiplier chaque coefficient de la matrice de deacutecodage D (voir (111) par des gains calculeacutes drsquoapregraves des critegraveres drsquooptimisation

Er Vr

Ainsi le deacutecodage appeleacute max- maximise la norme du vecteur eacutenergie en

sacrifiant celle du vecteur veacutelociteacute puisqursquoon a dans ce deacutecodage (pour des configurations reacuteguliegraveres de haut-parleurs) Ce deacutecodage est donc avantageux par rapport au deacutecodage basique pour les hautes freacutequences ou dans le cas drsquoun auditoire eacutelargi Le deacutecodage in-phase va encore plus loin en cherchant agrave annuler complegravetement les contributions des haut-parleurs placeacutes agrave lrsquoopposeacute de la direction de provenance de lrsquoonde reproduite Ce critegravere est utile dans le cas drsquoune eacutecoute dans une position tregraves excentreacutee agrave laquelle on pourrait percevoir de faccedilon preacutedominante la contribution en opposition de phase drsquoun tel haut-parleur

Er

EV rr =

Ces diffeacuterents deacutecodages ont chacun des avantages et inconveacutenients Ainsi seul le

deacutecodage basique garantit = 1 le deacutecodage max- permet une preacutecision meilleure notamment en haute freacutequence et le deacutecodage in-phase est plus adapteacute agrave un auditoire plus large Jeacuterocircme Daniel [Daniel 2000] propose ainsi de changer le deacutecodage en fonction de la freacutequence et de lrsquoeacutetendue de la zone drsquoeacutecoute deacutesireacutee

Vr Er

Figure B1 - Deacutecodages les plus approprieacutes par sous-bande et en fonction de lrsquoeacutetendue de la

zone drsquoeacutecoute [Daniel 2000]

55

Annexe C

Analyse en composantes principales

C1 Espace des donneacutees Eacutegalement souvent appeleacutee transformeacutee de Karhunen-Loegraveve5 (TKL) lrsquoanalyse en

composantes principales (ACP) est une technique statistique de repreacutesentation drsquoinformation Introduite sur 2 variables par Pearson [Pearson 1900] elle a eacuteteacute eacutetendue par Hotelling [Hotelling 1933] Elle a pour but de caracteacuteriser des donneacutees drsquoun espace agrave N dimensions dans un sous-espace plus petit en minimisant les pertes drsquoinformation due agrave la projection crsquoest-agrave-dire en maximisant la variance projeteacutee Les donneacutees ainsi reacuteorganiseacutees deviennent indeacutependantes Les variables correacuteleacutees sont remplaceacutees par de nouvelles variables deacutecorreacuteleacutees et de variance maximale combinaisons lineacuteaires des variables initiales

Les donneacutees sont constitueacutees de n variables aleacuteatoires (dans notre cas des canaux)

et p reacutealisations ou individus (des eacutechantillons)

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

pn

p

ji

n

xx

x

xx

M

LLL

MOMNM

MLLM

MNMOM

LLL

1

111

(C1)

Ces donneacutees sont geacuteneacuteralement centreacutees et peuvent aussi ecirctre reacuteduites4 (on note

1x la moyenne de la variable et 1x )( 1xσ sa variance) Reacuteduire ou non le nuage de points (ie les p reacutealisations de la variable aleacuteatoire) est un choix de modegravele

5 Quelques rares sources mentionnent une diffeacuterence entre ACP et TKL en placcedilant celle-ci au

niveau du choix de la reacuteduction des donneacutees dans le cas dune ACP les donneacutees seraient centreacutees et reacuteduites alors qursquoelles seraient uniquement centreacutees pour une TKL

Annexe C Analyse en composantes principales 56

- si on ne reacuteduit pas le nuage une variable agrave forte variance pourrait tirer tout lrsquoeffet de lrsquoACP agrave elle

- si on reacuteduit le nuage une variable qui ne serait qursquoun bruit se retrouverait avec une variance apparente eacutegale agrave une variable informative

M est centreacutee

⎥⎥⎥

⎢⎢⎢

minusminusminus

minusminus=

npn

pi

ji

nn

xxxxxx

xxxxM

K

MM

K

11

11

11

ˆ (C2)

M~ est centreacutee et reacuteduite

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

minusminus

minus

minusminus

=

)()(

)(

)()(~

1

11

1

1

111

n

npn

pi

ij

i

n

nn

xxx

xxx

xxx

xxx

xxx

M

σσ

σ

σσ

K

MM

K

(C3)

On multiplie ensuite la matrice obtenue par sa transposeacutee pour obtenir - La matrice de covariance MMC t

vˆˆ sdot=

- La matrice de correacutelation MMC tr

~~ sdot= Ces matrices sont carreacutees (N x N) symeacutetriques et reacuteelles Elles sont donc

diagonalisables dans une base orthonormeacutee 6 Le principe de lrsquoACP est alors de trouver un axe u issu drsquoune combinaison lineacuteaire

des tel que le critegravere drsquoinertie du nuage autour de cet axe soit maximal Le critegravere drsquoinertie couramment utiliseacute est la variance Il faut donc trouver lrsquoaxe qui porte le maximum de variance crsquoest-agrave-dire lrsquoaxe u tel que la projection du nuage sur cet axe ait une variance maximale

nx

6 Nos donneacutees eacutetant ici des valeurs drsquoeacutechantillons elles sont par nature centreacutees et reacuteduites On

formera donc naturellement la matrice de correacutelation

C2 Diagonalisation 57

C2 Diagonalisation Pour alleacuteger lrsquoeacutecriture de la suite de cette partie nous consideacutererons que les

variables ont eacuteteacute centreacutees et si besoin reacuteduites et nous noterons ces variables

transformeacutees (ainsi

ix ix

iii xxx minuslarr ou bien )( i

iii x

xxxσ

minuslarr ) On fera de mecircme pour M

( ou bien MM ˆlarr MM ~larr ) et C ( vCC larr ou bien rCC larr ) La projection drsquoun eacutechantillon sur un axe u srsquoeacutecrit ix

uMxiu sdot=)(π (C4) La variance empirique de )( iu xπ vaut donc

uMMuxx ttiu

tiu sdotsdotsdot=sdot )()( ππ (C5)

Or on a vu que est diagonalisable dans une base orthonormeacutee donc

on peut noter P le changement de base associeacute et ∆ la matrice diagonale formeacutee de son spectre Ainsi

MMC t=

n

i 1)(λ PPMMC tt ∆==

)()()()( PuPuuPPuxx ttt

iut

iu sdot∆sdot=sdot∆sdot=sdotππ (C6) On pose v = Pu Chercher lrsquoaxe u qui maximise )( iu xπ revient donc agrave chercher le

vecteur v qui maximise ougravevvt ∆ )( 1 ndiag λλ K=∆ avec les iλ rangeacutes par ordre deacutecroissant Ce vecteur est trivialement le premier vecteur unitaire et on a alors

1λ=∆vvt

Ainsi le vecteur qui porte la plus grande part drsquoinertie du nuage est le premier

vecteur propre de C (premier par norme deacutecroissante) De mecircme le deuxiegraveme vecteur qui explique la plus grandelt part de lrsquoinertie restante est le deuxiegraveme vecteur propre de C Finalement la question de lrsquoACP se ramegravene agrave un problegraveme de diagonalisation de la matrice de correacutelation

C3 Code Matlab

function [vep vap] = pca(f N) f donneacutees N nombre de composantes agrave garder cor = f f formation de la matrice de correacutelation [vep vap] = eig(cor) calcul des vecteurs (vep) et valeurs (vap) propres [vap ind] = sort(diag(vap)) tri des valeurs propres par ordre croissant vap = flipud(vap) disposition inverse par ordre drsquoimportance vep = vep( flipud(ind)) classement en conseacutequence des vecteurs propres vep = vep( 1N) on ne garde que les N premiers vecteurs propres

Annexe C Analyse en composantes principales 58

59

Annexe D

Analyse en sous-bandes

D1 La transformeacutee de Fourier agrave court terme (TFCT) Pour affiner lrsquoanalyse les signaux sont donc deacutecoupeacutes en bandes de freacutequence par

TFCT La TFCT consiste agrave effectuer des transformeacutees de Fourier discregravetes sur des portions de signal fenecirctreacutees reacuteguliegraverement espaceacutees

On rappelle que la transformeacutee de Fourier drsquoun signal x(t) est deacutefinie (lorsque

lrsquointeacutegrale existe) par

int+infin

infinminus

minus= dtetxfX ftiπ2)()( (D1)

La transformeacutee de Fourier agrave temps discret (TFTD) drsquoun signal x(t) srsquoeacutecrit

sum+infin

minusinfin=

minus=n

fnienxfX π2)()( (D2)

La transformeacutee de Fourier discregravete (TFD) drsquoun signal discret x(k) est deacutefinie par

sum+infin

minusinfin=

minus=

n

Nkni

enxkXπ2

)()( (D3)

La TFCT discregravete est une TFD observeacutee sur une fenecirctre wa de taille N

summinus

=

minus+=

1

0

2)())(()(

N

n

Nnki

aaa enwtnxkXπ

ττ (D4)

ougrave )(taτ est lrsquoinstant drsquoanalyse

Annexe D Analyse en sous-bandes 60

Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT [Laroche 1995]

D2 Synthegravese par addition-recouvrement Lors de la synthegravese apregraves le deacutecoupage et lrsquoanalyse des fenecirctres on cherche agrave

reconstruire le signal temporel agrave partir de sa repreacutesentation freacutequentielle Pour cela on utilise la meacutethode OLA (overlap and add addition-recouvrement) qui consiste agrave prendre la TFCT inverse des spectres Xt puis agrave additionner les signaux obtenus apregraves les avoir multiplieacutes par une fenecirctre de pondeacuteration en les faisant se recouvrir partiellement

Le reacutesultat est donneacute par

sum=

minusminus=T

tsss tnxtnwnx

s1

))((~))(()(~ ττ τ (D5)

avec )()( tt as ττ = et summinus

=

=1

0

2))((~1)(~ N

k

Nkni

s ektXN

nxs

π

τ τ

Lors de la mise en œuvre de ce traitement il faut srsquoassurer drsquoecirctre en mesure de

reconstruire parfaitement un signal lorsqursquoaucune transformation ne lui est appliqueacutee Le critegravere de reconstruction parfaite condition suffisante est alors

sum=

=minusminusT

tasaa tnwtnw

11))(())(( ττ quelque soit n (D6)

D2 Synthegravese par addition-recouvrement 61

Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add [Laroche 1995]

Plusieurs paramegravetres sont agrave choisir avec soin Le premier drsquoentre eux est le type

de fenecirctre agrave utiliser Les diffeacuterentes options qui se preacutesentent agrave nous sont - la fenecirctre rectangulaire qui preacutesente dans son spectre le lobe principal le plus

eacutetroit mais des lobes secondaires non neacutegligeables - la fenecirctre de Hamming au lobe principal un peu plus large mais pour laquelle le

1er lobe secondaire se situe agrave -43 dB - la fenecirctre de Hann (ou cosinus sureacuteleveacute) qui ressemble agrave la preacuteceacutedente avec un

1er lobe secondaire plus fort mais une pente de 18 dB par octave pour les lobes suivants

- les fenecirctres de Blackman-Harris aux lobes secondaires tregraves bas mais au lobe principal plus large

Fenecirctre Lobe 2aire

(dB) Pente

(dBoct) Bande passante

agrave 6 dB (bins) Rectangulaire -13 -6 121 Triangulaire -27 -12 178

Hann -32 -18 200 Hamming -43 -6 181

Blackman-Harris 4 -92 -6 272

Tableau D1 - Caracteacuteristiques des principales fenecirctres drsquoanalyse [Harris 1978] Le meilleur compromis est donc dans notre contexte la fenecirctre de Hann ou celle

de Hamming

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 56: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

A2 Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques 51

Figure A3 - Repreacutesentation des harmoniques spheacuteriques pour les ordres m = 0 agrave 3 Les

couleurs rouge et bleu indiquent respectivement des valeurs positives et neacutegatives

53

Annexe B

Compleacutements theacuteoriques sur le deacutecodage HOA

B1 Vecteur veacutelociteacute et vecteur eacutenergie Le vecteur veacutelociteacute est un indice de la direction apparente drsquoune source introduit

par Gerzon [Gerzon 1992] Il se calcule comme le rapport de la vitesse particulaire sur la pression acoustique

)()(

)()(1

δθδθ

δθδθ

ρ rprp

ki

rprv

cV nabla

minus=minus=rrr

(B1)

Dans le cas drsquoune onde plane le vecteur veacutelociteacute V

rest ainsi directement un

vecteur unitaire orienteacute vers la direction de provenance de lrsquoonde En geacuteneacuteralisant agrave une superposition drsquoondes planes en phase ou opposition de phase eacutemises par L haut-parleurs agrave eacutequidistance du point drsquoobservation on obtient la formule suivante

VVL

ll

L

lll

urg

ugV r

rr

==

sum

sum

=

=

1

1 (B2)

ougrave deacutesigne la direction du llur egraveme haut-parleur auquel est associeacute le gain gl et Vr Vur correspondent respectivement agrave la norme et agrave la direction du vecteur veacutelociteacute

Le vecteur eacutenergie est un autre indice de direction Il est deacutefinit par

EEL

ll

L

lll

urg

ugE r

rr

==

sum

sum

=

=

1

2

1

2

(B3)

Annexe B Compleacutements theacuteoriques sur le deacutecodage HOA 54

Il peut srsquointerpreacuteter comme une indication de la concentration de lrsquoeacutenergie ( ) et de sa direction moyenne de provenance (

Er

Eur ) On a toujours 1ltEr sauf dans le cas ougrave un seul haut-parleur contribue agrave la reconstruction (dans ce cas ) peut ecirctre consideacutereacute comme un indicateur de preacutecision de la localisation

1=Er Er

B2 Deacutecodages optimiseacutes La restitution la plus confortable drsquoun champ sonore veillera donc agrave maximiser

tout en essayant de garder le plus proche possible de 1 Lrsquooptimisation du deacutecodage consiste alors agrave multiplier chaque coefficient de la matrice de deacutecodage D (voir (111) par des gains calculeacutes drsquoapregraves des critegraveres drsquooptimisation

Er Vr

Ainsi le deacutecodage appeleacute max- maximise la norme du vecteur eacutenergie en

sacrifiant celle du vecteur veacutelociteacute puisqursquoon a dans ce deacutecodage (pour des configurations reacuteguliegraveres de haut-parleurs) Ce deacutecodage est donc avantageux par rapport au deacutecodage basique pour les hautes freacutequences ou dans le cas drsquoun auditoire eacutelargi Le deacutecodage in-phase va encore plus loin en cherchant agrave annuler complegravetement les contributions des haut-parleurs placeacutes agrave lrsquoopposeacute de la direction de provenance de lrsquoonde reproduite Ce critegravere est utile dans le cas drsquoune eacutecoute dans une position tregraves excentreacutee agrave laquelle on pourrait percevoir de faccedilon preacutedominante la contribution en opposition de phase drsquoun tel haut-parleur

Er

EV rr =

Ces diffeacuterents deacutecodages ont chacun des avantages et inconveacutenients Ainsi seul le

deacutecodage basique garantit = 1 le deacutecodage max- permet une preacutecision meilleure notamment en haute freacutequence et le deacutecodage in-phase est plus adapteacute agrave un auditoire plus large Jeacuterocircme Daniel [Daniel 2000] propose ainsi de changer le deacutecodage en fonction de la freacutequence et de lrsquoeacutetendue de la zone drsquoeacutecoute deacutesireacutee

Vr Er

Figure B1 - Deacutecodages les plus approprieacutes par sous-bande et en fonction de lrsquoeacutetendue de la

zone drsquoeacutecoute [Daniel 2000]

55

Annexe C

Analyse en composantes principales

C1 Espace des donneacutees Eacutegalement souvent appeleacutee transformeacutee de Karhunen-Loegraveve5 (TKL) lrsquoanalyse en

composantes principales (ACP) est une technique statistique de repreacutesentation drsquoinformation Introduite sur 2 variables par Pearson [Pearson 1900] elle a eacuteteacute eacutetendue par Hotelling [Hotelling 1933] Elle a pour but de caracteacuteriser des donneacutees drsquoun espace agrave N dimensions dans un sous-espace plus petit en minimisant les pertes drsquoinformation due agrave la projection crsquoest-agrave-dire en maximisant la variance projeteacutee Les donneacutees ainsi reacuteorganiseacutees deviennent indeacutependantes Les variables correacuteleacutees sont remplaceacutees par de nouvelles variables deacutecorreacuteleacutees et de variance maximale combinaisons lineacuteaires des variables initiales

Les donneacutees sont constitueacutees de n variables aleacuteatoires (dans notre cas des canaux)

et p reacutealisations ou individus (des eacutechantillons)

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

pn

p

ji

n

xx

x

xx

M

LLL

MOMNM

MLLM

MNMOM

LLL

1

111

(C1)

Ces donneacutees sont geacuteneacuteralement centreacutees et peuvent aussi ecirctre reacuteduites4 (on note

1x la moyenne de la variable et 1x )( 1xσ sa variance) Reacuteduire ou non le nuage de points (ie les p reacutealisations de la variable aleacuteatoire) est un choix de modegravele

5 Quelques rares sources mentionnent une diffeacuterence entre ACP et TKL en placcedilant celle-ci au

niveau du choix de la reacuteduction des donneacutees dans le cas dune ACP les donneacutees seraient centreacutees et reacuteduites alors qursquoelles seraient uniquement centreacutees pour une TKL

Annexe C Analyse en composantes principales 56

- si on ne reacuteduit pas le nuage une variable agrave forte variance pourrait tirer tout lrsquoeffet de lrsquoACP agrave elle

- si on reacuteduit le nuage une variable qui ne serait qursquoun bruit se retrouverait avec une variance apparente eacutegale agrave une variable informative

M est centreacutee

⎥⎥⎥

⎢⎢⎢

minusminusminus

minusminus=

npn

pi

ji

nn

xxxxxx

xxxxM

K

MM

K

11

11

11

ˆ (C2)

M~ est centreacutee et reacuteduite

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

minusminus

minus

minusminus

=

)()(

)(

)()(~

1

11

1

1

111

n

npn

pi

ij

i

n

nn

xxx

xxx

xxx

xxx

xxx

M

σσ

σ

σσ

K

MM

K

(C3)

On multiplie ensuite la matrice obtenue par sa transposeacutee pour obtenir - La matrice de covariance MMC t

vˆˆ sdot=

- La matrice de correacutelation MMC tr

~~ sdot= Ces matrices sont carreacutees (N x N) symeacutetriques et reacuteelles Elles sont donc

diagonalisables dans une base orthonormeacutee 6 Le principe de lrsquoACP est alors de trouver un axe u issu drsquoune combinaison lineacuteaire

des tel que le critegravere drsquoinertie du nuage autour de cet axe soit maximal Le critegravere drsquoinertie couramment utiliseacute est la variance Il faut donc trouver lrsquoaxe qui porte le maximum de variance crsquoest-agrave-dire lrsquoaxe u tel que la projection du nuage sur cet axe ait une variance maximale

nx

6 Nos donneacutees eacutetant ici des valeurs drsquoeacutechantillons elles sont par nature centreacutees et reacuteduites On

formera donc naturellement la matrice de correacutelation

C2 Diagonalisation 57

C2 Diagonalisation Pour alleacuteger lrsquoeacutecriture de la suite de cette partie nous consideacutererons que les

variables ont eacuteteacute centreacutees et si besoin reacuteduites et nous noterons ces variables

transformeacutees (ainsi

ix ix

iii xxx minuslarr ou bien )( i

iii x

xxxσ

minuslarr ) On fera de mecircme pour M

( ou bien MM ˆlarr MM ~larr ) et C ( vCC larr ou bien rCC larr ) La projection drsquoun eacutechantillon sur un axe u srsquoeacutecrit ix

uMxiu sdot=)(π (C4) La variance empirique de )( iu xπ vaut donc

uMMuxx ttiu

tiu sdotsdotsdot=sdot )()( ππ (C5)

Or on a vu que est diagonalisable dans une base orthonormeacutee donc

on peut noter P le changement de base associeacute et ∆ la matrice diagonale formeacutee de son spectre Ainsi

MMC t=

n

i 1)(λ PPMMC tt ∆==

)()()()( PuPuuPPuxx ttt

iut

iu sdot∆sdot=sdot∆sdot=sdotππ (C6) On pose v = Pu Chercher lrsquoaxe u qui maximise )( iu xπ revient donc agrave chercher le

vecteur v qui maximise ougravevvt ∆ )( 1 ndiag λλ K=∆ avec les iλ rangeacutes par ordre deacutecroissant Ce vecteur est trivialement le premier vecteur unitaire et on a alors

1λ=∆vvt

Ainsi le vecteur qui porte la plus grande part drsquoinertie du nuage est le premier

vecteur propre de C (premier par norme deacutecroissante) De mecircme le deuxiegraveme vecteur qui explique la plus grandelt part de lrsquoinertie restante est le deuxiegraveme vecteur propre de C Finalement la question de lrsquoACP se ramegravene agrave un problegraveme de diagonalisation de la matrice de correacutelation

C3 Code Matlab

function [vep vap] = pca(f N) f donneacutees N nombre de composantes agrave garder cor = f f formation de la matrice de correacutelation [vep vap] = eig(cor) calcul des vecteurs (vep) et valeurs (vap) propres [vap ind] = sort(diag(vap)) tri des valeurs propres par ordre croissant vap = flipud(vap) disposition inverse par ordre drsquoimportance vep = vep( flipud(ind)) classement en conseacutequence des vecteurs propres vep = vep( 1N) on ne garde que les N premiers vecteurs propres

Annexe C Analyse en composantes principales 58

59

Annexe D

Analyse en sous-bandes

D1 La transformeacutee de Fourier agrave court terme (TFCT) Pour affiner lrsquoanalyse les signaux sont donc deacutecoupeacutes en bandes de freacutequence par

TFCT La TFCT consiste agrave effectuer des transformeacutees de Fourier discregravetes sur des portions de signal fenecirctreacutees reacuteguliegraverement espaceacutees

On rappelle que la transformeacutee de Fourier drsquoun signal x(t) est deacutefinie (lorsque

lrsquointeacutegrale existe) par

int+infin

infinminus

minus= dtetxfX ftiπ2)()( (D1)

La transformeacutee de Fourier agrave temps discret (TFTD) drsquoun signal x(t) srsquoeacutecrit

sum+infin

minusinfin=

minus=n

fnienxfX π2)()( (D2)

La transformeacutee de Fourier discregravete (TFD) drsquoun signal discret x(k) est deacutefinie par

sum+infin

minusinfin=

minus=

n

Nkni

enxkXπ2

)()( (D3)

La TFCT discregravete est une TFD observeacutee sur une fenecirctre wa de taille N

summinus

=

minus+=

1

0

2)())(()(

N

n

Nnki

aaa enwtnxkXπ

ττ (D4)

ougrave )(taτ est lrsquoinstant drsquoanalyse

Annexe D Analyse en sous-bandes 60

Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT [Laroche 1995]

D2 Synthegravese par addition-recouvrement Lors de la synthegravese apregraves le deacutecoupage et lrsquoanalyse des fenecirctres on cherche agrave

reconstruire le signal temporel agrave partir de sa repreacutesentation freacutequentielle Pour cela on utilise la meacutethode OLA (overlap and add addition-recouvrement) qui consiste agrave prendre la TFCT inverse des spectres Xt puis agrave additionner les signaux obtenus apregraves les avoir multiplieacutes par une fenecirctre de pondeacuteration en les faisant se recouvrir partiellement

Le reacutesultat est donneacute par

sum=

minusminus=T

tsss tnxtnwnx

s1

))((~))(()(~ ττ τ (D5)

avec )()( tt as ττ = et summinus

=

=1

0

2))((~1)(~ N

k

Nkni

s ektXN

nxs

π

τ τ

Lors de la mise en œuvre de ce traitement il faut srsquoassurer drsquoecirctre en mesure de

reconstruire parfaitement un signal lorsqursquoaucune transformation ne lui est appliqueacutee Le critegravere de reconstruction parfaite condition suffisante est alors

sum=

=minusminusT

tasaa tnwtnw

11))(())(( ττ quelque soit n (D6)

D2 Synthegravese par addition-recouvrement 61

Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add [Laroche 1995]

Plusieurs paramegravetres sont agrave choisir avec soin Le premier drsquoentre eux est le type

de fenecirctre agrave utiliser Les diffeacuterentes options qui se preacutesentent agrave nous sont - la fenecirctre rectangulaire qui preacutesente dans son spectre le lobe principal le plus

eacutetroit mais des lobes secondaires non neacutegligeables - la fenecirctre de Hamming au lobe principal un peu plus large mais pour laquelle le

1er lobe secondaire se situe agrave -43 dB - la fenecirctre de Hann (ou cosinus sureacuteleveacute) qui ressemble agrave la preacuteceacutedente avec un

1er lobe secondaire plus fort mais une pente de 18 dB par octave pour les lobes suivants

- les fenecirctres de Blackman-Harris aux lobes secondaires tregraves bas mais au lobe principal plus large

Fenecirctre Lobe 2aire

(dB) Pente

(dBoct) Bande passante

agrave 6 dB (bins) Rectangulaire -13 -6 121 Triangulaire -27 -12 178

Hann -32 -18 200 Hamming -43 -6 181

Blackman-Harris 4 -92 -6 272

Tableau D1 - Caracteacuteristiques des principales fenecirctres drsquoanalyse [Harris 1978] Le meilleur compromis est donc dans notre contexte la fenecirctre de Hann ou celle

de Hamming

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 57: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

53

Annexe B

Compleacutements theacuteoriques sur le deacutecodage HOA

B1 Vecteur veacutelociteacute et vecteur eacutenergie Le vecteur veacutelociteacute est un indice de la direction apparente drsquoune source introduit

par Gerzon [Gerzon 1992] Il se calcule comme le rapport de la vitesse particulaire sur la pression acoustique

)()(

)()(1

δθδθ

δθδθ

ρ rprp

ki

rprv

cV nabla

minus=minus=rrr

(B1)

Dans le cas drsquoune onde plane le vecteur veacutelociteacute V

rest ainsi directement un

vecteur unitaire orienteacute vers la direction de provenance de lrsquoonde En geacuteneacuteralisant agrave une superposition drsquoondes planes en phase ou opposition de phase eacutemises par L haut-parleurs agrave eacutequidistance du point drsquoobservation on obtient la formule suivante

VVL

ll

L

lll

urg

ugV r

rr

==

sum

sum

=

=

1

1 (B2)

ougrave deacutesigne la direction du llur egraveme haut-parleur auquel est associeacute le gain gl et Vr Vur correspondent respectivement agrave la norme et agrave la direction du vecteur veacutelociteacute

Le vecteur eacutenergie est un autre indice de direction Il est deacutefinit par

EEL

ll

L

lll

urg

ugE r

rr

==

sum

sum

=

=

1

2

1

2

(B3)

Annexe B Compleacutements theacuteoriques sur le deacutecodage HOA 54

Il peut srsquointerpreacuteter comme une indication de la concentration de lrsquoeacutenergie ( ) et de sa direction moyenne de provenance (

Er

Eur ) On a toujours 1ltEr sauf dans le cas ougrave un seul haut-parleur contribue agrave la reconstruction (dans ce cas ) peut ecirctre consideacutereacute comme un indicateur de preacutecision de la localisation

1=Er Er

B2 Deacutecodages optimiseacutes La restitution la plus confortable drsquoun champ sonore veillera donc agrave maximiser

tout en essayant de garder le plus proche possible de 1 Lrsquooptimisation du deacutecodage consiste alors agrave multiplier chaque coefficient de la matrice de deacutecodage D (voir (111) par des gains calculeacutes drsquoapregraves des critegraveres drsquooptimisation

Er Vr

Ainsi le deacutecodage appeleacute max- maximise la norme du vecteur eacutenergie en

sacrifiant celle du vecteur veacutelociteacute puisqursquoon a dans ce deacutecodage (pour des configurations reacuteguliegraveres de haut-parleurs) Ce deacutecodage est donc avantageux par rapport au deacutecodage basique pour les hautes freacutequences ou dans le cas drsquoun auditoire eacutelargi Le deacutecodage in-phase va encore plus loin en cherchant agrave annuler complegravetement les contributions des haut-parleurs placeacutes agrave lrsquoopposeacute de la direction de provenance de lrsquoonde reproduite Ce critegravere est utile dans le cas drsquoune eacutecoute dans une position tregraves excentreacutee agrave laquelle on pourrait percevoir de faccedilon preacutedominante la contribution en opposition de phase drsquoun tel haut-parleur

Er

EV rr =

Ces diffeacuterents deacutecodages ont chacun des avantages et inconveacutenients Ainsi seul le

deacutecodage basique garantit = 1 le deacutecodage max- permet une preacutecision meilleure notamment en haute freacutequence et le deacutecodage in-phase est plus adapteacute agrave un auditoire plus large Jeacuterocircme Daniel [Daniel 2000] propose ainsi de changer le deacutecodage en fonction de la freacutequence et de lrsquoeacutetendue de la zone drsquoeacutecoute deacutesireacutee

Vr Er

Figure B1 - Deacutecodages les plus approprieacutes par sous-bande et en fonction de lrsquoeacutetendue de la

zone drsquoeacutecoute [Daniel 2000]

55

Annexe C

Analyse en composantes principales

C1 Espace des donneacutees Eacutegalement souvent appeleacutee transformeacutee de Karhunen-Loegraveve5 (TKL) lrsquoanalyse en

composantes principales (ACP) est une technique statistique de repreacutesentation drsquoinformation Introduite sur 2 variables par Pearson [Pearson 1900] elle a eacuteteacute eacutetendue par Hotelling [Hotelling 1933] Elle a pour but de caracteacuteriser des donneacutees drsquoun espace agrave N dimensions dans un sous-espace plus petit en minimisant les pertes drsquoinformation due agrave la projection crsquoest-agrave-dire en maximisant la variance projeteacutee Les donneacutees ainsi reacuteorganiseacutees deviennent indeacutependantes Les variables correacuteleacutees sont remplaceacutees par de nouvelles variables deacutecorreacuteleacutees et de variance maximale combinaisons lineacuteaires des variables initiales

Les donneacutees sont constitueacutees de n variables aleacuteatoires (dans notre cas des canaux)

et p reacutealisations ou individus (des eacutechantillons)

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

pn

p

ji

n

xx

x

xx

M

LLL

MOMNM

MLLM

MNMOM

LLL

1

111

(C1)

Ces donneacutees sont geacuteneacuteralement centreacutees et peuvent aussi ecirctre reacuteduites4 (on note

1x la moyenne de la variable et 1x )( 1xσ sa variance) Reacuteduire ou non le nuage de points (ie les p reacutealisations de la variable aleacuteatoire) est un choix de modegravele

5 Quelques rares sources mentionnent une diffeacuterence entre ACP et TKL en placcedilant celle-ci au

niveau du choix de la reacuteduction des donneacutees dans le cas dune ACP les donneacutees seraient centreacutees et reacuteduites alors qursquoelles seraient uniquement centreacutees pour une TKL

Annexe C Analyse en composantes principales 56

- si on ne reacuteduit pas le nuage une variable agrave forte variance pourrait tirer tout lrsquoeffet de lrsquoACP agrave elle

- si on reacuteduit le nuage une variable qui ne serait qursquoun bruit se retrouverait avec une variance apparente eacutegale agrave une variable informative

M est centreacutee

⎥⎥⎥

⎢⎢⎢

minusminusminus

minusminus=

npn

pi

ji

nn

xxxxxx

xxxxM

K

MM

K

11

11

11

ˆ (C2)

M~ est centreacutee et reacuteduite

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

minusminus

minus

minusminus

=

)()(

)(

)()(~

1

11

1

1

111

n

npn

pi

ij

i

n

nn

xxx

xxx

xxx

xxx

xxx

M

σσ

σ

σσ

K

MM

K

(C3)

On multiplie ensuite la matrice obtenue par sa transposeacutee pour obtenir - La matrice de covariance MMC t

vˆˆ sdot=

- La matrice de correacutelation MMC tr

~~ sdot= Ces matrices sont carreacutees (N x N) symeacutetriques et reacuteelles Elles sont donc

diagonalisables dans une base orthonormeacutee 6 Le principe de lrsquoACP est alors de trouver un axe u issu drsquoune combinaison lineacuteaire

des tel que le critegravere drsquoinertie du nuage autour de cet axe soit maximal Le critegravere drsquoinertie couramment utiliseacute est la variance Il faut donc trouver lrsquoaxe qui porte le maximum de variance crsquoest-agrave-dire lrsquoaxe u tel que la projection du nuage sur cet axe ait une variance maximale

nx

6 Nos donneacutees eacutetant ici des valeurs drsquoeacutechantillons elles sont par nature centreacutees et reacuteduites On

formera donc naturellement la matrice de correacutelation

C2 Diagonalisation 57

C2 Diagonalisation Pour alleacuteger lrsquoeacutecriture de la suite de cette partie nous consideacutererons que les

variables ont eacuteteacute centreacutees et si besoin reacuteduites et nous noterons ces variables

transformeacutees (ainsi

ix ix

iii xxx minuslarr ou bien )( i

iii x

xxxσ

minuslarr ) On fera de mecircme pour M

( ou bien MM ˆlarr MM ~larr ) et C ( vCC larr ou bien rCC larr ) La projection drsquoun eacutechantillon sur un axe u srsquoeacutecrit ix

uMxiu sdot=)(π (C4) La variance empirique de )( iu xπ vaut donc

uMMuxx ttiu

tiu sdotsdotsdot=sdot )()( ππ (C5)

Or on a vu que est diagonalisable dans une base orthonormeacutee donc

on peut noter P le changement de base associeacute et ∆ la matrice diagonale formeacutee de son spectre Ainsi

MMC t=

n

i 1)(λ PPMMC tt ∆==

)()()()( PuPuuPPuxx ttt

iut

iu sdot∆sdot=sdot∆sdot=sdotππ (C6) On pose v = Pu Chercher lrsquoaxe u qui maximise )( iu xπ revient donc agrave chercher le

vecteur v qui maximise ougravevvt ∆ )( 1 ndiag λλ K=∆ avec les iλ rangeacutes par ordre deacutecroissant Ce vecteur est trivialement le premier vecteur unitaire et on a alors

1λ=∆vvt

Ainsi le vecteur qui porte la plus grande part drsquoinertie du nuage est le premier

vecteur propre de C (premier par norme deacutecroissante) De mecircme le deuxiegraveme vecteur qui explique la plus grandelt part de lrsquoinertie restante est le deuxiegraveme vecteur propre de C Finalement la question de lrsquoACP se ramegravene agrave un problegraveme de diagonalisation de la matrice de correacutelation

C3 Code Matlab

function [vep vap] = pca(f N) f donneacutees N nombre de composantes agrave garder cor = f f formation de la matrice de correacutelation [vep vap] = eig(cor) calcul des vecteurs (vep) et valeurs (vap) propres [vap ind] = sort(diag(vap)) tri des valeurs propres par ordre croissant vap = flipud(vap) disposition inverse par ordre drsquoimportance vep = vep( flipud(ind)) classement en conseacutequence des vecteurs propres vep = vep( 1N) on ne garde que les N premiers vecteurs propres

Annexe C Analyse en composantes principales 58

59

Annexe D

Analyse en sous-bandes

D1 La transformeacutee de Fourier agrave court terme (TFCT) Pour affiner lrsquoanalyse les signaux sont donc deacutecoupeacutes en bandes de freacutequence par

TFCT La TFCT consiste agrave effectuer des transformeacutees de Fourier discregravetes sur des portions de signal fenecirctreacutees reacuteguliegraverement espaceacutees

On rappelle que la transformeacutee de Fourier drsquoun signal x(t) est deacutefinie (lorsque

lrsquointeacutegrale existe) par

int+infin

infinminus

minus= dtetxfX ftiπ2)()( (D1)

La transformeacutee de Fourier agrave temps discret (TFTD) drsquoun signal x(t) srsquoeacutecrit

sum+infin

minusinfin=

minus=n

fnienxfX π2)()( (D2)

La transformeacutee de Fourier discregravete (TFD) drsquoun signal discret x(k) est deacutefinie par

sum+infin

minusinfin=

minus=

n

Nkni

enxkXπ2

)()( (D3)

La TFCT discregravete est une TFD observeacutee sur une fenecirctre wa de taille N

summinus

=

minus+=

1

0

2)())(()(

N

n

Nnki

aaa enwtnxkXπ

ττ (D4)

ougrave )(taτ est lrsquoinstant drsquoanalyse

Annexe D Analyse en sous-bandes 60

Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT [Laroche 1995]

D2 Synthegravese par addition-recouvrement Lors de la synthegravese apregraves le deacutecoupage et lrsquoanalyse des fenecirctres on cherche agrave

reconstruire le signal temporel agrave partir de sa repreacutesentation freacutequentielle Pour cela on utilise la meacutethode OLA (overlap and add addition-recouvrement) qui consiste agrave prendre la TFCT inverse des spectres Xt puis agrave additionner les signaux obtenus apregraves les avoir multiplieacutes par une fenecirctre de pondeacuteration en les faisant se recouvrir partiellement

Le reacutesultat est donneacute par

sum=

minusminus=T

tsss tnxtnwnx

s1

))((~))(()(~ ττ τ (D5)

avec )()( tt as ττ = et summinus

=

=1

0

2))((~1)(~ N

k

Nkni

s ektXN

nxs

π

τ τ

Lors de la mise en œuvre de ce traitement il faut srsquoassurer drsquoecirctre en mesure de

reconstruire parfaitement un signal lorsqursquoaucune transformation ne lui est appliqueacutee Le critegravere de reconstruction parfaite condition suffisante est alors

sum=

=minusminusT

tasaa tnwtnw

11))(())(( ττ quelque soit n (D6)

D2 Synthegravese par addition-recouvrement 61

Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add [Laroche 1995]

Plusieurs paramegravetres sont agrave choisir avec soin Le premier drsquoentre eux est le type

de fenecirctre agrave utiliser Les diffeacuterentes options qui se preacutesentent agrave nous sont - la fenecirctre rectangulaire qui preacutesente dans son spectre le lobe principal le plus

eacutetroit mais des lobes secondaires non neacutegligeables - la fenecirctre de Hamming au lobe principal un peu plus large mais pour laquelle le

1er lobe secondaire se situe agrave -43 dB - la fenecirctre de Hann (ou cosinus sureacuteleveacute) qui ressemble agrave la preacuteceacutedente avec un

1er lobe secondaire plus fort mais une pente de 18 dB par octave pour les lobes suivants

- les fenecirctres de Blackman-Harris aux lobes secondaires tregraves bas mais au lobe principal plus large

Fenecirctre Lobe 2aire

(dB) Pente

(dBoct) Bande passante

agrave 6 dB (bins) Rectangulaire -13 -6 121 Triangulaire -27 -12 178

Hann -32 -18 200 Hamming -43 -6 181

Blackman-Harris 4 -92 -6 272

Tableau D1 - Caracteacuteristiques des principales fenecirctres drsquoanalyse [Harris 1978] Le meilleur compromis est donc dans notre contexte la fenecirctre de Hann ou celle

de Hamming

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 58: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

Annexe B Compleacutements theacuteoriques sur le deacutecodage HOA 54

Il peut srsquointerpreacuteter comme une indication de la concentration de lrsquoeacutenergie ( ) et de sa direction moyenne de provenance (

Er

Eur ) On a toujours 1ltEr sauf dans le cas ougrave un seul haut-parleur contribue agrave la reconstruction (dans ce cas ) peut ecirctre consideacutereacute comme un indicateur de preacutecision de la localisation

1=Er Er

B2 Deacutecodages optimiseacutes La restitution la plus confortable drsquoun champ sonore veillera donc agrave maximiser

tout en essayant de garder le plus proche possible de 1 Lrsquooptimisation du deacutecodage consiste alors agrave multiplier chaque coefficient de la matrice de deacutecodage D (voir (111) par des gains calculeacutes drsquoapregraves des critegraveres drsquooptimisation

Er Vr

Ainsi le deacutecodage appeleacute max- maximise la norme du vecteur eacutenergie en

sacrifiant celle du vecteur veacutelociteacute puisqursquoon a dans ce deacutecodage (pour des configurations reacuteguliegraveres de haut-parleurs) Ce deacutecodage est donc avantageux par rapport au deacutecodage basique pour les hautes freacutequences ou dans le cas drsquoun auditoire eacutelargi Le deacutecodage in-phase va encore plus loin en cherchant agrave annuler complegravetement les contributions des haut-parleurs placeacutes agrave lrsquoopposeacute de la direction de provenance de lrsquoonde reproduite Ce critegravere est utile dans le cas drsquoune eacutecoute dans une position tregraves excentreacutee agrave laquelle on pourrait percevoir de faccedilon preacutedominante la contribution en opposition de phase drsquoun tel haut-parleur

Er

EV rr =

Ces diffeacuterents deacutecodages ont chacun des avantages et inconveacutenients Ainsi seul le

deacutecodage basique garantit = 1 le deacutecodage max- permet une preacutecision meilleure notamment en haute freacutequence et le deacutecodage in-phase est plus adapteacute agrave un auditoire plus large Jeacuterocircme Daniel [Daniel 2000] propose ainsi de changer le deacutecodage en fonction de la freacutequence et de lrsquoeacutetendue de la zone drsquoeacutecoute deacutesireacutee

Vr Er

Figure B1 - Deacutecodages les plus approprieacutes par sous-bande et en fonction de lrsquoeacutetendue de la

zone drsquoeacutecoute [Daniel 2000]

55

Annexe C

Analyse en composantes principales

C1 Espace des donneacutees Eacutegalement souvent appeleacutee transformeacutee de Karhunen-Loegraveve5 (TKL) lrsquoanalyse en

composantes principales (ACP) est une technique statistique de repreacutesentation drsquoinformation Introduite sur 2 variables par Pearson [Pearson 1900] elle a eacuteteacute eacutetendue par Hotelling [Hotelling 1933] Elle a pour but de caracteacuteriser des donneacutees drsquoun espace agrave N dimensions dans un sous-espace plus petit en minimisant les pertes drsquoinformation due agrave la projection crsquoest-agrave-dire en maximisant la variance projeteacutee Les donneacutees ainsi reacuteorganiseacutees deviennent indeacutependantes Les variables correacuteleacutees sont remplaceacutees par de nouvelles variables deacutecorreacuteleacutees et de variance maximale combinaisons lineacuteaires des variables initiales

Les donneacutees sont constitueacutees de n variables aleacuteatoires (dans notre cas des canaux)

et p reacutealisations ou individus (des eacutechantillons)

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

pn

p

ji

n

xx

x

xx

M

LLL

MOMNM

MLLM

MNMOM

LLL

1

111

(C1)

Ces donneacutees sont geacuteneacuteralement centreacutees et peuvent aussi ecirctre reacuteduites4 (on note

1x la moyenne de la variable et 1x )( 1xσ sa variance) Reacuteduire ou non le nuage de points (ie les p reacutealisations de la variable aleacuteatoire) est un choix de modegravele

5 Quelques rares sources mentionnent une diffeacuterence entre ACP et TKL en placcedilant celle-ci au

niveau du choix de la reacuteduction des donneacutees dans le cas dune ACP les donneacutees seraient centreacutees et reacuteduites alors qursquoelles seraient uniquement centreacutees pour une TKL

Annexe C Analyse en composantes principales 56

- si on ne reacuteduit pas le nuage une variable agrave forte variance pourrait tirer tout lrsquoeffet de lrsquoACP agrave elle

- si on reacuteduit le nuage une variable qui ne serait qursquoun bruit se retrouverait avec une variance apparente eacutegale agrave une variable informative

M est centreacutee

⎥⎥⎥

⎢⎢⎢

minusminusminus

minusminus=

npn

pi

ji

nn

xxxxxx

xxxxM

K

MM

K

11

11

11

ˆ (C2)

M~ est centreacutee et reacuteduite

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

minusminus

minus

minusminus

=

)()(

)(

)()(~

1

11

1

1

111

n

npn

pi

ij

i

n

nn

xxx

xxx

xxx

xxx

xxx

M

σσ

σ

σσ

K

MM

K

(C3)

On multiplie ensuite la matrice obtenue par sa transposeacutee pour obtenir - La matrice de covariance MMC t

vˆˆ sdot=

- La matrice de correacutelation MMC tr

~~ sdot= Ces matrices sont carreacutees (N x N) symeacutetriques et reacuteelles Elles sont donc

diagonalisables dans une base orthonormeacutee 6 Le principe de lrsquoACP est alors de trouver un axe u issu drsquoune combinaison lineacuteaire

des tel que le critegravere drsquoinertie du nuage autour de cet axe soit maximal Le critegravere drsquoinertie couramment utiliseacute est la variance Il faut donc trouver lrsquoaxe qui porte le maximum de variance crsquoest-agrave-dire lrsquoaxe u tel que la projection du nuage sur cet axe ait une variance maximale

nx

6 Nos donneacutees eacutetant ici des valeurs drsquoeacutechantillons elles sont par nature centreacutees et reacuteduites On

formera donc naturellement la matrice de correacutelation

C2 Diagonalisation 57

C2 Diagonalisation Pour alleacuteger lrsquoeacutecriture de la suite de cette partie nous consideacutererons que les

variables ont eacuteteacute centreacutees et si besoin reacuteduites et nous noterons ces variables

transformeacutees (ainsi

ix ix

iii xxx minuslarr ou bien )( i

iii x

xxxσ

minuslarr ) On fera de mecircme pour M

( ou bien MM ˆlarr MM ~larr ) et C ( vCC larr ou bien rCC larr ) La projection drsquoun eacutechantillon sur un axe u srsquoeacutecrit ix

uMxiu sdot=)(π (C4) La variance empirique de )( iu xπ vaut donc

uMMuxx ttiu

tiu sdotsdotsdot=sdot )()( ππ (C5)

Or on a vu que est diagonalisable dans une base orthonormeacutee donc

on peut noter P le changement de base associeacute et ∆ la matrice diagonale formeacutee de son spectre Ainsi

MMC t=

n

i 1)(λ PPMMC tt ∆==

)()()()( PuPuuPPuxx ttt

iut

iu sdot∆sdot=sdot∆sdot=sdotππ (C6) On pose v = Pu Chercher lrsquoaxe u qui maximise )( iu xπ revient donc agrave chercher le

vecteur v qui maximise ougravevvt ∆ )( 1 ndiag λλ K=∆ avec les iλ rangeacutes par ordre deacutecroissant Ce vecteur est trivialement le premier vecteur unitaire et on a alors

1λ=∆vvt

Ainsi le vecteur qui porte la plus grande part drsquoinertie du nuage est le premier

vecteur propre de C (premier par norme deacutecroissante) De mecircme le deuxiegraveme vecteur qui explique la plus grandelt part de lrsquoinertie restante est le deuxiegraveme vecteur propre de C Finalement la question de lrsquoACP se ramegravene agrave un problegraveme de diagonalisation de la matrice de correacutelation

C3 Code Matlab

function [vep vap] = pca(f N) f donneacutees N nombre de composantes agrave garder cor = f f formation de la matrice de correacutelation [vep vap] = eig(cor) calcul des vecteurs (vep) et valeurs (vap) propres [vap ind] = sort(diag(vap)) tri des valeurs propres par ordre croissant vap = flipud(vap) disposition inverse par ordre drsquoimportance vep = vep( flipud(ind)) classement en conseacutequence des vecteurs propres vep = vep( 1N) on ne garde que les N premiers vecteurs propres

Annexe C Analyse en composantes principales 58

59

Annexe D

Analyse en sous-bandes

D1 La transformeacutee de Fourier agrave court terme (TFCT) Pour affiner lrsquoanalyse les signaux sont donc deacutecoupeacutes en bandes de freacutequence par

TFCT La TFCT consiste agrave effectuer des transformeacutees de Fourier discregravetes sur des portions de signal fenecirctreacutees reacuteguliegraverement espaceacutees

On rappelle que la transformeacutee de Fourier drsquoun signal x(t) est deacutefinie (lorsque

lrsquointeacutegrale existe) par

int+infin

infinminus

minus= dtetxfX ftiπ2)()( (D1)

La transformeacutee de Fourier agrave temps discret (TFTD) drsquoun signal x(t) srsquoeacutecrit

sum+infin

minusinfin=

minus=n

fnienxfX π2)()( (D2)

La transformeacutee de Fourier discregravete (TFD) drsquoun signal discret x(k) est deacutefinie par

sum+infin

minusinfin=

minus=

n

Nkni

enxkXπ2

)()( (D3)

La TFCT discregravete est une TFD observeacutee sur une fenecirctre wa de taille N

summinus

=

minus+=

1

0

2)())(()(

N

n

Nnki

aaa enwtnxkXπ

ττ (D4)

ougrave )(taτ est lrsquoinstant drsquoanalyse

Annexe D Analyse en sous-bandes 60

Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT [Laroche 1995]

D2 Synthegravese par addition-recouvrement Lors de la synthegravese apregraves le deacutecoupage et lrsquoanalyse des fenecirctres on cherche agrave

reconstruire le signal temporel agrave partir de sa repreacutesentation freacutequentielle Pour cela on utilise la meacutethode OLA (overlap and add addition-recouvrement) qui consiste agrave prendre la TFCT inverse des spectres Xt puis agrave additionner les signaux obtenus apregraves les avoir multiplieacutes par une fenecirctre de pondeacuteration en les faisant se recouvrir partiellement

Le reacutesultat est donneacute par

sum=

minusminus=T

tsss tnxtnwnx

s1

))((~))(()(~ ττ τ (D5)

avec )()( tt as ττ = et summinus

=

=1

0

2))((~1)(~ N

k

Nkni

s ektXN

nxs

π

τ τ

Lors de la mise en œuvre de ce traitement il faut srsquoassurer drsquoecirctre en mesure de

reconstruire parfaitement un signal lorsqursquoaucune transformation ne lui est appliqueacutee Le critegravere de reconstruction parfaite condition suffisante est alors

sum=

=minusminusT

tasaa tnwtnw

11))(())(( ττ quelque soit n (D6)

D2 Synthegravese par addition-recouvrement 61

Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add [Laroche 1995]

Plusieurs paramegravetres sont agrave choisir avec soin Le premier drsquoentre eux est le type

de fenecirctre agrave utiliser Les diffeacuterentes options qui se preacutesentent agrave nous sont - la fenecirctre rectangulaire qui preacutesente dans son spectre le lobe principal le plus

eacutetroit mais des lobes secondaires non neacutegligeables - la fenecirctre de Hamming au lobe principal un peu plus large mais pour laquelle le

1er lobe secondaire se situe agrave -43 dB - la fenecirctre de Hann (ou cosinus sureacuteleveacute) qui ressemble agrave la preacuteceacutedente avec un

1er lobe secondaire plus fort mais une pente de 18 dB par octave pour les lobes suivants

- les fenecirctres de Blackman-Harris aux lobes secondaires tregraves bas mais au lobe principal plus large

Fenecirctre Lobe 2aire

(dB) Pente

(dBoct) Bande passante

agrave 6 dB (bins) Rectangulaire -13 -6 121 Triangulaire -27 -12 178

Hann -32 -18 200 Hamming -43 -6 181

Blackman-Harris 4 -92 -6 272

Tableau D1 - Caracteacuteristiques des principales fenecirctres drsquoanalyse [Harris 1978] Le meilleur compromis est donc dans notre contexte la fenecirctre de Hann ou celle

de Hamming

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 59: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

55

Annexe C

Analyse en composantes principales

C1 Espace des donneacutees Eacutegalement souvent appeleacutee transformeacutee de Karhunen-Loegraveve5 (TKL) lrsquoanalyse en

composantes principales (ACP) est une technique statistique de repreacutesentation drsquoinformation Introduite sur 2 variables par Pearson [Pearson 1900] elle a eacuteteacute eacutetendue par Hotelling [Hotelling 1933] Elle a pour but de caracteacuteriser des donneacutees drsquoun espace agrave N dimensions dans un sous-espace plus petit en minimisant les pertes drsquoinformation due agrave la projection crsquoest-agrave-dire en maximisant la variance projeteacutee Les donneacutees ainsi reacuteorganiseacutees deviennent indeacutependantes Les variables correacuteleacutees sont remplaceacutees par de nouvelles variables deacutecorreacuteleacutees et de variance maximale combinaisons lineacuteaires des variables initiales

Les donneacutees sont constitueacutees de n variables aleacuteatoires (dans notre cas des canaux)

et p reacutealisations ou individus (des eacutechantillons)

⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢

=

pn

p

ji

n

xx

x

xx

M

LLL

MOMNM

MLLM

MNMOM

LLL

1

111

(C1)

Ces donneacutees sont geacuteneacuteralement centreacutees et peuvent aussi ecirctre reacuteduites4 (on note

1x la moyenne de la variable et 1x )( 1xσ sa variance) Reacuteduire ou non le nuage de points (ie les p reacutealisations de la variable aleacuteatoire) est un choix de modegravele

5 Quelques rares sources mentionnent une diffeacuterence entre ACP et TKL en placcedilant celle-ci au

niveau du choix de la reacuteduction des donneacutees dans le cas dune ACP les donneacutees seraient centreacutees et reacuteduites alors qursquoelles seraient uniquement centreacutees pour une TKL

Annexe C Analyse en composantes principales 56

- si on ne reacuteduit pas le nuage une variable agrave forte variance pourrait tirer tout lrsquoeffet de lrsquoACP agrave elle

- si on reacuteduit le nuage une variable qui ne serait qursquoun bruit se retrouverait avec une variance apparente eacutegale agrave une variable informative

M est centreacutee

⎥⎥⎥

⎢⎢⎢

minusminusminus

minusminus=

npn

pi

ji

nn

xxxxxx

xxxxM

K

MM

K

11

11

11

ˆ (C2)

M~ est centreacutee et reacuteduite

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

minusminus

minus

minusminus

=

)()(

)(

)()(~

1

11

1

1

111

n

npn

pi

ij

i

n

nn

xxx

xxx

xxx

xxx

xxx

M

σσ

σ

σσ

K

MM

K

(C3)

On multiplie ensuite la matrice obtenue par sa transposeacutee pour obtenir - La matrice de covariance MMC t

vˆˆ sdot=

- La matrice de correacutelation MMC tr

~~ sdot= Ces matrices sont carreacutees (N x N) symeacutetriques et reacuteelles Elles sont donc

diagonalisables dans une base orthonormeacutee 6 Le principe de lrsquoACP est alors de trouver un axe u issu drsquoune combinaison lineacuteaire

des tel que le critegravere drsquoinertie du nuage autour de cet axe soit maximal Le critegravere drsquoinertie couramment utiliseacute est la variance Il faut donc trouver lrsquoaxe qui porte le maximum de variance crsquoest-agrave-dire lrsquoaxe u tel que la projection du nuage sur cet axe ait une variance maximale

nx

6 Nos donneacutees eacutetant ici des valeurs drsquoeacutechantillons elles sont par nature centreacutees et reacuteduites On

formera donc naturellement la matrice de correacutelation

C2 Diagonalisation 57

C2 Diagonalisation Pour alleacuteger lrsquoeacutecriture de la suite de cette partie nous consideacutererons que les

variables ont eacuteteacute centreacutees et si besoin reacuteduites et nous noterons ces variables

transformeacutees (ainsi

ix ix

iii xxx minuslarr ou bien )( i

iii x

xxxσ

minuslarr ) On fera de mecircme pour M

( ou bien MM ˆlarr MM ~larr ) et C ( vCC larr ou bien rCC larr ) La projection drsquoun eacutechantillon sur un axe u srsquoeacutecrit ix

uMxiu sdot=)(π (C4) La variance empirique de )( iu xπ vaut donc

uMMuxx ttiu

tiu sdotsdotsdot=sdot )()( ππ (C5)

Or on a vu que est diagonalisable dans une base orthonormeacutee donc

on peut noter P le changement de base associeacute et ∆ la matrice diagonale formeacutee de son spectre Ainsi

MMC t=

n

i 1)(λ PPMMC tt ∆==

)()()()( PuPuuPPuxx ttt

iut

iu sdot∆sdot=sdot∆sdot=sdotππ (C6) On pose v = Pu Chercher lrsquoaxe u qui maximise )( iu xπ revient donc agrave chercher le

vecteur v qui maximise ougravevvt ∆ )( 1 ndiag λλ K=∆ avec les iλ rangeacutes par ordre deacutecroissant Ce vecteur est trivialement le premier vecteur unitaire et on a alors

1λ=∆vvt

Ainsi le vecteur qui porte la plus grande part drsquoinertie du nuage est le premier

vecteur propre de C (premier par norme deacutecroissante) De mecircme le deuxiegraveme vecteur qui explique la plus grandelt part de lrsquoinertie restante est le deuxiegraveme vecteur propre de C Finalement la question de lrsquoACP se ramegravene agrave un problegraveme de diagonalisation de la matrice de correacutelation

C3 Code Matlab

function [vep vap] = pca(f N) f donneacutees N nombre de composantes agrave garder cor = f f formation de la matrice de correacutelation [vep vap] = eig(cor) calcul des vecteurs (vep) et valeurs (vap) propres [vap ind] = sort(diag(vap)) tri des valeurs propres par ordre croissant vap = flipud(vap) disposition inverse par ordre drsquoimportance vep = vep( flipud(ind)) classement en conseacutequence des vecteurs propres vep = vep( 1N) on ne garde que les N premiers vecteurs propres

Annexe C Analyse en composantes principales 58

59

Annexe D

Analyse en sous-bandes

D1 La transformeacutee de Fourier agrave court terme (TFCT) Pour affiner lrsquoanalyse les signaux sont donc deacutecoupeacutes en bandes de freacutequence par

TFCT La TFCT consiste agrave effectuer des transformeacutees de Fourier discregravetes sur des portions de signal fenecirctreacutees reacuteguliegraverement espaceacutees

On rappelle que la transformeacutee de Fourier drsquoun signal x(t) est deacutefinie (lorsque

lrsquointeacutegrale existe) par

int+infin

infinminus

minus= dtetxfX ftiπ2)()( (D1)

La transformeacutee de Fourier agrave temps discret (TFTD) drsquoun signal x(t) srsquoeacutecrit

sum+infin

minusinfin=

minus=n

fnienxfX π2)()( (D2)

La transformeacutee de Fourier discregravete (TFD) drsquoun signal discret x(k) est deacutefinie par

sum+infin

minusinfin=

minus=

n

Nkni

enxkXπ2

)()( (D3)

La TFCT discregravete est une TFD observeacutee sur une fenecirctre wa de taille N

summinus

=

minus+=

1

0

2)())(()(

N

n

Nnki

aaa enwtnxkXπ

ττ (D4)

ougrave )(taτ est lrsquoinstant drsquoanalyse

Annexe D Analyse en sous-bandes 60

Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT [Laroche 1995]

D2 Synthegravese par addition-recouvrement Lors de la synthegravese apregraves le deacutecoupage et lrsquoanalyse des fenecirctres on cherche agrave

reconstruire le signal temporel agrave partir de sa repreacutesentation freacutequentielle Pour cela on utilise la meacutethode OLA (overlap and add addition-recouvrement) qui consiste agrave prendre la TFCT inverse des spectres Xt puis agrave additionner les signaux obtenus apregraves les avoir multiplieacutes par une fenecirctre de pondeacuteration en les faisant se recouvrir partiellement

Le reacutesultat est donneacute par

sum=

minusminus=T

tsss tnxtnwnx

s1

))((~))(()(~ ττ τ (D5)

avec )()( tt as ττ = et summinus

=

=1

0

2))((~1)(~ N

k

Nkni

s ektXN

nxs

π

τ τ

Lors de la mise en œuvre de ce traitement il faut srsquoassurer drsquoecirctre en mesure de

reconstruire parfaitement un signal lorsqursquoaucune transformation ne lui est appliqueacutee Le critegravere de reconstruction parfaite condition suffisante est alors

sum=

=minusminusT

tasaa tnwtnw

11))(())(( ττ quelque soit n (D6)

D2 Synthegravese par addition-recouvrement 61

Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add [Laroche 1995]

Plusieurs paramegravetres sont agrave choisir avec soin Le premier drsquoentre eux est le type

de fenecirctre agrave utiliser Les diffeacuterentes options qui se preacutesentent agrave nous sont - la fenecirctre rectangulaire qui preacutesente dans son spectre le lobe principal le plus

eacutetroit mais des lobes secondaires non neacutegligeables - la fenecirctre de Hamming au lobe principal un peu plus large mais pour laquelle le

1er lobe secondaire se situe agrave -43 dB - la fenecirctre de Hann (ou cosinus sureacuteleveacute) qui ressemble agrave la preacuteceacutedente avec un

1er lobe secondaire plus fort mais une pente de 18 dB par octave pour les lobes suivants

- les fenecirctres de Blackman-Harris aux lobes secondaires tregraves bas mais au lobe principal plus large

Fenecirctre Lobe 2aire

(dB) Pente

(dBoct) Bande passante

agrave 6 dB (bins) Rectangulaire -13 -6 121 Triangulaire -27 -12 178

Hann -32 -18 200 Hamming -43 -6 181

Blackman-Harris 4 -92 -6 272

Tableau D1 - Caracteacuteristiques des principales fenecirctres drsquoanalyse [Harris 1978] Le meilleur compromis est donc dans notre contexte la fenecirctre de Hann ou celle

de Hamming

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 60: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

Annexe C Analyse en composantes principales 56

- si on ne reacuteduit pas le nuage une variable agrave forte variance pourrait tirer tout lrsquoeffet de lrsquoACP agrave elle

- si on reacuteduit le nuage une variable qui ne serait qursquoun bruit se retrouverait avec une variance apparente eacutegale agrave une variable informative

M est centreacutee

⎥⎥⎥

⎢⎢⎢

minusminusminus

minusminus=

npn

pi

ji

nn

xxxxxx

xxxxM

K

MM

K

11

11

11

ˆ (C2)

M~ est centreacutee et reacuteduite

⎥⎥⎥⎥⎥⎥⎥

⎢⎢⎢⎢⎢⎢⎢

minusminus

minus

minusminus

=

)()(

)(

)()(~

1

11

1

1

111

n

npn

pi

ij

i

n

nn

xxx

xxx

xxx

xxx

xxx

M

σσ

σ

σσ

K

MM

K

(C3)

On multiplie ensuite la matrice obtenue par sa transposeacutee pour obtenir - La matrice de covariance MMC t

vˆˆ sdot=

- La matrice de correacutelation MMC tr

~~ sdot= Ces matrices sont carreacutees (N x N) symeacutetriques et reacuteelles Elles sont donc

diagonalisables dans une base orthonormeacutee 6 Le principe de lrsquoACP est alors de trouver un axe u issu drsquoune combinaison lineacuteaire

des tel que le critegravere drsquoinertie du nuage autour de cet axe soit maximal Le critegravere drsquoinertie couramment utiliseacute est la variance Il faut donc trouver lrsquoaxe qui porte le maximum de variance crsquoest-agrave-dire lrsquoaxe u tel que la projection du nuage sur cet axe ait une variance maximale

nx

6 Nos donneacutees eacutetant ici des valeurs drsquoeacutechantillons elles sont par nature centreacutees et reacuteduites On

formera donc naturellement la matrice de correacutelation

C2 Diagonalisation 57

C2 Diagonalisation Pour alleacuteger lrsquoeacutecriture de la suite de cette partie nous consideacutererons que les

variables ont eacuteteacute centreacutees et si besoin reacuteduites et nous noterons ces variables

transformeacutees (ainsi

ix ix

iii xxx minuslarr ou bien )( i

iii x

xxxσ

minuslarr ) On fera de mecircme pour M

( ou bien MM ˆlarr MM ~larr ) et C ( vCC larr ou bien rCC larr ) La projection drsquoun eacutechantillon sur un axe u srsquoeacutecrit ix

uMxiu sdot=)(π (C4) La variance empirique de )( iu xπ vaut donc

uMMuxx ttiu

tiu sdotsdotsdot=sdot )()( ππ (C5)

Or on a vu que est diagonalisable dans une base orthonormeacutee donc

on peut noter P le changement de base associeacute et ∆ la matrice diagonale formeacutee de son spectre Ainsi

MMC t=

n

i 1)(λ PPMMC tt ∆==

)()()()( PuPuuPPuxx ttt

iut

iu sdot∆sdot=sdot∆sdot=sdotππ (C6) On pose v = Pu Chercher lrsquoaxe u qui maximise )( iu xπ revient donc agrave chercher le

vecteur v qui maximise ougravevvt ∆ )( 1 ndiag λλ K=∆ avec les iλ rangeacutes par ordre deacutecroissant Ce vecteur est trivialement le premier vecteur unitaire et on a alors

1λ=∆vvt

Ainsi le vecteur qui porte la plus grande part drsquoinertie du nuage est le premier

vecteur propre de C (premier par norme deacutecroissante) De mecircme le deuxiegraveme vecteur qui explique la plus grandelt part de lrsquoinertie restante est le deuxiegraveme vecteur propre de C Finalement la question de lrsquoACP se ramegravene agrave un problegraveme de diagonalisation de la matrice de correacutelation

C3 Code Matlab

function [vep vap] = pca(f N) f donneacutees N nombre de composantes agrave garder cor = f f formation de la matrice de correacutelation [vep vap] = eig(cor) calcul des vecteurs (vep) et valeurs (vap) propres [vap ind] = sort(diag(vap)) tri des valeurs propres par ordre croissant vap = flipud(vap) disposition inverse par ordre drsquoimportance vep = vep( flipud(ind)) classement en conseacutequence des vecteurs propres vep = vep( 1N) on ne garde que les N premiers vecteurs propres

Annexe C Analyse en composantes principales 58

59

Annexe D

Analyse en sous-bandes

D1 La transformeacutee de Fourier agrave court terme (TFCT) Pour affiner lrsquoanalyse les signaux sont donc deacutecoupeacutes en bandes de freacutequence par

TFCT La TFCT consiste agrave effectuer des transformeacutees de Fourier discregravetes sur des portions de signal fenecirctreacutees reacuteguliegraverement espaceacutees

On rappelle que la transformeacutee de Fourier drsquoun signal x(t) est deacutefinie (lorsque

lrsquointeacutegrale existe) par

int+infin

infinminus

minus= dtetxfX ftiπ2)()( (D1)

La transformeacutee de Fourier agrave temps discret (TFTD) drsquoun signal x(t) srsquoeacutecrit

sum+infin

minusinfin=

minus=n

fnienxfX π2)()( (D2)

La transformeacutee de Fourier discregravete (TFD) drsquoun signal discret x(k) est deacutefinie par

sum+infin

minusinfin=

minus=

n

Nkni

enxkXπ2

)()( (D3)

La TFCT discregravete est une TFD observeacutee sur une fenecirctre wa de taille N

summinus

=

minus+=

1

0

2)())(()(

N

n

Nnki

aaa enwtnxkXπ

ττ (D4)

ougrave )(taτ est lrsquoinstant drsquoanalyse

Annexe D Analyse en sous-bandes 60

Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT [Laroche 1995]

D2 Synthegravese par addition-recouvrement Lors de la synthegravese apregraves le deacutecoupage et lrsquoanalyse des fenecirctres on cherche agrave

reconstruire le signal temporel agrave partir de sa repreacutesentation freacutequentielle Pour cela on utilise la meacutethode OLA (overlap and add addition-recouvrement) qui consiste agrave prendre la TFCT inverse des spectres Xt puis agrave additionner les signaux obtenus apregraves les avoir multiplieacutes par une fenecirctre de pondeacuteration en les faisant se recouvrir partiellement

Le reacutesultat est donneacute par

sum=

minusminus=T

tsss tnxtnwnx

s1

))((~))(()(~ ττ τ (D5)

avec )()( tt as ττ = et summinus

=

=1

0

2))((~1)(~ N

k

Nkni

s ektXN

nxs

π

τ τ

Lors de la mise en œuvre de ce traitement il faut srsquoassurer drsquoecirctre en mesure de

reconstruire parfaitement un signal lorsqursquoaucune transformation ne lui est appliqueacutee Le critegravere de reconstruction parfaite condition suffisante est alors

sum=

=minusminusT

tasaa tnwtnw

11))(())(( ττ quelque soit n (D6)

D2 Synthegravese par addition-recouvrement 61

Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add [Laroche 1995]

Plusieurs paramegravetres sont agrave choisir avec soin Le premier drsquoentre eux est le type

de fenecirctre agrave utiliser Les diffeacuterentes options qui se preacutesentent agrave nous sont - la fenecirctre rectangulaire qui preacutesente dans son spectre le lobe principal le plus

eacutetroit mais des lobes secondaires non neacutegligeables - la fenecirctre de Hamming au lobe principal un peu plus large mais pour laquelle le

1er lobe secondaire se situe agrave -43 dB - la fenecirctre de Hann (ou cosinus sureacuteleveacute) qui ressemble agrave la preacuteceacutedente avec un

1er lobe secondaire plus fort mais une pente de 18 dB par octave pour les lobes suivants

- les fenecirctres de Blackman-Harris aux lobes secondaires tregraves bas mais au lobe principal plus large

Fenecirctre Lobe 2aire

(dB) Pente

(dBoct) Bande passante

agrave 6 dB (bins) Rectangulaire -13 -6 121 Triangulaire -27 -12 178

Hann -32 -18 200 Hamming -43 -6 181

Blackman-Harris 4 -92 -6 272

Tableau D1 - Caracteacuteristiques des principales fenecirctres drsquoanalyse [Harris 1978] Le meilleur compromis est donc dans notre contexte la fenecirctre de Hann ou celle

de Hamming

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 61: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

C2 Diagonalisation 57

C2 Diagonalisation Pour alleacuteger lrsquoeacutecriture de la suite de cette partie nous consideacutererons que les

variables ont eacuteteacute centreacutees et si besoin reacuteduites et nous noterons ces variables

transformeacutees (ainsi

ix ix

iii xxx minuslarr ou bien )( i

iii x

xxxσ

minuslarr ) On fera de mecircme pour M

( ou bien MM ˆlarr MM ~larr ) et C ( vCC larr ou bien rCC larr ) La projection drsquoun eacutechantillon sur un axe u srsquoeacutecrit ix

uMxiu sdot=)(π (C4) La variance empirique de )( iu xπ vaut donc

uMMuxx ttiu

tiu sdotsdotsdot=sdot )()( ππ (C5)

Or on a vu que est diagonalisable dans une base orthonormeacutee donc

on peut noter P le changement de base associeacute et ∆ la matrice diagonale formeacutee de son spectre Ainsi

MMC t=

n

i 1)(λ PPMMC tt ∆==

)()()()( PuPuuPPuxx ttt

iut

iu sdot∆sdot=sdot∆sdot=sdotππ (C6) On pose v = Pu Chercher lrsquoaxe u qui maximise )( iu xπ revient donc agrave chercher le

vecteur v qui maximise ougravevvt ∆ )( 1 ndiag λλ K=∆ avec les iλ rangeacutes par ordre deacutecroissant Ce vecteur est trivialement le premier vecteur unitaire et on a alors

1λ=∆vvt

Ainsi le vecteur qui porte la plus grande part drsquoinertie du nuage est le premier

vecteur propre de C (premier par norme deacutecroissante) De mecircme le deuxiegraveme vecteur qui explique la plus grandelt part de lrsquoinertie restante est le deuxiegraveme vecteur propre de C Finalement la question de lrsquoACP se ramegravene agrave un problegraveme de diagonalisation de la matrice de correacutelation

C3 Code Matlab

function [vep vap] = pca(f N) f donneacutees N nombre de composantes agrave garder cor = f f formation de la matrice de correacutelation [vep vap] = eig(cor) calcul des vecteurs (vep) et valeurs (vap) propres [vap ind] = sort(diag(vap)) tri des valeurs propres par ordre croissant vap = flipud(vap) disposition inverse par ordre drsquoimportance vep = vep( flipud(ind)) classement en conseacutequence des vecteurs propres vep = vep( 1N) on ne garde que les N premiers vecteurs propres

Annexe C Analyse en composantes principales 58

59

Annexe D

Analyse en sous-bandes

D1 La transformeacutee de Fourier agrave court terme (TFCT) Pour affiner lrsquoanalyse les signaux sont donc deacutecoupeacutes en bandes de freacutequence par

TFCT La TFCT consiste agrave effectuer des transformeacutees de Fourier discregravetes sur des portions de signal fenecirctreacutees reacuteguliegraverement espaceacutees

On rappelle que la transformeacutee de Fourier drsquoun signal x(t) est deacutefinie (lorsque

lrsquointeacutegrale existe) par

int+infin

infinminus

minus= dtetxfX ftiπ2)()( (D1)

La transformeacutee de Fourier agrave temps discret (TFTD) drsquoun signal x(t) srsquoeacutecrit

sum+infin

minusinfin=

minus=n

fnienxfX π2)()( (D2)

La transformeacutee de Fourier discregravete (TFD) drsquoun signal discret x(k) est deacutefinie par

sum+infin

minusinfin=

minus=

n

Nkni

enxkXπ2

)()( (D3)

La TFCT discregravete est une TFD observeacutee sur une fenecirctre wa de taille N

summinus

=

minus+=

1

0

2)())(()(

N

n

Nnki

aaa enwtnxkXπ

ττ (D4)

ougrave )(taτ est lrsquoinstant drsquoanalyse

Annexe D Analyse en sous-bandes 60

Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT [Laroche 1995]

D2 Synthegravese par addition-recouvrement Lors de la synthegravese apregraves le deacutecoupage et lrsquoanalyse des fenecirctres on cherche agrave

reconstruire le signal temporel agrave partir de sa repreacutesentation freacutequentielle Pour cela on utilise la meacutethode OLA (overlap and add addition-recouvrement) qui consiste agrave prendre la TFCT inverse des spectres Xt puis agrave additionner les signaux obtenus apregraves les avoir multiplieacutes par une fenecirctre de pondeacuteration en les faisant se recouvrir partiellement

Le reacutesultat est donneacute par

sum=

minusminus=T

tsss tnxtnwnx

s1

))((~))(()(~ ττ τ (D5)

avec )()( tt as ττ = et summinus

=

=1

0

2))((~1)(~ N

k

Nkni

s ektXN

nxs

π

τ τ

Lors de la mise en œuvre de ce traitement il faut srsquoassurer drsquoecirctre en mesure de

reconstruire parfaitement un signal lorsqursquoaucune transformation ne lui est appliqueacutee Le critegravere de reconstruction parfaite condition suffisante est alors

sum=

=minusminusT

tasaa tnwtnw

11))(())(( ττ quelque soit n (D6)

D2 Synthegravese par addition-recouvrement 61

Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add [Laroche 1995]

Plusieurs paramegravetres sont agrave choisir avec soin Le premier drsquoentre eux est le type

de fenecirctre agrave utiliser Les diffeacuterentes options qui se preacutesentent agrave nous sont - la fenecirctre rectangulaire qui preacutesente dans son spectre le lobe principal le plus

eacutetroit mais des lobes secondaires non neacutegligeables - la fenecirctre de Hamming au lobe principal un peu plus large mais pour laquelle le

1er lobe secondaire se situe agrave -43 dB - la fenecirctre de Hann (ou cosinus sureacuteleveacute) qui ressemble agrave la preacuteceacutedente avec un

1er lobe secondaire plus fort mais une pente de 18 dB par octave pour les lobes suivants

- les fenecirctres de Blackman-Harris aux lobes secondaires tregraves bas mais au lobe principal plus large

Fenecirctre Lobe 2aire

(dB) Pente

(dBoct) Bande passante

agrave 6 dB (bins) Rectangulaire -13 -6 121 Triangulaire -27 -12 178

Hann -32 -18 200 Hamming -43 -6 181

Blackman-Harris 4 -92 -6 272

Tableau D1 - Caracteacuteristiques des principales fenecirctres drsquoanalyse [Harris 1978] Le meilleur compromis est donc dans notre contexte la fenecirctre de Hann ou celle

de Hamming

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 62: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

Annexe C Analyse en composantes principales 58

59

Annexe D

Analyse en sous-bandes

D1 La transformeacutee de Fourier agrave court terme (TFCT) Pour affiner lrsquoanalyse les signaux sont donc deacutecoupeacutes en bandes de freacutequence par

TFCT La TFCT consiste agrave effectuer des transformeacutees de Fourier discregravetes sur des portions de signal fenecirctreacutees reacuteguliegraverement espaceacutees

On rappelle que la transformeacutee de Fourier drsquoun signal x(t) est deacutefinie (lorsque

lrsquointeacutegrale existe) par

int+infin

infinminus

minus= dtetxfX ftiπ2)()( (D1)

La transformeacutee de Fourier agrave temps discret (TFTD) drsquoun signal x(t) srsquoeacutecrit

sum+infin

minusinfin=

minus=n

fnienxfX π2)()( (D2)

La transformeacutee de Fourier discregravete (TFD) drsquoun signal discret x(k) est deacutefinie par

sum+infin

minusinfin=

minus=

n

Nkni

enxkXπ2

)()( (D3)

La TFCT discregravete est une TFD observeacutee sur une fenecirctre wa de taille N

summinus

=

minus+=

1

0

2)())(()(

N

n

Nnki

aaa enwtnxkXπ

ττ (D4)

ougrave )(taτ est lrsquoinstant drsquoanalyse

Annexe D Analyse en sous-bandes 60

Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT [Laroche 1995]

D2 Synthegravese par addition-recouvrement Lors de la synthegravese apregraves le deacutecoupage et lrsquoanalyse des fenecirctres on cherche agrave

reconstruire le signal temporel agrave partir de sa repreacutesentation freacutequentielle Pour cela on utilise la meacutethode OLA (overlap and add addition-recouvrement) qui consiste agrave prendre la TFCT inverse des spectres Xt puis agrave additionner les signaux obtenus apregraves les avoir multiplieacutes par une fenecirctre de pondeacuteration en les faisant se recouvrir partiellement

Le reacutesultat est donneacute par

sum=

minusminus=T

tsss tnxtnwnx

s1

))((~))(()(~ ττ τ (D5)

avec )()( tt as ττ = et summinus

=

=1

0

2))((~1)(~ N

k

Nkni

s ektXN

nxs

π

τ τ

Lors de la mise en œuvre de ce traitement il faut srsquoassurer drsquoecirctre en mesure de

reconstruire parfaitement un signal lorsqursquoaucune transformation ne lui est appliqueacutee Le critegravere de reconstruction parfaite condition suffisante est alors

sum=

=minusminusT

tasaa tnwtnw

11))(())(( ττ quelque soit n (D6)

D2 Synthegravese par addition-recouvrement 61

Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add [Laroche 1995]

Plusieurs paramegravetres sont agrave choisir avec soin Le premier drsquoentre eux est le type

de fenecirctre agrave utiliser Les diffeacuterentes options qui se preacutesentent agrave nous sont - la fenecirctre rectangulaire qui preacutesente dans son spectre le lobe principal le plus

eacutetroit mais des lobes secondaires non neacutegligeables - la fenecirctre de Hamming au lobe principal un peu plus large mais pour laquelle le

1er lobe secondaire se situe agrave -43 dB - la fenecirctre de Hann (ou cosinus sureacuteleveacute) qui ressemble agrave la preacuteceacutedente avec un

1er lobe secondaire plus fort mais une pente de 18 dB par octave pour les lobes suivants

- les fenecirctres de Blackman-Harris aux lobes secondaires tregraves bas mais au lobe principal plus large

Fenecirctre Lobe 2aire

(dB) Pente

(dBoct) Bande passante

agrave 6 dB (bins) Rectangulaire -13 -6 121 Triangulaire -27 -12 178

Hann -32 -18 200 Hamming -43 -6 181

Blackman-Harris 4 -92 -6 272

Tableau D1 - Caracteacuteristiques des principales fenecirctres drsquoanalyse [Harris 1978] Le meilleur compromis est donc dans notre contexte la fenecirctre de Hann ou celle

de Hamming

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 63: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

59

Annexe D

Analyse en sous-bandes

D1 La transformeacutee de Fourier agrave court terme (TFCT) Pour affiner lrsquoanalyse les signaux sont donc deacutecoupeacutes en bandes de freacutequence par

TFCT La TFCT consiste agrave effectuer des transformeacutees de Fourier discregravetes sur des portions de signal fenecirctreacutees reacuteguliegraverement espaceacutees

On rappelle que la transformeacutee de Fourier drsquoun signal x(t) est deacutefinie (lorsque

lrsquointeacutegrale existe) par

int+infin

infinminus

minus= dtetxfX ftiπ2)()( (D1)

La transformeacutee de Fourier agrave temps discret (TFTD) drsquoun signal x(t) srsquoeacutecrit

sum+infin

minusinfin=

minus=n

fnienxfX π2)()( (D2)

La transformeacutee de Fourier discregravete (TFD) drsquoun signal discret x(k) est deacutefinie par

sum+infin

minusinfin=

minus=

n

Nkni

enxkXπ2

)()( (D3)

La TFCT discregravete est une TFD observeacutee sur une fenecirctre wa de taille N

summinus

=

minus+=

1

0

2)())(()(

N

n

Nnki

aaa enwtnxkXπ

ττ (D4)

ougrave )(taτ est lrsquoinstant drsquoanalyse

Annexe D Analyse en sous-bandes 60

Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT [Laroche 1995]

D2 Synthegravese par addition-recouvrement Lors de la synthegravese apregraves le deacutecoupage et lrsquoanalyse des fenecirctres on cherche agrave

reconstruire le signal temporel agrave partir de sa repreacutesentation freacutequentielle Pour cela on utilise la meacutethode OLA (overlap and add addition-recouvrement) qui consiste agrave prendre la TFCT inverse des spectres Xt puis agrave additionner les signaux obtenus apregraves les avoir multiplieacutes par une fenecirctre de pondeacuteration en les faisant se recouvrir partiellement

Le reacutesultat est donneacute par

sum=

minusminus=T

tsss tnxtnwnx

s1

))((~))(()(~ ττ τ (D5)

avec )()( tt as ττ = et summinus

=

=1

0

2))((~1)(~ N

k

Nkni

s ektXN

nxs

π

τ τ

Lors de la mise en œuvre de ce traitement il faut srsquoassurer drsquoecirctre en mesure de

reconstruire parfaitement un signal lorsqursquoaucune transformation ne lui est appliqueacutee Le critegravere de reconstruction parfaite condition suffisante est alors

sum=

=minusminusT

tasaa tnwtnw

11))(())(( ττ quelque soit n (D6)

D2 Synthegravese par addition-recouvrement 61

Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add [Laroche 1995]

Plusieurs paramegravetres sont agrave choisir avec soin Le premier drsquoentre eux est le type

de fenecirctre agrave utiliser Les diffeacuterentes options qui se preacutesentent agrave nous sont - la fenecirctre rectangulaire qui preacutesente dans son spectre le lobe principal le plus

eacutetroit mais des lobes secondaires non neacutegligeables - la fenecirctre de Hamming au lobe principal un peu plus large mais pour laquelle le

1er lobe secondaire se situe agrave -43 dB - la fenecirctre de Hann (ou cosinus sureacuteleveacute) qui ressemble agrave la preacuteceacutedente avec un

1er lobe secondaire plus fort mais une pente de 18 dB par octave pour les lobes suivants

- les fenecirctres de Blackman-Harris aux lobes secondaires tregraves bas mais au lobe principal plus large

Fenecirctre Lobe 2aire

(dB) Pente

(dBoct) Bande passante

agrave 6 dB (bins) Rectangulaire -13 -6 121 Triangulaire -27 -12 178

Hann -32 -18 200 Hamming -43 -6 181

Blackman-Harris 4 -92 -6 272

Tableau D1 - Caracteacuteristiques des principales fenecirctres drsquoanalyse [Harris 1978] Le meilleur compromis est donc dans notre contexte la fenecirctre de Hann ou celle

de Hamming

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 64: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

Annexe D Analyse en sous-bandes 60

Figure D1 - Scheacutema de principe de lrsquoanalyse par TFCT [Laroche 1995]

D2 Synthegravese par addition-recouvrement Lors de la synthegravese apregraves le deacutecoupage et lrsquoanalyse des fenecirctres on cherche agrave

reconstruire le signal temporel agrave partir de sa repreacutesentation freacutequentielle Pour cela on utilise la meacutethode OLA (overlap and add addition-recouvrement) qui consiste agrave prendre la TFCT inverse des spectres Xt puis agrave additionner les signaux obtenus apregraves les avoir multiplieacutes par une fenecirctre de pondeacuteration en les faisant se recouvrir partiellement

Le reacutesultat est donneacute par

sum=

minusminus=T

tsss tnxtnwnx

s1

))((~))(()(~ ττ τ (D5)

avec )()( tt as ττ = et summinus

=

=1

0

2))((~1)(~ N

k

Nkni

s ektXN

nxs

π

τ τ

Lors de la mise en œuvre de ce traitement il faut srsquoassurer drsquoecirctre en mesure de

reconstruire parfaitement un signal lorsqursquoaucune transformation ne lui est appliqueacutee Le critegravere de reconstruction parfaite condition suffisante est alors

sum=

=minusminusT

tasaa tnwtnw

11))(())(( ττ quelque soit n (D6)

D2 Synthegravese par addition-recouvrement 61

Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add [Laroche 1995]

Plusieurs paramegravetres sont agrave choisir avec soin Le premier drsquoentre eux est le type

de fenecirctre agrave utiliser Les diffeacuterentes options qui se preacutesentent agrave nous sont - la fenecirctre rectangulaire qui preacutesente dans son spectre le lobe principal le plus

eacutetroit mais des lobes secondaires non neacutegligeables - la fenecirctre de Hamming au lobe principal un peu plus large mais pour laquelle le

1er lobe secondaire se situe agrave -43 dB - la fenecirctre de Hann (ou cosinus sureacuteleveacute) qui ressemble agrave la preacuteceacutedente avec un

1er lobe secondaire plus fort mais une pente de 18 dB par octave pour les lobes suivants

- les fenecirctres de Blackman-Harris aux lobes secondaires tregraves bas mais au lobe principal plus large

Fenecirctre Lobe 2aire

(dB) Pente

(dBoct) Bande passante

agrave 6 dB (bins) Rectangulaire -13 -6 121 Triangulaire -27 -12 178

Hann -32 -18 200 Hamming -43 -6 181

Blackman-Harris 4 -92 -6 272

Tableau D1 - Caracteacuteristiques des principales fenecirctres drsquoanalyse [Harris 1978] Le meilleur compromis est donc dans notre contexte la fenecirctre de Hann ou celle

de Hamming

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 65: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

D2 Synthegravese par addition-recouvrement 61

Figure D2 - Scheacutema de principe de la synthegravese par la meacutethode overlap-add [Laroche 1995]

Plusieurs paramegravetres sont agrave choisir avec soin Le premier drsquoentre eux est le type

de fenecirctre agrave utiliser Les diffeacuterentes options qui se preacutesentent agrave nous sont - la fenecirctre rectangulaire qui preacutesente dans son spectre le lobe principal le plus

eacutetroit mais des lobes secondaires non neacutegligeables - la fenecirctre de Hamming au lobe principal un peu plus large mais pour laquelle le

1er lobe secondaire se situe agrave -43 dB - la fenecirctre de Hann (ou cosinus sureacuteleveacute) qui ressemble agrave la preacuteceacutedente avec un

1er lobe secondaire plus fort mais une pente de 18 dB par octave pour les lobes suivants

- les fenecirctres de Blackman-Harris aux lobes secondaires tregraves bas mais au lobe principal plus large

Fenecirctre Lobe 2aire

(dB) Pente

(dBoct) Bande passante

agrave 6 dB (bins) Rectangulaire -13 -6 121 Triangulaire -27 -12 178

Hann -32 -18 200 Hamming -43 -6 181

Blackman-Harris 4 -92 -6 272

Tableau D1 - Caracteacuteristiques des principales fenecirctres drsquoanalyse [Harris 1978] Le meilleur compromis est donc dans notre contexte la fenecirctre de Hann ou celle

de Hamming

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 66: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

Annexe D Analyse en sous-bandes 62

Il nous faut ensuite choisir le pourcentage de recouvrement des fenecirctres drsquoanalyse Un recouvrement de 50 permet un bon compromis entre preacutecision temporelle de lrsquoanalyse et lourdeur de traitement

Pour satisfaire le critegravere de reconstruction parfaite (D6) nous prendrons donc un

recouvrement de 50 avec la racine de la fenecirctre de Hann crsquoest-agrave-dire une arche de sinusoiumlde agrave lrsquoanalyse comme agrave la synthegravese

⎟⎠⎞

⎜⎝⎛==

Nnnwnw sa

πsin)()( (D7)

La taille de la transformeacutee de Fourier (NFFT) et le nombre de bandes

freacutequentielles sont eacutegalement des paramegravetres cruciaux agrave deacuteterminer de mecircme que la longueur de la fenecirctre de signal analyseacute agrave chaque pas Des tests ont eacuteteacute reacutealiseacutes avec 1 4 20 40 et 80 bandes inspireacutees des bandes ERB (voir Figure 32) pour diffeacuterentes valeurs de NFFT (de 512 agrave 8192) ainsi qursquoavec un grand nombre de longueurs de fenecirctre diffeacuterentes Les largeurs des filtres de lissage (voir 343) sont aussi agrave reacutegler Tous ces paramegravetres doivent ecirctre choisis en fonction de la scegravene sonore eacutetudieacutee en prenant en compte les objectifs de preacutecision et les moyens agrave disposition pour les obtenir notamment en termes de capaciteacute de calcul

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 67: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

63

Bibliographie

[Bruneau 1983] Bruneau M Introduction aux theacuteories de lacoustique Le Mans Universiteacute du Maine (1983)

[Cherry 1953] Cherry EC Some experiments on the recognition of speech with one and

with two ears Journal of the Acoustical Society of America Vol 25 pp975-979 (1953)

[Daniel 2000] Daniel J Repreacutesentation de champs acoustiques application agrave la

transmission et agrave la reproduction de scegravenes sonores complexes dans un contexte multimeacutedia Thegravese de Doctorat Paris Universiteacute Pierre et Marie Curie (Paris VI) (2000) httpgyronymofreefr

[Daniel et al 2003] Daniel J Nicol R et Moreau S Further investigations of High Order

Ambisonics and Wave Field Synthesis for holophonic sound imaging 114th AES Convention Amsterdam (2003)

[Faller and Baumgarte 2002] Faller C et Baumgarte F Binaural Cue Coding A novel and

efficient representation of spatial audio Proc ICASSP Orlando Floride (2002) [Faller and Baumgarte 2003] Faller C et Baumgarte F Binaural Cue Coding - Part II

Schemes and applications IEEE Trans on Speech and Audio Proc Vol 11 (ndeg6) pp520-531 (2003)

[Gerzon 1973] Gerzon MA Periphony With-Height Sound Reproduction Journal of the

Audio Engineering Society Vol 21 (ndeg1) pp2-10 (1973) [Gerzon 1985] Gerzon MA Ambisonics in Multichannel Broadcasting and Video Journal

of the Audio Engineering Society Vol 33 (ndeg11) pp859-871 (1985) [Gerzon 1992] Gerzon MA General Metatheory of Auditory Localisation 92nd AES

Convention (1992)

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement
Page 68: Études de techniques d’extraction de l’information ... · vi 3.4.3. Lissages ... Solutions de l’équation d’onde en coordonnées sphériques ... Cette analyse permet alors

[Harris 1978] Harris FJ On the use of windows for harmonic analysis with the discrete fourier transform Proceedings of the IEEE Vol 66 (ndeg1) pp51-82 (1978)

[Hotelling 1933] Hotelling H Analysis of a complex of statistical variables into principal

components Journal of Educational Psychology Vol 24 pp417-441 498-520 (1933)

[Laroche 1995] Laroche J Traitement des signaux audio-freacutequences notes de cours Paris

ENST (1995) [MacQueen 1967] MacQueen J Some methods for classification and analysis of

multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability Berkeley California University of California Press Vol1 pp281-297 (1967)

[Merimaa and Pulkki 2005] Merimaa J et Pulkki V Spatial impulse response rendering I

analysis ans synthesis Journal of the Audio Engineering Society Vol 53 (ndeg12) (2005)

[Moreau 2006] Moreau S Eacutetude et reacutealisation drsquooutils avanceacutes drsquoencodage spatial pour la

technique de spatialisation sonore Higher Order Ambisonics microphone 3D et controcircle de distance Thegravese de Doctorat Le Mans Universiteacute du Maine (2006)

[Moreau et al 2006] Moreau S Daniel J et Bertet S 3D Sound Field Recording with

Higher Order Ambisonics ndash Objective Measurements and Validation of a 4th Order Spherical Microphone 120th AES Convention Paris (2006)

[Nicol 1999] Nicol R Restitution sonore spatialiseacutee sur une zone eacutetendu application agrave la

teacuteleacutepreacutesence Thegravese de Doctorat Le Mans Universiteacute du Maine (1999) [Pearson 1900] Pearson K On a criterion that a given system of deviations from the

probable in the case of a correlated system of variables is such that it can reasonably be supposed to have arisen from random sampling Philosophical Magazine Vol 50 pp157-175 (1900)

[Pulkki and Faller 2006] Pulkki V et Faller C Directional audio coding filterbank and

STFT-based Design 120th AES Convention Paris (2006)

  • Eacutetudes de techniques drsquoextraction de lrsquoinformation spatiale
  • Ambisonics
    • Principe
      • Du B-format agrave HOA
      • Repreacutesentation de scegravene sonore avec HOA
        • Encodage et deacutecodage spatial
          • Encodage spatial
          • Deacutecodage spatial
            • Critique de la technologie HOA
              • Bilan
              • Limites pratiques
                  • Analyser un contenu HOA
                    • Objectifs
                      • Restitution de la spatialisation agrave partir drsquoun downmix mono
                      • Ameacutelioration de la preacutecision spatiale
                        • Principe de lrsquoextraction drsquoinformation spatiale avec une ACP
                          • Information spatiale
                          • Application de lrsquoanalyse en composantes principales
                            • Meacutethodologie
                              • Construction de scegravenes artificielles
                              • Exploitation drsquoenregistrements naturels
                              • Visualisations des reacutesultats
                              • Diffeacuterents modes drsquoeacutecoute
                                  • Description des analyses
                                    • Deacutetermination des directions principales
                                      • Base des algorithmes
                                      • Traitement du champ reacutesiduel
                                        • Extension agrave la 3D
                                        • Analyse aux ordres supeacuterieurs
                                          • Description
                                          • Illustration sur une scegravene virtuelle
                                            • Traitement des donneacutees
                                              • Algorithme des k-moyennes
                                              • Critegraveres de pertinence
                                              • Lissages
                                                • Exploitation de toutes les composantes de lrsquoACP
                                                  • Reacutesultats et applications
                                                    • Illustration et critique des reacutesultats obtenus
                                                      • Avant-propos
                                                      • Scegravene 2D artificielle agrave 4 sources fixes
                                                      • Scegravene 2D artificielle agrave 4 sources dont 3 fixes et 1 mobile
                                                      • Scegravene 3D artificielle agrave une source et bruit de fond
                                                      • Scegravene 2D naturelle agrave une source
                                                        • Quelques applications
                                                          • Ameacutelioration de la preacutecision spatiale synthegravese de lrsquoordre
                                                          • Restitution depuis un downmix mono synthegravese de lrsquoordre 1 agrave
                                                            • Comparaison avec une meacutethode existante
                                                            • Deacuteveloppement drsquoune application pour la confeacuterence audio spa
                                                              • Position du problegraveme
                                                              • Solution proposeacutee
                                                              • Bilan
                                                                  • Deacuteveloppement du champ acoustique en harmoniques spheacuteriques
                                                                    • Eacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                    • Solutions de lrsquoeacutequation drsquoonde en coordonneacutees spheacuteriques
                                                                      • Compleacutements theacuteoriques sur le deacutecodage HOA
                                                                        • Vecteur veacutelociteacute et vecteur eacutenergie
                                                                        • Deacutecodages optimiseacutes
                                                                          • Analyse en composantes principales
                                                                            • Espace des donneacutees
                                                                            • Diagonalisation
                                                                            • Code Matlab
                                                                              • Analyse en sous-bandes
                                                                                • La transformeacutee de Fourier agrave court terme (TFCT)
                                                                                • Synthegravese par addition-recouvrement