clustering de visages: vers la construction automatique d’un ...clustering de visages : vers la...

9
HAL Id: inria-00595741 https://hal.inria.fr/inria-00595741 Submitted on 25 May 2011 HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d’enseignement et de recherche français ou étrangers, des laboratoires publics ou privés. Clustering de visages : vers la construction automatique d’un album photo à partir d’une s equence vidé o Siméon Schwab, Thierry Chateau, Christophe Blanc, Laurent Trassoudaine To cite this version: Siméon Schwab, Thierry Chateau, Christophe Blanc, Laurent Trassoudaine. Clustering de visages: vers la construction automatique d’un album photo à partir d’une s equence vidé o. ORASIS - Congrès des jeunes chercheurs en vision par ordinateur, INRIA Grenoble Rhône-Alpes, Jun 2011, Praz-sur-Arly, France. inria-00595741

Upload: others

Post on 15-Jul-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Clustering de visages: vers la construction automatique d’un ...Clustering de visages : vers la construction automatique d’un album photo `a partir d’une s´equence vid´eo S

HAL Id: inria-00595741https://hal.inria.fr/inria-00595741

Submitted on 25 May 2011

HAL is a multi-disciplinary open accessarchive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come fromteaching and research institutions in France orabroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, estdestinée au dépôt et à la diffusion de documentsscientifiques de niveau recherche, publiés ou non,émanant des établissements d’enseignement et derecherche français ou étrangers, des laboratoirespublics ou privés.

Clustering de visages : vers la construction automatiqued’un album photo à partir d’une s equence vidé o

Siméon Schwab, Thierry Chateau, Christophe Blanc, Laurent Trassoudaine

To cite this version:Siméon Schwab, Thierry Chateau, Christophe Blanc, Laurent Trassoudaine. Clustering de visages :vers la construction automatique d’un album photo à partir d’une s equence vidé o. ORASIS - Congrèsdes jeunes chercheurs en vision par ordinateur, INRIA Grenoble Rhône-Alpes, Jun 2011, Praz-sur-Arly,France. �inria-00595741�

Page 2: Clustering de visages: vers la construction automatique d’un ...Clustering de visages : vers la construction automatique d’un album photo `a partir d’une s´equence vid´eo S

Clustering de visages : vers la construction automatique d’un album

photo a partir d’une sequence video

S. Schwab1,2 T. Chateau1 C. Blanc1,2 L. Trassoudaine1

1 LASMEA, Universite Blaise Pascal

24, avenue des Landais

63177 Aubiere cedex – France

{thierry.chateau,laurent.trassoudaine,simeon.schwab}@univ-bpclermont.fr

2 VESALIS, Parc Technologique de la Pardieu

8, allee Evariste Galois

63000 Clermont-Ferrand – France

[email protected]

Resume

Cet article presente une methode de regroupement dedetections d’un meme objet vu sur une sequence vi-deo, en se placant dans le cadre applicatif plus pre-cis de la construction automatique d’un album photo.Nous utilisons une methode d’analyse globale, baseesur une formalisation probabiliste du probleme d’asso-ciation de donnees. La solution du probleme est alorsdonnee par une estimation du Maximum A Posteriori(MAP). La principale contribution concerne l’utilisa-tion d’une methode de suivi locale avant-arriere ap-pliquee a chaque detection. Cela afin d’enrichir l’in-formation d’apparence issue de la detection, par uneinformation spatiale provenant de la construction depistes locales. Nous introduisons une nouvelle me-sure de vraisemblance basee sur la dissimilarite spatio-temporelle entre les pistes. L’algorithme obtenu estalors capable d’adresser des situations ou les detectionsde visages sont eparses. Nous proposons d’utiliser descriteres derives de la purete et la purete inverse d’unclustering pour evaluer les performances de la methodeproposee. La methode est ensuite comparee a un clus-tering ascendant hierarchique, sur deux sequences testreelles.

Mots Clef

clustering, detection visage, maximum a posteriori,multi-suivi visuel

Abstract

This paper presents a clustering method of detectionsof the same object seen on a video. We apply it tothe context of the automatic construction of photo al-bum. We use a global analysis, based on a probabilistic

framework of data association problems. The solutionis given by Maximum A Posteriori estimation. Ourmain contribution concerns the use of a local front-back tracking, applied to each detection ; to increaseappearance information of detections with a spatial in-formation, through local tracks construction. We in-troduce a new likelihood measure based on the spatio-temporal dissimilarity between tracks. The algorithmis then able to deal with situations in which the facedetections are scattered. We propose to use criteria de-rived from purity and inverse purity of a clustering toassess performances of the proposed method. This me-thod is compared to hierarchical clustering on two realtest sequences.

Keywords

clustering, face detection, maxium a posteriori, tra-cking, multiple visual tracking

1 Introduction

Les detecteurs de visages sur images statiques sont deplus en plus courant et performants, cependant, pourleur application aux sequences de videosurveillance,il est necessaire d’ajouter une phase de labellisa-tion. En effet, regrouper les detections de visages pre-sente un grand interet pour l’analyse en videosur-veillance, notamment lors de fouilles d’archives videos.Par exemple, il serait interessant d’avoir une methodequi extrait automatiquement un album photo des pas-sants d’une sequence de videosurveillance.Nous proposons une methode de regroupement de de-tections d’un meme objet vu sur une sequence video,en se placant dans le cadre applicatif plus precis de laconstruction automatique d’un album photo. L’etat de

Page 3: Clustering de visages: vers la construction automatique d’un ...Clustering de visages : vers la construction automatique d’un album photo `a partir d’une s´equence vid´eo S

l’art associe a ces travaux se classe en deux principalescategories. D’une part, il est possible de modeliser leprobleme d’etiquetage des detections par une approchesequentielle, ou pour une image donnee, on cherche alabelliser les objets detectes par rapport a l’historiquedes observations. On se ramene alors a une problema-tique d’association de donnees. La gestion de l’appa-rition et de la disparition de nouvelles pistes est ega-lement une problematique. Dans [2], les auteurs pro-posent une methode de suivi sequentiel d’un nombrevariable d’objets, basee sur un filtre sequentiel proba-biliste. D’autre part, il est possible d’adresser le pro-bleme de maniere globale, en considerant que la tota-lite des observations est disponible lors de l’analyse.Les travaux les plus visibles dans ce domaine pro-posent de modeliser le probleme par une estimationd’un Maximum A Posteriori (MAP), dont l’etat re-cherche est l’ensemble des trajectoires et les observa-tions sont des detections de la video. Apres modeli-sation du probleme, la recherche d’un MAP fait ap-pel a differentes methodes : modelisation stochastiquede la probabilite a posteriori [13] ou differentes me-thodes d’optimisation : programmation lineaire [3], al-gorithme hongrois [4] [9] ou flot de cout minimal [14].La methode envisagee dans cet article est basee surune estimation du MAP resolu par recherches succes-sives de flot de cout minimal sur un graphe [14].

La premiere partie de cet article est consacree a ladescription de la methode proposee.

La seconde partie expose les criteres mis en place pourcomparer les performances des methodes de clusteringd’objets sur des sequences d’images, ensuite des expe-rimentations a partir de sequences video reelles sontpresentees.

L’article se termine par des conclusions et perspec-tives.

2 Methode

Cette section presente la methode basee sur [14] etles extensions apportees pour traiter le probleme desdetections de visages. Ensuite nous definissons plus endetails les dissimilarites mises en œuvre pour traiter leprobleme.

2.1 Association de donnees par MAP

En reprenant la formalisation probabiliste de [14] oul’etat et les observations sont des variables aleatoires,les detections de visages constituent les observations etl’ensemble des associations de ces detections constituel’etat recherche.

Les observations tiennent compte de la position dansl’image, dans la sequence et de l’apparence des detec-tions. On observe un ensemble de detections Z = {zi},dont chaque element sera note : zi = (xi, si,ai, ti)ou xi represente la position (abscisse et ordonnee enpixel) de la detection, si sa taille (hauteur et largeur

en pixel), ai l’apparence qui depend du descripteurchoisi, et ti la date (numero de frame) dans la video.L’etat recherche est un ensemble de trajectoires T ={Tk}, ou les trajectoires sont des groupes de detec-tions : Tk = {zk1

, ..., zknk}, cela signifie que le i-ieme

element de la trajectoire k correspond a la detectionzki

. En faisant l’hypothese de non recouvrement (ieune detection ne peut se retrouver sur plusieurs tra-jectoires) et en ajoutant un groupe des mauvaises de-tections, l’ensemble des trajectoire recherchees est enfait un partitionnement des detections.Le probleme de l’estimation du MAP s’ecrit :

T = argmaxT∈T

P (T |Z)

en ajoutant les contraintes de non-recouvrement etsous hypotheses d’independances :

T = argmaxT∈T et ∀k 6=l , Tk∩Tl=∅

i

P (zi|T )∏

k

P (Tk)

La vraisemblance explique le fait qu’une observation zi

soit vraie ou soit une fausse alarme, elle est modeliseepar une loi de Bernoulli :

P (zi|T ) =

{

1− β si zi est dans une traj. de T

β sinon

ou β est le taux de faux positifs du detecteur.P (Tk) represente le fait que les detections de Tk soientcoherentes en position, temps et apparence. Elle estmodelise par un processus markovien d’ordre 1, dontles etats sont les detections de Tk :

P (Tk) = PePlink(zk1|zk0

)Plink(zk2|zk1

)...

Plink(zklk|zklk−1

)Pe

ou Pe represente la probabilite de demarrer et d’arre-ter une trajectoire. La probabilite de transition Plink

va etre modelisee par un produit de probabilites pre-nant en compte l’apparence Pa, le mouvement Pm etle temps Pt :

Plink(zi|zj) = Pa(zi|zj)Pm(zi|zj)Pt(zi|zj)

Cette formulation va etre conservee par la suite, et ladissimilarite entre deux detections se definit a partirde la log-vraisemblance par :

d(zi, zj) = −log(Plink(zi|zj))

= −log(Pa(zi|zj))− log(Pm(zi|zj))

−log(Pt(zi|zj))

= da(zi, zj)2 + dm(zi, zj)

2 + dt(zi, zj)2

Page 4: Clustering de visages: vers la construction automatique d’un ...Clustering de visages : vers la construction automatique d’un album photo `a partir d’une s´equence vid´eo S

avec da la dissimilarite associee a la log-vraisemblancede l’apparence, dm celle associee au mouvement et dtcelle associee au temps video.Pour donner aux differentes dissimilarites le memepoids dans la dissimilarite totale, on procede simple-ment a une reduction des distances :

dx(zi, zj) =dx(zi, zj)

σx

ou σx est l’ecart type estime statistiquement sur l’en-semble des dissimilarites x calculees – x etant : appa-rence, mouvement ou temps. Les differentes dissimila-rites sont detaillees a la section 2.4.Pour chaque situation deux parametres sont a estimer :le taux de faux positifs β du detecteur et la probabilitePe de demarrer une trajectoire. Ces parametres sontestimes statistiquement a partir de videos de test :

β =faux positifs

nombre de detections

Pe =nombre de personnes

nombre de detections

Dans le cadre des detections de visages, les pertes dedetections ne peuvent pas etre gerees, comme pour[14], avec une methode de gestion explicite des occlu-sions. Les pertes de detections ne se trouvent pas for-cement lors d’occlusions, le detecteur de visages est endefaut des que la personne n’est plus de face.

2.2 Extension des detections

Pour palier au probleme des longs espaces entre lesdetections nous proposons une extension : travailleravec de larges ecarts temporels et augmenter les de-tections par des suivis vers l’arriere et l’avant, pourenrichir l’information spatio-temporelle des detections.Dans la pratique, on n’envisage de lier qu’uniquementles detections dont l’ecart temporel ne depasse pas uncertain seuil – cf. 2.4. Si ce seuil est trop importantdes erreurs de regroupement apparaissent et la com-plexite calculatoire augmente. L’idee est d’enrichir lesdetections pour augmenter le seuil sans ajouter tropd’erreurs.Les observations ne sont plus de simples detectionsmais un ensemble de patchs localises spatialement ettemporellement. Chaque patch est represente de lameme maniere que les detections – cf. section 2.1. Celarevient a etendre les observations zi :

zi = {z1i , z

2i , ..., z

Ni

i }

ou z1i est identique au zi defini precedemment, ou les

zki = (xk

i , ski , t

ki ) sont issus du suivis et ou Ni est le

nombre d’elements de la piste. Les dissimilarites serontmodifiees en consequence – cf. section 2.4.Le suivi est effectue par la recherche de la position etla taille du patch a la frame suivante. Celles-ci mini-misent la dissimilarite en apparence entre la detection

et le patch courant. La fenetre de recherche est borneea l’aide d’une vitesse maximale de deplacement (del’ordre de 50 pixel/frame en pratique) et d’un pour-centage d’agrandissement pour la taille – de l’ordrede 25%. La recherche est effectuee par une minimisa-tion de la dissimilarite d’apparence sur la position etla taille des patchs. On utilise une methode de Nelder-Mead basee sur les simplexes avec comme point de de-part la position et taille precedente. Le suivi est lancepour chaque detection, vers son passe et son futur parrapport au temps de la video.

2.3 Resolution du MAP

L’enumeration de l’ensemble des solutions pour trou-ver le MAP n’est pas envisageable. Dans l’absolu celareviendrait a rechercher le nombre de partitionnementspossibles d’un ensemble, ce qui devient vite inacces-sible. Comme le montre [14], il est possible de trouverle MAP en un temps convenable, en utilisant un algo-rithme de recherche d’un flot de cout minimal sur ungraphe. Les detections sont representees par les nœudsdu graphe et les clusters sont assimiles a des chemins.Les couts des arcs sont fixes par l’oppose des log-vraisemblances (ie les dissimilarites) entre deux detec-tions et ainsi le flot de cout minimal (pour une valeurde flot donnee) selectionnera les arcs construisant leclustering du maximum a posteriori pour un nombredonne de partitions. Ainsi la recherche du MAP glo-bal se fait iterativement par calculs successifs de flotde cout minimal.

2.4 Definition des dissimilarites

Les definitions des dissimilarites, telles que decrites parla suite, sont applicables aux detections etendues parleurs pistes. Ces definitions restent valable dans le casou les detections ne sont pas etendues — ie ou zi ={zi}.

Apparence. Pour mesurer la difference d’apparenceentre deux pistes, on compare uniquement les detec-tions ayant engendre les deux pistes.

Nous avons choisi de representer les detections parun histogramme HS-V [6]. Ces histogrammes sont laconcatenation d’un histogramme HS et d’un histo-gramme V des pixels de l’images – ou H, S et V re-presentent teinte, saturation et valeur. Si les valeursS et V d’un pixel sont suffisamment grandes, ellesseront comptees dans l’histogramme HS, sinon dansl’histogramme V. Pour mesurer la dissimilarite entredeux histogrammes HS-V nous utilisons une distancede Bhattacharyya.

Pour ameliorer les resultats, nous etendons la detec-tion de visage a une zone sous la tete pour recupererune information colorimetrique du pieton, cela est faiten doublant la taille de la zone de detection vers lebas.

La dissimilarite d’apparence ne prend pas en compte

Page 5: Clustering de visages: vers la construction automatique d’un ...Clustering de visages : vers la construction automatique d’un album photo `a partir d’une s´equence vid´eo S

l’extension par suivi : elle ne compare que l’apparencedes detections de depart. Ce choix est motive par lefait que les pistes semblent mieux se comparer au ni-veau des detections, et aussi parce qu’il est plus difficilede comparer efficacement deux ensembles d’apparenceplutot que deux apparences.

Des matrices de covariance ont aussi ete testees pourdecrire l’apparence. Dans la litterature, ces descrip-teurs sont utilises tant pour le suivi [7] que pour la de-tection [10] [12], c’est ce qui nous a initialement poussea les utiliser. L’idee est d’avoir un descripteur qui uti-lise tant la position des pixels que leur couleur en ob-servant leurs correlations et pas uniquement des statis-tiques pour chaque parametres pris independamment,ce qui est, par exemple, le cas des histogrammes.

Pour s’approcher des resultats obtenus avec lescomparaisons d’histogrammes couleur, nous devionsconstruire la matrice de covariance comportant : laposition, les canaux R, G et B ainsi que les gradientsen X et Y de ces trois canaux, soit une matrice detaille 11 – cf. figure 4 pour le comparatif. Le principalprobleme des matrice de covariance reste la “distance“entre elles. Se placant dans le cadre des varietes rie-manniennes [5] pour mesurer une distance entre ma-trices de covariances, il devient difficile de comparerdeux distances faisant intervenir quatre matrices decovariances differentes, et donc la distance n’est pastheoriquement applicable au clustering.

Mouvement. La dissimilarite de mouvement va sebaser pleinement sur le fait que l’on possede des suivisdes detections, cependant elle peut aussi s’utiliser dansle cas d’une simple detection.

Pour quantifier la presence de continuite entre deuxsuivis, on procede a une interpolation de la fin d’unetrajectoire jusqu’au debut de l’autre, et vice-versa. En-suite on mesure la distance entre la position finalede l’extrapolation et le debut de l’autre trajectoire –cf figure 1. L’extrapolation est faite de maniere tressimple : en estimant la vitesse par une moyenne dedifferences finies a partir des derniers points d’uneextremite de piste. Afin d’utiliser cette mesure avecdes observations singleton, on fixe la vitesse a zero. Siles suivis sont recouvrant (ie les deux suivis ont desframes en commun), alors on moyenne les distancesspatiales sur les frames communes.

t1

t1d( , )t1 t2

extrapolation

Figure 1 – Dissimilarite de mouvements entre deuxtrajectoires non-recouvrantes.

Pour obtenir la dissimilarite de mouvement entre deux

trajectoires, on moyenne les ecarts entre les extrapo-lations d’une trajectoire et la position de l’autre tra-jectoire. Cette moyenne des deux ecarts est obtenuepar moyenne de differences finies, et est ponderee parle nombre d’elements qu’on a pu utiliser pour estimerla vitesse. En pratique on borne le nombre de diffe-rences finies pour l’estimation de la vitesse, cela afinde rendre compte d’eventuelles fortes accelerations.En notant l’intersection des frame T

ijinter =

{t1i , ..., tNi

i } ∩ {t1j , ..., tNj

j } et en supposant que z1i est

avant z1j , on definit la dissimilarite de mouvement :

– si non-recouvrement (ie Tijinter = ∅) :

dm(zi, zj) =Kidpos(zi, zj) +Kjdpos(zj , z

Ni

i )

Ki +Kj

ou zi represente la position de l’extrapolation enavant de zi et zj celle en arriere de zi, et ou Ki

(resp. Kj) est le nombre d’elements utilises pourestimer la vitesse issue de zi (resp. zj)

– si recouvrement :

dm(zi, zj) =

t∈Tij

inter

dpos(zki(t)i , z

kj(t)j )

|T ijinter|

ou ki(t) = n si tni = t et ou dpos mesure les distanceentre les positions et les tailles des deux observations.

Temps. La dissimilarite temporelle est definiecomme le plus petit ecart entre les debuts et les finsdes deux suivis a comparer :

dt(zi, zj) =

{

∞ si tmin(ti, tj) < ∆t

tmin(ti, tj) sinon

ou ∆t est fixe empiriquement et :

tmin(ti, tj) = min(|ti−tj |, |tNi

i −tNj

j |, |ti−tNj

j |, |tNi

i −tj |)

3 Evaluation

Cette section presente la methode d’evaluation mise enœuvre pour comparer les resultats, puis les videos uti-lisees pour les experimentations. Ensuite, nous mon-trons des resultats comparant les differentes methodeset dissimilarites utilisees.

3.1 Methode d’evaluation

Il existe plusieurs manieres de mesurer la qualite d’unclustering : des methodes intrinseques (en mesurantla proximite des elements d’un cluster et eloignementdes clusters) et des methodes extrinseques qui utilisentdes donnees expert. Dans notre cas, on s’interesse auxmethodes extrinseques etant donne que l’on a la pos-sibilite de classer les detections par un humain pouravoir une verite terrain.

Page 6: Clustering de visages: vers la construction automatique d’un ...Clustering de visages : vers la construction automatique d’un album photo `a partir d’une s´equence vid´eo S

L’evaluation extrinseque d’un clustering est un sujetde discussions [1] et il existe de nombreuses mesures dequalite, comme des comptages de bonnes et mauvaisespaires, des mesures de puretes ou d’entropie et leursvariantes.Pour des raisons de simplicite et d’interpretation, nousavons choisi d’utiliser une mesure se basant sur la pu-rete et la purete inverse, que nous appellerons puretede l’estimation (EP ) et purete verite-terrain (GTP ).Par la suite on designera un clustering obtenu par unalgorithme par “clustering estime” en opposition auclustering de la verite-terrain.

EP

GTP

GT

E

= 10/14

= 8/14

on voit que les minima des puretes ne sont pas nuls,mais des constantes dependant uniquement du nombrede detections et du plus grand cluster de la verite ter-rain. Afin de mieux pouvoir comparer differents algo-rithmes de regroupement des detections, nous avonsapporte des modifications pour ramener les EP etGTP minimales a 0.

EPn =EP − EPmin

1− EPmin

GTPn =GTP −GTPmin

1−GTPmin

La partition est meilleure quand EP et GTP sonttoutes les deux proches de 1, la F -mesure entre EPn

et GTPn peut etre employee pour mesurer la qualited’un clustering. Elle est definie par :

F = 2EPn ×GTPn

EPn +GTPn

Dans notre cas, il semble interessant de ne pas cou-pler EP et GTP dans une F -mesure. Premierement

Page 7: Clustering de visages: vers la construction automatique d’un ...Clustering de visages : vers la construction automatique d’un album photo `a partir d’une s´equence vid´eo S

Figure 3 – Apercu des videos utilisees pour l’experi-mentation. Gauche : defile, droite : lasmea

la proportion de pixels de peau ne depasse pas un seuilfixe ont ete enlevees. Etant donne que notre etude neporte pas sur la detection, nous nous sommes permisde choisir empiriquement un seuil qui paraissait conve-nable pour notre experimentation.

Procede experimental. Nous comparons l’ap-proche MAP avec un clustering hierarchique single-link basee sur la meme mesure de dissimilarite que lamethode MAP, sur les bases lasmea et defile, en utili-sant le critere EP-GTP pour les cas suivants :

– differentes mesures d’apparence : correlation croi-see normalisee (zncc), matrice de covariance(position, RGB et gradients RGB) avec dis-tances riemanniennes (CovMatRGBgg), distance deBhattacharyya entre histogrammes RGB (Bhat-tacharyyaRBG) et entre histogrammes HS-V(BhattacharyyaHS-V )

– avec et sans prise en compte de l’information spatio-temporelle

– avec et sans construction de pistes.

3.3 Resultats

La figure 4 montre l’evolution du couple EP-GTP aucours des iterations des algorithmes. On constate queles differentes mesures d’apparence sont assez proches.Pour la suite, l’histogramme HS-V a ete choisi parcequ’il est legerement plus pertinent que les autres pourle MAP et sur la video defile.

Des resultats comparant le clustering hierarchique etla methode basee sur le MAP sont donnes a la figure 5.

EP

GTP

defile (hierarchical)

EP

GTP

lasmea(hierarchical)EP

GTP

defile (MAP)

CovMatRGBgg

EP

GTP

lasmea (MAP)

Figure 4 – Diagramme EP-GTP comparant diffe-rentes dissimilarites d’apparence.

On voit que la methode MAP est meilleure tant avecles dissimilarites issues de Pm et Pt que sans. Celaexplique que la methode MAP est plus adaptee auprobleme que le clustering hierarchique. En ajoutantles pistes aux detections (figure 6), on peut voir quela simple methode de clustering hierarchique approcheles resultats obtenus par le MAP. Toutefois il est im-portant de noter que les graphiques representent lesdifferentes solutions par lequel l’algorithme est passe,et que le clustering hierarchique ne fournit pas directe-ment une solution contrairement a la methode MAP.

3.4 Synthese

Sur la plupart des experimentations, la methode MAPest plus efficace que le clustering hierarchique, maissurtout MAP permet de selectionner une solution.Pour ce qui est de l’ajout du suivi aux detections, leclustering hierarchique nous montre qu’une informa-tion est bien ajoutee et que les resultats sont meilleurs,dans le cas du MAP l’apport est moins flagrant.

4 Conclusion et perspectives

Nous avons propose une methode permettant de re-grouper par personnes les detections de visages obte-nues sur une sequence video. Cette derniere est uneextension des travaux de [14] au cas ou les detectionssont enrichies par des pistes.Une methodologie de comparaison des performancespour differents algorithmes et dissimilarites a ete pre-sentee. Des experimentations sur des donnees reellesont permis de montrer l’apport de la methode par rap-port a l’etat de l’art. Neanmoins des experimentationscomplementaires, sur un plus grand nombre de videos,doivent etre realisees pour confirmer cette conclusion.Un interet de la methode presentee est qu’elle pourraitetre utilisee de maniere iterative, afin de traiter encore

Page 8: Clustering de visages: vers la construction automatique d’un ...Clustering de visages : vers la construction automatique d’un album photo `a partir d’une s´equence vid´eo S

EP

GT

P

MAP + ST

Figure 5 – Diagramme EP-GTP comparant les deux algorithmes avec et sans dissimilarites spatio-temporelles(ST). Gauche : defile, droite : lasmea

EP

GT

P

0 0.25 0.5 0.75 10

0.25

0.5

0.75

1

EP

GT

P

MAP

hierarchical

MAP track

hierarchical track

Figure 6 – Exemple de diagramme EP-GTP comparant les deux algorithmes avec ou sans suivis (en avant et enarriere) au prealable. Les ronds representent l’optimum trouve. Gauche : defile, droite : lasmea

plus efficacement de longues pertes de detections parnotamment un apport en precision des extrapolationsdes pistes.

References

[1] E. Amigo, J. Gonzalo, J. Artiles, and F. Verdejo.”a comparison of extrinsic clustering evaluationmetrics based on formal constraints”. InformationRetrieval, 12(4) :461–486, 2009.

[2] F. Bardet, T. Chateau, and D. Ramadasan. ”illu-mination aware mcmc particle filter for long-termoutdoor multiobject tracking and classification”.ICCV, 2009.

[3] J. Berclaz, F. Fleuret, and P. Fua. ”multipleobject tracking using flow linear programming”.(10), 2009.

[4] C. Huang, B. Wu, and R. Nevatia. ”robust objecttracking by hierarchical association of detection

responses”. Computer Vision–ECCV 2008, pages788–801, 2008.

[5] Xavier Pennec, Pierre Fillard, and NicholasAyache. ”a riemannian framework for tensor com-puting”. Int. J. Comput. Vision, 66(1) :41–66,2006.

[6] P. Perez, C. Hue, J. Vermaak, and M. Gangnet.”color-based probabilistic tracking”. ComputerVision—ECCV 2002, pages 661–675, 2002.

[7] Fatih Porikli, Oncel Tuzel, and Peter Meer. ”co-variance tracking using model update based on liealgebra”. 2005.

[8] N. Rahman, K. Wei, and J. See. ”rgb-h-cbcr skincolour model for human face detection”. 2006.

[9] Andreas Stergiou, Ghassan Karame, AristodemosPnevmatikakis, and Lazaros Polymenakos. ”theait 2d face detection and tracking system for clear2007”. pages 113–125, 2008.

Page 9: Clustering de visages: vers la construction automatique d’un ...Clustering de visages : vers la construction automatique d’un album photo `a partir d’une s´equence vid´eo S

[10] Oncel Tuzel, Fatih Porikli, and Peter Meer. ”re-gion covariance : A fast descriptor for detectionand classification”. pages 589–600, 2006.

[11] Paul Viola and Michael Jones. ”rapid object de-tection using a boosted cascade of simple fea-tures”. Computer Vision and Pattern Recog-nition, IEEE Computer Society Conference on,1 :511–I–518 vol.1, 2001.

[12] Jian Yao and Jean-Marc Odobez. ”fast humandetection from videos using covariance features”.2008.

[13] Qian Yu and Gerard Medioni. ”multiple-targettracking by spatiotemporal monte carlo mar-kov chain data association”. IEEE Transactionson Pattern Analysis and Machine Intelligence,31(12) :2196–2210, 2009.

[14] L. Zhang, Y. Li, and R. Nevatia. ”global data as-sociation for multi-object tracking using networkflows”. 2008.