main

Upload: gw17

Post on 15-Jul-2015

40 views

Category:

Documents


0 download

TRANSCRIPT

Thse de doctorat de lUniversit Pierre et Marie Curie Spcialit : Informatique

prsente par

Guillaume Wisniewskipour obtenir le grade de Docteur de lUniversit Paris VI Pierre-et-Marie-Curie

Apprentissage dans les espaces structursApplications ltiquetage de squences et la transformation automatique de documents

soutenue publiquement le 29 novembre 2007 devant le jury compos de Youns Bennani Patrick Gallinari ric Gaussier Marc Sebban Marc Tommasi Franois Yvon Professeur lUniversit de Paris Nord (Paris 13) Professeur lUniversit Pierre et Marie Curie (Paris 6) Professeur lUniversit Joseph Fourier (Grenoble 1) Professeur lUniversit Jean-Monnet, Saint-tienne Matre de Confrences, HDR lUniversit de Lille 3 Professeur lUniversit Paris Sud (Paris 11) examinateur directeur de thse examinateur examinateur rapporteur rapporteur

,

RemerciementsLongtemps, je me suis imagin le bonheur que jaurais crire ces remerciements, point nal dune longue et dicile rdaction. Maintenant que je me trouve devant une page blanche, je me rends compte que leur rdaction est une tche au moins aussi complique que lcriture dune thse : ce travail est le rsultat de tant de discussions, de conseils et de rencontres qunumrer, sans omission, tous ceux qui y ont pris part est une tche gargantuesque. Je tiens toutefois remercier tout particulirement : Patrick Gallinari pour la conance quil ma accorde en maccueillant dans son quipe puis durant ces trois annes. Je le remercie de la libert quil ma donne dans ce travail et davoir toujours russi me consacrer du temps malgr son emploi du temps lunaire . Marc Tommasi et Franois Yvon pour avoir accept la charge de rapporteur de ce mmoire. Youns Bennani, ric Gaussier et Marc Sebban pour leur participation mon jury de thse. Les participants aux projets ACI MDD et ATASH pour leurs nombreuses discussions qui ont permis de faire merger certaines des problmatiques et des mthodes prsentes dans ce travail. Henry Soldano et Daniel Kayser, respectivement Matre de Confrences et Professeur lUniversit de Paris 13 de mavoir initi une autre facette passionnante du mtier denseignant-chercheur. Jai beaucoup appris leur contact et je tiens les remercier de tout cur de mavoir intgr leur quipe et de mavoir fait conance. Nicolas Usunier pour ses nombreux gratis sur mes dirents articles et sur ce manuscrit, mais aussi pour les discussions qui les ont accompagns. Celles-ci ont jou un rle essentiel dans le dveloppement de ce travail et ce manuscrit nest quun ple reet de tout ce quelles mont apport. Jean-Franois Pessiot qui, nonobstant son dernier d, sest rvel dun soutien fort apprciable pendant cette thse et plus particulirement durant toute la dure de la rdaction. Ludovic Denoyer qui ma lanc sur les premis pistes de recherche dont est issu ce travail. Ghislaine Mary, Jacqueline Le Baquer, Christophe Bouder, Vincent Cuzzin et toute lquipe administrative et technique du LIP6 qui se sont bien souvent mis en quatre pour faciliter ma vie quotidienne au laboratoire. Lensemble de lquipe connex et des autres quipes des dpartements DAPA et DSIR qui ont rendu ces annes deort beaucoup plus agrables : Juliette, Lucie, Jean-Franois, Francis, Vinh, Marc-Ismael, Alexander, Jean-Nol, Antoine, Henri, Massih, Nicolas, Vincent, Julien et Julien et tous les autres... Tous mes amis et lensemble de ma famille qui mont soutenu et support depuis de nombreuses annes.

6 Tous les doctorants que jai rencontrs loccasion de confrences, dcoles dt ou de formations et qui mont introduit des domaines et des problmatiques de recherche dont je naurais jamais souponn lexistance. Leur enthousiasme ma bien souvent rappel les raisons qui mont pouss faire une thse. Ce travail doit aussi beaucoup tout ceux qui, au cours de ces trois dernires annes, mont montr ce quil ne fallait pas faire...

RsumDe nombreux problmes dapprentissage consistent prdire des squences, des arbres ou des graphes. Contrairement aux problmes de classication usuels, ces sorties sont structures : elles se dcomposent en un ensemble dlments, dont les tiquettes sont interdpendantes. Lapprentissage de fonctions utilisant ces dpendances entre tiquettes durant linfrence, appel apprentissage structur, est un sous-domaine de lapprentissage statistique qui sest rcemment fortement dvelopp. Ltude de ces direntes mthodes dapprentissage structur constitue la premire partie de cette thse. Nous y dcrivons notamment lapplication de ces mthodes sur une tche dtiquetage de squences et sur une tche de prdiction darbres. Cette dernire tche est directement motive par la problmatique gnrale dautomatisation de la transformation de documents structurs qui est, aujourdhui, au cur de plusieurs problmatiques daccs linformation. Dans une deuxime partie de ce travail, nous nous sommes intress deux limites des modles existants qui rendent ceux-ci inapplicables de nombreux problmes pratiques : leur complexit leve et leur expressivit limite qui ne leur permet de ne considrer que des dpendances locales. Nous proposons daborder ce problme sous langle de la slection de caractristiques et dcrivons une mthode dtiquetage de squences reprsentant les dpendances par des contraintes, ce qui lui permet dextraire ecacement les dpendances non locales et de les utiliser en infrence tout en conservant une complexit faible.

8

Table des matires1 Introduction 1.1 Problmatiques abordes . . . . . . . . . . . . . . . . . . 1.1.1 Travaux dans le cadre de lapprentissage structur . 1.1.2 Application la transformation de documents . . . 1.2 Organisation du document . . . . . . . . . . . . . . . . . 1.3 Bibliographie personnelle . . . . . . . . . . . . . . . . . . Texte et structure 2.1 Utilisation de la structure pour accder linformation . 2.1.1 Deux paradigmes daccs linformation . . . . 2.1.2 Crossing the structure chasm . . . . . . . . . . . 2.1.3 Exemple dapplications smantiques . . . . . . . 2.2 Reprsentation structure des documents web . . . . . . 2.2.1 Dirents types de structures . . . . . . . . . . . 2.2.2 Limites des formats smantiques . . . . . . . . . 2.3 Problmatique de restructuration . . . . . . . . . . . . . 2.3.1 Besoin de transformer les structures . . . . . . . 2.3.2 Le HTML comme format pivot . . . . . . . . . 2.3.3 Ncessit dautomatiser la restructuration . . . . 2.4 tat de lart . . . . . . . . . . . . . . . . . . . . . . . . 2.4.1 Sur les technologies smantiques et leurs limites 2.4.2 En base de donnes . . . . . . . . . . . . . . . . 2.4.3 En transformation de documents . . . . . . . . . 2.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . Apprentissage statistique 3.1 Principe de lapprentissage statistique . . . . 3.1.1 Pourquoi lapprentissage statistique ? 3.1.2 Formalisation . . . . . . . . . . . . . 3.2 Modles de classication supervise . . . . . 3.2.1 Le perceptron . . . . . . . . . . . . . 3.2.2 La rgression logistique . . . . . . . 3.2.3 Les machines vecteurs de support . 3.2.4 Les noyaux . . . . . . . . . . . . . . 3.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 20 20 22 24 25 27 28 28 30 33 37 39 41 44 44 46 48 49 49 50 52 53 55 55 55 57 59 63 66 67 70 74

2

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . .

3

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

. . . . . . . . .

10 4

Table des matires Apprentissage statistique dans les espaces structurs 4.1 Dnition de lapprentissage structur . . . . . . . . . . . . . . . 4.1.1 Exemples de tches de prdiction structure . . . . . . . . 4.1.2 Dnition de lapprentissage structur . . . . . . . . . . . 4.1.3 Dnition alternative . . . . . . . . . . . . . . . . . . . . 4.2 Cadre gnral pour lapprentissage structur . . . . . . . . . . . . 4.2.1 Classication multi classes gnralise . . . . . . . . . . 4.2.2 Les direntes problmatiques de lapprentissage structur 4.2.3 Organisation de ltat de lart . . . . . . . . . . . . . . . 4.3 Approches existantes pour lestimation des paramtres . . . . . . 4.3.1 Modles gnratifs . . . . . . . . . . . . . . . . . . . . . 4.3.2 Champs Conditionnels Alatoires . . . . . . . . . . . . . 4.3.3 Perceptron pour les sorties structures . . . . . . . . . . . 4.3.4 Modles maximisant la marge . . . . . . . . . . . . . . . 4.3.5 Performances des direntes mthodes destimation . . . 4.4 Mthode dinfrence : lalgorithme de Viterbi . . . . . . . . . . . 4.4.1 Principe de la programmation dynamique . . . . . . . . . 4.4.2 Algorithme de Viterbi . . . . . . . . . . . . . . . . . . . 4.4.3 Limites de lalgorithme de Viterbi . . . . . . . . . . . . . 4.5 Acclrer linfrence grce des mthodes approches . . . . . . 4.5.1 Mthodes dinfrence gloutonne . . . . . . . . . . . . . . 4.5.2 Les mthodes dapprentissage structur incrmentales . . 4.6 La prise en compte de dpendances non locales . . . . . . . . . . 4.6.1 Utilisation de variables caches . . . . . . . . . . . . . . 4.6.2 Mthodes dinfrence alternatives . . . . . . . . . . . . . 4.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 76 77 79 83 85 85 85 87 89 89 90 94 94 98 100 101 102 104 106 107 110 113 114 115 119

. . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . .

5

Modles dapprentissage pour la restructuration 121 5.1 Cadre gnral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 5.1.1 Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 5.1.2 Application de lapprentissage structur la restructuration . . 123 5.1.3 valuation des mthodes de restructuration . . . . . . . . . . 125 5.2 Modle gnratif pour la restructuration . . . . . . . . . . . . . . . . 128 5.2.1 Modle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 5.2.2 Modle gnratif de documents . . . . . . . . . . . . . . . . 131 5.2.3 Rsultats exprimentaux . . . . . . . . . . . . . . . . . . . . 136 5.2.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . 138 5.3 R-ordonnancement pour la restructuration . . . . . . . . . . . . . . 140 5.3.1 Premier modle . . . . . . . . . . . . . . . . . . . . . . . . . 141 5.3.2 Caractristiques utilises . . . . . . . . . . . . . . . . . . . . 142 5.3.3 Rsultats exprimentaux . . . . . . . . . . . . . . . . . . . . 144 5.3.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 5.4 Prise en compte de la suppression dlments grce au r-ordonnancement145 5.4.1 Modle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 5.4.2 Rsultats exprimentaux . . . . . . . . . . . . . . . . . . . . 149 5.4.3 Discussion : apport des mthodes de r-ordonnancement . . . 151 5.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151

Table des matires 6 Modle dtiquetage de squences partir de classieurs locaux 6.1 Analyse des mthodes dtiquetage de squences . . . . . . . 6.1.1 Mthode dtiquetage existantes . . . . . . . . . . . . 6.1.2 Limites des mthodes existantes . . . . . . . . . . . . 6.1.3 Quand linformation de structure est-elle utile ? . . . . 6.2 tiquetage de squences partir de classieurs locaux . . . . . 6.2.1 Combinaison des dcisions locales . . . . . . . . . . . 6.2.2 Slection des dpendances . . . . . . . . . . . . . . . 6.2.3 Avantages . . . . . . . . . . . . . . . . . . . . . . . . 6.2.4 Rsultats exprimentaux . . . . . . . . . . . . . . . . 6.3 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . Conclusion 7.1 Rsum de notre travail . . . . . . . . . . . . . . . . 7.2 Perspectives . . . . . . . . . . . . . . . . . . . . . . 7.2.1 Dans le domaine de laccs linformation . 7.2.2 Dans le domaine de lapprentissage structur

11 153 154 154 157 160 164 164 167 169 170 173

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

. . . . . . . . . .

7

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

175 . 175 . 176 . 176 . 177 179

Bibliographie

12

Table des matires

Table des gures1.1 Intrt de linfrence jointe : la prise en compte la lettre prcdente et la lettre suivante facilite la reconnaissance de la deuxime lettre . . . Exemple dun thread de commentaires sur Slashdot . . . . . . . . . . Direntes reprsentations dun document (une version prliminaire du dbut de ce chapitre) . . . . . . . . . . . . . . . . . . . . . . . . . Illustration de lapproche propose par [Buyukkokten et al., 2001] (limage est extraite de larticle) : plutt que dacher la page web dans sa totalit, on ache la structure logique du document en rsumant pour chaque lment le contenu de celui-ci . . . . . . . . . . . . Dcoupage dune page web selon sa structure pour faciliter la navigation sur un tlphone portable : il est possible dagrandir sparement chaque zone dlimite (image extraite de [Baluja, 2006]) . . . . . . . Ngotation de rendez-vous entre plusieurs agents du web smantique (exemple repris de [Berners-Lee et al., 2001]) . . . . . . . . . . . . . Extrait de documents HTML et XML : des balises (en bleu) sont mlangs avec le contenu textuel du document (en noir) . . . . . . . . . Arbre DOM associ au document dcrit Figure 2.6 : les lments sont constitus par les nuds rectangulaires et les relations par les nuds ellipsodaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Illustre la dicult de prvoir, priori, un modle de donnes universel : le systme de classication de Dewey . . . . . . . . . . . . . . . Direntes scnes de la vie quotidienne montrant que notre monde est fondamentalement htrogne et surprenant (illustrations reprises de [Girardin, 2007]) . . . . . . . . . . . . . . . . . . . . . . . . . . . . Reprsentation graphique de direntes fonctions de cot. Toutes ces fonctions sont des approximations convexes de la fonction de cot 0/1 (courbe bleue) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Principe de la classe de classieur tudie : une fonction de score F mesure la compatibilit entre une observation (ici, limage dun poisson) et lensemble des tiquettes possibles (ici, une liste danimaux) ; ltiquette la plus compatible est choisie . . . . . . . . . . . . . . . . Reprsentation dun ensemble dobservations et de deux hyperplans correspondant deux fonctions de score F direntes . . . . . . . . . Illustration de la notion de marge dun ensemble de donnes () et de marge fonctionnelle dun exemple (i ) . . . . . . . . . . . . . . . . . 20 32 34

2.1 2.2 2.3

36

2.4

36 38 39

2.5 2.6 2.7

40 43

2.8 2.9

45

3.1

60

3.2

60 62 64

3.3 3.4

14 3.5 3.6 3.7 3.8

Table des gures Illustration des dirents lments utiliss dans une SVM : la marge et les vecteurs supports reprsents par les points entours de rouge . Dnition de la marge dun exemple pour la SVM multi classes . . . Principe de la transformation eectue, de manire implicite, par un noyau pour simplier la tche de classication . . . . . . . . . . . . . Un arbre et lensemble de ses fragments (larbre complet est considr comme un fragment) . . . . . . . . . . . . . . . . . . . . . . . . . . Reconnaissance de lcriture : une squence dimages reprsentant des lettres, on associe un mot (exemple repris de [Taskar, 2004]) . . . Analyse syntaxique de surface : la squence de mots en entre, on associe une squence de triplets (tiquette, position de dbut, position de n) (exemple est repris de [Wallach, 2002]) . . . . . . . . . . . . . Analyse syntaxique : lentre est une phrase (squence de mots), la sortie un arbre dcrivant les dirents constituants de la phrase . . . . Alignement mot mot de phrases dans une tche de traduction automatique : lobjectif est de mettre en correspondance les mots anglais et les mots franais ayant le mme sens (exemple repris de [Taskar et al., 2005]) . . . . . . . . . . . . . . . . . . . . . . . . . . Dcomposition dun arbre en un vecteur . . . . . . . . . . . . . . . . Typologie des dirents travaux existants en prdiction structure (les lments marqus dune astrisque sont ceux apparaissant dans plusieurs catgories) . . . . . . . . . . . . . . . . . . . . . . . . . . . . Espace de recherche considr par lalgorithme de Viterbi dans le cas de la chane de Markov de la Figure 4.8 . . . . . . . . . . . . . . . . Chane de Markov utilise dans les exemples de la Section 4.4.2 . . . Treillis de Viterbi correspondant une squence de quatre lments gnre par la chane de Markov de la Figure 4.8 . . . . . . . . . . . Simulation de lalgorithme de Viterbi. Les transitions noires indiquent les transitions testes , les transitions rouges, les transitions de plus grand score qui sont retenues . . . . . . . . . . . . . . . . . . . . . . Premires tapes dun exemple dinfrence gloutonne : une pile maintient lensemble des dcisions possibles et, chaque tape, la solution aboutissant le plus probablement la solution optimale est eectue . Espace de recherche considr lors de ltiquetage dune squence de deux lments dans un ordre alatoire . . . . . . . . . . . . . . . . . Deux manires direntes de modliser linteraction entre des lments voisins . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Description des dpendances non locales par une hirarche de variables caches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Exemple de dpendances du type label consistency : on ajoute une dpendance entre les observations identiques pour imposer que celle-ci ait la mme tiquette . . . . . . . . . . . . . . . . . . . . . . . . . . Exemples de contraintes utilises dans [Roth et tau Yih, 2005] . . . .

68 69 71 73

4.1 4.2

76

78 78

4.3 4.4

4.5 4.6

79 80

88 102 102 103

4.7 4.8 4.9 4.10

105

4.11

109 113 114 115

4.12 4.13 4.14 4.15

4.16 5.1 5.2

116 118

Reprsentation dun document XML par un arbre . . . . . . . . . . . 123 Transformation dun fragment de page HTML en XML : lobjectif est didentier les noms dacteur et les noms de personnage, puis de dterminer le rle jou par chaque acteur . . . . . . . . . . . . . . . . . . 124

Table des gures 5.3 valuation de la restructuration : comparaison entre la sortie attendue dout et la sortie prdite d ; les tiquettes en rouge sont celles qui sont considres comme des erreurs . . . . . . . . . . . . . . . . . . . . . Le rseau baysien modlisant le processus de gnration dun document dans le cas de la restructuration : les documents d et din sont gnrs partir de la reprsentation abstraite h en appliquant respectivement les modles de document pout et pin . . . . . . . . . . . . . . Productions dune grammaire hors-contexte simple . . . . . . . . . . Les deux arbres de drivation possible pour la phrase a a a a . . . . Productions dune grammaire hors-contexte probabiliste simple . . . Deux caractrisations des documents produits par une source de documents : un schma (DTD) et une PCFG (dont le modle de contenu est illustr sur lexemple dune squence de trois feuilles (c1 , c2 , c3 )) . . . Document XML dont le score est donn par lquation 5.4 ; le contenu des feuilles nest pas explicit . . . . . . . . . . . . . . . . . . . . . Traduction dun schma en grammaire . . . . . . . . . . . . . . . . . Code python de lalgorithme CYK . . . . . . . . . . . . . . . . . . . PCFG utilise pour gnrer les documents de la Figure 5.13 . . . . . . Exemple (jouet) de restructuration : le document (a) peut tre transform soit en (b), soit en (c). La similarit entre le document dentre et le document de sortie permet de choisir la bonne solution ; la PCFG dcrivant la source de ces documents est donne la Figure 5.12 . . . Principe de lapproche de r-ordonnancement . . . . . . . . . . . . . Application motivant la transformation du corpus News : visualisation des threads de commentaires dun site de news de manire plus lisible

15

128

5.4

5.5 5.6 5.7 5.8

130 132 132 133

134 134 135 137 143

5.9 5.10 5.11 5.12 5.13

5.14 5.15

144 148 149

6.1

6.2 6.3 6.4

Probabilit conditionnelle p(yi |yi1 ) sur le corpus Handwritten-large : chaque ligne et chaque colonne correspondent une lettre de lalphabet, et la taille du carr est proportionnelle la probabilit p(yi |yi1 ) . 158 Direntes manires de prendre en compte la structure dans le cas de ltiquetage dune squence de trois lments . . . . . . . . . . . . . 160 Codage BIO pour la dtection des groupes nominaux . . . . . . . . . 170 Extrait dun document du corpus Courses . . . . . . . . . . . . . . . 172

16

Table des gures

Liste des tableaux2.1 Synthse des direntes caractristiques de donnes structures et non structures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

4.1 4.2 4.3 4.4

4.5 4.6

Exemple de caractristiques dcrivant lentre utilises dans un CRF (tableau repris de [Sutton et McCallum, 2006]) . . . . . . . . . . . . 91 valuation des direntes approches dapprentissage structur (tableau repris de [Nguyen et Guo, 2007]) . . . . . . . . . . . . . . . . . . . . 99 Rsultats obtenus par deux implmentations direntes des CRF : Mallet et FlexCRF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 valuation de quatre mthodes sur dirents corpus. Un tiret () indique que la complexit de lapprentissage ne permet pas de raliser lexprience . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 Temps dapprentissage des dirents algorithmes dtiquetage de squences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 Synthse des dirents travaux proposant proposant une mthode alternative pour parcourir lespace de recherche . . . . . . . . . . . . . 110 Caractristiques des dirents corpus utiliss. La premire partie du tableau correspond aux corpus dvelopps dans le cadre de ce travail, la deuxime aux corpus mis disposition par dautres chercheurs . . . Rsultats du modle gnratif (les tirets indiquent que lexprience ne peut tre ralise) ; ces expriences ont t ralise par Francis Maes . Exemples des trois types de caractristiques utilises pour dcrire les nuds de contenu . . . . . . . . . . . . . . . . . . . . . . . . . . . . Rsultat de reconstruction sur les deux corpus . . . . . . . . . . . . . Rsultats de nos expriences : la mesure dvaluation est celle prsente au Paragraphe 5.1.3 et les tirets longs indiquent que la mesure nest pas pertinente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5.1

125 139 142 146

5.2 5.3 5.4 5.5

151

6.1 6.2 6.3

valuation de quatre mthodes sur direntes tches dtiquetage de squences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156 valuation de [Nguyen et Guo, 2007] sur une tche danalyse syntaxique de surface . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 Rsultats des direntes expriences dtiquetage de squences sur diffrentes tches ; le modle Grammar na pas pu tre utilis pour la tche de chunking dans la mesure o nous ne disposons pas dune grammaire de la langue anglaise . . . . . . . . . . . . . . . . . . . . 171

18

Liste des tableaux

1Introduction

Sommaire1.1 Problmatiques abordes . . . . . . . . . . . . . . . . . 1.1.1 Travaux dans le cadre de lapprentissage structur . 1.1.2 Application la transformation de documents . . . Organisation du document . . . . . . . . . . . . . . . . Bibliographie personnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 20 22 24 25

1.2 1.3

Je naime pas les discussions. Elles me font parfois changer davis. Oscar Wilde a thorie de lapprentissage statistique supervis repose sur lhypothse fondamentale que les donnes sont gnres de manire indpendante. Les mthodes dveloppes dans ce cadre sont parfaitement adaptes pour traiter des problmes de prdiction simple dont la sortie est constitue par une unique tiquette choisie dans un ensemble de petite taille comme cest le cas pour la classication binaire ou la classication multi classes. Pourtant, de nombreux problmes rels consistent prdire plus quun simple oui/non ou quune rponse une question choix multiples. En eet, dans de nombreuses applications, les sorties sont des squences, des arbres ou des graphes. Contrairement aux problmes de classication usuels, ces sorties sont structures : elles se dcomposent en un ensemble dlments tiquets interdpendants. cause de ces dpendances ou relations entre lments, seules certaines combinaisons dtiquettes sont possibles et certaines combinaisons dtiquettes sont plus frquentes que dautres. La prdiction dune sortie structure revient choisir une tiquette pour chacun des lments la composant. Il est naturel, dans ce choix, dutiliser les dpendances entre lments pour amliorer les performances en prdiction en choisissant les tiquettes de tous les lments simultanment plutt quindividuellement. Ainsi, dans le cas de la reconnaissance de lcriture, illustr Figure 1.1, il est ncessaire de prdire ltiquette de chaque lettre pour prdire ltiquette dun mot et les dpendances entre les direntes lettres dun mot facilitent la prdiction : dans le cas de la reconnaissance du franais, on sait, par exemple, quil est impossible que trois lettres conscutives soient tiquetes d et que, si lon a reconnu un q, il est fort probable que la lettre suivante soit un u. Toutefois, cette infrence jointe des tiquettes remet en cause lhypothse fondamentale de lapprentissage statistique qui suppose que les donnes sont gnres de

L

20

Introduction

Figure 1.1 Intrt de linfrence jointe : la prise en compte la lettre prcdente et la lettre suivante facilite la reconnaissance de la deuxime lettre manire indpendante. La prise en compte des dpendances entre lments ncessite donc ltablissement de nouveaux cadres formels et de nouveaux algorithmes dapprentissage. Lapprentissage dans les espaces structurs que nous appellerons, par commodit, apprentissage structur, est un formalisme propos rcemment pour rpondre ces besoins : il a pour objectif de dvelopper des mthodes capables dexploiter les dpendances entre tiquettes pour amliorer les performances de prdiction. Ltude des dirents cadres et mthodes dapprentissage structur constitue la premire problmatique de cette thse. Nous nous sommes plus particulirement intress deux limites des modles existants qui rendent ceux-ci inapplicables de nombreux problmes pratiques : leur complexit leve et leur expressivit limite qui ne leur permet de ne considrer que certains types de dpendances. Nous avons propos des solutions originales ces deux problmes. Nous nous sommes galement intress, dans ce travail, la problmatique gnrale dautomatisation de la transformation de documents et plus particulirement lapplication des techniques dapprentissage structur la transformation de documents HTML en documents XML respectant un schma donn. Cette tche est, aujourdhui, au cur de plusieurs problmatiques daccs linformation. Cette transformation peut tre vue comme une tche de prdiction darbres et permet dillustrer les dirents problmes rencontrs par les mthodes dapprentissage structur ainsi que leurs solutions. Cette application a servi de l conducteur et de motivation une grande partie de nos travaux et constitue la deuxime problmatique de cette thse.

1.11.1.1

Problmatiques abordesTravaux dans le cadre de lapprentissage structur

Pour la clart de la prsentation, nous nous concentrerons, dans la suite de ce paragraphe, sur lexemple de la tche dtiquetage de squences. Mais, comme nous le verrons tout au long de ce travail, les remarques que nous allons faire et les problmatiques que nous allons dgager peuvent tre directement gnralises aux autres tches de lapprentissage structur. Ltiquetage de squences consiste attribuer une tiquette chaque lment dune squence dobservations. Les squences dtiquettes prsentent gnralement des dpendances qui facilitent la prdiction soit en rduisant lensemble des tiquettes quun lment peut prendre, soit en indiquant des combinaisons dtiquettes plus frquentes. La reconnaissance de lcriture est une application typique de ltiquetage de squences.

1.1 Problmatiques abordes

21

Contexte De nombreux modles dapprentissage structur ont t proposs pour exploiter au mieux linformation apporte par la structure des tiquettes cest-dire lensemble des dpendances entre tiquettes lors de la prdiction. Ces modles adoptent tous la mme approche et considrent lapprentissage structur comme une gnralisation de la classication multi classes : ils cherchent apprendre une fonction mesurant ladquation entre une squence dobservations et chacune des squences dtiquettes possibles. Une fois apprise, cette fonction permet, lors de la prdiction, de discriminer la meilleure solution parmi toutes les solutions possibles. Lapprentissage structur prsente toutefois une dirence majeure avec la classication multi classes : le nombre de sorties que lon peut associer avec une squence dobservations donne est gnralement trs grand : il y a mn direntes faons dtiqueter une squence de n observations si lensemble des tiquettes possibles comporte m lments. Cette dirence est la cause de la premire dicult rencontre par les mthodes dapprentissage structur : la complexit (calculatoire) de linfrence. En eet, choisir une tiquette pour chacun des lments composant la sortie est un problme combinatoire cest--dire un problme qui ncessite de regrouper, dordonner ou dtiqueter un ensemble discret de composants en respectant un certain nombre de contraintes. Les problmes combinatoires sont notoirement diciles rsoudre : il nest, notamment, pas possible dvaluer directement le score de toutes les sorties possibles pour dterminer la meilleure, comme on le fait dans le cas de la classication multi classes. Les mthodes dapprentissage structur doivent galement faire face une deuxime dicult lie au nombre de paramtres quelles doivent estimer : les dpendances entre tiquettes sont gnralement dcrites par des caractristiques et il y aura donc dautant plus de paramtres estimer quil y aura de dpendances considrer. Pour rsoudre ces deux problmes, les approches dapprentissage structur ont traditionnellement fait une hypothse de Markov en ne considrant que les dpendances entre deux lments conscutifs. Cette hypothse permet de limiter le nombre de paramtres estimer et de dterminer ecacement la meilleure solution grce un algorithme de programmation dynamique. La programmation dynamique ore une alternative lvaluation du score de toutes les sorties en construisant directement la meilleure sortie partir des tiquettes de chacune des observations. Lhypothse de Markov est toutefois lorigine de deux problmes : i) la complexit de linfrence reste, dans de nombreux cas, leve ; ii) les modles faisant une hypothse de Markov imposent de ne prendre en compte que les dpendances locales entre tiquettes voisines et ne permettent pas de considrer dautres dpendances, mme si celles-ci sont juges pertinentes. Contributions Nous introduisons et formalisons, au Chapitre 4, la problmatique dapprentissage structur. Cette formalisation nous permet de prsenter dans un cadre uni les direntes mthodes dapprentissage structur de ltat de lart. Nous proposons galement aux Chapitres 4 et 5 une tude exprimentale des direntes approches existantes en apprentissage structur : nous dcrivons leur mise en uvre sur une tche dtiquetage de squences et sur une tche de prdiction darbres et valuons les performances des direntes mthodes sur plusieurs corpus. Cette prsentation et ces tudes exprimentales nous permettent de mettre en vidence les causes des problmes des mthodes dapprentissage structur que nous avons esquisses au paragraphe prcdent.

22

Introduction

Plusieurs mthodes ont t proposes pour traiter lun ou lautre de ces problmes. Il nexiste toutefois pas encore dapproche capable de considrer des dpendances non locales tout en maintenant une complexit faible. Nous proposons daborder ce problme sous un angle original, celui de la slection de caractristiques. Plus prcisement, nous considrerons que la structure nest quune caractristique parmi dautres et que, comme toutes les caractristiques, la prise en compte de celle-ci a un cot (infrence plus longue et dicult de lestimation des paramtres). Il est donc ncessaire quun modle dapprentissage structur puisse slectionner automatiquement les dpendances pertinentes qui amliorent les performances de prdiction et nutiliser que celles-ci. La mise en uvre de cette ide se heurte deux dicuts. La premire est due limpossibilit dutiliser les mthodes dinfrence habituelles : comme nous lavons mentionn au paragraphe prcdent, ces mthodes ne peuvent prendre en compte que les dpendances entre deux lments conscutifs. La seconde est due la dicult dvaluer les dpendances pertinentes : les mthodes de slection de caractristiques usuelles reposent sur lutilisation de critres issus de la thorie de linformation dont lvaluation repose sur lestimation de lois de probabilit jointes. Il est donc ncessaire de disposer dun grand nombre de donnes tiquetes pour pouvoir valuer ceux-ci, ce qui nest gnralement pas le cas. Pour contourner ces dicults, nous proposons de considrer la prdiction de squences comme une tche dtiquetage sous contrainte : lobjectif est dattribuer chaque lment composant une sortie structure une tiquette, tout en assurant la cohrence globale de la sortie. Les dpendances entre lments ne sont alors plus reprsentes par des dpendances statistiques sexprimant par une factorisation dune loi de probabilit jointe ou dune fonction de score, mais par des contraintes, cest--dire des relations logiques entre plusieurs lments et leur valeur respective. Il est alors possible dutiliser des techniques de programmation par contraintes pour raliser une infrence ecace. Le principal avantage de cette formulation est dorir une modlisation plus souple des dpendances qui ne modlise que les relations pertinentes et vite davoir estimer des distributions de probabilit compltes, permettant ainsi une slection automatique des dpendances pertinentes. Ce principe et sa mise en uvre sont dtaills au Chapitre 6.

1.1.2

Application la transformation de documents

Contexte applicatif : les technologies smantiques Les technologies smantiques ont pour objectif de faciliter laccs linformation en reprsentant les documents par une structure smantiquement riche et non par leur reprsentation traditionnelle en sac de mots . Cette structure, qui prend gnralement la forme dun graphe ou dun arbre, permet de distinguer et de nommer, lintrieur dun document, un ensemble dlments et des relations entre ceux-ci. Grce cette reprsentation du contenu, de nombreuses applications sont envisageables comme, par exemple, des comparateurs de prix ou des moteurs de recherche plus ecaces, capables deectuer des requtes complexes du type trouver tous les articles parlant dapprentissage statistique publis par une quipe franaise entre 2000 et 2005 . Pour exploiter cette reprsentation des documents, les applications ont besoin de connatre, priori, la structure utilise et sont donc incapables de traiter les documents ne respectant pas strictement un schma. Lexistence de ce schma, qui dnit de manire ad hoc les structures que peuvent avoir les documents, est indispensable pour permettre la manipulation et linterprtation des donnes structures. Les technologies

1.1 Problmatiques abordes

23

smantiques ne sont donc pas compatibles avec la libert actuelle de cration de documents et ne peuvent pas exploiter la structure de la majorit des donnes existantes. En eet, celle-ci, exprime par exemple par les balises HTML ou wikitext, ne dcrit gnralement que la mise en page des documents et ne comporte aucune information smantique. Cest pourquoi, pour permettre le dveloppement de ces technologies, plusieurs mthodes ont t proposes pour annoter automatiquement les donnes existantes et les transformer ainsi en donnes smantiquement riches. Nos travaux sinscrivent dans cette problmatique gnrale dautomatisation de la transformation de documents dont la structure dcrit la mise en page vers des formats smantiquement riches en vue de leur utilisation par des applications smantiques. Nous nous sommes plus particulirement intress la tche de restructuration qui consiste transformer des documents HTML en documents XML respectant un schma donn. Cette problmatique spcique tire son intrt de la masse dinformation prsente sur le web sous un format HTML. Linformation ontenue dans la mise en page des documents web fournit une information qui est exploite quotidiennement par de nombreux utilisateurs, notamment pour faciliter leur navigation ou la recherche dinformation. Cest pourquoi, nous pensons que celle-ci est susante pour infrer une structure smantiquement riche. Il faut toutefois que les mthodes de transformation soient capables dexploiter ces informations. Cette observation est une ide centrale de notre travail qui ouvre la voie de nombreuses applications et gnralise la problmatique : le HTML peut tre considr comme un format pivot dans lequel tous les documents sont produits, chaque application extrayant ensuite la reprsentation smantique qui correspond exactement ses besoins. Ces arguments justiant lintrt et la faisabilit de la transformation de documents HTML en XML sont dtaills au Chapitre 2. Contributions Plusieurs mthodes sont proposes dans la littrature pour la transformation de documents HTML vers des formats smantiquement riches. Ces mthodes reposent soit sur un ensemble dheuristiques (mesures de similarit entre les tiquettes des lments ou leur contenu par exemple), soit sur une combinaison, plus ou moins ecace, de techniques dapprentissage dveloppes pour lextraction dinformation, la reconnaissance des entits nommes ou lanalyse de dpendances. Ces mthodes ne sont gnralement capables de considrer quun ensemble rduit de caractristiques (il nest, par exemple, pas toujours possible dinclure des caractristiques sur la structure du document dentre ou du document de sortie) et, comme ces heuristiques sont construites manuellement, il nest pas toujours facile dy inclure un nouveau type dinformation. Nous proposons, au Chapitre 5, un cadre formel pour la tche de transformation de documents qui permet dexprimer cette tche comme une tche dextraction dinformation : transformer un document HTML revient identier dans celui-ci les lments pertinents devant apparatre dans le document XML et dterminer, rcursivement, les relations entre ces lments. Cette formulation permet de traiter la transformation de documents dans le cadre de lapprentissage structur, et donc de considrer des caractristiques riches dcrivant, notamment, le contenu du document ainsi que les dpendances entre la structure du document dentre (larbre HTML) et la structure du document de sortie (larbre XML). La mise en uvre des mthodes dapprentissage structur pose toutefois plusieurs dicults. La premire est lie la complexit : les sorties que nous cherchons prdire (les documents XML) sont plus grandes que la plupart des sorties gnralement

24

Introduction

considres par les mthodes dapprentissage structur. La deuxime dicult est lie la ncessit de prendre en compte des caractristiques et des dpendances riches alors que la plupart des mthodes existantes ncessitent de faire des hypothses dindpendance forte du type hypothse de Markov. Nous prsenterons, au Chapitre 5, plusieurs mthodes de transformation apportant une solution ces dicults. Nous nous sommes, dans un premier temps, intress au problme de la complexit et avons propos une mthode fonde sur un modle gnratif et sur LaSO, une mthode dinfrence approche qui permet de transformer de grands corpus de documents avec une complexit faible. Nous avons ensuite abord le problme des dpendances non locales. Pour pouvoir utiliser des caractristiques plus riches, nous avons propos deux modles discriminants base de r-ordonnancement. Le r-ordonnancement est une mthodes gnrale permettant dintroduire simplement des dpendances arbitraires dans un problme dapprentissage structur.

1.2

Organisation du document

Cette thse est organise en deux parties principales. La premire partie (Chapitre 2, 3 et 4) prsente le contexte de notre travail, aussi bien dans le domaine de laccs linformation que dans le domaine de lapprentissage statistique. Cest essentiellement une partie de synthse, mais la prsentation des arguments qui est choisie est originale. La deuxime partie (Chapitre 5 et 6) regroupe nos contributions plus directes : nous y dcrivons les modles proposs, leurs motivations ainsi que les tudes exprimentales menes. Voici, plus prcisement, lorganisation de ce document : Chapitre 2 : ce chapitre prsente laspect accs linformation de notre travail. Nous y dcrivons les problmatiques du domaines et le contexte dans lequel notre thse sinscrit. Le principal objectif du chapitre est de dnir et de justier lintrt de la tche qui a servi de l conducteur nos travaux : la restructuration. Chapitre 3 : ce chapitre est une introduction gnrale lapprentissage statistique. Nous y justions lintrt de ces techniques pour la problmatique de restructuration et prsentons plusieurs formalismes et techniques qui constituent les fondations des mthodes dapprentissage structur. Nous dtaillons galement les direntes mthodes dapprentissage que nous avons utilises : le perceptron, la regression logistique, les machines vecteurs de support (SVM) et les noyaux. Chapitre 4 : nous introduisons, dans ce chapitre, le domaine de lapprentissage structur et prsentons un cadre formel uniant la prsentation des direntes mthodes existantes. Nous dtaillons les dirents travaux et techniques du domaine : les mthodes destimation (modles gnratifs, CRF, SVMISO, M3 N, perceptron), les algorithmes de programmation dynamique pour linfrence (algorithme de Viterbi), les algorithmes permettant dacclrer linfrence (LaSO, SEARN, infrence gloutonne, ...) et de prendre en compte les dpendances non locales (r-ordonnancement, mthode dinfrence alternative, ...). Ce chapitre a galement pour objectif de mettre en vidence les limites des modles existants, an de motiver la mthode que nous proposerons au Chapitre 6. Chapitre 5 : ce chapitre dcrit les direntes mthodes dapprentissage structur que nous avons mises en uvre pour rsoudre la tche de restructuration : un modle gnratif bas sur les grammaires probabilistes hors-contexte, une mthode dinfrence fonde sur LaSO et deux modles utilisant le r-ordonnancement. Il

1.3 Bibliographie personnelle

25

nous permet ainsi dvaluer, exprimentalement, un certain nombre de mthodes existantes et de vrier la validit de la premire thse de ce travail. Chapitre 6 : nous y prsentons une mthode dtiquetage de squences capable dextraire ecacement les dpendances non locales et de les utiliser en infrence tout en conservant une complexit faible. Le principe de cette approche est motiv par une tude des limites des modles existants. Nous faisons galement un rapide tat de lart des mthodes permettant dapprendre la structure et de la slection de caractristiques an de mettre en vidence nos contributions.

1.3

Bibliographie personnelle

Les travaux raliss au cours de cette thse ont donn lieu aux publications suivantes : Travaux concernant les limites des modles dapprentissage structur et prsentant notre modle dtiquetage de squences (Chapitre 6) : 1. G. Wisniewski et P. Gallinari, Relaxation Labeling for Selecting and Exploiting Eciently Non-Local Dependencies in Sequence Labeling , Actes de la confrence PKDD07, 2007. Travaux concernant la dnition de la problmatique de restructuration et le modle gnratif (Section 5.2 et Chapitre 2) 2. G. Wisniewski, F. Maes, L. Denoyer et P. Gallinari, Probabilistic Model for Structured Document Mapping , Actes de la confrence MLDM07, 2007. 3. P. Gallinari, G. Wisniewski, F. Maes et L. Denoyer, Stochastic Models for Document Restructuration , Actes de la confrence ECML05 Workshop on Relational Machine Learning, 2005. 4. G. Wisniewski, F. Maes, L. Denoyer et P. Gallinari, Modle probabiliste pour lextraction de structure dans les documents web , Documents Numrique, 2007. 5. G. Wisniewski, L. Denoyer, F. Maes et P. Gallinari, Modle probabiliste pour lextraction de structures : application aux documents web , Actes de la confrence CORIA05, 2005. Travaux concernant les modles de r-ordonnancement (Section 5.3 et 5.4) : 6. G. Wisniewski et P. Gallinari, From Layout to Semantic : A Reranking Model for Mapping Structured Documents to Mediated XML Representation , Actes de la confrence RIAO07, 2007. 7. G. Wisniewski et P. Gallinari, R-ordonnancement pour lapprentissage de transformation de documents HTML , Actes de la confrence EGC07, 2007. Jai travaill, pendant mon stage de DEA, sur une sous-tche de la restructuration : ltiquetage darbres. Bien que je naborde pas ces travaux dans ma thse (ils nentrent pas dans le formalisme que nous proposons au Chapitre 5), ils ont donn lieu deux publications : 8. G. Wisniewski, L. Denoyer et P. Gallinari, Restructuration automatique de documents dans les corpus semi structurs htrognes , Acte de la confrence EGC05, 2005.

26

Introduction 9. L. Denoyer, G. Wisniewski et P. Gallinari, Document Structure Matching for Heterogeneous Corpora , Actes de la confrence SIGIR04 Workshop on Integration of Information Retrieval and Databases, 2004.

Jai galement publi deux articles sur des travaux connexes mon travail de thse : lapplication du modle de document que nous prsenterons la Section 5.2.2 la tche de classication non supervise (clustering). 10. G. Wisniewski, L. Denoyer et P. Gallinari, Classication automatique de documents structurs. Application au corpus darbres tiquets de type XML , Actes de la confrence CORIA05, 2005. 11. L. Denoyer, G. Wisniewski et P. Gallinari, Classication automatique de structures arborescentes laide de noyaux de Fischer : Application aux documents XML , Actes du 6me Congrs Europen de Systmique, 2005.

2Texte et structure

Sommaire2.1 Utilisation de la structure pour accder linformation 2.1.1 Deux paradigmes daccs linformation . . . . . 2.1.2 Crossing the structure chasm . . . . . . . . . . . . 2.1.3 Exemple dapplications smantiques . . . . . . . . Reprsentation structure des documents web . . . . . 2.2.1 Dirents types de structures . . . . . . . . . . . . 2.2.2 Limites des formats smantiques . . . . . . . . . . Problmatique de restructuration . . . . . . . . . . . . 2.3.1 Besoin de transformer les structures . . . . . . . . 2.3.2 Le HTML comme format pivot . . . . . . . . . . 2.3.3 Ncessit dautomatiser la restructuration . . . . . tat de lart . . . . . . . . . . . . . . . . . . . . . . . . 2.4.1 Sur les technologies smantiques et leurs limites . 2.4.2 En base de donnes . . . . . . . . . . . . . . . . . 2.4.3 En transformation de documents . . . . . . . . . . Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 28 30 33 37 39 41 44 44 46 48 49 49 50 52 53

2.2

2.3

2.4

2.5

The Web without a search engine is like the night without Edison. Anonyme One Ring to rule them all, One Ring to nd them, One Ring to bring them all and in the darkness bind them. J.R.R. Tolkien e chapitre prsente le contexte de ce travail et dnit la tche qui la motiv : la restructuration qui consiste transformer un document dentre en un document de sortie conforme un schma donn. Cette tche sinscrit dans la problmatique gnrale daccs linformation, qui fournit des mthodes permettant de grer, consulter et rechercher les documents, et plus particulirement dans le cadre des technologies dites smantiques . Les technologies smantiques ont pour objectif de faciliter laccs linformation en reprsentant les documents par une structure smantiquement riche et non par un traditionnel sac de mots . Cette reprsentation enrichie permet de prendre en compte

C

28

Texte et structure

la signication des documents et pourrait apporter une solution aux problmes soulevs par les volutions rcentes du web telles la multiplication des contenus, le dveloppement du web participatif, ... Nous dtaillons, dans la Section 2.1, les dirents paradigmes daccs linformation ainsi que leurs limites et montrons comment lutilisation dune reprsentation structure peut rsoudre certains de ces problmes. Toutefois, malgr leur ranement technique, les technologies smantiques ne suscitent pas les progrs attendus et de nombreux freins leur dploiement ont t identis. Lun deux est lhtrognit des structures des documents web. En eet, sil est possible de dnir une reprsentation structure pour la plupart des documents du web, celle-ci ne peut tre exploite directement par les applications smantiques : ces dernires ont toutes besoin de connatre priori la structure utilise et ne sont donc capables de ne traiter que les documents respectant strictement un schma qui leur est spcique. Nous dtaillons cet argument dans la Section 2.2. Pour rpondre ce problme dhtrognit et faciliter le dploiement des technologies smantiques, nous proposons de considrer le HTML comme un format pivot partir duquel chaque application va extraire une reprsentation structure rpondant ses besoins. Nous dnissons plus prcisement cette tche de restructuration au Paragraphe 2.3 et nous y justions son intrt et sa faisabilit. Finalement, nous prsentons dans la Section 2.4 les dirents travaux sur lesquels nous nous sommes appuy dans ce chapitre ainsi quun tat de lart des problmatiques similaires.

2.12.1.1

Utilisation de la structure pour accder linformationDeux paradigmes daccs linformation

Donnes structures et donnes non structures Il existe aujourdhui deux types de donnes : les donnes non structures qui correspondent aux grands corpus de documents, dimages ou de vidos accessibles notamment sur le web et les donnes structures qui sont stockes et gres par des bases de donnes [Gardarin, 1999]. La principale caractristique des donnes structures est que celles-ci respectent un modle de donnes qui structure et organise la reprsentation des donnes manipules : la premire tape de la cration dune base de donnes consiste spcier un modle, cest--dire un ensemble de concepts et de liens entre ceux-ci, dcrivant les donnes. Ce modle de donnes, aussi appel schma conceptuel sera spcique aux besoins de lapplication considre : comme tout modle, le schma conceptuel nest quune traduction de la ralit qui est toujours lie ce que lon veut en faire ; il nexiste pas de modle unique et totalement reprsentatif. Le modle de donnes est ensuite objectiv en un schma logique ou simplement schma. Ce dernier traduit le modle de donnes dans une technologie particulire permettant de stocker et daccder aux donnes. Il existe ainsi des schmas logiques qui dcrivent des donnes stockes dans une base de donnes relationnelle ou des schmas XML utiliss pour dcrire des donnes stockes dans des documents XML. Une base de donnes comporte donc deux lments distincts : un ensemble de donnes manipules par un programme et une description de ces donnes, faite par le concepteur de la base de donnes, qui dnit la smantique de leur organisation. Cette sparation entre donnes et modle de donnes est une ide centrale en base de donnes [Gardarin, 1999].

2.1 Utilisation de la structure pour accder linformation

29

Paradigmes daccs linformation Les donnes structures et non structures dirent par la manire dont elles sont cres, partages, interroges et mises jour. On peut donc dire quelles dnissent chacune un paradigme daccs linformation, dont voici les principales caractristiques : production des donnes : la cration de donnes non structures (pages web, rapport, CV , ...) est conceptuellement simple et ne demande aucune connaissance informatique particulire. Cette absence de barrire lentre permet de produire facilement des documents. Par exemple, grce la simplicit du HTML et sa permissivit (une page web ne respectant pas la syntaxe comme lenchssement des balises peut quand mme tre ache), des personnes sans comptence en informatique ont pu crer facilement leur site web et contribuer ainsi au dveloppement dInternet. Au contraire, la cration dune base de donnes est une opration complexe qui demande de nombreuses comptences techniques. Par exemple, la cration dun schma ncessite une expertise dans le domaine (pour arriver choisir la modlisation la plus pertinente) et une expertise en base de donnes (connaissance du langage pour implmenter la modlisation). De plus, il est ncessaire pour ajouter des donnes de connatre la fois le schma (pour savoir comment formater les donnes) et un langage spcique (typiquement le SQL). mthode dinterrogation : les donnes non structures sont gnralement interroges par lintermdiaire de mots-cls : un moteur de recherche est capable de retrouver les documents dont le contenu se rapporte un ensemble de termes que lutilisateur fourni pour dcrire sa requte. Le rsultat dune recherche est constitu par une liste de documents ordonns par pertinence. Diverses techniques (recherche de la racine, utilisation de dictionnaire de synonymes ou dontologies comme WordNet, ...) permettent aux moteurs de recherche de retrouver des documents mme si les mots de la requte ny apparaissent pas directement : cest le principe du trouve ce que je veux dire (nd what I mean). Cependant aucune garantie nest fournie sur la qualit de la rponse : il est possible que certains documents renvoys ne soient pas pertinents, cest--dire quils ne rpondent pas exactement aux critres noncs par la requte (il ny a pas de garantie de lexactitude de la rponse) et que certains documents pertinents ne soient pas retourns (il ny a pas de garantie de la compltude de la requte). Par contre, linterrogation de donnes structures garantit lexactitude et la compltude des rponses : toutes les rponses renvoyes sont pertinentes et toutes les rponses pertinentes sont renvoyes. Il est toutefois ncessaire, pour interroger des donnes structures, dapprendre un langage de requtes spcique (typiquement le SQL ou XQuery) ainsi que de formuler trs prcisement son besoin en information. Ce dernier point ncessite de connatre et comprendre la structure des donnes, ce qui est gnralement dicile surtout si la personne interrogeant les donnes nest pas celle qui a choisi la structure [Li et Clifton, 2000]. Un autre avantage des donnes structures est de permettre linterrogation par des requtes complexes qui permettent, laide de jointures de combiner plusieurs critres et ainsi de croiser les informations provenant de plusieurs sources. partage des donnes : les donnes non structures sont facilement reproductibles et transfrables : rien nest plus facile que dajouter un document un corpus ou de composer un nouveau document partir de morceaux de documents existants.

30

Texte et structure Par contre, il est dicile (voire impossible) de manipuler des donnes structures sans avoir une connaissance exhaustive du modle de donnes sous-jacent. Lintgration des donnes provenant de plusieurs sources (par exemple lors de la fusion des systmes dinformation de deux entreprises) est un problme dicile [Doan et Halevy, 2005]. La communaut base de donnes a dni plusieurs problmatiques autour des ces problmes dhtrognit des modles de donnes et de nombreux travaux ont essay dy apporter une solution (cf. Paragraphe 2.4.2).

volution des donnes : une modication de donnes non structures (ajout dune phrase lintrieur dun document ou dun document lintrieur dun corpus) na pas dimpact sur les programmes manipulant celles-ci. Dans le cas des donnes structures, lors de chaque ajout il faudra sassurer que lensemble des contraintes dnies par le modle de donnes est respect. Ainsi, si dans la modlisation retenue, un livre est dcrit par un auteur, un titre et une anne de publication, il sera impossible dajouter un ouvrage dont la date est inconnue 1 . De plus, une modication de la structure de la base (corriger le nom dun champ ou en ajouter un nouveau) ncessite gnralement de rcrire lensemble des requtes existantes pour y rpercuter le changement. De manire gnrale, le principal intrt des donnes structures rside dans leur capacit dinterrogation, et celui des donnes non structures dans la facilit de leur cration et de leur manipulation. La Table 2.1 synthtise les dirences entre ces deux paradigmes.

2.1.2

Crossing the structure chasm 2

Limites des deux paradigmes actuels Les deux paradigmes que nous avons prsents au dbut de cette section ont longtemps t dvelopps et tudis sparment par deux communauts distinctes et les divergences entre ceux-ci nont cess de saccentuer. Pourtant aujourdhui, les limites de chacun de ces paradigmes semblent avoir t atteintes et de plus en plus de travaux expliquent comment et pourquoi certaines mthodes dveloppes pour un paradigme permettraient de rsoudre les problmes rencontrs par lautre. Dans le cas des donnes structures, les dicults rencontres (entre autres) lors du dveloppement de sytmes pairs pairs [Koloniari et Pitoura, 2005] ou de bases de donnes distribues [Rahm et Bernstein, 2001] (htrognit des schmas, prsence de schmas inconnus, ...) ont mis en vidence certaines limites des donnes structures. Plusieurs solutions proposes sinspirent des mthodes utilises pour accder aux donnes non structures : relcher des contraintes du schma [Dong et Halevy, 2005, Amer-Yahia et al., 2002], retourner les n meilleures rponses [Marian et al., 2005], ... Ces travaux sont dtaills la Section 2.4.2. Dans le cas des donnes non structures, les volutions rcentes du web, et notamment le dveloppement du web participatif ou web 2.0 , ncessitent de nouveaux moyens daccs linformation. Les blogs et les sites de nouvelles fournissent un bon exemple des nouveaux ds soulevs par ces volutions. Une caractristique essentielle de ces deux types de sites est de permettre aux visiteurs de commenter linformation intialement publie ou de rpondre aux commentaires des autres utilisa1. sauf si cette possibilit a t envisage lors de la cration de la table 2. Le titre de ce paragraphe est repris de [Halevy et al., 2003a].

2.1 Utilisation de la structure pour accder linformation

31

donnes non structures production des donnes facile aucune contrainte aucune comptence requise

donnes structures complexe ncessite une modlisation du domaine cration par un expert du domaine contrainte forte lors de lajout dun nouvel lment rsultats exacts et complets requtes complexes ncessit de connatre un langage de requte spcique et le schma modier la structure ncessite souvent de rcrire les applications. tout lment ajout doit respecter de nombreuses contraintes toute manipulation de donnes ncessite une connaissance prcise du schma sensible lhtrognit capacit tion dinterroga-

mthodes dinterrogation

recherche approximative partir de mots cls pas de compltude pas dexactitude

volution des donnes

peu sensible une modication des donnes facilit pour crer de nouveaux documents

partage des donnes

les donnes sont facilements reproductibles, transfrables possibilit de faire du copier-coller

caractristique principale

facilit de cration et de manipulation

Table 2.1 Synthse des diffrentes caractristiques de donnes structures et non structures

32

Texte et structure

teurs. Par exemple, sur des sites francophones comme LinuxFr 3 ou Agoravox 4 , chaque nouvelle entrane rgulirement plusieurs centaines de commentaires 5 . La Figure 2.1 donne un exemple de conversation sur un site de nouvelles. Par consquent, les pages

Figure 2.1 Exemple dun thread de commentaires sur Slashdot de ces sites sont gnralement trs longues (tous les commentaires sont achs sur une mme page) et elles abordent souvent plusieurs sujets (il nest pas rare, quau cours de la conversation, le sujet des commentaires change). Par consquent, au del de lidentication des documents pertinents, il est devenu important pour un systme de recherche dinformation de retrouver les lments pertinents lintrieur du document. Le dveloppement du web cach (hidden web) constitue une autre source de nouveaux ds [He et al., 2007, Chang et al., 2004, Raghavan et Garcia-Molina, 2001]. Le web cach regroupe lensemble des documents qui ne sont pas indexs par les outils de recherche traditionnels, notamment, les sites construits autour de bases de donnes (interrogeables uniquement par un moteur de recherche interne) et les pages accessibles par un formulaire de recherche. Les donnes du web cach sont une source importante dinformation 6 et celles-ci sont gnralement riches, trs structures et ncessitent des mthodes dinterrogation spciques. On y trouve, par exemple, les annonces immobilires, les ores demploi, de voyages, ... Pour exploiter, au mieux, toutes ces ressources, de nouvelles mthodes sont ncessaires an, notamment, de rechercher une information plus ecacement (par exemple en retournant les parties pertinentes dun document plutt que lensemble du document), ltrer les nouvelles informations produites, les regrouper (par exemple pour comparer les prix), ... Ces mthodes reposent sur la possibilit daccder linformation une granularit plus ne que le niveau du document. Plusieurs travaux [Chaudhuri et al., 2005, Halevy et al., 2003a] ont montr la pertinence de certains concepts du paradigme des bases de donnes pour raliser ces tches. Ils proposent notamment de remplacer la reprsentation des documents en sac de mots qui est gnralement utilise aujourdhui dans les direntes tches daccs linformation par une rprsentation structure plus proche de la reprsentation utilise par les bases de donnes. Cette reprsentation structure des documents3. site de nouvelles sur le monde du logiciel libre (linuxfr.org) 4. un mdia citoyen (www.agoravox.fr/) 5. le nombre de commentaires est encore plus important sur les sites anglophones 6. En novembre 2006, certaines tudes (BrightPlanet et Cyveillance) arment quil serait 260 fois plus vaste que le web visible .

2.1 Utilisation de la structure pour accder linformation

33

permettrait galement denvisager (ou de faciliter le dveloppement) de nombreuses applications facilitant laccs linformation. Vers une reprsentation structure des documents Cette reprsentation structure des documents permet de distinguer et de nommer, lintrieur dun document, des lments (un titre, un commentaire, une date, ...) et des relations entre ces lments (ce commentaire a t crit par telle personne telle date, cest une rponse ce commentaire, ...). Nous proposons dadopter, dans la suite de ce travail, la dnition suivante : Dnition 2.1 Un document est structur lorsque les informations quil contient permettent de dcomposer celui-ci en un ensemble dlments tiquets et de relations entre ceux-ci. Il est alors possible dassocier au document une reprsentation structure. La dnition dune reprsentation structure est donc lie la connaissance du format du chier, cest--dire la connaissance de la manire dont les informations sont stockes. Remarquons que cette dnition ne mentionne pas le caractre smantique ou non dune reprsentation structure. Plus prcisement, le caractre structur dun document ne dpend que du format de ce document et nest pas li lexistence dun modle de donnes. La Figure 2.2 illustre les direntes reprsentations (structure ou non) dun document. Une reprsentation structure permet donc dannoter le contenu dun document en ajoutant des informations sur le sens de celui-ci : le contenu dun document est ainsi enrichi de mtadonnes (des donnes sur les donnes) qui dcrivent la nature des informations prsentes dans le document et les liens entre celles-ci. Toutefois, comme nous le verrons dans la section suivante, cette notion de sens doit tre fortement relativise. Le principal intrt de cette representation enrichie est de faciliter le traitement automatique des documents en rendant ceux-ci comprhensibles non seulement par un humain mais aussi par une machine. Cest pourquoi, les applications mettant en uvre ce principe sont gnralement appeles applications smantiques et les technologies sous-jacentes, technologies smantiques [Berners-Lee et al., 2001, Krtzsch et al., 2005]. Il existe aujourdhui de nombreux prototypes montrant comment lutilisation dune reprsentation structure des documents peut faciliter direntes tches daccs linformation. Dans la suite de cette section, nous allons prsenter certaines des applications existantes an de montrer comment on peut tirer prot de cette reprsentation structure.

2.1.3

Exemple dapplications smantiques

Recherche dinformation structure La recherche dinformation structure (RIS) a pour objectif de gnraliser les techniques de la recherche dinformation classique an de tirer avantage de la reprsentation structure des documents. Il existe, depuis 2002, une initiative internationale INEX (INitiative for the Evaluation of XML Retrieval) [Fuhr et al., 2002] visant valuer les performances des moteurs de RIS. Dans le cadre de cette initiative, deux types de tches ont t proposes : la tche CO (Content Only) dans laquelle les requtes sont formules laide de motscls, comme celles que lon utilise aujourdhui. Lobjectif de cette tche est dutiliser linformation apporte par la structure pour cibler linformation pertinente

34

Texte et structure

(a) Extrait du document

1 Texte et structure Sommaire 1.1 Utilisation de la structure pour accder linformation

=

2 1 1 2 1 1 1 1 1 1 1 1 1 1

numro chapitre : 1 titre chapitre : texte et structure titre 1me section : Utilisation de la structure pour accder linformation (c) reprsentation structure

(b) reprsentation en sac de mot

Figure 2.2 Diffrentes reprsentations dun document (une version prliminaire du dbut de ce chapitre)

2.1 Utilisation de la structure pour accder linformation

35

lintrieur dun document : le moteur de recherche ne doit plus retrouver les documents pertinents, mais les parties de documents les plus concises qui sont pertinentes. La recherche dinformation cible (focused information retrieval) est un thme de recherche prsent depuis plusieurs annes en recherche dinformation [Wilkinson, 1994, Callan, 1994], mais lutilisation de la structure pour identier les parties de documents facilite cette tche et permet eecivement de cibler linformation pertinente lintrieur dun document [Ali et al., 2007]. Ainsi, lors dune recherche sur un site de nouvelles, on peut identier les commentaires pertinents et ne renvoyer que ceux-ci, plutt que de laisser lutilisateur les retrouver. la tches CAS (Content And Structure) qui propose de ltrer les rsultats dune recherche par mot-cls en utilisant des critres portant sur la structure. Un exemple typique de requte CAS est : je voudrais tous les articles de JMLR publis entre 2000 et 2007 parlant dapprentissage dans les espaces structurs . Une telle requte mlange des critres de slection de type base de donnes (la limite sur la date et le nom du journal) et des critres ous (le sujet des articles) comme ceux que lon utilise lors dune recherche par mot cls. Dans ces deux tches, lutilisation dune reprsentation structure des documents permet de distinguer les direntes parties du document (ce qui permet de mieux cibler linformation) et de les nommer (ce qui permet lapplication de critres de ltrage). plus long terme, il est possible denvisager dautres manires dutiliser linformation apporte par la structure des documents pour amliorer la prcision de la recherche dinformation. Ainsi, lors dune recherche par mot-cl portant sur le prsident Kennedy, une reprsentation structure permettrait de distinguer les documents dans lesquels prsident Kennedy se rfre au 35me prsident des tats-Unis, des documents mentionnant une adresse situe avenue du prsident Kennedy 7 . Navigation sur un portable Lachage des pages web sur un tlphone portable et la navigation lintrieur de celles-ci constitue un deuxime exemple dapplication tirant prot dune reprsentation structure des documents. La taille de lcran ncessite en eet de dvelopper de nouveaux moyens de visualiser les pages web. Plusieurs travaux ont propos dutiliser la structure de la page web soit pour identier les lments cls et prsenter une vue hirarchique de ces lments lutilisateur [Buyukkokten et al., 2001] (Figure 2.3), soit pour segmenter une page et permettre lutilisateur dagrandir la zone quil juge la plus pertinente [Baluja, 2006] (Figure 2.4). Dans ces deux applications, la reprsentation structure du document permet didentier des sous-parties de celui-ci et de limiter lachage du document celles-ci. Les promesses du web smantique Le web dit smantique est lapplication phare des technologies smantiques. Il est dicile de trouver une dnition consensuelle de ce concept : certains y voit laboutissement des recherches en intelligence articielle, certains pensent quil concerne essentiellement lexploitation des mtadonnes, alors que dautres prtendent que cest essentiellement un problme de reprsentation des connaissances. Pourtant, tout le monde saccorde dire que nous serons tous incroyablement plus productifs, plus ecaces et tout simplement plus heureux lorsque le web smantique sera devenu une ralit [Berners-Lee et al., 2001].7. par exemple dans le 16me arrondissement de Paris

36

Texte et structure

Figure 2.3 Illustration de lapproche propose par [Buyukkokten et al., 2001] (limage est extraite de larticle) : plutt que dafcher la page web dans sa totalit, on afche la structure logique du document en rsumant pour chaque lment le contenu de celui-ci

Figure 2.4 Dcoupage dune page web selon sa structure pour faciliter la navigation sur un tlphone portable : il est possible dagrandir sparement chaque zone dlimite (image extraite de [Baluja, 2006])

2.2 Reprsentation structure des documents web

37

Il est galement possible dadopter une dnition plus restrictive du web smantique en considrant que lobjectif de celui-ci est dexploiter linformation contenue dans les mtadonnes et dadapter certains aspects des techniques des bases de donnes au web. Toutefois, cette dnition ne rend pas compte de lambition de Tim Berners Lee [Berners-Lee et al., 2001, Berners-Lee et Fischetti, 1999] ansi que dune grande partie des travaux de ce domaine. Une composante essentielle du web smantique est la cration dun mdium universel dchange de donnes permettant linteroprabilit, cest--dire lchange et la rutilisation du contenu, des direntes sources dinformation. La cration de ce mdium repose sur notre capacit utiliser des reprsentations structures des documents an davoir un accs plus n aux donnes et de pouvoir leur ajouter des mtadonnes. Les programmes pourraient alors prendre en compte la signication des documents et des donnes, plutt que dtre de simples automates manipulateurs de symboles, et lon pourrait passer dun web lisible par les machines un web quelles pourraient comprendre. Le web smantique ouvre la voie de nombreuses applications : les sites de comparaisons de prix (qui supposent quil est possible didentier les dirents produits et leur prix sur le site de chaque vendeur) ; le transfert des informations dun mail annonant un sminaire vers lagenda an de bloquer la plage horaire correspondante et de renseigner certaines informations (orateur, salle, ...) ; la mise au point de vritables agents capables, comme le montre la Figure 2.5, de collecter les contenus du web partir de sources diverses, de traiter ces informations et dchanger les rsultats obtenus avec dautres programmes ou personnes ; ... Malgr lintrt du concept et son ranement technique, le web smantique ne suscite pas les progrs attendus [Hendler, 2005, Shadbolt et al., 2006]. Sil existe une littrature abondante sur le sujet 8 , les eets du lancement du web smantique (il y a plus de dix ans) ne sont toujours pas perceptibles : la manire dont le web smantique sera conu et dploy est actuellement le sujet dun dbat houleux aussi bien dans la communaut scientique quindustrielle. Nous donnerons un aperu de ce dbat au Paragraphe 2.4.1 et dtaillerons, au paragraphe suivant, plusieurs limites des technologies smantiques qui amnent directement la problmatique de restructuration.

2.2

Reprsentation structure des documents web

Les exemples du paragraphe prcdent montrent lintrt dune reprsentation structure. Nous navons toutefois pas encore prcis comment cette reprsentation tait construite et exploite par les applications smantiques. Lexplication de ces deux points va nous permettre dintroduire la distinction entre format de prsentation et format smantique qui va justier lintrt de la problmatique de restructuration et donner quelques lments de rexion sur les dicults rencontres lors du dploiement du web smantique.8. le W3C tient jour un rsum des dveloppement du web smantique http://www.w3.org/2001/ sw/

38

Texte et structure

La sono hurlait la chanson des Beatles We Can Work It Out quand le tlphone sonna. Quand Pete rpondit, son tlphone baissa le son en envoyant un message aux autres appareils locaux a possdant un contrleur de volume. Sa sur Lucie lappelait depuis le cabinet du mdecin : Maman a besoin de voir un spcialiste et de suivre des sances de thrapie, deux ou trois fois par semaine. Je vais demander mon agent de nous arranger les rendez-vous. Pete accepta tout de suite la responsabilit de la conduire en voiture tour de rle. Depuis le cabinet du mdecin, Lucie donna des instructions son agent du web smantique par le biais de son navigateur. Lagent trouva rapidement linformation concernant le traitement prescrit Maman partir de lagent du mdecin, parcourut plusieurs listes de fournisseurs de services, vria la couverture dassurance pour la mre pour trouver un thrapeute dans un rayon de 20 miles autour de son domicile et prit en considration les taux de satisfaction excellent ou trs bon attribus par des services dvaluation ables. Il fallut ensuite essayer de faire concider les heures de rendez-vous possibles (fournies par les agents de fournisseurs individuels travers leur site web) avec les emplois du temps chargs de Pete et Lucy. Lagent leur fournit un plan en quelques minutes. Pete ne fut pas daccord : lhpital de luniversit se trouvait de lautre ct de la ville par rapport au domicile de sa mre, et il lui faudrait la ramener lheure de pointe. Il t refaire la recherche par son propre agent en ajoutant des critres de choix plus prcis comme le lieu et lhoraire. Lagent de Lucy, qui a une conance totale dans lagent de Pete dans le contexte particulier de cette tche lui a apport automatiquement de laide en lui fournissant des codes daccs et des raccourcis partir des donnes quil avait dj tries. Un nouveau plan fut prsent instantanment : il y avait une clinique beaucoup plus proche avec des horaires plus matinaux, mais il y avait aussi deux avertissements. Dabord, Pete devrait reprogrammer deux de ses rendez-vous (parmi les moins importants). Il vria de quoi il sagissait : ce ntait pas un problme. Lautre remarque concernait la liste des compagnies dassurance qui nincluait pas cette clinique dans la liste des thrapeutes mdicaux. Le type de service ainsi que le statut du plan dassurance ont t vris de manire sre par dautres moyens le rassura lagent. Dtails ? . Lucy enregistra son accord au moment mme o Pete grommelait pargne-moi les dtails et tout fut rgl. (Bien sr, Pete na pu sempcher de vouloir connatre ces dtails : plus tard ce soir-l, son agent lui expliqua comment il avait dcouvert ce fournisseur bien quil ne ft pas sur la liste.)a. Les expressions en italiques sont celles dont le sens doit tre explicit.

Figure 2.5 Ngotation de rendez-vous entre plusieurs agents du web smantique (exemple repris de [Berners-Lee et al., 2001])

2.2 Reprsentation structure des documents web

39

2.2.1

Dirents types de structures

Comme nous lavons mentionn au Paragraphe 2.1.2, une reprsentation structure dun document permet de distinguer, lintrieur de ce document, un ensemble de parties et des relations entre celles-ci. Aujourdhui, il est facile de dnir une reprsentation structure pour la plupart des documents que lon trouve sur le web. En eet, le format de ces documents (gnralement HTML, XML, wikitext ou PDF) mlange le contenu (le texte du document) avec des balises 9 . La Figure 2.6 prsente un exemple de chier HTML et un exemple de chier XML dcrivant, tous deux, la distribution dun lm. Korben ... Bruce Willis Leelo ... Milla Jovovich Bruce Wilis Korben Milla Jovovich Leelo

Figure 2.6 Extrait de documents HTML et XML : des balises (en bleu) sont mlangs avec le contenu textuel du document (en noir) Ces balises, gnralement constitues dune tiquette entre une paire de chevrons, permettent didentier (par leur enchssement) et de nommer (par leur tiquette) des sous-parties du document : comme le montre la Figure 2.7, une interprtation directe de lenchssement des balises permet de reprsenter le document sous forme dun arbre ordonn tiquet [Neven, 2002], larbre DOM [W3C, 2005]. Il faut toutefois noter que linterprtation du HTML sous forme darbre nest possible que si le document HTML est bien form , cest--dire sil respecte les rgles syntaxiques du XML dictes par le W3C 10 . Il existe des outils, comme HTMLTidy 11 capables de convertir facilement et ecacement des documents HTML de manire ce que ces rgles soient respectes. Cest pourquoi, dans le suite de ce travail, nous considrerons que tous les documents HTML sont reprsentables par un arbre. Cet arbre peut tre vu comme une reprsentation structure du document dans laquelle les lments sont constitus par les feuilles et les relations par les nuds. Les tiquettes des balises permettent de nommer les lments et les relations. Ainsi, dans lexemple de la Figure 2.6, la structure permet didentier un certain nombre dlments (des noms dacteurs comme Bruce Willis, de personnage ou des lments de mise en forme) et des relations entre ceux-ci qui indiquent le rle jou par chaque acteur. On distingue gnralement deux types de formats et, par consquent, deux types de structures [Bosak et Bray, 1999, Chidlovskii et Fuselier, 2004, Fuselier, 2006] :9. Selon les formats, laccs la reprsentation des documents sous la forme contenu + balises est plus ou moins ais. Il existe toutefois de nombreux utilitaires permettant de convertir un document en HTML. 10. Le WWW Consortium (W3C) est un organisme international dont lobjectif est de promouvoir la compatibilit des technologies du web (HTML, XHTML, XML, RDF, CSS, ...). 11. tidy.sourceforge.net

40

Texte et structure

table

tr

tr

td

td

td

td

td

td

Milla Jovovich

...

Leelo

Bruce Willis

...

Korben

Figure 2.7 Arbre DOM associ au document dcrit Figure 2.6 : les lments sont constitus par les nuds rectangulaires et les relations par les nuds ellipsodaux les formats de prsentation dont la structure dcrit la manire dont un document doit tre ache. Le HTML est lexemple typique dun format de prsentation : la plupart des balises de ce langage dcrivent des informations de mise en forme (graisse, taille de la police, ...) et il est quasiment impossible de sparer la forme du fond. Ce type de format regroupe la plupart des formats de documents courants : HTML, PDF, wikitext, MS-Word c , ... les formats smantiques dont lexemple caractristique est le XML. Le XML permet chacun de crer ses propres balises en insrant tout simplement dans le contenu du document des balises telles ou . Le XML donne donc une grande libert lutilisateur lors de lannotation des donnes. Aussi bien les formats smantiques que les formats de prsentation permettent de dnir une reprsentation structure des documents. Leur principale dirence rside dans la possibilit quorent les langages smantiques de choisir ltiquette des balises de manire indiquer le but de celle-ci. En eet, les formats de prsentation sont des formats dit WYSIWYG 12 qui permettent de spcier directement le rsultat nal que lutilisateur verra lcran ou imprimera. Il est toutefois dicile daccder aux donnes pour en faire autre chose que les acher : comme la not Brian Kernighan 13 : the problem with What You See Is What You Get is that what you see is all youve got. Au contraire, les balises dun langage smantique permettent de dire ce que reprsente un lment et non pas ce quoi il ressemble. Les formats smantiques facilitent donc laccs aux donnes en nommant, de manire explicite, les lments en plus de les identier. Ainsi, dans lexemple de la Figure 2.7 on peut slectionner tous les acteurs par lexpression XPath //actor dans le document XML et /table/tr/td[first()] dans le document HTML, cette dernire expression tant nettement moins pratique crire et beaucoup plus sensible une modication de la structure que la premire. Toutefois, cette capacit de nommer les lments nest pas susante pour permettre la mise en uvre des applications prsentes au Paragraphe 2.1.3 et, plus gnralement, lchange et la r-utilisation du contenu qui constitue les fondations du web sman12. acronyme de la locution anglaise What you see is what you get, signiant littralement ce que vous voyez est ce que vous obtenez 13. linventeur du C

2.2 Reprsentation structure des documents web

41

tique : bien des gards, ladjectif smantique utilis pour dcrire ces langages doit tre modr. Nous allons expliquer pourquoi dans la section suivante.

2.2.2

Limites des formats smantiques

Bien quelles soient souvent oublies, les formats smantiques ont plusieurs limites. Certaines de ces limites sont inhrentes lutilisation dune reprsentation structure [Santini, 2007, Brggemann-Klein et Wood, 2004] et traduisent, en grande partie, les limites du paradigme des donnes structures (Paragraphe 2.1.1). Dautres limites sont directement lies la manire dont on ambitionne dutiliser les formats smantiques comme moyen dchange de donnes entre applications. Pour mmoire, nous rappelons (cf. Paragraphe 2.1.3 pour les dtails) que lun des principaux objectifs du web smantique est de dveloppper un mdium universel dchange, permettant toutes les applications daccder lensemble des informations, de les recombiner, les traiter, ... Les objectifs du web smantique dirent ainsi de ceux des bases de donnes dont la seule ambition est de rpondre un besoin prcis et identi priori. Dans la suite de ce paragraphe, nous allons dcrire les principales limites des formats smantiques et montrer comment celles-ci reduisent les possibilits dchanges et de rutilisation dinformations, compliquant ainsi le dploiement des applications smantiques. Accs la smantique des balises dun document structur Contrairement lopinion couramment rpandue, le XML nest pas un format smantique, ou alors pas dans le sens gnralement entendu : si, pour un humain, une balise XML telle vendeur apporte une information immdiatement comprhensible et exploitable, pour un ordinateur elle contient aussi peu dinformation quune balise HTML. En eet, le sens dun lment, cest--dire la manire dont il doit tre interprt, nest pas dni par ltiquette de la balise, mais par le modle de donnes qui lui est associ. Comme pour les bases de donnes, les donnes et le modle de donnes sont deux lments distincts qui ne sont pas conus et manipuls par les mmes personnes ou programmes. Pour rsoudre ce problme, le W3C a dni plusieurs langages (notamment les langages RDF et OWL [Berners-Lee et al., 2001]) qui permettent de dcrire le sens dune tiquette XML dans un cadre mathmatique rigoureusement dni. Toutefois, dans la mesure o il est possible de donner plusieurs dnitions quivalentes dun mme concept, ces langages ne font que repousser le problme de la smantique : au lieu de comprendre le sens dune balise, il faut comprendre le sens dune dnition. En pratique, ce problme dalignement dontologies [Kalfoglou et Schorlemmer, 2003] nest pas ncessairement plus simple rsoudre. Cest pourquoi, les critiques que nous formulerons dans les paragraphes suivants restent valables. Ainsi, pour quune application puisse exploiter une reprsentation structure, il ne sut pas que les documents soient dans un format smantique, mais il faut quils soient dans le bon format smantique, cest--dire celui qui correspond au modle de donnes utilis par lapplication. Si ce nest pas le cas, la structure du document napporte pas plus dinformation quune structure de prsentation : il est dicile dutiliser un schma qui na pas t conu spciquement pour lapplication envisage. Cet argument constitue le sujet du prochain paragraphe.

42

Texte et structure

Limites des schmas pour dcrire la smantique La smantique de la structure dun document est dcrite par le modle de donnes correspondant et, par consquent, seul le schma peut fournir des informations sur le sens des balises utilises. Or un schma est un modle conu pour rpondre un besoin spcique et il est exprim dans un langage particulier. Cest pourquoi il est dicile darriver dterminer la smantique prcise et r-utiliser une reprsentation structure conue pour une autre application. En eet, il nexiste pas, lheure actuelle, de moyen de dcrire prcisement avec des mots, des quations ou des diagrammes le comportement dun programme et plus particulirement la manire dont il accde et interprte les donnes manipules : le seul moyen de spcier exactement ce quun programme doit faire est de donner le code source complet de celui-ci. Ainsi, la spcication dOpenXML, le modle de donnes utilis par Microsoft Oce c , fait plus de 5 000 pages 14 et de nombreux observateurs jugent celle-ci incomplte et inutilisable 15 . De plus, un schma comporte de nombreux choix de conception et des conventions arbitraires qui ne sont connus que par son crateur et qui compliquent la comprhension du modle de donnes sous-jacent par un tiers. Ainsi, dans la classication dcimale de Dewey, dont lobjectif est de classer lensemble du savoir humain lintrieur dune bibliothque, le choix des catgories successives a t guid par les contraintes physiques imposes par le stockage des livres sur une tagre (Figure 2.8). Il ne faut galement pas oublier quun schma traduit les besoins spciques dune application. Il nest donc pas vident que la structure quil dnit corresponde aux besoins dune autre application. Par exemple, une base de donnes bibliographiques (typiquement un chier BibTEX) ne dcrit ni la taille des auteurs (renseignement inutile pour modliser un chercheur dans une bibliographie) ni leur aliation (information qui aurait par contre de nombreuses applications). Ainsi, il est dicile de pouvoir r-utiliser des donnes produites dans un schma inconnu aussi bien parce que celle-ci ne rpond pas ncessairement aux besoins de lapplications envisage que parce quil est dicile de comprendre et dutiliser une reprsentation arbitraire. Impossiblit de dnir un schma universel Une solution aux problmes voqus au paragraphe prcdent serait de dnir un schma universel 16 qui rpondrait aux besoins de toutes les applications imaginables et que tous les producteurs dinformation respecteraient. La dnition dun tel schma est dailleurs une des ambitions du web smantique et un prrequis ncessaire linteroprabilit des applications. De nombreuses initiatives ont t cres pour normaliser les schmas de certrains domaines. Par exemple, le projet OBO 17 propose des schmas dcrivant certains domaines de la biologie (taxonomie des mouches, interactions protine-protine, ...). Toutefois, cette approche nest possible que dans certains contextes prcis, typiquement lorsque lon cherche modliser un domaine ferm (une entreprise, une certaines catgorie dchanges entre les entreprises dun mme secteur, une catgorie dobjets tels que les livres ou les lms) mettant en jeu un petit nombre dentits bien dnies et ne changeant pas au cours du temps. Et encore ! Mme dans ces domaines, il est traditionnellement dicile dobtenir des acteurs, pris par les tches quotidiennes,14. http://www.ecma-international.org/publications/standards/Ecma-376.htm 15. Une liste de ces problmes est faite par linitiative NO OOXML (www.noooxml.org/ local--files/arguments/TheCaseAgainstOOXML-fr.pdf) et a nalement motiv le refus par lISO de normaliser ce format. 16. un schma pour les gouverner tous... (cf. la citation de Tolkien au dbut de ce chapitre) 17. obo.sourceforge.net

2.2 Reprsentation structure des documents web

43

Lorganisation des livres dans une bibliothque est un exemple de modle de donnes particulirement rchi (il a bnci du travail de plusieurs gnrations de bibliothcaires) et mise en pratique grande chelle. Un exemple typique dorganisation de livres est la classication dcimale de Dewey qui a t dveloppe pour pouvoir raliser une typologie exhaustive de lensemble du savoir humain et permettre de retrouver rapidement un livre traitant dun sujet donn. Dans cette classication les ouvrages sont rpartis dans une hirarchie de classes, chaque classe ayant dix sous-classes plus spcialises. Bien quelle soit, aujourdhui encore, trs rpandues, cette classication prsente des imperfections. La mise en place dun syst