24 novembre 2006 laboratoire dinformatique de paris 6 moteur de recherche xml pour la plateforme...

12
24 Novembre 2006 Laboratoire d’Informatique de Paris 6 Moteur de recherche XML pour la plateforme Outilex

Upload: cesar-grand

Post on 04-Apr-2015

108 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: 24 Novembre 2006 Laboratoire dInformatique de Paris 6 Moteur de recherche XML pour la plateforme Outilex

24 Novembre 2006

Laboratoire d’Informatique de Paris 6

Moteur de recherche XML pour la plateforme Outilex

Page 2: 24 Novembre 2006 Laboratoire dInformatique de Paris 6 Moteur de recherche XML pour la plateforme Outilex

Introduction

Evolution dans le format des documents électroniques Passage document « plat » document « structuré » Ces documents sont définis par une structure logique (chapitres,

sections, paragraphes, …) Incapacité des moteurs de recherche traditionnels face à ces

nouveaux formats

Avec cette évolution ont apparu de nouveaux besoins visant à exploiter la richesse présente dans ces documents Nécessité d’élaborer de nouveaux concepts pour l’indexation, le

traitement, …

1Laboratoire d’Informatique de Paris 6

Page 3: 24 Novembre 2006 Laboratoire dInformatique de Paris 6 Moteur de recherche XML pour la plateforme Outilex

Initiative internationale INEX

Corpus: 2002-2005 - 500 Mo de documents XML + requêtes + jugements de

pertinence, 16 000 documents (IEEE journals), 10 millions de doxels,

2006 Wikipedia XML : textes anglais de Wikipedia, 659,388 articles couvrant une hierarchie de 113,483 categories, > 60 Gigabytes, 5000 tags differents. En moyenne an article contains 161.35 nœuds XML par article, profondeur moyenne d’un élément 6.72.

Page 4: 24 Novembre 2006 Laboratoire dInformatique de Paris 6 Moteur de recherche XML pour la plateforme Outilex

Résultats INEX 2006

Page 5: 24 Novembre 2006 Laboratoire dInformatique de Paris 6 Moteur de recherche XML pour la plateforme Outilex

Travail effectué par le LIP6

Développement de moteurs de recherche XML Réseaux Bayesiens Algorithmes d’apprentissage (ordonnancement)

Implémenation d’un modèle simple dans la plateforme Outilex

Développement d’un module python permettant d’utiliser des fonctionnalités d’Outilex Cas de figure : Détection de mots composés.

Les fonctionnalités ajoutées: Indexation de la structure des documents XML, Pré-traitements linguistiques (utilisation du lemmatiseur Tree-Tagger et

Outilex), Constitution d’index pour une recherche rapide, Serveur permettant de répondre à des requêtes composées de mots-

clés.

Laboratoire d’Informatique de Paris 6 2

Page 6: 24 Novembre 2006 Laboratoire dInformatique de Paris 6 Moteur de recherche XML pour la plateforme Outilex

Architecture

Basede données

DocumentsXML

Outilex

TreeTagger

Detection demots composés(français et anglais)

Lemmatisation(français et anglais)

Serveur(Python/XMLRPC)

Modules Pythond'interface

Navigateur

3Laboratoire d’Informatique de Paris 6

Page 7: 24 Novembre 2006 Laboratoire dInformatique de Paris 6 Moteur de recherche XML pour la plateforme Outilex

Laboratoire d'Informatiqe de Paris 6 7

Recherche structurée

Développé en python dans le cadre de la platerforme SIRXQL Basé sur Okapi, adapté à la RI structurée

Importance du terme dans la collection

constante dépendant de la longueur moyennedes éléments X du même type (i.e. section, paragraphe, ...)

Fréquence du terme dans l'élément / la requête

Page 8: 24 Novembre 2006 Laboratoire dInformatique de Paris 6 Moteur de recherche XML pour la plateforme Outilex

Moteur de Recherche XMLDémo sur http://webia.lip6.fr/~bpiwowar/outilex/search

6

Page 9: 24 Novembre 2006 Laboratoire dInformatique de Paris 6 Moteur de recherche XML pour la plateforme Outilex

Laboratoire d'Informatiqe de Paris 6 9

Requête: « grèce antique », base wikipédia

Page 10: 24 Novembre 2006 Laboratoire dInformatique de Paris 6 Moteur de recherche XML pour la plateforme Outilex

Laboratoire d'Informatiqe de Paris 6 10

Résultat sur le premier document retourné pour la requête “Grèce Antique”P

rofo

ndeu

r da

ns l’

arbr

e de

la c

olle

ctio

n

Str

uctu

re e

t co

nten

u du

doc

umen

t

Titre du document

Nœuds fils niveau 1

Page 11: 24 Novembre 2006 Laboratoire dInformatique de Paris 6 Moteur de recherche XML pour la plateforme Outilex

Laboratoire d'Informatiqe de Paris 6 11

Résultat de "(une) station spatiale"

Page 12: 24 Novembre 2006 Laboratoire dInformatique de Paris 6 Moteur de recherche XML pour la plateforme Outilex

Laboratoire d'Informatiqe de Paris 6 12

Conclusion

Une plateforme ouverte pour l'implémentation d'autres algorithmes de

recherche structurée pour une utilisation plus poussée d'outilex (au delà

de la détection de mots composés) Implémentation en Python + MySQL Des tests sur INEX 2005 (collection de

documents en anglais) ont donné de bons résultats (précision accrue)