written by c. roux / décembre 2001/ page 1 / for xerox internal use only utilisation et utilité...

13
written by C. Roux / Décembre 2001/ page 1 / for Xerox internal use only Utilisation et utilité d’un Utilisation et utilité d’un extracteur de dépendances extracteur de dépendances Claude Roux

Upload: baudouin-salmon

Post on 04-Apr-2015

106 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Written by C. Roux / Décembre 2001/ page 1 / for Xerox internal use only Utilisation et utilité dun extracteur de dépendances Claude Roux

written by C. Roux / Décembre 2001/ page 1 / for Xerox internal use only

Utilisation et utilité d’un extracteur Utilisation et utilité d’un extracteur de dépendancesde dépendancesUtilisation et utilité d’un extracteur Utilisation et utilité d’un extracteur de dépendancesde dépendances

Claude Roux

Page 2: Written by C. Roux / Décembre 2001/ page 1 / for Xerox internal use only Utilisation et utilité dun extracteur de dépendances Claude Roux

written by C. Roux / Décembre 2001/ page 2 / for Xerox internal use only

Analyse SyntaxiqueAnalyse Syntaxique

• L’analyse syntaxique représente traditionnellement l’information sous la forme d’un arbre.

le

D e t

ch ien

N o m

S n

m an ge

V e rbe

un

D e t

o s

N o m

S n

S V

P

• La configuration de l’arbre est aussi une interprétation sémantique.

• Difficulté de représenter une information dispersée (Latin)

Pulchram domina rosam amat

Page 3: Written by C. Roux / Décembre 2001/ page 1 / for Xerox internal use only Utilisation et utilité dun extracteur de dépendances Claude Roux

written by C. Roux / Décembre 2001/ page 3 / for Xerox internal use only

Représentation sous la forme d’un graphe de dépendanceReprésentation sous la forme d’un graphe de dépendance

• Qu’est qu’une dépendance ?

• C’est une relation entre les mots d’une phrase, indépendemment de la position de ces mots.

La maîtresse aime la belle rose

Pulchram domina rosam amat

Épithète(rose,belle)

Épithète(rosam,pulchram)

Sujet(aime,maîtresse)

Sujet(amat, domina)

Page 4: Written by C. Roux / Décembre 2001/ page 1 / for Xerox internal use only Utilisation et utilité dun extracteur de dépendances Claude Roux

written by C. Roux / Décembre 2001/ page 4 / for Xerox internal use only

Extraction de dépendancesExtraction de dépendances

• Première phase: le groupage

La dame aime la belle rose

la

D e t

d am e

N o m

S n

a im e

V e rbe

S V

P

la

D e t

b e lle

A d j

S a

ro se

N o m

S n

P u lch ram

A d j

S a

d o m ina

N o m

S n

ro sam

N o m

S n

a m at

V e rbe

S v

Pulchram domina rosam amat

Page 5: Written by C. Roux / Décembre 2001/ page 1 / for Xerox internal use only Utilisation et utilité dun extracteur de dépendances Claude Roux

written by C. Roux / Décembre 2001/ page 5 / for Xerox internal use only

Extraction de dépendancesExtraction de dépendances

• Deuxième phase: l’extraction

la

D e t

d am e

N o m

S n

a im e

V e rbe

S V

P

la

D e t

b e lle

A d j

S a

ro se

N o m

S n

P u lch ram

A d j

S a

d o m ina

N o m

S n

ro sam

N o m

S n

a m at

V e rbe

S v

• Par configuration de noeuds

épithète(rose,belle)

• Sur la base de traits semblables

épithète(rosam,pulcram)

Page 6: Written by C. Roux / Décembre 2001/ page 1 / for Xerox internal use only Utilisation et utilité dun extracteur de dépendances Claude Roux

written by C. Roux / Décembre 2001/ page 6 / for Xerox internal use only

Différentes générations d’outilsDifférentes générations d’outils

• IFSP (Incremental Finite-State Parser) Salah Ait-Mokhtar & Jean-Pierre Chanod (1998)• Anglais• Français• Espagnol

• XIP (Xerox Incremental Parser)Salah Ait-Mokhtar, Jean-Pierre Chanod, Claude ROUX (2001)• Anglais• Français

Page 7: Written by C. Roux / Décembre 2001/ page 1 / for Xerox internal use only Utilisation et utilité dun extracteur de dépendances Claude Roux

written by C. Roux / Décembre 2001/ page 7 / for Xerox internal use only

Désambiguïsation sémantique Désambiguïsation sémantique Frédérique Segond, Caroline Brun Frédérique Segond, Caroline Brun XRCE GrenobleXRCE Grenoble

Désambiguïsation sémantique Désambiguïsation sémantique Frédérique Segond, Caroline Brun Frédérique Segond, Caroline Brun XRCE GrenobleXRCE Grenoble

• Définition (cf. (Ide&Véronis98))Définition (cf. (Ide&Véronis98))

Associer à un mot dans un texte une définition ou un sens qui se Associer à un mot dans un texte une définition ou un sens qui se distingue des autres sens potentiellement associables à ce mot.distingue des autres sens potentiellement associables à ce mot.

• 2 étapes sont nécessaires :2 étapes sont nécessaires :– déterminer tous les sens d’un mot déterminer tous les sens d’un mot

– assigner le sens approprié à ce mot dans le contexte du discoursassigner le sens approprié à ce mot dans le contexte du discours

Page 8: Written by C. Roux / Décembre 2001/ page 1 / for Xerox internal use only Utilisation et utilité dun extracteur de dépendances Claude Roux

written by C. Roux / Décembre 2001/ page 8 / for Xerox internal use only

Désambiguïsation sémantique Désambiguïsation sémantique Désambiguïsation sémantique Désambiguïsation sémantique

United State federal agents seized a surface-to-air rocket launcher, a rocket motor, rangefinders and a variety of military manuals.

seize

Sens I Verb. Trans.

4. Jur saisir [arm,drugs]

Analyse syntaxique donne:

SUJET(seize,agent)

COD(seize,launcher)

Règle (construite grâce au dictionnaire):

Si Sujet(seize,humain) et COD(seize,arme)

Alors SENS(I.4)=saisir

Page 9: Written by C. Roux / Décembre 2001/ page 1 / for Xerox internal use only Utilisation et utilité dun extracteur de dépendances Claude Roux

written by C. Roux / Décembre 2001/ page 9 / for Xerox internal use only

Extraction d’informationExtraction d’informationCampagne Amaryllis (2000)Campagne Amaryllis (2000)David Hull, Eric Gaussier, Gregory Greffenstette, Claude RouxDavid Hull, Eric Gaussier, Gregory Greffenstette, Claude RouxRecherche d’information en français et traitement automatique des langues (TAL 2000)Recherche d’information en français et traitement automatique des langues (TAL 2000)

Extraction d’informationExtraction d’informationCampagne Amaryllis (2000)Campagne Amaryllis (2000)David Hull, Eric Gaussier, Gregory Greffenstette, Claude RouxDavid Hull, Eric Gaussier, Gregory Greffenstette, Claude RouxRecherche d’information en français et traitement automatique des langues (TAL 2000)Recherche d’information en français et traitement automatique des langues (TAL 2000)

• Utilisation d’information syntaxique dans la recherche d’information

• Les documents sont indexés sur la base des mots qu’ils contiennent plus les dépendances qui lient ces mots entre eux.

Exemple:

Les joueurs convient les membres de leur équipe.

Indexation sur les chaînes suivantes:

joueur, convier, membres, équipe, SUJET(convier,joueur), COD(convier,membre), COMPNOM(membre,équipe)

Page 10: Written by C. Roux / Décembre 2001/ page 1 / for Xerox internal use only Utilisation et utilité dun extracteur de dépendances Claude Roux

written by C. Roux / Décembre 2001/ page 10 / for Xerox internal use only

Extraction d’informationExtraction d’informationCampagne Amaryllis (2000)Campagne Amaryllis (2000)David Hull, Eric Gaussier, Gregory Greffenstette, Claude RouxDavid Hull, Eric Gaussier, Gregory Greffenstette, Claude RouxRecherche d’information en français et traitement automatique des langues (TAL)Recherche d’information en français et traitement automatique des langues (TAL)

Extraction d’informationExtraction d’informationCampagne Amaryllis (2000)Campagne Amaryllis (2000)David Hull, Eric Gaussier, Gregory Greffenstette, Claude RouxDavid Hull, Eric Gaussier, Gregory Greffenstette, Claude RouxRecherche d’information en français et traitement automatique des langues (TAL)Recherche d’information en français et traitement automatique des langues (TAL)

• Mesure de rappel et de précision n’est pas vraiment améliorée.

• En revanche, un résultat important: L’examen des dix premiers documents montre que l’utilisation de cette méthode d’indexation augmente la pertinence de ceux-ci.

Autrement dit, dans le cadre d’une recherche d’information, on améliore la présentation des documents, en propulsant en tête, les documents les plus pertinents.

Cela correspond aux habitudes des utilisateurs des moteurs de recherche qui examinent rarement les pages situées au-delà du premier écran de réponse.

Page 11: Written by C. Roux / Décembre 2001/ page 1 / for Xerox internal use only Utilisation et utilité dun extracteur de dépendances Claude Roux

written by C. Roux / Décembre 2001/ page 11 / for Xerox internal use only

MunninMunninDenys Proux Denys Proux (Thèse de doctorat 2000)(Thèse de doctorat 2000)

MunninMunninDenys Proux Denys Proux (Thèse de doctorat 2000)(Thèse de doctorat 2000)

- Extraction de faits sur la génétique à partir d’articles sicentifiques dans le domaine (en anglais)

- Les gènes et les protéines peuvent être identifiées en fonction de leur contexte syntaxique

- Utilisation de patrons syntaxiques

Page 12: Written by C. Roux / Décembre 2001/ page 1 / for Xerox internal use only Utilisation et utilité dun extracteur de dépendances Claude Roux

written by C. Roux / Décembre 2001/ page 12 / for Xerox internal use only

““Pka-C1Pka-C1 is a component of the is a component of the signalling pathwaysignalling pathway that that repressesrepresses dpp dpp expressionexpression in the anterior compartment in in the anterior compartment in appendage imaginal discsappendage imaginal discs and and anterior to the anterior to the morphogenetic furrowmorphogenetic furrow in in eye discseye discs. . ””

Extraction d’informationExtraction d’information

Synthesis:

Action: repressActeur: Pka-C1Cible: dppLieu : imaginal discLieu: eye disc

repress

(Acteur) (Cible)

dpp

?

(relier_à)

(Lieu)

imaginal

disc

(relier_à)

(Lieu)

eye

disc

(relier_à)

Pka-C1

?

(relier_à)

MunninMunninDenys ProuxDenys ProuxMunninMunninDenys ProuxDenys Proux

Sélection d’un extrait d’un article scientifique:Sélection d’un extrait d’un article scientifique:

Page 13: Written by C. Roux / Décembre 2001/ page 1 / for Xerox internal use only Utilisation et utilité dun extracteur de dépendances Claude Roux

written by C. Roux / Décembre 2001/ page 13 / for Xerox internal use only

Conclusion

• L’analyse syntaxique permet d’affiner la recherche d’information

• Elle offre aussi un concours précieux dans le cadre de l’extraction d’information en offrant des patrons plus raffinés que le simple pattern matching

• Démonstration de Xerox Incremental Parser