introduction donnéesadrien-bougouin.github.io/publications/2013/state_of_the_art_recital... · [5]...

État de l'art des méthodesd'extraction automatique de termes-clés

Adrien Bougouin, LINA - UMR CNRS 6241adrien.bougouin@univ-nantes.fr

Introduction Données

Références[1] Eichler, K. et Neumann, G. : DFKI KeyWE : Ranking Keyphrases Extracted from Scientific Articles.[2] Jones K.S. : A Statistical Interpretation of Term Specificity and its Application in Retrieval. [3] Liu Z., Li P., Zheng Y. et Sun M. : Clustering to Find Exemplar Terms for Keyphrase Extraction. [4] Matsuo Y. et Ishizuka M. : Keyword Extraction from a Single Document Using Word Co-occurrence Statis-[3] tical Information. [5] Mihalcea R. et Tarau P. : TextRank : Bringing Order Into Texts. [6] Paukkeri M.S et Honkela T. : Likey : Unsupervised Language-Independent Keyphrase Extraction. [7] Sarkar K., Nasipuri M. et Ghose S. : A New Approach to Keyphrase Extraction Using Neural Networks. [8] Sujian L., Houfeng W., Shiwen Y. et Chengsheng X. : News-Oriented Keyword Indexing with Maximum En-[8] tropy Principle.[9] Tomokiyo T. et Hurst, M. : A Language Model Approach to Keyphrase Extraction. [10] Turney P.D. : Learning Algorithms for Keyphrase Extraction. [11] Wan X. et Xiao J. : Single Document Keyphrase Extraction Using Neighborhood Knowledge. [12] Wien I.H., Paynter G.W., Frank E., Gutwin C. et Nevill-Manning C.G. : KEA : Practical Automatic Key-[11] phrase Extraction.

De nombreuses méthodes.

→ elques points communs : - pré-traitements - extraction des termes candidats→ Diverses approches : - usage de groupes sémantiques - usage d'un graphe - entraînement de classifieurs, etc.

Documentà

analyser

Collection

Extractionde

termes candidats

+ annotations

- document = graphe non-orienté- noeuds = noms et adjectifs- liens = co-occurrences- mots ordonnés avec Page- Rank- termes-clés = - k meilleurs mots + concaté- nation si possible (Text- Rank [5]) - k meilleurs termes-candidats en fonction de la somme du score PageRank de leurs mots (SingleRank [11])

Exemple SingleRank

alerteaoût

canicule

météo

37,9°c

record

belgique

deuxième

température

36°cdimancheoesling

températures

chaleurensemble

exceptionjaune

luxembourg

orange province

rougeannée

chaude

journée

atmosphère

légère

baisse

semaine

vigilance

début

orages

soirée

royaume

mercure

lundi19

alerteaoût

canicule

météo

37,9°c

record

belgique

deuxième

température

36°cdimancheoesling

températures

chaleurensemble

exceptionjaune

luxembourg

orange province

rougeannée

chaude

journée

atmosphère

légère

baisse

semaine

vigilance

début

orages

soirée

royaume

mercure

lundi1

Termes-clés : alerte orange ; alerte jaune ; alerte rouge ; alerte ; deuxième nuit ; août 2012 ; août 2003 ; vigilance orange ; légère brise ; luxembourg

TF-IDF [2] et Likey [6] : Un terme candidat est un terme-clé si les mots qu’il contient sont : - fréquents dans le document - spécifiques au document

Calcul de la divergence Kullback-Leiblerentre trois modèles de langue (ML) pour sé-lectionner les termes candidats qui respectentdeux propriétés [9] :

Utilisation de groupes sémantiques pour couvrirau mieux tous les aspects du document.

1 Regroupement des mots fréquents2 Estimation de la proba- bilité de co-occurrence d'un terme candidat avec chaque groupe3 Sélection des termes candidats qui co-occur- rent plus que selon tou- te probabilité avec les groupes

1 Regroupement des mots 2 Identification du centroïde de chaque groupe

3 Sélection des termes candidats qui contiennent un ou plusieurs centroïdes Traits

Classifieurs

entraînés à partir de

Réseau de neurones [7]

Modèle probabiliste : - classifieur naïf bayésien [12] - modèle d'entropie maximale [8]

Arbre de décision [10]

Séparateur à Vaste Marge [1] trait1

terme candidat

terme-clé non terme-clé

trait2 trait2

terme-clé non terme-clé

oui non

oui ouinon non

test sur trait1

test sur trait2 test sur trait2

trait2

trait1

terme-clé

non terme-clé

hyperplan

trait1

trait2 terme-clé

nonterme-clé

terme candidat

entrées sortiescouche cachée

- fréquence (TF)- inverse de la fréquence documentaire (IDF)- position de la première occurrence- position de la dernière occurrence- partie du discours (nom, adjectif, etc.)- catégorie syntagmatique (syntagme nominal, syntagme verbal, etc.)- taille (en nombre de mots)- entité nommée (personne, lieu, pays, organi- sme, etc.)- structure du document (résumé, introduction, …), etc.

Conclusion

L'extraction de termes-clés consiste à sélectionner les locutions (termes candidats) les plus représentatives d'undocument.

Extraction de termes-clés

Pré-traitements : - segmentation en phrases - segmentation en mots - POS tagging

superviséesnon-supervisées

Diverses applications : - indexation automatique - résumé automatique - classification de document

Deux catégories de méthodes : - non-supervisées - supervisées

Méthodes à base de graphe

Méthodes par regroupement

Méthodes statistiques

grammaticalité

InformativitéMLn

collection

ML1collection

MLndocument

ML1document

KeyCluster [3]Matsuo et Ishizuka [4]

introduction donnéesadrien-bougouin.github.io/publications/2013/state_of_the_art_recital... · [5]...

Documents

municipiulbacau.ro...anton ion vinde imobilul proprietate si...

declarative combinatorics: exact combinational...

linguistics essentials instructor: paul tarau based on ...

csce 3110 data structures & algorithm analysis rada mihalcea...

information retrieval and web search pagerank for...

on type-holding and type-repelling lambda-term skeletons...

generation chinese poetrymli/simon_vera.pdfconvolutional...

1 a logic programming based mobile agent infrastructure...

natural language processing rada mihalcea fall 2008

sf python meetup: textrank in python

short introduction to machine learning instructor: rada...

textrank: bringing order into texts

information retrieval and web search relevance feedback....

introduction to probability theory march 24, 2015 credits...

textrank : bringing order into texts

reactive mobile agent programming with jinni copyright ©...

brainstorming themes for 2006 paul tarau

language models instructor: paul tarau, based on rada...

multi-document text summarizationwe tackle the problem of...

csce 3110 data structures & algorithm analysis rada mihalcea...