nettoyage et pr e-traitements thierry hamon · bill gates ! fouille de texte/extraction...

Fouille de textesNettoyage et Pre-Traitements

Thierry Hamon

Bureau H202 - Institut GalileeTel. : 33 1.49.40.35.53

[email protected]

https://perso.limsi.fr/hamon/Teaching/P13/FDT-2016-2017/

1/72

[email protected]

https://perso.limsi.fr/hamon/Teaching/P13/FDT-2016-2017/

1 Nettoyage et Pre-traitementsNettoyage extra-linguistique

2 Segmentation en mots et phrases

3 Analyse morpho-syntaxiqueAnalyse flexionnelleAnalyse derivationnelleRacinisationLemmatisation et etiquetage morpho-syntaxique

1/72

Fouille de texteChaıne de traitements

Collectedes donnees

Nettoyage etPre-traitements

Annotationdes entites

semantiques

Regroupementdes entites

Selectiondes entites

Post-traitements

Documents (PDF, .doc, etc.)Pages web (HTML, XML, etc.), Mails, Forums, etc.

Nettoyage, Segmentation en mots et phrasesEtiquetage morpho-syntaxique, lemmatisation

Reconnaissance d’entites nommeesReconnaissance et extraction de termes

Acquisition de relations semantiquesClassification et categorisation semantique

Elimination des entites non pertinentesDesambiguısation semantiqueTraitements specifiques lies a la tache

2/72

Nettoyage et Pre-traitements

Nettoyage extra-linguistique


Nettoyage du texte (suppression des balises HTML, etc.)

Passage de ligne typographique a la ligne logiqueune phrase ou un paragraphe == une ligne UNIX

Homogeneisation de l’encodage des caracteres

Normalisation extra-linguistique

Caracteres espace dupliquesCesuresMarques de changement de policeLigatures : difference, specificTirets longs : – (--)...

3/72



Lignes typographiques vs. lignes logiques1: Biosci Biotechnol Biochem. 2003 Aug;67(8):1825-7. Related Articles, Links

Comparative Analyses of Hairpin Substrate Recognition by

Escherichia coli and Bacillus subtilis Ribonuclease P Ribozymes.

Ando T, Tanaka T, Kikuchi Y.

Division of Bioscience and Biotechnology, Department of Ecological

Engineering, Toyohashi University of Technology.

Previously, we reported that the substrate shape recognition of

the Escherichia coli ribonuclease (RNase) P ribozyme depends on

the concentration of magnesium ion in vitro. We additionally

examined the Bacillus subtilis RNase P ribozyme and found that the

B. subtilis enzyme also required high magnesium ion, above 10 mM,

for cleavage of a hairpin substrate. The results of kinetic

studies showed that the metal ion concentration affected both the

catalysis and the affinity of the ribozymes toward a hairpin RNA

substrate.

PMID: 12951523 [PubMed - in process]

4/72



Lignes typographiques vs. lignes logiques

1: Biosci Biotechnol Biochem. 2003 Aug;67(8):1825-7. Related Articles, Links

Comparative Analyses of Hairpin Substrate Recognition by Escherichia coli and Bacillus subtilis Ribonuclease P Ribozymes.

Ando T, Tanaka T, Kikuchi Y.

Division of Bioscience and Biotechnology, Department of Ecological Engineering, Toyohashi University of Technology.

Previously, we reported that the substrate shape recognition of the Escherichia coli ribonuclease (RNase) P ribozyme depends on the concentration of magnesium ion in vitro. We additionally examined the Bacillus subtilis RNase P ribozyme and found that the B. subtilis enzyme also required high magnesium ion, above 10 mM, for cleavage of a hairpin substrate. The results of kinetic studies showed that the metal ion concentration affected both the catalysis and the affinity of the ribozymes toward a hairpin RNA substrate.

PMID: 12951523 [PubMed - in process]

5/72



Codage de caracteres

Textes issus de differentes sources→ codage des caracteres differents : ASCII, iso-latin-1, CP 1252,UTF-8, UTF-16, etc.

Problemes :

passage a la ligne

jeux de caracteres

6/72



Codage du passage a la ligne

Differents codages sous UNIX, MacOS, MS-DOS/WindowsAutre probleme :

MS-DOS : <CR><LF>

Macintosh : <CR>

UNIX et ISO-Latin-1 : <LF>

<CR> : carriage return – retour chariot – \r

<LF> : line feed – fin de ligne – \n

7/72



Jeu de caracteres

Choix du jeu de caracteres variable suivant les besoinsAugmentation du nombre de symboles utilises necessaires :

Caracteres accentues

lettres grecs

ligatures

...

→ Augmentation de la taille des codagesISO/IEC 10646 : 32 bits/plus de 4 millards de symboles)

Probleme : assurer la compatibilite ascendanteUn code plus petit doit etre inclus dans un code plus grand

Proposition de normes pour faciliter les echanges (ISO)

8/72



ASCII (ISO 646)

Proposee en 1963

Code de 7 bits : 128 caracteres (de 0 a 127)

Code inclu dans les pincipaux codes (ISO latin, Mac, MS-DOS,ISO/IEC 10646, UNICODE)

→ Codage universel

Uniquement codage de texte anglais

9/72



Table du code ASCII

Caracteres de controle

Ponctuations

Chiffres

Caracteres alphabetiques majuscules puis minuscules

Ponctuations supplementaires

man ascii

10/72



Codage des langues europeennes(ISO-LATIN-n – ISO-8859-n)

Taille : 8 bits (256 caracteres)

Plusieurs groupes de caracteres (256 : insuffisants pour tous lescaracteres des langues europeennes)Quinzaine de jeux de caracteresman iso 8859 1

Compatibilite ASCII

11/72



Groupe 1 : ISO-LATIN-1

Langues d’Europe de l’Ouest :allemand anglais danoisespagnol feroın finoisfrancais islandais italien

neerlandais norvegien portugaissuedois

Francais sans les caracteres : œ, Œ et Y→ Introduction du jeu de caracteres ISO-LATIN-15(pour le caractere Euro : caractere 164)

12/72



ISO/IEC 10646 et UNICODE (1)

Union de l’ISO et d’un consortium de constructeurs d’ordinateur(UNICODE)

Objectif : coder la plupart des caracteres existants

Japonais : au minimum 6000 caracteres (20000 pour les maisonsd’edition)Chinois : au minimum 7000

13/72




Definition de la norme ISO 10646 (en reference a ISO 646/ASCII)Code sur 32 bits (plus de 4 millards de caracteres possibles)

Compatibilite : ASCII et ISO-Latin-1

14/72




UNICODE Version 9.0 (juin 2016), actuellement plus d’un millionde codesTrois formats encodages (36 systemes d’ecriture) sur 32 bits(initialement sur 16 bits) :

UTF-8 : taille du codage dependant du carateres(compatibilite ASCII)Caracteres ASCII : 1 octetCaracteres iso-latin-1 : 2 octets (e −→ A c©)

UTF-16 : 2 ou 4 octets (49 194 dans la version 3.0)

UTF-32 : 4 octets (95 221 caracteres codes)

Un outil pour passer d’un codage a un autre : recode

15/72



Autres codages

Recodage des caracteres 8 bits sur 7 bits :

uuencodage

Codages MIME : quote-printable, base64

16/72

Segmentation en mots et phrases


Texte : une suite de caracteres

Segmentation des donnees textuelles : identification desous-ensemble de caracteres comme des unites linguistiques(mots, phrases, expressions, termes)

Difficulte a definir precisement une unite linguistique

Identification des unites linguistiques : premiere etape pour leTAL

De nombreuses taches dependent de la qualite de lasegmentation : etiquetage morpho-syntaxique, alignementmultilingue, indexation, etc.

17/72



Pourquoi segmenter les textes en mots et en phrases ?

Phrases : la plupart des grammaires decrivent les phrases

Mots : informations fournies par la plupart des dictionnairesNB : les mots peuvent simples (unites monolexicales – livre)ou complexes/composes (unites polylexicales – pomme deterre)

Identification de deux types d’unite :

Unites dont la structure des caracteres est reconnaissable(ponctuation, nombre, date, references bibliographiques, etc.)

Unites necessitant une analyse morphologique

18/72


Exemple

Ne a Paris le 21 octobre 1944, Jean-Pierre Sauvage a effectue sa these

a l’Universite de Strasbourg sous la direction de Jean-Marie

Lehn. Apres un post-doctorat a Oxford, il revient en France et

effectue sa carriere au CNRS qu’il integre en 1971 et devient

directeur de recherche au CNRS en 1979. Jean-Pierre Sauvage travaille

a l’Institut de science et d’ingenierie supramoleculaire

(CNRS/Universite de Strasbourg). Il a egalement recu la medaille de

bronze en 1978 et celle d’argent du CNRS en 1988.

Le Francais Jean-Pierre Sauvage, ne en 1944, a mene ses recherches au

CNRS de 1971 a 2014 et est aujourd’hui professeur emerite a

l’universite de Strasbourg. Le chimiste a effectue sa these a

l’universite de Strasbourg sous la direction de Jean-Marie Lehn (futur

prix Nobel de chimie, en 1987). Il integre le CNRS en 1971, puis

effectue son post-doc a Oxford de 1973 a 1974 et devient directeur de

recherche en 1979. Medaille d’argent de l’organisme en 1988,

Jean-Pierre Sauvage travaille a l’Institut de science et d’ingenierie

supramoleculaires[1].

19/72


Un probleme non trivial

Probleme de la definition d’une phrase : Notion de phrasesimprecise

Quelles sont les marques de fin de phrases ? (.!? ...)Un titre est-il une phrase ?Une ”phrase” contient plusieurs phrases si elle comporte

des incises (exemples juxtaposes entre parentheses ou signalespar des tirets longs)des structures enumeratives

Probleme de la definition d’un motDifficulte de la definition de la notion de motAmbiguıte des separateursc’est, carte de credit correspondent a un, deux ou trois mots ?

20/72


Une segmentation suivant l’objectif

Traitement specifique suivant l’application, le type ou le volume dedonnees

Analyse de contenu : segmentation a gros grain

Traduction automatique : noms propres, mots, expressionsfigeesBill Gates →Fouille de texte/extraction d’information : nomspropres/entites nommees/termes avec leurs classes associees,valeurs numeriques, dates, etc.

Indexation de documents : reconnaissance des termes (simplesou complexes)

21/72


Une segmentation suivant l’objectif

Traitement specifique suivant l’application, le type ou le volume dedonnees

Analyse de contenu : segmentation a gros grain

Traduction automatique : noms propres, mots, expressionsfigeesBill Gates → facture barrieres ????

Fouille de texte/extraction d’information : nomspropres/entites nommees/termes avec leurs classes associees,valeurs numeriques, dates, etc.

Indexation de documents : reconnaissance des termes (simplesou complexes)

21/72


Strategies de segmentation

La ponctuation : un indice utile mais peu fiable notionsle point (.):

fin de phraseutilise dans les abreviationelement constitutif des nombres (notation anglo-saxonne)indication d’alignement

Solution : identifier les parties du texte les plus fiables poureliminer les ambiguıtes

noms propres, les abreviations, les mots composes oucomplexesavec

des expressions regulieresdes dictionnaires (mais probablement/certainement pasexhaustifs)une reconnaissance automatique des entites nommees

22/72


Identification d’ilots de confiance

Objectif : suppression des marques de ponctuation ambiguesIdentification des segments textuels avec des structures specifiques

1 Valeurs numeriques (5.345)

2 References alphanumeriques ou a des section (section 2.1,Doc1-3.2)

3 Date et duree (10/31/2013, 10-31-2012/9:00)

4 Acronymes (AT&T, P.M.)

5 Ponctuations (...)

6 Abreviations (i.e., mg.)

−→ Utilisation d’expressions regulieres ou d’automates

23/72


Segmentation en phrase

Utilisation des marques de ponctuation comme des indices de finde phrasesMais

le point (.) est tres ambigu : fin de phrase, partie d’uneabreviation ou les deux !

point d’exclamation (non ambigu)

point d’interrogation (non ambigu)

point virgule : separateur d’elements de liste, de phrases

Examen necessaire du contexte pour determiner le statut exact dela ponctuation

24/72


Traitement du point (1)

Le point et les points de suspension n’indiquent pas la fin d’unephrase lorsqu’ils sont suivis de

une ponctuation faible (virgule, parentheses)

un mot en minuscule

lorsqu’ils interviennent dans

une abreviation (cf. , i.e., ...)

la partie decimale d’un nombre en notation anglo-saxonne

25/72


Traitement du point (2)

Le point et les points de suspension indiquent une fin de phrase :

1 s’ils suivent une parenthese fermante

2 s’ils precedent un mot commencant par une majuscule,celui-ci n’etant pas un nom propre ou une abreviationCes ponctuations sont generalement separees du mot qu’ilssuivent par un caractere espace

3 s’ils sont suivis d’un passage a la ligne.

NB :

Indications trop generales pour etre exploitees ainsi

Necessite d’exploiter des ressources

La premiere lettre de certaines entites nommees (noms degenes – siRNA) ou abreviations peut etre une minuscule

26/72


Abreviations (1)

Tres productives

Liste longue et incomplete (comme pour les noms propres)

Utilisation d’un dictionnaire: Probleme de la disponibilite de cetypes de ressourcesSolution: Identification des mots pouvant etre des abreviation apartir du corpus etudie

27/72


Abreviations (2)Proposer des expressions regulieres permettant la reconnaissancedes abreviations dans le texteDes experiences impliquant differentes connaissances pour evaluerl’apport de l’identification des abreviations(Grefenstette&Tapanainen94), le corpus Brown (48805 phrases)Initialement, 90% de phrases correctement segmentees enconsiderant le point suivi d’un espace comme separateur dephrases.

Pas de lexique (precision : 97,7%)

Pas de lexique, le corpus est utilise comme filtre (precision :97,9%, 99,99% en prenant en compte les titres de personnes –Co., Dr., etc.)

Lexique sans abreviation (precision : 99,7%)

Lexique avec abreviation (precision : 99,998%)

28/72


ConclusionLa segmentation en mots et en phrase doit tenir compte deplusieurs parametres :

la structure du texte (balise HTML, agencement des pages)

Besoin de dictionnaire, mais ce n’est pas suffisant

Reconnaissance d’entites nommees

La verification manuelle des resultats peut etre necessaire

La segmentation en mots et en phrases est difficile a separer

Problemes non resolus/resolvables :

genitif : governor’s (un mot dans le corpus Brown, deuxmots dans le corpus Suzanne)it’s, who’s, don’t ...unites disjointes : ne ... pas

NB : les entites nommees sont egalement un point central dans lafouille de textes

29/72

Analyse morpho-syntaxique

Fouille de texteChaıne de traitements

Collectedes donnees

Nettoyage etPre-traitements

Annotationdes entites

semantiques

Regroupementdes entites

Selectiondes entites

Post-traitements

Documents (PDF, .doc, etc.)Pages web (HTML, XML, etc.), Mails, Forums, etc.

Nettoyage, Segmentation en mots et phrasesEtiquetage morpho-syntaxique, lemmatisation

Reconnaissance d’entites nommeesReconnaissance et extraction de termes

Acquisition de relations semantiquesClassification et categorisation semantique

Elimination des entites non pertinentesDesambiguısation semantiqueTraitements specifiques lies a la tache

30/72


Un point depart : le mot

Pas ideal (probleme de definition) ...

... mais pas le plus mauvais

Un choix impose dans la langue ecriteNB: Evite une analyse compplexe et l’explosion combinatoire

Pas de prise en compte des temps composes (passe compose apasse, voix passive est pris, etc.)

Pas de prise en compte des unites complexes ou des noms quinecessitent une analyse syntaxique (pomme de terre)

31/72


Traitement morphologique d’un corpus (1)

(mots, locutions)Segmentation

Etiquetage

Analyse morphologique(flexions, dérivation,

racinisation)

Corpus/Texte lemmatisé

Corpus/Texte étiqueté

Etiquetage

Corpus/Texte étiqueté

Analyse morphologique(flexions, dérivation,

racinisation)

Corpus/Texte lemmatisé

Corpus/Texte segmenté

Corpus/Texte brut

32/72


Traitement morphologique d’un corpus (2)

Suivant deux axes :

Identification des

des mots composes (timbre poste)flexions (je travaille, nous travaillons)derivations (medecin, medical, medecine)

Description du mot (je travaille) :

racine (travail)lemme (travailler)categorie morphosyntaxique (verbe) (ou grammaticale)traits morphologiques (1 ere personne, present de l’indicatif )

33/72


Analyse morphologique des motsplusieurs problemes sous-jacents

Traitement des flexions

Traitement des derivations

Problemes associes :

Ambiguıte syntaxiqueUnites ayant plusieurs categories (polycategorie)

34/72


Analyse flexionnelle

Traitement des flexions (1)

l’operation la mieux maıtrisee, depuis les annees 60

Principe de base :

Utilisation de dictionnaires de radicaux ou de lemmes

Decoupage du mot pour obtenir les combinaisons demorphemes acceptables (morpheme : unite minimale porteusede sens)

Utilisation de regles (automates ou transducteurs)

35/72



Traitement des flexions (2)

Approche actuelle :

Utilisation de dictionnaires de formes flechies, generees apartir de l’application de regles de flexions sur un dictionnairede formes lemmatisees

Exemple de ressources disponibles :

DELAF associe au DELAS (francais)CELEX (anglais, neerlandais et allemand)MULTEX (plusieurs langues europeenne dont le francais)

36/72



Traitement des flexions (3)Remarques

L’approche est generalement mise en œuvre dans unlemmatiseur

On peut aussi apprendre automatiquement un lexiqued’informations morphologiques (Clement et al., 2004)

Lorsque la langue est morphologiquement riche, on effectueplutot d’une analyse morphologique

37/72



Exemples de ressources flexionnellesExtraits de ressources

DELAS DELAFchateau,.N3 maisons, maison.N21 : Nfp

dejeuner,.N1.V3 irais,aller.V16 : CPr2s

LEFFF (construit automatiquement) :forme flechie cat. Lemme traits morpho. classe. morphoboire v boire W v74bois nc bois m nc-1mbois v boire P12s v74bois v boire Y2s v74...maison adj maison adj-1maisons adj maison p adj-1maison nc maison fs nc-2fmaisons nc maison fp nc-2f

38/72



Exemples de ressources flexionnellesExtraits de ressources

CELEX (anglais) :Numero Lemme Frequence Classe flex. Compose

3357 BBC 491 14 N

3359 be 687085 4 N

3360 beach 1449 1 Y

3361 beach 16 4 N

3362 beach ball 0 1 Y

CELEX (allemand):Numero Lemme Frequence Classe flex. Compose

14508 gehen 7302 4 N

23459 Lufthafen 0 1 N

23478 Luftschiffahrt 0 2 Y

48193 Wasserball 12 1 N

39/72



Quelques approches pourl’analyse morphologie flexionnelle

Morphologie concatenative

Morphologie a deux niveaux

Morphologie structurale

40/72



Morphologie concatenative

Analyse morphologique flexionnelle

ons

ais1/sig/imp/ind/prendre

1/pl/pst/ind/prendre

is

it

1/sig/pas/ind/prendre

3/sig/pst/ind/prendre

prend

pren

pr


///inf/prendre


res

s

Utilisation d’automates finisExemple d’outil : SMORPH (S. Aıt-Mokhtar, GRIL)

41/72



Morphologie a deux niveaux

(K. Koskenniemi, Helsinki)

Passage d’une forme descriptive a une forme operationnelleExemple : pluriel de mots simplesDescription : +masc +pl → ∅ slivre +masc +pl → livre ∅ s

1 2 3 4=|= +masc|ø +pl|s

Utilisation de transducteurs

42/72



Morphologie structurale (1)

Ritchie et al.

Des regles hors-contextesMot → VerbeMot → Nom

Verbe → Prefixe-Verbal VerbeNom → Nom Suffixe-Nominal

Des structures de traits :

{(V, +), (N, -), (PLU, +)}

43/72



Morphologie structurale (2)

Exemple de structure :

[BAR 0, V+ N−, SUBCAT NP]

[BAR 0, V+, N−, SUBCAT NP][BAR 0, V+, N+, SUBCAT NULL]

regular −ize

44/72


Analyse derivationnelle

Traitement de la derivation (1)

Approche par dictionnaires :

Utilisation de familles derivationnelles (Base CELEX)Elaboration du dictionnaire derivationnel du francais al’Universite Lille III, sous la direction de D. Corbin et P. Corbin(Corbin 1991)

Approche par regles : Racinisation et desuffixationadhesion −→ adherer

Regle d’allomorphie : es- −→ er-

Regle de graphie : -on −→ -on, -ion, -ation

explanation −→ explain

Regle d’allomorphie : an- −→ -ainRegle de desuffixation : -iton, -ion, -ation −→ -tion

inactivation (−→ act)

Regle de deprefixation : [in [activation]]

Regle de desuffixation : [[[[ act ] ive ] ate ] tion ]

45/72



Traitement de la derivation (2)

Extrait de CELEX :

1182\alternate\V\-+ :

1184\alternately\ADV\-+ly 1186\alternation\N\-e+ion

1187\alternative\N\-+ 1188\alternative\A\-ion+ive

1189\alternatively\ADV\-+ly 1190\alternator\N\-e+or

1183\alternate\A\-+

46/72



Traitement des ambiguıtes morphologiques (1)

Ambiguıtes morphologiques mais aussi morphosyntaxiquesindecidable par une simple analyse morphologique

Exemples :

En book / to bookFr bois / bois (boire) ; la (nom, determinant,

pronom)

Principe : Utilisation du contexte du mot (connaissancessyntaxiques locales)

47/72



Traitement des ambiguıtes morphologiques (2)

Solutions (dependantes de l’architecture et l’approche) :

decision Indication de l’ambiguıte, appartenance du motambigu a plusieurs categories

pas de decision Au niveau de l’analyse morphologie, recours aune analyse syntaxique permettant unedesambiguısation sur une base statistique

48/72


Racinisation

La racinisation

Analyse frustre :

Identification de la plus petite chaıne de caracteres porteusede sens

Tres utilisee en recherche d’information, utile comme traitspour la classification

2 approches principales basee sur l’utilisation de regles :

Desuffixage et recodage separes (Lovins, 1968)

Desuffixage et recodage simultanes (Porter, 1980)

Racinisation a partie de corpus

49/72


Racinisation

Racinisation a la Lovins (1)

Desuffixage et recodage separes

Etape 1 : Identification des terminaisons par taille decroissante :-alistically -antialness -allically

11 -arizability 10 -arisations 9 -antaneous

-izationally -arizations -antiality

-entialness -arisation

50/72


Racinisation


Etape 2 : Recodage des terminaisons, avec recherche dans l’ordre :

1 suppression des doubles : bb-, dd-, gg-, ll-, mm-, nn-, pp-,rr-, dd-, tt-, ...

2 iev- → ief-

3 uct- → uc-

4 umpt- → um-

5 rpt- → rb-

6 ...

51/72


Racinisation


Exemples de racines obtenues par l’algorithme de Lovins :

Chaıne initiale Chaıne apres desuffixage Chaıne recodee

magnesia magnes magnes

magnetometer magnetometer magnetometer

magnetometry magnetometr magnetometer

52/72


Racinisation

Racinisation a la Porter (1)

Desuffixage et recodage simultanes

Etape Regle Exemple-SSES → -SS careSSES → careSS

1a -IES → -I ponIES → ponI

-SS → -SS careSS → careSS

-Y → -I happY → happI

1c -EMENT → - replacEMENT → replac

-MENT → - adjustMENT → adjust

3 -ATIONAL → -ATE relATIONAL → relATE

-TIONAL → -TION condiTIONAL → condiTION

53/72


Racinisation

Racinisation a la Porter (2)

Exemples de racines obtenues par l’algorithme de Porter :

Chaıne initiale Decoupage Racineacid acid acid

acid acid acid

acidic acid+ic acid

acidify acidifi acidifi

acidity acid+ity acid

acidulate acidul+ate acidul

acidulated acidul+ated acidul

acidulous acidul+ous acidul

54/72


Racinisation

Racinisation du francais

Approche de F. Namer, Universite Nancy IIDefinition de regles et d’exceptions a partir d’une analyse linguistique :Le suffixe -erent :

marque en general les verbes du premier groupe au passe simple(cederent)

marque quelquefois les verbes du premier groupe au present(legiferent)

peut etre (tres rarement) ambigu (lac-erent, lacer-ent)

Principe pour les allomorphes : reduction a une racine uniqueced- → ced-

jett- → jet-

55/72


Lemmatisation et etiquetage morpho-syntaxique


Lemmatisation : Transformation d’un mot sous forme flechieen sa forme canoniquedistances → distance

Etiquetage morpho-syntaxique : Assignation a un mot d’uneou des etiquette(s) possibles

Etiquette : informations morphosyntaxiques, c’est-a-dire unecategorie grammaticle (nom), des traits morphologiques(feminin, pluriel)

Une tache precieuse et souvent indispensable en TAL et pour lafouille de textes

56/72



Categories grammaticales

Substantif : ecran, maison

Verbe : manger, programmer

Adverbe : quotidiennement

Nom propre : UNIX, Kernighan

57/72



Jeu d’etiquettes

Pas reellement de jeux d’etiquettes unifies (meme s’il existe un jeuuniversel de 12 etiquettesDepend des besoins de la tache :

approche minimaliste : 16 etiquettes

approche maximaliste : 190 etiquettes

Brill : 50 etiquettesTreeTagger : 36 etiquettes (pour l’anglais) Jeu Multext :potentiellement environ 200 etiquettesExemples d’etiquettes :

Etiquettes du Penn TreeBank : JJ, NN, VBZ

Multtext : Vmip1s--, Nc-p--, Sp+Da--p--d, A--mp--

58/72



Principales methodes d’etiquetage

Utilisation de bases de regles

Methodes stochastiques

Approches mixtes

59/72



Methodes a base de regles

Etiquetage a partir de ressourcesRemarques :

Necessite de disposer des dictionnaires de regles (travailmanuel et couteux)

Systemes plus rapides

La base de connaissances peut etre modifiee (probleme decontradiction entre les regles)

Assez bonne precision

60/72



Methodes stochastiques (1)

Calcul d’une etiquette d’un mot (a une position donnee) enfonction :

etiquettes precedents (n-grammes, generalement bigrammes)

sur la probabilite d’avoir une etiquette pour un mot donnee

Utilisation de methodes de classifications :

Arbre de decision (TreeTagger)

Chaınes de Markov, HMM, MaxEnt, CRF (GeniaTagger,MElt)

61/72



Methodes stochastiques (2)Probabilites conditionnelles des etiquettes suivant les motsprecedents

W = · · · wi−2 wi−1 wi · · · ← motsT = · · · ti−2 ti−1 ti · · · ← etiquettes

p(T |W ) =p(T )p(W | T )

p(W )

Hypothese simplifiee :

p(T |W )p(W ) = p(t1)p(t2 | t1)n∏

i=3

p(ti | ti−1, ti−2)n∏

i=1

p(wi | ti )

probabilite de la transition p(ti | ti−1, ti−2)probabilite de l’observation p(wj | ti )

62/72



Methodes stochastiques (3)

Remarques :

Necessite d’apprendre sur des exemples (corpus deja etiquete)

Modele dependant de la langue mais aussi du type de texte(et de la thematique/du domaine)

Difficile d’identifier les origines des erreurs

Necessite de calculer les probabilites des n-grammes sur toutle corpus

Bonne precision

jusqu’a 97% pour l’anglais generaljusqu’a 98% pour l’anglais biomedical (GeniaTagger)

63/72



TreeTagger(Institute for Computational Linguistics, University of Stuttgart)Un etiqueteur morpho-syntaxique tres utilise

Etiqueteur probabiliste utilisant des arbres de decision

Definit pour de nombreuses langues (un modele par langue) :Anglais, Francais, Allemand, Italien, Grec, etc.

Jeu d’etiquette : PennTreeBank TagSet pour l’anglais

Apprentissage prealable de probabilite sur un corpus dereference (le WSJ pour l’anglais)

Nombreuses “regles” (entre 103 et 104)

Les mots inconnus/ambigus sont etiquetes en fonction ducontexte et des bigrammes connus sur le corpusd’apprentissage

Effectue egalement la lemmatisation

64/72



TreeTagger(Exemple de sortie pour l’anglais)

Nonalcoholic JJ nonalcoholicsteatohepatitis SYM steatohepatitis( ( (NASH NP Nash) ) )is VBZ bea DT amorbid JJ morbidcondition NN conditionhighly RB highlyrelated VBN relateto TO toobesity NN obesity. SENT .

65/72



TreeTagger(Exemple de sortie pour le francais)

Lors ADV lorsde PRP del’ DET:ART leapproche NOM approche, PUN ,en PRP envent NOM ventarriere VER:pper arrierepour PRP pourla DET:ART lepiste NOM piste26L INT 26L, PUN ,a PRO:POS aune DET:ART unaltitude NOM altitudede PRP de5500 NUM @card@ft PRO:POS ft

66/72



GeniaTagger

(Universite de Tokyo – Tsujii laboratory)

Etiqueteur utilisant une extension des modeles de Markovavec entropie maximale.

Langue : Anglais

Etiqueteur specialise dans les textes de biologie

Jeu d’etiquette : proche du PennTreeBank TagSet

Apprentissage prealable de probabilite sur un corpus dereference (WSJ + 2000 resumes Medline + PennBioIE)

Algorithme d’apprentissage : Maximum Entropy (MEMM)

Effectue egalement la lemmatisation et une reconnaissanced’entites nommees (medicales)

67/72



GeniaTagger(Exemple de sortie)

Previously, Previously, NN B-NP Owe we PRP B-NP Oreported report VBD B-VP Othat that IN B-SBAR Othe the DT B-NP Osubstrate substrate NN I-NP Oshape shape NN I-NP Orecognition recognition NN I-NP Oof of IN B-PP Othe the DT B-NP OEscherichia Escherichia FW I-NP Ocoli coli FW I-NP Oribonuclease ribonuclease NN I-NP B-protein(RNase) (RNase) NN I-NP I-proteinP P NN I-NP I-proteinribozyme ribozyme NN I-NP I-proteindepends depend VBZ B-VP Oon on IN B-PP Othe the DT B-NP O

68/72



Flemm

(Universite de Lorraine)

Analyseur morphologique pour le francais

Jeu d’etiquette : Multext

Approche a base de regles

Utilisation de la sortie de TreeTagger

Correction du lemme du mot et correction/amelioration del’etiquetage morpho-syntaxique

Gestion des mots inconnus

Implemente en Perl

69/72



Flemm(Exemple de sortie pour le francais)

Lors ADV lorsde PRP del’ DET(ART):Da3-s— leapproche NOM:Nc-s– approche, PUN ,en PRP envent NOM:Nc-s– ventarriere ADJ:A—s– arrierepour PRP pourla DET(ART):Da3fs— lepiste NOM:Nc-s– piste26L INT 26l, PUN ,a NOM:Nc-s– aune DET(ART):Da3ms— unaltitude NOM:Nc-s– altitudede PRP de5500 NUM 5500ft NOM:Nc-s– ft

70/72



Exemples d’etiqueteurs morpho-syntaxiques

TreeTaggerhttp://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/

GeniaTagger http://www.nactem.ac.uk/GENIA/tagger/

TnT tagger http://www.coli.uni-saarland.de/~thorsten/tnt/

StanfordTagger http://nlp.stanford.edu/software/tagger.shtml

Flemm https://sites.google.com/site/fiammettanamer/home/

outils---ressources/flemm

LIA TAGG http://lia.univ-avignon.fr/fileadmin/documents/Users/

Intranet/chercheurs/bechet/download_fred.html

MElthttps://www.rocq.inria.fr/alpage-wiki/tiki-index.php?page=MElt

71/72

http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/

http://www.nactem.ac.uk/GENIA/tagger/

http://www.coli.uni-saarland.de/~thorsten/tnt/

http://nlp.stanford.edu/software/tagger.shtml

https://sites.google.com/site/fiammettanamer/home/outils---ressources/flemm

https://sites.google.com/site/fiammettanamer/home/outils---ressources/flemm

http://lia.univ-avignon.fr/fileadmin/documents/Users/Intranet/chercheurs/bechet/download_fred.html

http://lia.univ-avignon.fr/fileadmin/documents/Users/Intranet/chercheurs/bechet/download_fred.html

https://www.rocq.inria.fr/alpage-wiki/tiki-index.php?page=MElt



Conclusion

Etiquetage morpho-syntaxiques : nombreuses approchesdeveloppees, basees sur methodes de classificationautomatique

Lemmatisation et derivation: approches basees sur desressources

Derivation : utile pour le regroupement des termes

72/72