nettoyage et pr e-traitements thierry hamon · bill gates ! fouille de texte/extraction...
TRANSCRIPT
Fouille de textesNettoyage et Pre-Traitements
Thierry Hamon
Bureau H202 - Institut GalileeTel. : 33 1.49.40.35.53
https://perso.limsi.fr/hamon/Teaching/P13/FDT-2016-2017/
1/72
1 Nettoyage et Pre-traitementsNettoyage extra-linguistique
2 Segmentation en mots et phrases
3 Analyse morpho-syntaxiqueAnalyse flexionnelleAnalyse derivationnelleRacinisationLemmatisation et etiquetage morpho-syntaxique
1/72
Fouille de texteChaıne de traitements
Collectedes donnees
Nettoyage etPre-traitements
Annotationdes entites
semantiques
Regroupementdes entites
Selectiondes entites
Post-traitements
Documents (PDF, .doc, etc.)Pages web (HTML, XML, etc.), Mails, Forums, etc.
Nettoyage, Segmentation en mots et phrasesEtiquetage morpho-syntaxique, lemmatisation
Reconnaissance d’entites nommeesReconnaissance et extraction de termes
Acquisition de relations semantiquesClassification et categorisation semantique
Elimination des entites non pertinentesDesambiguısation semantiqueTraitements specifiques lies a la tache
2/72
Nettoyage et Pre-traitements
Nettoyage extra-linguistique
Nettoyage extra-linguistique
Nettoyage du texte (suppression des balises HTML, etc.)
Passage de ligne typographique a la ligne logiqueune phrase ou un paragraphe == une ligne UNIX
Homogeneisation de l’encodage des caracteres
Normalisation extra-linguistique
Caracteres espace dupliquesCesuresMarques de changement de policeLigatures : difference, specificTirets longs : – (--)...
3/72
Nettoyage et Pre-traitements
Nettoyage extra-linguistique
Lignes typographiques vs. lignes logiques1: Biosci Biotechnol Biochem. 2003 Aug;67(8):1825-7. Related Articles, Links
Comparative Analyses of Hairpin Substrate Recognition by
Escherichia coli and Bacillus subtilis Ribonuclease P Ribozymes.
Ando T, Tanaka T, Kikuchi Y.
Division of Bioscience and Biotechnology, Department of Ecological
Engineering, Toyohashi University of Technology.
Previously, we reported that the substrate shape recognition of
the Escherichia coli ribonuclease (RNase) P ribozyme depends on
the concentration of magnesium ion in vitro. We additionally
examined the Bacillus subtilis RNase P ribozyme and found that the
B. subtilis enzyme also required high magnesium ion, above 10 mM,
for cleavage of a hairpin substrate. The results of kinetic
studies showed that the metal ion concentration affected both the
catalysis and the affinity of the ribozymes toward a hairpin RNA
substrate.
PMID: 12951523 [PubMed - in process]
4/72
Nettoyage et Pre-traitements
Nettoyage extra-linguistique
Lignes typographiques vs. lignes logiques
1: Biosci Biotechnol Biochem. 2003 Aug;67(8):1825-7. Related Articles, Links
Comparative Analyses of Hairpin Substrate Recognition by Escherichia coli and Bacillus subtilis Ribonuclease P Ribozymes.
Ando T, Tanaka T, Kikuchi Y.
Division of Bioscience and Biotechnology, Department of Ecological Engineering, Toyohashi University of Technology.
Previously, we reported that the substrate shape recognition of the Escherichia coli ribonuclease (RNase) P ribozyme depends on the concentration of magnesium ion in vitro. We additionally examined the Bacillus subtilis RNase P ribozyme and found that the B. subtilis enzyme also required high magnesium ion, above 10 mM, for cleavage of a hairpin substrate. The results of kinetic studies showed that the metal ion concentration affected both the catalysis and the affinity of the ribozymes toward a hairpin RNA substrate.
PMID: 12951523 [PubMed - in process]
5/72
Nettoyage et Pre-traitements
Nettoyage extra-linguistique
Codage de caracteres
Textes issus de differentes sources→ codage des caracteres differents : ASCII, iso-latin-1, CP 1252,UTF-8, UTF-16, etc.
Problemes :
passage a la ligne
jeux de caracteres
6/72
Nettoyage et Pre-traitements
Nettoyage extra-linguistique
Codage du passage a la ligne
Differents codages sous UNIX, MacOS, MS-DOS/WindowsAutre probleme :
MS-DOS : <CR><LF>
Macintosh : <CR>
UNIX et ISO-Latin-1 : <LF>
<CR> : carriage return – retour chariot – \r
<LF> : line feed – fin de ligne – \n
7/72
Nettoyage et Pre-traitements
Nettoyage extra-linguistique
Jeu de caracteres
Choix du jeu de caracteres variable suivant les besoinsAugmentation du nombre de symboles utilises necessaires :
Caracteres accentues
lettres grecs
ligatures
...
→ Augmentation de la taille des codagesISO/IEC 10646 : 32 bits/plus de 4 millards de symboles)
Probleme : assurer la compatibilite ascendanteUn code plus petit doit etre inclus dans un code plus grand
Proposition de normes pour faciliter les echanges (ISO)
8/72
Nettoyage et Pre-traitements
Nettoyage extra-linguistique
ASCII (ISO 646)
Proposee en 1963
Code de 7 bits : 128 caracteres (de 0 a 127)
Code inclu dans les pincipaux codes (ISO latin, Mac, MS-DOS,ISO/IEC 10646, UNICODE)
→ Codage universel
Uniquement codage de texte anglais
9/72
Nettoyage et Pre-traitements
Nettoyage extra-linguistique
Table du code ASCII
Caracteres de controle
Ponctuations
Chiffres
Caracteres alphabetiques majuscules puis minuscules
Ponctuations supplementaires
man ascii
10/72
Nettoyage et Pre-traitements
Nettoyage extra-linguistique
Codage des langues europeennes(ISO-LATIN-n – ISO-8859-n)
Taille : 8 bits (256 caracteres)
Plusieurs groupes de caracteres (256 : insuffisants pour tous lescaracteres des langues europeennes)Quinzaine de jeux de caracteresman iso 8859 1
Compatibilite ASCII
11/72
Nettoyage et Pre-traitements
Nettoyage extra-linguistique
Groupe 1 : ISO-LATIN-1
Langues d’Europe de l’Ouest :allemand anglais danoisespagnol feroın finoisfrancais islandais italien
neerlandais norvegien portugaissuedois
Francais sans les caracteres : œ, Œ et Y→ Introduction du jeu de caracteres ISO-LATIN-15(pour le caractere Euro : caractere 164)
12/72
Nettoyage et Pre-traitements
Nettoyage extra-linguistique
ISO/IEC 10646 et UNICODE (1)
Union de l’ISO et d’un consortium de constructeurs d’ordinateur(UNICODE)
Objectif : coder la plupart des caracteres existants
Japonais : au minimum 6000 caracteres (20000 pour les maisonsd’edition)Chinois : au minimum 7000
13/72
Nettoyage et Pre-traitements
Nettoyage extra-linguistique
ISO/IEC 10646 et UNICODE (2)
Definition de la norme ISO 10646 (en reference a ISO 646/ASCII)Code sur 32 bits (plus de 4 millards de caracteres possibles)
Compatibilite : ASCII et ISO-Latin-1
14/72
Nettoyage et Pre-traitements
Nettoyage extra-linguistique
ISO/IEC 10646 et UNICODE (3)
UNICODE Version 9.0 (juin 2016), actuellement plus d’un millionde codesTrois formats encodages (36 systemes d’ecriture) sur 32 bits(initialement sur 16 bits) :
UTF-8 : taille du codage dependant du carateres(compatibilite ASCII)Caracteres ASCII : 1 octetCaracteres iso-latin-1 : 2 octets (e −→ A c©)
UTF-16 : 2 ou 4 octets (49 194 dans la version 3.0)
UTF-32 : 4 octets (95 221 caracteres codes)
Un outil pour passer d’un codage a un autre : recode
15/72
Nettoyage et Pre-traitements
Nettoyage extra-linguistique
Autres codages
Recodage des caracteres 8 bits sur 7 bits :
uuencodage
Codages MIME : quote-printable, base64
16/72
Segmentation en mots et phrases
Segmentation en mots et phrases
Texte : une suite de caracteres
Segmentation des donnees textuelles : identification desous-ensemble de caracteres comme des unites linguistiques(mots, phrases, expressions, termes)
Difficulte a definir precisement une unite linguistique
Identification des unites linguistiques : premiere etape pour leTAL
De nombreuses taches dependent de la qualite de lasegmentation : etiquetage morpho-syntaxique, alignementmultilingue, indexation, etc.
17/72
Segmentation en mots et phrases
Segmentation en mots et phrases
Pourquoi segmenter les textes en mots et en phrases ?
Phrases : la plupart des grammaires decrivent les phrases
Mots : informations fournies par la plupart des dictionnairesNB : les mots peuvent simples (unites monolexicales – livre)ou complexes/composes (unites polylexicales – pomme deterre)
Identification de deux types d’unite :
Unites dont la structure des caracteres est reconnaissable(ponctuation, nombre, date, references bibliographiques, etc.)
Unites necessitant une analyse morphologique
18/72
Segmentation en mots et phrases
Exemple
Ne a Paris le 21 octobre 1944, Jean-Pierre Sauvage a effectue sa these
a l’Universite de Strasbourg sous la direction de Jean-Marie
Lehn. Apres un post-doctorat a Oxford, il revient en France et
effectue sa carriere au CNRS qu’il integre en 1971 et devient
directeur de recherche au CNRS en 1979. Jean-Pierre Sauvage travaille
a l’Institut de science et d’ingenierie supramoleculaire
(CNRS/Universite de Strasbourg). Il a egalement recu la medaille de
bronze en 1978 et celle d’argent du CNRS en 1988.
Le Francais Jean-Pierre Sauvage, ne en 1944, a mene ses recherches au
CNRS de 1971 a 2014 et est aujourd’hui professeur emerite a
l’universite de Strasbourg. Le chimiste a effectue sa these a
l’universite de Strasbourg sous la direction de Jean-Marie Lehn (futur
prix Nobel de chimie, en 1987). Il integre le CNRS en 1971, puis
effectue son post-doc a Oxford de 1973 a 1974 et devient directeur de
recherche en 1979. Medaille d’argent de l’organisme en 1988,
Jean-Pierre Sauvage travaille a l’Institut de science et d’ingenierie
supramoleculaires[1].
19/72
Segmentation en mots et phrases
Un probleme non trivial
Probleme de la definition d’une phrase : Notion de phrasesimprecise
Quelles sont les marques de fin de phrases ? (.!? ...)Un titre est-il une phrase ?Une ”phrase” contient plusieurs phrases si elle comporte
des incises (exemples juxtaposes entre parentheses ou signalespar des tirets longs)des structures enumeratives
Probleme de la definition d’un motDifficulte de la definition de la notion de motAmbiguıte des separateursc’est, carte de credit correspondent a un, deux ou trois mots ?
20/72
Segmentation en mots et phrases
Une segmentation suivant l’objectif
Traitement specifique suivant l’application, le type ou le volume dedonnees
Analyse de contenu : segmentation a gros grain
Traduction automatique : noms propres, mots, expressionsfigeesBill Gates →Fouille de texte/extraction d’information : nomspropres/entites nommees/termes avec leurs classes associees,valeurs numeriques, dates, etc.
Indexation de documents : reconnaissance des termes (simplesou complexes)
21/72
Segmentation en mots et phrases
Une segmentation suivant l’objectif
Traitement specifique suivant l’application, le type ou le volume dedonnees
Analyse de contenu : segmentation a gros grain
Traduction automatique : noms propres, mots, expressionsfigeesBill Gates → facture barrieres ????
Fouille de texte/extraction d’information : nomspropres/entites nommees/termes avec leurs classes associees,valeurs numeriques, dates, etc.
Indexation de documents : reconnaissance des termes (simplesou complexes)
21/72
Segmentation en mots et phrases
Strategies de segmentation
La ponctuation : un indice utile mais peu fiable notionsle point (.):
fin de phraseutilise dans les abreviationelement constitutif des nombres (notation anglo-saxonne)indication d’alignement
Solution : identifier les parties du texte les plus fiables poureliminer les ambiguıtes
noms propres, les abreviations, les mots composes oucomplexesavec
des expressions regulieresdes dictionnaires (mais probablement/certainement pasexhaustifs)une reconnaissance automatique des entites nommees
22/72
Segmentation en mots et phrases
Identification d’ilots de confiance
Objectif : suppression des marques de ponctuation ambiguesIdentification des segments textuels avec des structures specifiques
1 Valeurs numeriques (5.345)
2 References alphanumeriques ou a des section (section 2.1,Doc1-3.2)
3 Date et duree (10/31/2013, 10-31-2012/9:00)
4 Acronymes (AT&T, P.M.)
5 Ponctuations (...)
6 Abreviations (i.e., mg.)
−→ Utilisation d’expressions regulieres ou d’automates
23/72
Segmentation en mots et phrases
Segmentation en phrase
Utilisation des marques de ponctuation comme des indices de finde phrasesMais
le point (.) est tres ambigu : fin de phrase, partie d’uneabreviation ou les deux !
point d’exclamation (non ambigu)
point d’interrogation (non ambigu)
point virgule : separateur d’elements de liste, de phrases
Examen necessaire du contexte pour determiner le statut exact dela ponctuation
24/72
Segmentation en mots et phrases
Traitement du point (1)
Le point et les points de suspension n’indiquent pas la fin d’unephrase lorsqu’ils sont suivis de
une ponctuation faible (virgule, parentheses)
un mot en minuscule
lorsqu’ils interviennent dans
une abreviation (cf. , i.e., ...)
la partie decimale d’un nombre en notation anglo-saxonne
25/72
Segmentation en mots et phrases
Traitement du point (2)
Le point et les points de suspension indiquent une fin de phrase :
1 s’ils suivent une parenthese fermante
2 s’ils precedent un mot commencant par une majuscule,celui-ci n’etant pas un nom propre ou une abreviationCes ponctuations sont generalement separees du mot qu’ilssuivent par un caractere espace
3 s’ils sont suivis d’un passage a la ligne.
NB :
Indications trop generales pour etre exploitees ainsi
Necessite d’exploiter des ressources
La premiere lettre de certaines entites nommees (noms degenes – siRNA) ou abreviations peut etre une minuscule
26/72
Segmentation en mots et phrases
Abreviations (1)
Tres productives
Liste longue et incomplete (comme pour les noms propres)
Utilisation d’un dictionnaire: Probleme de la disponibilite de cetypes de ressourcesSolution: Identification des mots pouvant etre des abreviation apartir du corpus etudie
27/72
Segmentation en mots et phrases
Abreviations (2)Proposer des expressions regulieres permettant la reconnaissancedes abreviations dans le texteDes experiences impliquant differentes connaissances pour evaluerl’apport de l’identification des abreviations(Grefenstette&Tapanainen94), le corpus Brown (48805 phrases)Initialement, 90% de phrases correctement segmentees enconsiderant le point suivi d’un espace comme separateur dephrases.
Pas de lexique (precision : 97,7%)
Pas de lexique, le corpus est utilise comme filtre (precision :97,9%, 99,99% en prenant en compte les titres de personnes –Co., Dr., etc.)
Lexique sans abreviation (precision : 99,7%)
Lexique avec abreviation (precision : 99,998%)
28/72
Segmentation en mots et phrases
ConclusionLa segmentation en mots et en phrase doit tenir compte deplusieurs parametres :
la structure du texte (balise HTML, agencement des pages)
Besoin de dictionnaire, mais ce n’est pas suffisant
Reconnaissance d’entites nommees
La verification manuelle des resultats peut etre necessaire
La segmentation en mots et en phrases est difficile a separer
Problemes non resolus/resolvables :
genitif : governor’s (un mot dans le corpus Brown, deuxmots dans le corpus Suzanne)it’s, who’s, don’t ...unites disjointes : ne ... pas
NB : les entites nommees sont egalement un point central dans lafouille de textes
29/72
Analyse morpho-syntaxique
Fouille de texteChaıne de traitements
Collectedes donnees
Nettoyage etPre-traitements
Annotationdes entites
semantiques
Regroupementdes entites
Selectiondes entites
Post-traitements
Documents (PDF, .doc, etc.)Pages web (HTML, XML, etc.), Mails, Forums, etc.
Nettoyage, Segmentation en mots et phrasesEtiquetage morpho-syntaxique, lemmatisation
Reconnaissance d’entites nommeesReconnaissance et extraction de termes
Acquisition de relations semantiquesClassification et categorisation semantique
Elimination des entites non pertinentesDesambiguısation semantiqueTraitements specifiques lies a la tache
30/72
Analyse morpho-syntaxique
Un point depart : le mot
Pas ideal (probleme de definition) ...
... mais pas le plus mauvais
Un choix impose dans la langue ecriteNB: Evite une analyse compplexe et l’explosion combinatoire
Pas de prise en compte des temps composes (passe compose apasse, voix passive est pris, etc.)
Pas de prise en compte des unites complexes ou des noms quinecessitent une analyse syntaxique (pomme de terre)
31/72
Analyse morpho-syntaxique
Un point depart : le mot
Pas ideal (probleme de definition) ...
... mais pas le plus mauvais
Un choix impose dans la langue ecriteNB: Evite une analyse compplexe et l’explosion combinatoire
Pas de prise en compte des temps composes (passe compose apasse, voix passive est pris, etc.)
Pas de prise en compte des unites complexes ou des noms quinecessitent une analyse syntaxique (pomme de terre)
31/72
Analyse morpho-syntaxique
Un point depart : le mot
Pas ideal (probleme de definition) ...
... mais pas le plus mauvais
Un choix impose dans la langue ecriteNB: Evite une analyse compplexe et l’explosion combinatoire
Pas de prise en compte des temps composes (passe compose apasse, voix passive est pris, etc.)
Pas de prise en compte des unites complexes ou des noms quinecessitent une analyse syntaxique (pomme de terre)
31/72
Analyse morpho-syntaxique
Traitement morphologique d’un corpus (1)
(mots, locutions)Segmentation
Etiquetage
Analyse morphologique(flexions, dérivation,
racinisation)
Corpus/Texte lemmatisé
Corpus/Texte étiqueté
Etiquetage
Corpus/Texte étiqueté
Analyse morphologique(flexions, dérivation,
racinisation)
Corpus/Texte lemmatisé
Corpus/Texte segmenté
Corpus/Texte brut
32/72
Analyse morpho-syntaxique
Traitement morphologique d’un corpus (2)
Suivant deux axes :
Identification des
des mots composes (timbre poste)flexions (je travaille, nous travaillons)derivations (medecin, medical, medecine)
Description du mot (je travaille) :
racine (travail)lemme (travailler)categorie morphosyntaxique (verbe) (ou grammaticale)traits morphologiques (1 ere personne, present de l’indicatif )
33/72
Analyse morpho-syntaxique
Analyse morphologique des motsplusieurs problemes sous-jacents
Traitement des flexions
Traitement des derivations
Problemes associes :
Ambiguıte syntaxiqueUnites ayant plusieurs categories (polycategorie)
34/72
Analyse morpho-syntaxique
Analyse flexionnelle
Traitement des flexions (1)
l’operation la mieux maıtrisee, depuis les annees 60
Principe de base :
Utilisation de dictionnaires de radicaux ou de lemmes
Decoupage du mot pour obtenir les combinaisons demorphemes acceptables (morpheme : unite minimale porteusede sens)
Utilisation de regles (automates ou transducteurs)
35/72
Analyse morpho-syntaxique
Analyse flexionnelle
Traitement des flexions (2)
Approche actuelle :
Utilisation de dictionnaires de formes flechies, generees apartir de l’application de regles de flexions sur un dictionnairede formes lemmatisees
Exemple de ressources disponibles :
DELAF associe au DELAS (francais)CELEX (anglais, neerlandais et allemand)MULTEX (plusieurs langues europeenne dont le francais)
36/72
Analyse morpho-syntaxique
Analyse flexionnelle
Traitement des flexions (3)Remarques
L’approche est generalement mise en œuvre dans unlemmatiseur
On peut aussi apprendre automatiquement un lexiqued’informations morphologiques (Clement et al., 2004)
Lorsque la langue est morphologiquement riche, on effectueplutot d’une analyse morphologique
37/72
Analyse morpho-syntaxique
Analyse flexionnelle
Exemples de ressources flexionnellesExtraits de ressources
DELAS DELAFchateau,.N3 maisons, maison.N21 : Nfp
dejeuner,.N1.V3 irais,aller.V16 : CPr2s
LEFFF (construit automatiquement) :forme flechie cat. Lemme traits morpho. classe. morphoboire v boire W v74bois nc bois m nc-1mbois v boire P12s v74bois v boire Y2s v74...maison adj maison adj-1maisons adj maison p adj-1maison nc maison fs nc-2fmaisons nc maison fp nc-2f
38/72
Analyse morpho-syntaxique
Analyse flexionnelle
Exemples de ressources flexionnellesExtraits de ressources
CELEX (anglais) :Numero Lemme Frequence Classe flex. Compose
3357 BBC 491 14 N
3359 be 687085 4 N
3360 beach 1449 1 Y
3361 beach 16 4 N
3362 beach ball 0 1 Y
CELEX (allemand):Numero Lemme Frequence Classe flex. Compose
14508 gehen 7302 4 N
23459 Lufthafen 0 1 N
23478 Luftschiffahrt 0 2 Y
48193 Wasserball 12 1 N
39/72
Analyse morpho-syntaxique
Analyse flexionnelle
Quelques approches pourl’analyse morphologie flexionnelle
Morphologie concatenative
Morphologie a deux niveaux
Morphologie structurale
40/72
Analyse morpho-syntaxique
Analyse flexionnelle
Morphologie concatenative
Analyse morphologique flexionnelle
ons
ais1/sig/imp/ind/prendre
1/pl/pst/ind/prendre
is
it
1/sig/pas/ind/prendre
3/sig/pst/ind/prendre
prend
pren
pr
1/sig/pst/ind/prendre
///inf/prendre
2/sig/pst/ind/prendre
res
s
Utilisation d’automates finisExemple d’outil : SMORPH (S. Aıt-Mokhtar, GRIL)
41/72
Analyse morpho-syntaxique
Analyse flexionnelle
Morphologie a deux niveaux
(K. Koskenniemi, Helsinki)
Passage d’une forme descriptive a une forme operationnelleExemple : pluriel de mots simplesDescription : +masc +pl → ∅ slivre +masc +pl → livre ∅ s
1 2 3 4=|= +masc|ø +pl|s
Utilisation de transducteurs
42/72
Analyse morpho-syntaxique
Analyse flexionnelle
Morphologie structurale (1)
Ritchie et al.
Des regles hors-contextesMot → VerbeMot → Nom
Verbe → Prefixe-Verbal VerbeNom → Nom Suffixe-Nominal
Des structures de traits :
{(V, +), (N, -), (PLU, +)}
43/72
Analyse morpho-syntaxique
Analyse flexionnelle
Morphologie structurale (2)
Exemple de structure :
[BAR 0, V+ N−, SUBCAT NP]
[BAR 0, V+, N−, SUBCAT NP][BAR 0, V+, N+, SUBCAT NULL]
regular −ize
44/72
Analyse morpho-syntaxique
Analyse derivationnelle
Traitement de la derivation (1)
Approche par dictionnaires :
Utilisation de familles derivationnelles (Base CELEX)Elaboration du dictionnaire derivationnel du francais al’Universite Lille III, sous la direction de D. Corbin et P. Corbin(Corbin 1991)
Approche par regles : Racinisation et desuffixationadhesion −→ adherer
Regle d’allomorphie : es- −→ er-
Regle de graphie : -on −→ -on, -ion, -ation
explanation −→ explain
Regle d’allomorphie : an- −→ -ainRegle de desuffixation : -iton, -ion, -ation −→ -tion
inactivation (−→ act)
Regle de deprefixation : [in [activation]]
Regle de desuffixation : [[[[ act ] ive ] ate ] tion ]
45/72
Analyse morpho-syntaxique
Analyse derivationnelle
Traitement de la derivation (2)
Extrait de CELEX :
1182\alternate\V\-+ :
1184\alternately\ADV\-+ly 1186\alternation\N\-e+ion
1187\alternative\N\-+ 1188\alternative\A\-ion+ive
1189\alternatively\ADV\-+ly 1190\alternator\N\-e+or
1183\alternate\A\-+
46/72
Analyse morpho-syntaxique
Analyse derivationnelle
Traitement des ambiguıtes morphologiques (1)
Ambiguıtes morphologiques mais aussi morphosyntaxiquesindecidable par une simple analyse morphologique
Exemples :
En book / to bookFr bois / bois (boire) ; la (nom, determinant,
pronom)
Principe : Utilisation du contexte du mot (connaissancessyntaxiques locales)
47/72
Analyse morpho-syntaxique
Analyse derivationnelle
Traitement des ambiguıtes morphologiques (2)
Solutions (dependantes de l’architecture et l’approche) :
decision Indication de l’ambiguıte, appartenance du motambigu a plusieurs categories
pas de decision Au niveau de l’analyse morphologie, recours aune analyse syntaxique permettant unedesambiguısation sur une base statistique
48/72
Analyse morpho-syntaxique
Racinisation
La racinisation
Analyse frustre :
Identification de la plus petite chaıne de caracteres porteusede sens
Tres utilisee en recherche d’information, utile comme traitspour la classification
2 approches principales basee sur l’utilisation de regles :
Desuffixage et recodage separes (Lovins, 1968)
Desuffixage et recodage simultanes (Porter, 1980)
Racinisation a partie de corpus
49/72
Analyse morpho-syntaxique
Racinisation
Racinisation a la Lovins (1)
Desuffixage et recodage separes
Etape 1 : Identification des terminaisons par taille decroissante :-alistically -antialness -allically
11 -arizability 10 -arisations 9 -antaneous
-izationally -arizations -antiality
-entialness -arisation
50/72
Analyse morpho-syntaxique
Racinisation
Racinisation a la Lovins (2)
Etape 2 : Recodage des terminaisons, avec recherche dans l’ordre :
1 suppression des doubles : bb-, dd-, gg-, ll-, mm-, nn-, pp-,rr-, dd-, tt-, ...
2 iev- → ief-
3 uct- → uc-
4 umpt- → um-
5 rpt- → rb-
6 ...
51/72
Analyse morpho-syntaxique
Racinisation
Racinisation a la Lovins (3)
Exemples de racines obtenues par l’algorithme de Lovins :
Chaıne initiale Chaıne apres desuffixage Chaıne recodee
magnesia magnes magnes
magnetometer magnetometer magnetometer
magnetometry magnetometr magnetometer
52/72
Analyse morpho-syntaxique
Racinisation
Racinisation a la Porter (1)
Desuffixage et recodage simultanes
Etape Regle Exemple-SSES → -SS careSSES → careSS
1a -IES → -I ponIES → ponI
-SS → -SS careSS → careSS
-Y → -I happY → happI
1c -EMENT → - replacEMENT → replac
-MENT → - adjustMENT → adjust
3 -ATIONAL → -ATE relATIONAL → relATE
-TIONAL → -TION condiTIONAL → condiTION
53/72
Analyse morpho-syntaxique
Racinisation
Racinisation a la Porter (2)
Exemples de racines obtenues par l’algorithme de Porter :
Chaıne initiale Decoupage Racineacid acid acid
acid acid acid
acidic acid+ic acid
acidify acidifi acidifi
acidity acid+ity acid
acidulate acidul+ate acidul
acidulated acidul+ated acidul
acidulous acidul+ous acidul
54/72
Analyse morpho-syntaxique
Racinisation
Racinisation du francais
Approche de F. Namer, Universite Nancy IIDefinition de regles et d’exceptions a partir d’une analyse linguistique :Le suffixe -erent :
marque en general les verbes du premier groupe au passe simple(cederent)
marque quelquefois les verbes du premier groupe au present(legiferent)
peut etre (tres rarement) ambigu (lac-erent, lacer-ent)
Principe pour les allomorphes : reduction a une racine uniqueced- → ced-
jett- → jet-
55/72
Analyse morpho-syntaxique
Lemmatisation et etiquetage morpho-syntaxique
Lemmatisation et etiquetage morpho-syntaxique
Lemmatisation : Transformation d’un mot sous forme flechieen sa forme canoniquedistances → distance
Etiquetage morpho-syntaxique : Assignation a un mot d’uneou des etiquette(s) possibles
Etiquette : informations morphosyntaxiques, c’est-a-dire unecategorie grammaticle (nom), des traits morphologiques(feminin, pluriel)
Une tache precieuse et souvent indispensable en TAL et pour lafouille de textes
56/72
Analyse morpho-syntaxique
Lemmatisation et etiquetage morpho-syntaxique
Categories grammaticales
Substantif : ecran, maison
Verbe : manger, programmer
Adverbe : quotidiennement
Nom propre : UNIX, Kernighan
57/72
Analyse morpho-syntaxique
Lemmatisation et etiquetage morpho-syntaxique
Jeu d’etiquettes
Pas reellement de jeux d’etiquettes unifies (meme s’il existe un jeuuniversel de 12 etiquettesDepend des besoins de la tache :
approche minimaliste : 16 etiquettes
approche maximaliste : 190 etiquettes
Brill : 50 etiquettesTreeTagger : 36 etiquettes (pour l’anglais) Jeu Multext :potentiellement environ 200 etiquettesExemples d’etiquettes :
Etiquettes du Penn TreeBank : JJ, NN, VBZ
Multtext : Vmip1s--, Nc-p--, Sp+Da--p--d, A--mp--
58/72
Analyse morpho-syntaxique
Lemmatisation et etiquetage morpho-syntaxique
Principales methodes d’etiquetage
Utilisation de bases de regles
Methodes stochastiques
Approches mixtes
59/72
Analyse morpho-syntaxique
Lemmatisation et etiquetage morpho-syntaxique
Methodes a base de regles
Etiquetage a partir de ressourcesRemarques :
Necessite de disposer des dictionnaires de regles (travailmanuel et couteux)
Systemes plus rapides
La base de connaissances peut etre modifiee (probleme decontradiction entre les regles)
Assez bonne precision
60/72
Analyse morpho-syntaxique
Lemmatisation et etiquetage morpho-syntaxique
Methodes stochastiques (1)
Calcul d’une etiquette d’un mot (a une position donnee) enfonction :
etiquettes precedents (n-grammes, generalement bigrammes)
sur la probabilite d’avoir une etiquette pour un mot donnee
Utilisation de methodes de classifications :
Arbre de decision (TreeTagger)
Chaınes de Markov, HMM, MaxEnt, CRF (GeniaTagger,MElt)
61/72
Analyse morpho-syntaxique
Lemmatisation et etiquetage morpho-syntaxique
Methodes stochastiques (2)Probabilites conditionnelles des etiquettes suivant les motsprecedents
W = · · · wi−2 wi−1 wi · · · ← motsT = · · · ti−2 ti−1 ti · · · ← etiquettes
p(T |W ) =p(T )p(W | T )
p(W )
Hypothese simplifiee :
p(T |W )p(W ) = p(t1)p(t2 | t1)n∏
i=3
p(ti | ti−1, ti−2)n∏
i=1
p(wi | ti )
probabilite de la transition p(ti | ti−1, ti−2)probabilite de l’observation p(wj | ti )
62/72
Analyse morpho-syntaxique
Lemmatisation et etiquetage morpho-syntaxique
Methodes stochastiques (3)
Remarques :
Necessite d’apprendre sur des exemples (corpus deja etiquete)
Modele dependant de la langue mais aussi du type de texte(et de la thematique/du domaine)
Difficile d’identifier les origines des erreurs
Necessite de calculer les probabilites des n-grammes sur toutle corpus
Bonne precision
jusqu’a 97% pour l’anglais generaljusqu’a 98% pour l’anglais biomedical (GeniaTagger)
63/72
Analyse morpho-syntaxique
Lemmatisation et etiquetage morpho-syntaxique
TreeTagger(Institute for Computational Linguistics, University of Stuttgart)Un etiqueteur morpho-syntaxique tres utilise
Etiqueteur probabiliste utilisant des arbres de decision
Definit pour de nombreuses langues (un modele par langue) :Anglais, Francais, Allemand, Italien, Grec, etc.
Jeu d’etiquette : PennTreeBank TagSet pour l’anglais
Apprentissage prealable de probabilite sur un corpus dereference (le WSJ pour l’anglais)
Nombreuses “regles” (entre 103 et 104)
Les mots inconnus/ambigus sont etiquetes en fonction ducontexte et des bigrammes connus sur le corpusd’apprentissage
Effectue egalement la lemmatisation
64/72
Analyse morpho-syntaxique
Lemmatisation et etiquetage morpho-syntaxique
TreeTagger(Exemple de sortie pour l’anglais)
Nonalcoholic JJ nonalcoholicsteatohepatitis SYM steatohepatitis( ( (NASH NP Nash) ) )is VBZ bea DT amorbid JJ morbidcondition NN conditionhighly RB highlyrelated VBN relateto TO toobesity NN obesity. SENT .
65/72
Analyse morpho-syntaxique
Lemmatisation et etiquetage morpho-syntaxique
TreeTagger(Exemple de sortie pour le francais)
Lors ADV lorsde PRP del’ DET:ART leapproche NOM approche, PUN ,en PRP envent NOM ventarriere VER:pper arrierepour PRP pourla DET:ART lepiste NOM piste26L INT 26L, PUN ,a PRO:POS aune DET:ART unaltitude NOM altitudede PRP de5500 NUM @card@ft PRO:POS ft
66/72
Analyse morpho-syntaxique
Lemmatisation et etiquetage morpho-syntaxique
GeniaTagger
(Universite de Tokyo – Tsujii laboratory)
Etiqueteur utilisant une extension des modeles de Markovavec entropie maximale.
Langue : Anglais
Etiqueteur specialise dans les textes de biologie
Jeu d’etiquette : proche du PennTreeBank TagSet
Apprentissage prealable de probabilite sur un corpus dereference (WSJ + 2000 resumes Medline + PennBioIE)
Algorithme d’apprentissage : Maximum Entropy (MEMM)
Effectue egalement la lemmatisation et une reconnaissanced’entites nommees (medicales)
67/72
Analyse morpho-syntaxique
Lemmatisation et etiquetage morpho-syntaxique
GeniaTagger(Exemple de sortie)
Previously, Previously, NN B-NP Owe we PRP B-NP Oreported report VBD B-VP Othat that IN B-SBAR Othe the DT B-NP Osubstrate substrate NN I-NP Oshape shape NN I-NP Orecognition recognition NN I-NP Oof of IN B-PP Othe the DT B-NP OEscherichia Escherichia FW I-NP Ocoli coli FW I-NP Oribonuclease ribonuclease NN I-NP B-protein(RNase) (RNase) NN I-NP I-proteinP P NN I-NP I-proteinribozyme ribozyme NN I-NP I-proteindepends depend VBZ B-VP Oon on IN B-PP Othe the DT B-NP O
68/72
Analyse morpho-syntaxique
Lemmatisation et etiquetage morpho-syntaxique
Flemm
(Universite de Lorraine)
Analyseur morphologique pour le francais
Jeu d’etiquette : Multext
Approche a base de regles
Utilisation de la sortie de TreeTagger
Correction du lemme du mot et correction/amelioration del’etiquetage morpho-syntaxique
Gestion des mots inconnus
Implemente en Perl
69/72
Analyse morpho-syntaxique
Lemmatisation et etiquetage morpho-syntaxique
Flemm(Exemple de sortie pour le francais)
Lors ADV lorsde PRP del’ DET(ART):Da3-s— leapproche NOM:Nc-s– approche, PUN ,en PRP envent NOM:Nc-s– ventarriere ADJ:A—s– arrierepour PRP pourla DET(ART):Da3fs— lepiste NOM:Nc-s– piste26L INT 26l, PUN ,a NOM:Nc-s– aune DET(ART):Da3ms— unaltitude NOM:Nc-s– altitudede PRP de5500 NUM 5500ft NOM:Nc-s– ft
70/72
Analyse morpho-syntaxique
Lemmatisation et etiquetage morpho-syntaxique
Exemples d’etiqueteurs morpho-syntaxiques
TreeTaggerhttp://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/
GeniaTagger http://www.nactem.ac.uk/GENIA/tagger/
TnT tagger http://www.coli.uni-saarland.de/~thorsten/tnt/
StanfordTagger http://nlp.stanford.edu/software/tagger.shtml
Flemm https://sites.google.com/site/fiammettanamer/home/
outils---ressources/flemm
LIA TAGG http://lia.univ-avignon.fr/fileadmin/documents/Users/
Intranet/chercheurs/bechet/download_fred.html
MElthttps://www.rocq.inria.fr/alpage-wiki/tiki-index.php?page=MElt
71/72
Analyse morpho-syntaxique
Lemmatisation et etiquetage morpho-syntaxique
Conclusion
Etiquetage morpho-syntaxiques : nombreuses approchesdeveloppees, basees sur methodes de classificationautomatique
Lemmatisation et derivation: approches basees sur desressources
Derivation : utile pour le regroupement des termes
72/72