université françois rabelais tours - departement informatique de...

182
Université François Rabelais Tours Année universitaire (Academic Year ): 2013-2014 Discipline (Domain ): Informatique (Computer Science ) Dissertation en vue d’obtention d’une Habilitation à diriger des recherches (Habilitation dissertation in view of an accreditation to supervise research ) présentée et soutenue publiquement par (orally presented by ) Agata SAVARY 27 Mars 2014 devant le jury suivant (in front of the following jury ): Anne ABEILLÉ Professeur des universités (Full professor ) Université Paris 7, France Jean-Yves ANTOINE Professeur des universités (Full professor ) Université François Rabelais Tours, France Béatrice DAILLE Professeur des universités (Full professor ) Université de Nantes, France Jan HAJIČ Professeur (Full professor ) Charles University in Prague, République Tchèque Denis MAUREL Professeur des universités (Full professor ) Université François Rabelais Tours, France Agnieszka MYKOWIECKA Chargée de recherche, HDR (Accredited research fellow ) Polish Academy of Sciences, Varsovie, Pologne Joachim NIEHREN Directeur de recherche (Re- search director ) Institut national de recherche en informatique et en automatique (INRIA), Lille, France

Upload: hoangdan

Post on 18-Feb-2018

214 views

Category:

Documents


1 download

TRANSCRIPT

  • UniversitFranois Rabelais

    Tours

    Anne universitaire (Academic Year): 2013-2014

    Discipline (Domain): Informatique (Computer Science)

    Dissertation en vue dobtention dune Habilitation diriger des recherches(Habilitation dissertation in view of an accreditation to supervise research)

    prsente et soutenue publiquement par (orally presented by)

    Agata SAVARY

    27 Mars 2014

    devant le jury suivant (in front of the following jury):

    Anne ABEILL Professeur des universits(Full professor)

    Universit Paris 7, France

    Jean-Yves ANTOINE Professeur des universits(Full professor)

    Universit Franois RabelaisTours, France

    Batrice DAILLE Professeur des universits(Full professor)

    Universit de Nantes, France

    Jan HAJI Professeur (Full professor) Charles University in Prague,Rpublique Tchque

    Denis MAUREL Professeur des universits(Full professor)

    Universit Franois RabelaisTours, France

    Agnieszka MYKOWIECKA Charge de recherche, HDR(Accredited research fellow)

    Polish Academy of Sciences,Varsovie, Pologne

    Joachim NIEHREN Directeur de recherche (Re-search director)

    Institut national de recherche eninformatique et en automatique(INRIA), Lille, France

  • Representation et traitement automatiquede la composition, de la variation et de lapproximation

    dans des ressources et outils linguistiques

    (Representation and Processingof Composition, Variation and Approximation

    in Language Resources and Tools)

    Agata Savary

    Universit Franois Rabelais Tourscampus de Blois

    Laboratoire dinformatique3 place Jean-Jaurs41000 Blois, France

    http://www.info.univ-tours.fr/~savary/English/[email protected]

    14 Novembre 2013

    http://www.info.univ-tours.fr/~savary/English/indexgb.html

  • This work by Agata Savary is distributed under theCreative Commons Attribution 3.0 Unported License.

    http://creativecommons.org/licenses/by/3.0/deed.en_US

  • Foreword

    This volume contains my dissertation in view of the French HDR diploma (Habilitation Dirigerles Recherche) in computer science. Candidates to this diploma are supposed to demonstratetheir substantial personal contribution to research, their capacity to supervise research activities,and their experience and maturity in research-related tasks such as project management, eventorganization, research evaluation, etc.

    Since my PhD diploma in 2000, I have been active in natural language processing (NLP),computer science and linguistics. My research interests focus on two central challenges in lan-guage modeling and processing: the composition of linguistic units and the related composi-tionality property, as well as the variation in complex structures, notably in multi-word expres-sions (WMEs) and named entities (NEs). I address these challenges by defining linguistically-motivated description paradigms, as well as by automating the creation of the correspondinglanguage resources such as electronic lexicons and annotated corpora. Additionally, I am con-cerned with the problems of data incorrectness, imprecision and evolution, which call for ap-proximation and correction methods, such as approximate string matching, spelling correctionor XML document correction.

    I am particularly motivated by multilingual considerations about language processing. I havededicated my efforts to different languages from different language families, notably English,French, Polish and Serbian. I deeply believe that a multilingual point of view acts in favor ofa better understanding of language phenomena, and of the appropriateness and universalism offormalisms and methods.

    This dissertation is organized as follows. In chapter 1 I present an extended summary of mycontributions in French. I then give a more detailed description of these contributions in English.In chapter 2 I provide a general introduction of the research context, which includes the twomajor phenomena mentioned above: composition and variation. In chapter 3 I discuss multi-word expressions by addressing, notably, their morphosyntactic (non-)compositionality and theirlexical description. In chapter 4 I focus on named entities as particular subtypes of MWEs, andI discuss their annotation, their automatic recognition and their representation in ontologiesand knowledge bases. In the same chapter I extend NEs to more generally understood mentionsof discourse-world entities, and I refer to the problem of coreference annotation and resolution.Chapter 5 is dedicated to formal methods based on finite-state tools for the representationand processing of linguistic data and of XML documents. In chapter 6 I describe the generalframework of my work, as well as my main contributions and experiences in organizing andsupervising research activities. Finally, in chapter 7 I draw conclusions from my previous workand I sketch the major perspectives for the future.

    Research is not a solitary activity. The contributions presented here would not have beenachieved without long-lasting or occasional support from many people and institutions. My ac-knowledgements go to the members of my BdTln (Bases de Donne et Traitement des LanguesNaturelles) research team in Blois/Tours for the inspiring and friendly atmosphere, collabora-tion, encouragements and advice. In their company I learned to better organize my work, to

    1

  • develop curiosity about seemingly distant domains, and to draw cross-domain parallels. Theyalso taught me the wisdom of sharing daily coffee breaks and the impact it has on collaborationand productivity.

    I am grateful to my colleagues from the Linguistic Engineering Group in Warsaw, withwhom I have been carrying on intensive collaboration, particularly since my sabbatical stay in2009-2010. I highly esteem their competence and expertise in natural language processing andin computer science, and I frequently draw my inspiration from their analyses and decisions.I consider the Institute of Computer Science of the Polish Academy of Sciences as my secondinformal affiliation, and I owe it a large part of my scientific results.

    I give thanks to my other external collaborators from the Universities of Belgrade, Gdask,Marne-la-Valle, Olsztyn, Orlans, Pozna and Tomsk, as well as from the PARSEME COST ac-tion. Contacts with these excellent experts and friendly colleagues increased my open-mindednessand provided motivation to my work.

    I am greatly honored by the presence of prominent researchers in my habilitation jury.I highly appreciate their interest in my work and I am looking forward to their expert anddemanding evaluation of my contributions.

    I am also indebted to dozens other researchers from different countries most of whom Ido not personally know but who inspire and lead me via their revisions of my publicationsand projects, their efficient research event organization, and especially via their high qualitypublications. Many great papers which I read made me open my eyes on new problems and gaina better understanding of my subjects of study.

    Last but not least, my professional achievements would not be possible without continuoussupport from my family and friends. It is to them that I dedicate this volume.

    Agata SavaryBlois,

    November 2013

    2

  • Contents

    1 Rsum 71.1 Composition et variation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71.2 Units polylexicales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91.3 Entits nommes et au-del . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141.4 Mthodes tats finis pour les langages de mots et darbres . . . . . . . . . . . . 221.5 Le cadre de travail et la direction de recherche . . . . . . . . . . . . . . . . . . . . 251.6 Conclusions et perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

    2 Composition and Variation an Introduction 292.1 Compositionality of Emotion Expression . . . . . . . . . . . . . . . . . . . . . . . 302.2 Compositionality of Multi-Word Expressions . . . . . . . . . . . . . . . . . . . . . 312.3 Linguistic Variability Central Challenge in NLP . . . . . . . . . . . . . . . . . 33

    3 Multi-Word Expressions 353.1 Heterogeneous Nature of Multi-Word Expressions . . . . . . . . . . . . . . . . . . 363.2 Lexical Representation and Automatic Processing of Multi-Word Expressions

    State of the Art . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383.2.1 Lexical Description of Multi-Word Expressions . . . . . . . . . . . . . . . 383.2.2 Multi-Word Expression Extraction . . . . . . . . . . . . . . . . . . . . . . 413.2.3 Multi-Word Expression Identification . . . . . . . . . . . . . . . . . . . . . 423.2.4 Annotating Multi-Word Expressions in Corpora . . . . . . . . . . . . . . . 433.2.5 Parsing and Multi-Word Expressions . . . . . . . . . . . . . . . . . . . . . 43

    3.3 Multiflex . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463.3.1 Linguistic Prerequisites . . . . . . . . . . . . . . . . . . . . . . . . . . . . 473.3.2 The Formalism . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 503.3.3 Interoperability . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 603.3.4 Complexity . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 613.3.5 Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

    3.4 Morphosyntactic Non-Compositionality of MWUs . . . . . . . . . . . . . . . . . . 623.5 Electronic Lexicons of Multi-Word Units . . . . . . . . . . . . . . . . . . . . . . . 643.6 Contributions and Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

    4 Compound Named Entities and Beyond 734.1 Named Entities as Particular Types of MWEs . . . . . . . . . . . . . . . . . . . . 734.2 Named Entity Processing State of the Art . . . . . . . . . . . . . . . . . . . . . 74

    4.2.1 Named Entity Annotation . . . . . . . . . . . . . . . . . . . . . . . . . . . 754.2.2 Named Entity Recognition and Classification . . . . . . . . . . . . . . . . 774.2.3 Lexical and Semantic Resources for Named Entities . . . . . . . . . . . . . 80

    4.3 Annotating Named Entities in the National Corpus of Polish . . . . . . . . . . . 81

    3

  • 4.3.1 Named Entity Annotation Schema . . . . . . . . . . . . . . . . . . . . . . 824.3.2 Annotation Data Flow . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 844.3.3 Annotation Challenges from Multi-Word Named Entities . . . . . . . . . . 864.3.4 Inter-Annotator Agreement in Tree Structures . . . . . . . . . . . . . . . . 95

    4.4 Named Entity Recognition with Multi-Word and Nested Structures . . . . . . . . 974.4.1 Rule-Based Named Entity Recognition with Multi-Word and Nested Struc-

    tures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 974.4.2 Machine Learning and Named Entity Recognition with Multi-Word and

    Nested Structures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1004.5 Named Entities as Concepts in a Multilingual Ontology . . . . . . . . . . . . . . 102

    4.5.1 Prolexbase . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1024.5.2 Prolexbase Population from Open Sources . . . . . . . . . . . . . . . . . . 104

    4.6 Coreference Annotation with Nested Structures . . . . . . . . . . . . . . . . . . . 1074.6.1 Polish Coreference Corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . 1084.6.2 Annotation Challenges from Nested and Coordinated Expressions . . . . . 1104.6.3 Mentions Embedded in Multi-Word Expressions . . . . . . . . . . . . . . . 112

    4.7 Contributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1134.8 Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115

    5 Finite-State Methods for Word and Tree Languages 1175.1 Formal Methods for the Representation and Approximation of Words and Trees

    State of the Art . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1175.1.1 Finite-State Techniques for NLP in a Nutshell . . . . . . . . . . . . . . . . 1175.1.2 String-to-String and String-to-Language Correction . . . . . . . . . . . . . 1185.1.3 Tree-to-Tree and Tree-to-Language Correction . . . . . . . . . . . . . . . . 119

    5.2 Correcting Words and Trees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1215.2.1 An Example . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1225.2.2 Properties, Experiments and State-of-the-Art Comparison . . . . . . . . . 126

    5.3 Incremental Algorithms on Words and Trees . . . . . . . . . . . . . . . . . . . . . 1285.3.1 Incremental String and Tree Validation and Correction . . . . . . . . . . . 1285.3.2 Handling Dynamic Vocabularies in Finite-State Automata . . . . . . . . . 129

    5.4 Contributions and Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130

    6 Research Framework and Management 1336.1 Natural Language Processing Research in Blois and Tours . . . . . . . . . . . . . 1336.2 External Collaborations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1346.3 Bibliometrics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1356.4 Software Development . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1366.5 Project Development and Management . . . . . . . . . . . . . . . . . . . . . . . . 137

    6.5.1 PARSEME . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1376.5.2 National Corpus of Polish . . . . . . . . . . . . . . . . . . . . . . . . . . . 1406.5.3 CESAR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1416.5.4 CODEX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141

    6.6 Research Supervision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1426.7 Research Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1446.8 Event Organization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1456.9 Teaching and Administration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145

    4

  • 7 General Conclusions and Perspectives 1477.1 Enhancing and Extending the Existing Language Resources and Tools . . . . . . 1487.2 Integrating Fine-Grained Language Data into the Linked Data . . . . . . . . . . 1497.3 Towards Deep Parsing of Multi-Word Expressions . . . . . . . . . . . . . . . . . . 1527.4 On the Cross-Roads of MWE Processing and Tree-to-Language Correction . . . . 1537.5 Towards a Unified Approach to Tree-to-Language Correction . . . . . . . . . . . 153

    5

  • 6

  • Chapter 1

    Rsum

    Cet volume contient une dissertation en vue de lobtention du diplme de lHabilitation Dirigerdes Recherches (HDR) dans le domaine de linformatique. Je prsente ici mes travaux derecherche effectus depuis ma thse de doctorat en 2000. Il sagit dun travail pluridisciplinaireconcernant des thmes lis au traitement automatique des langues (TAL), la linguistique et linformatique.

    1.1 Composition et variation

    Depuis plus de dix ans, je moccupe des phnomnes de composition et de variabilit des unitslinguistiques. Dans le chapitre 2 je me penche sur la dfinition des ces deux proprits es-sentielles. Daprs des travaux en philosophie et mathmatiques, tels que (Pagin & Wester-sthl, 2001a; Kracht, 2007), la composition, voque dj par Frege (Janssen, 2001), na pas trigoureusement dcrite jusquaux annes 2000, mme si elle a t depuis longtemps considrecomme proprit essentielle en linguistique, philosophie du langage, logique et informatique. Ladfinition largement acquise, cite par Kracht (2007), est la suivante : une expression composeest compositionnelle si sa signification est une fonction des significations de ses constituants etdune rgle syntaxique par laquelle ils sont combins. Kracht remet en cause cette dfinition,en soutenant que la compositionnalit ne peut pas tre considre pour une expression en tantque telle, mais seulement pour son analyse grammaticale et smantique. En dautres termes, unlangage est compositionnel sil possde une grammaire compositionnelle.

    Baggio et al. (2012) rappellent les raisons pour lesquelles la compositionnalit est souhaitabledans lanalyse linguistique, en mentionnant: (i) la productivit (le nombre de phrases possiblesest infini, alors que le cerveau humain na quune capacit limite de stockage), (ii) la systmati-cit (lhumain est dot de comprhension par analogie), (iii) la mthodologie (le calcul smantiqueest mener de manire compositionnelle), (iv) la modularit (lencapsulation dinformations dansla description de structures linguistiques est souhaitable).

    Pagin & Westersthl (2001b) mentionnent que la compositionnalit des langues naturellesnest pas indiscutable pour plusieurs raisons, dont celle qui nous intresse particulirement danscette thse : lexistence de contre-exemples tels que les phrases de conviction (belief sentences),les citations (les deux remettent en cause le principe de substituabilit de synonymes), ainsi queles idiomes. Cette thse sintresse notamment aux units (ou expressions) polylexicales (UP),qui constituent une classe plus large que les idiomes et dont lune des proprits dfinitoire estla non compositionnalit ou une compositionnalit atypique.

    Lutilit du principe de compositionnalit consiste notamment permettre dviter lexplosioncombinatoire des cas lexicaliss. Mes propres travaux fournissent un exemple de ce phnomne.Dans (Tallec et al., 2009) et (Tallec et al., 2010b) nous prsentons le projet EmotiRob qui a

    7

  • eu pour but la cration dun prototype de robot compagnon motionnel pour enfants fragiliss.Le robot devait ragir via des expressions de visage au contenu linguistique des noncs dunenfant. Suite la reconnaissance et la transcription de la parole, lnonc tait soumis lanalysesyntaxique en dpendances par le systme Emologus. Le calcul de la valence motionnelle delnonc suivait le principe de compositionnalit. Nous avons admis que les mots du lexique debase peut tre associs des valeurs motionnelles atomiques (inclues dans lintervalle [2; 2])et que les prdicats modifient les valeurs motionnelles de leurs arguments. Par exemple, leverbe casser inverse la valence de son argument alors que ladjectif mignon la renforce. Des ex-priences avec un corpus de comptes enfantins annot manuellement confirment nos hypothses(Tallec et al., 2010a): la valence est dtermine de manire correcte pour 90% des noncs. Desrsultats semblables, la hauteur de 87,9% dexactitude, ont t obtenus par Neviarouskayaet al. (2010), qui considre une panoplie plus large de caractristiques (le type de lmotion, sapolarit, sa valence et son niveau de confiance). Notons galement que certaines tudes ddiesaux units polylexicales (Klebanov et al., 2013) dmontrent leur degr lev de compositionnalitmotionnelle malgr leur opacit smantique.

    La compositionnalit est au coeur des dbats linguistiques depuis plusieurs dcennies, notam-ment au sujet des units polylexicales (Multi-Word Expressions, MWEs). Ces units, dfiniesplus largement dans le chapitre 3, incluent des objets trs htrognes tels que les mots com-poss, les termes complexes, les entits nommes multi-mots, les constructions verbe support,les idiomes, etc. Les dfinitions de ces notions et de leurs frontires sont des questions trscontroverses (Habert & Jacquemin, 1993; Downing, 1977; Fabre & Sbillot, 1996; Benveniste,1974; Lyons, 1978).

    La compositionnalit peut sappliquer non seulement au domaine de la smantique, mais aussi la morphologie des units polylexicales (Meluk, 2010). Dans (Savary et al., 2007) nous nouspenchons sur les problmes de la non-compositionnalit flexionnelle des units polylexicales enfranais, en polonais et en serbe. Un mot compos est considr comme compositionnel lorsqueses proprits flexionnelles peuvent tre totalement dduites de ses composants et de sa structuresyntaxique. Ainsi, par exemple le nom compos :

    (1.1) un perce-neige

    nest pas compositionnel car il est au masculin alors que le seul substantif quil contient, neige,est au fminin.

    La non-compositionnalit smantique et morphologique est lie lide de la lexicalisation.Si la signification, le rfrent ou la flexion dune expression sont imprdictibles, cette expressionest lexicalise, cest--dire doit tre explicitement dcrite dans un lexique afin de permettre sonanalyse approprie. Dans les sections 3.3 et 3.6 je prsente mes contributions la descriptionlexicalise des units polylexicales contigus, qui consiste en un formalisme et son implantationpour la prise en compte des idiosyncrasies morphosyntaxiques.

    Les dbats sur la nature des units polylexicales font souvent appel la notion du (degrde) figement (Gross, 1988, 1990). Cependant, la deuxime caractristique centrale de ces units,contraire au figement, est celle de la variabilit linguistique. En effet, la plupart des UP sontpartiellement figes et partiellement variables. La variabilit a t largement tudie dans par lacommunaut de lextraction terminologique, car prs de 30% des termes apparaissant dans descorpus sont des variantes des termes contrls (contenus dans des listes et lexiques) (Jacquemin,2001). Dans (Savary & Jacquemin, 2003) nous avons repris et peaufin la dfinition dunevariante terminologique (Jacquemin, 2001), qui peut tre :

    graphique : behavioural model behavioral model,

    morphologique : students union student union, image converter image conversion,

    8

  • smantique : automobile cleaning car washing,

    syntaxique : date of birth birth date, processing of cardiac image image processing.

    Nous avons ensuite effectu une tude contrastive dtaille des systmes dextraction termi-nologique ddis deux types dapplications:

    lacquisition terminologique : ACABIT (Daille, 1994, 1996), ANA (Enguehard & Pantera,1995), LEXTER (Bourigault, 1993, 1994, 1996), TERMINO (David & Plante, 1990a,b),TERMS (Justeson & Katz, 1995) et Xtract (Smadja, 1992),

    lindexation par phrases (utilisant des EP comme termes) : CLARIT (Evans et al., 1991),COP (Metzler & Haas, 1989; Metzler et al., 1989, 1990), COPSY (Schwarz, 1989, 1990),lindexeur de Fagan (Fagan, 1987), FASIT (Dillon & Gray, 1983), IRENA (Arampatziset al., 1997, 1998), NPtool (Voutilainen, 1993), lindexeur Sheridan/Smeaton (Smeaton& Sheridan, 1991; Sheridan & Smeaton, 1992), le gnrateur de variantes de SparckJones/Tait (Sparck Jones & Tait, 1984b,a), SPIRIT (Andreewsky et al., 1977) et TTP(Strzalkowski & Vauthey, 1992; Strzalkowski, 1994, 1995; Strzalkowski & Scheyen, 1996).

    Nous nous sommes notamment intresss la manire et au degr de la prise en compte de lavariation terminologique dans ces systmes et nous avons dcrit le systme FASTR (Jacquemin,2001), qui met ce phnomne au coeur de la reconnaissance des termes.

    Il semblerait cependant quau moins jusquaux annes 2000 lintrt de lusage des UP etde lanalyse syntaxique pour les applications telles que la recherche dinformation tait trscontrovers (Brants, 2003). La mise jour de cet tat de lart pourrait dmontrer si dans cedomaine le pendule est, effectivement, mont trop haut (Church, 2011) et si un renouveau de lavolont de cueillir des fruits accrochs plus en hauteur apparat dans la recherche fondamentalecomme applique.

    1.2 Units polylexicales

    Les proprits le plus souvent voques dans diverses dfinitions des UP (Benveniste, 1974;Downing, 1977; Levi, 1978; Gross, 1990; Silberztein, 1993b; Gross, 1996; Cadiot, 1992; Saget al., 2002; Derwojedowa & Rudolf, 2003) sont les suivantes :

    les UP sont composes dau moins deux mots,

    elles se caractrisent par un degr de non-compositionnalit (ou idiosyncrasie) morphologique,distributionnelle ou smantique,

    elles ont des rfrents uniques et constants.

    Notons que les termes lmentaires utiliss dans ces dfinitions tels que mot, rfrence ou non-compositionnalit, sont eux mmes controverss. Cest pourquoi dans nos travaux nous dfinis-sons la port des UP de manire pragmatique: une UP est une squence dunits graphiques qui,pour des raisons propres une (ou des) application(s) doit tre liste, dcrite et traite commeune unit (Savary, 2005).

    Les faits principaux concernant les UP sont:

    leur prdominance dans les langues naturelles (Gross & Senellart, 1998; Sag et al., 2002),

    leur comportement Zipfien (data scarcity),

    9

  • leur comportement idiosyncratique diffrents niveaux de traitement linguistique: la seg-mentation (bonshommes, aujourdhui), la morphologie (perce-neige, grand-mres), la syn-taxe (prendre une veste vs. *la veste a t prise), la smantique (prendre une veste =subir un chec).

    Les UP sont de nature trs htrogne, ce qui est reflt notamment par leurs diffrentes typolo-gies (Sag et al., 2002; Meluk, 2010).

    Dans le chapitre 3.2 nous tudions ltat de lart dans la reprsentation lexicale et le traite-ment automatique de UP. Nous rappelons notamment notre tude contrastive (Savary, 2008) desmthodes de description de UP par rapport leurs proprits flexionnelles (Courtois & , eds.;Silberztein, 1993a; Savary, 2000; Kyriacopoulou et al., 2002; Silberztein, 2005; Savary, 2008;Karttunen et al., 1992; Karttunen, 1993; Breidt et al., 1996; Oflazer et al., 2004; Alegria et al.,2004; Sag et al., 2002; Copestake et al., 2002; Villavicencio et al., 2004; Jacquemin, 2001). Suite elle nous avons propos des recommandations de meilleures pratiques telles que:

    la prise en compte dune varit de langues en vue de luniversalisme du modle,

    la description deux couches (identification morphologique des composants, puis descrip-tion de leurs combinaisons valables),

    le besoin de mcanismes dunification pour la reprsentation compacte des paradigmesflexionnels,

    la numrotation des composants pour la reprsentation des variantes syntaxiques (ellipses,changements dordre etc.),

    le dveloppement des plateformes lexicographiques pour lautomatisation de la descriptiondes UP, etc.

    Certains travaux plus rcents tels que (Itai & Wintner, 2013) semblent confirmer lutilit de cesrecommandations. Lapproche de Grgoire (2010) va au del de cet tat de lart : (i) en seconsacrant une panoplie large des UP non contigus, notamment verbales, (ii) en introduisantdes classes de flexion paramtrables pour limiter leur nombre, et (iii) en appliquant le lexiqueainsi obtenu lanalyse syntaxique. Cette proposition semble trs prometteuse notamment dansle cadre du projet PARSEME dcrit dans la suite de cette thse.

    La suite de ltat dart des UP fait un panorama des mthodes existantes en extractiondUP (Davis & Barrett, 2013; Pecina, 2010; Al-Haj & Wintner, 2010; Tsvetkov & Wintner,2010; Morin & Daille, 2010; Delpech et al., 2012; Ramisch et al., 2010), leur identification dansle corpus (Vincze et al., 2013), leur annotation (Abeill et al., 2003; Bejek & Strak, 2010;Bejcek et al., 2011; Laporte et al., 2008a,b; Kaalep & Muischnek, 2008), ainsi que leur analysesyntaxique (Abeill & Schabes, 1989; Sag et al., 2002; Copestake et al., 2002; Villavicencio et al.,2004; Attia, 2006; Nivre & Nilsson, 2004; Constant et al., 2012, 2013; Wehrli et al., 2010; Finkel& Manning, 2009a; Green et al., 2011, 2013). Ces analyses montrent notamment que, malgr lagrande quantit des travaux consacrs la problmatique des UP, relativement peu de solutionsexistent pour les UP non contigus.

    La suite du chapitre 3 est consacre la description de Multiflex. Cest un formalisme et unoutil pour la description lexicalise des UP contigus, qui permet la prise en compte la foisde leur variabilit et de leur comportement idiosyncratique. Il se base sur une approche deuxcouches (cf. plus haut). Premirement, il admet que les mots simples peuvent tre analyss etgnrs par un module morphologique externe. Ensuite, on spcifie comment combiner les formesflchies des composants simples pour obtenir les formes flchies des UP qui les contiennent. Les

    10

  • variantes orthographiques et, partiellement, syntaxiques peuvent tre dcrites dans le mmecadre.

    Exemple 1.2 contient les variantes flexionnelles et syntaxiques du nom de personne polonaisJan Rodowicz Anoda, qui contient un prnom, un nom et un pseudonyme. Chaque forme estannote avec :

    sa forme de base (lemme),

    ses traits flexionnels: singulier (sg), nominatif (nom), gnitif (gen), genre masculin humain(m1), etc.,

    un trait pragmatique ventuel: forme officielle (offic), forme prfre en langage parl(spok), forme neutre (neut), etc.

    (1.2) Variante Lemme Traits(PL) Jan Rodowicz Anoda Jan Rodowicz Anoda sg:nom:m1:offic

    Jana Rodowicza Anody Jan Rodowicz Anoda sg:gen:m1Jan Anoda Rodowicz Jan Rodowicz Anoda sg:nom:m1J. Rodowicz Anoda Jan Rodowicz Anoda sg:nom:m1J. Rodowicz Jan Rodowicz Anoda sg:nom:m1Anoda Rodowicz Jan Rodowicz Anoda sg:nom:m1Rodowicz Jan Rodowicz Anoda sg:nom:m1:spokRodowicz Jan Rodowicz Anoda sg:nom:m1:neut. . .

    Afin que la gnration de cet ensemble complexe de formes soit possible, les composantssimples (y compris les sparateurs) sont dabord numrots et analyss morphologiquement,comme dans la figure 1.1.

    Jan Rodowicz Anoda $1 $2 $3 $4 $5 $6 $7

    lemme: Janclasse: substhomonyme: 0Nb: sgCase : nomGen: m1

    lemme: Rodowiczclasse: substhomonyme: 0Nb: sgCase : nomGen: m1

    lemme: Anodaclasse: substhomonyme: 0Nb: sgCase : nomGen: f

    Figure 1.1: Identification morphologique des composants du nom de personne polonais JanRodowicz Anoda

    A tout le nom compos on attribue ensuite le graphe flexionnel de la figure 1.2. La gnrationdes variantes seffectue en parcourant les diffrents chemins du graphe. Un chemin commencepar la flche la plus gauche et se termine dans la bote encercle droite. Chaque bote surle chemin dcrit un composants (ventuellement vide). Des variables dunification permettentdassurer laccord entre composants. Par exemple le chemin du milieu de la figure 1.2 produitle premier composant (Jan) dclin ($1 : Case = $c), car la variable dunification $c peuttre instancie avec nimporte lequel des 7 cas du polonais (dcrits dans un fichier de configu-ration). Le composant 2 (espace) est ensuite recopi tel quel ($2), tandis que le composant3 (Rodowicz ) est dclin condition de saccorder avec le composant 1, ce qui est assur parla variable dunification commune $c. De la mme manire, le composant 6 (Anoda) saccorde

    11

  • avec les deux noms prcdents. Les quations morphologiques en dessous du chemin permet-tent dobtenir les traits flexionnels de chaque forme compose. Ici, le trait pragmatique Usageprend la valeur offic ou vide (E), le genre et le nombre sont hrits du premier composant(Gen = $1.Gen;Nb = $1.Nb), tel quil apparat dans le lemme (m1 et sg) et le cas saccordeavec celui du premier composant dans la forme flchie correspondante (Case = $c).

    Les autres chemins du graphe fonctionnent de la mme manire, tout en produisant desvariantes graphiques et syntaxiques par lellipse et le r-ordonnancement des composants. Autotal, grce la factorisation due lunification et lalternative, ce graphe permet dobtenir les126 variantes valables du nom.

    Figure 1.2: Graphe flexionnel pour le nom Jan Rodowicz Anoda

    Le formalisme de Multiflex assure la reprsentation dautres proprits dUP contigus tellesque lexocentrisme (perce-neige), les accords irrguliers (grands-mres), la coordination (Adamet Eve), les fluctuations du genre (PL: czerwony pajkm1|m2 araigne rouge), les valeurs vides(PR: ponto de gua aqueduc, *pontinho de gua small aqueduc), le changement de tte (EN:United Nations Organisation, United Nations), lomission ou linsertion de sparateurs (SR:radio aparat, radio-aparat, radioaparat), les paradigmes dfectifs (wybory powszechne lectionsnationales, *wybr powszechny lection nationale), linsertion de composants externes (PL:Mieszko I, Mieszko Pierwszy Mieszko the First) et limbrication dune UP dans une autre. Cedernier phnomne peut tre illustr par le nom de rue dans lexemple (1.3), qui contient le nomde personne de lexemple (1.2). Notons que ce dernier est ici reprsent en tant que composantunique flchi selon le graphe de la figure 1.2.

    (1.3) Variante Lemme Traits(PL) aleja Jana Rodowicza Anody aleja Jana Rodowicza Anody sg:nom:f:offic

    al. Rodowicza aleja Jana Rodowicza Anody sg:nom:f:neutRodowicza aleja Jana Rodowicza Anody sg:nom:f:spokaleja Jana Rodowicza Anody aleja Jana Rodowicza Anody sg:nom:faleja J. Anody Rodowicza aleja Jana Rodowicza Anody sg:nom:fal. Jana Rodowicza aleja Jana Rodowicza Anody sg:nom:fJ. Anody Rodowicza aleja Jana Rodowicza Anody sg:nom:f. . .avenue de Jan Rodowicz Anoda

    La gnration automatique des formes dune UP revient lexploration de son graphe flexi-onnel en profondeur. La complexit en temps de cette opration est de O(p v2cw s),

    12

  • aleja Jana Rodowicza Anody$1 $2 $3

    lemme: alejaclasse: substhomonyme: 0Nb: sgCase : nomGen: f

    lemme: Jan Rodowicz Anodaclasse: substhomonyme: 0Nb: sgCase : genGen: m1

    Figure 1.3: Nom de rue compos aleja Jana Rodowicza Anody contenant un nom de personneimbriqu en polonais

    o p est le nombre maximal de chemins dans un graphe, v le nombre maximal de valeursflexionnelles (sg, pl, nom, gen, etc.) pour une catgorie flexionnelle (Nb, Gen, Case, etc.), c le nombre maximal de catgories en lesquelles une classe (nom, adjectif, verbe, etc.) peut seflchir, w le nombre de composants de lUP, et s le cot maximal de gnration dune formeflchie tant donn son lemme et ses traits flexionnels souhaits.

    Diffrents aspects de Multiflex ont t dcrits dans plusieurs publications. Dans (Savary,2005) nous introduisons le formalisme de graphes flexionnels pour les UP contigus, en prenanten compte lunification et lhritage. Dans (Savary et al., 2007) nous tudions la non-compo-sitionnalit morpho-syntaxique et sa reprsentation par graphes en franais, polonais et serbe.Dans (Savary, 2008) nous comparons le formalisme avec dautres mthodes et outils ddis ladescription lexicale des UP. Dans (Savary et al., 2009) nous voquons les spcificits du polonais,nous introduisons le mcanisme dimbrication et nous voquons linteroprabilit de loutil. Dans(Savary, 2009) nous dcrivons limplantation de Multiflex base sur des outils tats finis etnous dcrivons ses applications. Enfin dans (Graliski et al., 2010) nous effectuons une tudede lusabilit du formalisme et de son interface graphique associe.

    Multiflex, en tant quoutil de description morpho-syntaxique des UP, est indpendant dumodule morphologique sous-jacent pour la morphologie des mots simples, quelques conditionsdinteroprabilit prs: un modle commun de la morphologie, une dfinition opratoire de lunitgraphique, et une gnration la demande de formes flchies souhaites. A ce jour, Multiflexpossde une interface avec deux modules morphologiques diffrents. Premirement, il colla-bore avec lanalyseur et le gnrateur morphologique multilingue du systme Unitex1 (Paumier,2008). De ce fait il a t entirement intgr sous Unitex, o il permet la flexion automatique de

    1http://www-igm.univ-mlv.fr/~unitex/

    13

    http://www-igm.univ-mlv.fr/~unitex/

  • Table 1.1: Dictionnaires lectroniques dUP produits avec Multiflex et ses prdcesseursDiction-naire Langue Types dUP

    Plateformelexicogr.

    Taille AccessibilitLemmes Graphes Formes Lemmes Graphes Formes

    DELACanglais anglais

    nomsgnraux Intex 60,000 NA 110,000 no NA LGPL-LR

    2

    DELACserbe serbe

    noms & adjectifsgnraux LeXimir 11,000 115 204,500 auprs des auteurs

    DELACgrec

    Grecmoderne

    noms gnrauxdu type A(A)N Unitex inconnue inconnue inconnue auprs des auteurs

    SAWA polonais noms propresurbains Toposaw 9,000 450 309,000 CC-BY SA3

    SEJF polonais noms, adjectifs &adverbes gnraux Toposaw 3,200 140 68,000 CC-BY SA

    SEJFEK polonais termes nominauxconomiques Toposaw 11,000 290 146,000 CC-BY SA

    dictionnaires lectroniques de mots composs (appels des DELAC), qui sont ensuite appliqus lanalyse morphologique de textes, tenant compte des UP. Linterface Multiflex-Unitex faitgalement partie dune plateforme lexicographique serbe WS4LR (Krstev et al., 2006a), renom-me en LeXimir (Krstev et al., 2013), qui possde notamment des fonctionnalits de prdictionautomatique de graphes dont lexactitude varie entre 58% et 86%. Deuximement, Multiflex offreune interface avec lanalyseur et le gnrateur morphologique du polonais, Morfeusz (Woliski,2006), dans le cadre de la plateforme lexicographique Toposaw (Marciniak et al., 2009b; Sikora& Woliski, 2009), qui contient notamment des modules de cration, recherche, debugging etgestion automatise de graphes.

    Ces applications ont permis la cration de plusieurs dictionnaires lectroniques grammaticauxdUP, rsums dans le tableau 1.1.

    1.3 Entits nommes et au-del

    Les noms propres et, plus gnralement, les entits nommes (EN) sont porteuses de chargessmantiques particulirement leves, car elles se rfrent aux personnes, lieux, objets, conceptset vnements cruciaux pour la comprhension du texte. Leur rle central en TAL est indni-able. Elles constituent de bons candidats pour des termes dindexation et de catgorisation dedocuments. Elles sont soumises des rgles de traduction spcifiques. Elles jouent des rlesclefs dans lextraction de linformation et les systmes question/rponse. La modlisation et letraitement efficaces des EN ncessitent des ressources et outils complmentaires dcrivant desphnomnes au niveau morphologique, syntaxique, smantique et du discours.

    Le chapitre 4 est ddi plus spcifiquement aux EN polylexicales. Nous dmontrons que detelles EN dominent sur les EN uni-mot la fois dans les dictionnaires lectroniques spcialisset dans les corpus. Dautres part, nous soulignons limportance quantitative du phnomne delimbrication dEN dans dautres EN.

    Dans la section 4.2 nous rsumons ltat de lart dans le traitement automatique des EN. Nousnous rfrons notamment la tche de lannotation des EN en corpus, surtout lorsquelle esteffectue dans le cadre de modlisation linguistique grande chelle et relativement indpendantedes vises applicatives (Bejek & Strak, 2010; Desmet & Hoste, 2010; Hinrichs et al., 2005a).Nous faisons ensuite un panorama du domaine de reconnaissance des entits nommes (REN).

    2http://infolingu.univ-mlv.fr/DonneesLinguistiques/Dictionnaires/telechargement.html3http://creativecommons.org/licenses/by-sa/3.0/

    14

    http://infolingu.univ-mlv.fr/DonneesLinguistiques/Dictionnaires/telechargement.htmlhttp://creativecommons.org/licenses/by-sa/3.0/

  • Les travaux les plus anciens et les plus rpandus, souvent inspirs de la confrence MUC-1996(Nadeau & Sekine, 2007), concernent les EN dans le sens des signifiants (de Saussure, 1916),qui pourraient, de manire plus approprie, tre dsignes comme entits nommantes. De trsnombreuses approches de ce type sont gnralement classes en des mthodes base de rgleset dictionnaires, base dapprentissage automatique et hybrides Des dictionnaires spcialissde noms propres, employs notamment dans des systmes de ce premier type, sont de tailleet nature assez varies (Wolinski et al., 1995; Gaizauskas et al., 1995; Wacholder et al., 1997;Mikheev et al., 1999; Farmakiotou et al., 2000; Friburger & Maurel, 2004; Freitas et al., 2010;Maurel et al., 2011; Krstev et al., 2011). Les nouveaux dfis de la REN consistent reconnatrenon seulement les entits les plus larges, mais aussi imbriques (Alex et al., 2007; Ramrez-Cruz& Pons-Porrata, 2008; Finkel & Manning, 2009c; Nouvel et al., 2013; Dinarelli & Rosset, 2012),et les catgoriser selon une typologie tendue des dizaines de catgories, comme ceci a eulieu lors de la campagne dvaluation en franais ESTER-2 (Galliano et al., 2009). La difficultparticulire provient aussi du fait dappliquer la REN des textes bruits, e.g. oraux, commedans la campagne ETAPE4.

    Lintrt plus centr sur les signifis est apparu avec le programme Automatic Content Ex-traction (ACE) (Doddington et al., 2004) et portait sur toutes les mentions possibles des entitsdans le texte, ce qui impliquait notamment la rsolution de corfrence. Plus rcemment, la TextAnalysis Conference5 (TAC) a introduit la tche de entity linking, qui consiste en le rattache-ment des entits nomms du texte des noeuds dune ontologie externe, puis en la clusterisationdes entits nayant pas dquivalent dans lontologie afin dassurer son enrichissement. Dans lestade ultime de cette volution du domaine le rattachement des entits du texte se fait vers lesentres des ressources du web smantique les Linked Open Data (Bizer et al., 2009; Mendeset al., 2012; Suchanek et al., 2007; Hoffart et al., 2011), telles que le DBpedia, qui rajoute unecouche ontologique formelle au-dessus des ressources collaboratives libres telles que le Wikipdia,le GeoNames, etc. Il est souligner que les systmes existants qui ralisent une telle dsambigu-sation dEN (Hachey et al., 2013) prennent rarement en compte les langues flexion riche, etplus particulirement ceux dclinaison, ce qui rduit considrablement la ncessit du traite-ment de la variabilit morphologique des EN (Rizzo et al., 2012; Daiber et al., 2013). Ltatde lart de lannotation et de la reconnaissance dEN dans une telle langue, le polonais, estrsum dans la section 4.2.2 (Piskorski, 2005; Abramowicz et al., 2006; Marciczuk & Piasecki,2007; Lubaszewski, 2007; Mykowiecka et al., 2008; Lubaszewski, 2009; Graliski et al., 2009b,a;Marciczuk & Piasecki, 2010; Marciczuk & Piasecki, 2011; Broda et al., 2012; Nothman et al.,2013; Marciczuk et al., 2013).

    Je me rfre galement une tude de ltat de lart prsente dans (Savary et al., 2013b).Elle contient une analyse contrastive de ressources lexicales et smantiques dEN telles quealignements WordNet/Wikipedia (Toral et al., 2008, 2012; Fernando & Stevenson, 2012; Nguyen& Cao, 2010), YAGO (Suchanek et al., 2007) et YAGO2 (Hoffart et al., 2011), Freebase (Bollackeret al., 2007), MENTA (de Melo & Weikum, 2010), DBpedia6 (Bizer et al., 2009; Mendes et al.,2012) et JRC-NAMES (Steinberger et al., 2011).

    Dans les sections suivantes je dcris mes contributions dans le domaine de la cration deressources et outils linguistiques du polonais, commencer par la couche dannotation des ENdans le Corpus National du Polonais7 (pol. Narodowy Korpus Jzyka Polskiego; NKJP). Cecorpus de 1.5 milliards de mots, contient un sous-corpus quilibr de 300 millions de mots (Prze-pirkowski et al., 2012), ainsi que son sous-ensemble annot manuellement de 1 million de mots.

    4http://www.afcp-parole.org/etape.html5http://www.nist.gov/tac/about/index.html6http://dbpedia.org7http://nkjp.pl/

    15

    http://www.afcp-parole.org/etape.htmlhttp://www.nist.gov/tac/about/index.htmlhttp://dbpedia.orghttp://nkjp.pl/

  • Le corpus est annot plusieurs niveaux: la segmentation, la morphosyntaxe, les mots et lesgroupes syntaxiques (chunks), les entits nommes et les sens de mots. La couche des EN, dontjai dirig la ralisation, a t dcrite dans plusieurs publications, o ont t voqus : (i) leschma et les choix mthodologiques dannotation (Savary et al., 2010), (ii) la construction desdictionnaires et grammaires dEN pour la pr-annotation automatique (Savary & Piskorski, 2010,2011), (iii) les mthodes et les outils pour lannotation manuelle et ladjudication (Waszczuket al., 2010), (iv) laccord inter-annotateur et la construction doutils base dapprentissage pourlannotation du corpus entier de 1.5 milliards de mots (Waszczuk et al., 2013). La documentationdu guide dannotation et des cas intressants rencontrs est poursuivie dans (Savary et al.,2012a). Finalement, dans (Savary & Waszczuk, 2012) nous approfondissons lanalyse des outilspour la pr-annotation, lannotation manuelle et lannotation automatique.

    La figure 1.4 prsente la typologie dEN utilise pour lannotation du corpus. Elle est com-plte par une typologie orthogonale contenant les adjectifs relatifs aux personnes, locationset organisations (warszawski varsovien), ainsi que les drivations personnelles, i.e. gentils(e.g. warszawiak un varsovien) et les dnominations de membres dorganisations. Les at-tributs accompagnant chaque EN annote incluent notamment: les formes de base (Stany Zjed-noczone pour Stanw Zjednoczonych Etats Unis), les bases smantiques de drivation (StanyZjednoczone Etats Unis pour amerykaski amricain), et les normalisations des expressionstemporelles (09:45:00 pour za pitnacie dziesita dix heures moins le quart).

    Named entity

    persName org-Namegeog-Name

    place-Name date time

    fore-name

    sur-name

    add-Name district

    settle-ment region country bloc

    Figure 1.4: Hirarchie des types dEN utilise dans le corpus polonais NKJP

    La stratgie importante consiste annoter non seulement les EN les plus larges, mais aussitoutes les EN imbriques, comme dans les exemples (1.4)(1.6).

    (1.4) [[Maria]forename [Skodowska]surname-[Curie]surname]persName

    (1.5) [ulica [[Mikoaja]forename [Kopernika]surname]persName]geogNamerue Mikoajgen Kopernikgenrue Mikoaj Kopernik

    (1.6) [[Wydzia Prawa]orgName [Uniwersytetu [Warszawskiego]relAdj:settlement(Warszawa)]orgName]orgNameFacultnom Droitgen Universitgen VarsoviengenFacult de Droit de lUniversit de Varsovie

    Lorganigramme du processus de lannotation, prsent dans le figure 1.5, inclut la pr-annotation automatique par la plateforme SProUT (Becker et al., 2002; Drodyski et al.,2004), qui offre : (i) un formalisme riche de grammaire de surface bas sur des outils tats finis,unification et cascades de rgles, (ii) une consultation rapide de lexiques externes (gazetteers),(iii) une sortie XML dont les structures de traits utilisent une hirarchie de types dfinie parlutilisateur. Dans la section 4.4.1 nous dcrivons ladaptation et lextension des lexiques et dunegrammaire polonaises pour la REN par SProUT, en vue de son adaptation la pr-annotation

    16

  • du corpus NKJP. Nous donnons galement les rsultats quantitatifs de la grammaire rsultanteet lanalyse de ses erreurs. Les rsultats se rsument en 3 caractristiques :

    la prcision et le rappel gnraux varient de 68% 78%, et de 35% 39%, respectivement,

    les rsultats sont, videmment, meilleurs lorsque seulement les frontires, les types et lessous-types sont pris en compte que lorsque les autres attributs (lemmes, bases drivation-nelles, etc.) sont considrs; les diffrences entre ces deux scnarios dvaluation varientde 2% 13% de prcision, et de 2% 5% de rappel,

    les meilleurs rsultats sont obtenus pour les expressions temporelles et les moins bons pourles noms dorganisations.

    Figure 1.5: Flux de donnes dans lannotation manuelle du sous-corpus NKJP de 1 million demots

    Lannotation manuelle, qui suit la pr-annotation (fig. 1.5), seffectue via la plateformeTrEd8 (Pajas & Stepnek, 2008), adapte aux besoins de NKJP par des macros, feuilles de styleet raccourcis clavier. La figure 1.6 montre une copie dcran de ladjudication, effectue par unannotateur expriment, suite deux annotations indpendantes du mme texte.

    Des filtres adapts assurent les conversions des formats des outils dannotation entre eux,ainsi que vers le format final de NKJP (Przepirkowski & Baski, 2009), qui est dport (stand-off ) et conforme au standard TEI P5 (Burnard & Bauman, 2008). La figure 1.7 montre uneEN, contenant un adjectif relationnel, code selon ce format.

    Dans la section 4.3.3 nous dcrivons les cas difficiles et les dfis particuliers rencontrs lorsde lannotation. Ils concernent les phnomnes tels que:

    la coordination et le chevauchement des noms, en particulier noms de famille, dont unexemple est prsent dans la figure 1.7,

    les variantes elliptiques,

    les ambiguts dimbrication,

    la mtonymie et ses liens avec lellipse et limbrication,8http://ufal.mff.cuni.cz/~pajas/tred/

    17

    http://ufal.mff.cuni.cz/~pajas/tred/

  • Figure 1.6: Adjudication dans TrEd pour la phrase avec des EN doublement imbriques: Il acollabor avec Radio France Nationale et la Station Polonaise de la Radio Europe Libre.

    les ambiguts des bases drivationnelles,

    les frontires gauches et droites incertaines.

    (1.7) Juliusz MachulskipersName

    Liza MachulskapersName

    JuliuszpersName.forename

    MachulskipersName.surname

    LizapersName.forename

    MachulskapersName.surname

    Juliusza i Lizy Machulskich

    Juliuszsg:gen:m1 et Lizasg:gen:f Machulskipl:gen:m1de Juliusz et Liza Machulski

    18

  • Irlandzka Armia RepublikaskaIrlandzka Armia Republikaska

    Irlandia

    Irlandzkairlandzki

    Figure 1.7: Annotation au format TEI-P5 de lEN Irlandzka Armia Republikaska ArmeRpublicaine Irlandaise.

    Laccord inter-annotateur des EN dans NKJP, tel que dfini dans la section 4.3.4, variententre 0.69 pour les noms dorganisation et 0.89 pour les noms de personnes.

    Dans la suite du chapitre 4 nous dcrivons notamment Nerf9, un outil de REN employantlapprentissage automatique base des CRF, qui a t entran sur le corpus manuellementannot et ensuite appliqu lannotation du corpus entier de 1.5 milliards de mots. Nerf, ralispar Jakub Waszczuk, implmente la mthode dannotation dEN imbriques nomme joint labeltagging et introduite par Alex et al. (2007). Il obtient la prcision gnrale de 0.83, le rappel de0.76 et la F1-mesure de 0.79.

    Ce mme chapitre se poursuit par le rsum de nos travaux sur Prolexbase (Krstev et al.,9Tlchargeable http://zil.ipipan.waw.pl/Nerf?action=AttachFile&do=view&target=nerf.dist.0.2.

    tgz, sous licence GPL v3.

    19

    http://zil.ipipan.waw.pl/Nerf?action=AttachFile&do=view&target=nerf.dist.0.2.tgzhttp://zil.ipipan.waw.pl/Nerf?action=AttachFile&do=view&target=nerf.dist.0.2.tgz

  • Figure 1.8: Extrait de Prolexbase avec quatre niveaux et trois lexmes (appels prolexmes) enpolonais, anglais et franais.

    2005; Tran & Maurel, 2006; Maurel, 2008), une base de donnes (ontologie au sens large) mul-tilingue de noms propres, dont la richesse du modle est illustre par lextrait de la figure 1.8.Nous proposons ProlexFeeder, un outil denrichissement semi-automatique de cette base partirde ressources collaboratives libres en polonais, anglais et franais: le Wikipdia et, un moindredegr, le GeoNames, selon lorganigramme prsent dans la figure 1.9. Les enjeux majeurs de ceprocessus consistent en :

    Lalignement manuel des catgories de GeoNames et des types dinfoboxes du Wikip-dia sur la typologie et les relations de Prolexbase. Par exemple la catgorie WadcyBlois comtes de Blois est aligne avec le type clbrit, lexistence historique, la rela-tion daccessibilit avec le concept (appel pivot) reprsentant la ville de Blois et le sujetleader.

    Lvaluation manuelle de la popularit des noms dans les 3 langues, base sur la frquencedaccs aux articles correspondants du Wikipdia.

    La prdiction de formes flchies des noms polonais par les modules du systme de traduc-tion automatique Translatica (Jassem, 2004).

    La dtection automatique des concepts dj prsents dans la base, pour viter des doublons.Ceci a t ralis par une fonction de similarit entre concepts base sur leur lexmes,variantes, types et liens URL. Lexactitude de la prdiction du bon pivot a atteint 97.2%.

    La correction et la validation manuelles des donnes extraites et pr-traites automatique-ment. Dans ce processus le traitement dune entre prenait 2 minutes en moyenne, lamajeure partie de ce temps tant ncessaire la correction de formes flchies polonaises.

    Le tableau 1.2 rsume ltat de Prolexbase aprs la validation manuelle des donnes jugesles plus populaires. Une prsentation plus dtaille de cette contribution est consultable dans(Savary et al., 2013a,b).

    20

  • Wikipedia Prolexbase GeoNames

    TranslaticaCandidate Names

    Classes Selection

    Classes SelectionMapping

    Mapping

    Inflected Forms

    Generation

    Extraction Extraction

    Frequency Estimation Frequency

    Estimation

    Pivot Selection

    Validation

    ProlexFeeder

    Figure 1.9: Organigramme de lenrichissement de Prolexbase via ProlexFeeder.

    Dans la dernire partie du chapitre 4 je prsente mes travaux lis lannotation du CorpusPolonais de Corfrence (CPC)10, qui complte le Corpus National du Polonais dune nouvellecouche dannotation. Avec ses 540,000 mots, la partie annote manuellement du CPC est parmiles corpus les plus importants de ce type, avec Tba/DZ (Hinrichs et al., 2005a) pour lallemand,NAIST Text (Iida et al., 2007) pour le japonais, OntoNotes 2.0 (Pradhan et al., 2007) pourlanglais, larabe et le chinois, le Prague Dependency Treebank (Nedoluzhko et al., 2009) pourle Tchque et ANCOR (Muzerelle et al., 2013) pour le franais.

    Lannotation manuelle, prcde par la pr-annotation automatique, seffectue laide duneversion adapte de MMAX2 (Mller & Strube, 2006). Elle est suivie de la rvision des anno-tations par un deuxime annotateur. Une partie du corpus annote par deux annotateurs enparallle et rvise par un troisime expert, a permis le calcul de laccord inter-annotateur.

    Dans (Ogrodniczuk et al., 2013a), nous prsentons les aspects majeurs de la porte etdu schma dannotation, qui couvrent tous les groupes nominaux et pronominaux (incluantventuellement des phrases relatives, parfois trs complexes) et leurs ellipses. Contrairement certaines approches, nous ne marquons pas de corfrence entre les mentions dont lidentit estidentifiable grce la syntaxe, comme les appositions (Jean Villain, pre de 4 enfants) et lesprdicats (Jean est un pre). En plus de la relation didentit entre rfrents, nous incluons, titre exprimental, la relation de la presque-identit (near-identity) propose par Recasenset al. (2011). Comme voqu dans (Ogrodniczuk et al., 2013b), cette relation est annote dansnotre corpus avec un accord inter-annotateur trs faible, ce qui plaide pour sa complexit. Deuxautres caractristiques originales de notre schma dannotation consistent : (i) indiquer lamention dominante, i.e. celle parmi les membres dun cluster didentit qui dcrit le rfrent dela manire la plus prcise, (ii) marquer les ttes smantiques (qui se distinguent des ttes syn-taxiques notamment dans les expressions numrales : pi kobiet [cinq femmespl:gen:f ]pl:nom:n).

    Les dfis particuliers dans la tche de lannotation sont lis aux mentions imbriques, co-ordonnes et chevauchantes, qui exigent parfois la multiplication importante de mentions. Le

    10http://zil.ipipan.waw.pl/PolishCoreferenceCorpus

    21

    http://zil.ipipan.waw.pl/PolishCoreferenceCorpus

  • Table 1.2: Etat actuel de Prolexbase. Les formes (instances) polonaises incluent seulement lesformes flchies des prolexmes (et non pas de leurs variantes, appeles alias).

    PivotsTous Toponymes Anthroponymes Ergonymes Pragmonymes73,405 81.3% 16.8% 1.4% 0.4%

    RelationsToutes Mronymie Accessibilit Synonymie72,672 92.9% 5.3% 1.8%

    Pivots enrelation de synonymie

    Pivots enrelation de mronymie

    Pivots enrelation daccessibilit

    Tous 2,457 (3%) 65,768 (90%) 6,312 (9%)Typesles plusfrquents

    clbrit 1,325 (17%) ville 48,110 (100%) ville 2,214 (5%)pays 390 (45%) clbrit 7,053 (88%) rgion 1,696 (40%)ville 157 (0.3%) rgion 4,052 (97%) clbrit 1,129 (14%)

    Langue Prolexmes Alias Drivs InstancesPL 27,408 8,724 3,083 166,479EN 19,492 14,039 94 18,575FR 70,869 8,488 20,919 142,506

    corpus dans son tat final, daprs Ogrodniczuk et al. (2013c), contient plus de 180.000 mentions,5.000 liens de presque-identit, 109.000 cluster uni-mention et prs de 19.000 clusters contenantau moins deux mentions. Le corpus est distribu sous licence Creative Commons CC BY 3.011

    et il est visualisable en ligne12.

    1.4 Mthodes tats finis pour les langages de mots et darbres

    Les langages formels de mots (chanes de caractres) et darbres sont un intrt central eninformatique, et ils sont souvent considrs en TAL comme approximations de langues naturelles.Cest pourquoi le chapitre 5 est consacr mes contributions ce domaine.

    Je prsente dabord ltat de lart de lutilisation des mthodes tats finis en TAL travers:(i) les expressions rgulires (Justeson & Katz, 1995), (ii) les transducteurs tats finis (Kaplan& Kay, 1994; Laporte, 1997; Koskenniemi, 1983; Beesley & Karttunen, 2003; Roche & Schabes,1997; Roche, 1997) et les cascades de transducteurs (Abney, 1996; Hobbs et al., 1997; Friburger& Maurel, 2001). Je fais ensuite rfrence au problme de recherche approximative de motifs(approximate string matching) (Hall & Dowling, 1980) base sur les oprations lmentaires surdes lettres telles que linsertion, la suppression et le remplacement dune lettre, ou linversionde deux lettres adjacentes. La distance ddition entre mots est ensuite dfinie comme le cotminimal dune squence doprations lmentaires transformant lun des mots vers lautre. Ceproblme possde deux variantes majeures: la comparaison de mots (string-to-string correction)(Damerau, 1964; Levenshtein, 1966; Wagner & Fisher, 1974; Lowrance & Wagner, 1975; Du &Chang, 1992) et la correction dun mot par rapport un langage de mots (string-to-languagecorrection). Une tude comparative de ltat de lart dans ce dernier domaine, incluant unetaxonomie de mthodes, leur implantation et valuation dans un cadre commun, a t proposepar Boytsov (2011). Nous nous intressons plus particulirement lalgorithme de Oflazer

    11http://creativecommons.org/licenses/by/3.0/deed.en_US12http://glass.ipipan.waw.pl:11111/index.xhtml#/core/

    22

    http://creativecommons.org/licenses/by/3.0/deed.en_UShttp://glass.ipipan.waw.pl:11111/index.xhtml#/core/

  • (1996), qui se sert de la reprsentation du langage sous forme dautomate tats finis (finite-state automaton, FSA). Il effectue le calcul de la distance ddition en parcourant le FSA enprofondeur et en maintenant une matrice ddition dont les lignes correspondent aux caractresdu mot corrig et les colonnes aux transitions du FSA. Chaque fraction de la matrice est calculeune seule fois pour tous les mots ayant un prfixe commun. Une variante de cette mthode,propose dans (Savary, 2001b), change lordre du parcours du FSA en poursuivant dabord leplus long prfixe correct du mot corriger.

    Une extension du problme de la correction de mots est celui de la correction darbres.Des oprations lmentaires sur un arbre peuvent tre assez varies et incluent gnralementlinsertion ou la suppression dun noeud (interne ou feuille) et le renommage dun noeud. Ladistance entre deux arbres est dfinie comme le cot de la squence minimale contenant de tellesoprations. Ici galement deux instances du problme existent : la comparaison darbres (tree-to-tree correction) (Selkow, 1977; Tai, 1979; Zhang & Shasha, 1989; David Barnard and GwenClarke and Nicholas Duncan, 1995) et la correction dun arbre par rapport un langage darbres(tree-to-language correction) (Bertino et al., 2004; Boobna & de Rougemont, 2004; Xing et al.,2006; Staworko & Chomicki, 2006; Tekli et al., 2007; Suzuki, 2007; Bertino et al., 2008; Staworkoet al., 2008; Thomo et al., 2008; Svoboda, 2010; Svoboda & Mlnkov, 2011; Tekli et al., 2011).

    Notre contribution principale lie au outils tats finis concerne ce denier domaine. Nousavons propos une mthode de correction dun document XML (vu comme arbre) par rapport une DTD, qui tend deux algorithmes prcdents : celui dOflazer (1996) pour la correctionde mots par rapport un FSA, et celui de Selkow (1977) pour la comparaison de deux arbres.Lide gnrale peut tre rsume par quelques principes fondamentaux :

    Les donnes du problme sont : larbre XML corriger t, la DTD sous forme dun schmaS, le seuil de correction th, et ltiquette souhaite c pour la racine de larbre corrig.

    Le rsultat incluent : (i) la liste de tous les arbres ayant la racine tiquete par c etvalides par rapport S, dont la distance par rapport t ne dpasse pas th, (ii) toutesles squences ddition possibles transformant t en un des arbres rsultants, (iii) les cotsde ces squences. Par exemple, pour larbre de la figure 1.10 et la DTD de la figure1.11, les arbres corrigs rsultants sont dmontrs dans la figure 1.12, et leurs squencesddition correspondantes sont les suivantes : {(relabel, 0, b), (delete, 0.1, /), (add, 3, c),(relabel, 2, c), (delete, 2.0, /)}.

    Les contraintes de la structure dun document XML sont exprimes dans une DTD via desexpressions rgulires attribues des tiquettes. Afin quun document XML soit valide,il faut que, pour chaque noeud n, le mot form par les tiquettes des fils de n soit incluedans le langage dcrit par lexpression rgulire attribue ltiquette de n.

    Chaque expression rgulire prsente dans une DTD est reprsente sous forme dun FSAparcouru selon les principes de lalgorithme dOflazer (1996).

    Lors de ce parcours, lorsque le renommage dun noeud est suppos, il est ncessaire deconsidrer le changement potentiel de tout le sous-arbre attach ce noeud. Ceci impliquela correction rcursive, base sur la distance entre arbres dfinie par Selkow (1977).

    Notre algorithme est un rsultat dun travail de longue haleine, depuis sa conception etimplantation dans un cadre incrmental (Cheriat et al., 2005; Bouchou et al., 2006b,a) jusqusa redfinition plus fondamentale, sa r-implantation, et validation thorique et exprimentale.La publication majeure (Amavi et al., 2013) rassemble tous ses rsultats finaux:

    Les dfinitions formelles des objets manipuls (un arbre XML, un schma, un sous-arbre,une arbre partiel, un langage darbres) et leurs proprits (validit, validit locale, validit

    23

  • root

    a

    c d

    b

    c

    b

    c

    0

    0.0 0.1

    1

    1.0

    2

    2.0

    Figure 1.10: Un arbre XML corriger.

    tiquette Expressionrgulireroot b|abca cdb cc d

    Figure 1.11: Une DTD

    root

    b

    c

    b

    c

    b

    c

    0

    0.0

    1

    1.0

    2

    2.0

    t1

    root

    a

    c d

    b

    c

    b

    c

    c0

    0.0 0.1

    1

    1.0

    2

    2.0

    3

    t2

    root

    a

    c d

    b

    c

    c0

    0.0 0.1

    1

    1.0

    2

    t3

    Figure 1.12: Trois corrections t1, t2 et t3 pour larbre t de la figure 1.10.

    partielle), les oprations sur des noeuds (renommage, addition et suppression) et sur dessous-arbres (insertion et limination), les squences doprations, leur quivalence et leurscots.

    Les preuves de la terminaison, de la correction et de la compltude de lalgorithme.

    Lanalyse de la complexit en temps qui est en O((ft+1)(fS)|t|+th6||(|t|+th))th,o ft signifie le fan-out maximum de t (le nombre maximum denfants dun noeud danst), fS est le fan-out maximum des tats dans le FSA du schma S, |t| est la taille de t (lenombre de ses noeuds) et || est la taille de lalphabet du schma S.

    24

  • Les rsultats des expriences effectues sur un fichier du Corpus National du Polonaiscontenant des annotations dentits nommes (cf. section 1.3). Ces rsultats, obtenussuite la variation des diffrents paramtres du problme (la taille du document, la valeurdu seuil, le nombre et les positions des erreurs, la nature de la DTD), dmontrent uncomportement polynomial de lalgorithme malgr sa complexit thorique exponentielle.

    Une tude contrastive de ltat de lart, qui prend en compte le choix des oprationslmentaires, les aspects de validit considrs (le bien form, la validit de structure, etdes attributs), les rsultats produits (la distance ddition, les corrections minimales oudans un seuil, les squences ddition), le type du schma (une DTD, un XML schma, uneDTD tendue) et son modle (automate darbre, ensemble dexpressions rgulires, hedgeautomaton, arbre ordonn, automate pile, etc.), le modle du document XML (un arbre,un mot dtiquettes ouvrantes et fermantes), la complexit en temps et espace, existencedes preuves, la nature et la disponibilit des donnes exprimentales, la disponibilit desimplantations et des codes sources.

    A la lumire de ce dernier lment, il apparat que notre contribution est la premire solutionrelativement complte du problme de la correction dun arbre par rapport un langage darbres.Non seulement nous calculons la distance ddition entre un document et un schma, mais nousfournissons galement tous les arbres corrigs rsultants, sans nous limiter aux solutions lesplus proches de larbre initial. Ainsi, nous considrons quil sagit dun problme dnumrationplutt que de dcision, contrairement ce qui a lieu dans beaucoup dautres approches. Notredocumentation est lun des rares cas o les preuves de complexit, de correction et de compltudesont fournis. Cest aussi la seule contribution qui rend disponibles non seulement les excutableset les sources, mais aussi le guide dutilisateur et les donnes exprimentales. Par consquence,il semble que cest la seule approche reproductible. Finalement, nos codes sources sont les seuls tre distribus13 sous une licence connue : la licence ouverte GNU LGPL v3.

    Dans la suite du chapitre 5 jvoque mes autres contributions lalgorithmique des tats finis,centrs sur le problme de la dynamicit des donnes, ce qui requiert des solutions incrmentales.Il sagit premirement de la validation et de la correction incrmentales dun document XML parrapport une DTD (Cheriat et al., 2005; Bouchou et al., 2006b,a), qui a motiv nos premierstravaux vers lalgorithme de correction dcrit plus haut. Deuximement, nous avons propos dessolutions de construction incrmentale et pseudo-incrmentale dautomates pseudo-minimaux(Daciuk et al., 2005b). Une construction incrmentale minimise la partie de lautomate touchepar lajout dun nouveau mot, ce qui est crucial notamment dans des applications en TAL o levocabulaire varie frquemment (e.g. en recherche dinformation). Un automate pseudo-minimalpossde une transition ou un tat propre de chaque mot reprsent (i.e. une transition/tatappartenant seulement ce mot). Cet lment propre peut tre utilis pour encoder des donnesspcifiques un mot, par exemple sa valeur dune fonction de hachage. Dans (Daciuk et al.,2005a) nous proposons des algorithmes de hachage parfait dynamique, i.e. tel que chaque motdu langage obtient une valeur unique et le rajout de nouveaux mot ne change pas la valeur dehachage des mots prcdents.

    1.5 Le cadre de travail et la direction de recherche

    Cette dissertation est cense valider ma capacit encadrer des travaux de recherche. Cestpourquoi je ddie le chapitre 6 la description de mon exprience en la matire de :

    13http://www.info.univ-tours.fr/~savary/English/xmlcorrector.html

    25

    http://www.info.univ-tours.fr/~savary/English/xmlcorrector.html

  • Collaborations extrieures internationales (en Pologne: Institut dInformatique de lAcadmiePolonaise des Science, IPIPAN, Varsovie; Universit de Gdask, de Pozna et de Olsztyn;en Serbie: Universit de Belgrade; en Russie: Universit dEtat de Tomsk), nationales(Universit Paris-Est Marne-la-Valle) et rgionales (Universit dOrlans).

    Bibliomtrie des mes 41 publications (depuis la thse de doctorat), dont 9 articles dansdes journaux internationaux comit de lecture.

    Dveloppement de logiciels (Multiflex et XMLCorrector).

    Montage de projets de recherche (1 projet COST, un projet Europen, un projet PHCEGIDE et une ANR), ainsi que participation aux projets en tant que leader de tches (1projet FEDER et un projet national), collaborateur (un projet PHC EGIDE, 3 projetsnationaux, 2 projets rgionaux) ou sous-traitant (1 projet Europen et un national).

    Encadrement de recherche (3 thses de doctorat, 3 thses de master).

    valuation de recherche en tant que : membre de comits scientifiques (1 revue, 3 numrosspciaux de revue, 11 confrences et workshops), expert europen (valuateur et reviewer),membre nomm de la section 27 du Conseil National des Universits, et membre de 3 juryde thse.

    Organisation dvnements, en tant que prsidente du comit dorganisation de la con-frence internationale CIAA-FSMNLP-2011 Blois.

    Enseignement universitaire et relations internationales lIUT de Blois.

    Concernant le montage et la gestion de projet, mon exprience principale concerne lactionCOST14 IC1207 PARSEME (PARsing and Multi-word Expressions)15, dont jai t rdactricede proposition et que je coordonne actuellement en tant que prsidente du Comit de Gestion(Management Committee). Cette initiative rassemble une centaine de chercheurs de 28 paysmajoritairement europens autour de quatre groupes de travail: (i) interface lexique/grammaire,(ii) analyse syntaxique symbolique des UP, (iii) parsing hybride des UP, (iv) annotation desUP dans des corpus arbors. Les activits finances par COST portent sur le fonctionnementcollaboratif de ce rseau (runions, ateliers, coles dt, missions courtes, dissmination, etc.).

    1.6 Conclusions et perspectives

    Ma dissertation se termine par les conclusions gnrales et les perspectives (chapitre 7). Cesdernires incluent:

    Lamlioration et lextension des ressources et outils TAL existants, tels que Multiflex,Nerf et le corpus NKJP.

    Lintgration des ressources linguistiques fines dans les Linked Open Data, ainsi que lerapprochement du TAL, et notamment des acquis de la REN avec le web smantique,dans le contexte de la dsambigusation dEN.

    Le parsing syntaxique des units polylexicales, avec les dfis dfinis dans le cadre de lactionCOST PARSEME.

    14http://www.cost.eu/, financ par European Science Foundation15http://www.parseme.eu, http://www.cost.eu/domains_actions/ict/Actions/IC1207

    26

    http://www.cost.eu/http://www.parseme.euhttp://www.cost.eu/domains_actions/ict/Actions/IC1207

  • Lidentification des UP dans des corpus arbors modlise en tant que correction dun arbre(un sous-arbre syntaxique extrait du corpus) par rapport un langage darbres (lensemblede sous-arbres syntaxiques reprsentant une UP et ses variantes).

    Une taxonomie dalgorithmes de correction dun arbre par rapport un langage darbres,leur implantation et valuation exprimentale dans un cadre commun.

    27

  • 28

  • Chapter 2

    Composition and Variation anIntroduction

    A large part of this thesis addresses some types of linguistic units which result from the com-position of linguistic items and whose inherent properties are those of linguistic (orthographic,morphological, syntactic and semantic) variability.

    Composing (or combining) linguistic items yields larger linguistic items (usually containingseveral words) whose central property is to be or not to be compositional. Let us briefly referto some works in the domain of the philosophy and mathematics of the language that addressthe compositionality principle. According to Pagin & Westersthl (2001a), compositionality isa key notion in linguistics, philosophy of language, logic, and computer science, but there aredivergent views about its exact formulation, methodological status, and empirical significance.Many seminal contributions to this notion are attributed to Frege (Janssen, 2001), even if hisidea of contextuality (a word has no meaning in isolation, but only in the context of a sentence)seems contradictory to his views on compositionality (we construct the sense of a sentence fromthe sense of its parts). As stressed by Kracht (2007), compositionality has not been thoroughlystudied until the early 2000s. The generally admitted definition, after (Partee et al., 1990), is thata compound expression is compositional if its meaning is a function of the meanings of its partsand of the syntactic rule by which they are combined. Kracht points out that this definition issuperficial in that (surface) expressions and their parts are usually ambiguous and that a meaningcan only be assigned to their analyses. Consequently, compositionality is primarily a property ofa grammar, and a language is compositional if it has a compositional grammar. Krachtalso mentions that, in the literature, one analysis is often considered superior to another one onthe grounds that it is compositional. He argues though that proving compositionality is harddue to the lack of standards as to the boundary between the syntax and the semantics.

    Baggio et al. (2012) remind and refine the following reasons for promoting composi-tionality in linguistic analyses: (i) productivity (there are infinitely many sentences in anynatural language, but the brain has only finite storage capacity), (ii) systematicity (the abilityto understand certain utterances is connected to the ability to understand certain others), (iii)methodology (compositionality underlies the method for semantic calculus), (iv) modularity (in-formation encapsulation at the level of the description of linguistic structure). They also arguethat compositionality may imply a very large amount of rules dedicated to particular word com-binations, thus it is an issue of balance between storage and computation: compositionality canoften be rescued by increasing the demand on (brain) storage, whereas it must be abandonedunder realistic constraints on storage.

    It appears, however, that compositionality of a natural language is far from evident (orproven). The arguments against compositionality, as summarized by Pagin & Westersthl

    29

  • Table 2.1: Sample emotion predicate classes in EmologusClass Example Valency modification functionConserving aider help xV al(pred(x)) = V al(x)Inverting casser break xV al(pred(x)) = V al(v)Positive shift mignon cute xV al(pred(x)) = max(V al(x) + 1, 2)Negative shift nrv stressed xV al(pred(x)) = min(V al(x) 1,2)Minimum embrasser kiss x,yV al(pred(x, y)) = min(V al(x), V al(y))Multiplicative avoir have x,yV al(pred(x, y)) = V al(x) V al(y)Positive caliner cuddle x,yV al(pred(x, y)) = 2Negative dgoter disgust x,yV al(pred(x, y)) = 2. . . . . . . . .

    (2001b), include its vacuity, triviality, and superfluity, as well as what is of major interestfor this thesis the fact that certain constructions are counterexamples which make the com-positionality principle false. These problematic cases comprise belief sentences and quotations(both challenge the principle of substitutability of synonyms) as well as idioms. For instance,the meaning of the idiom to kick the bucket (i.e. to die) cannot be obtained by the same processas the one of interpreting the syntactically similar expression to fetch the bucket. The authorsargue, however, that there are ways to incorporate idioms while preserving compositionality, inthat different compositionality rules apply to idioms than to regular phrases.

    In this thesis, I deal notably with Multi-Word Expressions (MWEs), which are larger classesthan idioms but which are frequently defined under the premises of their non compositionalityor atypical compositionality.

    2.1 Compositionality of Emotion Expression

    The hypothesis of linguistic compositionality, provided that it can be experimentally supported,is convenient for modeling and computation since it prevents a combinatorial explosion of lex-icalized cases. As an example, let us consider the problem of emotion expression in linguisticutterances and its automatic detection and characterization.

    In (Tallec et al., 2009) and (Tallec et al., 2010b) we present the EmotiRob project aimingat a prototype of an emotional companion robot for weakened children. One of its projectedfeatures is facial expression of simulated emotions as a reaction to an interaction with a child.Contrary to many other approaches in emotion detection, we assumed that polarity, also calledvalency (negative/positive/neuter) and intensity (moderate/strong) of an emotion conveyed byan utterance can be deduced from its propositional content, rather than from prosody only.We validated this hypothesis within Emologus, a spoken language understanding system, whichproceeds in three steps: (i) chunking, (ii) building semantic relations between chunks (roughly,dependency parsing), (iii) contextual interpretation. The vocabulary of this prototype systemis restricted to about 1,000 words from a corpus of child-invented tales collected in a primaryschool.

    We admitted that emotion calculation is compositional: (i) basic lexical items have an atomicemotional value, included in the interval [2; 2], (ii) predicates can modify the emotional values oftheir arguments. Atomic emotional values were provided by psycholinguistic studies in childrenof ages 5 to 7. Emotion functions of predicates were determined by 5 adult annotators. Table 2.1shows sample unary and binary predicate classes and their corresponding valency modificationfunctions.

    Given the atomic emotional values of lexical words and emotion predicate classes, the cal-

    30

  • culation of the emotion associated to an utterance is performed compositionally. Consider thesentence in example (2.1). As a result of parsing in Emologus, the formula in example (2.2) isproduced. Words cochon pig and ami friend have atomic emotional values 0 and 1, respec-tively. The unary predicate petit little belongs to the positive shift class, i.e. composed withits emotionally neutral argument, it yields the emotional value 1. The binary predicate avoirhave yields a multiplication of the emotional values of un petit cochon a small piglet and amisfriends, which results in value 1. Finally, the unary operator pas not inverts the value of itsargument. As a bottom line, the emotional value of the whole sentence is -1.

    (2.1) Il etait une fois un petit cochon qui navait pas damis.Once upon a time, there was a little piglet who had no friends.

    (2.2) (narrative (neg (to have [(subject: (pig [(size: little)])), (object: (friends))]))

    In-domain evaluation (Tallec et al., 2010a) has shown that Emologus obtains a 90% accuracyin detecting the emotional value of an utterance. It significantly outperforms the baseline bag-of-words approach, which consists roughly in summing up the elementary emotional values of thewords appearing in a given sentence, and which obtains a 68.8% accuracy on the same corpus. Anerror analysis shows that Emologus never assigns an emotional value whose valency is oppositeto the expected one. Note, however, that the sub-language studied in EmotiRob is restrictedto a domain with almost inexistent language resources, and with a relatively short vocabularycontaining few compounds and multi-word expressions. A large-scale validation would be neededin order to study the influence of such non-compositional phenomena on the performances ofthe compositional emotion detection.

    A validation of an approach similar to ours in the related domain of attitude (affect, judg-ment and appreciation) detection in adults is presented by Neviarouskaya et al. (2010). Here,the attitude detection operates on: (i) affect categories (anger, guilt, joy, etc.), (ii) polarity(positive, negative, neuter), (iii) intensity (between 0 and 1), and (iv) confidence level. A corelexicon of attitude-conveying terms (unfriendly, desire, etc.) is annotated with affect category,polarity and intensity. A closed list of modifiers and functional words (slightly, hardly, never,without, increase, etc.) is assigned attitude modification operators, similarly to predicates inour approach. Modal operators (arguably) are attributed the related confidence values. Verbsare classified with respect to their influence on attitude conveyed by a sentence (e.g. to defendbelongs to the preservation class). Finally, compositional attitude calculus is based on rules ofpolarity reversal, aggregation, propagation, domination, neutralization, and intensification, atvarious grammatical levels (similar to our valency modification rules). These rules are applied tothe output of dependency parsing. An evaluation on a 1000-sentence manually annotated cor-pus shows the overall top-level (when polarity only is accounted for) accuracy of 0.879. Theseresults, comparable to Emologus performances, confirm that a compositional rule-based calcu-lus of emotion/attitude can yield relatively reliable results. Interestingly enough, some studiesshow that even semantically opaque linguistic units such as Multi-Word Expression (MWEs), towhich the majority of this thesis is dedicated, show a relatively high degree of compositionalitywith respect to their emotional profile (Klebanov et al., 2013).

    2.2 Compositionality of Multi-Word Expressions

    The compositionality issues lie at the heart of linguistic debates since several decades, notablywith respect to units crossing words boundaries, which are generally designated asMulti-WordExpressions (MWEs). They include a wide range of heterogeneous objects such as compounds,

    31

  • complex terms, multi-word named entities, light verbs, idioms, etc. I define this notion moreprecisely in Chapter 3.

    For instance, a rich discussion concerning the frontiers of the nominal composition (Habert& Jacquemin, 1993) took place at the end of the past century. Some linguists stated that nominalcompounds result from the application of the compositionality principle to nominal phrases(Downing, 1977; Fabre & Sbillot, 1996) while others, conversely, view nominal compounds assemantically or referentially non-compositional structures (Benveniste, 1974; Lyons, 1978).

    The idea of compositionality of MWEs can be extended to other areas than the semanticsalone. Meluk (2010) defines the semantic and morphosyntactic compositionality of thelinguistic signs, where a sign is composed of a signifi (meaning), a signifiant (a string ofphonemes or characters) and morphosyntactic properties (part of speech, inflectional features,etc.). A complex linguistic sign is compositional if both its signifi and its morphosyntacticproperties result from a straightforward (proper to its syntactic structure) combination of thoseof their components. Thus, compositionality is a binary property, it cannot be partial.

    In Savary et al. (2007) I address notably the inflectional compositionality and non-compositionality of compounds in French, Polish and Serbian (cf. Section 3.4). Compoundsare said to be inflectionally compositional if their inflectional properties can be fully deducedfrom the properties of their respective constituents and of their syntactic structure. For instancethe regular plural formation of Noun-Noun compounds in English consists in putting their finalnouns in the plural form. Compound (2.3) is compositional in this sense while (2.4) is not.

    (2.3) chief justice, chief justices

    (2.4) lord justice, lord justices, lords justice, lords justices

    In English, such examples belong to a closed list and are of relatively little quantitative impor-tance. Since French presents a richer inflectional morphology, inflectional irregularities withincompounds are frequent. For instance, the class of French Verb-Noun-type compounds containsnumerous examples in which the gender and number of the whole structure cannot be deducedfrom those of its constituents. For instance the French compound:

    (2.5) un perce-neige a snowdrop

    is masculine although the noun neige is feminine. Here again, while Verb-Noun composition isproductive in French, the resulting compounds remain inflectionally non-compositional.

    In Slavic languages, the difficulties with the inflection of compounds may be even more im-portant due to declension and a complex gender, number and animateness cross-dependencieswithin nouns and adjectives. For instance (Czerepowicka & Kosek, 2011), the Adj-Noun com-pound in example (2.6) is in masculine human gender although its nominal component pajkspider has masculine animate gender. Thus, this compound is said to be exocentric since itcontains no headword from which its gender could be deduced.

    (2.6) czerwony pajk lit. a red spider = ex-communist

    The semantic or inflectional non-compositionality of compounds is closely connected to theidea of lexicalization: if an expression has a meaning, a reference or inflectional propertiesthat are not totally deducible from its components, this expression is lexicalized, i.e. has to beexplicitly mentioned and described in a lexicon in order for it to be processed appropriately. InSection 3.3 and 3.6 I describe my contributions to the lexical description of contiguous multi-word expressions, including a formalism and a tool meant for taking their morphosyntacticidiosyncrasies into account.

    32

  • 2.3 Linguistic Variability Central Challenge in NLP

    Linguistic debates on operational definitions that allow to distinguish WMEs from the regu-lar phrases frequently refer to the idea of frozenness, i.e. the fact of blocking the linguistictransformations that are usually allowed for a syntactic structure under study. For instance, ifcomponents of the expressions cross-roads or to kick the bucket are replaced by their synonyms,as in cross-routes and to hit the container, the idiomatic sense is lost.

    While keeping in mind this inflexibility of MWEs, one should not underestimate their re-maining degree of variability: some regular transformations are prohibited in a MWE but someothers are allowed. On the basis of this observation, Gross (1988) introduces the idea of a degreeof frozenness in nominal compounds: the more transformations typical for a certain syntacticstructure are blocked in a nominal compound having this structure the more this compound isfrozen. He further shows (Gross, 1990) how this degree can be handled operationally within thelexicon-grammar1 approach. Note that this idea of a partial frozenness can be opposed to theabsolute compositionality as understood by Meluk (2010).

    The flexibility of MWEs is also largely addressed in the seminal paper by Sag et al. (2002),in which it becomes one of the main defining criteria for a MWE typology, including fixed,semi-fixed and syntactically-flexible expressions (cf. Section 3.1).

    The variability of some classes of MWEs was also addressed by the community of computa-tional terminology. Jacquemin (2001) shows that up to 30% of terms in a corpus are variants ofthose appearing in controlled lists which is an important challenge to many NLP applications.In (Savary & Jacquemin, 2003) we provide a contrastive state of the art study in rule-based andhybrid term extraction with a special impact on how well the existing methods account for lin-guistic variability of complex (multi-word) terms. We adapt and refine the definitions proposedby Jacquemin (2001). Namely, a terminological variation is a transformation of a controlledmulti-word term that satisfies the following three conditions:

    1. All content words (i.e. words other than prepositions, determiners, etc.) of the controlledterm are preserved by the transformation or transformed into any of the 3 types of variantslisted in point 2.

    2. Content words of the variant may be graphically modified, and morphologically or seman-tically related to those of the controlled term, which yields:

    graphical variants, e.g. behavioral model Behavioral model, lookup Look-up2, morphological variants, e.g. students union Student union, image converterImage conversion, semantic variants, e.g. genetic disease Hereditary disease, automobile cleaning Car washing,

    3. Words may be inserted or deleted and the order of words (or of their variants) may bemodified but the dependency relations existing between content words of the originalterm must be preserved. Such word insertions/deletions or word order modifications yieldsyntactic variants, e.g. date of birth Birth date, processing of cardiac image Imageprocessing.

    1A lexicon-grammar is a table whose first column contains compounds under consideration and columnsrepresent linguistic transformations typical for its syntactic structure; a cell in line i and column j is checked ifcompound i admits transformation j.

    2Terms on the left-hand side of arrows are variants, while those on the right-hand side, spelled with initialcapitals, are controlled terms, i.e. terms listed in a lexicon.

    33

  • Different types of variations may co-occur, for example diseases are familial and transmissibleneurogenerative diseases are morphological, syntactic and semantic variants of Genetic disease.

    In (Savary & Jacquemin, 2003) we further study four subdomains of term extraction: (i)controlled phrase indexing (with initial data), (ii) free phrase indexing (without initial data),(iii) thesaurus enrichment (corpus-based terminology with initial data), and (iv) term acquisition(corpus-based terminology without initial data).

    The term acquisition systems under study are: ACABIT (Daille, 1994, 1996), ANA (En-guehard & Pantera, 1995), LEXTER (Bourigault, 1993, 1994, 1996), TERMINO (David &Plante, 1990a,b), TERMS (Justeson & Katz, 1995) and Xtract (Smadja, 1992). Three of themapply to French, three to English, one to Malgasy and one is language-independent.