un dictionnaire multilingue de collocations amalia todirascu lilpa (linguistique, langues, paroles)...
TRANSCRIPT
![Page 1: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr](https://reader036.vdocument.in/reader036/viewer/2022062417/551d9d80497959293b8b8cb6/html5/thumbnails/1.jpg)
Un dictionnaire multilingue de collocations
Amalia TodirascuLiLPA (Linguistique, Langues,
Paroles)Université de Strasbourg
![Page 2: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr](https://reader036.vdocument.in/reader036/viewer/2022062417/551d9d80497959293b8b8cb6/html5/thumbnails/2.jpg)
Plan Le projet "Collocations en contexte" Les collocations verbo-nominales Le dictionnaire L'extraction à partir des corpus
monolingues L'extraction de candidats à partir des
corpus multilingues alignés Evaluation Conclusion et perspectives
11/04/23 2
![Page 3: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr](https://reader036.vdocument.in/reader036/viewer/2022062417/551d9d80497959293b8b8cb6/html5/thumbnails/3.jpg)
Le projet objectifs:
le développement d'un système d'extraction semi-automatique de collocations à partir des corpus
paramétrable pour plusieurs langues(français, roumain, allemand) information contextuelle
Création d'un dictionnaire multilingue des collocations Une classe spécifique de collocations
projet du réseau "Lexicologie, Terminologie, Traduction", Agence Universitaire pour la Francophonie
Université Marc Bloch de Strasbourg (UdS) Université de Stuttgart Académie Roumaine de Bucarest INSA Strasbourg
11/04/23 3
![Page 4: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr](https://reader036.vdocument.in/reader036/viewer/2022062417/551d9d80497959293b8b8cb6/html5/thumbnails/4.jpg)
Motivation Collocations
TAL Traduction Lexicographie Apprentissage d'une langue étrangère
11/04/23 4
![Page 5: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr](https://reader036.vdocument.in/reader036/viewer/2022062417/551d9d80497959293b8b8cb6/html5/thumbnails/5.jpg)
Motivation (II) difficultés
choix lexical a lua decizii mais make decisions donner une conférence mais pas tenir une conférence
préferences morpho-syntaxiques faire l'objet de, porter atteinte
sémantique sens non-compositionnel: faire la tête, make good any
damage aspect: entamer une disscusion pragmatique: donner/flanquer + gifle
11/04/23 5
![Page 6: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr](https://reader036.vdocument.in/reader036/viewer/2022062417/551d9d80497959293b8b8cb6/html5/thumbnails/6.jpg)
Contexte Nombreux travaux sur les collocations
propriétés des collocations (Grossmann et Tutin, 2003) dictionnaires monolingues ou bilingues
Dico (Polguère 2000, Mel'čuk & al, 1994), LAF (Polguère, 2006)
BLF (Verlinde et al., 2003) Dictionnaire combinatoire (Zinglé 2003) Dictionnaire français-allemand (Blumenthal 2007) Dictionnaire danois (Braasch et Olsen 2000) DiCE (Alonso Ramos, 2003)
systèmes d'extraction automatique Statistiques (Quasthoff, 1998) Linguistiques (Seretan et al 2004, Seretan 2009, Tutin 2004) Hybrides (Smadja, 1991, Krenn 2000, Heid 1998)
11/04/23 6
![Page 7: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr](https://reader036.vdocument.in/reader036/viewer/2022062417/551d9d80497959293b8b8cb6/html5/thumbnails/7.jpg)
Collocations et contextes Approche contextualiste (Halliday, 1985,
Williams, 2003) Expressions poly-lexicales, semi-figées, parfois
discontinues, ayant un comportement morpho-syntaxique et sémantique propre, imprévisible
Lua o decizie/prendre une décision mais pas *a face o decizie/*faire une décision
Faire une conférence mais pas *tenir une conférence pour s'en convaincre est une cooccurrence fréquente de il
suffit de
Trois points de vue (Gledhill, 2007): cooccurence construction expression
11/04/23 7
![Page 8: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr](https://reader036.vdocument.in/reader036/viewer/2022062417/551d9d80497959293b8b8cb6/html5/thumbnails/8.jpg)
Méthodologie une méthode d'extraction appliquée
pour l'allemand (Heid&Ritz 2005, Ritz&Heid 2006) Les collocations sont caracterisées par le
contexte Propriétés morpho-syntaxiques
L'identification des propriétés à partir des corpus de grande taille (français, allemand, roumain)
corpus monolingues corpus multilingues
11/04/23 8
![Page 9: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr](https://reader036.vdocument.in/reader036/viewer/2022062417/551d9d80497959293b8b8cb6/html5/thumbnails/9.jpg)
Méthodologie (II) Méthodes d'extraction
Monolingue Module statistique + filtres linguistiques Approche symbolique (allemand)
Multilingue corpus alignés
Validation manuelle des candidats Sélection des informations linguistiques
pour le dictionnaire
11/04/23 9
![Page 10: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr](https://reader036.vdocument.in/reader036/viewer/2022062417/551d9d80497959293b8b8cb6/html5/thumbnails/10.jpg)
11/04/23 10
![Page 11: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr](https://reader036.vdocument.in/reader036/viewer/2022062417/551d9d80497959293b8b8cb6/html5/thumbnails/11.jpg)
Les corpus Corpus multilingue, aligné: AcquisCommunautaire
(ACQ) Documents communs pour les langues étudiées (16 millions
mots/langue) : français, allemand, roumain, anglais
Étiquetage + lemmatization TreeTagger (Schmid, 1994) pour le français, l'allemand et
l'anglais Flemm (Namer, 1994) pour un étiquetage plus fin
TTL (Ion, 2007) pour le roumain
Alignement propositionnnel et lexical (partiel)
Corpus spécialisé Corpus monolingues (journaux, textes littéraires,
manuels d'utilisation)11/04/23 11
![Page 12: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr](https://reader036.vdocument.in/reader036/viewer/2022062417/551d9d80497959293b8b8cb6/html5/thumbnails/12.jpg)
Plan Le projet "Collocations en contexte" Les collocations verbo-nominales Le dictionnaire L'extraction à partir des corpus
monolingues L'extraction de candidats à partir des
corpus multilingues alignés Evaluation Conclusion et perspectives
11/04/23 12
![Page 13: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr](https://reader036.vdocument.in/reader036/viewer/2022062417/551d9d80497959293b8b8cb6/html5/thumbnails/13.jpg)
Les constructions Verbe-Nom Une analyse linguistique sur trois
niveaux (Gledhill, 2007) inspirée par le modèle (Halliday 1985): Structure lexico-grammaticale
propriétés spécifiques au verbe et au nom (Giry-Schneider 1987, Kearns 1989, Allerton 2002)
Fonction syntaxique Rôle sémantique
11/04/23 13
![Page 14: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr](https://reader036.vdocument.in/reader036/viewer/2022062417/551d9d80497959293b8b8cb6/html5/thumbnails/14.jpg)
Propriétés du verbe (Gledhill, 2007)
V1 (Equivalence). faire du travail = travailler, mais faire froid n'est synonyme à
refroidir A face obiectul/'faire l'objet' = ?obiecta/'faire des objections'
V2 (Valence). Les constructions VN comportent des complements directs ou indirects
Guvernul nu face faţă situaţiei /’Le gouvernement n'est gère pas la situation’
Pierre fait peur à Jean V3 (Passivation)
Un résumé de ton livre a été fait par Jean mais pas ??La fuite a été prise
11/04/23 14
![Page 15: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr](https://reader036.vdocument.in/reader036/viewer/2022062417/551d9d80497959293b8b8cb6/html5/thumbnails/15.jpg)
Propriétés spécifiques au nom
N1(détermination). Le déterminant est absent ou fixe prendre la fuite mais pas ?prendre une fuite a face apel/'faire appel' (le déterminant est absent)
N2 (clivage). Le nom d'une VN ne peut pas servir du focus dans une structure clivée (fr)
C’est la caisse qu’il a prise mais pas ?C’est la fuite qu’il a prise N3 (expansion). Le nom ne peut pas étre modifié par une
clause relative A luat decizia care era necesară /’ Il a pris la décision qui était
nécessaire’, mais *A făcut obiectul care era necesar / ‘a fait l’objet qui s’imposait’
N4 (conversion). La nominalisation du V n'est pas toujours possible
A luat măsuri/'il a pris des mesures' = luarea măsurilor/'la prise de mesures'
Il a fait l'hypothèse mais non *son fait de l'hypothèse11/04/23 15
![Page 16: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr](https://reader036.vdocument.in/reader036/viewer/2022062417/551d9d80497959293b8b8cb6/html5/thumbnails/16.jpg)
Quelques propriétés morpho-syntaxiques Figement morpho-syntaxique partiel
Propriétés du nom: nombre, genre, cas Propriétés du verbe: diathèse, temps
La commission a fait appel aux experts… (fr) Absence du déterminant Complément indirect: préference pour 'à' Préférence pour le singulier
Statele membre fac faţă situaţiei…/'Les états membres font face à la situation…' (ro) l'absence du déterminant préférence pour le singulier Complément indirect : préference pour le datif
11/04/23 16
![Page 17: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr](https://reader036.vdocument.in/reader036/viewer/2022062417/551d9d80497959293b8b8cb6/html5/thumbnails/17.jpg)
Constructions Verbe-Nom (II) Les classes (Todirascu et Gledhill, 2008)
Prédicateur complexe (1) construction Verbe+Nom qui joue le rôle de prédicat
Ex. faire l'objet, a ţine cont/'tenir compte', Gebrauch machen/'faire usage de…'
Figement morpho-syntaxique élévé Complément de portée
Prédicat+complément (2) Ex. prendre des mesures/a lua măsuri/Maβnahmen
ergreifen Variabilité morpho-syntaxique (modifieurs,
passif/actif) compositionalité
11/04/23 17
![Page 18: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr](https://reader036.vdocument.in/reader036/viewer/2022062417/551d9d80497959293b8b8cb6/html5/thumbnails/18.jpg)
Structure lexicale Prédicat complex vs. prédicateur complexe (Gledhill
2007) le nom d'un prédicat complexe peut être passivisé
Paul fait un gateau/ Le gâteau a été fait par Paul. S P C Agent Process Range- le nom d'un predicateur complexe ne peut pas être passivisé El şi-a luat zborul/*Zborul a fost luat'il lui a pris vol-DET/Vol-DET a été pris'
S P C Ben Process Range
le complément du prédicateur complexe peut être relativisé we had a look at the screenshots... the screenshots which we had a look at were interesting.
![Page 19: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr](https://reader036.vdocument.in/reader036/viewer/2022062417/551d9d80497959293b8b8cb6/html5/thumbnails/19.jpg)
Propriétés sémantiques Le procès est exprimé par la phrase:
Les participants: agent, affecté, bénéficiaire etc; Les non-participants: portée, temps, instrument, place…
La portée: les éléments qui précisent le procès (Halliday & Matthiessen 2004)
Jean fait un gateau. Agent(Acteur) Procès Matériel Médium(Affecté) Jean fait une
remarque. Médium(Annonceur)Procès Mental(Communicatif)
Portée L’examen fait peur aux étudiants.
Phénomène Procès Mental Portée Médium
11/04/23 19
![Page 20: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr](https://reader036.vdocument.in/reader036/viewer/2022062417/551d9d80497959293b8b8cb6/html5/thumbnails/20.jpg)
Collocatif
Fréq. ACQ
Art
Nb Cas Classe
Collocatif Fréq RoGen
Art Nb Cas Classe
Obiectul/ ’objet-le’
3092 Déf
Sg Datif Pred Parte/ ’partie’
1571 - sg Acc (Din/’de’)
Oui
Referire/ ’référence’
1416 - sg, pl
Acc (La)
Pred înscrieri/ ’inscriptions’
422 -, déf pl Acc (La/’en’)
Non
Parte/ ’partie’
1268 - Sg Acc (din)
Pred Baza/’base-la’
362 -, déf sg Datif Non
Trimitere/’référence’
691 - Sg,pl
Acc(la) pred Loc/’lieu’ 160 -, déf Sg, pl
Datif P+C
Dovada/ ’preuve’
178 Déf
Sg Datif P+C Cursuri / ’cours’
142 -, déf pl - Non
Posibilă/ ’possible’
170 - Sg,pl
Acc/nom
P+C Faţă/’face’ 137 - sg Datif Pred
Necesară/’necessaire’
155 - Sg, pl
Acc/nom
P+C Obiectul/ ’objet’
127 -, déf, indéf
Sg, pl
Datif Pred
Faţă/’face’
150 - Sg Datif, Acc (la)
pred Precizări/’précisions’
124 -, déf, indéf
Sg, pl
Datif P+C
Collocatifs du verbe 'a face'/faire
11/04/23 20
![Page 21: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr](https://reader036.vdocument.in/reader036/viewer/2022062417/551d9d80497959293b8b8cb6/html5/thumbnails/21.jpg)
Verbe Collocatif
Fréq. ACQ
Art. Nr Prép Collocatif
Fréq. FrGen
Art. Nr. Prép.
Faire, font, fait, fais, faisons
Objet 2378 l’ sg de Face 2578 null Sg à
Partie 871 null sg de Partie 1419 null Sg de
référence
753 null Sg à Objet 881 L’ Sg De
Usage 271 Null, un
sg de Preuve 801 null, une
Sg De
Face 204 null sg à Part 787 null Sg À, de
Appel 192 null sg à Appel 741 null Sg à
Rapport 170 Un sg à, sur Etat 665 null Sg de
Obstacle 132 null sg à Sorte 583 null Sg En…que
Etat 93 null sg de usage 458 null Sg de
Collocatifs du verbe 'faire'
11/04/23 21
![Page 22: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr](https://reader036.vdocument.in/reader036/viewer/2022062417/551d9d80497959293b8b8cb6/html5/thumbnails/22.jpg)
D'autres classes Simples co-occurences V-N
(prédicat+complément) Nom+verbe au participe
articolul adoptat/ l’article adopté Sujet+prédicat
Le présent article ne vise que le commerce et la distribution des produits toxiques conditionnés qui sont destinés
Prédicat+complément circonstanciel La référence à cette norme figure en annexe.
11/04/23 22
![Page 23: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr](https://reader036.vdocument.in/reader036/viewer/2022062417/551d9d80497959293b8b8cb6/html5/thumbnails/23.jpg)
Plan Le projet "Collocations en contexte" Les collocations verbo-nominales Le dictionnaire L'extraction à partir des corpus
monolingues L'extraction de candidats à partir des
corpus multilingues alignés Evaluation Conclusion et perspectives
11/04/23 23
![Page 24: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr](https://reader036.vdocument.in/reader036/viewer/2022062417/551d9d80497959293b8b8cb6/html5/thumbnails/24.jpg)
Quels objectifs? Production de textes Compréhension de textes Utilisations possibles
Systèmes TAL (analyse et génération) Aide à la traduction Apprentissage d'une langue etrangère
11/04/23 24
![Page 25: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr](https://reader036.vdocument.in/reader036/viewer/2022062417/551d9d80497959293b8b8cb6/html5/thumbnails/25.jpg)
Quels fonctions? rechercher les collocations dans une
langue par la base par le collocatif recherche par l'ensemble des élements
recherches des exemples d'utilisation recherches multilingues
retrouver les equivalents de traduction les propriétés morpho-syntaxiques spécifiques
11/04/23 25
![Page 26: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr](https://reader036.vdocument.in/reader036/viewer/2022062417/551d9d80497959293b8b8cb6/html5/thumbnails/26.jpg)
Quelques propriétés Les lemmes du nom et du verbe les propriétés contextuelles :
Les propriétés du nom (détermination, nombre, cas…)
Les propriétés du verbe (actif/passif, temps, mode,…)
Les informations collocationnels prépositions la valence
les propriétés des arguments (le cas, le nombre de ces arguments)
exemples
11/04/23 26
![Page 27: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr](https://reader036.vdocument.in/reader036/viewer/2022062417/551d9d80497959293b8b8cb6/html5/thumbnails/27.jpg)
Quels candidats? Tri manuel des listes fournies par une
extraction automatique candidats identifiés à partir des corpus
monolingues équivalents de traduction obtenus dans les 3
langues obtenus à partir des corpus alignés
Entrées trilingues classes: prédicats et prédicateurs complexes
11/04/23 27
![Page 28: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr](https://reader036.vdocument.in/reader036/viewer/2022062417/551d9d80497959293b8b8cb6/html5/thumbnails/28.jpg)
Plan Le projet "Collocations en contexte" Les collocations verbo-nominales Le dictionnaire L'extraction à partir des corpus
monolingues L'extraction de candidats à partir des
corpus multilingues alignés Evaluation Conclusion et perspectives
11/04/23 28
![Page 29: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr](https://reader036.vdocument.in/reader036/viewer/2022062417/551d9d80497959293b8b8cb6/html5/thumbnails/29.jpg)
L'extraction à partir des corpus monolingues Module statistique - détection des paires de
mots non adjacents (Stefanescu et al, 2006): indépendant de langue liste de candidats Verbe+Nom triée par LL et leurs
contextes Filtrage à base de patrons morpho-
syntaxiques Exclusion manuelle des certains classes
(Todirascu et Gledhill 2008) Prédicat+Sujet Prédicat+Complément Circonstaciel
11/04/23 29
![Page 30: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr](https://reader036.vdocument.in/reader036/viewer/2022062417/551d9d80497959293b8b8cb6/html5/thumbnails/30.jpg)
avea vedere dist=2 LL=108759.176--------------------------------------------------având/vg/avea în/s/în vedere/nsrn/vedere 17786avut/vp/avea în/s/în vedere/nsrn/vedere 130aibă/v3/avea în/s/în vedere/nsrn/vedere 128avea/vn/avea în/s/în vedere/nsrn/vedere 51au/va3p/avea în/s/în vedere/nsrn/vedere41au/v3/avea în/s/în vedere/nsrn/vedere 31având/vg/avea in/nsn/in vedere/nsrn/vedere 11avea/v3/avea în/s/în vedere/nsrn/vedere 6aibă/v3/avea o/tsr/un vedere/nsrn/vedere 4avea/vn/avea o/tsr/un vedere/nsrn/vedere 1
• propriétés morpho-syntaxiques invariables • fréquences des propriétés: sg (100%), prep (în 97%), déterminant (null 99%, indéfini 1%)
11/04/23 30
![Page 31: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr](https://reader036.vdocument.in/reader036/viewer/2022062417/551d9d80497959293b8b8cb6/html5/thumbnails/31.jpg)
contenir référence dist=2 LL=4658.77015127078 666--------------------------------------------
contiennent/Vmip3p/contenir une/da3sf/un référence/Ncfs/référence 642contenir/Vmn/contenir une/da3sf/un référence/Ncfs/référence 4contiennent/Vmip3p/contenir une/da3sf/un référence/Ncfs/référence 4contient/Vmip3s/contenir une/da3sf/un référence/Ncfs/référence 4contient/Vmip3s/contenir des/Sp+p/du/ références/Ncfp/référence 3contienne/Vmsp3s/contenir une/da3sf/un référence/Ncfs/référence 2contient/Vmip3s/contenir/ les/da3p-/le références/Ncfp/référence 2
• Variabilité morpho-syntaxique •fréquences des propriétés: sg (98%), pl (2%), prep (null), déterminant (défini 1%, indéfini 99 %)
11/04/23 31
![Page 32: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr](https://reader036.vdocument.in/reader036/viewer/2022062417/551d9d80497959293b8b8cb6/html5/thumbnails/32.jpg)
Filtrage (I) Prédicateur complexe
Utiliser les contextes et les propriétés morpho-syntaxiques
Exemple de filtres (ro): «V NSRY *{1,3} NxOY»
NSRY = substantif défini (sg), accusatif/nominatif; NxOY = substantif défini, génitif/datif; {1,3} = entre 1 et 3 mots entre le complément
direct et indirect 98,8% des contextes Exemples: a menţine părerea/'maintenir son
opinion', a face dovada/'faire preuve de‘;
11/04/23 32
![Page 33: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr](https://reader036.vdocument.in/reader036/viewer/2022062417/551d9d80497959293b8b8cb6/html5/thumbnails/33.jpg)
Filtrage (II) Prédicat+complément
Préférences pour une propriété (cas, nombre): plus de 85%
Testes: filtres pour le passif (fr): « Det:art Nom {2,3}* Ver:pper par»
Nom = substantif, accusatif/nominatif; Det:art = article défini, sg ou pl; {2,3} = entre 1 et 3 mots entre le nom et le verbe
Exemples: prendre des mesures, donner un avis, faire des commentaires ;
11/04/23 33
![Page 34: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr](https://reader036.vdocument.in/reader036/viewer/2022062417/551d9d80497959293b8b8cb6/html5/thumbnails/34.jpg)
Plan Le projet "Collocations en contexte" Les collocations verbo-nominales Le dictionnaire L'extraction à partir des corpus
monolingues L'extraction de candidats à partir des
corpus multilingues alignés Evaluation Conclusion et perspectives
11/04/23 34
![Page 35: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr](https://reader036.vdocument.in/reader036/viewer/2022062417/551d9d80497959293b8b8cb6/html5/thumbnails/35.jpg)
L'extraction multilingue (I) Corpus alignés (ACQ): fr, de, en, ro
(Ceausu et al, 2006) au niveau propositionnel Alignements bilingues: de-en, fr-en, ro-en 64352 phrases alignés 1-1
Alignement lexical partiel Anglais: langue pivot Corpus étiquétés et lemmatisés, en format
XCES
11/04/23 35
![Page 36: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr](https://reader036.vdocument.in/reader036/viewer/2022062417/551d9d80497959293b8b8cb6/html5/thumbnails/36.jpg)
Exemple <s num="980" lang="fr">3. Un état membre concerné peut
demander à la Commission d' examiner, dans un délai de deux mois après qu' un transporteur aérien a informé le coordonnateur de son intention de faire usage de la souplesse prévue à l' article 8 paragraphe 4 , si les dispositions du présent article sont respectées.</s>
<s num="980" lang="en">3. A Member State concerned may request the Commission to investigate the application of this Article within two months of an air carrier informing the coordinator of its intention to use the flexibility provided for in Article?8 ( 4 ).</s>
<s num="980" lang="ro">( 3 ) Un stat membru interesat poate solicita Comisiei să analizeze , în decurs de două luni de la data la care transportatorul aerian a informat coordonatorul cu privire la intenţia sa de a face uz de flexibilitatea prevăzută în art. 8 alin. ( 4 ) , dacă se respectă dispoziţiile prezentului articol.</s>
11/04/23 36
![Page 37: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr](https://reader036.vdocument.in/reader036/viewer/2022062417/551d9d80497959293b8b8cb6/html5/thumbnails/37.jpg)
L'extraction multilingue (II) les outils d'alignement lexical:
COWAL (Tufis et al, 2006) pour l'alignement ro-en Règles héuristiques
mots contenus étiquettes entités nommées position
GIZA++ (Och et Ney, 2003) pour l'alignement des corpus de-en et fr-en
Transfer des alignements lexicaux (Tufis et Koeva, 2007) : fr-ro, ro-fr, fr-de, de-fr, ro-de, de-ro
Extraction des listes d'équivalents de traduction pour chaque paire de langues (l'outil ColTrans): ro-fr, fr-ro
11/04/23 37
![Page 38: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr](https://reader036.vdocument.in/reader036/viewer/2022062417/551d9d80497959293b8b8cb6/html5/thumbnails/38.jpg)
L'alignement lexical (I) Validation manuelle de l'alignement à
l'aide de l'éditeur MtKit (Tufis et al, 2006) un corpus de 1000 phrases pour les corpus fr-
en, de-en, ro-en; Phrases de longueur et structure variables
(20 a 100 mots); Methodologie d'alignement inspiré par le
projet Blinker (Melamed, 2000) annotation des classes ouvertes (N, Adj, V,...); bonne couverture des mots grammaticaux unités polylexicales
11/04/23 38
![Page 39: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr](https://reader036.vdocument.in/reader036/viewer/2022062417/551d9d80497959293b8b8cb6/html5/thumbnails/39.jpg)
Erreurs d'alignement Problèmes linguistiques
Termes du domaine Structures syntaxiques différentes
<s num="750" lang="fr">tous droits d' importation pour les réactifs pour la détermination des groupes tissulaires
<s num="750" lang="ro">orice drepturi de import a reactivilor utilizaţi pentru determinarea grupelor tisulare
Ordre de constituents <s num=996>l' Observatoire doit réparer , conformément
aux principes généraux communs aux droits des états membres , les dommages…</s>
<s num=996>în concordanţă cu principiile generale comune legislaţiilor statelor membre , Centrul trebuie să compenseze orice pierdere provocată
11/04/23 39
![Page 40: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr](https://reader036.vdocument.in/reader036/viewer/2022062417/551d9d80497959293b8b8cb6/html5/thumbnails/40.jpg)
Erreurs d'alignement (II)
Liens multiples Groupe verbal: infinitif (fr) traduit par un
subjonctif (ro) exercer | să recurgă
Groupe nominal : le determinant défini est un suffixe rajouté au nom (en roumain)
la Comission | Comisiei Aggregats (préposition+déterminant)
aux prescriptions | dispoziţiile collocations
préposition non aligné la Commission n'a pas pris de mesures raisonnables Comisia nu a luat măsurile necesare
11/04/23 40
![Page 41: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr](https://reader036.vdocument.in/reader036/viewer/2022062417/551d9d80497959293b8b8cb6/html5/thumbnails/41.jpg)
Extraction de candidats l'outil ColTrans
les lemmes (verbe et nom) la direction de recherche fr->ro, ro-
>fr le corpus aligné au niveau lexical
résultats croisés erreurs d'alignement erreurs d'étiquetage
11/04/23 41
![Page 42: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr](https://reader036.vdocument.in/reader036/viewer/2022062417/551d9d80497959293b8b8cb6/html5/thumbnails/42.jpg)
Plan Le projet "Collocations en contexte" Les collocations verbo-nominales Le dictionnaire L'extraction à partir des corpus
monolingues L'extraction de candidats à partir des
corpus multilingues alignés Evaluation Conclusion et perspectives
11/04/23 42
![Page 43: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr](https://reader036.vdocument.in/reader036/viewer/2022062417/551d9d80497959293b8b8cb6/html5/thumbnails/43.jpg)
Résultats de l'extraction évaluation sur 1000 phrases
malgré les filtres, beaucoup de candidats qui sont des simples co-occurences (prédicat+complément direct, prédicat+circonstanciel)
fr environ 38% de candidats éliminés par
filtrage
ro 36,7% candidats éliminés par filtrage
11/04/23 43
![Page 44: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr](https://reader036.vdocument.in/reader036/viewer/2022062417/551d9d80497959293b8b8cb6/html5/thumbnails/44.jpg)
Résultats de l'extraction (II) évaluer sur l'ensemble du corpus
les premiers 1000 noms les plus fréquents dans l'Acquis (fr,ro)
extraire les verbes qui co-occurent beaucoup de noms spécifiques au domaine (fr,ro)
comission/comisie, article/articol, paragraphe/paragraf, directive/directivă
pas beaucoup de candidats de la classe 1 ou 2 quelques noms
fr lieu (avoir, donner), vigueur (entrer, mettre), compte
(prendre, tenir) ro
parte (face) vigoare (intra) et măsură (lua, anula)
11/04/23 44
![Page 45: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr](https://reader036.vdocument.in/reader036/viewer/2022062417/551d9d80497959293b8b8cb6/html5/thumbnails/45.jpg)
Candidats (ro) Prep LL
aduce atingere - 51571,1211771531
lua considerare în 26697,2875383302
ţine cont - 26637,3033729519
pune aplicare în 12989,9639878404
veni contact în 3009,72649488981
Prédicateurs complexes (ro)
11/04/23 45
![Page 46: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr](https://reader036.vdocument.in/reader036/viewer/2022062417/551d9d80497959293b8b8cb6/html5/thumbnails/46.jpg)
Candidats (fr) Prep, Art
LL
avoir lieu - 45860.0441745073
faire objet l' 39398.1847211485
tenir compte
- 39310.6736511725
mettre oeuvre en 22733.427464941
prendre considération en 13100.3090319577
Prédicateurs complexes (fr)
11/04/23 46
![Page 47: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr](https://reader036.vdocument.in/reader036/viewer/2022062417/551d9d80497959293b8b8cb6/html5/thumbnails/47.jpg)
Résultats
Les 10 classes de constructions et coocurrences V-N et leurs répartition sur les 1000 premiers candidats
11/04/23 47
![Page 48: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr](https://reader036.vdocument.in/reader036/viewer/2022062417/551d9d80497959293b8b8cb6/html5/thumbnails/48.jpg)
Extraction d'équivalents (I) Extraire les listes d'équivalents de traduction
(études des alignements fr-ro, ro-fr): Prédicateurs complexes traduits par des
prédicateurs complexes dans la langue source fait/Vmip3s/faire l'/Da3ms/le objet/Nc-s--/objet= face/Vmip3s/face
obiectul/Ncmsry/obiect dă/Vmip3s/da naştere/Ncfsrn/naştere=donnerait/Vmic3s/donner lieu/Ncms--/lieu
Prédicats+compléments équivalents dans les deux langues
émis/Vmps-sm/émettre un/Da-ms/un avis/Nc-s--/avis=emis/Vmp--sm/emite avizul/Ncmsry/aviz
11/04/23 48
![Page 49: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr](https://reader036.vdocument.in/reader036/viewer/2022062417/551d9d80497959293b8b8cb6/html5/thumbnails/49.jpg)
Extraction d'équivalents (II)
Prédicateur complexe traduit par un verbe ou un nom
a/Vaip3s/avea reparat/Vmps-sm/repara pagubele/Ncmp--/pagubă=a/Vaip3s/avoir dédommagé/Vmps-sm/dedommager
donnent/Vmip3p/donner lieu/Nc-s--/lieu =generează/Vmip3s/genera
aducă/Vmsp3/aduce atingere/Ncfsrn/atingere= préjudice/Nc-s--/préjudice
11/04/23 49
![Page 50: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr](https://reader036.vdocument.in/reader036/viewer/2022062417/551d9d80497959293b8b8cb6/html5/thumbnails/50.jpg)
Extraction d’équivalents (III)
Entrées multiples Plusieurs équivalents
A face referire = faire référence à, faire mention, définir, mentionner
plusieurs sens dă/Vmip3s/da naştere/Ncfsrn/naştere =
donner lieu Conflits, débats, interventions
dă/Vmip3s/da naştere/Ncfsrn/naştere=accoucher
11/04/23 50
![Page 51: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr](https://reader036.vdocument.in/reader036/viewer/2022062417/551d9d80497959293b8b8cb6/html5/thumbnails/51.jpg)
Le dictionnaire 150 entrées/langue (en cours) entrées trilingues possibilité d'extensions vers d'autres langues
(l'anglais) informations sur la fréquence de chaque
propriété (si > 85%) possibilité de représenter les cas
d'équivalence entre collocations et unités lexicales simples
interopérabilité de données format XML, DTD définie
11/04/23 51
![Page 52: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr](https://reader036.vdocument.in/reader036/viewer/2022062417/551d9d80497959293b8b8cb6/html5/thumbnails/52.jpg)
<?xml version="1.0" encoding="utf-8"?><collocations> <entry id="1"> <te lang="fr"> <construction>tenir compte</construction> <v_lemma>tenir</v_lemma> <v_spec> <form></form><active>oui</active> </v_spec> <prep>null</prep> <n_lemma>compte</n_lemma> <n_spec> <det freq="90%">null</det> <number freq="80%">sg</number> <modifier freq="76%">null</modifier> <case>nospec<case> </n_spec> <colloc_spec> <c_spec>
<required_args case="Acc" prep="de">OD</required_args> <lexical_head></lexical_head> <c_spec>
<colloc_type>prédicateur complexe</colloc_type> <examples>la commission a tenu compte du rapport de l'expert… </examples>
</colloc_spec> </te> <te lang="ro"></te> <te lang="de"></te> </entry></collocations>
11/04/23 52
![Page 53: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr](https://reader036.vdocument.in/reader036/viewer/2022062417/551d9d80497959293b8b8cb6/html5/thumbnails/53.jpg)
<?xml version="1.0" encoding="utf-8"?><collocations> <entry id="1"> <te lang="ro"> <construction>lua considerare</construction> <v_lemma>lua</v_lemma> <v_spec> <form></form><active>oui</active> </v_spec> <prep>în</prep> <n_lemma>considerare</n_lemma> <n_spec> <det freq="98%">null</det> <number freq="100%">sg</number> <modifier freq="97%">null</modifier> <case>nospec<case> </n_spec> <colloc_spec> <c_spec>
<required_args case="Acc" det="déf">OD</required_args> <lexical_head></lexical_head> <c_spec>
<colloc_type>prédicateur complexe</colloc_type> <examples>comisia a luat în considerare… </examples>
</colloc_spec> </te> <te lang="fr"></te> <te lang="de"></te> </entry></collocations>
11/04/23 53
![Page 54: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr](https://reader036.vdocument.in/reader036/viewer/2022062417/551d9d80497959293b8b8cb6/html5/thumbnails/54.jpg)
Conclusion et perspectives Identification des propriétés morpho-
syntaxiques spécifique pour chaque langue
Définition des filtres linguistiques quelques classes de collocations
validation manuelle des données extraites Utilisation de corpus alignés pour
alimenter le dictionnaire équivalents de traduction
11/04/23 54
![Page 55: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr](https://reader036.vdocument.in/reader036/viewer/2022062417/551d9d80497959293b8b8cb6/html5/thumbnails/55.jpg)
Conclusion et perspectives (II) enrichir le dictionnaire avec d'autres entrées transformation vers le format LMF développement d'interfaces Web pour
interroger le dictionnaire utilisation du dictionnaire comme ressource
pour un système de traduction automatique factorisé fr-ro
utilisation du corpus annoté syntaxiquement pour automatiser le remplissage du dictionnaire
11/04/23 55
![Page 56: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr](https://reader036.vdocument.in/reader036/viewer/2022062417/551d9d80497959293b8b8cb6/html5/thumbnails/56.jpg)
Réferences BRAASCH, (Anna), OLSEN (Sussi) : 2000, "Formalised Representation of
Collocations in a Danish Computational Lexicon", in Heid (U.) et al., eds. The Ninth EURALEX Congress, Proceedings, Vol. II, (Stuttgart), pp. 475-488.
CEAUSU (Alin), ŞTEFANESCU (Dan) and TUFIS (Dan) : 2006, « Acquis Communautaire Sentence Alignment using Support Vector Machines», in Proceedings of LREC 2006, (Genoa).
GROSSMANN (Francis), TUTIN (Agnès), dir. : 2003, « Les collocations: analyse et traitement», Numéro special : « Travaux et Recherches en Linguistique Appliquée ».
HAUSMANN (Franz Josef) : 2004, « Was sind eigentlich Kollokationen? », in STEYER (K), eds., Wortverbindungen – mehr oder weniger fest, pp. 309-334
HALLIDAY (Michael) : 1985, An Introduction to Functional Grammar, (London, Arnold).
HEID (Ulrich) and RITZ (Julia) : 2005, « Extracting collocations and their contexts from corpora», in Actes de Conference on Computational Lexicography and Text Research, (Budapest).
11/04/23 56
![Page 57: Un dictionnaire multilingue de collocations Amalia Todirascu LiLPA (Linguistique, Langues, Paroles) Université de Strasbourg todiras@unistra.fr](https://reader036.vdocument.in/reader036/viewer/2022062417/551d9d80497959293b8b8cb6/html5/thumbnails/57.jpg)
Références (II) POLGUERE (Alain) : 2006, « Structural properties of Lexical Systems: Monolingual
and Multilingual Perspectives», in Proceedings of the Workshop on Multilingual Language Resources and Interoperability (COLING/ACL 2006, Sydney), pp. 50-59.
RITZ (Julia) and HEID (Ulrich) : 2006, « Extraction tools for collocations and their morphosyntactic specificities», in Proceedings of the Linguistic Resources and Evaluation Conference, (Genova).
SERETAN (VIOLETA), NERIMA (LUKA) AND WEHRLI (ERIC) : 2004, « A tool for multi-word collocation extraction and visualization in multilingual corpora», in Proceedings of EURALEX’2004, (Lorient, France), vol. 2, pp.755-766
TUTIN (AGNÈS) : 2004, « Pour une modélisation dynamique des collocations dans les textes», in Actes du congrès EURALEX’2004, (Lorient, France), vol. 1, pp. 207-221.
TODIRASCU(AMALIA), HEID (ULRICH), ŞTEFĂNESCU (DAN), TUFIŞ(DAN), GLEDHILL(CHRISTOPHER), WELLER(MARION), ROUSSELOT (FRANÇOIS): 2008, « Vers un dictionnaire de collocations multilingue », Cahiers de linguistique, Université de Louvain
11/04/23 57