sÉmantique distributionnelle en linguistique de …

15
SÉMANTIQUE DISTRIBUTIONNELLE EN LINGUISTIQUE DE CORPUS Kris Heylen, Ann Bertels Armand Colin | « Langages » 2016/1 N° 201 | pages 51 à 64 ISSN 0458-726X ISBN 9782200930394 Article disponible en ligne à l'adresse : -------------------------------------------------------------------------------------------------------------------- http://www.cairn.info/revue-langages-2016-1-page-51.htm -------------------------------------------------------------------------------------------------------------------- Pour citer cet article : -------------------------------------------------------------------------------------------------------------------- Kris Heylen, Ann Bertels, « Sémantique distributionnelle en linguistique de corpus », Langages 2016/1 (N° 201), p. 51-64. DOI 10.3917/lang.201.0051 -------------------------------------------------------------------------------------------------------------------- Distribution électronique Cairn.info pour Armand Colin. © Armand Colin. Tous droits réservés pour tous pays. La reproduction ou représentation de cet article, notamment par photocopie, n'est autorisée que dans les limites des conditions générales d'utilisation du site ou, le cas échéant, des conditions générales de la licence souscrite par votre établissement. Toute autre reproduction ou représentation, en tout ou partie, sous quelque forme et de quelque manière que ce soit, est interdite sauf accord préalable et écrit de l'éditeur, en dehors des cas prévus par la législation en vigueur en France. Il est précisé que son stockage dans une base de données est également interdit. Powered by TCPDF (www.tcpdf.org) Document téléchargé depuis www.cairn.info - Katholieke Universiteit Leuven - - 134.58.253.56 - 20/01/2017 10h31. © Armand Colin Document téléchargé depuis www.cairn.info - Katholieke Universiteit Leuven - - 134.58.253.56 - 20/01/2017 10h31. © Armand Colin

Upload: others

Post on 22-Nov-2021

1 views

Category:

Documents


0 download

TRANSCRIPT

SEacuteMANTIQUE DISTRIBUTIONNELLE EN LINGUISTIQUE DECORPUSKris Heylen Ann Bertels

Armand Colin | laquo Langages raquo

20161 Ndeg 201 | pages 51 agrave 64 ISSN 0458-726XISBN 9782200930394

Article disponible en ligne agrave ladresse --------------------------------------------------------------------------------------------------------------------httpwwwcairninforevue-langages-2016-1-page-51htm--------------------------------------------------------------------------------------------------------------------

Pour citer cet article --------------------------------------------------------------------------------------------------------------------Kris Heylen Ann Bertels laquo Seacutemantique distributionnelle en linguistique de corpus raquo Langages 20161 (Ndeg 201) p 51-64DOI 103917lang2010051--------------------------------------------------------------------------------------------------------------------

Distribution eacutelectronique Cairninfo pour Armand Colincopy Armand Colin Tous droits reacuteserveacutes pour tous pays

La reproduction ou repreacutesentation de cet article notamment par photocopie nest autoriseacutee que dans leslimites des conditions geacuteneacuterales dutilisation du site ou le cas eacutecheacuteant des conditions geacuteneacuterales de lalicence souscrite par votre eacutetablissement Toute autre reproduction ou repreacutesentation en tout ou partiesous quelque forme et de quelque maniegravere que ce soit est interdite sauf accord preacutealable et eacutecrit deleacutediteur en dehors des cas preacutevus par la leacutegislation en vigueur en France Il est preacuteciseacute que son stockagedans une base de donneacutees est eacutegalement interdit

Powered by TCPDF (wwwtcpdforg)

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

Kris HeylenKU Leuven amp Quantitative Lexicology and Variational Linguistics (QLVL)

Ann BertelsKU Leuven amp Leuven Language Institute (ILT) ndash Quantitative Lexicology and VariationalLinguistics (QLVL)

Seacutemantique distributionnelle en linguistique decorpus

1 INTRODUCTION

Les analyses agrave base de corpus ont une longue tradition en seacutemantique lexicaleDepuis lrsquoeacutemergence de projets dictionnairiques agrave grande eacutechelle au XIXe siegravecleles chercheurs en seacutemantique lexicale se sont appuyeacutes sur des indices textuelsattesteacutes dans le langage reacuteel pour deacutegager et organiser les diffeacuterents sens etusages drsquoun mot Alors que dans les anneacutees 1950 la recherche syntaxique sedeacutetournait des donneacutees authentiques les ideacutees de J R Firth (1957) Z Harris(1954) et W Weaver (1955) ont meneacute agrave des approches qui consideacuteraient les don-neacutees authentiques comme la base empirique naturelle pour les descriptionsseacutemantiques 1 Initialement la collecte et lrsquoanalyse des donneacutees de corpus sefaisait manuellement Gracircce agrave lrsquoinformatique et agrave la disponibiliteacute de corpus eacutelec-troniques de taille plus importante les lexicologues et lexicographes disposentagrave preacutesent de grandes quantiteacutes de donneacutees authentiques qui constituent uneeacutenorme base de donneacutees empirique pour leurs travaux descriptifs Pour analysercette abondance de donneacutees les chercheurs en seacutemantique lexicale recourentagrave des outils drsquoanalyse statistique qui facilitent deux eacutetapes dans lrsquoanalyse decorpus Drsquoune part les meacutethodes statistiques permettent lrsquoidentification dansles donneacutees de corpus drsquoindices contextuels pour eacutetudier la signification drsquounlexegraveme tels que des mots cooccurrents (collocations) et des patrons syntaxiques(collocations grammaticales ou colligations) Drsquoautre part ces meacutethodes per-mettent la classification des occurrences drsquoun lexegraveme en diffeacuterents sens et usagesen fonction des indices contextuels

1 Pour un historique plus approfondi des approches reacutecentes en linguistique de corpus pour la seacutemantiquelexicale voir Geeraerts (2010 165-178)

Langages 201 rticle on linerticle on line 51

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

La seacutemantique linguistique en vision peacuteripheacuterique

La premiegravere approche ie lrsquoidentification drsquoindices contextuels agrave partir demeacutethodes statistiques a eacuteteacute associeacutee agrave la tradition britannique en linguistiquede corpus Creacuteeacutee par J Sinclair (1991) cette approche consistait agrave deacutecrire lasignification lexicale drsquoun mot en fonction des mots typiques (collocations) etdes patrons syntaxiques (colligations) avec lesquels il apparaicirct K Church etP Hanks (1989) ont introduit des mesures statistiques notamment le t-scorepour identifier les collocations et colligations pertinentes et informatives agrave partirdes distributions de freacutequence dans un texte Par la suite ces mesures ont eacuteteacutemises au point et optimiseacutees 2 Aujourdrsquohui elles sont largement utiliseacutees dansplusieurs sous-disciplines linguistiques

La deuxiegraveme approche agrave savoir le regroupement statistique drsquousages esttregraves preacutesente dans les reacutecents deacuteveloppements en Seacutemantique Cognitive Plusparticuliegraverement lrsquoapproche du Behavioural Profile a reacutecemment introduit destechniques statistiques multivarieacutees pour classer automatiquement les occur-rences drsquoun mot en plusieurs sens et usages distinctifs agrave partir des donneacuteesde corpus D Glynn (2010) recourt agrave lrsquoanalyse factorielle des correspondances(AFC) pour visualiser comment les occurrences du verbe to bother (lsquodeacuterangerrsquo)sont regroupeacutees en usages distincts en fonction de leur comportement syntaxiqueou de leurs caracteacuteristiques seacutemantiques comme par exemple laquo affect raquo

Ces deux approches ont eacuteteacute utiliseacutees indeacutependamment lrsquoune de lrsquoautre dansces traditions diffeacuterentes Les analyses de collocations ont automatiseacute le repeacuteragedrsquoindices contextuels au moyen drsquoanalyses statistiques mais elles confient laclassification des occurrences et des contextes typiques agrave lrsquoanalyse manuelle Parcontre les analyses de profils comportementaux (behavioural profiles) ont proceacutedeacuteagrave lrsquoautomatisation statistique de la classification des occurrences et contextestypiques drsquoun lexegraveme en diffeacuterents sens mais elles srsquoappuient principalementsur des donneacutees ougrave les indices contextuels ont eacuteteacute encodeacutes manuellement LeTableau 1 infra propose un aperccedilu des diffeacuterentes approches en seacutemantiquelexicale et indique si le repeacuterage des indices contextuels et des sens se faitmanuellement ou par le biais drsquoanalyses statistiques Il est clair que les eacutetudesen philologie classique reacutealisaient les deux eacutetapes manuellement Les eacutetudesde collocations drsquoune part et les analyses de profils comportementaux drsquoautrepart ont automatiseacute une seule des deux eacutetapes Dans cet article nous preacutesen-tons les meacutethodes drsquoanalyse distributionnelle que nous consideacuterons comme uneextension logique de lrsquoeacutetat de lrsquoart statistique sur lequel srsquoappuient les analysesseacutemantiques lexicales Les meacutethodes drsquoanalyse distributionnelle combinent defaccedilon systeacutematique des mesures drsquoassociation et des meacutethodes statistiques mul-tivarieacutees dans le but drsquoexplorer des structures seacutemantiques lexicales dans descorpus textuels de taille importante De ce fait elles permettent de compleacuteterle motif qui se deacutegage dans la preacutesentation des outils statistiques utiliseacutes enseacutemantique lexicale (cf Tableau 1)

2 Voir Evert (2004) et Wiechmann (2008) pour un aperccedilu

52

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

Seacutemantique distributionnelle en linguistique de corpus

Tableau 1 Aperccedilu des outils statistiques utiliseacutes en seacutemantique lexicale

Identification drsquoindicescontextuels

Classificationdrsquooccurrences

Philologie classique manuelle manuelle

Analyse de collocations statistique manuelle

Analyse de profilscomportementaux

manuelle statistique

Meacutethodes drsquoanalysedistributionnelle

statistique statistique

Lrsquointroduction de meacutethodes statistiques dans les deux eacutetapes du processus drsquoana-lyse de donneacutees constitue une extension logique voire indispensable et cecipour deux raisons Premiegraverement les lexicologues et lexicographes pourrontbeacuteneacuteficier du soutien suppleacutementaire des techniques pour le repeacuterage de patronsstatistiques parce qursquoil leur permet de faire face agrave lrsquoabondance de donneacutees aux-quelles ils sont confronteacutes dans leurs travaux descriptifs Il est tout simplementimpossible drsquoencoder manuellement de classer et de deacutecrire plusieurs milliersde concordances drsquoun lexegraveme Les analyses de donneacutees statistiques pourrontaider agrave preacutelever un eacutechantillon repreacutesentatif de diffeacuterents usages qui pourra parla suite faire lrsquoobjet drsquoanalyses plus approfondies Deuxiegravemement la disponi-biliteacute de Big Data ou de gros volumes de donneacutees suggegravere une extension de lafocalisation traditionnelle du travail lexicologique et lexicographique Un envi-ronnement Big Data permet aux chercheurs drsquoexaminer des tendances et motifsqursquoils ne deacutegageraient pas en analysant de petits corpus comme par exemplela reacutepartition de nouveaux mots ou de nouveaux usages de mots existants agravetravers les reacuteseaux sociaux Pour deacutetecter ce type de tendances les techniques defouilles de donneacutees sont indispensables et requiegraverent un recours aux techniquesquantitatives approprieacutees

Dans cet article nous proceacutedons drsquoabord agrave une preacutesentation non techniquedes meacutethodes drsquoanalyse distributionnelle pour la modeacutelisation seacutemantique dis-tributionnelle (sect 2) Pour diffeacuterentes approches et sous-types nous preacutesentonsles caracteacuteristiques principales et les reacutefeacuterences les plus importantes et nousexpliquons les principes de lrsquoanalyse distributionnelle agrave partir drsquoun modegravele dis-tributionnel particulier Ensuite nous discutons une application lexicologiquepour lrsquoanalyse de la polyseacutemie (sect 3) Finalement nous preacutesentons une meacutethodede visualisation qui permet aux experts humains drsquointerpreacuteter les structuresseacutemantiques cerneacutees par les modegraveles seacutemantiques distributionnels (sect 4)

2 MEacuteTHODES DrsquoANALYSE DISTRIBUTIONNELLE

21 Historique

Les meacutethodes drsquoanalyse distributionnelle aussi appeleacutees modegraveles seacutemantiquesdistributionnels (Word Space Models) eacutetaient initialement utiliseacutees en Psychologie

Langages 201 53

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

La seacutemantique linguistique en vision peacuteripheacuterique

Cognitive pour modeacuteliser la meacutemoire lexicale (Landauer amp Dumais 1997 Lund amp Burgess 1996) Ensuite elles ont eacuteteacute deacuteveloppeacutees en LinguistiqueComputationnelle ougrave elles sont maintenant largement reacutepandues pour modeacute-liser lrsquoanalyse seacutemantique dans le domaine du Traitement Automatiquedes Langues (TAL) (Statistical Natural Language Processing) (voir Turney ampPantel 2010 pour un aperccedilu) Pour le franccedilais les travaux preacutecurseurs agrave la findes anneacutees 90 eacutetaient principalement consacreacutes agrave lrsquoapplication des meacutethodes dis-tributionnelles au traitement de corpus speacutecialiseacutes (Bouaud et al 1997 Habert ampZweigenbaum 2002) Eacutevoquons eacutegalement lrsquoorganisation drsquoune journeacutee ATALAen 1999 intituleacutee Approche distributionnelle de lrsquoanalyse seacutemantique (voir Fabreet al 2014a) Actuellement lrsquoanalyse distributionnelle est devenue un mode derepreacutesentation et drsquoexploitation incontournable dans les travaux sur le lexiqueet sur la seacutemantique lexicale (Fabre et al 2014b) comme en teacutemoignent lesdeux eacuteditions de lrsquoatelier laquo Seacutemantique Distributionnelle raquo SemDis 2013 (LesSables-drsquoOlonne) et SemDis 2014 (Marseille) Lrsquoeacutedition 2013 visait agrave rassemblerles eacutetudes et travaux sur le franccedilais dans le domaine de lrsquoanalyse distribu-tionnelle Lrsquoeacutedition 2014 permettait la confrontation de plusieurs meacutethodesdistributionnelles en proposant une tacircche compeacutetitive de substitution lexicalesur un corpus de taille importante et une tacircche exploratoire sur un petit corpusspeacutecialiseacute

22 Plusieurs approches et sous-types

Les meacutethodes drsquoanalyse distributionnelle srsquoappuient sur lrsquohypothegravese distribu-tionnelle (Firth 1957) selon laquelle des mots qui se trouvent dans des contextesdrsquoapparition similaires tendent agrave avoir des sens similaires Elles regroupent plu-sieurs approches et sous-types Trois dimensions sont importantes agrave cet effet letype de contexte le niveau drsquoanalyse et le mode de repreacutesentation computation-nelle

221 Type de contexte

Premiegraverement les meacutethodes et modegraveles diffegraverent en fonction du type decontexte pris en consideacuteration pour repreacutesenter le sens des mots On fait ladistinction entre les modegraveles dits laquo agrave base de documents raquo (document-based)et les modegraveles dits laquo agrave base de mots raquo (word-based) Dans les modegraveles agrave basede documents lrsquoanalyse seacutemantique drsquoun mot x srsquoappuie sur lrsquoobservationde lrsquooccurrence de x dans le contexte du document entier Les modegravelesanglosaxons originels sont des modegraveles agrave base de documents par exemplelrsquoanalyse seacutemantique latente (Latent Semantic Analysis ou LSA) (Landauer ampDumais 1997) Les modegraveles agrave base de mots par contre prennent comme pointde deacutepart lrsquooccurrence drsquoun mot x dans le contexte drsquoun autre mot Certainsmodegraveles agrave base de mots repreacutesentent chaque occurrence de x dans le corpuspar ses laquo cooccurrents graphiques raquo dans une fenecirctre de contexte donneacutee(Heylen Speelman amp Geeraerts 2012 Ferret 2010 2014 Bernier-Colborne 2014 Bertels amp Speelman 2013 2014 Peacuterinet amp Hamon 2014) Drsquoautres modegraveles agrave

54

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

Seacutemantique distributionnelle en linguistique de corpus

base de mots prennent en consideacuteration les relations de deacutependance syntaxiqueentre le mot x et ses laquo cooccurrents syntaxiques raquo (Morlane-Hondegravere 2013 Morardo amp Villemonte de La Clergerie 2013 Fabre et al 2014b) Les modegraveles agravebase de documents sont plus approprieacutes pour modeacuteliser des relations syntag-matiques et associatives par exemple entre meacutedecin et hocircpital ou entre voiture etrouler Les modegraveles agrave base de mots et plus particuliegraverement ceux qui srsquoappuientsur des informations de deacutependance syntaxique sont plus preacutecis et parviennentagrave mieux saisir des relations paradigmatiques comme les quasi-synonymeshocircpital et clinique (Sahlgren 2006) Certains travaux vont au-delagrave des contextesdrsquoapparition dans les textes (mots ou documents) pour inteacutegrer eacutegalement danslrsquoanalyse distributionnelle des laquo mots visuels raquo ou des images extraites agrave partirde techniques visuelles computationnelles ce qui aboutit agrave la laquo seacutemantiquedistributionnelle multimodale raquo (Bruni Tran amp Baroni 2014)

222 Niveau drsquoanalyse

Deuxiegravemement les modegraveles distributionnels permettent drsquoeacutetudier les motssoit au niveau des types (type-level) (Navigli 2012) soit au niveau des occurrencesindividuelles (token-level) (Dinu Thater amp Laue 2012) Les modegraveles au niveaudes types (type-level) tentent non seulement de distinguer un mot drsquoun autredans le but de deacutetecter la synonymie et les relations lexicales lieacutees (Curran ampMoens 2002) mais aussi de donner un aperccedilu des diffeacuterents sens drsquoun motpolyseacutemique (Bertels amp Speelman 2013) Or pour deacuteterminer le sens drsquouneseule occurrence particuliegravere les modegraveles au niveau des occurrences (token-level)essaient de distinguer un usage drsquoun mot donneacute drsquoun autre usage de ce mecircmemot pour ainsi eacutetudier sa polyseacutemie (Heylen et al 2014)

223 Repreacutesentation computationnelle

Troisiegravemement les modegraveles distributionnels diffegraverent en fonction du modede repreacutesentation computationnelle des donneacutees distributionnelles agrave savoir unerepreacutesentation sous forme de graphe (graph-based) (Morardo amp Villemonte de LaClergerie 2013 Desalle et al 2014 Claveau Kijak amp Ferret 2014) ou une repreacute-sentation vectorielle (vector-based) Les modegraveles vectoriels reposent sur la repreacute-sentation matricielle des mots dans un espace vectoriel Il srsquoagit par exempledrsquoune matrice mots times mots qui vise agrave caracteacuteriser les mots agrave partir de leurscooccurrents graphiques ou drsquoune matrice mots times relations de deacutependance quipermet de caracteacuteriser les mots en fonction de leurs cooccurrents syntaxiquesIl est important de reacuteduire le nombre eacuteleveacute de caracteacuteristiques contextuelles(context features) agrave un nombre limiteacute de laquo dimensions seacutemantiques raquo soit pour untraitement computationnel efficace (p ex Ferret 2010 2014) soit pour une visua-lisation qui permet aux chercheurs-linguistes drsquoacceacuteder plus facilement aux rela-tions seacutemantiques qui se deacutegagent (p ex Heylen Speelman amp Geeraerts 2012)Dans la description de lrsquoapplication lexicologique (cf sect 3) nous discutons enguise drsquoexemple la technique du positionnement multidimensionnel

Langages 201 55

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

La seacutemantique linguistique en vision peacuteripheacuterique

23 Explication deacutetailleacutee des principes de base

Pour expliquer les principes de base des modegraveles seacutemantiques distributionnelsnous recourons agrave un modegravele distributionnel particulier agrave savoir un modegravele agravebase de mots (word-based) qui considegravere les cooccurrents graphiques au niveaudes types (type-level) sous forme de repreacutesentation vectorielle (vector-based)Lrsquoapplication lexicologique discuteacutee dans la section suivante repose sur ce mecircmemodegravele

Nous faisons appel agrave un exemple pour eacutetudier trois mots-cibles agrave savoir chienchat et cafeacute dans un petit corpus laquo jouet raquo de six phrases-exemples

(1) Le chien aboie fort contre les passants(2) Le veacuteteacuterinaire prend le chien par le cou

(3) Le chat ronronne fort(4) Le veacuteteacuterinaire srsquoest fait griffer par le chat en le prenant

(5) On boit plus de cafeacute que de theacute(6) Le veacuteteacuterinaire prend sa tasse et boit son cafeacute

Ce petit corpus laquo jouet raquo peut ecirctre repreacutesenteacute sous forme de table de freacutequenceavec les mots-cibles en ligne et les caracteacuteristiques contextuelles ou les laquo mots-contextes raquo en colonne Nous recourons au modegravele le plus simple possibleie celui qui ignore les relations de deacutependance syntaxique et qui recense simple-ment les freacutequences absolues des noms verbes et adverbes Les freacutequences sontindiqueacutees dans la matrice de cooccurrence infra (cf Tableau 2) Le fait drsquoignorerles relations syntaxiques est qualifieacute drsquoapproche laquo sac de mots raquo (Bag-of-Wordsapproach) en recherche drsquoinformations Dans un exemple issu du monde reacuteel etdans un grand corpus il y a beaucoup plus de mots-contextes (dans les colonnes)geacuteneacuteralement plusieurs milliers et bien sucircr les freacutequences sont largement supeacute-rieures agrave 2

Tableau 2 Matrice de cooccurrence pour les mots-cibles chien chat et cafeacute

aboyer passant veacuteteacuterinaire prendre cou ronronner fort griffer boire plus theacute tasse

chien 1 1 1 1 1 0 1 0 0 0 0 0

chat 0 0 1 1 0 1 1 1 0 0 0 0

cafeacute 0 0 1 1 0 0 0 0 2 1 1 1

Les freacutequences de cooccurrence peuvent ecirctre interpreacuteteacutees comme les coordon-neacutees qui permettent de situer chien chat et cafeacute dans un espace seacutemantique mul-tidimensionnel ougrave chaque cooccurrent repreacutesente une dimension particuliegravereSi lrsquoon poursuit les explications dans cette meacutetaphore geacuteomeacutetrique on pourraeacutegalement calculer la distance entre deux mots dans cet espace seacutemantiquemultidimensionnel pour ainsi mesurer la distance entre leur sens En pratiqueon fait appel agrave lrsquoalgegravebre des vecteurs pour calculer la similariteacute entre les troismots-cibles En effet chaque mot-cible peut ecirctre repreacutesenteacute par le vecteur de

56

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

Seacutemantique distributionnelle en linguistique de corpus

ses cooccurrents ou mots-contextes Les donneacutees distributionnelles prennentdonc la forme drsquoun vecteur de cooccurrents Les mots-cibles qui partagent descooccurrents auront une repreacutesentation vectorielle semblable Une mesure desimilariteacute permet ensuite de comparer les vecteurs et de calculer leur distancedans lrsquoespace vectoriel La similariteacute entre les vecteurs des trois mots-cibles estcalculeacutee agrave partir du cosinus de lrsquoangle entre eux Le cosinus est une mesure desimilariteacute standard en seacutemantique distributionnelle (Bullinaria amp Levy 2007 Ferret 2010) Intuitivement on srsquoattend agrave ce que lrsquoangle entre deux conceptssimilaires (p ex chien et chat) soit plus petit que celui entre deux mots diffeacuterents(p ex chien et cafeacute) En drsquoautres termes quand les distributions de mots sont peusimilaires la valeur de similariteacute cosinus est infeacuterieure

cos(chien chat) = 055cos(chien cafeacute) = 027cos(chat cafeacute) = 030

Le reacutesultat correspond agrave lrsquointuition lsquochienrsquo et lsquochatrsquo se ressemblent le plus tandisque lsquochienrsquo et lsquocafeacutersquo partagent le moins de cooccurrences Il est agrave noter que lsquochienrsquoressemble un peu moins (027) agrave lsquocafeacutersquo que lsquochatrsquo (030) parce que lsquochienrsquo apparaicirctaussi avec lsquoaboyerrsquo et lsquopassantrsquo contrairement agrave lsquochatrsquo et lsquocafeacutersquo

Lrsquoimpleacutementation de cette technique aux exemples et au corpus du mondereacuteel ne srsquoappuie pas sur des freacutequences de cooccurrence absolues entre le mot-cible et ses cooccurrents Les cooccurrents les plus freacutequents ne donnent pasneacutecessairement le plus drsquoinformations sur la signification du mot-cible Agrave lrsquoinstardes travaux sur les collocations les meacutethodes drsquoanalyse distributionnelle srsquoap-puient sur des mesures drsquoassociation statistiques ce qui permet de donner plusde poids aux cooccurrents qui apparaissent significativement plus souvent avecle mot-cible qursquoattendu par le hasard Ces cooccurrents avec un poids plus eacuteleveacutefournissent plus drsquoinformations sur le sens du mot-cible que les autres cooccur-rents quelle que soit leur freacutequence absolue Dans lrsquoexemple avec le mot-ciblelsquochienrsquo le cooccurrent lsquoveacuteteacuterinairersquo est seacutemantiquement plus proche du conceptlaquo animal raquo que le mot lsquoprendrersquo bien qursquoil soit moins freacutequent Les mesuresdrsquoassociation qui sont utiliseacutees dans les modegraveles seacutemantiques distributionnelscomme fonctions de pondeacuteration sont emprunteacutees aux analyses de collocationsLes scheacutemas de pondeacuteration appliqueacutes dans cette eacutetude de cas reposent sur lamesure de lrsquoinformation mutuelle ponctuelle (Pointwise Mutual Information ouPMI) Les deacutetails techniques des mesures pour la pondeacuteration deacutepassent le cadredu preacutesent article mais on pourra se reacutefeacuterer agrave A Thanapoulos N Fakotakis etG Kokkinakis (2002) pour une comparaison de plusieurs mesures statistiquesPour calculer la valeur drsquoassociation on srsquoappuie sur les freacutequences de cooccur-rence recueillies dans un grand corpus Supposons que veacuteteacuterinaire a un poidscollocationnel de 43 srsquoil apparaicirct avec chien de 35 avec chat et de 08 aveccafeacute Ensuite le calcul de la similariteacute cosinus agrave partir des poids collocationnelsindique drsquoune part que chien et chat sont plus similaires que dans le calcul nonpondeacutereacute et drsquoautre part qursquoils sont moins similaires agrave cafeacute

Langages 201 57

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

La seacutemantique linguistique en vision peacuteripheacuterique

cos(chien chat) = 087cos(chien cafeacute) = 031cos(chat cafeacute) = 032

Le calcul pondeacutereacute de la similariteacute cosinus entre toutes les paires de mots-ciblespermet de geacuteneacuterer une matrice de similariteacute avec les mots-cibles tant dans leslignes que dans les colonnes et avec la valeur de similariteacute cosinus par pairede mots-cibles dans les cellules Les eacuteleacutements de la diagonale sont tous deslsquo1rsquo chaque mot-cible eacutetant complegravetement similaire agrave lui-mecircme La matrice estsymeacutetrique avec des valeurs identiques de part et drsquoautre de la diagonale parceque la similariteacute cosinus entre les mots A et B est identique agrave celle entre lesmots B et A Le Tableau 3 infra visualise les similariteacutes cosinus pour nos troismots-cibles exemples Dans un grand corpus du monde reacuteel on pourra trouverainsi pour chaque mot-cible le mot le plus similaire dans le reste du vocabulaireEacutetant donneacute que des mots tregraves similaires sont souvent des (quasi-)synonymesce type de matrice de similariteacute mot-par-mot est souvent utiliseacute en linguistiquecomputationnelle pour des tacircches drsquoextraction automatique de synonymes

Tableau 3 Matrice des valeurs de similariteacute cosinus

chat cafeacute chien

chat 1 032 087

cafeacute 032 1 031

chien 087 031 1

3 APPLICATION LEXICOLOGIQUE

Les meacutethodes drsquoanalyse distributionnelle se precirctent agrave diverses applicationslexicologiques et lexicographiques notamment la seacutelection automatique dephrases-exemples pour les dictionnaires (Cook et al 2013) lrsquoeacutetude diachroniquede la seacutemantique (Sagi Kaufmann amp Clark 2009 Perek 2014) et lrsquoeacutetude dela variation socio-linguistique (Peirsman Geeraerts amp Speelman 2010) Nouspreacutesentons infra une eacutetude de la polyseacutemie dans la langue speacutecialiseacutee Le modegraveledistributionnel expliqueacute dans la section preacuteceacutedente permet non seulement derecenser des (dis)similariteacutes seacutemantiques entre diffeacuterents mots tels que lsquochienrsquolsquochatrsquo et lsquocafeacutersquo mais eacutegalement drsquoexplorer les diffeacuterents sens drsquoun mot particulieragrave partir des (dis)similariteacutes seacutemantiques entre ses cooccurrents

Nous proceacutedons agrave lrsquoanalyse exploratoire de la polyseacutemie ou de lrsquoheacuteteacuterogeacute-neacuteiteacute seacutemantique du mot lsquotourrsquo dans un corpus technique relevant du domainespeacutecialiseacute des machines-outils pour lrsquousinage des meacutetaux (17 millions drsquooccur-rences) Ce mot a en effet plusieurs sens techniques dans ce corpus speacutecialiseacuteagrave savoir laquo machine-outil pour lrsquousinage des piegraveces raquo et laquo rotation raquo ainsi queplusieurs sens geacuteneacuteraux notamment dans les expressions tour drsquohorizon et agrave tourde rocircle Comme nous lrsquoavons indiqueacute supra (cf sect 2) la plupart des analyses en

58

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

Seacutemantique distributionnelle en linguistique de corpus

seacutemantique distributionnelle eacutetudient la proximiteacute seacutemantique entre mots enfonction des mots-contextes partageacutes Dans notre eacutetude lrsquoobjet drsquoanalyse se situeagrave un niveau supeacuterieur Les mots-cibles (cf Tableau 2) dont nous essayons drsquoeacutetu-dier les (dis)similariteacutes seacutemantiques sont les cooccurrents de lsquotourrsquo parce queceux-ci reflegravetent les diffeacuterents sens et usages de lsquotourrsquo dans le corpus techniqueNotre analyse consiste agrave regrouper les mots-cibles en fonction de leurs mots-contextes et agrave les positionner les uns par rapport aux autres en 2D Ces analysesde regroupement (clustering) et de visualisation (plotting) des cooccurrents per-mettent de cerner des groupes de cooccurrents seacutemantiquement lieacutes pour ainsiacceacuteder agrave la seacutemantique du mot lsquotourrsquo

Pour identifier les mots-cibles ou les cooccurrents pertinent de lsquotourrsquo ainsique leurs mots-contextes pertinents nous nous appuyons sur la mesure drsquoas-sociation de lrsquoinformation mutuelle speacutecifique ou Pointwise Mutual Information(PMI) Pour le regroupement et la visualisation des mots-cibles nous recouronsagrave lrsquoanalyse de positionnement multidimensionnel (MultiDimensional Scaling ouMDS) (Kruskal amp Wish 1978 Cox amp Cox 2001 Venables amp Ripley 2002 Borg ampGroenen 2005) La technique de MDS 3 est impleacutementeacutee dans le logiciel drsquoanalysestatistique R 4 Dans nos analyses nous utilisons le positionnement non meacutetriqueisoMDS Cette technique permet drsquoanalyser une matrice pour un ensemble dedonneacutees disposeacutees en ligne (ici les mots-cibles) agrave partir de leurs valeurs pourplusieurs variables disposeacutees en colonne (ici les mots-contextes) (cf Tableau 4)Dans un premier temps ces valeurs sont les valeurs drsquoassociation PMI entreun mot-cible et un mot-contexte avec lequel il apparaicirct Cela permet de geacuteneacute-rer un vecteur par mot-cible avec toutes les valeurs drsquoassociation avec tous sesmots-contextes Au cas ougrave cette matrice serait trop creuse nous pourrions enri-chir les donneacutees en faisant appel aux cooccurrents des mots-contextes Pour lesdeacutetails sur lrsquoenrichissement de la matrice on pourra se reacutefeacuterer agrave A Bertels etD Speelman (2013) Dans un deuxiegraveme temps le calcul pondeacutereacute de la similariteacutecosinus entre toutes les paires de mots-cibles permet de geacuteneacuterer une matrice desimilariteacute agrave lrsquoinstar du Tableau 3

3 Le MDS est une meacutethode drsquoanalyse multivarieacutee descriptive comme lrsquoanalyse factorielle des correspon-dances (AFC) ou lrsquoanalyse en composantes principales (ACP) Agrave la diffeacuterence de ces techniques le MDSpermet drsquoanalyser tout type de matrice de (dis)similariteacute si les (dis)similariteacutes sont eacutevidentes Le MDS nrsquoim-pose pas de restrictions telles que des relations lineacuteaires entre les donneacutees sous-jacentes leur distributionnormale multivarieacutee ou la matrice de correacutelation [httpwwwstatsoftcomtextbookstmulscahtml]

4 R [wwwr-projectorg]

Langages 201 59

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

La seacutemantique linguistique en vision peacuteripheacuterique

Tableau 4 Matrice de cooccurrence pondeacutereacutee mots-cibles par mots-contextes

minute par commande broche

millevaleur drsquoassociation (PMI)

entre mille et minutePMI

numeacuterique PMI

inverseacute PMI

horizon

La matrice de similariteacute est ensuite soumise agrave une analyse de positionnementmultidimensionnel qui consiste agrave regrouper les mots-cibles ou les cooccurrentsde lsquotourrsquo en fonction des valeurs drsquoassociation similaires avec des mots-contextessimilaires et agrave visualiser ces proximiteacutes et distances seacutemantiques en 2D Cettevisualisation permettra aux chercheurs-linguistes non-informaticiens drsquoacceacutederagrave la seacutemantique du mot lsquotourrsquo

Dans la Figure 1 infra la reacutepartition des mots-cibles repreacutesente bien le carac-tegravere seacutemantiquement heacuteteacuterogegravene de lsquotourrsquo Les proximiteacutes et les distances seacuteman-tiques montrent quelques mots-cibles isoleacutes et quelques groupes de mots-ciblesseacutemantiquement lieacutes Les mots-cibles peacuteripheacuteriques pointent vers des sens par-ticuliers agrave savoir horizon (sens geacuteneacuteral dans laquo tour drsquohorizon raquo) et mille (senstechnique dans laquo mille tours par minute raquo) Dans la partie supeacuterieure agrave droiteon retrouve des mots-cibles qui attestent le sens technique particulier laquo tourinverseacute raquo avec inverseacutes inverseacute et bibroches Le nuage de mots-cibles dans lapartie infeacuterieure agrave gauche visualise le sens technique laquo machine-outil pour lrsquousi-nage des piegraveces raquo La preacutesence de plusieurs petits regroupements de mots-ciblesteacutemoigne de la variation des contextes drsquoapparition On observe un contextespeacutecialiseacute laquo tour (agrave) deux broches raquo agrave gauche en bas axes broches broche outilsdeux trois centres et mecircme au milieu vertical et verticaux Agrave gauche au milieu onretrouve commande numeacuterique CNC gamme seacuterie type et quelques mots-ciblesmoins speacutecialiseacutes Les mots-cibles plus geacuteneacuteraux comme manutention ligne geacuteneacute-rale production et conception se retrouvent dans la partie supeacuterieure de ce nuageet font preuve drsquoun contexte drsquoapparition plus geacuteneacuteral

60

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

Seacutemantique distributionnelle en linguistique de corpus

Figure 1 Visualisation des mots-cibles ou cooccurrents de lsquotourrsquo

4 CONCLUSION

Dans cet article nous avons preacutesenteacute les possibiliteacutes de la modeacutelisation seacuteman-tique distributionnelle pour les analyses linguistiques Gracircce agrave la disponibiliteacutede vastes corpus eacutelectroniques les lexicologues et lexicographes disposent denos jours drsquoune eacutenorme base de donneacutees empirique Pour analyser cette abon-dance de donneacutees ils pourront recourir agrave des outils drsquoanalyse statistique et agravedes meacutethodes drsquoanalyse distributionnelle qui leur permettront notamment derepeacuterer des patrons et motifs

Les meacutethodes drsquoanalyse distributionnelle srsquoappuient sur lrsquohypothegravese distri-butionnelle selon laquelle des mots qui se trouvent dans des contextes drsquoappa-rition similaires tendent agrave avoir des sens similaires Elles regroupent plusieursapproches et sous-types en fonction du type de contexte du niveau drsquoanalyse etdu mode de repreacutesentation computationnelle des donneacutees Nous avons expliqueacuteles principes de base de ces modegraveles agrave partir drsquoun modegravele distributionnel par-ticulier relativement intuitif pour des linguistes agrave savoir un modegravele agrave base de

Langages 201 61

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

La seacutemantique linguistique en vision peacuteripheacuterique

mots qui considegravere les cooccurrents graphiques au niveau des types sous formede repreacutesentation vectorielle Ce modegravele distributionnel permet non seulementde recenser des (dis)similariteacutes seacutemantiques entre diffeacuterents mots tels que lesexemples-jouets lsquochienrsquo lsquochatrsquo et lsquocafeacutersquo mais eacutegalement drsquoexplorer les diffeacuterentssens drsquoun mot particulier agrave partir des (dis)similariteacutes seacutemantiques entre ses cooc-currents Agrave titre drsquoexemple nous avons discuteacute une application lexicologiquequi consistait agrave regrouper les mots-cibles ou les cooccurrents du mot techniquelsquotourrsquo en fonction des valeurs drsquoassociation similaires avec des mots-contextessimilaires Ces proximiteacutes et distances seacutemantiques sont visualiseacutees en 2D pourpermettre aux chercheurs-linguistes non-informaticiens drsquoacceacuteder agrave la seacuteman-tique du mot lsquotourrsquo

Lrsquoobjectif de cet article eacutetait de montrer lrsquoutiliteacute des modegraveles seacutemantiquesdistributionnels pour les linguistes lexicologues et lexicographes agrave lrsquoaide drsquounepreacutesentation non technique des principes de base et drsquoune application lexicolo-gique concregravete Comme les diffeacuterentes approches et les nombreux sous-types demodegraveles le suggegraverent des recherches futures devront srsquoatteler agrave la mise au pointdes nombreux paramegravetres pour aboutir au modegravele qui soit le mieux adapteacute auxbesoins speacutecifiques de la recherche lexicologique ou lexicographique neacutecessaire

Reacutefeacuterences

BERNIER-COLBORNE G (2014) laquo Analyse distributionnelle de corpus speacutecialiseacutes pour lrsquoidentifica-tion de relations lexico-seacutemantiques raquo Actes du 21e Traitement Automatique des LanguesNaturelles (TALN2014) Atelier SemDis 2014 Marseille France 238-251

BERTELS A amp SPEELMAN D (2013) laquo Exploration seacutemantique visuelle agrave partir des cooccurrencesde deuxiegraveme et troisiegraveme ordre raquo Actes du 20e Traitement Automatique des LanguesNaturelles (TALN2013) Atelier SemDis 2013 Les Sables-drsquoOlonne France 126-139

BERTELS A amp SPEELMAN D (2014) laquo Analyse de positionnement multidimensionnel sur lecorpus speacutecialiseacute TALN raquo Actes du 21e Traitement Automatique des Langues Naturelles(TALN2014) Atelier SemDis 2014 Marseille France 252-265

BORG I amp GROENEN P (20052) Modern Multidimensional Scaling theory and applications NewYork Springer-Verlag

BOUAUD J et al (1997) laquo Regroupements issus de deacutependances syntaxiques en corpus cateacute-gorisation et confrontation agrave deux modeacutelisations conceptuelles raquo Actes des 1res journeacuteesIngeacutenierie des Connaissances Roskoff France 207-223

BRUNI E TRAN N K amp BARONI M (2014) ldquoMultimodal Distributional Semanticsrdquo Journal ofArtificial Intelligence Research 49 (1) 1-47

BULLINARIA J A amp LEVY J P (2007) ldquoExtracting Semantic Representations from Word Co-occurrence Statistics A Computational Studyrdquo Behavior Research Methods 39 510-526

CHURCH K W amp HANKS P (1989) ldquoWord association norms mutual information and lexico-graphyrdquo Proceedings of the 27th Annual Conference of the Association of ComputationalLinguistics Vancouver British Columbia 76-83

CLAVEAU V KIJAK E amp FERRET O (2014) laquo Explorer le graphe de voisinage pour ameacuteliorer lestheacutesaurus distributionnels raquo Actes du 21e Traitement Automatique des Langues Naturelles(TALN2014) Marseille France 220-231

62

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

Seacutemantique distributionnelle en linguistique de corpus

COOK P et al (2013) ldquoA lexicographic appraisal of an automatic approach for detecting newword-sensesrdquo Proceedings of the eLex 2013 Conference Tallinn Estonia 49-65

COX T F amp COX M A A (2001) Multidimensional Scaling Boca Raton (FL) Chapman amp Hall

CURRAN J R amp MOENS M (2002) ldquoImprovements in automatic thesaurus extractionrdquoProceedings of the ACL-02 Workshop on Unsupervised Lexical Acquisition Vol 9Stroudsburg (PA) USA 59-66

DESALLE Y et al (2014) laquo BACANAL Balades Aleacuteatoires Courtes pour ANAlyses LexicalesApplication agrave la substitution lexicale raquo Actes du 21e Traitement Automatique des LanguesNaturelles (TALN2014) Atelier SemDis 2014 Marseille France 206-217

DINU G THATER S amp LAUE S (2012) ldquoA comparison of models of word meaning in contextrdquoProceedings of the 2012 Conference of the North American Chapter of the Association forComputational Linguistics Human Language Technologies Atlanta (GA) USA 611-615

EVERT S (2004) The Statistics of Word Cooccurrences Word Pairs and CollocationsDissertation Institut fuumlr maschinelle Sprachverarbeitung University of Stuttgart

FABRE C et al (2014a) laquo Preacutesentation de lrsquoatelier SemDis 2014 seacutemantique distributionnellepour la substitution lexicale et lrsquoexploration de corpus speacutecialiseacutes raquo Actes du 21e TraitementAutomatique des Langues Naturelles (TALN2014) Atelier SemDis 2014 Marseille France196-205

FABRE C et al (2014b) laquo Ajuster lrsquoanalyse distributionnelle agrave un corpus speacutecialiseacute de petitetaille raquo Actes du 21e Traitement Automatique des Langues Naturelles (TALN2014) AtelierSemDis 2014 Marseille France 266-279

FERRET O (2010) laquo Similariteacute seacutemantique et extraction de synonymes agrave partir de corpus raquoActes du 17e Traitement Automatique des Langues Naturelles (TALN2010) MontreacutealCanada [httpwwwiroumontrealcasimfelipeTALN2010XmlPapersalltaln2010_submission_77pdf]

FERRET O (2014) laquo Utiliser un modegravele neuronal geacuteneacuterique pour la substitution lexicale raquo Actesdu 21e Traitement Automatique des Langues Naturelles (TALN2014) Atelier SemDis 2014Marseille France 218-227

FIRTH J R (1957) Papers in Linguistics 1934-1951 Oxford Oxford University Press

GEERAERTS D (2010) Theories of Lexical Semantics OxfordNew York Oxford University Press

GLYNN D (2010) ldquoTesting the Hypothesis Objectivity and Verification in Usage-Based CognitiveSemanticsrdquo in D Glynn amp K Fischer (eds) Quantitative Methods in Cognitive SemanticsCorpus-driven approaches BerlinNew York Mouton de Gruyter 239-270

HABERT B amp ZWEIGENBAUM P (2002) ldquoContextual acquisition of information categories whathas been done and what can be done automaticallyrdquo in B Nevin amp S Johnson (eds) TheLegacy of Zellig Harris Language and information into the 21st century Amsterdam JohnBenjamins 203-231

HARRIS Z (1954) ldquoDistributional structurerdquo Word 10 (23) 146-162

HEYLEN K et al (2014) ldquoMonitoring Polysemy Word Space Models as a Tool for Large-ScaleLexical Semantic Analysisrdquo Lingua International Review of General Linguistics 157 153-172

HEYLEN K SPEELMAN D amp GEERAERTS D (2012) ldquoLooking at word meaning An interactivevisualization of Semantic Vector Spaces for Dutch synsetsrdquo Proceedings of the EACL 2012Joint Workshop of LINGVIS et UNCLH Avignon France 16-24

KRUSKAL J B amp WISH M (1978) Multidimensional Scaling Sage University Paper series onQuantitative Applications in the Social Sciences number 07-011 Newbury Park (CA) SagePublications

Langages 201 63

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

La seacutemantique linguistique en vision peacuteripheacuterique

LANDAUER T K amp DUMAIS S T (1997) ldquoA solution to Platorsquos problem The latent semanticanalysis theory of acquisition induction and representation of knowledgerdquo PsychologicalReview 104 (2) 211-240

LUND K amp BURGESS C (1996) ldquoProducing high-dimensional semantic spaces from lexical co-occurrencerdquo Behavior Research Methods Instrumentation and Computers 28 203-208

MORARDO M amp VILLEMONTE DE LA CLERGERIE Eacute (2013) laquo Vers un environnement de production etde validation de ressources lexicales seacutemantiques raquo Actes du 20e Traitement Automatiquedes Langues Naturelles (TALN2013) Atelier SemDis 2013 Les Sables-drsquoOlonne France167-180

MORLANE-HONDEgraveRE F (2013) laquo Utiliser une base distributionnelle pour filtrer un dictionnaire desynonymes raquo Actes du 20e Traitement Automatique des Langues Naturelles (TALN2013)Atelier SemDis 2013 Les Sables-drsquoOlonne France 112-125

NAVIGLI R (2012) ldquoA Quick Tour of Word Sense Disambiguation Induction and RelatedApproachesrdquo Proceedings of the 38th Conference on Current Trends in Theory and Practiceof Computer Science (SOFSEM) Spindleruv Mlyn Czech Republic 115-129

PEIRSMAN Y GEERAERTS D amp SPEELMAN D (2010) ldquoThe automatic identification of lexical variationbetween language varietiesrdquo Natural Language Engineering 16 (4) 469-491

PEREK F (2014) ldquoVector spaces for historical linguistics Using distributional semantics tostudy syntactic productivity in diachrony raquo Proceedings of the 52nd Annual Meeting of theAssociation for Computational Linguistics Baltimore USA 309-314

PEacuteRINET A amp HAMON T (2014) laquo Analyse et proposition de paramegravetres distributionnels adapteacutesaux corpus de speacutecialiteacute raquo Actes des 12e Journeacutees internationales drsquoAnalyse statistiquedes Donneacutees Textuelles (JADT 2014) Paris France 507-518

SAGI E KAUFMANN S amp CLARK B (2009) ldquoSemantic density analysis Comparing word meaningacross time and phonetic spacerdquo Proceedings of the EACL 2009 Workshop on GEMSAthens Greece 104-111

SAHLGREN M (2006) The Word-Space Model Using distributional analysis to represent syntag-matic and paradigmatic relations between words in high-dimensional vector spaces PhDThesis Department of Linguistics Stockholm University

SINCLAIR J (1991) Corpus Concordance Collocation Oxford Oxford University Press

THANOPOULOS A FAKOTAKIS N amp KOKKINAKIS G (2002) ldquoComparative Evaluation of CollocationExtraction Metricsrdquo Proceedings of the 3rd Language Resources Evaluation ConferenceLas Palmas Spain 620-625

TURNEY P D amp PANTEL P (2010) ldquoFrom Frequency to Meaning Vector Space Models ofSemanticsrdquo Journal of Artificial Intelligence Research 37 (1) 141-188

VENABLES W N amp RIPLEY B D (20024) Modern Applied Statistics with S New York Springer-Verlag

WEAVER W (1955) ldquoTranslationrdquo in W N Locke amp A D Booth (eds) Machine Translation ofLanguages Cambridge (MA) The MIT Press 15-23

WIECHMANN D (2008) ldquoOn the Computation of Collostruction Strengthrdquo Corpus Linguistics andLinguistic Theory 4 (2) 253-290

64

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

Kris HeylenKU Leuven amp Quantitative Lexicology and Variational Linguistics (QLVL)

Ann BertelsKU Leuven amp Leuven Language Institute (ILT) ndash Quantitative Lexicology and VariationalLinguistics (QLVL)

Seacutemantique distributionnelle en linguistique decorpus

1 INTRODUCTION

Les analyses agrave base de corpus ont une longue tradition en seacutemantique lexicaleDepuis lrsquoeacutemergence de projets dictionnairiques agrave grande eacutechelle au XIXe siegravecleles chercheurs en seacutemantique lexicale se sont appuyeacutes sur des indices textuelsattesteacutes dans le langage reacuteel pour deacutegager et organiser les diffeacuterents sens etusages drsquoun mot Alors que dans les anneacutees 1950 la recherche syntaxique sedeacutetournait des donneacutees authentiques les ideacutees de J R Firth (1957) Z Harris(1954) et W Weaver (1955) ont meneacute agrave des approches qui consideacuteraient les don-neacutees authentiques comme la base empirique naturelle pour les descriptionsseacutemantiques 1 Initialement la collecte et lrsquoanalyse des donneacutees de corpus sefaisait manuellement Gracircce agrave lrsquoinformatique et agrave la disponibiliteacute de corpus eacutelec-troniques de taille plus importante les lexicologues et lexicographes disposentagrave preacutesent de grandes quantiteacutes de donneacutees authentiques qui constituent uneeacutenorme base de donneacutees empirique pour leurs travaux descriptifs Pour analysercette abondance de donneacutees les chercheurs en seacutemantique lexicale recourentagrave des outils drsquoanalyse statistique qui facilitent deux eacutetapes dans lrsquoanalyse decorpus Drsquoune part les meacutethodes statistiques permettent lrsquoidentification dansles donneacutees de corpus drsquoindices contextuels pour eacutetudier la signification drsquounlexegraveme tels que des mots cooccurrents (collocations) et des patrons syntaxiques(collocations grammaticales ou colligations) Drsquoautre part ces meacutethodes per-mettent la classification des occurrences drsquoun lexegraveme en diffeacuterents sens et usagesen fonction des indices contextuels

1 Pour un historique plus approfondi des approches reacutecentes en linguistique de corpus pour la seacutemantiquelexicale voir Geeraerts (2010 165-178)

Langages 201 rticle on linerticle on line 51

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

La seacutemantique linguistique en vision peacuteripheacuterique

La premiegravere approche ie lrsquoidentification drsquoindices contextuels agrave partir demeacutethodes statistiques a eacuteteacute associeacutee agrave la tradition britannique en linguistiquede corpus Creacuteeacutee par J Sinclair (1991) cette approche consistait agrave deacutecrire lasignification lexicale drsquoun mot en fonction des mots typiques (collocations) etdes patrons syntaxiques (colligations) avec lesquels il apparaicirct K Church etP Hanks (1989) ont introduit des mesures statistiques notamment le t-scorepour identifier les collocations et colligations pertinentes et informatives agrave partirdes distributions de freacutequence dans un texte Par la suite ces mesures ont eacuteteacutemises au point et optimiseacutees 2 Aujourdrsquohui elles sont largement utiliseacutees dansplusieurs sous-disciplines linguistiques

La deuxiegraveme approche agrave savoir le regroupement statistique drsquousages esttregraves preacutesente dans les reacutecents deacuteveloppements en Seacutemantique Cognitive Plusparticuliegraverement lrsquoapproche du Behavioural Profile a reacutecemment introduit destechniques statistiques multivarieacutees pour classer automatiquement les occur-rences drsquoun mot en plusieurs sens et usages distinctifs agrave partir des donneacuteesde corpus D Glynn (2010) recourt agrave lrsquoanalyse factorielle des correspondances(AFC) pour visualiser comment les occurrences du verbe to bother (lsquodeacuterangerrsquo)sont regroupeacutees en usages distincts en fonction de leur comportement syntaxiqueou de leurs caracteacuteristiques seacutemantiques comme par exemple laquo affect raquo

Ces deux approches ont eacuteteacute utiliseacutees indeacutependamment lrsquoune de lrsquoautre dansces traditions diffeacuterentes Les analyses de collocations ont automatiseacute le repeacuteragedrsquoindices contextuels au moyen drsquoanalyses statistiques mais elles confient laclassification des occurrences et des contextes typiques agrave lrsquoanalyse manuelle Parcontre les analyses de profils comportementaux (behavioural profiles) ont proceacutedeacuteagrave lrsquoautomatisation statistique de la classification des occurrences et contextestypiques drsquoun lexegraveme en diffeacuterents sens mais elles srsquoappuient principalementsur des donneacutees ougrave les indices contextuels ont eacuteteacute encodeacutes manuellement LeTableau 1 infra propose un aperccedilu des diffeacuterentes approches en seacutemantiquelexicale et indique si le repeacuterage des indices contextuels et des sens se faitmanuellement ou par le biais drsquoanalyses statistiques Il est clair que les eacutetudesen philologie classique reacutealisaient les deux eacutetapes manuellement Les eacutetudesde collocations drsquoune part et les analyses de profils comportementaux drsquoautrepart ont automatiseacute une seule des deux eacutetapes Dans cet article nous preacutesen-tons les meacutethodes drsquoanalyse distributionnelle que nous consideacuterons comme uneextension logique de lrsquoeacutetat de lrsquoart statistique sur lequel srsquoappuient les analysesseacutemantiques lexicales Les meacutethodes drsquoanalyse distributionnelle combinent defaccedilon systeacutematique des mesures drsquoassociation et des meacutethodes statistiques mul-tivarieacutees dans le but drsquoexplorer des structures seacutemantiques lexicales dans descorpus textuels de taille importante De ce fait elles permettent de compleacuteterle motif qui se deacutegage dans la preacutesentation des outils statistiques utiliseacutes enseacutemantique lexicale (cf Tableau 1)

2 Voir Evert (2004) et Wiechmann (2008) pour un aperccedilu

52

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

Seacutemantique distributionnelle en linguistique de corpus

Tableau 1 Aperccedilu des outils statistiques utiliseacutes en seacutemantique lexicale

Identification drsquoindicescontextuels

Classificationdrsquooccurrences

Philologie classique manuelle manuelle

Analyse de collocations statistique manuelle

Analyse de profilscomportementaux

manuelle statistique

Meacutethodes drsquoanalysedistributionnelle

statistique statistique

Lrsquointroduction de meacutethodes statistiques dans les deux eacutetapes du processus drsquoana-lyse de donneacutees constitue une extension logique voire indispensable et cecipour deux raisons Premiegraverement les lexicologues et lexicographes pourrontbeacuteneacuteficier du soutien suppleacutementaire des techniques pour le repeacuterage de patronsstatistiques parce qursquoil leur permet de faire face agrave lrsquoabondance de donneacutees aux-quelles ils sont confronteacutes dans leurs travaux descriptifs Il est tout simplementimpossible drsquoencoder manuellement de classer et de deacutecrire plusieurs milliersde concordances drsquoun lexegraveme Les analyses de donneacutees statistiques pourrontaider agrave preacutelever un eacutechantillon repreacutesentatif de diffeacuterents usages qui pourra parla suite faire lrsquoobjet drsquoanalyses plus approfondies Deuxiegravemement la disponi-biliteacute de Big Data ou de gros volumes de donneacutees suggegravere une extension de lafocalisation traditionnelle du travail lexicologique et lexicographique Un envi-ronnement Big Data permet aux chercheurs drsquoexaminer des tendances et motifsqursquoils ne deacutegageraient pas en analysant de petits corpus comme par exemplela reacutepartition de nouveaux mots ou de nouveaux usages de mots existants agravetravers les reacuteseaux sociaux Pour deacutetecter ce type de tendances les techniques defouilles de donneacutees sont indispensables et requiegraverent un recours aux techniquesquantitatives approprieacutees

Dans cet article nous proceacutedons drsquoabord agrave une preacutesentation non techniquedes meacutethodes drsquoanalyse distributionnelle pour la modeacutelisation seacutemantique dis-tributionnelle (sect 2) Pour diffeacuterentes approches et sous-types nous preacutesentonsles caracteacuteristiques principales et les reacutefeacuterences les plus importantes et nousexpliquons les principes de lrsquoanalyse distributionnelle agrave partir drsquoun modegravele dis-tributionnel particulier Ensuite nous discutons une application lexicologiquepour lrsquoanalyse de la polyseacutemie (sect 3) Finalement nous preacutesentons une meacutethodede visualisation qui permet aux experts humains drsquointerpreacuteter les structuresseacutemantiques cerneacutees par les modegraveles seacutemantiques distributionnels (sect 4)

2 MEacuteTHODES DrsquoANALYSE DISTRIBUTIONNELLE

21 Historique

Les meacutethodes drsquoanalyse distributionnelle aussi appeleacutees modegraveles seacutemantiquesdistributionnels (Word Space Models) eacutetaient initialement utiliseacutees en Psychologie

Langages 201 53

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

La seacutemantique linguistique en vision peacuteripheacuterique

Cognitive pour modeacuteliser la meacutemoire lexicale (Landauer amp Dumais 1997 Lund amp Burgess 1996) Ensuite elles ont eacuteteacute deacuteveloppeacutees en LinguistiqueComputationnelle ougrave elles sont maintenant largement reacutepandues pour modeacute-liser lrsquoanalyse seacutemantique dans le domaine du Traitement Automatiquedes Langues (TAL) (Statistical Natural Language Processing) (voir Turney ampPantel 2010 pour un aperccedilu) Pour le franccedilais les travaux preacutecurseurs agrave la findes anneacutees 90 eacutetaient principalement consacreacutes agrave lrsquoapplication des meacutethodes dis-tributionnelles au traitement de corpus speacutecialiseacutes (Bouaud et al 1997 Habert ampZweigenbaum 2002) Eacutevoquons eacutegalement lrsquoorganisation drsquoune journeacutee ATALAen 1999 intituleacutee Approche distributionnelle de lrsquoanalyse seacutemantique (voir Fabreet al 2014a) Actuellement lrsquoanalyse distributionnelle est devenue un mode derepreacutesentation et drsquoexploitation incontournable dans les travaux sur le lexiqueet sur la seacutemantique lexicale (Fabre et al 2014b) comme en teacutemoignent lesdeux eacuteditions de lrsquoatelier laquo Seacutemantique Distributionnelle raquo SemDis 2013 (LesSables-drsquoOlonne) et SemDis 2014 (Marseille) Lrsquoeacutedition 2013 visait agrave rassemblerles eacutetudes et travaux sur le franccedilais dans le domaine de lrsquoanalyse distribu-tionnelle Lrsquoeacutedition 2014 permettait la confrontation de plusieurs meacutethodesdistributionnelles en proposant une tacircche compeacutetitive de substitution lexicalesur un corpus de taille importante et une tacircche exploratoire sur un petit corpusspeacutecialiseacute

22 Plusieurs approches et sous-types

Les meacutethodes drsquoanalyse distributionnelle srsquoappuient sur lrsquohypothegravese distribu-tionnelle (Firth 1957) selon laquelle des mots qui se trouvent dans des contextesdrsquoapparition similaires tendent agrave avoir des sens similaires Elles regroupent plu-sieurs approches et sous-types Trois dimensions sont importantes agrave cet effet letype de contexte le niveau drsquoanalyse et le mode de repreacutesentation computation-nelle

221 Type de contexte

Premiegraverement les meacutethodes et modegraveles diffegraverent en fonction du type decontexte pris en consideacuteration pour repreacutesenter le sens des mots On fait ladistinction entre les modegraveles dits laquo agrave base de documents raquo (document-based)et les modegraveles dits laquo agrave base de mots raquo (word-based) Dans les modegraveles agrave basede documents lrsquoanalyse seacutemantique drsquoun mot x srsquoappuie sur lrsquoobservationde lrsquooccurrence de x dans le contexte du document entier Les modegravelesanglosaxons originels sont des modegraveles agrave base de documents par exemplelrsquoanalyse seacutemantique latente (Latent Semantic Analysis ou LSA) (Landauer ampDumais 1997) Les modegraveles agrave base de mots par contre prennent comme pointde deacutepart lrsquooccurrence drsquoun mot x dans le contexte drsquoun autre mot Certainsmodegraveles agrave base de mots repreacutesentent chaque occurrence de x dans le corpuspar ses laquo cooccurrents graphiques raquo dans une fenecirctre de contexte donneacutee(Heylen Speelman amp Geeraerts 2012 Ferret 2010 2014 Bernier-Colborne 2014 Bertels amp Speelman 2013 2014 Peacuterinet amp Hamon 2014) Drsquoautres modegraveles agrave

54

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

Seacutemantique distributionnelle en linguistique de corpus

base de mots prennent en consideacuteration les relations de deacutependance syntaxiqueentre le mot x et ses laquo cooccurrents syntaxiques raquo (Morlane-Hondegravere 2013 Morardo amp Villemonte de La Clergerie 2013 Fabre et al 2014b) Les modegraveles agravebase de documents sont plus approprieacutes pour modeacuteliser des relations syntag-matiques et associatives par exemple entre meacutedecin et hocircpital ou entre voiture etrouler Les modegraveles agrave base de mots et plus particuliegraverement ceux qui srsquoappuientsur des informations de deacutependance syntaxique sont plus preacutecis et parviennentagrave mieux saisir des relations paradigmatiques comme les quasi-synonymeshocircpital et clinique (Sahlgren 2006) Certains travaux vont au-delagrave des contextesdrsquoapparition dans les textes (mots ou documents) pour inteacutegrer eacutegalement danslrsquoanalyse distributionnelle des laquo mots visuels raquo ou des images extraites agrave partirde techniques visuelles computationnelles ce qui aboutit agrave la laquo seacutemantiquedistributionnelle multimodale raquo (Bruni Tran amp Baroni 2014)

222 Niveau drsquoanalyse

Deuxiegravemement les modegraveles distributionnels permettent drsquoeacutetudier les motssoit au niveau des types (type-level) (Navigli 2012) soit au niveau des occurrencesindividuelles (token-level) (Dinu Thater amp Laue 2012) Les modegraveles au niveaudes types (type-level) tentent non seulement de distinguer un mot drsquoun autredans le but de deacutetecter la synonymie et les relations lexicales lieacutees (Curran ampMoens 2002) mais aussi de donner un aperccedilu des diffeacuterents sens drsquoun motpolyseacutemique (Bertels amp Speelman 2013) Or pour deacuteterminer le sens drsquouneseule occurrence particuliegravere les modegraveles au niveau des occurrences (token-level)essaient de distinguer un usage drsquoun mot donneacute drsquoun autre usage de ce mecircmemot pour ainsi eacutetudier sa polyseacutemie (Heylen et al 2014)

223 Repreacutesentation computationnelle

Troisiegravemement les modegraveles distributionnels diffegraverent en fonction du modede repreacutesentation computationnelle des donneacutees distributionnelles agrave savoir unerepreacutesentation sous forme de graphe (graph-based) (Morardo amp Villemonte de LaClergerie 2013 Desalle et al 2014 Claveau Kijak amp Ferret 2014) ou une repreacute-sentation vectorielle (vector-based) Les modegraveles vectoriels reposent sur la repreacute-sentation matricielle des mots dans un espace vectoriel Il srsquoagit par exempledrsquoune matrice mots times mots qui vise agrave caracteacuteriser les mots agrave partir de leurscooccurrents graphiques ou drsquoune matrice mots times relations de deacutependance quipermet de caracteacuteriser les mots en fonction de leurs cooccurrents syntaxiquesIl est important de reacuteduire le nombre eacuteleveacute de caracteacuteristiques contextuelles(context features) agrave un nombre limiteacute de laquo dimensions seacutemantiques raquo soit pour untraitement computationnel efficace (p ex Ferret 2010 2014) soit pour une visua-lisation qui permet aux chercheurs-linguistes drsquoacceacuteder plus facilement aux rela-tions seacutemantiques qui se deacutegagent (p ex Heylen Speelman amp Geeraerts 2012)Dans la description de lrsquoapplication lexicologique (cf sect 3) nous discutons enguise drsquoexemple la technique du positionnement multidimensionnel

Langages 201 55

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

La seacutemantique linguistique en vision peacuteripheacuterique

23 Explication deacutetailleacutee des principes de base

Pour expliquer les principes de base des modegraveles seacutemantiques distributionnelsnous recourons agrave un modegravele distributionnel particulier agrave savoir un modegravele agravebase de mots (word-based) qui considegravere les cooccurrents graphiques au niveaudes types (type-level) sous forme de repreacutesentation vectorielle (vector-based)Lrsquoapplication lexicologique discuteacutee dans la section suivante repose sur ce mecircmemodegravele

Nous faisons appel agrave un exemple pour eacutetudier trois mots-cibles agrave savoir chienchat et cafeacute dans un petit corpus laquo jouet raquo de six phrases-exemples

(1) Le chien aboie fort contre les passants(2) Le veacuteteacuterinaire prend le chien par le cou

(3) Le chat ronronne fort(4) Le veacuteteacuterinaire srsquoest fait griffer par le chat en le prenant

(5) On boit plus de cafeacute que de theacute(6) Le veacuteteacuterinaire prend sa tasse et boit son cafeacute

Ce petit corpus laquo jouet raquo peut ecirctre repreacutesenteacute sous forme de table de freacutequenceavec les mots-cibles en ligne et les caracteacuteristiques contextuelles ou les laquo mots-contextes raquo en colonne Nous recourons au modegravele le plus simple possibleie celui qui ignore les relations de deacutependance syntaxique et qui recense simple-ment les freacutequences absolues des noms verbes et adverbes Les freacutequences sontindiqueacutees dans la matrice de cooccurrence infra (cf Tableau 2) Le fait drsquoignorerles relations syntaxiques est qualifieacute drsquoapproche laquo sac de mots raquo (Bag-of-Wordsapproach) en recherche drsquoinformations Dans un exemple issu du monde reacuteel etdans un grand corpus il y a beaucoup plus de mots-contextes (dans les colonnes)geacuteneacuteralement plusieurs milliers et bien sucircr les freacutequences sont largement supeacute-rieures agrave 2

Tableau 2 Matrice de cooccurrence pour les mots-cibles chien chat et cafeacute

aboyer passant veacuteteacuterinaire prendre cou ronronner fort griffer boire plus theacute tasse

chien 1 1 1 1 1 0 1 0 0 0 0 0

chat 0 0 1 1 0 1 1 1 0 0 0 0

cafeacute 0 0 1 1 0 0 0 0 2 1 1 1

Les freacutequences de cooccurrence peuvent ecirctre interpreacuteteacutees comme les coordon-neacutees qui permettent de situer chien chat et cafeacute dans un espace seacutemantique mul-tidimensionnel ougrave chaque cooccurrent repreacutesente une dimension particuliegravereSi lrsquoon poursuit les explications dans cette meacutetaphore geacuteomeacutetrique on pourraeacutegalement calculer la distance entre deux mots dans cet espace seacutemantiquemultidimensionnel pour ainsi mesurer la distance entre leur sens En pratiqueon fait appel agrave lrsquoalgegravebre des vecteurs pour calculer la similariteacute entre les troismots-cibles En effet chaque mot-cible peut ecirctre repreacutesenteacute par le vecteur de

56

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

Seacutemantique distributionnelle en linguistique de corpus

ses cooccurrents ou mots-contextes Les donneacutees distributionnelles prennentdonc la forme drsquoun vecteur de cooccurrents Les mots-cibles qui partagent descooccurrents auront une repreacutesentation vectorielle semblable Une mesure desimilariteacute permet ensuite de comparer les vecteurs et de calculer leur distancedans lrsquoespace vectoriel La similariteacute entre les vecteurs des trois mots-cibles estcalculeacutee agrave partir du cosinus de lrsquoangle entre eux Le cosinus est une mesure desimilariteacute standard en seacutemantique distributionnelle (Bullinaria amp Levy 2007 Ferret 2010) Intuitivement on srsquoattend agrave ce que lrsquoangle entre deux conceptssimilaires (p ex chien et chat) soit plus petit que celui entre deux mots diffeacuterents(p ex chien et cafeacute) En drsquoautres termes quand les distributions de mots sont peusimilaires la valeur de similariteacute cosinus est infeacuterieure

cos(chien chat) = 055cos(chien cafeacute) = 027cos(chat cafeacute) = 030

Le reacutesultat correspond agrave lrsquointuition lsquochienrsquo et lsquochatrsquo se ressemblent le plus tandisque lsquochienrsquo et lsquocafeacutersquo partagent le moins de cooccurrences Il est agrave noter que lsquochienrsquoressemble un peu moins (027) agrave lsquocafeacutersquo que lsquochatrsquo (030) parce que lsquochienrsquo apparaicirctaussi avec lsquoaboyerrsquo et lsquopassantrsquo contrairement agrave lsquochatrsquo et lsquocafeacutersquo

Lrsquoimpleacutementation de cette technique aux exemples et au corpus du mondereacuteel ne srsquoappuie pas sur des freacutequences de cooccurrence absolues entre le mot-cible et ses cooccurrents Les cooccurrents les plus freacutequents ne donnent pasneacutecessairement le plus drsquoinformations sur la signification du mot-cible Agrave lrsquoinstardes travaux sur les collocations les meacutethodes drsquoanalyse distributionnelle srsquoap-puient sur des mesures drsquoassociation statistiques ce qui permet de donner plusde poids aux cooccurrents qui apparaissent significativement plus souvent avecle mot-cible qursquoattendu par le hasard Ces cooccurrents avec un poids plus eacuteleveacutefournissent plus drsquoinformations sur le sens du mot-cible que les autres cooccur-rents quelle que soit leur freacutequence absolue Dans lrsquoexemple avec le mot-ciblelsquochienrsquo le cooccurrent lsquoveacuteteacuterinairersquo est seacutemantiquement plus proche du conceptlaquo animal raquo que le mot lsquoprendrersquo bien qursquoil soit moins freacutequent Les mesuresdrsquoassociation qui sont utiliseacutees dans les modegraveles seacutemantiques distributionnelscomme fonctions de pondeacuteration sont emprunteacutees aux analyses de collocationsLes scheacutemas de pondeacuteration appliqueacutes dans cette eacutetude de cas reposent sur lamesure de lrsquoinformation mutuelle ponctuelle (Pointwise Mutual Information ouPMI) Les deacutetails techniques des mesures pour la pondeacuteration deacutepassent le cadredu preacutesent article mais on pourra se reacutefeacuterer agrave A Thanapoulos N Fakotakis etG Kokkinakis (2002) pour une comparaison de plusieurs mesures statistiquesPour calculer la valeur drsquoassociation on srsquoappuie sur les freacutequences de cooccur-rence recueillies dans un grand corpus Supposons que veacuteteacuterinaire a un poidscollocationnel de 43 srsquoil apparaicirct avec chien de 35 avec chat et de 08 aveccafeacute Ensuite le calcul de la similariteacute cosinus agrave partir des poids collocationnelsindique drsquoune part que chien et chat sont plus similaires que dans le calcul nonpondeacutereacute et drsquoautre part qursquoils sont moins similaires agrave cafeacute

Langages 201 57

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

La seacutemantique linguistique en vision peacuteripheacuterique

cos(chien chat) = 087cos(chien cafeacute) = 031cos(chat cafeacute) = 032

Le calcul pondeacutereacute de la similariteacute cosinus entre toutes les paires de mots-ciblespermet de geacuteneacuterer une matrice de similariteacute avec les mots-cibles tant dans leslignes que dans les colonnes et avec la valeur de similariteacute cosinus par pairede mots-cibles dans les cellules Les eacuteleacutements de la diagonale sont tous deslsquo1rsquo chaque mot-cible eacutetant complegravetement similaire agrave lui-mecircme La matrice estsymeacutetrique avec des valeurs identiques de part et drsquoautre de la diagonale parceque la similariteacute cosinus entre les mots A et B est identique agrave celle entre lesmots B et A Le Tableau 3 infra visualise les similariteacutes cosinus pour nos troismots-cibles exemples Dans un grand corpus du monde reacuteel on pourra trouverainsi pour chaque mot-cible le mot le plus similaire dans le reste du vocabulaireEacutetant donneacute que des mots tregraves similaires sont souvent des (quasi-)synonymesce type de matrice de similariteacute mot-par-mot est souvent utiliseacute en linguistiquecomputationnelle pour des tacircches drsquoextraction automatique de synonymes

Tableau 3 Matrice des valeurs de similariteacute cosinus

chat cafeacute chien

chat 1 032 087

cafeacute 032 1 031

chien 087 031 1

3 APPLICATION LEXICOLOGIQUE

Les meacutethodes drsquoanalyse distributionnelle se precirctent agrave diverses applicationslexicologiques et lexicographiques notamment la seacutelection automatique dephrases-exemples pour les dictionnaires (Cook et al 2013) lrsquoeacutetude diachroniquede la seacutemantique (Sagi Kaufmann amp Clark 2009 Perek 2014) et lrsquoeacutetude dela variation socio-linguistique (Peirsman Geeraerts amp Speelman 2010) Nouspreacutesentons infra une eacutetude de la polyseacutemie dans la langue speacutecialiseacutee Le modegraveledistributionnel expliqueacute dans la section preacuteceacutedente permet non seulement derecenser des (dis)similariteacutes seacutemantiques entre diffeacuterents mots tels que lsquochienrsquolsquochatrsquo et lsquocafeacutersquo mais eacutegalement drsquoexplorer les diffeacuterents sens drsquoun mot particulieragrave partir des (dis)similariteacutes seacutemantiques entre ses cooccurrents

Nous proceacutedons agrave lrsquoanalyse exploratoire de la polyseacutemie ou de lrsquoheacuteteacuterogeacute-neacuteiteacute seacutemantique du mot lsquotourrsquo dans un corpus technique relevant du domainespeacutecialiseacute des machines-outils pour lrsquousinage des meacutetaux (17 millions drsquooccur-rences) Ce mot a en effet plusieurs sens techniques dans ce corpus speacutecialiseacuteagrave savoir laquo machine-outil pour lrsquousinage des piegraveces raquo et laquo rotation raquo ainsi queplusieurs sens geacuteneacuteraux notamment dans les expressions tour drsquohorizon et agrave tourde rocircle Comme nous lrsquoavons indiqueacute supra (cf sect 2) la plupart des analyses en

58

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

Seacutemantique distributionnelle en linguistique de corpus

seacutemantique distributionnelle eacutetudient la proximiteacute seacutemantique entre mots enfonction des mots-contextes partageacutes Dans notre eacutetude lrsquoobjet drsquoanalyse se situeagrave un niveau supeacuterieur Les mots-cibles (cf Tableau 2) dont nous essayons drsquoeacutetu-dier les (dis)similariteacutes seacutemantiques sont les cooccurrents de lsquotourrsquo parce queceux-ci reflegravetent les diffeacuterents sens et usages de lsquotourrsquo dans le corpus techniqueNotre analyse consiste agrave regrouper les mots-cibles en fonction de leurs mots-contextes et agrave les positionner les uns par rapport aux autres en 2D Ces analysesde regroupement (clustering) et de visualisation (plotting) des cooccurrents per-mettent de cerner des groupes de cooccurrents seacutemantiquement lieacutes pour ainsiacceacuteder agrave la seacutemantique du mot lsquotourrsquo

Pour identifier les mots-cibles ou les cooccurrents pertinent de lsquotourrsquo ainsique leurs mots-contextes pertinents nous nous appuyons sur la mesure drsquoas-sociation de lrsquoinformation mutuelle speacutecifique ou Pointwise Mutual Information(PMI) Pour le regroupement et la visualisation des mots-cibles nous recouronsagrave lrsquoanalyse de positionnement multidimensionnel (MultiDimensional Scaling ouMDS) (Kruskal amp Wish 1978 Cox amp Cox 2001 Venables amp Ripley 2002 Borg ampGroenen 2005) La technique de MDS 3 est impleacutementeacutee dans le logiciel drsquoanalysestatistique R 4 Dans nos analyses nous utilisons le positionnement non meacutetriqueisoMDS Cette technique permet drsquoanalyser une matrice pour un ensemble dedonneacutees disposeacutees en ligne (ici les mots-cibles) agrave partir de leurs valeurs pourplusieurs variables disposeacutees en colonne (ici les mots-contextes) (cf Tableau 4)Dans un premier temps ces valeurs sont les valeurs drsquoassociation PMI entreun mot-cible et un mot-contexte avec lequel il apparaicirct Cela permet de geacuteneacute-rer un vecteur par mot-cible avec toutes les valeurs drsquoassociation avec tous sesmots-contextes Au cas ougrave cette matrice serait trop creuse nous pourrions enri-chir les donneacutees en faisant appel aux cooccurrents des mots-contextes Pour lesdeacutetails sur lrsquoenrichissement de la matrice on pourra se reacutefeacuterer agrave A Bertels etD Speelman (2013) Dans un deuxiegraveme temps le calcul pondeacutereacute de la similariteacutecosinus entre toutes les paires de mots-cibles permet de geacuteneacuterer une matrice desimilariteacute agrave lrsquoinstar du Tableau 3

3 Le MDS est une meacutethode drsquoanalyse multivarieacutee descriptive comme lrsquoanalyse factorielle des correspon-dances (AFC) ou lrsquoanalyse en composantes principales (ACP) Agrave la diffeacuterence de ces techniques le MDSpermet drsquoanalyser tout type de matrice de (dis)similariteacute si les (dis)similariteacutes sont eacutevidentes Le MDS nrsquoim-pose pas de restrictions telles que des relations lineacuteaires entre les donneacutees sous-jacentes leur distributionnormale multivarieacutee ou la matrice de correacutelation [httpwwwstatsoftcomtextbookstmulscahtml]

4 R [wwwr-projectorg]

Langages 201 59

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

La seacutemantique linguistique en vision peacuteripheacuterique

Tableau 4 Matrice de cooccurrence pondeacutereacutee mots-cibles par mots-contextes

minute par commande broche

millevaleur drsquoassociation (PMI)

entre mille et minutePMI

numeacuterique PMI

inverseacute PMI

horizon

La matrice de similariteacute est ensuite soumise agrave une analyse de positionnementmultidimensionnel qui consiste agrave regrouper les mots-cibles ou les cooccurrentsde lsquotourrsquo en fonction des valeurs drsquoassociation similaires avec des mots-contextessimilaires et agrave visualiser ces proximiteacutes et distances seacutemantiques en 2D Cettevisualisation permettra aux chercheurs-linguistes non-informaticiens drsquoacceacutederagrave la seacutemantique du mot lsquotourrsquo

Dans la Figure 1 infra la reacutepartition des mots-cibles repreacutesente bien le carac-tegravere seacutemantiquement heacuteteacuterogegravene de lsquotourrsquo Les proximiteacutes et les distances seacuteman-tiques montrent quelques mots-cibles isoleacutes et quelques groupes de mots-ciblesseacutemantiquement lieacutes Les mots-cibles peacuteripheacuteriques pointent vers des sens par-ticuliers agrave savoir horizon (sens geacuteneacuteral dans laquo tour drsquohorizon raquo) et mille (senstechnique dans laquo mille tours par minute raquo) Dans la partie supeacuterieure agrave droiteon retrouve des mots-cibles qui attestent le sens technique particulier laquo tourinverseacute raquo avec inverseacutes inverseacute et bibroches Le nuage de mots-cibles dans lapartie infeacuterieure agrave gauche visualise le sens technique laquo machine-outil pour lrsquousi-nage des piegraveces raquo La preacutesence de plusieurs petits regroupements de mots-ciblesteacutemoigne de la variation des contextes drsquoapparition On observe un contextespeacutecialiseacute laquo tour (agrave) deux broches raquo agrave gauche en bas axes broches broche outilsdeux trois centres et mecircme au milieu vertical et verticaux Agrave gauche au milieu onretrouve commande numeacuterique CNC gamme seacuterie type et quelques mots-ciblesmoins speacutecialiseacutes Les mots-cibles plus geacuteneacuteraux comme manutention ligne geacuteneacute-rale production et conception se retrouvent dans la partie supeacuterieure de ce nuageet font preuve drsquoun contexte drsquoapparition plus geacuteneacuteral

60

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

Seacutemantique distributionnelle en linguistique de corpus

Figure 1 Visualisation des mots-cibles ou cooccurrents de lsquotourrsquo

4 CONCLUSION

Dans cet article nous avons preacutesenteacute les possibiliteacutes de la modeacutelisation seacuteman-tique distributionnelle pour les analyses linguistiques Gracircce agrave la disponibiliteacutede vastes corpus eacutelectroniques les lexicologues et lexicographes disposent denos jours drsquoune eacutenorme base de donneacutees empirique Pour analyser cette abon-dance de donneacutees ils pourront recourir agrave des outils drsquoanalyse statistique et agravedes meacutethodes drsquoanalyse distributionnelle qui leur permettront notamment derepeacuterer des patrons et motifs

Les meacutethodes drsquoanalyse distributionnelle srsquoappuient sur lrsquohypothegravese distri-butionnelle selon laquelle des mots qui se trouvent dans des contextes drsquoappa-rition similaires tendent agrave avoir des sens similaires Elles regroupent plusieursapproches et sous-types en fonction du type de contexte du niveau drsquoanalyse etdu mode de repreacutesentation computationnelle des donneacutees Nous avons expliqueacuteles principes de base de ces modegraveles agrave partir drsquoun modegravele distributionnel par-ticulier relativement intuitif pour des linguistes agrave savoir un modegravele agrave base de

Langages 201 61

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

La seacutemantique linguistique en vision peacuteripheacuterique

mots qui considegravere les cooccurrents graphiques au niveau des types sous formede repreacutesentation vectorielle Ce modegravele distributionnel permet non seulementde recenser des (dis)similariteacutes seacutemantiques entre diffeacuterents mots tels que lesexemples-jouets lsquochienrsquo lsquochatrsquo et lsquocafeacutersquo mais eacutegalement drsquoexplorer les diffeacuterentssens drsquoun mot particulier agrave partir des (dis)similariteacutes seacutemantiques entre ses cooc-currents Agrave titre drsquoexemple nous avons discuteacute une application lexicologiquequi consistait agrave regrouper les mots-cibles ou les cooccurrents du mot techniquelsquotourrsquo en fonction des valeurs drsquoassociation similaires avec des mots-contextessimilaires Ces proximiteacutes et distances seacutemantiques sont visualiseacutees en 2D pourpermettre aux chercheurs-linguistes non-informaticiens drsquoacceacuteder agrave la seacuteman-tique du mot lsquotourrsquo

Lrsquoobjectif de cet article eacutetait de montrer lrsquoutiliteacute des modegraveles seacutemantiquesdistributionnels pour les linguistes lexicologues et lexicographes agrave lrsquoaide drsquounepreacutesentation non technique des principes de base et drsquoune application lexicolo-gique concregravete Comme les diffeacuterentes approches et les nombreux sous-types demodegraveles le suggegraverent des recherches futures devront srsquoatteler agrave la mise au pointdes nombreux paramegravetres pour aboutir au modegravele qui soit le mieux adapteacute auxbesoins speacutecifiques de la recherche lexicologique ou lexicographique neacutecessaire

Reacutefeacuterences

BERNIER-COLBORNE G (2014) laquo Analyse distributionnelle de corpus speacutecialiseacutes pour lrsquoidentifica-tion de relations lexico-seacutemantiques raquo Actes du 21e Traitement Automatique des LanguesNaturelles (TALN2014) Atelier SemDis 2014 Marseille France 238-251

BERTELS A amp SPEELMAN D (2013) laquo Exploration seacutemantique visuelle agrave partir des cooccurrencesde deuxiegraveme et troisiegraveme ordre raquo Actes du 20e Traitement Automatique des LanguesNaturelles (TALN2013) Atelier SemDis 2013 Les Sables-drsquoOlonne France 126-139

BERTELS A amp SPEELMAN D (2014) laquo Analyse de positionnement multidimensionnel sur lecorpus speacutecialiseacute TALN raquo Actes du 21e Traitement Automatique des Langues Naturelles(TALN2014) Atelier SemDis 2014 Marseille France 252-265

BORG I amp GROENEN P (20052) Modern Multidimensional Scaling theory and applications NewYork Springer-Verlag

BOUAUD J et al (1997) laquo Regroupements issus de deacutependances syntaxiques en corpus cateacute-gorisation et confrontation agrave deux modeacutelisations conceptuelles raquo Actes des 1res journeacuteesIngeacutenierie des Connaissances Roskoff France 207-223

BRUNI E TRAN N K amp BARONI M (2014) ldquoMultimodal Distributional Semanticsrdquo Journal ofArtificial Intelligence Research 49 (1) 1-47

BULLINARIA J A amp LEVY J P (2007) ldquoExtracting Semantic Representations from Word Co-occurrence Statistics A Computational Studyrdquo Behavior Research Methods 39 510-526

CHURCH K W amp HANKS P (1989) ldquoWord association norms mutual information and lexico-graphyrdquo Proceedings of the 27th Annual Conference of the Association of ComputationalLinguistics Vancouver British Columbia 76-83

CLAVEAU V KIJAK E amp FERRET O (2014) laquo Explorer le graphe de voisinage pour ameacuteliorer lestheacutesaurus distributionnels raquo Actes du 21e Traitement Automatique des Langues Naturelles(TALN2014) Marseille France 220-231

62

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

Seacutemantique distributionnelle en linguistique de corpus

COOK P et al (2013) ldquoA lexicographic appraisal of an automatic approach for detecting newword-sensesrdquo Proceedings of the eLex 2013 Conference Tallinn Estonia 49-65

COX T F amp COX M A A (2001) Multidimensional Scaling Boca Raton (FL) Chapman amp Hall

CURRAN J R amp MOENS M (2002) ldquoImprovements in automatic thesaurus extractionrdquoProceedings of the ACL-02 Workshop on Unsupervised Lexical Acquisition Vol 9Stroudsburg (PA) USA 59-66

DESALLE Y et al (2014) laquo BACANAL Balades Aleacuteatoires Courtes pour ANAlyses LexicalesApplication agrave la substitution lexicale raquo Actes du 21e Traitement Automatique des LanguesNaturelles (TALN2014) Atelier SemDis 2014 Marseille France 206-217

DINU G THATER S amp LAUE S (2012) ldquoA comparison of models of word meaning in contextrdquoProceedings of the 2012 Conference of the North American Chapter of the Association forComputational Linguistics Human Language Technologies Atlanta (GA) USA 611-615

EVERT S (2004) The Statistics of Word Cooccurrences Word Pairs and CollocationsDissertation Institut fuumlr maschinelle Sprachverarbeitung University of Stuttgart

FABRE C et al (2014a) laquo Preacutesentation de lrsquoatelier SemDis 2014 seacutemantique distributionnellepour la substitution lexicale et lrsquoexploration de corpus speacutecialiseacutes raquo Actes du 21e TraitementAutomatique des Langues Naturelles (TALN2014) Atelier SemDis 2014 Marseille France196-205

FABRE C et al (2014b) laquo Ajuster lrsquoanalyse distributionnelle agrave un corpus speacutecialiseacute de petitetaille raquo Actes du 21e Traitement Automatique des Langues Naturelles (TALN2014) AtelierSemDis 2014 Marseille France 266-279

FERRET O (2010) laquo Similariteacute seacutemantique et extraction de synonymes agrave partir de corpus raquoActes du 17e Traitement Automatique des Langues Naturelles (TALN2010) MontreacutealCanada [httpwwwiroumontrealcasimfelipeTALN2010XmlPapersalltaln2010_submission_77pdf]

FERRET O (2014) laquo Utiliser un modegravele neuronal geacuteneacuterique pour la substitution lexicale raquo Actesdu 21e Traitement Automatique des Langues Naturelles (TALN2014) Atelier SemDis 2014Marseille France 218-227

FIRTH J R (1957) Papers in Linguistics 1934-1951 Oxford Oxford University Press

GEERAERTS D (2010) Theories of Lexical Semantics OxfordNew York Oxford University Press

GLYNN D (2010) ldquoTesting the Hypothesis Objectivity and Verification in Usage-Based CognitiveSemanticsrdquo in D Glynn amp K Fischer (eds) Quantitative Methods in Cognitive SemanticsCorpus-driven approaches BerlinNew York Mouton de Gruyter 239-270

HABERT B amp ZWEIGENBAUM P (2002) ldquoContextual acquisition of information categories whathas been done and what can be done automaticallyrdquo in B Nevin amp S Johnson (eds) TheLegacy of Zellig Harris Language and information into the 21st century Amsterdam JohnBenjamins 203-231

HARRIS Z (1954) ldquoDistributional structurerdquo Word 10 (23) 146-162

HEYLEN K et al (2014) ldquoMonitoring Polysemy Word Space Models as a Tool for Large-ScaleLexical Semantic Analysisrdquo Lingua International Review of General Linguistics 157 153-172

HEYLEN K SPEELMAN D amp GEERAERTS D (2012) ldquoLooking at word meaning An interactivevisualization of Semantic Vector Spaces for Dutch synsetsrdquo Proceedings of the EACL 2012Joint Workshop of LINGVIS et UNCLH Avignon France 16-24

KRUSKAL J B amp WISH M (1978) Multidimensional Scaling Sage University Paper series onQuantitative Applications in the Social Sciences number 07-011 Newbury Park (CA) SagePublications

Langages 201 63

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

La seacutemantique linguistique en vision peacuteripheacuterique

LANDAUER T K amp DUMAIS S T (1997) ldquoA solution to Platorsquos problem The latent semanticanalysis theory of acquisition induction and representation of knowledgerdquo PsychologicalReview 104 (2) 211-240

LUND K amp BURGESS C (1996) ldquoProducing high-dimensional semantic spaces from lexical co-occurrencerdquo Behavior Research Methods Instrumentation and Computers 28 203-208

MORARDO M amp VILLEMONTE DE LA CLERGERIE Eacute (2013) laquo Vers un environnement de production etde validation de ressources lexicales seacutemantiques raquo Actes du 20e Traitement Automatiquedes Langues Naturelles (TALN2013) Atelier SemDis 2013 Les Sables-drsquoOlonne France167-180

MORLANE-HONDEgraveRE F (2013) laquo Utiliser une base distributionnelle pour filtrer un dictionnaire desynonymes raquo Actes du 20e Traitement Automatique des Langues Naturelles (TALN2013)Atelier SemDis 2013 Les Sables-drsquoOlonne France 112-125

NAVIGLI R (2012) ldquoA Quick Tour of Word Sense Disambiguation Induction and RelatedApproachesrdquo Proceedings of the 38th Conference on Current Trends in Theory and Practiceof Computer Science (SOFSEM) Spindleruv Mlyn Czech Republic 115-129

PEIRSMAN Y GEERAERTS D amp SPEELMAN D (2010) ldquoThe automatic identification of lexical variationbetween language varietiesrdquo Natural Language Engineering 16 (4) 469-491

PEREK F (2014) ldquoVector spaces for historical linguistics Using distributional semantics tostudy syntactic productivity in diachrony raquo Proceedings of the 52nd Annual Meeting of theAssociation for Computational Linguistics Baltimore USA 309-314

PEacuteRINET A amp HAMON T (2014) laquo Analyse et proposition de paramegravetres distributionnels adapteacutesaux corpus de speacutecialiteacute raquo Actes des 12e Journeacutees internationales drsquoAnalyse statistiquedes Donneacutees Textuelles (JADT 2014) Paris France 507-518

SAGI E KAUFMANN S amp CLARK B (2009) ldquoSemantic density analysis Comparing word meaningacross time and phonetic spacerdquo Proceedings of the EACL 2009 Workshop on GEMSAthens Greece 104-111

SAHLGREN M (2006) The Word-Space Model Using distributional analysis to represent syntag-matic and paradigmatic relations between words in high-dimensional vector spaces PhDThesis Department of Linguistics Stockholm University

SINCLAIR J (1991) Corpus Concordance Collocation Oxford Oxford University Press

THANOPOULOS A FAKOTAKIS N amp KOKKINAKIS G (2002) ldquoComparative Evaluation of CollocationExtraction Metricsrdquo Proceedings of the 3rd Language Resources Evaluation ConferenceLas Palmas Spain 620-625

TURNEY P D amp PANTEL P (2010) ldquoFrom Frequency to Meaning Vector Space Models ofSemanticsrdquo Journal of Artificial Intelligence Research 37 (1) 141-188

VENABLES W N amp RIPLEY B D (20024) Modern Applied Statistics with S New York Springer-Verlag

WEAVER W (1955) ldquoTranslationrdquo in W N Locke amp A D Booth (eds) Machine Translation ofLanguages Cambridge (MA) The MIT Press 15-23

WIECHMANN D (2008) ldquoOn the Computation of Collostruction Strengthrdquo Corpus Linguistics andLinguistic Theory 4 (2) 253-290

64

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

La seacutemantique linguistique en vision peacuteripheacuterique

La premiegravere approche ie lrsquoidentification drsquoindices contextuels agrave partir demeacutethodes statistiques a eacuteteacute associeacutee agrave la tradition britannique en linguistiquede corpus Creacuteeacutee par J Sinclair (1991) cette approche consistait agrave deacutecrire lasignification lexicale drsquoun mot en fonction des mots typiques (collocations) etdes patrons syntaxiques (colligations) avec lesquels il apparaicirct K Church etP Hanks (1989) ont introduit des mesures statistiques notamment le t-scorepour identifier les collocations et colligations pertinentes et informatives agrave partirdes distributions de freacutequence dans un texte Par la suite ces mesures ont eacuteteacutemises au point et optimiseacutees 2 Aujourdrsquohui elles sont largement utiliseacutees dansplusieurs sous-disciplines linguistiques

La deuxiegraveme approche agrave savoir le regroupement statistique drsquousages esttregraves preacutesente dans les reacutecents deacuteveloppements en Seacutemantique Cognitive Plusparticuliegraverement lrsquoapproche du Behavioural Profile a reacutecemment introduit destechniques statistiques multivarieacutees pour classer automatiquement les occur-rences drsquoun mot en plusieurs sens et usages distinctifs agrave partir des donneacuteesde corpus D Glynn (2010) recourt agrave lrsquoanalyse factorielle des correspondances(AFC) pour visualiser comment les occurrences du verbe to bother (lsquodeacuterangerrsquo)sont regroupeacutees en usages distincts en fonction de leur comportement syntaxiqueou de leurs caracteacuteristiques seacutemantiques comme par exemple laquo affect raquo

Ces deux approches ont eacuteteacute utiliseacutees indeacutependamment lrsquoune de lrsquoautre dansces traditions diffeacuterentes Les analyses de collocations ont automatiseacute le repeacuteragedrsquoindices contextuels au moyen drsquoanalyses statistiques mais elles confient laclassification des occurrences et des contextes typiques agrave lrsquoanalyse manuelle Parcontre les analyses de profils comportementaux (behavioural profiles) ont proceacutedeacuteagrave lrsquoautomatisation statistique de la classification des occurrences et contextestypiques drsquoun lexegraveme en diffeacuterents sens mais elles srsquoappuient principalementsur des donneacutees ougrave les indices contextuels ont eacuteteacute encodeacutes manuellement LeTableau 1 infra propose un aperccedilu des diffeacuterentes approches en seacutemantiquelexicale et indique si le repeacuterage des indices contextuels et des sens se faitmanuellement ou par le biais drsquoanalyses statistiques Il est clair que les eacutetudesen philologie classique reacutealisaient les deux eacutetapes manuellement Les eacutetudesde collocations drsquoune part et les analyses de profils comportementaux drsquoautrepart ont automatiseacute une seule des deux eacutetapes Dans cet article nous preacutesen-tons les meacutethodes drsquoanalyse distributionnelle que nous consideacuterons comme uneextension logique de lrsquoeacutetat de lrsquoart statistique sur lequel srsquoappuient les analysesseacutemantiques lexicales Les meacutethodes drsquoanalyse distributionnelle combinent defaccedilon systeacutematique des mesures drsquoassociation et des meacutethodes statistiques mul-tivarieacutees dans le but drsquoexplorer des structures seacutemantiques lexicales dans descorpus textuels de taille importante De ce fait elles permettent de compleacuteterle motif qui se deacutegage dans la preacutesentation des outils statistiques utiliseacutes enseacutemantique lexicale (cf Tableau 1)

2 Voir Evert (2004) et Wiechmann (2008) pour un aperccedilu

52

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

Seacutemantique distributionnelle en linguistique de corpus

Tableau 1 Aperccedilu des outils statistiques utiliseacutes en seacutemantique lexicale

Identification drsquoindicescontextuels

Classificationdrsquooccurrences

Philologie classique manuelle manuelle

Analyse de collocations statistique manuelle

Analyse de profilscomportementaux

manuelle statistique

Meacutethodes drsquoanalysedistributionnelle

statistique statistique

Lrsquointroduction de meacutethodes statistiques dans les deux eacutetapes du processus drsquoana-lyse de donneacutees constitue une extension logique voire indispensable et cecipour deux raisons Premiegraverement les lexicologues et lexicographes pourrontbeacuteneacuteficier du soutien suppleacutementaire des techniques pour le repeacuterage de patronsstatistiques parce qursquoil leur permet de faire face agrave lrsquoabondance de donneacutees aux-quelles ils sont confronteacutes dans leurs travaux descriptifs Il est tout simplementimpossible drsquoencoder manuellement de classer et de deacutecrire plusieurs milliersde concordances drsquoun lexegraveme Les analyses de donneacutees statistiques pourrontaider agrave preacutelever un eacutechantillon repreacutesentatif de diffeacuterents usages qui pourra parla suite faire lrsquoobjet drsquoanalyses plus approfondies Deuxiegravemement la disponi-biliteacute de Big Data ou de gros volumes de donneacutees suggegravere une extension de lafocalisation traditionnelle du travail lexicologique et lexicographique Un envi-ronnement Big Data permet aux chercheurs drsquoexaminer des tendances et motifsqursquoils ne deacutegageraient pas en analysant de petits corpus comme par exemplela reacutepartition de nouveaux mots ou de nouveaux usages de mots existants agravetravers les reacuteseaux sociaux Pour deacutetecter ce type de tendances les techniques defouilles de donneacutees sont indispensables et requiegraverent un recours aux techniquesquantitatives approprieacutees

Dans cet article nous proceacutedons drsquoabord agrave une preacutesentation non techniquedes meacutethodes drsquoanalyse distributionnelle pour la modeacutelisation seacutemantique dis-tributionnelle (sect 2) Pour diffeacuterentes approches et sous-types nous preacutesentonsles caracteacuteristiques principales et les reacutefeacuterences les plus importantes et nousexpliquons les principes de lrsquoanalyse distributionnelle agrave partir drsquoun modegravele dis-tributionnel particulier Ensuite nous discutons une application lexicologiquepour lrsquoanalyse de la polyseacutemie (sect 3) Finalement nous preacutesentons une meacutethodede visualisation qui permet aux experts humains drsquointerpreacuteter les structuresseacutemantiques cerneacutees par les modegraveles seacutemantiques distributionnels (sect 4)

2 MEacuteTHODES DrsquoANALYSE DISTRIBUTIONNELLE

21 Historique

Les meacutethodes drsquoanalyse distributionnelle aussi appeleacutees modegraveles seacutemantiquesdistributionnels (Word Space Models) eacutetaient initialement utiliseacutees en Psychologie

Langages 201 53

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

La seacutemantique linguistique en vision peacuteripheacuterique

Cognitive pour modeacuteliser la meacutemoire lexicale (Landauer amp Dumais 1997 Lund amp Burgess 1996) Ensuite elles ont eacuteteacute deacuteveloppeacutees en LinguistiqueComputationnelle ougrave elles sont maintenant largement reacutepandues pour modeacute-liser lrsquoanalyse seacutemantique dans le domaine du Traitement Automatiquedes Langues (TAL) (Statistical Natural Language Processing) (voir Turney ampPantel 2010 pour un aperccedilu) Pour le franccedilais les travaux preacutecurseurs agrave la findes anneacutees 90 eacutetaient principalement consacreacutes agrave lrsquoapplication des meacutethodes dis-tributionnelles au traitement de corpus speacutecialiseacutes (Bouaud et al 1997 Habert ampZweigenbaum 2002) Eacutevoquons eacutegalement lrsquoorganisation drsquoune journeacutee ATALAen 1999 intituleacutee Approche distributionnelle de lrsquoanalyse seacutemantique (voir Fabreet al 2014a) Actuellement lrsquoanalyse distributionnelle est devenue un mode derepreacutesentation et drsquoexploitation incontournable dans les travaux sur le lexiqueet sur la seacutemantique lexicale (Fabre et al 2014b) comme en teacutemoignent lesdeux eacuteditions de lrsquoatelier laquo Seacutemantique Distributionnelle raquo SemDis 2013 (LesSables-drsquoOlonne) et SemDis 2014 (Marseille) Lrsquoeacutedition 2013 visait agrave rassemblerles eacutetudes et travaux sur le franccedilais dans le domaine de lrsquoanalyse distribu-tionnelle Lrsquoeacutedition 2014 permettait la confrontation de plusieurs meacutethodesdistributionnelles en proposant une tacircche compeacutetitive de substitution lexicalesur un corpus de taille importante et une tacircche exploratoire sur un petit corpusspeacutecialiseacute

22 Plusieurs approches et sous-types

Les meacutethodes drsquoanalyse distributionnelle srsquoappuient sur lrsquohypothegravese distribu-tionnelle (Firth 1957) selon laquelle des mots qui se trouvent dans des contextesdrsquoapparition similaires tendent agrave avoir des sens similaires Elles regroupent plu-sieurs approches et sous-types Trois dimensions sont importantes agrave cet effet letype de contexte le niveau drsquoanalyse et le mode de repreacutesentation computation-nelle

221 Type de contexte

Premiegraverement les meacutethodes et modegraveles diffegraverent en fonction du type decontexte pris en consideacuteration pour repreacutesenter le sens des mots On fait ladistinction entre les modegraveles dits laquo agrave base de documents raquo (document-based)et les modegraveles dits laquo agrave base de mots raquo (word-based) Dans les modegraveles agrave basede documents lrsquoanalyse seacutemantique drsquoun mot x srsquoappuie sur lrsquoobservationde lrsquooccurrence de x dans le contexte du document entier Les modegravelesanglosaxons originels sont des modegraveles agrave base de documents par exemplelrsquoanalyse seacutemantique latente (Latent Semantic Analysis ou LSA) (Landauer ampDumais 1997) Les modegraveles agrave base de mots par contre prennent comme pointde deacutepart lrsquooccurrence drsquoun mot x dans le contexte drsquoun autre mot Certainsmodegraveles agrave base de mots repreacutesentent chaque occurrence de x dans le corpuspar ses laquo cooccurrents graphiques raquo dans une fenecirctre de contexte donneacutee(Heylen Speelman amp Geeraerts 2012 Ferret 2010 2014 Bernier-Colborne 2014 Bertels amp Speelman 2013 2014 Peacuterinet amp Hamon 2014) Drsquoautres modegraveles agrave

54

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

Seacutemantique distributionnelle en linguistique de corpus

base de mots prennent en consideacuteration les relations de deacutependance syntaxiqueentre le mot x et ses laquo cooccurrents syntaxiques raquo (Morlane-Hondegravere 2013 Morardo amp Villemonte de La Clergerie 2013 Fabre et al 2014b) Les modegraveles agravebase de documents sont plus approprieacutes pour modeacuteliser des relations syntag-matiques et associatives par exemple entre meacutedecin et hocircpital ou entre voiture etrouler Les modegraveles agrave base de mots et plus particuliegraverement ceux qui srsquoappuientsur des informations de deacutependance syntaxique sont plus preacutecis et parviennentagrave mieux saisir des relations paradigmatiques comme les quasi-synonymeshocircpital et clinique (Sahlgren 2006) Certains travaux vont au-delagrave des contextesdrsquoapparition dans les textes (mots ou documents) pour inteacutegrer eacutegalement danslrsquoanalyse distributionnelle des laquo mots visuels raquo ou des images extraites agrave partirde techniques visuelles computationnelles ce qui aboutit agrave la laquo seacutemantiquedistributionnelle multimodale raquo (Bruni Tran amp Baroni 2014)

222 Niveau drsquoanalyse

Deuxiegravemement les modegraveles distributionnels permettent drsquoeacutetudier les motssoit au niveau des types (type-level) (Navigli 2012) soit au niveau des occurrencesindividuelles (token-level) (Dinu Thater amp Laue 2012) Les modegraveles au niveaudes types (type-level) tentent non seulement de distinguer un mot drsquoun autredans le but de deacutetecter la synonymie et les relations lexicales lieacutees (Curran ampMoens 2002) mais aussi de donner un aperccedilu des diffeacuterents sens drsquoun motpolyseacutemique (Bertels amp Speelman 2013) Or pour deacuteterminer le sens drsquouneseule occurrence particuliegravere les modegraveles au niveau des occurrences (token-level)essaient de distinguer un usage drsquoun mot donneacute drsquoun autre usage de ce mecircmemot pour ainsi eacutetudier sa polyseacutemie (Heylen et al 2014)

223 Repreacutesentation computationnelle

Troisiegravemement les modegraveles distributionnels diffegraverent en fonction du modede repreacutesentation computationnelle des donneacutees distributionnelles agrave savoir unerepreacutesentation sous forme de graphe (graph-based) (Morardo amp Villemonte de LaClergerie 2013 Desalle et al 2014 Claveau Kijak amp Ferret 2014) ou une repreacute-sentation vectorielle (vector-based) Les modegraveles vectoriels reposent sur la repreacute-sentation matricielle des mots dans un espace vectoriel Il srsquoagit par exempledrsquoune matrice mots times mots qui vise agrave caracteacuteriser les mots agrave partir de leurscooccurrents graphiques ou drsquoune matrice mots times relations de deacutependance quipermet de caracteacuteriser les mots en fonction de leurs cooccurrents syntaxiquesIl est important de reacuteduire le nombre eacuteleveacute de caracteacuteristiques contextuelles(context features) agrave un nombre limiteacute de laquo dimensions seacutemantiques raquo soit pour untraitement computationnel efficace (p ex Ferret 2010 2014) soit pour une visua-lisation qui permet aux chercheurs-linguistes drsquoacceacuteder plus facilement aux rela-tions seacutemantiques qui se deacutegagent (p ex Heylen Speelman amp Geeraerts 2012)Dans la description de lrsquoapplication lexicologique (cf sect 3) nous discutons enguise drsquoexemple la technique du positionnement multidimensionnel

Langages 201 55

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

La seacutemantique linguistique en vision peacuteripheacuterique

23 Explication deacutetailleacutee des principes de base

Pour expliquer les principes de base des modegraveles seacutemantiques distributionnelsnous recourons agrave un modegravele distributionnel particulier agrave savoir un modegravele agravebase de mots (word-based) qui considegravere les cooccurrents graphiques au niveaudes types (type-level) sous forme de repreacutesentation vectorielle (vector-based)Lrsquoapplication lexicologique discuteacutee dans la section suivante repose sur ce mecircmemodegravele

Nous faisons appel agrave un exemple pour eacutetudier trois mots-cibles agrave savoir chienchat et cafeacute dans un petit corpus laquo jouet raquo de six phrases-exemples

(1) Le chien aboie fort contre les passants(2) Le veacuteteacuterinaire prend le chien par le cou

(3) Le chat ronronne fort(4) Le veacuteteacuterinaire srsquoest fait griffer par le chat en le prenant

(5) On boit plus de cafeacute que de theacute(6) Le veacuteteacuterinaire prend sa tasse et boit son cafeacute

Ce petit corpus laquo jouet raquo peut ecirctre repreacutesenteacute sous forme de table de freacutequenceavec les mots-cibles en ligne et les caracteacuteristiques contextuelles ou les laquo mots-contextes raquo en colonne Nous recourons au modegravele le plus simple possibleie celui qui ignore les relations de deacutependance syntaxique et qui recense simple-ment les freacutequences absolues des noms verbes et adverbes Les freacutequences sontindiqueacutees dans la matrice de cooccurrence infra (cf Tableau 2) Le fait drsquoignorerles relations syntaxiques est qualifieacute drsquoapproche laquo sac de mots raquo (Bag-of-Wordsapproach) en recherche drsquoinformations Dans un exemple issu du monde reacuteel etdans un grand corpus il y a beaucoup plus de mots-contextes (dans les colonnes)geacuteneacuteralement plusieurs milliers et bien sucircr les freacutequences sont largement supeacute-rieures agrave 2

Tableau 2 Matrice de cooccurrence pour les mots-cibles chien chat et cafeacute

aboyer passant veacuteteacuterinaire prendre cou ronronner fort griffer boire plus theacute tasse

chien 1 1 1 1 1 0 1 0 0 0 0 0

chat 0 0 1 1 0 1 1 1 0 0 0 0

cafeacute 0 0 1 1 0 0 0 0 2 1 1 1

Les freacutequences de cooccurrence peuvent ecirctre interpreacuteteacutees comme les coordon-neacutees qui permettent de situer chien chat et cafeacute dans un espace seacutemantique mul-tidimensionnel ougrave chaque cooccurrent repreacutesente une dimension particuliegravereSi lrsquoon poursuit les explications dans cette meacutetaphore geacuteomeacutetrique on pourraeacutegalement calculer la distance entre deux mots dans cet espace seacutemantiquemultidimensionnel pour ainsi mesurer la distance entre leur sens En pratiqueon fait appel agrave lrsquoalgegravebre des vecteurs pour calculer la similariteacute entre les troismots-cibles En effet chaque mot-cible peut ecirctre repreacutesenteacute par le vecteur de

56

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

Seacutemantique distributionnelle en linguistique de corpus

ses cooccurrents ou mots-contextes Les donneacutees distributionnelles prennentdonc la forme drsquoun vecteur de cooccurrents Les mots-cibles qui partagent descooccurrents auront une repreacutesentation vectorielle semblable Une mesure desimilariteacute permet ensuite de comparer les vecteurs et de calculer leur distancedans lrsquoespace vectoriel La similariteacute entre les vecteurs des trois mots-cibles estcalculeacutee agrave partir du cosinus de lrsquoangle entre eux Le cosinus est une mesure desimilariteacute standard en seacutemantique distributionnelle (Bullinaria amp Levy 2007 Ferret 2010) Intuitivement on srsquoattend agrave ce que lrsquoangle entre deux conceptssimilaires (p ex chien et chat) soit plus petit que celui entre deux mots diffeacuterents(p ex chien et cafeacute) En drsquoautres termes quand les distributions de mots sont peusimilaires la valeur de similariteacute cosinus est infeacuterieure

cos(chien chat) = 055cos(chien cafeacute) = 027cos(chat cafeacute) = 030

Le reacutesultat correspond agrave lrsquointuition lsquochienrsquo et lsquochatrsquo se ressemblent le plus tandisque lsquochienrsquo et lsquocafeacutersquo partagent le moins de cooccurrences Il est agrave noter que lsquochienrsquoressemble un peu moins (027) agrave lsquocafeacutersquo que lsquochatrsquo (030) parce que lsquochienrsquo apparaicirctaussi avec lsquoaboyerrsquo et lsquopassantrsquo contrairement agrave lsquochatrsquo et lsquocafeacutersquo

Lrsquoimpleacutementation de cette technique aux exemples et au corpus du mondereacuteel ne srsquoappuie pas sur des freacutequences de cooccurrence absolues entre le mot-cible et ses cooccurrents Les cooccurrents les plus freacutequents ne donnent pasneacutecessairement le plus drsquoinformations sur la signification du mot-cible Agrave lrsquoinstardes travaux sur les collocations les meacutethodes drsquoanalyse distributionnelle srsquoap-puient sur des mesures drsquoassociation statistiques ce qui permet de donner plusde poids aux cooccurrents qui apparaissent significativement plus souvent avecle mot-cible qursquoattendu par le hasard Ces cooccurrents avec un poids plus eacuteleveacutefournissent plus drsquoinformations sur le sens du mot-cible que les autres cooccur-rents quelle que soit leur freacutequence absolue Dans lrsquoexemple avec le mot-ciblelsquochienrsquo le cooccurrent lsquoveacuteteacuterinairersquo est seacutemantiquement plus proche du conceptlaquo animal raquo que le mot lsquoprendrersquo bien qursquoil soit moins freacutequent Les mesuresdrsquoassociation qui sont utiliseacutees dans les modegraveles seacutemantiques distributionnelscomme fonctions de pondeacuteration sont emprunteacutees aux analyses de collocationsLes scheacutemas de pondeacuteration appliqueacutes dans cette eacutetude de cas reposent sur lamesure de lrsquoinformation mutuelle ponctuelle (Pointwise Mutual Information ouPMI) Les deacutetails techniques des mesures pour la pondeacuteration deacutepassent le cadredu preacutesent article mais on pourra se reacutefeacuterer agrave A Thanapoulos N Fakotakis etG Kokkinakis (2002) pour une comparaison de plusieurs mesures statistiquesPour calculer la valeur drsquoassociation on srsquoappuie sur les freacutequences de cooccur-rence recueillies dans un grand corpus Supposons que veacuteteacuterinaire a un poidscollocationnel de 43 srsquoil apparaicirct avec chien de 35 avec chat et de 08 aveccafeacute Ensuite le calcul de la similariteacute cosinus agrave partir des poids collocationnelsindique drsquoune part que chien et chat sont plus similaires que dans le calcul nonpondeacutereacute et drsquoautre part qursquoils sont moins similaires agrave cafeacute

Langages 201 57

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

La seacutemantique linguistique en vision peacuteripheacuterique

cos(chien chat) = 087cos(chien cafeacute) = 031cos(chat cafeacute) = 032

Le calcul pondeacutereacute de la similariteacute cosinus entre toutes les paires de mots-ciblespermet de geacuteneacuterer une matrice de similariteacute avec les mots-cibles tant dans leslignes que dans les colonnes et avec la valeur de similariteacute cosinus par pairede mots-cibles dans les cellules Les eacuteleacutements de la diagonale sont tous deslsquo1rsquo chaque mot-cible eacutetant complegravetement similaire agrave lui-mecircme La matrice estsymeacutetrique avec des valeurs identiques de part et drsquoautre de la diagonale parceque la similariteacute cosinus entre les mots A et B est identique agrave celle entre lesmots B et A Le Tableau 3 infra visualise les similariteacutes cosinus pour nos troismots-cibles exemples Dans un grand corpus du monde reacuteel on pourra trouverainsi pour chaque mot-cible le mot le plus similaire dans le reste du vocabulaireEacutetant donneacute que des mots tregraves similaires sont souvent des (quasi-)synonymesce type de matrice de similariteacute mot-par-mot est souvent utiliseacute en linguistiquecomputationnelle pour des tacircches drsquoextraction automatique de synonymes

Tableau 3 Matrice des valeurs de similariteacute cosinus

chat cafeacute chien

chat 1 032 087

cafeacute 032 1 031

chien 087 031 1

3 APPLICATION LEXICOLOGIQUE

Les meacutethodes drsquoanalyse distributionnelle se precirctent agrave diverses applicationslexicologiques et lexicographiques notamment la seacutelection automatique dephrases-exemples pour les dictionnaires (Cook et al 2013) lrsquoeacutetude diachroniquede la seacutemantique (Sagi Kaufmann amp Clark 2009 Perek 2014) et lrsquoeacutetude dela variation socio-linguistique (Peirsman Geeraerts amp Speelman 2010) Nouspreacutesentons infra une eacutetude de la polyseacutemie dans la langue speacutecialiseacutee Le modegraveledistributionnel expliqueacute dans la section preacuteceacutedente permet non seulement derecenser des (dis)similariteacutes seacutemantiques entre diffeacuterents mots tels que lsquochienrsquolsquochatrsquo et lsquocafeacutersquo mais eacutegalement drsquoexplorer les diffeacuterents sens drsquoun mot particulieragrave partir des (dis)similariteacutes seacutemantiques entre ses cooccurrents

Nous proceacutedons agrave lrsquoanalyse exploratoire de la polyseacutemie ou de lrsquoheacuteteacuterogeacute-neacuteiteacute seacutemantique du mot lsquotourrsquo dans un corpus technique relevant du domainespeacutecialiseacute des machines-outils pour lrsquousinage des meacutetaux (17 millions drsquooccur-rences) Ce mot a en effet plusieurs sens techniques dans ce corpus speacutecialiseacuteagrave savoir laquo machine-outil pour lrsquousinage des piegraveces raquo et laquo rotation raquo ainsi queplusieurs sens geacuteneacuteraux notamment dans les expressions tour drsquohorizon et agrave tourde rocircle Comme nous lrsquoavons indiqueacute supra (cf sect 2) la plupart des analyses en

58

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

Seacutemantique distributionnelle en linguistique de corpus

seacutemantique distributionnelle eacutetudient la proximiteacute seacutemantique entre mots enfonction des mots-contextes partageacutes Dans notre eacutetude lrsquoobjet drsquoanalyse se situeagrave un niveau supeacuterieur Les mots-cibles (cf Tableau 2) dont nous essayons drsquoeacutetu-dier les (dis)similariteacutes seacutemantiques sont les cooccurrents de lsquotourrsquo parce queceux-ci reflegravetent les diffeacuterents sens et usages de lsquotourrsquo dans le corpus techniqueNotre analyse consiste agrave regrouper les mots-cibles en fonction de leurs mots-contextes et agrave les positionner les uns par rapport aux autres en 2D Ces analysesde regroupement (clustering) et de visualisation (plotting) des cooccurrents per-mettent de cerner des groupes de cooccurrents seacutemantiquement lieacutes pour ainsiacceacuteder agrave la seacutemantique du mot lsquotourrsquo

Pour identifier les mots-cibles ou les cooccurrents pertinent de lsquotourrsquo ainsique leurs mots-contextes pertinents nous nous appuyons sur la mesure drsquoas-sociation de lrsquoinformation mutuelle speacutecifique ou Pointwise Mutual Information(PMI) Pour le regroupement et la visualisation des mots-cibles nous recouronsagrave lrsquoanalyse de positionnement multidimensionnel (MultiDimensional Scaling ouMDS) (Kruskal amp Wish 1978 Cox amp Cox 2001 Venables amp Ripley 2002 Borg ampGroenen 2005) La technique de MDS 3 est impleacutementeacutee dans le logiciel drsquoanalysestatistique R 4 Dans nos analyses nous utilisons le positionnement non meacutetriqueisoMDS Cette technique permet drsquoanalyser une matrice pour un ensemble dedonneacutees disposeacutees en ligne (ici les mots-cibles) agrave partir de leurs valeurs pourplusieurs variables disposeacutees en colonne (ici les mots-contextes) (cf Tableau 4)Dans un premier temps ces valeurs sont les valeurs drsquoassociation PMI entreun mot-cible et un mot-contexte avec lequel il apparaicirct Cela permet de geacuteneacute-rer un vecteur par mot-cible avec toutes les valeurs drsquoassociation avec tous sesmots-contextes Au cas ougrave cette matrice serait trop creuse nous pourrions enri-chir les donneacutees en faisant appel aux cooccurrents des mots-contextes Pour lesdeacutetails sur lrsquoenrichissement de la matrice on pourra se reacutefeacuterer agrave A Bertels etD Speelman (2013) Dans un deuxiegraveme temps le calcul pondeacutereacute de la similariteacutecosinus entre toutes les paires de mots-cibles permet de geacuteneacuterer une matrice desimilariteacute agrave lrsquoinstar du Tableau 3

3 Le MDS est une meacutethode drsquoanalyse multivarieacutee descriptive comme lrsquoanalyse factorielle des correspon-dances (AFC) ou lrsquoanalyse en composantes principales (ACP) Agrave la diffeacuterence de ces techniques le MDSpermet drsquoanalyser tout type de matrice de (dis)similariteacute si les (dis)similariteacutes sont eacutevidentes Le MDS nrsquoim-pose pas de restrictions telles que des relations lineacuteaires entre les donneacutees sous-jacentes leur distributionnormale multivarieacutee ou la matrice de correacutelation [httpwwwstatsoftcomtextbookstmulscahtml]

4 R [wwwr-projectorg]

Langages 201 59

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

La seacutemantique linguistique en vision peacuteripheacuterique

Tableau 4 Matrice de cooccurrence pondeacutereacutee mots-cibles par mots-contextes

minute par commande broche

millevaleur drsquoassociation (PMI)

entre mille et minutePMI

numeacuterique PMI

inverseacute PMI

horizon

La matrice de similariteacute est ensuite soumise agrave une analyse de positionnementmultidimensionnel qui consiste agrave regrouper les mots-cibles ou les cooccurrentsde lsquotourrsquo en fonction des valeurs drsquoassociation similaires avec des mots-contextessimilaires et agrave visualiser ces proximiteacutes et distances seacutemantiques en 2D Cettevisualisation permettra aux chercheurs-linguistes non-informaticiens drsquoacceacutederagrave la seacutemantique du mot lsquotourrsquo

Dans la Figure 1 infra la reacutepartition des mots-cibles repreacutesente bien le carac-tegravere seacutemantiquement heacuteteacuterogegravene de lsquotourrsquo Les proximiteacutes et les distances seacuteman-tiques montrent quelques mots-cibles isoleacutes et quelques groupes de mots-ciblesseacutemantiquement lieacutes Les mots-cibles peacuteripheacuteriques pointent vers des sens par-ticuliers agrave savoir horizon (sens geacuteneacuteral dans laquo tour drsquohorizon raquo) et mille (senstechnique dans laquo mille tours par minute raquo) Dans la partie supeacuterieure agrave droiteon retrouve des mots-cibles qui attestent le sens technique particulier laquo tourinverseacute raquo avec inverseacutes inverseacute et bibroches Le nuage de mots-cibles dans lapartie infeacuterieure agrave gauche visualise le sens technique laquo machine-outil pour lrsquousi-nage des piegraveces raquo La preacutesence de plusieurs petits regroupements de mots-ciblesteacutemoigne de la variation des contextes drsquoapparition On observe un contextespeacutecialiseacute laquo tour (agrave) deux broches raquo agrave gauche en bas axes broches broche outilsdeux trois centres et mecircme au milieu vertical et verticaux Agrave gauche au milieu onretrouve commande numeacuterique CNC gamme seacuterie type et quelques mots-ciblesmoins speacutecialiseacutes Les mots-cibles plus geacuteneacuteraux comme manutention ligne geacuteneacute-rale production et conception se retrouvent dans la partie supeacuterieure de ce nuageet font preuve drsquoun contexte drsquoapparition plus geacuteneacuteral

60

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

Seacutemantique distributionnelle en linguistique de corpus

Figure 1 Visualisation des mots-cibles ou cooccurrents de lsquotourrsquo

4 CONCLUSION

Dans cet article nous avons preacutesenteacute les possibiliteacutes de la modeacutelisation seacuteman-tique distributionnelle pour les analyses linguistiques Gracircce agrave la disponibiliteacutede vastes corpus eacutelectroniques les lexicologues et lexicographes disposent denos jours drsquoune eacutenorme base de donneacutees empirique Pour analyser cette abon-dance de donneacutees ils pourront recourir agrave des outils drsquoanalyse statistique et agravedes meacutethodes drsquoanalyse distributionnelle qui leur permettront notamment derepeacuterer des patrons et motifs

Les meacutethodes drsquoanalyse distributionnelle srsquoappuient sur lrsquohypothegravese distri-butionnelle selon laquelle des mots qui se trouvent dans des contextes drsquoappa-rition similaires tendent agrave avoir des sens similaires Elles regroupent plusieursapproches et sous-types en fonction du type de contexte du niveau drsquoanalyse etdu mode de repreacutesentation computationnelle des donneacutees Nous avons expliqueacuteles principes de base de ces modegraveles agrave partir drsquoun modegravele distributionnel par-ticulier relativement intuitif pour des linguistes agrave savoir un modegravele agrave base de

Langages 201 61

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

La seacutemantique linguistique en vision peacuteripheacuterique

mots qui considegravere les cooccurrents graphiques au niveau des types sous formede repreacutesentation vectorielle Ce modegravele distributionnel permet non seulementde recenser des (dis)similariteacutes seacutemantiques entre diffeacuterents mots tels que lesexemples-jouets lsquochienrsquo lsquochatrsquo et lsquocafeacutersquo mais eacutegalement drsquoexplorer les diffeacuterentssens drsquoun mot particulier agrave partir des (dis)similariteacutes seacutemantiques entre ses cooc-currents Agrave titre drsquoexemple nous avons discuteacute une application lexicologiquequi consistait agrave regrouper les mots-cibles ou les cooccurrents du mot techniquelsquotourrsquo en fonction des valeurs drsquoassociation similaires avec des mots-contextessimilaires Ces proximiteacutes et distances seacutemantiques sont visualiseacutees en 2D pourpermettre aux chercheurs-linguistes non-informaticiens drsquoacceacuteder agrave la seacuteman-tique du mot lsquotourrsquo

Lrsquoobjectif de cet article eacutetait de montrer lrsquoutiliteacute des modegraveles seacutemantiquesdistributionnels pour les linguistes lexicologues et lexicographes agrave lrsquoaide drsquounepreacutesentation non technique des principes de base et drsquoune application lexicolo-gique concregravete Comme les diffeacuterentes approches et les nombreux sous-types demodegraveles le suggegraverent des recherches futures devront srsquoatteler agrave la mise au pointdes nombreux paramegravetres pour aboutir au modegravele qui soit le mieux adapteacute auxbesoins speacutecifiques de la recherche lexicologique ou lexicographique neacutecessaire

Reacutefeacuterences

BERNIER-COLBORNE G (2014) laquo Analyse distributionnelle de corpus speacutecialiseacutes pour lrsquoidentifica-tion de relations lexico-seacutemantiques raquo Actes du 21e Traitement Automatique des LanguesNaturelles (TALN2014) Atelier SemDis 2014 Marseille France 238-251

BERTELS A amp SPEELMAN D (2013) laquo Exploration seacutemantique visuelle agrave partir des cooccurrencesde deuxiegraveme et troisiegraveme ordre raquo Actes du 20e Traitement Automatique des LanguesNaturelles (TALN2013) Atelier SemDis 2013 Les Sables-drsquoOlonne France 126-139

BERTELS A amp SPEELMAN D (2014) laquo Analyse de positionnement multidimensionnel sur lecorpus speacutecialiseacute TALN raquo Actes du 21e Traitement Automatique des Langues Naturelles(TALN2014) Atelier SemDis 2014 Marseille France 252-265

BORG I amp GROENEN P (20052) Modern Multidimensional Scaling theory and applications NewYork Springer-Verlag

BOUAUD J et al (1997) laquo Regroupements issus de deacutependances syntaxiques en corpus cateacute-gorisation et confrontation agrave deux modeacutelisations conceptuelles raquo Actes des 1res journeacuteesIngeacutenierie des Connaissances Roskoff France 207-223

BRUNI E TRAN N K amp BARONI M (2014) ldquoMultimodal Distributional Semanticsrdquo Journal ofArtificial Intelligence Research 49 (1) 1-47

BULLINARIA J A amp LEVY J P (2007) ldquoExtracting Semantic Representations from Word Co-occurrence Statistics A Computational Studyrdquo Behavior Research Methods 39 510-526

CHURCH K W amp HANKS P (1989) ldquoWord association norms mutual information and lexico-graphyrdquo Proceedings of the 27th Annual Conference of the Association of ComputationalLinguistics Vancouver British Columbia 76-83

CLAVEAU V KIJAK E amp FERRET O (2014) laquo Explorer le graphe de voisinage pour ameacuteliorer lestheacutesaurus distributionnels raquo Actes du 21e Traitement Automatique des Langues Naturelles(TALN2014) Marseille France 220-231

62

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

Seacutemantique distributionnelle en linguistique de corpus

COOK P et al (2013) ldquoA lexicographic appraisal of an automatic approach for detecting newword-sensesrdquo Proceedings of the eLex 2013 Conference Tallinn Estonia 49-65

COX T F amp COX M A A (2001) Multidimensional Scaling Boca Raton (FL) Chapman amp Hall

CURRAN J R amp MOENS M (2002) ldquoImprovements in automatic thesaurus extractionrdquoProceedings of the ACL-02 Workshop on Unsupervised Lexical Acquisition Vol 9Stroudsburg (PA) USA 59-66

DESALLE Y et al (2014) laquo BACANAL Balades Aleacuteatoires Courtes pour ANAlyses LexicalesApplication agrave la substitution lexicale raquo Actes du 21e Traitement Automatique des LanguesNaturelles (TALN2014) Atelier SemDis 2014 Marseille France 206-217

DINU G THATER S amp LAUE S (2012) ldquoA comparison of models of word meaning in contextrdquoProceedings of the 2012 Conference of the North American Chapter of the Association forComputational Linguistics Human Language Technologies Atlanta (GA) USA 611-615

EVERT S (2004) The Statistics of Word Cooccurrences Word Pairs and CollocationsDissertation Institut fuumlr maschinelle Sprachverarbeitung University of Stuttgart

FABRE C et al (2014a) laquo Preacutesentation de lrsquoatelier SemDis 2014 seacutemantique distributionnellepour la substitution lexicale et lrsquoexploration de corpus speacutecialiseacutes raquo Actes du 21e TraitementAutomatique des Langues Naturelles (TALN2014) Atelier SemDis 2014 Marseille France196-205

FABRE C et al (2014b) laquo Ajuster lrsquoanalyse distributionnelle agrave un corpus speacutecialiseacute de petitetaille raquo Actes du 21e Traitement Automatique des Langues Naturelles (TALN2014) AtelierSemDis 2014 Marseille France 266-279

FERRET O (2010) laquo Similariteacute seacutemantique et extraction de synonymes agrave partir de corpus raquoActes du 17e Traitement Automatique des Langues Naturelles (TALN2010) MontreacutealCanada [httpwwwiroumontrealcasimfelipeTALN2010XmlPapersalltaln2010_submission_77pdf]

FERRET O (2014) laquo Utiliser un modegravele neuronal geacuteneacuterique pour la substitution lexicale raquo Actesdu 21e Traitement Automatique des Langues Naturelles (TALN2014) Atelier SemDis 2014Marseille France 218-227

FIRTH J R (1957) Papers in Linguistics 1934-1951 Oxford Oxford University Press

GEERAERTS D (2010) Theories of Lexical Semantics OxfordNew York Oxford University Press

GLYNN D (2010) ldquoTesting the Hypothesis Objectivity and Verification in Usage-Based CognitiveSemanticsrdquo in D Glynn amp K Fischer (eds) Quantitative Methods in Cognitive SemanticsCorpus-driven approaches BerlinNew York Mouton de Gruyter 239-270

HABERT B amp ZWEIGENBAUM P (2002) ldquoContextual acquisition of information categories whathas been done and what can be done automaticallyrdquo in B Nevin amp S Johnson (eds) TheLegacy of Zellig Harris Language and information into the 21st century Amsterdam JohnBenjamins 203-231

HARRIS Z (1954) ldquoDistributional structurerdquo Word 10 (23) 146-162

HEYLEN K et al (2014) ldquoMonitoring Polysemy Word Space Models as a Tool for Large-ScaleLexical Semantic Analysisrdquo Lingua International Review of General Linguistics 157 153-172

HEYLEN K SPEELMAN D amp GEERAERTS D (2012) ldquoLooking at word meaning An interactivevisualization of Semantic Vector Spaces for Dutch synsetsrdquo Proceedings of the EACL 2012Joint Workshop of LINGVIS et UNCLH Avignon France 16-24

KRUSKAL J B amp WISH M (1978) Multidimensional Scaling Sage University Paper series onQuantitative Applications in the Social Sciences number 07-011 Newbury Park (CA) SagePublications

Langages 201 63

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

La seacutemantique linguistique en vision peacuteripheacuterique

LANDAUER T K amp DUMAIS S T (1997) ldquoA solution to Platorsquos problem The latent semanticanalysis theory of acquisition induction and representation of knowledgerdquo PsychologicalReview 104 (2) 211-240

LUND K amp BURGESS C (1996) ldquoProducing high-dimensional semantic spaces from lexical co-occurrencerdquo Behavior Research Methods Instrumentation and Computers 28 203-208

MORARDO M amp VILLEMONTE DE LA CLERGERIE Eacute (2013) laquo Vers un environnement de production etde validation de ressources lexicales seacutemantiques raquo Actes du 20e Traitement Automatiquedes Langues Naturelles (TALN2013) Atelier SemDis 2013 Les Sables-drsquoOlonne France167-180

MORLANE-HONDEgraveRE F (2013) laquo Utiliser une base distributionnelle pour filtrer un dictionnaire desynonymes raquo Actes du 20e Traitement Automatique des Langues Naturelles (TALN2013)Atelier SemDis 2013 Les Sables-drsquoOlonne France 112-125

NAVIGLI R (2012) ldquoA Quick Tour of Word Sense Disambiguation Induction and RelatedApproachesrdquo Proceedings of the 38th Conference on Current Trends in Theory and Practiceof Computer Science (SOFSEM) Spindleruv Mlyn Czech Republic 115-129

PEIRSMAN Y GEERAERTS D amp SPEELMAN D (2010) ldquoThe automatic identification of lexical variationbetween language varietiesrdquo Natural Language Engineering 16 (4) 469-491

PEREK F (2014) ldquoVector spaces for historical linguistics Using distributional semantics tostudy syntactic productivity in diachrony raquo Proceedings of the 52nd Annual Meeting of theAssociation for Computational Linguistics Baltimore USA 309-314

PEacuteRINET A amp HAMON T (2014) laquo Analyse et proposition de paramegravetres distributionnels adapteacutesaux corpus de speacutecialiteacute raquo Actes des 12e Journeacutees internationales drsquoAnalyse statistiquedes Donneacutees Textuelles (JADT 2014) Paris France 507-518

SAGI E KAUFMANN S amp CLARK B (2009) ldquoSemantic density analysis Comparing word meaningacross time and phonetic spacerdquo Proceedings of the EACL 2009 Workshop on GEMSAthens Greece 104-111

SAHLGREN M (2006) The Word-Space Model Using distributional analysis to represent syntag-matic and paradigmatic relations between words in high-dimensional vector spaces PhDThesis Department of Linguistics Stockholm University

SINCLAIR J (1991) Corpus Concordance Collocation Oxford Oxford University Press

THANOPOULOS A FAKOTAKIS N amp KOKKINAKIS G (2002) ldquoComparative Evaluation of CollocationExtraction Metricsrdquo Proceedings of the 3rd Language Resources Evaluation ConferenceLas Palmas Spain 620-625

TURNEY P D amp PANTEL P (2010) ldquoFrom Frequency to Meaning Vector Space Models ofSemanticsrdquo Journal of Artificial Intelligence Research 37 (1) 141-188

VENABLES W N amp RIPLEY B D (20024) Modern Applied Statistics with S New York Springer-Verlag

WEAVER W (1955) ldquoTranslationrdquo in W N Locke amp A D Booth (eds) Machine Translation ofLanguages Cambridge (MA) The MIT Press 15-23

WIECHMANN D (2008) ldquoOn the Computation of Collostruction Strengthrdquo Corpus Linguistics andLinguistic Theory 4 (2) 253-290

64

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

Seacutemantique distributionnelle en linguistique de corpus

Tableau 1 Aperccedilu des outils statistiques utiliseacutes en seacutemantique lexicale

Identification drsquoindicescontextuels

Classificationdrsquooccurrences

Philologie classique manuelle manuelle

Analyse de collocations statistique manuelle

Analyse de profilscomportementaux

manuelle statistique

Meacutethodes drsquoanalysedistributionnelle

statistique statistique

Lrsquointroduction de meacutethodes statistiques dans les deux eacutetapes du processus drsquoana-lyse de donneacutees constitue une extension logique voire indispensable et cecipour deux raisons Premiegraverement les lexicologues et lexicographes pourrontbeacuteneacuteficier du soutien suppleacutementaire des techniques pour le repeacuterage de patronsstatistiques parce qursquoil leur permet de faire face agrave lrsquoabondance de donneacutees aux-quelles ils sont confronteacutes dans leurs travaux descriptifs Il est tout simplementimpossible drsquoencoder manuellement de classer et de deacutecrire plusieurs milliersde concordances drsquoun lexegraveme Les analyses de donneacutees statistiques pourrontaider agrave preacutelever un eacutechantillon repreacutesentatif de diffeacuterents usages qui pourra parla suite faire lrsquoobjet drsquoanalyses plus approfondies Deuxiegravemement la disponi-biliteacute de Big Data ou de gros volumes de donneacutees suggegravere une extension de lafocalisation traditionnelle du travail lexicologique et lexicographique Un envi-ronnement Big Data permet aux chercheurs drsquoexaminer des tendances et motifsqursquoils ne deacutegageraient pas en analysant de petits corpus comme par exemplela reacutepartition de nouveaux mots ou de nouveaux usages de mots existants agravetravers les reacuteseaux sociaux Pour deacutetecter ce type de tendances les techniques defouilles de donneacutees sont indispensables et requiegraverent un recours aux techniquesquantitatives approprieacutees

Dans cet article nous proceacutedons drsquoabord agrave une preacutesentation non techniquedes meacutethodes drsquoanalyse distributionnelle pour la modeacutelisation seacutemantique dis-tributionnelle (sect 2) Pour diffeacuterentes approches et sous-types nous preacutesentonsles caracteacuteristiques principales et les reacutefeacuterences les plus importantes et nousexpliquons les principes de lrsquoanalyse distributionnelle agrave partir drsquoun modegravele dis-tributionnel particulier Ensuite nous discutons une application lexicologiquepour lrsquoanalyse de la polyseacutemie (sect 3) Finalement nous preacutesentons une meacutethodede visualisation qui permet aux experts humains drsquointerpreacuteter les structuresseacutemantiques cerneacutees par les modegraveles seacutemantiques distributionnels (sect 4)

2 MEacuteTHODES DrsquoANALYSE DISTRIBUTIONNELLE

21 Historique

Les meacutethodes drsquoanalyse distributionnelle aussi appeleacutees modegraveles seacutemantiquesdistributionnels (Word Space Models) eacutetaient initialement utiliseacutees en Psychologie

Langages 201 53

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

La seacutemantique linguistique en vision peacuteripheacuterique

Cognitive pour modeacuteliser la meacutemoire lexicale (Landauer amp Dumais 1997 Lund amp Burgess 1996) Ensuite elles ont eacuteteacute deacuteveloppeacutees en LinguistiqueComputationnelle ougrave elles sont maintenant largement reacutepandues pour modeacute-liser lrsquoanalyse seacutemantique dans le domaine du Traitement Automatiquedes Langues (TAL) (Statistical Natural Language Processing) (voir Turney ampPantel 2010 pour un aperccedilu) Pour le franccedilais les travaux preacutecurseurs agrave la findes anneacutees 90 eacutetaient principalement consacreacutes agrave lrsquoapplication des meacutethodes dis-tributionnelles au traitement de corpus speacutecialiseacutes (Bouaud et al 1997 Habert ampZweigenbaum 2002) Eacutevoquons eacutegalement lrsquoorganisation drsquoune journeacutee ATALAen 1999 intituleacutee Approche distributionnelle de lrsquoanalyse seacutemantique (voir Fabreet al 2014a) Actuellement lrsquoanalyse distributionnelle est devenue un mode derepreacutesentation et drsquoexploitation incontournable dans les travaux sur le lexiqueet sur la seacutemantique lexicale (Fabre et al 2014b) comme en teacutemoignent lesdeux eacuteditions de lrsquoatelier laquo Seacutemantique Distributionnelle raquo SemDis 2013 (LesSables-drsquoOlonne) et SemDis 2014 (Marseille) Lrsquoeacutedition 2013 visait agrave rassemblerles eacutetudes et travaux sur le franccedilais dans le domaine de lrsquoanalyse distribu-tionnelle Lrsquoeacutedition 2014 permettait la confrontation de plusieurs meacutethodesdistributionnelles en proposant une tacircche compeacutetitive de substitution lexicalesur un corpus de taille importante et une tacircche exploratoire sur un petit corpusspeacutecialiseacute

22 Plusieurs approches et sous-types

Les meacutethodes drsquoanalyse distributionnelle srsquoappuient sur lrsquohypothegravese distribu-tionnelle (Firth 1957) selon laquelle des mots qui se trouvent dans des contextesdrsquoapparition similaires tendent agrave avoir des sens similaires Elles regroupent plu-sieurs approches et sous-types Trois dimensions sont importantes agrave cet effet letype de contexte le niveau drsquoanalyse et le mode de repreacutesentation computation-nelle

221 Type de contexte

Premiegraverement les meacutethodes et modegraveles diffegraverent en fonction du type decontexte pris en consideacuteration pour repreacutesenter le sens des mots On fait ladistinction entre les modegraveles dits laquo agrave base de documents raquo (document-based)et les modegraveles dits laquo agrave base de mots raquo (word-based) Dans les modegraveles agrave basede documents lrsquoanalyse seacutemantique drsquoun mot x srsquoappuie sur lrsquoobservationde lrsquooccurrence de x dans le contexte du document entier Les modegravelesanglosaxons originels sont des modegraveles agrave base de documents par exemplelrsquoanalyse seacutemantique latente (Latent Semantic Analysis ou LSA) (Landauer ampDumais 1997) Les modegraveles agrave base de mots par contre prennent comme pointde deacutepart lrsquooccurrence drsquoun mot x dans le contexte drsquoun autre mot Certainsmodegraveles agrave base de mots repreacutesentent chaque occurrence de x dans le corpuspar ses laquo cooccurrents graphiques raquo dans une fenecirctre de contexte donneacutee(Heylen Speelman amp Geeraerts 2012 Ferret 2010 2014 Bernier-Colborne 2014 Bertels amp Speelman 2013 2014 Peacuterinet amp Hamon 2014) Drsquoautres modegraveles agrave

54

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

Seacutemantique distributionnelle en linguistique de corpus

base de mots prennent en consideacuteration les relations de deacutependance syntaxiqueentre le mot x et ses laquo cooccurrents syntaxiques raquo (Morlane-Hondegravere 2013 Morardo amp Villemonte de La Clergerie 2013 Fabre et al 2014b) Les modegraveles agravebase de documents sont plus approprieacutes pour modeacuteliser des relations syntag-matiques et associatives par exemple entre meacutedecin et hocircpital ou entre voiture etrouler Les modegraveles agrave base de mots et plus particuliegraverement ceux qui srsquoappuientsur des informations de deacutependance syntaxique sont plus preacutecis et parviennentagrave mieux saisir des relations paradigmatiques comme les quasi-synonymeshocircpital et clinique (Sahlgren 2006) Certains travaux vont au-delagrave des contextesdrsquoapparition dans les textes (mots ou documents) pour inteacutegrer eacutegalement danslrsquoanalyse distributionnelle des laquo mots visuels raquo ou des images extraites agrave partirde techniques visuelles computationnelles ce qui aboutit agrave la laquo seacutemantiquedistributionnelle multimodale raquo (Bruni Tran amp Baroni 2014)

222 Niveau drsquoanalyse

Deuxiegravemement les modegraveles distributionnels permettent drsquoeacutetudier les motssoit au niveau des types (type-level) (Navigli 2012) soit au niveau des occurrencesindividuelles (token-level) (Dinu Thater amp Laue 2012) Les modegraveles au niveaudes types (type-level) tentent non seulement de distinguer un mot drsquoun autredans le but de deacutetecter la synonymie et les relations lexicales lieacutees (Curran ampMoens 2002) mais aussi de donner un aperccedilu des diffeacuterents sens drsquoun motpolyseacutemique (Bertels amp Speelman 2013) Or pour deacuteterminer le sens drsquouneseule occurrence particuliegravere les modegraveles au niveau des occurrences (token-level)essaient de distinguer un usage drsquoun mot donneacute drsquoun autre usage de ce mecircmemot pour ainsi eacutetudier sa polyseacutemie (Heylen et al 2014)

223 Repreacutesentation computationnelle

Troisiegravemement les modegraveles distributionnels diffegraverent en fonction du modede repreacutesentation computationnelle des donneacutees distributionnelles agrave savoir unerepreacutesentation sous forme de graphe (graph-based) (Morardo amp Villemonte de LaClergerie 2013 Desalle et al 2014 Claveau Kijak amp Ferret 2014) ou une repreacute-sentation vectorielle (vector-based) Les modegraveles vectoriels reposent sur la repreacute-sentation matricielle des mots dans un espace vectoriel Il srsquoagit par exempledrsquoune matrice mots times mots qui vise agrave caracteacuteriser les mots agrave partir de leurscooccurrents graphiques ou drsquoune matrice mots times relations de deacutependance quipermet de caracteacuteriser les mots en fonction de leurs cooccurrents syntaxiquesIl est important de reacuteduire le nombre eacuteleveacute de caracteacuteristiques contextuelles(context features) agrave un nombre limiteacute de laquo dimensions seacutemantiques raquo soit pour untraitement computationnel efficace (p ex Ferret 2010 2014) soit pour une visua-lisation qui permet aux chercheurs-linguistes drsquoacceacuteder plus facilement aux rela-tions seacutemantiques qui se deacutegagent (p ex Heylen Speelman amp Geeraerts 2012)Dans la description de lrsquoapplication lexicologique (cf sect 3) nous discutons enguise drsquoexemple la technique du positionnement multidimensionnel

Langages 201 55

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

La seacutemantique linguistique en vision peacuteripheacuterique

23 Explication deacutetailleacutee des principes de base

Pour expliquer les principes de base des modegraveles seacutemantiques distributionnelsnous recourons agrave un modegravele distributionnel particulier agrave savoir un modegravele agravebase de mots (word-based) qui considegravere les cooccurrents graphiques au niveaudes types (type-level) sous forme de repreacutesentation vectorielle (vector-based)Lrsquoapplication lexicologique discuteacutee dans la section suivante repose sur ce mecircmemodegravele

Nous faisons appel agrave un exemple pour eacutetudier trois mots-cibles agrave savoir chienchat et cafeacute dans un petit corpus laquo jouet raquo de six phrases-exemples

(1) Le chien aboie fort contre les passants(2) Le veacuteteacuterinaire prend le chien par le cou

(3) Le chat ronronne fort(4) Le veacuteteacuterinaire srsquoest fait griffer par le chat en le prenant

(5) On boit plus de cafeacute que de theacute(6) Le veacuteteacuterinaire prend sa tasse et boit son cafeacute

Ce petit corpus laquo jouet raquo peut ecirctre repreacutesenteacute sous forme de table de freacutequenceavec les mots-cibles en ligne et les caracteacuteristiques contextuelles ou les laquo mots-contextes raquo en colonne Nous recourons au modegravele le plus simple possibleie celui qui ignore les relations de deacutependance syntaxique et qui recense simple-ment les freacutequences absolues des noms verbes et adverbes Les freacutequences sontindiqueacutees dans la matrice de cooccurrence infra (cf Tableau 2) Le fait drsquoignorerles relations syntaxiques est qualifieacute drsquoapproche laquo sac de mots raquo (Bag-of-Wordsapproach) en recherche drsquoinformations Dans un exemple issu du monde reacuteel etdans un grand corpus il y a beaucoup plus de mots-contextes (dans les colonnes)geacuteneacuteralement plusieurs milliers et bien sucircr les freacutequences sont largement supeacute-rieures agrave 2

Tableau 2 Matrice de cooccurrence pour les mots-cibles chien chat et cafeacute

aboyer passant veacuteteacuterinaire prendre cou ronronner fort griffer boire plus theacute tasse

chien 1 1 1 1 1 0 1 0 0 0 0 0

chat 0 0 1 1 0 1 1 1 0 0 0 0

cafeacute 0 0 1 1 0 0 0 0 2 1 1 1

Les freacutequences de cooccurrence peuvent ecirctre interpreacuteteacutees comme les coordon-neacutees qui permettent de situer chien chat et cafeacute dans un espace seacutemantique mul-tidimensionnel ougrave chaque cooccurrent repreacutesente une dimension particuliegravereSi lrsquoon poursuit les explications dans cette meacutetaphore geacuteomeacutetrique on pourraeacutegalement calculer la distance entre deux mots dans cet espace seacutemantiquemultidimensionnel pour ainsi mesurer la distance entre leur sens En pratiqueon fait appel agrave lrsquoalgegravebre des vecteurs pour calculer la similariteacute entre les troismots-cibles En effet chaque mot-cible peut ecirctre repreacutesenteacute par le vecteur de

56

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

Seacutemantique distributionnelle en linguistique de corpus

ses cooccurrents ou mots-contextes Les donneacutees distributionnelles prennentdonc la forme drsquoun vecteur de cooccurrents Les mots-cibles qui partagent descooccurrents auront une repreacutesentation vectorielle semblable Une mesure desimilariteacute permet ensuite de comparer les vecteurs et de calculer leur distancedans lrsquoespace vectoriel La similariteacute entre les vecteurs des trois mots-cibles estcalculeacutee agrave partir du cosinus de lrsquoangle entre eux Le cosinus est une mesure desimilariteacute standard en seacutemantique distributionnelle (Bullinaria amp Levy 2007 Ferret 2010) Intuitivement on srsquoattend agrave ce que lrsquoangle entre deux conceptssimilaires (p ex chien et chat) soit plus petit que celui entre deux mots diffeacuterents(p ex chien et cafeacute) En drsquoautres termes quand les distributions de mots sont peusimilaires la valeur de similariteacute cosinus est infeacuterieure

cos(chien chat) = 055cos(chien cafeacute) = 027cos(chat cafeacute) = 030

Le reacutesultat correspond agrave lrsquointuition lsquochienrsquo et lsquochatrsquo se ressemblent le plus tandisque lsquochienrsquo et lsquocafeacutersquo partagent le moins de cooccurrences Il est agrave noter que lsquochienrsquoressemble un peu moins (027) agrave lsquocafeacutersquo que lsquochatrsquo (030) parce que lsquochienrsquo apparaicirctaussi avec lsquoaboyerrsquo et lsquopassantrsquo contrairement agrave lsquochatrsquo et lsquocafeacutersquo

Lrsquoimpleacutementation de cette technique aux exemples et au corpus du mondereacuteel ne srsquoappuie pas sur des freacutequences de cooccurrence absolues entre le mot-cible et ses cooccurrents Les cooccurrents les plus freacutequents ne donnent pasneacutecessairement le plus drsquoinformations sur la signification du mot-cible Agrave lrsquoinstardes travaux sur les collocations les meacutethodes drsquoanalyse distributionnelle srsquoap-puient sur des mesures drsquoassociation statistiques ce qui permet de donner plusde poids aux cooccurrents qui apparaissent significativement plus souvent avecle mot-cible qursquoattendu par le hasard Ces cooccurrents avec un poids plus eacuteleveacutefournissent plus drsquoinformations sur le sens du mot-cible que les autres cooccur-rents quelle que soit leur freacutequence absolue Dans lrsquoexemple avec le mot-ciblelsquochienrsquo le cooccurrent lsquoveacuteteacuterinairersquo est seacutemantiquement plus proche du conceptlaquo animal raquo que le mot lsquoprendrersquo bien qursquoil soit moins freacutequent Les mesuresdrsquoassociation qui sont utiliseacutees dans les modegraveles seacutemantiques distributionnelscomme fonctions de pondeacuteration sont emprunteacutees aux analyses de collocationsLes scheacutemas de pondeacuteration appliqueacutes dans cette eacutetude de cas reposent sur lamesure de lrsquoinformation mutuelle ponctuelle (Pointwise Mutual Information ouPMI) Les deacutetails techniques des mesures pour la pondeacuteration deacutepassent le cadredu preacutesent article mais on pourra se reacutefeacuterer agrave A Thanapoulos N Fakotakis etG Kokkinakis (2002) pour une comparaison de plusieurs mesures statistiquesPour calculer la valeur drsquoassociation on srsquoappuie sur les freacutequences de cooccur-rence recueillies dans un grand corpus Supposons que veacuteteacuterinaire a un poidscollocationnel de 43 srsquoil apparaicirct avec chien de 35 avec chat et de 08 aveccafeacute Ensuite le calcul de la similariteacute cosinus agrave partir des poids collocationnelsindique drsquoune part que chien et chat sont plus similaires que dans le calcul nonpondeacutereacute et drsquoautre part qursquoils sont moins similaires agrave cafeacute

Langages 201 57

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

La seacutemantique linguistique en vision peacuteripheacuterique

cos(chien chat) = 087cos(chien cafeacute) = 031cos(chat cafeacute) = 032

Le calcul pondeacutereacute de la similariteacute cosinus entre toutes les paires de mots-ciblespermet de geacuteneacuterer une matrice de similariteacute avec les mots-cibles tant dans leslignes que dans les colonnes et avec la valeur de similariteacute cosinus par pairede mots-cibles dans les cellules Les eacuteleacutements de la diagonale sont tous deslsquo1rsquo chaque mot-cible eacutetant complegravetement similaire agrave lui-mecircme La matrice estsymeacutetrique avec des valeurs identiques de part et drsquoautre de la diagonale parceque la similariteacute cosinus entre les mots A et B est identique agrave celle entre lesmots B et A Le Tableau 3 infra visualise les similariteacutes cosinus pour nos troismots-cibles exemples Dans un grand corpus du monde reacuteel on pourra trouverainsi pour chaque mot-cible le mot le plus similaire dans le reste du vocabulaireEacutetant donneacute que des mots tregraves similaires sont souvent des (quasi-)synonymesce type de matrice de similariteacute mot-par-mot est souvent utiliseacute en linguistiquecomputationnelle pour des tacircches drsquoextraction automatique de synonymes

Tableau 3 Matrice des valeurs de similariteacute cosinus

chat cafeacute chien

chat 1 032 087

cafeacute 032 1 031

chien 087 031 1

3 APPLICATION LEXICOLOGIQUE

Les meacutethodes drsquoanalyse distributionnelle se precirctent agrave diverses applicationslexicologiques et lexicographiques notamment la seacutelection automatique dephrases-exemples pour les dictionnaires (Cook et al 2013) lrsquoeacutetude diachroniquede la seacutemantique (Sagi Kaufmann amp Clark 2009 Perek 2014) et lrsquoeacutetude dela variation socio-linguistique (Peirsman Geeraerts amp Speelman 2010) Nouspreacutesentons infra une eacutetude de la polyseacutemie dans la langue speacutecialiseacutee Le modegraveledistributionnel expliqueacute dans la section preacuteceacutedente permet non seulement derecenser des (dis)similariteacutes seacutemantiques entre diffeacuterents mots tels que lsquochienrsquolsquochatrsquo et lsquocafeacutersquo mais eacutegalement drsquoexplorer les diffeacuterents sens drsquoun mot particulieragrave partir des (dis)similariteacutes seacutemantiques entre ses cooccurrents

Nous proceacutedons agrave lrsquoanalyse exploratoire de la polyseacutemie ou de lrsquoheacuteteacuterogeacute-neacuteiteacute seacutemantique du mot lsquotourrsquo dans un corpus technique relevant du domainespeacutecialiseacute des machines-outils pour lrsquousinage des meacutetaux (17 millions drsquooccur-rences) Ce mot a en effet plusieurs sens techniques dans ce corpus speacutecialiseacuteagrave savoir laquo machine-outil pour lrsquousinage des piegraveces raquo et laquo rotation raquo ainsi queplusieurs sens geacuteneacuteraux notamment dans les expressions tour drsquohorizon et agrave tourde rocircle Comme nous lrsquoavons indiqueacute supra (cf sect 2) la plupart des analyses en

58

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

Seacutemantique distributionnelle en linguistique de corpus

seacutemantique distributionnelle eacutetudient la proximiteacute seacutemantique entre mots enfonction des mots-contextes partageacutes Dans notre eacutetude lrsquoobjet drsquoanalyse se situeagrave un niveau supeacuterieur Les mots-cibles (cf Tableau 2) dont nous essayons drsquoeacutetu-dier les (dis)similariteacutes seacutemantiques sont les cooccurrents de lsquotourrsquo parce queceux-ci reflegravetent les diffeacuterents sens et usages de lsquotourrsquo dans le corpus techniqueNotre analyse consiste agrave regrouper les mots-cibles en fonction de leurs mots-contextes et agrave les positionner les uns par rapport aux autres en 2D Ces analysesde regroupement (clustering) et de visualisation (plotting) des cooccurrents per-mettent de cerner des groupes de cooccurrents seacutemantiquement lieacutes pour ainsiacceacuteder agrave la seacutemantique du mot lsquotourrsquo

Pour identifier les mots-cibles ou les cooccurrents pertinent de lsquotourrsquo ainsique leurs mots-contextes pertinents nous nous appuyons sur la mesure drsquoas-sociation de lrsquoinformation mutuelle speacutecifique ou Pointwise Mutual Information(PMI) Pour le regroupement et la visualisation des mots-cibles nous recouronsagrave lrsquoanalyse de positionnement multidimensionnel (MultiDimensional Scaling ouMDS) (Kruskal amp Wish 1978 Cox amp Cox 2001 Venables amp Ripley 2002 Borg ampGroenen 2005) La technique de MDS 3 est impleacutementeacutee dans le logiciel drsquoanalysestatistique R 4 Dans nos analyses nous utilisons le positionnement non meacutetriqueisoMDS Cette technique permet drsquoanalyser une matrice pour un ensemble dedonneacutees disposeacutees en ligne (ici les mots-cibles) agrave partir de leurs valeurs pourplusieurs variables disposeacutees en colonne (ici les mots-contextes) (cf Tableau 4)Dans un premier temps ces valeurs sont les valeurs drsquoassociation PMI entreun mot-cible et un mot-contexte avec lequel il apparaicirct Cela permet de geacuteneacute-rer un vecteur par mot-cible avec toutes les valeurs drsquoassociation avec tous sesmots-contextes Au cas ougrave cette matrice serait trop creuse nous pourrions enri-chir les donneacutees en faisant appel aux cooccurrents des mots-contextes Pour lesdeacutetails sur lrsquoenrichissement de la matrice on pourra se reacutefeacuterer agrave A Bertels etD Speelman (2013) Dans un deuxiegraveme temps le calcul pondeacutereacute de la similariteacutecosinus entre toutes les paires de mots-cibles permet de geacuteneacuterer une matrice desimilariteacute agrave lrsquoinstar du Tableau 3

3 Le MDS est une meacutethode drsquoanalyse multivarieacutee descriptive comme lrsquoanalyse factorielle des correspon-dances (AFC) ou lrsquoanalyse en composantes principales (ACP) Agrave la diffeacuterence de ces techniques le MDSpermet drsquoanalyser tout type de matrice de (dis)similariteacute si les (dis)similariteacutes sont eacutevidentes Le MDS nrsquoim-pose pas de restrictions telles que des relations lineacuteaires entre les donneacutees sous-jacentes leur distributionnormale multivarieacutee ou la matrice de correacutelation [httpwwwstatsoftcomtextbookstmulscahtml]

4 R [wwwr-projectorg]

Langages 201 59

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

La seacutemantique linguistique en vision peacuteripheacuterique

Tableau 4 Matrice de cooccurrence pondeacutereacutee mots-cibles par mots-contextes

minute par commande broche

millevaleur drsquoassociation (PMI)

entre mille et minutePMI

numeacuterique PMI

inverseacute PMI

horizon

La matrice de similariteacute est ensuite soumise agrave une analyse de positionnementmultidimensionnel qui consiste agrave regrouper les mots-cibles ou les cooccurrentsde lsquotourrsquo en fonction des valeurs drsquoassociation similaires avec des mots-contextessimilaires et agrave visualiser ces proximiteacutes et distances seacutemantiques en 2D Cettevisualisation permettra aux chercheurs-linguistes non-informaticiens drsquoacceacutederagrave la seacutemantique du mot lsquotourrsquo

Dans la Figure 1 infra la reacutepartition des mots-cibles repreacutesente bien le carac-tegravere seacutemantiquement heacuteteacuterogegravene de lsquotourrsquo Les proximiteacutes et les distances seacuteman-tiques montrent quelques mots-cibles isoleacutes et quelques groupes de mots-ciblesseacutemantiquement lieacutes Les mots-cibles peacuteripheacuteriques pointent vers des sens par-ticuliers agrave savoir horizon (sens geacuteneacuteral dans laquo tour drsquohorizon raquo) et mille (senstechnique dans laquo mille tours par minute raquo) Dans la partie supeacuterieure agrave droiteon retrouve des mots-cibles qui attestent le sens technique particulier laquo tourinverseacute raquo avec inverseacutes inverseacute et bibroches Le nuage de mots-cibles dans lapartie infeacuterieure agrave gauche visualise le sens technique laquo machine-outil pour lrsquousi-nage des piegraveces raquo La preacutesence de plusieurs petits regroupements de mots-ciblesteacutemoigne de la variation des contextes drsquoapparition On observe un contextespeacutecialiseacute laquo tour (agrave) deux broches raquo agrave gauche en bas axes broches broche outilsdeux trois centres et mecircme au milieu vertical et verticaux Agrave gauche au milieu onretrouve commande numeacuterique CNC gamme seacuterie type et quelques mots-ciblesmoins speacutecialiseacutes Les mots-cibles plus geacuteneacuteraux comme manutention ligne geacuteneacute-rale production et conception se retrouvent dans la partie supeacuterieure de ce nuageet font preuve drsquoun contexte drsquoapparition plus geacuteneacuteral

60

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

Seacutemantique distributionnelle en linguistique de corpus

Figure 1 Visualisation des mots-cibles ou cooccurrents de lsquotourrsquo

4 CONCLUSION

Dans cet article nous avons preacutesenteacute les possibiliteacutes de la modeacutelisation seacuteman-tique distributionnelle pour les analyses linguistiques Gracircce agrave la disponibiliteacutede vastes corpus eacutelectroniques les lexicologues et lexicographes disposent denos jours drsquoune eacutenorme base de donneacutees empirique Pour analyser cette abon-dance de donneacutees ils pourront recourir agrave des outils drsquoanalyse statistique et agravedes meacutethodes drsquoanalyse distributionnelle qui leur permettront notamment derepeacuterer des patrons et motifs

Les meacutethodes drsquoanalyse distributionnelle srsquoappuient sur lrsquohypothegravese distri-butionnelle selon laquelle des mots qui se trouvent dans des contextes drsquoappa-rition similaires tendent agrave avoir des sens similaires Elles regroupent plusieursapproches et sous-types en fonction du type de contexte du niveau drsquoanalyse etdu mode de repreacutesentation computationnelle des donneacutees Nous avons expliqueacuteles principes de base de ces modegraveles agrave partir drsquoun modegravele distributionnel par-ticulier relativement intuitif pour des linguistes agrave savoir un modegravele agrave base de

Langages 201 61

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

La seacutemantique linguistique en vision peacuteripheacuterique

mots qui considegravere les cooccurrents graphiques au niveau des types sous formede repreacutesentation vectorielle Ce modegravele distributionnel permet non seulementde recenser des (dis)similariteacutes seacutemantiques entre diffeacuterents mots tels que lesexemples-jouets lsquochienrsquo lsquochatrsquo et lsquocafeacutersquo mais eacutegalement drsquoexplorer les diffeacuterentssens drsquoun mot particulier agrave partir des (dis)similariteacutes seacutemantiques entre ses cooc-currents Agrave titre drsquoexemple nous avons discuteacute une application lexicologiquequi consistait agrave regrouper les mots-cibles ou les cooccurrents du mot techniquelsquotourrsquo en fonction des valeurs drsquoassociation similaires avec des mots-contextessimilaires Ces proximiteacutes et distances seacutemantiques sont visualiseacutees en 2D pourpermettre aux chercheurs-linguistes non-informaticiens drsquoacceacuteder agrave la seacuteman-tique du mot lsquotourrsquo

Lrsquoobjectif de cet article eacutetait de montrer lrsquoutiliteacute des modegraveles seacutemantiquesdistributionnels pour les linguistes lexicologues et lexicographes agrave lrsquoaide drsquounepreacutesentation non technique des principes de base et drsquoune application lexicolo-gique concregravete Comme les diffeacuterentes approches et les nombreux sous-types demodegraveles le suggegraverent des recherches futures devront srsquoatteler agrave la mise au pointdes nombreux paramegravetres pour aboutir au modegravele qui soit le mieux adapteacute auxbesoins speacutecifiques de la recherche lexicologique ou lexicographique neacutecessaire

Reacutefeacuterences

BERNIER-COLBORNE G (2014) laquo Analyse distributionnelle de corpus speacutecialiseacutes pour lrsquoidentifica-tion de relations lexico-seacutemantiques raquo Actes du 21e Traitement Automatique des LanguesNaturelles (TALN2014) Atelier SemDis 2014 Marseille France 238-251

BERTELS A amp SPEELMAN D (2013) laquo Exploration seacutemantique visuelle agrave partir des cooccurrencesde deuxiegraveme et troisiegraveme ordre raquo Actes du 20e Traitement Automatique des LanguesNaturelles (TALN2013) Atelier SemDis 2013 Les Sables-drsquoOlonne France 126-139

BERTELS A amp SPEELMAN D (2014) laquo Analyse de positionnement multidimensionnel sur lecorpus speacutecialiseacute TALN raquo Actes du 21e Traitement Automatique des Langues Naturelles(TALN2014) Atelier SemDis 2014 Marseille France 252-265

BORG I amp GROENEN P (20052) Modern Multidimensional Scaling theory and applications NewYork Springer-Verlag

BOUAUD J et al (1997) laquo Regroupements issus de deacutependances syntaxiques en corpus cateacute-gorisation et confrontation agrave deux modeacutelisations conceptuelles raquo Actes des 1res journeacuteesIngeacutenierie des Connaissances Roskoff France 207-223

BRUNI E TRAN N K amp BARONI M (2014) ldquoMultimodal Distributional Semanticsrdquo Journal ofArtificial Intelligence Research 49 (1) 1-47

BULLINARIA J A amp LEVY J P (2007) ldquoExtracting Semantic Representations from Word Co-occurrence Statistics A Computational Studyrdquo Behavior Research Methods 39 510-526

CHURCH K W amp HANKS P (1989) ldquoWord association norms mutual information and lexico-graphyrdquo Proceedings of the 27th Annual Conference of the Association of ComputationalLinguistics Vancouver British Columbia 76-83

CLAVEAU V KIJAK E amp FERRET O (2014) laquo Explorer le graphe de voisinage pour ameacuteliorer lestheacutesaurus distributionnels raquo Actes du 21e Traitement Automatique des Langues Naturelles(TALN2014) Marseille France 220-231

62

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

Seacutemantique distributionnelle en linguistique de corpus

COOK P et al (2013) ldquoA lexicographic appraisal of an automatic approach for detecting newword-sensesrdquo Proceedings of the eLex 2013 Conference Tallinn Estonia 49-65

COX T F amp COX M A A (2001) Multidimensional Scaling Boca Raton (FL) Chapman amp Hall

CURRAN J R amp MOENS M (2002) ldquoImprovements in automatic thesaurus extractionrdquoProceedings of the ACL-02 Workshop on Unsupervised Lexical Acquisition Vol 9Stroudsburg (PA) USA 59-66

DESALLE Y et al (2014) laquo BACANAL Balades Aleacuteatoires Courtes pour ANAlyses LexicalesApplication agrave la substitution lexicale raquo Actes du 21e Traitement Automatique des LanguesNaturelles (TALN2014) Atelier SemDis 2014 Marseille France 206-217

DINU G THATER S amp LAUE S (2012) ldquoA comparison of models of word meaning in contextrdquoProceedings of the 2012 Conference of the North American Chapter of the Association forComputational Linguistics Human Language Technologies Atlanta (GA) USA 611-615

EVERT S (2004) The Statistics of Word Cooccurrences Word Pairs and CollocationsDissertation Institut fuumlr maschinelle Sprachverarbeitung University of Stuttgart

FABRE C et al (2014a) laquo Preacutesentation de lrsquoatelier SemDis 2014 seacutemantique distributionnellepour la substitution lexicale et lrsquoexploration de corpus speacutecialiseacutes raquo Actes du 21e TraitementAutomatique des Langues Naturelles (TALN2014) Atelier SemDis 2014 Marseille France196-205

FABRE C et al (2014b) laquo Ajuster lrsquoanalyse distributionnelle agrave un corpus speacutecialiseacute de petitetaille raquo Actes du 21e Traitement Automatique des Langues Naturelles (TALN2014) AtelierSemDis 2014 Marseille France 266-279

FERRET O (2010) laquo Similariteacute seacutemantique et extraction de synonymes agrave partir de corpus raquoActes du 17e Traitement Automatique des Langues Naturelles (TALN2010) MontreacutealCanada [httpwwwiroumontrealcasimfelipeTALN2010XmlPapersalltaln2010_submission_77pdf]

FERRET O (2014) laquo Utiliser un modegravele neuronal geacuteneacuterique pour la substitution lexicale raquo Actesdu 21e Traitement Automatique des Langues Naturelles (TALN2014) Atelier SemDis 2014Marseille France 218-227

FIRTH J R (1957) Papers in Linguistics 1934-1951 Oxford Oxford University Press

GEERAERTS D (2010) Theories of Lexical Semantics OxfordNew York Oxford University Press

GLYNN D (2010) ldquoTesting the Hypothesis Objectivity and Verification in Usage-Based CognitiveSemanticsrdquo in D Glynn amp K Fischer (eds) Quantitative Methods in Cognitive SemanticsCorpus-driven approaches BerlinNew York Mouton de Gruyter 239-270

HABERT B amp ZWEIGENBAUM P (2002) ldquoContextual acquisition of information categories whathas been done and what can be done automaticallyrdquo in B Nevin amp S Johnson (eds) TheLegacy of Zellig Harris Language and information into the 21st century Amsterdam JohnBenjamins 203-231

HARRIS Z (1954) ldquoDistributional structurerdquo Word 10 (23) 146-162

HEYLEN K et al (2014) ldquoMonitoring Polysemy Word Space Models as a Tool for Large-ScaleLexical Semantic Analysisrdquo Lingua International Review of General Linguistics 157 153-172

HEYLEN K SPEELMAN D amp GEERAERTS D (2012) ldquoLooking at word meaning An interactivevisualization of Semantic Vector Spaces for Dutch synsetsrdquo Proceedings of the EACL 2012Joint Workshop of LINGVIS et UNCLH Avignon France 16-24

KRUSKAL J B amp WISH M (1978) Multidimensional Scaling Sage University Paper series onQuantitative Applications in the Social Sciences number 07-011 Newbury Park (CA) SagePublications

Langages 201 63

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

La seacutemantique linguistique en vision peacuteripheacuterique

LANDAUER T K amp DUMAIS S T (1997) ldquoA solution to Platorsquos problem The latent semanticanalysis theory of acquisition induction and representation of knowledgerdquo PsychologicalReview 104 (2) 211-240

LUND K amp BURGESS C (1996) ldquoProducing high-dimensional semantic spaces from lexical co-occurrencerdquo Behavior Research Methods Instrumentation and Computers 28 203-208

MORARDO M amp VILLEMONTE DE LA CLERGERIE Eacute (2013) laquo Vers un environnement de production etde validation de ressources lexicales seacutemantiques raquo Actes du 20e Traitement Automatiquedes Langues Naturelles (TALN2013) Atelier SemDis 2013 Les Sables-drsquoOlonne France167-180

MORLANE-HONDEgraveRE F (2013) laquo Utiliser une base distributionnelle pour filtrer un dictionnaire desynonymes raquo Actes du 20e Traitement Automatique des Langues Naturelles (TALN2013)Atelier SemDis 2013 Les Sables-drsquoOlonne France 112-125

NAVIGLI R (2012) ldquoA Quick Tour of Word Sense Disambiguation Induction and RelatedApproachesrdquo Proceedings of the 38th Conference on Current Trends in Theory and Practiceof Computer Science (SOFSEM) Spindleruv Mlyn Czech Republic 115-129

PEIRSMAN Y GEERAERTS D amp SPEELMAN D (2010) ldquoThe automatic identification of lexical variationbetween language varietiesrdquo Natural Language Engineering 16 (4) 469-491

PEREK F (2014) ldquoVector spaces for historical linguistics Using distributional semantics tostudy syntactic productivity in diachrony raquo Proceedings of the 52nd Annual Meeting of theAssociation for Computational Linguistics Baltimore USA 309-314

PEacuteRINET A amp HAMON T (2014) laquo Analyse et proposition de paramegravetres distributionnels adapteacutesaux corpus de speacutecialiteacute raquo Actes des 12e Journeacutees internationales drsquoAnalyse statistiquedes Donneacutees Textuelles (JADT 2014) Paris France 507-518

SAGI E KAUFMANN S amp CLARK B (2009) ldquoSemantic density analysis Comparing word meaningacross time and phonetic spacerdquo Proceedings of the EACL 2009 Workshop on GEMSAthens Greece 104-111

SAHLGREN M (2006) The Word-Space Model Using distributional analysis to represent syntag-matic and paradigmatic relations between words in high-dimensional vector spaces PhDThesis Department of Linguistics Stockholm University

SINCLAIR J (1991) Corpus Concordance Collocation Oxford Oxford University Press

THANOPOULOS A FAKOTAKIS N amp KOKKINAKIS G (2002) ldquoComparative Evaluation of CollocationExtraction Metricsrdquo Proceedings of the 3rd Language Resources Evaluation ConferenceLas Palmas Spain 620-625

TURNEY P D amp PANTEL P (2010) ldquoFrom Frequency to Meaning Vector Space Models ofSemanticsrdquo Journal of Artificial Intelligence Research 37 (1) 141-188

VENABLES W N amp RIPLEY B D (20024) Modern Applied Statistics with S New York Springer-Verlag

WEAVER W (1955) ldquoTranslationrdquo in W N Locke amp A D Booth (eds) Machine Translation ofLanguages Cambridge (MA) The MIT Press 15-23

WIECHMANN D (2008) ldquoOn the Computation of Collostruction Strengthrdquo Corpus Linguistics andLinguistic Theory 4 (2) 253-290

64

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

La seacutemantique linguistique en vision peacuteripheacuterique

Cognitive pour modeacuteliser la meacutemoire lexicale (Landauer amp Dumais 1997 Lund amp Burgess 1996) Ensuite elles ont eacuteteacute deacuteveloppeacutees en LinguistiqueComputationnelle ougrave elles sont maintenant largement reacutepandues pour modeacute-liser lrsquoanalyse seacutemantique dans le domaine du Traitement Automatiquedes Langues (TAL) (Statistical Natural Language Processing) (voir Turney ampPantel 2010 pour un aperccedilu) Pour le franccedilais les travaux preacutecurseurs agrave la findes anneacutees 90 eacutetaient principalement consacreacutes agrave lrsquoapplication des meacutethodes dis-tributionnelles au traitement de corpus speacutecialiseacutes (Bouaud et al 1997 Habert ampZweigenbaum 2002) Eacutevoquons eacutegalement lrsquoorganisation drsquoune journeacutee ATALAen 1999 intituleacutee Approche distributionnelle de lrsquoanalyse seacutemantique (voir Fabreet al 2014a) Actuellement lrsquoanalyse distributionnelle est devenue un mode derepreacutesentation et drsquoexploitation incontournable dans les travaux sur le lexiqueet sur la seacutemantique lexicale (Fabre et al 2014b) comme en teacutemoignent lesdeux eacuteditions de lrsquoatelier laquo Seacutemantique Distributionnelle raquo SemDis 2013 (LesSables-drsquoOlonne) et SemDis 2014 (Marseille) Lrsquoeacutedition 2013 visait agrave rassemblerles eacutetudes et travaux sur le franccedilais dans le domaine de lrsquoanalyse distribu-tionnelle Lrsquoeacutedition 2014 permettait la confrontation de plusieurs meacutethodesdistributionnelles en proposant une tacircche compeacutetitive de substitution lexicalesur un corpus de taille importante et une tacircche exploratoire sur un petit corpusspeacutecialiseacute

22 Plusieurs approches et sous-types

Les meacutethodes drsquoanalyse distributionnelle srsquoappuient sur lrsquohypothegravese distribu-tionnelle (Firth 1957) selon laquelle des mots qui se trouvent dans des contextesdrsquoapparition similaires tendent agrave avoir des sens similaires Elles regroupent plu-sieurs approches et sous-types Trois dimensions sont importantes agrave cet effet letype de contexte le niveau drsquoanalyse et le mode de repreacutesentation computation-nelle

221 Type de contexte

Premiegraverement les meacutethodes et modegraveles diffegraverent en fonction du type decontexte pris en consideacuteration pour repreacutesenter le sens des mots On fait ladistinction entre les modegraveles dits laquo agrave base de documents raquo (document-based)et les modegraveles dits laquo agrave base de mots raquo (word-based) Dans les modegraveles agrave basede documents lrsquoanalyse seacutemantique drsquoun mot x srsquoappuie sur lrsquoobservationde lrsquooccurrence de x dans le contexte du document entier Les modegravelesanglosaxons originels sont des modegraveles agrave base de documents par exemplelrsquoanalyse seacutemantique latente (Latent Semantic Analysis ou LSA) (Landauer ampDumais 1997) Les modegraveles agrave base de mots par contre prennent comme pointde deacutepart lrsquooccurrence drsquoun mot x dans le contexte drsquoun autre mot Certainsmodegraveles agrave base de mots repreacutesentent chaque occurrence de x dans le corpuspar ses laquo cooccurrents graphiques raquo dans une fenecirctre de contexte donneacutee(Heylen Speelman amp Geeraerts 2012 Ferret 2010 2014 Bernier-Colborne 2014 Bertels amp Speelman 2013 2014 Peacuterinet amp Hamon 2014) Drsquoautres modegraveles agrave

54

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

Seacutemantique distributionnelle en linguistique de corpus

base de mots prennent en consideacuteration les relations de deacutependance syntaxiqueentre le mot x et ses laquo cooccurrents syntaxiques raquo (Morlane-Hondegravere 2013 Morardo amp Villemonte de La Clergerie 2013 Fabre et al 2014b) Les modegraveles agravebase de documents sont plus approprieacutes pour modeacuteliser des relations syntag-matiques et associatives par exemple entre meacutedecin et hocircpital ou entre voiture etrouler Les modegraveles agrave base de mots et plus particuliegraverement ceux qui srsquoappuientsur des informations de deacutependance syntaxique sont plus preacutecis et parviennentagrave mieux saisir des relations paradigmatiques comme les quasi-synonymeshocircpital et clinique (Sahlgren 2006) Certains travaux vont au-delagrave des contextesdrsquoapparition dans les textes (mots ou documents) pour inteacutegrer eacutegalement danslrsquoanalyse distributionnelle des laquo mots visuels raquo ou des images extraites agrave partirde techniques visuelles computationnelles ce qui aboutit agrave la laquo seacutemantiquedistributionnelle multimodale raquo (Bruni Tran amp Baroni 2014)

222 Niveau drsquoanalyse

Deuxiegravemement les modegraveles distributionnels permettent drsquoeacutetudier les motssoit au niveau des types (type-level) (Navigli 2012) soit au niveau des occurrencesindividuelles (token-level) (Dinu Thater amp Laue 2012) Les modegraveles au niveaudes types (type-level) tentent non seulement de distinguer un mot drsquoun autredans le but de deacutetecter la synonymie et les relations lexicales lieacutees (Curran ampMoens 2002) mais aussi de donner un aperccedilu des diffeacuterents sens drsquoun motpolyseacutemique (Bertels amp Speelman 2013) Or pour deacuteterminer le sens drsquouneseule occurrence particuliegravere les modegraveles au niveau des occurrences (token-level)essaient de distinguer un usage drsquoun mot donneacute drsquoun autre usage de ce mecircmemot pour ainsi eacutetudier sa polyseacutemie (Heylen et al 2014)

223 Repreacutesentation computationnelle

Troisiegravemement les modegraveles distributionnels diffegraverent en fonction du modede repreacutesentation computationnelle des donneacutees distributionnelles agrave savoir unerepreacutesentation sous forme de graphe (graph-based) (Morardo amp Villemonte de LaClergerie 2013 Desalle et al 2014 Claveau Kijak amp Ferret 2014) ou une repreacute-sentation vectorielle (vector-based) Les modegraveles vectoriels reposent sur la repreacute-sentation matricielle des mots dans un espace vectoriel Il srsquoagit par exempledrsquoune matrice mots times mots qui vise agrave caracteacuteriser les mots agrave partir de leurscooccurrents graphiques ou drsquoune matrice mots times relations de deacutependance quipermet de caracteacuteriser les mots en fonction de leurs cooccurrents syntaxiquesIl est important de reacuteduire le nombre eacuteleveacute de caracteacuteristiques contextuelles(context features) agrave un nombre limiteacute de laquo dimensions seacutemantiques raquo soit pour untraitement computationnel efficace (p ex Ferret 2010 2014) soit pour une visua-lisation qui permet aux chercheurs-linguistes drsquoacceacuteder plus facilement aux rela-tions seacutemantiques qui se deacutegagent (p ex Heylen Speelman amp Geeraerts 2012)Dans la description de lrsquoapplication lexicologique (cf sect 3) nous discutons enguise drsquoexemple la technique du positionnement multidimensionnel

Langages 201 55

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

La seacutemantique linguistique en vision peacuteripheacuterique

23 Explication deacutetailleacutee des principes de base

Pour expliquer les principes de base des modegraveles seacutemantiques distributionnelsnous recourons agrave un modegravele distributionnel particulier agrave savoir un modegravele agravebase de mots (word-based) qui considegravere les cooccurrents graphiques au niveaudes types (type-level) sous forme de repreacutesentation vectorielle (vector-based)Lrsquoapplication lexicologique discuteacutee dans la section suivante repose sur ce mecircmemodegravele

Nous faisons appel agrave un exemple pour eacutetudier trois mots-cibles agrave savoir chienchat et cafeacute dans un petit corpus laquo jouet raquo de six phrases-exemples

(1) Le chien aboie fort contre les passants(2) Le veacuteteacuterinaire prend le chien par le cou

(3) Le chat ronronne fort(4) Le veacuteteacuterinaire srsquoest fait griffer par le chat en le prenant

(5) On boit plus de cafeacute que de theacute(6) Le veacuteteacuterinaire prend sa tasse et boit son cafeacute

Ce petit corpus laquo jouet raquo peut ecirctre repreacutesenteacute sous forme de table de freacutequenceavec les mots-cibles en ligne et les caracteacuteristiques contextuelles ou les laquo mots-contextes raquo en colonne Nous recourons au modegravele le plus simple possibleie celui qui ignore les relations de deacutependance syntaxique et qui recense simple-ment les freacutequences absolues des noms verbes et adverbes Les freacutequences sontindiqueacutees dans la matrice de cooccurrence infra (cf Tableau 2) Le fait drsquoignorerles relations syntaxiques est qualifieacute drsquoapproche laquo sac de mots raquo (Bag-of-Wordsapproach) en recherche drsquoinformations Dans un exemple issu du monde reacuteel etdans un grand corpus il y a beaucoup plus de mots-contextes (dans les colonnes)geacuteneacuteralement plusieurs milliers et bien sucircr les freacutequences sont largement supeacute-rieures agrave 2

Tableau 2 Matrice de cooccurrence pour les mots-cibles chien chat et cafeacute

aboyer passant veacuteteacuterinaire prendre cou ronronner fort griffer boire plus theacute tasse

chien 1 1 1 1 1 0 1 0 0 0 0 0

chat 0 0 1 1 0 1 1 1 0 0 0 0

cafeacute 0 0 1 1 0 0 0 0 2 1 1 1

Les freacutequences de cooccurrence peuvent ecirctre interpreacuteteacutees comme les coordon-neacutees qui permettent de situer chien chat et cafeacute dans un espace seacutemantique mul-tidimensionnel ougrave chaque cooccurrent repreacutesente une dimension particuliegravereSi lrsquoon poursuit les explications dans cette meacutetaphore geacuteomeacutetrique on pourraeacutegalement calculer la distance entre deux mots dans cet espace seacutemantiquemultidimensionnel pour ainsi mesurer la distance entre leur sens En pratiqueon fait appel agrave lrsquoalgegravebre des vecteurs pour calculer la similariteacute entre les troismots-cibles En effet chaque mot-cible peut ecirctre repreacutesenteacute par le vecteur de

56

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

Seacutemantique distributionnelle en linguistique de corpus

ses cooccurrents ou mots-contextes Les donneacutees distributionnelles prennentdonc la forme drsquoun vecteur de cooccurrents Les mots-cibles qui partagent descooccurrents auront une repreacutesentation vectorielle semblable Une mesure desimilariteacute permet ensuite de comparer les vecteurs et de calculer leur distancedans lrsquoespace vectoriel La similariteacute entre les vecteurs des trois mots-cibles estcalculeacutee agrave partir du cosinus de lrsquoangle entre eux Le cosinus est une mesure desimilariteacute standard en seacutemantique distributionnelle (Bullinaria amp Levy 2007 Ferret 2010) Intuitivement on srsquoattend agrave ce que lrsquoangle entre deux conceptssimilaires (p ex chien et chat) soit plus petit que celui entre deux mots diffeacuterents(p ex chien et cafeacute) En drsquoautres termes quand les distributions de mots sont peusimilaires la valeur de similariteacute cosinus est infeacuterieure

cos(chien chat) = 055cos(chien cafeacute) = 027cos(chat cafeacute) = 030

Le reacutesultat correspond agrave lrsquointuition lsquochienrsquo et lsquochatrsquo se ressemblent le plus tandisque lsquochienrsquo et lsquocafeacutersquo partagent le moins de cooccurrences Il est agrave noter que lsquochienrsquoressemble un peu moins (027) agrave lsquocafeacutersquo que lsquochatrsquo (030) parce que lsquochienrsquo apparaicirctaussi avec lsquoaboyerrsquo et lsquopassantrsquo contrairement agrave lsquochatrsquo et lsquocafeacutersquo

Lrsquoimpleacutementation de cette technique aux exemples et au corpus du mondereacuteel ne srsquoappuie pas sur des freacutequences de cooccurrence absolues entre le mot-cible et ses cooccurrents Les cooccurrents les plus freacutequents ne donnent pasneacutecessairement le plus drsquoinformations sur la signification du mot-cible Agrave lrsquoinstardes travaux sur les collocations les meacutethodes drsquoanalyse distributionnelle srsquoap-puient sur des mesures drsquoassociation statistiques ce qui permet de donner plusde poids aux cooccurrents qui apparaissent significativement plus souvent avecle mot-cible qursquoattendu par le hasard Ces cooccurrents avec un poids plus eacuteleveacutefournissent plus drsquoinformations sur le sens du mot-cible que les autres cooccur-rents quelle que soit leur freacutequence absolue Dans lrsquoexemple avec le mot-ciblelsquochienrsquo le cooccurrent lsquoveacuteteacuterinairersquo est seacutemantiquement plus proche du conceptlaquo animal raquo que le mot lsquoprendrersquo bien qursquoil soit moins freacutequent Les mesuresdrsquoassociation qui sont utiliseacutees dans les modegraveles seacutemantiques distributionnelscomme fonctions de pondeacuteration sont emprunteacutees aux analyses de collocationsLes scheacutemas de pondeacuteration appliqueacutes dans cette eacutetude de cas reposent sur lamesure de lrsquoinformation mutuelle ponctuelle (Pointwise Mutual Information ouPMI) Les deacutetails techniques des mesures pour la pondeacuteration deacutepassent le cadredu preacutesent article mais on pourra se reacutefeacuterer agrave A Thanapoulos N Fakotakis etG Kokkinakis (2002) pour une comparaison de plusieurs mesures statistiquesPour calculer la valeur drsquoassociation on srsquoappuie sur les freacutequences de cooccur-rence recueillies dans un grand corpus Supposons que veacuteteacuterinaire a un poidscollocationnel de 43 srsquoil apparaicirct avec chien de 35 avec chat et de 08 aveccafeacute Ensuite le calcul de la similariteacute cosinus agrave partir des poids collocationnelsindique drsquoune part que chien et chat sont plus similaires que dans le calcul nonpondeacutereacute et drsquoautre part qursquoils sont moins similaires agrave cafeacute

Langages 201 57

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

La seacutemantique linguistique en vision peacuteripheacuterique

cos(chien chat) = 087cos(chien cafeacute) = 031cos(chat cafeacute) = 032

Le calcul pondeacutereacute de la similariteacute cosinus entre toutes les paires de mots-ciblespermet de geacuteneacuterer une matrice de similariteacute avec les mots-cibles tant dans leslignes que dans les colonnes et avec la valeur de similariteacute cosinus par pairede mots-cibles dans les cellules Les eacuteleacutements de la diagonale sont tous deslsquo1rsquo chaque mot-cible eacutetant complegravetement similaire agrave lui-mecircme La matrice estsymeacutetrique avec des valeurs identiques de part et drsquoautre de la diagonale parceque la similariteacute cosinus entre les mots A et B est identique agrave celle entre lesmots B et A Le Tableau 3 infra visualise les similariteacutes cosinus pour nos troismots-cibles exemples Dans un grand corpus du monde reacuteel on pourra trouverainsi pour chaque mot-cible le mot le plus similaire dans le reste du vocabulaireEacutetant donneacute que des mots tregraves similaires sont souvent des (quasi-)synonymesce type de matrice de similariteacute mot-par-mot est souvent utiliseacute en linguistiquecomputationnelle pour des tacircches drsquoextraction automatique de synonymes

Tableau 3 Matrice des valeurs de similariteacute cosinus

chat cafeacute chien

chat 1 032 087

cafeacute 032 1 031

chien 087 031 1

3 APPLICATION LEXICOLOGIQUE

Les meacutethodes drsquoanalyse distributionnelle se precirctent agrave diverses applicationslexicologiques et lexicographiques notamment la seacutelection automatique dephrases-exemples pour les dictionnaires (Cook et al 2013) lrsquoeacutetude diachroniquede la seacutemantique (Sagi Kaufmann amp Clark 2009 Perek 2014) et lrsquoeacutetude dela variation socio-linguistique (Peirsman Geeraerts amp Speelman 2010) Nouspreacutesentons infra une eacutetude de la polyseacutemie dans la langue speacutecialiseacutee Le modegraveledistributionnel expliqueacute dans la section preacuteceacutedente permet non seulement derecenser des (dis)similariteacutes seacutemantiques entre diffeacuterents mots tels que lsquochienrsquolsquochatrsquo et lsquocafeacutersquo mais eacutegalement drsquoexplorer les diffeacuterents sens drsquoun mot particulieragrave partir des (dis)similariteacutes seacutemantiques entre ses cooccurrents

Nous proceacutedons agrave lrsquoanalyse exploratoire de la polyseacutemie ou de lrsquoheacuteteacuterogeacute-neacuteiteacute seacutemantique du mot lsquotourrsquo dans un corpus technique relevant du domainespeacutecialiseacute des machines-outils pour lrsquousinage des meacutetaux (17 millions drsquooccur-rences) Ce mot a en effet plusieurs sens techniques dans ce corpus speacutecialiseacuteagrave savoir laquo machine-outil pour lrsquousinage des piegraveces raquo et laquo rotation raquo ainsi queplusieurs sens geacuteneacuteraux notamment dans les expressions tour drsquohorizon et agrave tourde rocircle Comme nous lrsquoavons indiqueacute supra (cf sect 2) la plupart des analyses en

58

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

Seacutemantique distributionnelle en linguistique de corpus

seacutemantique distributionnelle eacutetudient la proximiteacute seacutemantique entre mots enfonction des mots-contextes partageacutes Dans notre eacutetude lrsquoobjet drsquoanalyse se situeagrave un niveau supeacuterieur Les mots-cibles (cf Tableau 2) dont nous essayons drsquoeacutetu-dier les (dis)similariteacutes seacutemantiques sont les cooccurrents de lsquotourrsquo parce queceux-ci reflegravetent les diffeacuterents sens et usages de lsquotourrsquo dans le corpus techniqueNotre analyse consiste agrave regrouper les mots-cibles en fonction de leurs mots-contextes et agrave les positionner les uns par rapport aux autres en 2D Ces analysesde regroupement (clustering) et de visualisation (plotting) des cooccurrents per-mettent de cerner des groupes de cooccurrents seacutemantiquement lieacutes pour ainsiacceacuteder agrave la seacutemantique du mot lsquotourrsquo

Pour identifier les mots-cibles ou les cooccurrents pertinent de lsquotourrsquo ainsique leurs mots-contextes pertinents nous nous appuyons sur la mesure drsquoas-sociation de lrsquoinformation mutuelle speacutecifique ou Pointwise Mutual Information(PMI) Pour le regroupement et la visualisation des mots-cibles nous recouronsagrave lrsquoanalyse de positionnement multidimensionnel (MultiDimensional Scaling ouMDS) (Kruskal amp Wish 1978 Cox amp Cox 2001 Venables amp Ripley 2002 Borg ampGroenen 2005) La technique de MDS 3 est impleacutementeacutee dans le logiciel drsquoanalysestatistique R 4 Dans nos analyses nous utilisons le positionnement non meacutetriqueisoMDS Cette technique permet drsquoanalyser une matrice pour un ensemble dedonneacutees disposeacutees en ligne (ici les mots-cibles) agrave partir de leurs valeurs pourplusieurs variables disposeacutees en colonne (ici les mots-contextes) (cf Tableau 4)Dans un premier temps ces valeurs sont les valeurs drsquoassociation PMI entreun mot-cible et un mot-contexte avec lequel il apparaicirct Cela permet de geacuteneacute-rer un vecteur par mot-cible avec toutes les valeurs drsquoassociation avec tous sesmots-contextes Au cas ougrave cette matrice serait trop creuse nous pourrions enri-chir les donneacutees en faisant appel aux cooccurrents des mots-contextes Pour lesdeacutetails sur lrsquoenrichissement de la matrice on pourra se reacutefeacuterer agrave A Bertels etD Speelman (2013) Dans un deuxiegraveme temps le calcul pondeacutereacute de la similariteacutecosinus entre toutes les paires de mots-cibles permet de geacuteneacuterer une matrice desimilariteacute agrave lrsquoinstar du Tableau 3

3 Le MDS est une meacutethode drsquoanalyse multivarieacutee descriptive comme lrsquoanalyse factorielle des correspon-dances (AFC) ou lrsquoanalyse en composantes principales (ACP) Agrave la diffeacuterence de ces techniques le MDSpermet drsquoanalyser tout type de matrice de (dis)similariteacute si les (dis)similariteacutes sont eacutevidentes Le MDS nrsquoim-pose pas de restrictions telles que des relations lineacuteaires entre les donneacutees sous-jacentes leur distributionnormale multivarieacutee ou la matrice de correacutelation [httpwwwstatsoftcomtextbookstmulscahtml]

4 R [wwwr-projectorg]

Langages 201 59

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

La seacutemantique linguistique en vision peacuteripheacuterique

Tableau 4 Matrice de cooccurrence pondeacutereacutee mots-cibles par mots-contextes

minute par commande broche

millevaleur drsquoassociation (PMI)

entre mille et minutePMI

numeacuterique PMI

inverseacute PMI

horizon

La matrice de similariteacute est ensuite soumise agrave une analyse de positionnementmultidimensionnel qui consiste agrave regrouper les mots-cibles ou les cooccurrentsde lsquotourrsquo en fonction des valeurs drsquoassociation similaires avec des mots-contextessimilaires et agrave visualiser ces proximiteacutes et distances seacutemantiques en 2D Cettevisualisation permettra aux chercheurs-linguistes non-informaticiens drsquoacceacutederagrave la seacutemantique du mot lsquotourrsquo

Dans la Figure 1 infra la reacutepartition des mots-cibles repreacutesente bien le carac-tegravere seacutemantiquement heacuteteacuterogegravene de lsquotourrsquo Les proximiteacutes et les distances seacuteman-tiques montrent quelques mots-cibles isoleacutes et quelques groupes de mots-ciblesseacutemantiquement lieacutes Les mots-cibles peacuteripheacuteriques pointent vers des sens par-ticuliers agrave savoir horizon (sens geacuteneacuteral dans laquo tour drsquohorizon raquo) et mille (senstechnique dans laquo mille tours par minute raquo) Dans la partie supeacuterieure agrave droiteon retrouve des mots-cibles qui attestent le sens technique particulier laquo tourinverseacute raquo avec inverseacutes inverseacute et bibroches Le nuage de mots-cibles dans lapartie infeacuterieure agrave gauche visualise le sens technique laquo machine-outil pour lrsquousi-nage des piegraveces raquo La preacutesence de plusieurs petits regroupements de mots-ciblesteacutemoigne de la variation des contextes drsquoapparition On observe un contextespeacutecialiseacute laquo tour (agrave) deux broches raquo agrave gauche en bas axes broches broche outilsdeux trois centres et mecircme au milieu vertical et verticaux Agrave gauche au milieu onretrouve commande numeacuterique CNC gamme seacuterie type et quelques mots-ciblesmoins speacutecialiseacutes Les mots-cibles plus geacuteneacuteraux comme manutention ligne geacuteneacute-rale production et conception se retrouvent dans la partie supeacuterieure de ce nuageet font preuve drsquoun contexte drsquoapparition plus geacuteneacuteral

60

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

Seacutemantique distributionnelle en linguistique de corpus

Figure 1 Visualisation des mots-cibles ou cooccurrents de lsquotourrsquo

4 CONCLUSION

Dans cet article nous avons preacutesenteacute les possibiliteacutes de la modeacutelisation seacuteman-tique distributionnelle pour les analyses linguistiques Gracircce agrave la disponibiliteacutede vastes corpus eacutelectroniques les lexicologues et lexicographes disposent denos jours drsquoune eacutenorme base de donneacutees empirique Pour analyser cette abon-dance de donneacutees ils pourront recourir agrave des outils drsquoanalyse statistique et agravedes meacutethodes drsquoanalyse distributionnelle qui leur permettront notamment derepeacuterer des patrons et motifs

Les meacutethodes drsquoanalyse distributionnelle srsquoappuient sur lrsquohypothegravese distri-butionnelle selon laquelle des mots qui se trouvent dans des contextes drsquoappa-rition similaires tendent agrave avoir des sens similaires Elles regroupent plusieursapproches et sous-types en fonction du type de contexte du niveau drsquoanalyse etdu mode de repreacutesentation computationnelle des donneacutees Nous avons expliqueacuteles principes de base de ces modegraveles agrave partir drsquoun modegravele distributionnel par-ticulier relativement intuitif pour des linguistes agrave savoir un modegravele agrave base de

Langages 201 61

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

La seacutemantique linguistique en vision peacuteripheacuterique

mots qui considegravere les cooccurrents graphiques au niveau des types sous formede repreacutesentation vectorielle Ce modegravele distributionnel permet non seulementde recenser des (dis)similariteacutes seacutemantiques entre diffeacuterents mots tels que lesexemples-jouets lsquochienrsquo lsquochatrsquo et lsquocafeacutersquo mais eacutegalement drsquoexplorer les diffeacuterentssens drsquoun mot particulier agrave partir des (dis)similariteacutes seacutemantiques entre ses cooc-currents Agrave titre drsquoexemple nous avons discuteacute une application lexicologiquequi consistait agrave regrouper les mots-cibles ou les cooccurrents du mot techniquelsquotourrsquo en fonction des valeurs drsquoassociation similaires avec des mots-contextessimilaires Ces proximiteacutes et distances seacutemantiques sont visualiseacutees en 2D pourpermettre aux chercheurs-linguistes non-informaticiens drsquoacceacuteder agrave la seacuteman-tique du mot lsquotourrsquo

Lrsquoobjectif de cet article eacutetait de montrer lrsquoutiliteacute des modegraveles seacutemantiquesdistributionnels pour les linguistes lexicologues et lexicographes agrave lrsquoaide drsquounepreacutesentation non technique des principes de base et drsquoune application lexicolo-gique concregravete Comme les diffeacuterentes approches et les nombreux sous-types demodegraveles le suggegraverent des recherches futures devront srsquoatteler agrave la mise au pointdes nombreux paramegravetres pour aboutir au modegravele qui soit le mieux adapteacute auxbesoins speacutecifiques de la recherche lexicologique ou lexicographique neacutecessaire

Reacutefeacuterences

BERNIER-COLBORNE G (2014) laquo Analyse distributionnelle de corpus speacutecialiseacutes pour lrsquoidentifica-tion de relations lexico-seacutemantiques raquo Actes du 21e Traitement Automatique des LanguesNaturelles (TALN2014) Atelier SemDis 2014 Marseille France 238-251

BERTELS A amp SPEELMAN D (2013) laquo Exploration seacutemantique visuelle agrave partir des cooccurrencesde deuxiegraveme et troisiegraveme ordre raquo Actes du 20e Traitement Automatique des LanguesNaturelles (TALN2013) Atelier SemDis 2013 Les Sables-drsquoOlonne France 126-139

BERTELS A amp SPEELMAN D (2014) laquo Analyse de positionnement multidimensionnel sur lecorpus speacutecialiseacute TALN raquo Actes du 21e Traitement Automatique des Langues Naturelles(TALN2014) Atelier SemDis 2014 Marseille France 252-265

BORG I amp GROENEN P (20052) Modern Multidimensional Scaling theory and applications NewYork Springer-Verlag

BOUAUD J et al (1997) laquo Regroupements issus de deacutependances syntaxiques en corpus cateacute-gorisation et confrontation agrave deux modeacutelisations conceptuelles raquo Actes des 1res journeacuteesIngeacutenierie des Connaissances Roskoff France 207-223

BRUNI E TRAN N K amp BARONI M (2014) ldquoMultimodal Distributional Semanticsrdquo Journal ofArtificial Intelligence Research 49 (1) 1-47

BULLINARIA J A amp LEVY J P (2007) ldquoExtracting Semantic Representations from Word Co-occurrence Statistics A Computational Studyrdquo Behavior Research Methods 39 510-526

CHURCH K W amp HANKS P (1989) ldquoWord association norms mutual information and lexico-graphyrdquo Proceedings of the 27th Annual Conference of the Association of ComputationalLinguistics Vancouver British Columbia 76-83

CLAVEAU V KIJAK E amp FERRET O (2014) laquo Explorer le graphe de voisinage pour ameacuteliorer lestheacutesaurus distributionnels raquo Actes du 21e Traitement Automatique des Langues Naturelles(TALN2014) Marseille France 220-231

62

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

Seacutemantique distributionnelle en linguistique de corpus

COOK P et al (2013) ldquoA lexicographic appraisal of an automatic approach for detecting newword-sensesrdquo Proceedings of the eLex 2013 Conference Tallinn Estonia 49-65

COX T F amp COX M A A (2001) Multidimensional Scaling Boca Raton (FL) Chapman amp Hall

CURRAN J R amp MOENS M (2002) ldquoImprovements in automatic thesaurus extractionrdquoProceedings of the ACL-02 Workshop on Unsupervised Lexical Acquisition Vol 9Stroudsburg (PA) USA 59-66

DESALLE Y et al (2014) laquo BACANAL Balades Aleacuteatoires Courtes pour ANAlyses LexicalesApplication agrave la substitution lexicale raquo Actes du 21e Traitement Automatique des LanguesNaturelles (TALN2014) Atelier SemDis 2014 Marseille France 206-217

DINU G THATER S amp LAUE S (2012) ldquoA comparison of models of word meaning in contextrdquoProceedings of the 2012 Conference of the North American Chapter of the Association forComputational Linguistics Human Language Technologies Atlanta (GA) USA 611-615

EVERT S (2004) The Statistics of Word Cooccurrences Word Pairs and CollocationsDissertation Institut fuumlr maschinelle Sprachverarbeitung University of Stuttgart

FABRE C et al (2014a) laquo Preacutesentation de lrsquoatelier SemDis 2014 seacutemantique distributionnellepour la substitution lexicale et lrsquoexploration de corpus speacutecialiseacutes raquo Actes du 21e TraitementAutomatique des Langues Naturelles (TALN2014) Atelier SemDis 2014 Marseille France196-205

FABRE C et al (2014b) laquo Ajuster lrsquoanalyse distributionnelle agrave un corpus speacutecialiseacute de petitetaille raquo Actes du 21e Traitement Automatique des Langues Naturelles (TALN2014) AtelierSemDis 2014 Marseille France 266-279

FERRET O (2010) laquo Similariteacute seacutemantique et extraction de synonymes agrave partir de corpus raquoActes du 17e Traitement Automatique des Langues Naturelles (TALN2010) MontreacutealCanada [httpwwwiroumontrealcasimfelipeTALN2010XmlPapersalltaln2010_submission_77pdf]

FERRET O (2014) laquo Utiliser un modegravele neuronal geacuteneacuterique pour la substitution lexicale raquo Actesdu 21e Traitement Automatique des Langues Naturelles (TALN2014) Atelier SemDis 2014Marseille France 218-227

FIRTH J R (1957) Papers in Linguistics 1934-1951 Oxford Oxford University Press

GEERAERTS D (2010) Theories of Lexical Semantics OxfordNew York Oxford University Press

GLYNN D (2010) ldquoTesting the Hypothesis Objectivity and Verification in Usage-Based CognitiveSemanticsrdquo in D Glynn amp K Fischer (eds) Quantitative Methods in Cognitive SemanticsCorpus-driven approaches BerlinNew York Mouton de Gruyter 239-270

HABERT B amp ZWEIGENBAUM P (2002) ldquoContextual acquisition of information categories whathas been done and what can be done automaticallyrdquo in B Nevin amp S Johnson (eds) TheLegacy of Zellig Harris Language and information into the 21st century Amsterdam JohnBenjamins 203-231

HARRIS Z (1954) ldquoDistributional structurerdquo Word 10 (23) 146-162

HEYLEN K et al (2014) ldquoMonitoring Polysemy Word Space Models as a Tool for Large-ScaleLexical Semantic Analysisrdquo Lingua International Review of General Linguistics 157 153-172

HEYLEN K SPEELMAN D amp GEERAERTS D (2012) ldquoLooking at word meaning An interactivevisualization of Semantic Vector Spaces for Dutch synsetsrdquo Proceedings of the EACL 2012Joint Workshop of LINGVIS et UNCLH Avignon France 16-24

KRUSKAL J B amp WISH M (1978) Multidimensional Scaling Sage University Paper series onQuantitative Applications in the Social Sciences number 07-011 Newbury Park (CA) SagePublications

Langages 201 63

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

La seacutemantique linguistique en vision peacuteripheacuterique

LANDAUER T K amp DUMAIS S T (1997) ldquoA solution to Platorsquos problem The latent semanticanalysis theory of acquisition induction and representation of knowledgerdquo PsychologicalReview 104 (2) 211-240

LUND K amp BURGESS C (1996) ldquoProducing high-dimensional semantic spaces from lexical co-occurrencerdquo Behavior Research Methods Instrumentation and Computers 28 203-208

MORARDO M amp VILLEMONTE DE LA CLERGERIE Eacute (2013) laquo Vers un environnement de production etde validation de ressources lexicales seacutemantiques raquo Actes du 20e Traitement Automatiquedes Langues Naturelles (TALN2013) Atelier SemDis 2013 Les Sables-drsquoOlonne France167-180

MORLANE-HONDEgraveRE F (2013) laquo Utiliser une base distributionnelle pour filtrer un dictionnaire desynonymes raquo Actes du 20e Traitement Automatique des Langues Naturelles (TALN2013)Atelier SemDis 2013 Les Sables-drsquoOlonne France 112-125

NAVIGLI R (2012) ldquoA Quick Tour of Word Sense Disambiguation Induction and RelatedApproachesrdquo Proceedings of the 38th Conference on Current Trends in Theory and Practiceof Computer Science (SOFSEM) Spindleruv Mlyn Czech Republic 115-129

PEIRSMAN Y GEERAERTS D amp SPEELMAN D (2010) ldquoThe automatic identification of lexical variationbetween language varietiesrdquo Natural Language Engineering 16 (4) 469-491

PEREK F (2014) ldquoVector spaces for historical linguistics Using distributional semantics tostudy syntactic productivity in diachrony raquo Proceedings of the 52nd Annual Meeting of theAssociation for Computational Linguistics Baltimore USA 309-314

PEacuteRINET A amp HAMON T (2014) laquo Analyse et proposition de paramegravetres distributionnels adapteacutesaux corpus de speacutecialiteacute raquo Actes des 12e Journeacutees internationales drsquoAnalyse statistiquedes Donneacutees Textuelles (JADT 2014) Paris France 507-518

SAGI E KAUFMANN S amp CLARK B (2009) ldquoSemantic density analysis Comparing word meaningacross time and phonetic spacerdquo Proceedings of the EACL 2009 Workshop on GEMSAthens Greece 104-111

SAHLGREN M (2006) The Word-Space Model Using distributional analysis to represent syntag-matic and paradigmatic relations between words in high-dimensional vector spaces PhDThesis Department of Linguistics Stockholm University

SINCLAIR J (1991) Corpus Concordance Collocation Oxford Oxford University Press

THANOPOULOS A FAKOTAKIS N amp KOKKINAKIS G (2002) ldquoComparative Evaluation of CollocationExtraction Metricsrdquo Proceedings of the 3rd Language Resources Evaluation ConferenceLas Palmas Spain 620-625

TURNEY P D amp PANTEL P (2010) ldquoFrom Frequency to Meaning Vector Space Models ofSemanticsrdquo Journal of Artificial Intelligence Research 37 (1) 141-188

VENABLES W N amp RIPLEY B D (20024) Modern Applied Statistics with S New York Springer-Verlag

WEAVER W (1955) ldquoTranslationrdquo in W N Locke amp A D Booth (eds) Machine Translation ofLanguages Cambridge (MA) The MIT Press 15-23

WIECHMANN D (2008) ldquoOn the Computation of Collostruction Strengthrdquo Corpus Linguistics andLinguistic Theory 4 (2) 253-290

64

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

Seacutemantique distributionnelle en linguistique de corpus

base de mots prennent en consideacuteration les relations de deacutependance syntaxiqueentre le mot x et ses laquo cooccurrents syntaxiques raquo (Morlane-Hondegravere 2013 Morardo amp Villemonte de La Clergerie 2013 Fabre et al 2014b) Les modegraveles agravebase de documents sont plus approprieacutes pour modeacuteliser des relations syntag-matiques et associatives par exemple entre meacutedecin et hocircpital ou entre voiture etrouler Les modegraveles agrave base de mots et plus particuliegraverement ceux qui srsquoappuientsur des informations de deacutependance syntaxique sont plus preacutecis et parviennentagrave mieux saisir des relations paradigmatiques comme les quasi-synonymeshocircpital et clinique (Sahlgren 2006) Certains travaux vont au-delagrave des contextesdrsquoapparition dans les textes (mots ou documents) pour inteacutegrer eacutegalement danslrsquoanalyse distributionnelle des laquo mots visuels raquo ou des images extraites agrave partirde techniques visuelles computationnelles ce qui aboutit agrave la laquo seacutemantiquedistributionnelle multimodale raquo (Bruni Tran amp Baroni 2014)

222 Niveau drsquoanalyse

Deuxiegravemement les modegraveles distributionnels permettent drsquoeacutetudier les motssoit au niveau des types (type-level) (Navigli 2012) soit au niveau des occurrencesindividuelles (token-level) (Dinu Thater amp Laue 2012) Les modegraveles au niveaudes types (type-level) tentent non seulement de distinguer un mot drsquoun autredans le but de deacutetecter la synonymie et les relations lexicales lieacutees (Curran ampMoens 2002) mais aussi de donner un aperccedilu des diffeacuterents sens drsquoun motpolyseacutemique (Bertels amp Speelman 2013) Or pour deacuteterminer le sens drsquouneseule occurrence particuliegravere les modegraveles au niveau des occurrences (token-level)essaient de distinguer un usage drsquoun mot donneacute drsquoun autre usage de ce mecircmemot pour ainsi eacutetudier sa polyseacutemie (Heylen et al 2014)

223 Repreacutesentation computationnelle

Troisiegravemement les modegraveles distributionnels diffegraverent en fonction du modede repreacutesentation computationnelle des donneacutees distributionnelles agrave savoir unerepreacutesentation sous forme de graphe (graph-based) (Morardo amp Villemonte de LaClergerie 2013 Desalle et al 2014 Claveau Kijak amp Ferret 2014) ou une repreacute-sentation vectorielle (vector-based) Les modegraveles vectoriels reposent sur la repreacute-sentation matricielle des mots dans un espace vectoriel Il srsquoagit par exempledrsquoune matrice mots times mots qui vise agrave caracteacuteriser les mots agrave partir de leurscooccurrents graphiques ou drsquoune matrice mots times relations de deacutependance quipermet de caracteacuteriser les mots en fonction de leurs cooccurrents syntaxiquesIl est important de reacuteduire le nombre eacuteleveacute de caracteacuteristiques contextuelles(context features) agrave un nombre limiteacute de laquo dimensions seacutemantiques raquo soit pour untraitement computationnel efficace (p ex Ferret 2010 2014) soit pour une visua-lisation qui permet aux chercheurs-linguistes drsquoacceacuteder plus facilement aux rela-tions seacutemantiques qui se deacutegagent (p ex Heylen Speelman amp Geeraerts 2012)Dans la description de lrsquoapplication lexicologique (cf sect 3) nous discutons enguise drsquoexemple la technique du positionnement multidimensionnel

Langages 201 55

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

La seacutemantique linguistique en vision peacuteripheacuterique

23 Explication deacutetailleacutee des principes de base

Pour expliquer les principes de base des modegraveles seacutemantiques distributionnelsnous recourons agrave un modegravele distributionnel particulier agrave savoir un modegravele agravebase de mots (word-based) qui considegravere les cooccurrents graphiques au niveaudes types (type-level) sous forme de repreacutesentation vectorielle (vector-based)Lrsquoapplication lexicologique discuteacutee dans la section suivante repose sur ce mecircmemodegravele

Nous faisons appel agrave un exemple pour eacutetudier trois mots-cibles agrave savoir chienchat et cafeacute dans un petit corpus laquo jouet raquo de six phrases-exemples

(1) Le chien aboie fort contre les passants(2) Le veacuteteacuterinaire prend le chien par le cou

(3) Le chat ronronne fort(4) Le veacuteteacuterinaire srsquoest fait griffer par le chat en le prenant

(5) On boit plus de cafeacute que de theacute(6) Le veacuteteacuterinaire prend sa tasse et boit son cafeacute

Ce petit corpus laquo jouet raquo peut ecirctre repreacutesenteacute sous forme de table de freacutequenceavec les mots-cibles en ligne et les caracteacuteristiques contextuelles ou les laquo mots-contextes raquo en colonne Nous recourons au modegravele le plus simple possibleie celui qui ignore les relations de deacutependance syntaxique et qui recense simple-ment les freacutequences absolues des noms verbes et adverbes Les freacutequences sontindiqueacutees dans la matrice de cooccurrence infra (cf Tableau 2) Le fait drsquoignorerles relations syntaxiques est qualifieacute drsquoapproche laquo sac de mots raquo (Bag-of-Wordsapproach) en recherche drsquoinformations Dans un exemple issu du monde reacuteel etdans un grand corpus il y a beaucoup plus de mots-contextes (dans les colonnes)geacuteneacuteralement plusieurs milliers et bien sucircr les freacutequences sont largement supeacute-rieures agrave 2

Tableau 2 Matrice de cooccurrence pour les mots-cibles chien chat et cafeacute

aboyer passant veacuteteacuterinaire prendre cou ronronner fort griffer boire plus theacute tasse

chien 1 1 1 1 1 0 1 0 0 0 0 0

chat 0 0 1 1 0 1 1 1 0 0 0 0

cafeacute 0 0 1 1 0 0 0 0 2 1 1 1

Les freacutequences de cooccurrence peuvent ecirctre interpreacuteteacutees comme les coordon-neacutees qui permettent de situer chien chat et cafeacute dans un espace seacutemantique mul-tidimensionnel ougrave chaque cooccurrent repreacutesente une dimension particuliegravereSi lrsquoon poursuit les explications dans cette meacutetaphore geacuteomeacutetrique on pourraeacutegalement calculer la distance entre deux mots dans cet espace seacutemantiquemultidimensionnel pour ainsi mesurer la distance entre leur sens En pratiqueon fait appel agrave lrsquoalgegravebre des vecteurs pour calculer la similariteacute entre les troismots-cibles En effet chaque mot-cible peut ecirctre repreacutesenteacute par le vecteur de

56

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

Seacutemantique distributionnelle en linguistique de corpus

ses cooccurrents ou mots-contextes Les donneacutees distributionnelles prennentdonc la forme drsquoun vecteur de cooccurrents Les mots-cibles qui partagent descooccurrents auront une repreacutesentation vectorielle semblable Une mesure desimilariteacute permet ensuite de comparer les vecteurs et de calculer leur distancedans lrsquoespace vectoriel La similariteacute entre les vecteurs des trois mots-cibles estcalculeacutee agrave partir du cosinus de lrsquoangle entre eux Le cosinus est une mesure desimilariteacute standard en seacutemantique distributionnelle (Bullinaria amp Levy 2007 Ferret 2010) Intuitivement on srsquoattend agrave ce que lrsquoangle entre deux conceptssimilaires (p ex chien et chat) soit plus petit que celui entre deux mots diffeacuterents(p ex chien et cafeacute) En drsquoautres termes quand les distributions de mots sont peusimilaires la valeur de similariteacute cosinus est infeacuterieure

cos(chien chat) = 055cos(chien cafeacute) = 027cos(chat cafeacute) = 030

Le reacutesultat correspond agrave lrsquointuition lsquochienrsquo et lsquochatrsquo se ressemblent le plus tandisque lsquochienrsquo et lsquocafeacutersquo partagent le moins de cooccurrences Il est agrave noter que lsquochienrsquoressemble un peu moins (027) agrave lsquocafeacutersquo que lsquochatrsquo (030) parce que lsquochienrsquo apparaicirctaussi avec lsquoaboyerrsquo et lsquopassantrsquo contrairement agrave lsquochatrsquo et lsquocafeacutersquo

Lrsquoimpleacutementation de cette technique aux exemples et au corpus du mondereacuteel ne srsquoappuie pas sur des freacutequences de cooccurrence absolues entre le mot-cible et ses cooccurrents Les cooccurrents les plus freacutequents ne donnent pasneacutecessairement le plus drsquoinformations sur la signification du mot-cible Agrave lrsquoinstardes travaux sur les collocations les meacutethodes drsquoanalyse distributionnelle srsquoap-puient sur des mesures drsquoassociation statistiques ce qui permet de donner plusde poids aux cooccurrents qui apparaissent significativement plus souvent avecle mot-cible qursquoattendu par le hasard Ces cooccurrents avec un poids plus eacuteleveacutefournissent plus drsquoinformations sur le sens du mot-cible que les autres cooccur-rents quelle que soit leur freacutequence absolue Dans lrsquoexemple avec le mot-ciblelsquochienrsquo le cooccurrent lsquoveacuteteacuterinairersquo est seacutemantiquement plus proche du conceptlaquo animal raquo que le mot lsquoprendrersquo bien qursquoil soit moins freacutequent Les mesuresdrsquoassociation qui sont utiliseacutees dans les modegraveles seacutemantiques distributionnelscomme fonctions de pondeacuteration sont emprunteacutees aux analyses de collocationsLes scheacutemas de pondeacuteration appliqueacutes dans cette eacutetude de cas reposent sur lamesure de lrsquoinformation mutuelle ponctuelle (Pointwise Mutual Information ouPMI) Les deacutetails techniques des mesures pour la pondeacuteration deacutepassent le cadredu preacutesent article mais on pourra se reacutefeacuterer agrave A Thanapoulos N Fakotakis etG Kokkinakis (2002) pour une comparaison de plusieurs mesures statistiquesPour calculer la valeur drsquoassociation on srsquoappuie sur les freacutequences de cooccur-rence recueillies dans un grand corpus Supposons que veacuteteacuterinaire a un poidscollocationnel de 43 srsquoil apparaicirct avec chien de 35 avec chat et de 08 aveccafeacute Ensuite le calcul de la similariteacute cosinus agrave partir des poids collocationnelsindique drsquoune part que chien et chat sont plus similaires que dans le calcul nonpondeacutereacute et drsquoautre part qursquoils sont moins similaires agrave cafeacute

Langages 201 57

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

La seacutemantique linguistique en vision peacuteripheacuterique

cos(chien chat) = 087cos(chien cafeacute) = 031cos(chat cafeacute) = 032

Le calcul pondeacutereacute de la similariteacute cosinus entre toutes les paires de mots-ciblespermet de geacuteneacuterer une matrice de similariteacute avec les mots-cibles tant dans leslignes que dans les colonnes et avec la valeur de similariteacute cosinus par pairede mots-cibles dans les cellules Les eacuteleacutements de la diagonale sont tous deslsquo1rsquo chaque mot-cible eacutetant complegravetement similaire agrave lui-mecircme La matrice estsymeacutetrique avec des valeurs identiques de part et drsquoautre de la diagonale parceque la similariteacute cosinus entre les mots A et B est identique agrave celle entre lesmots B et A Le Tableau 3 infra visualise les similariteacutes cosinus pour nos troismots-cibles exemples Dans un grand corpus du monde reacuteel on pourra trouverainsi pour chaque mot-cible le mot le plus similaire dans le reste du vocabulaireEacutetant donneacute que des mots tregraves similaires sont souvent des (quasi-)synonymesce type de matrice de similariteacute mot-par-mot est souvent utiliseacute en linguistiquecomputationnelle pour des tacircches drsquoextraction automatique de synonymes

Tableau 3 Matrice des valeurs de similariteacute cosinus

chat cafeacute chien

chat 1 032 087

cafeacute 032 1 031

chien 087 031 1

3 APPLICATION LEXICOLOGIQUE

Les meacutethodes drsquoanalyse distributionnelle se precirctent agrave diverses applicationslexicologiques et lexicographiques notamment la seacutelection automatique dephrases-exemples pour les dictionnaires (Cook et al 2013) lrsquoeacutetude diachroniquede la seacutemantique (Sagi Kaufmann amp Clark 2009 Perek 2014) et lrsquoeacutetude dela variation socio-linguistique (Peirsman Geeraerts amp Speelman 2010) Nouspreacutesentons infra une eacutetude de la polyseacutemie dans la langue speacutecialiseacutee Le modegraveledistributionnel expliqueacute dans la section preacuteceacutedente permet non seulement derecenser des (dis)similariteacutes seacutemantiques entre diffeacuterents mots tels que lsquochienrsquolsquochatrsquo et lsquocafeacutersquo mais eacutegalement drsquoexplorer les diffeacuterents sens drsquoun mot particulieragrave partir des (dis)similariteacutes seacutemantiques entre ses cooccurrents

Nous proceacutedons agrave lrsquoanalyse exploratoire de la polyseacutemie ou de lrsquoheacuteteacuterogeacute-neacuteiteacute seacutemantique du mot lsquotourrsquo dans un corpus technique relevant du domainespeacutecialiseacute des machines-outils pour lrsquousinage des meacutetaux (17 millions drsquooccur-rences) Ce mot a en effet plusieurs sens techniques dans ce corpus speacutecialiseacuteagrave savoir laquo machine-outil pour lrsquousinage des piegraveces raquo et laquo rotation raquo ainsi queplusieurs sens geacuteneacuteraux notamment dans les expressions tour drsquohorizon et agrave tourde rocircle Comme nous lrsquoavons indiqueacute supra (cf sect 2) la plupart des analyses en

58

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

Seacutemantique distributionnelle en linguistique de corpus

seacutemantique distributionnelle eacutetudient la proximiteacute seacutemantique entre mots enfonction des mots-contextes partageacutes Dans notre eacutetude lrsquoobjet drsquoanalyse se situeagrave un niveau supeacuterieur Les mots-cibles (cf Tableau 2) dont nous essayons drsquoeacutetu-dier les (dis)similariteacutes seacutemantiques sont les cooccurrents de lsquotourrsquo parce queceux-ci reflegravetent les diffeacuterents sens et usages de lsquotourrsquo dans le corpus techniqueNotre analyse consiste agrave regrouper les mots-cibles en fonction de leurs mots-contextes et agrave les positionner les uns par rapport aux autres en 2D Ces analysesde regroupement (clustering) et de visualisation (plotting) des cooccurrents per-mettent de cerner des groupes de cooccurrents seacutemantiquement lieacutes pour ainsiacceacuteder agrave la seacutemantique du mot lsquotourrsquo

Pour identifier les mots-cibles ou les cooccurrents pertinent de lsquotourrsquo ainsique leurs mots-contextes pertinents nous nous appuyons sur la mesure drsquoas-sociation de lrsquoinformation mutuelle speacutecifique ou Pointwise Mutual Information(PMI) Pour le regroupement et la visualisation des mots-cibles nous recouronsagrave lrsquoanalyse de positionnement multidimensionnel (MultiDimensional Scaling ouMDS) (Kruskal amp Wish 1978 Cox amp Cox 2001 Venables amp Ripley 2002 Borg ampGroenen 2005) La technique de MDS 3 est impleacutementeacutee dans le logiciel drsquoanalysestatistique R 4 Dans nos analyses nous utilisons le positionnement non meacutetriqueisoMDS Cette technique permet drsquoanalyser une matrice pour un ensemble dedonneacutees disposeacutees en ligne (ici les mots-cibles) agrave partir de leurs valeurs pourplusieurs variables disposeacutees en colonne (ici les mots-contextes) (cf Tableau 4)Dans un premier temps ces valeurs sont les valeurs drsquoassociation PMI entreun mot-cible et un mot-contexte avec lequel il apparaicirct Cela permet de geacuteneacute-rer un vecteur par mot-cible avec toutes les valeurs drsquoassociation avec tous sesmots-contextes Au cas ougrave cette matrice serait trop creuse nous pourrions enri-chir les donneacutees en faisant appel aux cooccurrents des mots-contextes Pour lesdeacutetails sur lrsquoenrichissement de la matrice on pourra se reacutefeacuterer agrave A Bertels etD Speelman (2013) Dans un deuxiegraveme temps le calcul pondeacutereacute de la similariteacutecosinus entre toutes les paires de mots-cibles permet de geacuteneacuterer une matrice desimilariteacute agrave lrsquoinstar du Tableau 3

3 Le MDS est une meacutethode drsquoanalyse multivarieacutee descriptive comme lrsquoanalyse factorielle des correspon-dances (AFC) ou lrsquoanalyse en composantes principales (ACP) Agrave la diffeacuterence de ces techniques le MDSpermet drsquoanalyser tout type de matrice de (dis)similariteacute si les (dis)similariteacutes sont eacutevidentes Le MDS nrsquoim-pose pas de restrictions telles que des relations lineacuteaires entre les donneacutees sous-jacentes leur distributionnormale multivarieacutee ou la matrice de correacutelation [httpwwwstatsoftcomtextbookstmulscahtml]

4 R [wwwr-projectorg]

Langages 201 59

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

La seacutemantique linguistique en vision peacuteripheacuterique

Tableau 4 Matrice de cooccurrence pondeacutereacutee mots-cibles par mots-contextes

minute par commande broche

millevaleur drsquoassociation (PMI)

entre mille et minutePMI

numeacuterique PMI

inverseacute PMI

horizon

La matrice de similariteacute est ensuite soumise agrave une analyse de positionnementmultidimensionnel qui consiste agrave regrouper les mots-cibles ou les cooccurrentsde lsquotourrsquo en fonction des valeurs drsquoassociation similaires avec des mots-contextessimilaires et agrave visualiser ces proximiteacutes et distances seacutemantiques en 2D Cettevisualisation permettra aux chercheurs-linguistes non-informaticiens drsquoacceacutederagrave la seacutemantique du mot lsquotourrsquo

Dans la Figure 1 infra la reacutepartition des mots-cibles repreacutesente bien le carac-tegravere seacutemantiquement heacuteteacuterogegravene de lsquotourrsquo Les proximiteacutes et les distances seacuteman-tiques montrent quelques mots-cibles isoleacutes et quelques groupes de mots-ciblesseacutemantiquement lieacutes Les mots-cibles peacuteripheacuteriques pointent vers des sens par-ticuliers agrave savoir horizon (sens geacuteneacuteral dans laquo tour drsquohorizon raquo) et mille (senstechnique dans laquo mille tours par minute raquo) Dans la partie supeacuterieure agrave droiteon retrouve des mots-cibles qui attestent le sens technique particulier laquo tourinverseacute raquo avec inverseacutes inverseacute et bibroches Le nuage de mots-cibles dans lapartie infeacuterieure agrave gauche visualise le sens technique laquo machine-outil pour lrsquousi-nage des piegraveces raquo La preacutesence de plusieurs petits regroupements de mots-ciblesteacutemoigne de la variation des contextes drsquoapparition On observe un contextespeacutecialiseacute laquo tour (agrave) deux broches raquo agrave gauche en bas axes broches broche outilsdeux trois centres et mecircme au milieu vertical et verticaux Agrave gauche au milieu onretrouve commande numeacuterique CNC gamme seacuterie type et quelques mots-ciblesmoins speacutecialiseacutes Les mots-cibles plus geacuteneacuteraux comme manutention ligne geacuteneacute-rale production et conception se retrouvent dans la partie supeacuterieure de ce nuageet font preuve drsquoun contexte drsquoapparition plus geacuteneacuteral

60

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

Seacutemantique distributionnelle en linguistique de corpus

Figure 1 Visualisation des mots-cibles ou cooccurrents de lsquotourrsquo

4 CONCLUSION

Dans cet article nous avons preacutesenteacute les possibiliteacutes de la modeacutelisation seacuteman-tique distributionnelle pour les analyses linguistiques Gracircce agrave la disponibiliteacutede vastes corpus eacutelectroniques les lexicologues et lexicographes disposent denos jours drsquoune eacutenorme base de donneacutees empirique Pour analyser cette abon-dance de donneacutees ils pourront recourir agrave des outils drsquoanalyse statistique et agravedes meacutethodes drsquoanalyse distributionnelle qui leur permettront notamment derepeacuterer des patrons et motifs

Les meacutethodes drsquoanalyse distributionnelle srsquoappuient sur lrsquohypothegravese distri-butionnelle selon laquelle des mots qui se trouvent dans des contextes drsquoappa-rition similaires tendent agrave avoir des sens similaires Elles regroupent plusieursapproches et sous-types en fonction du type de contexte du niveau drsquoanalyse etdu mode de repreacutesentation computationnelle des donneacutees Nous avons expliqueacuteles principes de base de ces modegraveles agrave partir drsquoun modegravele distributionnel par-ticulier relativement intuitif pour des linguistes agrave savoir un modegravele agrave base de

Langages 201 61

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

La seacutemantique linguistique en vision peacuteripheacuterique

mots qui considegravere les cooccurrents graphiques au niveau des types sous formede repreacutesentation vectorielle Ce modegravele distributionnel permet non seulementde recenser des (dis)similariteacutes seacutemantiques entre diffeacuterents mots tels que lesexemples-jouets lsquochienrsquo lsquochatrsquo et lsquocafeacutersquo mais eacutegalement drsquoexplorer les diffeacuterentssens drsquoun mot particulier agrave partir des (dis)similariteacutes seacutemantiques entre ses cooc-currents Agrave titre drsquoexemple nous avons discuteacute une application lexicologiquequi consistait agrave regrouper les mots-cibles ou les cooccurrents du mot techniquelsquotourrsquo en fonction des valeurs drsquoassociation similaires avec des mots-contextessimilaires Ces proximiteacutes et distances seacutemantiques sont visualiseacutees en 2D pourpermettre aux chercheurs-linguistes non-informaticiens drsquoacceacuteder agrave la seacuteman-tique du mot lsquotourrsquo

Lrsquoobjectif de cet article eacutetait de montrer lrsquoutiliteacute des modegraveles seacutemantiquesdistributionnels pour les linguistes lexicologues et lexicographes agrave lrsquoaide drsquounepreacutesentation non technique des principes de base et drsquoune application lexicolo-gique concregravete Comme les diffeacuterentes approches et les nombreux sous-types demodegraveles le suggegraverent des recherches futures devront srsquoatteler agrave la mise au pointdes nombreux paramegravetres pour aboutir au modegravele qui soit le mieux adapteacute auxbesoins speacutecifiques de la recherche lexicologique ou lexicographique neacutecessaire

Reacutefeacuterences

BERNIER-COLBORNE G (2014) laquo Analyse distributionnelle de corpus speacutecialiseacutes pour lrsquoidentifica-tion de relations lexico-seacutemantiques raquo Actes du 21e Traitement Automatique des LanguesNaturelles (TALN2014) Atelier SemDis 2014 Marseille France 238-251

BERTELS A amp SPEELMAN D (2013) laquo Exploration seacutemantique visuelle agrave partir des cooccurrencesde deuxiegraveme et troisiegraveme ordre raquo Actes du 20e Traitement Automatique des LanguesNaturelles (TALN2013) Atelier SemDis 2013 Les Sables-drsquoOlonne France 126-139

BERTELS A amp SPEELMAN D (2014) laquo Analyse de positionnement multidimensionnel sur lecorpus speacutecialiseacute TALN raquo Actes du 21e Traitement Automatique des Langues Naturelles(TALN2014) Atelier SemDis 2014 Marseille France 252-265

BORG I amp GROENEN P (20052) Modern Multidimensional Scaling theory and applications NewYork Springer-Verlag

BOUAUD J et al (1997) laquo Regroupements issus de deacutependances syntaxiques en corpus cateacute-gorisation et confrontation agrave deux modeacutelisations conceptuelles raquo Actes des 1res journeacuteesIngeacutenierie des Connaissances Roskoff France 207-223

BRUNI E TRAN N K amp BARONI M (2014) ldquoMultimodal Distributional Semanticsrdquo Journal ofArtificial Intelligence Research 49 (1) 1-47

BULLINARIA J A amp LEVY J P (2007) ldquoExtracting Semantic Representations from Word Co-occurrence Statistics A Computational Studyrdquo Behavior Research Methods 39 510-526

CHURCH K W amp HANKS P (1989) ldquoWord association norms mutual information and lexico-graphyrdquo Proceedings of the 27th Annual Conference of the Association of ComputationalLinguistics Vancouver British Columbia 76-83

CLAVEAU V KIJAK E amp FERRET O (2014) laquo Explorer le graphe de voisinage pour ameacuteliorer lestheacutesaurus distributionnels raquo Actes du 21e Traitement Automatique des Langues Naturelles(TALN2014) Marseille France 220-231

62

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

Seacutemantique distributionnelle en linguistique de corpus

COOK P et al (2013) ldquoA lexicographic appraisal of an automatic approach for detecting newword-sensesrdquo Proceedings of the eLex 2013 Conference Tallinn Estonia 49-65

COX T F amp COX M A A (2001) Multidimensional Scaling Boca Raton (FL) Chapman amp Hall

CURRAN J R amp MOENS M (2002) ldquoImprovements in automatic thesaurus extractionrdquoProceedings of the ACL-02 Workshop on Unsupervised Lexical Acquisition Vol 9Stroudsburg (PA) USA 59-66

DESALLE Y et al (2014) laquo BACANAL Balades Aleacuteatoires Courtes pour ANAlyses LexicalesApplication agrave la substitution lexicale raquo Actes du 21e Traitement Automatique des LanguesNaturelles (TALN2014) Atelier SemDis 2014 Marseille France 206-217

DINU G THATER S amp LAUE S (2012) ldquoA comparison of models of word meaning in contextrdquoProceedings of the 2012 Conference of the North American Chapter of the Association forComputational Linguistics Human Language Technologies Atlanta (GA) USA 611-615

EVERT S (2004) The Statistics of Word Cooccurrences Word Pairs and CollocationsDissertation Institut fuumlr maschinelle Sprachverarbeitung University of Stuttgart

FABRE C et al (2014a) laquo Preacutesentation de lrsquoatelier SemDis 2014 seacutemantique distributionnellepour la substitution lexicale et lrsquoexploration de corpus speacutecialiseacutes raquo Actes du 21e TraitementAutomatique des Langues Naturelles (TALN2014) Atelier SemDis 2014 Marseille France196-205

FABRE C et al (2014b) laquo Ajuster lrsquoanalyse distributionnelle agrave un corpus speacutecialiseacute de petitetaille raquo Actes du 21e Traitement Automatique des Langues Naturelles (TALN2014) AtelierSemDis 2014 Marseille France 266-279

FERRET O (2010) laquo Similariteacute seacutemantique et extraction de synonymes agrave partir de corpus raquoActes du 17e Traitement Automatique des Langues Naturelles (TALN2010) MontreacutealCanada [httpwwwiroumontrealcasimfelipeTALN2010XmlPapersalltaln2010_submission_77pdf]

FERRET O (2014) laquo Utiliser un modegravele neuronal geacuteneacuterique pour la substitution lexicale raquo Actesdu 21e Traitement Automatique des Langues Naturelles (TALN2014) Atelier SemDis 2014Marseille France 218-227

FIRTH J R (1957) Papers in Linguistics 1934-1951 Oxford Oxford University Press

GEERAERTS D (2010) Theories of Lexical Semantics OxfordNew York Oxford University Press

GLYNN D (2010) ldquoTesting the Hypothesis Objectivity and Verification in Usage-Based CognitiveSemanticsrdquo in D Glynn amp K Fischer (eds) Quantitative Methods in Cognitive SemanticsCorpus-driven approaches BerlinNew York Mouton de Gruyter 239-270

HABERT B amp ZWEIGENBAUM P (2002) ldquoContextual acquisition of information categories whathas been done and what can be done automaticallyrdquo in B Nevin amp S Johnson (eds) TheLegacy of Zellig Harris Language and information into the 21st century Amsterdam JohnBenjamins 203-231

HARRIS Z (1954) ldquoDistributional structurerdquo Word 10 (23) 146-162

HEYLEN K et al (2014) ldquoMonitoring Polysemy Word Space Models as a Tool for Large-ScaleLexical Semantic Analysisrdquo Lingua International Review of General Linguistics 157 153-172

HEYLEN K SPEELMAN D amp GEERAERTS D (2012) ldquoLooking at word meaning An interactivevisualization of Semantic Vector Spaces for Dutch synsetsrdquo Proceedings of the EACL 2012Joint Workshop of LINGVIS et UNCLH Avignon France 16-24

KRUSKAL J B amp WISH M (1978) Multidimensional Scaling Sage University Paper series onQuantitative Applications in the Social Sciences number 07-011 Newbury Park (CA) SagePublications

Langages 201 63

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

La seacutemantique linguistique en vision peacuteripheacuterique

LANDAUER T K amp DUMAIS S T (1997) ldquoA solution to Platorsquos problem The latent semanticanalysis theory of acquisition induction and representation of knowledgerdquo PsychologicalReview 104 (2) 211-240

LUND K amp BURGESS C (1996) ldquoProducing high-dimensional semantic spaces from lexical co-occurrencerdquo Behavior Research Methods Instrumentation and Computers 28 203-208

MORARDO M amp VILLEMONTE DE LA CLERGERIE Eacute (2013) laquo Vers un environnement de production etde validation de ressources lexicales seacutemantiques raquo Actes du 20e Traitement Automatiquedes Langues Naturelles (TALN2013) Atelier SemDis 2013 Les Sables-drsquoOlonne France167-180

MORLANE-HONDEgraveRE F (2013) laquo Utiliser une base distributionnelle pour filtrer un dictionnaire desynonymes raquo Actes du 20e Traitement Automatique des Langues Naturelles (TALN2013)Atelier SemDis 2013 Les Sables-drsquoOlonne France 112-125

NAVIGLI R (2012) ldquoA Quick Tour of Word Sense Disambiguation Induction and RelatedApproachesrdquo Proceedings of the 38th Conference on Current Trends in Theory and Practiceof Computer Science (SOFSEM) Spindleruv Mlyn Czech Republic 115-129

PEIRSMAN Y GEERAERTS D amp SPEELMAN D (2010) ldquoThe automatic identification of lexical variationbetween language varietiesrdquo Natural Language Engineering 16 (4) 469-491

PEREK F (2014) ldquoVector spaces for historical linguistics Using distributional semantics tostudy syntactic productivity in diachrony raquo Proceedings of the 52nd Annual Meeting of theAssociation for Computational Linguistics Baltimore USA 309-314

PEacuteRINET A amp HAMON T (2014) laquo Analyse et proposition de paramegravetres distributionnels adapteacutesaux corpus de speacutecialiteacute raquo Actes des 12e Journeacutees internationales drsquoAnalyse statistiquedes Donneacutees Textuelles (JADT 2014) Paris France 507-518

SAGI E KAUFMANN S amp CLARK B (2009) ldquoSemantic density analysis Comparing word meaningacross time and phonetic spacerdquo Proceedings of the EACL 2009 Workshop on GEMSAthens Greece 104-111

SAHLGREN M (2006) The Word-Space Model Using distributional analysis to represent syntag-matic and paradigmatic relations between words in high-dimensional vector spaces PhDThesis Department of Linguistics Stockholm University

SINCLAIR J (1991) Corpus Concordance Collocation Oxford Oxford University Press

THANOPOULOS A FAKOTAKIS N amp KOKKINAKIS G (2002) ldquoComparative Evaluation of CollocationExtraction Metricsrdquo Proceedings of the 3rd Language Resources Evaluation ConferenceLas Palmas Spain 620-625

TURNEY P D amp PANTEL P (2010) ldquoFrom Frequency to Meaning Vector Space Models ofSemanticsrdquo Journal of Artificial Intelligence Research 37 (1) 141-188

VENABLES W N amp RIPLEY B D (20024) Modern Applied Statistics with S New York Springer-Verlag

WEAVER W (1955) ldquoTranslationrdquo in W N Locke amp A D Booth (eds) Machine Translation ofLanguages Cambridge (MA) The MIT Press 15-23

WIECHMANN D (2008) ldquoOn the Computation of Collostruction Strengthrdquo Corpus Linguistics andLinguistic Theory 4 (2) 253-290

64

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

La seacutemantique linguistique en vision peacuteripheacuterique

23 Explication deacutetailleacutee des principes de base

Pour expliquer les principes de base des modegraveles seacutemantiques distributionnelsnous recourons agrave un modegravele distributionnel particulier agrave savoir un modegravele agravebase de mots (word-based) qui considegravere les cooccurrents graphiques au niveaudes types (type-level) sous forme de repreacutesentation vectorielle (vector-based)Lrsquoapplication lexicologique discuteacutee dans la section suivante repose sur ce mecircmemodegravele

Nous faisons appel agrave un exemple pour eacutetudier trois mots-cibles agrave savoir chienchat et cafeacute dans un petit corpus laquo jouet raquo de six phrases-exemples

(1) Le chien aboie fort contre les passants(2) Le veacuteteacuterinaire prend le chien par le cou

(3) Le chat ronronne fort(4) Le veacuteteacuterinaire srsquoest fait griffer par le chat en le prenant

(5) On boit plus de cafeacute que de theacute(6) Le veacuteteacuterinaire prend sa tasse et boit son cafeacute

Ce petit corpus laquo jouet raquo peut ecirctre repreacutesenteacute sous forme de table de freacutequenceavec les mots-cibles en ligne et les caracteacuteristiques contextuelles ou les laquo mots-contextes raquo en colonne Nous recourons au modegravele le plus simple possibleie celui qui ignore les relations de deacutependance syntaxique et qui recense simple-ment les freacutequences absolues des noms verbes et adverbes Les freacutequences sontindiqueacutees dans la matrice de cooccurrence infra (cf Tableau 2) Le fait drsquoignorerles relations syntaxiques est qualifieacute drsquoapproche laquo sac de mots raquo (Bag-of-Wordsapproach) en recherche drsquoinformations Dans un exemple issu du monde reacuteel etdans un grand corpus il y a beaucoup plus de mots-contextes (dans les colonnes)geacuteneacuteralement plusieurs milliers et bien sucircr les freacutequences sont largement supeacute-rieures agrave 2

Tableau 2 Matrice de cooccurrence pour les mots-cibles chien chat et cafeacute

aboyer passant veacuteteacuterinaire prendre cou ronronner fort griffer boire plus theacute tasse

chien 1 1 1 1 1 0 1 0 0 0 0 0

chat 0 0 1 1 0 1 1 1 0 0 0 0

cafeacute 0 0 1 1 0 0 0 0 2 1 1 1

Les freacutequences de cooccurrence peuvent ecirctre interpreacuteteacutees comme les coordon-neacutees qui permettent de situer chien chat et cafeacute dans un espace seacutemantique mul-tidimensionnel ougrave chaque cooccurrent repreacutesente une dimension particuliegravereSi lrsquoon poursuit les explications dans cette meacutetaphore geacuteomeacutetrique on pourraeacutegalement calculer la distance entre deux mots dans cet espace seacutemantiquemultidimensionnel pour ainsi mesurer la distance entre leur sens En pratiqueon fait appel agrave lrsquoalgegravebre des vecteurs pour calculer la similariteacute entre les troismots-cibles En effet chaque mot-cible peut ecirctre repreacutesenteacute par le vecteur de

56

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

Seacutemantique distributionnelle en linguistique de corpus

ses cooccurrents ou mots-contextes Les donneacutees distributionnelles prennentdonc la forme drsquoun vecteur de cooccurrents Les mots-cibles qui partagent descooccurrents auront une repreacutesentation vectorielle semblable Une mesure desimilariteacute permet ensuite de comparer les vecteurs et de calculer leur distancedans lrsquoespace vectoriel La similariteacute entre les vecteurs des trois mots-cibles estcalculeacutee agrave partir du cosinus de lrsquoangle entre eux Le cosinus est une mesure desimilariteacute standard en seacutemantique distributionnelle (Bullinaria amp Levy 2007 Ferret 2010) Intuitivement on srsquoattend agrave ce que lrsquoangle entre deux conceptssimilaires (p ex chien et chat) soit plus petit que celui entre deux mots diffeacuterents(p ex chien et cafeacute) En drsquoautres termes quand les distributions de mots sont peusimilaires la valeur de similariteacute cosinus est infeacuterieure

cos(chien chat) = 055cos(chien cafeacute) = 027cos(chat cafeacute) = 030

Le reacutesultat correspond agrave lrsquointuition lsquochienrsquo et lsquochatrsquo se ressemblent le plus tandisque lsquochienrsquo et lsquocafeacutersquo partagent le moins de cooccurrences Il est agrave noter que lsquochienrsquoressemble un peu moins (027) agrave lsquocafeacutersquo que lsquochatrsquo (030) parce que lsquochienrsquo apparaicirctaussi avec lsquoaboyerrsquo et lsquopassantrsquo contrairement agrave lsquochatrsquo et lsquocafeacutersquo

Lrsquoimpleacutementation de cette technique aux exemples et au corpus du mondereacuteel ne srsquoappuie pas sur des freacutequences de cooccurrence absolues entre le mot-cible et ses cooccurrents Les cooccurrents les plus freacutequents ne donnent pasneacutecessairement le plus drsquoinformations sur la signification du mot-cible Agrave lrsquoinstardes travaux sur les collocations les meacutethodes drsquoanalyse distributionnelle srsquoap-puient sur des mesures drsquoassociation statistiques ce qui permet de donner plusde poids aux cooccurrents qui apparaissent significativement plus souvent avecle mot-cible qursquoattendu par le hasard Ces cooccurrents avec un poids plus eacuteleveacutefournissent plus drsquoinformations sur le sens du mot-cible que les autres cooccur-rents quelle que soit leur freacutequence absolue Dans lrsquoexemple avec le mot-ciblelsquochienrsquo le cooccurrent lsquoveacuteteacuterinairersquo est seacutemantiquement plus proche du conceptlaquo animal raquo que le mot lsquoprendrersquo bien qursquoil soit moins freacutequent Les mesuresdrsquoassociation qui sont utiliseacutees dans les modegraveles seacutemantiques distributionnelscomme fonctions de pondeacuteration sont emprunteacutees aux analyses de collocationsLes scheacutemas de pondeacuteration appliqueacutes dans cette eacutetude de cas reposent sur lamesure de lrsquoinformation mutuelle ponctuelle (Pointwise Mutual Information ouPMI) Les deacutetails techniques des mesures pour la pondeacuteration deacutepassent le cadredu preacutesent article mais on pourra se reacutefeacuterer agrave A Thanapoulos N Fakotakis etG Kokkinakis (2002) pour une comparaison de plusieurs mesures statistiquesPour calculer la valeur drsquoassociation on srsquoappuie sur les freacutequences de cooccur-rence recueillies dans un grand corpus Supposons que veacuteteacuterinaire a un poidscollocationnel de 43 srsquoil apparaicirct avec chien de 35 avec chat et de 08 aveccafeacute Ensuite le calcul de la similariteacute cosinus agrave partir des poids collocationnelsindique drsquoune part que chien et chat sont plus similaires que dans le calcul nonpondeacutereacute et drsquoautre part qursquoils sont moins similaires agrave cafeacute

Langages 201 57

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

La seacutemantique linguistique en vision peacuteripheacuterique

cos(chien chat) = 087cos(chien cafeacute) = 031cos(chat cafeacute) = 032

Le calcul pondeacutereacute de la similariteacute cosinus entre toutes les paires de mots-ciblespermet de geacuteneacuterer une matrice de similariteacute avec les mots-cibles tant dans leslignes que dans les colonnes et avec la valeur de similariteacute cosinus par pairede mots-cibles dans les cellules Les eacuteleacutements de la diagonale sont tous deslsquo1rsquo chaque mot-cible eacutetant complegravetement similaire agrave lui-mecircme La matrice estsymeacutetrique avec des valeurs identiques de part et drsquoautre de la diagonale parceque la similariteacute cosinus entre les mots A et B est identique agrave celle entre lesmots B et A Le Tableau 3 infra visualise les similariteacutes cosinus pour nos troismots-cibles exemples Dans un grand corpus du monde reacuteel on pourra trouverainsi pour chaque mot-cible le mot le plus similaire dans le reste du vocabulaireEacutetant donneacute que des mots tregraves similaires sont souvent des (quasi-)synonymesce type de matrice de similariteacute mot-par-mot est souvent utiliseacute en linguistiquecomputationnelle pour des tacircches drsquoextraction automatique de synonymes

Tableau 3 Matrice des valeurs de similariteacute cosinus

chat cafeacute chien

chat 1 032 087

cafeacute 032 1 031

chien 087 031 1

3 APPLICATION LEXICOLOGIQUE

Les meacutethodes drsquoanalyse distributionnelle se precirctent agrave diverses applicationslexicologiques et lexicographiques notamment la seacutelection automatique dephrases-exemples pour les dictionnaires (Cook et al 2013) lrsquoeacutetude diachroniquede la seacutemantique (Sagi Kaufmann amp Clark 2009 Perek 2014) et lrsquoeacutetude dela variation socio-linguistique (Peirsman Geeraerts amp Speelman 2010) Nouspreacutesentons infra une eacutetude de la polyseacutemie dans la langue speacutecialiseacutee Le modegraveledistributionnel expliqueacute dans la section preacuteceacutedente permet non seulement derecenser des (dis)similariteacutes seacutemantiques entre diffeacuterents mots tels que lsquochienrsquolsquochatrsquo et lsquocafeacutersquo mais eacutegalement drsquoexplorer les diffeacuterents sens drsquoun mot particulieragrave partir des (dis)similariteacutes seacutemantiques entre ses cooccurrents

Nous proceacutedons agrave lrsquoanalyse exploratoire de la polyseacutemie ou de lrsquoheacuteteacuterogeacute-neacuteiteacute seacutemantique du mot lsquotourrsquo dans un corpus technique relevant du domainespeacutecialiseacute des machines-outils pour lrsquousinage des meacutetaux (17 millions drsquooccur-rences) Ce mot a en effet plusieurs sens techniques dans ce corpus speacutecialiseacuteagrave savoir laquo machine-outil pour lrsquousinage des piegraveces raquo et laquo rotation raquo ainsi queplusieurs sens geacuteneacuteraux notamment dans les expressions tour drsquohorizon et agrave tourde rocircle Comme nous lrsquoavons indiqueacute supra (cf sect 2) la plupart des analyses en

58

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

Seacutemantique distributionnelle en linguistique de corpus

seacutemantique distributionnelle eacutetudient la proximiteacute seacutemantique entre mots enfonction des mots-contextes partageacutes Dans notre eacutetude lrsquoobjet drsquoanalyse se situeagrave un niveau supeacuterieur Les mots-cibles (cf Tableau 2) dont nous essayons drsquoeacutetu-dier les (dis)similariteacutes seacutemantiques sont les cooccurrents de lsquotourrsquo parce queceux-ci reflegravetent les diffeacuterents sens et usages de lsquotourrsquo dans le corpus techniqueNotre analyse consiste agrave regrouper les mots-cibles en fonction de leurs mots-contextes et agrave les positionner les uns par rapport aux autres en 2D Ces analysesde regroupement (clustering) et de visualisation (plotting) des cooccurrents per-mettent de cerner des groupes de cooccurrents seacutemantiquement lieacutes pour ainsiacceacuteder agrave la seacutemantique du mot lsquotourrsquo

Pour identifier les mots-cibles ou les cooccurrents pertinent de lsquotourrsquo ainsique leurs mots-contextes pertinents nous nous appuyons sur la mesure drsquoas-sociation de lrsquoinformation mutuelle speacutecifique ou Pointwise Mutual Information(PMI) Pour le regroupement et la visualisation des mots-cibles nous recouronsagrave lrsquoanalyse de positionnement multidimensionnel (MultiDimensional Scaling ouMDS) (Kruskal amp Wish 1978 Cox amp Cox 2001 Venables amp Ripley 2002 Borg ampGroenen 2005) La technique de MDS 3 est impleacutementeacutee dans le logiciel drsquoanalysestatistique R 4 Dans nos analyses nous utilisons le positionnement non meacutetriqueisoMDS Cette technique permet drsquoanalyser une matrice pour un ensemble dedonneacutees disposeacutees en ligne (ici les mots-cibles) agrave partir de leurs valeurs pourplusieurs variables disposeacutees en colonne (ici les mots-contextes) (cf Tableau 4)Dans un premier temps ces valeurs sont les valeurs drsquoassociation PMI entreun mot-cible et un mot-contexte avec lequel il apparaicirct Cela permet de geacuteneacute-rer un vecteur par mot-cible avec toutes les valeurs drsquoassociation avec tous sesmots-contextes Au cas ougrave cette matrice serait trop creuse nous pourrions enri-chir les donneacutees en faisant appel aux cooccurrents des mots-contextes Pour lesdeacutetails sur lrsquoenrichissement de la matrice on pourra se reacutefeacuterer agrave A Bertels etD Speelman (2013) Dans un deuxiegraveme temps le calcul pondeacutereacute de la similariteacutecosinus entre toutes les paires de mots-cibles permet de geacuteneacuterer une matrice desimilariteacute agrave lrsquoinstar du Tableau 3

3 Le MDS est une meacutethode drsquoanalyse multivarieacutee descriptive comme lrsquoanalyse factorielle des correspon-dances (AFC) ou lrsquoanalyse en composantes principales (ACP) Agrave la diffeacuterence de ces techniques le MDSpermet drsquoanalyser tout type de matrice de (dis)similariteacute si les (dis)similariteacutes sont eacutevidentes Le MDS nrsquoim-pose pas de restrictions telles que des relations lineacuteaires entre les donneacutees sous-jacentes leur distributionnormale multivarieacutee ou la matrice de correacutelation [httpwwwstatsoftcomtextbookstmulscahtml]

4 R [wwwr-projectorg]

Langages 201 59

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

La seacutemantique linguistique en vision peacuteripheacuterique

Tableau 4 Matrice de cooccurrence pondeacutereacutee mots-cibles par mots-contextes

minute par commande broche

millevaleur drsquoassociation (PMI)

entre mille et minutePMI

numeacuterique PMI

inverseacute PMI

horizon

La matrice de similariteacute est ensuite soumise agrave une analyse de positionnementmultidimensionnel qui consiste agrave regrouper les mots-cibles ou les cooccurrentsde lsquotourrsquo en fonction des valeurs drsquoassociation similaires avec des mots-contextessimilaires et agrave visualiser ces proximiteacutes et distances seacutemantiques en 2D Cettevisualisation permettra aux chercheurs-linguistes non-informaticiens drsquoacceacutederagrave la seacutemantique du mot lsquotourrsquo

Dans la Figure 1 infra la reacutepartition des mots-cibles repreacutesente bien le carac-tegravere seacutemantiquement heacuteteacuterogegravene de lsquotourrsquo Les proximiteacutes et les distances seacuteman-tiques montrent quelques mots-cibles isoleacutes et quelques groupes de mots-ciblesseacutemantiquement lieacutes Les mots-cibles peacuteripheacuteriques pointent vers des sens par-ticuliers agrave savoir horizon (sens geacuteneacuteral dans laquo tour drsquohorizon raquo) et mille (senstechnique dans laquo mille tours par minute raquo) Dans la partie supeacuterieure agrave droiteon retrouve des mots-cibles qui attestent le sens technique particulier laquo tourinverseacute raquo avec inverseacutes inverseacute et bibroches Le nuage de mots-cibles dans lapartie infeacuterieure agrave gauche visualise le sens technique laquo machine-outil pour lrsquousi-nage des piegraveces raquo La preacutesence de plusieurs petits regroupements de mots-ciblesteacutemoigne de la variation des contextes drsquoapparition On observe un contextespeacutecialiseacute laquo tour (agrave) deux broches raquo agrave gauche en bas axes broches broche outilsdeux trois centres et mecircme au milieu vertical et verticaux Agrave gauche au milieu onretrouve commande numeacuterique CNC gamme seacuterie type et quelques mots-ciblesmoins speacutecialiseacutes Les mots-cibles plus geacuteneacuteraux comme manutention ligne geacuteneacute-rale production et conception se retrouvent dans la partie supeacuterieure de ce nuageet font preuve drsquoun contexte drsquoapparition plus geacuteneacuteral

60

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

Seacutemantique distributionnelle en linguistique de corpus

Figure 1 Visualisation des mots-cibles ou cooccurrents de lsquotourrsquo

4 CONCLUSION

Dans cet article nous avons preacutesenteacute les possibiliteacutes de la modeacutelisation seacuteman-tique distributionnelle pour les analyses linguistiques Gracircce agrave la disponibiliteacutede vastes corpus eacutelectroniques les lexicologues et lexicographes disposent denos jours drsquoune eacutenorme base de donneacutees empirique Pour analyser cette abon-dance de donneacutees ils pourront recourir agrave des outils drsquoanalyse statistique et agravedes meacutethodes drsquoanalyse distributionnelle qui leur permettront notamment derepeacuterer des patrons et motifs

Les meacutethodes drsquoanalyse distributionnelle srsquoappuient sur lrsquohypothegravese distri-butionnelle selon laquelle des mots qui se trouvent dans des contextes drsquoappa-rition similaires tendent agrave avoir des sens similaires Elles regroupent plusieursapproches et sous-types en fonction du type de contexte du niveau drsquoanalyse etdu mode de repreacutesentation computationnelle des donneacutees Nous avons expliqueacuteles principes de base de ces modegraveles agrave partir drsquoun modegravele distributionnel par-ticulier relativement intuitif pour des linguistes agrave savoir un modegravele agrave base de

Langages 201 61

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

La seacutemantique linguistique en vision peacuteripheacuterique

mots qui considegravere les cooccurrents graphiques au niveau des types sous formede repreacutesentation vectorielle Ce modegravele distributionnel permet non seulementde recenser des (dis)similariteacutes seacutemantiques entre diffeacuterents mots tels que lesexemples-jouets lsquochienrsquo lsquochatrsquo et lsquocafeacutersquo mais eacutegalement drsquoexplorer les diffeacuterentssens drsquoun mot particulier agrave partir des (dis)similariteacutes seacutemantiques entre ses cooc-currents Agrave titre drsquoexemple nous avons discuteacute une application lexicologiquequi consistait agrave regrouper les mots-cibles ou les cooccurrents du mot techniquelsquotourrsquo en fonction des valeurs drsquoassociation similaires avec des mots-contextessimilaires Ces proximiteacutes et distances seacutemantiques sont visualiseacutees en 2D pourpermettre aux chercheurs-linguistes non-informaticiens drsquoacceacuteder agrave la seacuteman-tique du mot lsquotourrsquo

Lrsquoobjectif de cet article eacutetait de montrer lrsquoutiliteacute des modegraveles seacutemantiquesdistributionnels pour les linguistes lexicologues et lexicographes agrave lrsquoaide drsquounepreacutesentation non technique des principes de base et drsquoune application lexicolo-gique concregravete Comme les diffeacuterentes approches et les nombreux sous-types demodegraveles le suggegraverent des recherches futures devront srsquoatteler agrave la mise au pointdes nombreux paramegravetres pour aboutir au modegravele qui soit le mieux adapteacute auxbesoins speacutecifiques de la recherche lexicologique ou lexicographique neacutecessaire

Reacutefeacuterences

BERNIER-COLBORNE G (2014) laquo Analyse distributionnelle de corpus speacutecialiseacutes pour lrsquoidentifica-tion de relations lexico-seacutemantiques raquo Actes du 21e Traitement Automatique des LanguesNaturelles (TALN2014) Atelier SemDis 2014 Marseille France 238-251

BERTELS A amp SPEELMAN D (2013) laquo Exploration seacutemantique visuelle agrave partir des cooccurrencesde deuxiegraveme et troisiegraveme ordre raquo Actes du 20e Traitement Automatique des LanguesNaturelles (TALN2013) Atelier SemDis 2013 Les Sables-drsquoOlonne France 126-139

BERTELS A amp SPEELMAN D (2014) laquo Analyse de positionnement multidimensionnel sur lecorpus speacutecialiseacute TALN raquo Actes du 21e Traitement Automatique des Langues Naturelles(TALN2014) Atelier SemDis 2014 Marseille France 252-265

BORG I amp GROENEN P (20052) Modern Multidimensional Scaling theory and applications NewYork Springer-Verlag

BOUAUD J et al (1997) laquo Regroupements issus de deacutependances syntaxiques en corpus cateacute-gorisation et confrontation agrave deux modeacutelisations conceptuelles raquo Actes des 1res journeacuteesIngeacutenierie des Connaissances Roskoff France 207-223

BRUNI E TRAN N K amp BARONI M (2014) ldquoMultimodal Distributional Semanticsrdquo Journal ofArtificial Intelligence Research 49 (1) 1-47

BULLINARIA J A amp LEVY J P (2007) ldquoExtracting Semantic Representations from Word Co-occurrence Statistics A Computational Studyrdquo Behavior Research Methods 39 510-526

CHURCH K W amp HANKS P (1989) ldquoWord association norms mutual information and lexico-graphyrdquo Proceedings of the 27th Annual Conference of the Association of ComputationalLinguistics Vancouver British Columbia 76-83

CLAVEAU V KIJAK E amp FERRET O (2014) laquo Explorer le graphe de voisinage pour ameacuteliorer lestheacutesaurus distributionnels raquo Actes du 21e Traitement Automatique des Langues Naturelles(TALN2014) Marseille France 220-231

62

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

Seacutemantique distributionnelle en linguistique de corpus

COOK P et al (2013) ldquoA lexicographic appraisal of an automatic approach for detecting newword-sensesrdquo Proceedings of the eLex 2013 Conference Tallinn Estonia 49-65

COX T F amp COX M A A (2001) Multidimensional Scaling Boca Raton (FL) Chapman amp Hall

CURRAN J R amp MOENS M (2002) ldquoImprovements in automatic thesaurus extractionrdquoProceedings of the ACL-02 Workshop on Unsupervised Lexical Acquisition Vol 9Stroudsburg (PA) USA 59-66

DESALLE Y et al (2014) laquo BACANAL Balades Aleacuteatoires Courtes pour ANAlyses LexicalesApplication agrave la substitution lexicale raquo Actes du 21e Traitement Automatique des LanguesNaturelles (TALN2014) Atelier SemDis 2014 Marseille France 206-217

DINU G THATER S amp LAUE S (2012) ldquoA comparison of models of word meaning in contextrdquoProceedings of the 2012 Conference of the North American Chapter of the Association forComputational Linguistics Human Language Technologies Atlanta (GA) USA 611-615

EVERT S (2004) The Statistics of Word Cooccurrences Word Pairs and CollocationsDissertation Institut fuumlr maschinelle Sprachverarbeitung University of Stuttgart

FABRE C et al (2014a) laquo Preacutesentation de lrsquoatelier SemDis 2014 seacutemantique distributionnellepour la substitution lexicale et lrsquoexploration de corpus speacutecialiseacutes raquo Actes du 21e TraitementAutomatique des Langues Naturelles (TALN2014) Atelier SemDis 2014 Marseille France196-205

FABRE C et al (2014b) laquo Ajuster lrsquoanalyse distributionnelle agrave un corpus speacutecialiseacute de petitetaille raquo Actes du 21e Traitement Automatique des Langues Naturelles (TALN2014) AtelierSemDis 2014 Marseille France 266-279

FERRET O (2010) laquo Similariteacute seacutemantique et extraction de synonymes agrave partir de corpus raquoActes du 17e Traitement Automatique des Langues Naturelles (TALN2010) MontreacutealCanada [httpwwwiroumontrealcasimfelipeTALN2010XmlPapersalltaln2010_submission_77pdf]

FERRET O (2014) laquo Utiliser un modegravele neuronal geacuteneacuterique pour la substitution lexicale raquo Actesdu 21e Traitement Automatique des Langues Naturelles (TALN2014) Atelier SemDis 2014Marseille France 218-227

FIRTH J R (1957) Papers in Linguistics 1934-1951 Oxford Oxford University Press

GEERAERTS D (2010) Theories of Lexical Semantics OxfordNew York Oxford University Press

GLYNN D (2010) ldquoTesting the Hypothesis Objectivity and Verification in Usage-Based CognitiveSemanticsrdquo in D Glynn amp K Fischer (eds) Quantitative Methods in Cognitive SemanticsCorpus-driven approaches BerlinNew York Mouton de Gruyter 239-270

HABERT B amp ZWEIGENBAUM P (2002) ldquoContextual acquisition of information categories whathas been done and what can be done automaticallyrdquo in B Nevin amp S Johnson (eds) TheLegacy of Zellig Harris Language and information into the 21st century Amsterdam JohnBenjamins 203-231

HARRIS Z (1954) ldquoDistributional structurerdquo Word 10 (23) 146-162

HEYLEN K et al (2014) ldquoMonitoring Polysemy Word Space Models as a Tool for Large-ScaleLexical Semantic Analysisrdquo Lingua International Review of General Linguistics 157 153-172

HEYLEN K SPEELMAN D amp GEERAERTS D (2012) ldquoLooking at word meaning An interactivevisualization of Semantic Vector Spaces for Dutch synsetsrdquo Proceedings of the EACL 2012Joint Workshop of LINGVIS et UNCLH Avignon France 16-24

KRUSKAL J B amp WISH M (1978) Multidimensional Scaling Sage University Paper series onQuantitative Applications in the Social Sciences number 07-011 Newbury Park (CA) SagePublications

Langages 201 63

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

La seacutemantique linguistique en vision peacuteripheacuterique

LANDAUER T K amp DUMAIS S T (1997) ldquoA solution to Platorsquos problem The latent semanticanalysis theory of acquisition induction and representation of knowledgerdquo PsychologicalReview 104 (2) 211-240

LUND K amp BURGESS C (1996) ldquoProducing high-dimensional semantic spaces from lexical co-occurrencerdquo Behavior Research Methods Instrumentation and Computers 28 203-208

MORARDO M amp VILLEMONTE DE LA CLERGERIE Eacute (2013) laquo Vers un environnement de production etde validation de ressources lexicales seacutemantiques raquo Actes du 20e Traitement Automatiquedes Langues Naturelles (TALN2013) Atelier SemDis 2013 Les Sables-drsquoOlonne France167-180

MORLANE-HONDEgraveRE F (2013) laquo Utiliser une base distributionnelle pour filtrer un dictionnaire desynonymes raquo Actes du 20e Traitement Automatique des Langues Naturelles (TALN2013)Atelier SemDis 2013 Les Sables-drsquoOlonne France 112-125

NAVIGLI R (2012) ldquoA Quick Tour of Word Sense Disambiguation Induction and RelatedApproachesrdquo Proceedings of the 38th Conference on Current Trends in Theory and Practiceof Computer Science (SOFSEM) Spindleruv Mlyn Czech Republic 115-129

PEIRSMAN Y GEERAERTS D amp SPEELMAN D (2010) ldquoThe automatic identification of lexical variationbetween language varietiesrdquo Natural Language Engineering 16 (4) 469-491

PEREK F (2014) ldquoVector spaces for historical linguistics Using distributional semantics tostudy syntactic productivity in diachrony raquo Proceedings of the 52nd Annual Meeting of theAssociation for Computational Linguistics Baltimore USA 309-314

PEacuteRINET A amp HAMON T (2014) laquo Analyse et proposition de paramegravetres distributionnels adapteacutesaux corpus de speacutecialiteacute raquo Actes des 12e Journeacutees internationales drsquoAnalyse statistiquedes Donneacutees Textuelles (JADT 2014) Paris France 507-518

SAGI E KAUFMANN S amp CLARK B (2009) ldquoSemantic density analysis Comparing word meaningacross time and phonetic spacerdquo Proceedings of the EACL 2009 Workshop on GEMSAthens Greece 104-111

SAHLGREN M (2006) The Word-Space Model Using distributional analysis to represent syntag-matic and paradigmatic relations between words in high-dimensional vector spaces PhDThesis Department of Linguistics Stockholm University

SINCLAIR J (1991) Corpus Concordance Collocation Oxford Oxford University Press

THANOPOULOS A FAKOTAKIS N amp KOKKINAKIS G (2002) ldquoComparative Evaluation of CollocationExtraction Metricsrdquo Proceedings of the 3rd Language Resources Evaluation ConferenceLas Palmas Spain 620-625

TURNEY P D amp PANTEL P (2010) ldquoFrom Frequency to Meaning Vector Space Models ofSemanticsrdquo Journal of Artificial Intelligence Research 37 (1) 141-188

VENABLES W N amp RIPLEY B D (20024) Modern Applied Statistics with S New York Springer-Verlag

WEAVER W (1955) ldquoTranslationrdquo in W N Locke amp A D Booth (eds) Machine Translation ofLanguages Cambridge (MA) The MIT Press 15-23

WIECHMANN D (2008) ldquoOn the Computation of Collostruction Strengthrdquo Corpus Linguistics andLinguistic Theory 4 (2) 253-290

64

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

Seacutemantique distributionnelle en linguistique de corpus

ses cooccurrents ou mots-contextes Les donneacutees distributionnelles prennentdonc la forme drsquoun vecteur de cooccurrents Les mots-cibles qui partagent descooccurrents auront une repreacutesentation vectorielle semblable Une mesure desimilariteacute permet ensuite de comparer les vecteurs et de calculer leur distancedans lrsquoespace vectoriel La similariteacute entre les vecteurs des trois mots-cibles estcalculeacutee agrave partir du cosinus de lrsquoangle entre eux Le cosinus est une mesure desimilariteacute standard en seacutemantique distributionnelle (Bullinaria amp Levy 2007 Ferret 2010) Intuitivement on srsquoattend agrave ce que lrsquoangle entre deux conceptssimilaires (p ex chien et chat) soit plus petit que celui entre deux mots diffeacuterents(p ex chien et cafeacute) En drsquoautres termes quand les distributions de mots sont peusimilaires la valeur de similariteacute cosinus est infeacuterieure

cos(chien chat) = 055cos(chien cafeacute) = 027cos(chat cafeacute) = 030

Le reacutesultat correspond agrave lrsquointuition lsquochienrsquo et lsquochatrsquo se ressemblent le plus tandisque lsquochienrsquo et lsquocafeacutersquo partagent le moins de cooccurrences Il est agrave noter que lsquochienrsquoressemble un peu moins (027) agrave lsquocafeacutersquo que lsquochatrsquo (030) parce que lsquochienrsquo apparaicirctaussi avec lsquoaboyerrsquo et lsquopassantrsquo contrairement agrave lsquochatrsquo et lsquocafeacutersquo

Lrsquoimpleacutementation de cette technique aux exemples et au corpus du mondereacuteel ne srsquoappuie pas sur des freacutequences de cooccurrence absolues entre le mot-cible et ses cooccurrents Les cooccurrents les plus freacutequents ne donnent pasneacutecessairement le plus drsquoinformations sur la signification du mot-cible Agrave lrsquoinstardes travaux sur les collocations les meacutethodes drsquoanalyse distributionnelle srsquoap-puient sur des mesures drsquoassociation statistiques ce qui permet de donner plusde poids aux cooccurrents qui apparaissent significativement plus souvent avecle mot-cible qursquoattendu par le hasard Ces cooccurrents avec un poids plus eacuteleveacutefournissent plus drsquoinformations sur le sens du mot-cible que les autres cooccur-rents quelle que soit leur freacutequence absolue Dans lrsquoexemple avec le mot-ciblelsquochienrsquo le cooccurrent lsquoveacuteteacuterinairersquo est seacutemantiquement plus proche du conceptlaquo animal raquo que le mot lsquoprendrersquo bien qursquoil soit moins freacutequent Les mesuresdrsquoassociation qui sont utiliseacutees dans les modegraveles seacutemantiques distributionnelscomme fonctions de pondeacuteration sont emprunteacutees aux analyses de collocationsLes scheacutemas de pondeacuteration appliqueacutes dans cette eacutetude de cas reposent sur lamesure de lrsquoinformation mutuelle ponctuelle (Pointwise Mutual Information ouPMI) Les deacutetails techniques des mesures pour la pondeacuteration deacutepassent le cadredu preacutesent article mais on pourra se reacutefeacuterer agrave A Thanapoulos N Fakotakis etG Kokkinakis (2002) pour une comparaison de plusieurs mesures statistiquesPour calculer la valeur drsquoassociation on srsquoappuie sur les freacutequences de cooccur-rence recueillies dans un grand corpus Supposons que veacuteteacuterinaire a un poidscollocationnel de 43 srsquoil apparaicirct avec chien de 35 avec chat et de 08 aveccafeacute Ensuite le calcul de la similariteacute cosinus agrave partir des poids collocationnelsindique drsquoune part que chien et chat sont plus similaires que dans le calcul nonpondeacutereacute et drsquoautre part qursquoils sont moins similaires agrave cafeacute

Langages 201 57

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

La seacutemantique linguistique en vision peacuteripheacuterique

cos(chien chat) = 087cos(chien cafeacute) = 031cos(chat cafeacute) = 032

Le calcul pondeacutereacute de la similariteacute cosinus entre toutes les paires de mots-ciblespermet de geacuteneacuterer une matrice de similariteacute avec les mots-cibles tant dans leslignes que dans les colonnes et avec la valeur de similariteacute cosinus par pairede mots-cibles dans les cellules Les eacuteleacutements de la diagonale sont tous deslsquo1rsquo chaque mot-cible eacutetant complegravetement similaire agrave lui-mecircme La matrice estsymeacutetrique avec des valeurs identiques de part et drsquoautre de la diagonale parceque la similariteacute cosinus entre les mots A et B est identique agrave celle entre lesmots B et A Le Tableau 3 infra visualise les similariteacutes cosinus pour nos troismots-cibles exemples Dans un grand corpus du monde reacuteel on pourra trouverainsi pour chaque mot-cible le mot le plus similaire dans le reste du vocabulaireEacutetant donneacute que des mots tregraves similaires sont souvent des (quasi-)synonymesce type de matrice de similariteacute mot-par-mot est souvent utiliseacute en linguistiquecomputationnelle pour des tacircches drsquoextraction automatique de synonymes

Tableau 3 Matrice des valeurs de similariteacute cosinus

chat cafeacute chien

chat 1 032 087

cafeacute 032 1 031

chien 087 031 1

3 APPLICATION LEXICOLOGIQUE

Les meacutethodes drsquoanalyse distributionnelle se precirctent agrave diverses applicationslexicologiques et lexicographiques notamment la seacutelection automatique dephrases-exemples pour les dictionnaires (Cook et al 2013) lrsquoeacutetude diachroniquede la seacutemantique (Sagi Kaufmann amp Clark 2009 Perek 2014) et lrsquoeacutetude dela variation socio-linguistique (Peirsman Geeraerts amp Speelman 2010) Nouspreacutesentons infra une eacutetude de la polyseacutemie dans la langue speacutecialiseacutee Le modegraveledistributionnel expliqueacute dans la section preacuteceacutedente permet non seulement derecenser des (dis)similariteacutes seacutemantiques entre diffeacuterents mots tels que lsquochienrsquolsquochatrsquo et lsquocafeacutersquo mais eacutegalement drsquoexplorer les diffeacuterents sens drsquoun mot particulieragrave partir des (dis)similariteacutes seacutemantiques entre ses cooccurrents

Nous proceacutedons agrave lrsquoanalyse exploratoire de la polyseacutemie ou de lrsquoheacuteteacuterogeacute-neacuteiteacute seacutemantique du mot lsquotourrsquo dans un corpus technique relevant du domainespeacutecialiseacute des machines-outils pour lrsquousinage des meacutetaux (17 millions drsquooccur-rences) Ce mot a en effet plusieurs sens techniques dans ce corpus speacutecialiseacuteagrave savoir laquo machine-outil pour lrsquousinage des piegraveces raquo et laquo rotation raquo ainsi queplusieurs sens geacuteneacuteraux notamment dans les expressions tour drsquohorizon et agrave tourde rocircle Comme nous lrsquoavons indiqueacute supra (cf sect 2) la plupart des analyses en

58

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

Seacutemantique distributionnelle en linguistique de corpus

seacutemantique distributionnelle eacutetudient la proximiteacute seacutemantique entre mots enfonction des mots-contextes partageacutes Dans notre eacutetude lrsquoobjet drsquoanalyse se situeagrave un niveau supeacuterieur Les mots-cibles (cf Tableau 2) dont nous essayons drsquoeacutetu-dier les (dis)similariteacutes seacutemantiques sont les cooccurrents de lsquotourrsquo parce queceux-ci reflegravetent les diffeacuterents sens et usages de lsquotourrsquo dans le corpus techniqueNotre analyse consiste agrave regrouper les mots-cibles en fonction de leurs mots-contextes et agrave les positionner les uns par rapport aux autres en 2D Ces analysesde regroupement (clustering) et de visualisation (plotting) des cooccurrents per-mettent de cerner des groupes de cooccurrents seacutemantiquement lieacutes pour ainsiacceacuteder agrave la seacutemantique du mot lsquotourrsquo

Pour identifier les mots-cibles ou les cooccurrents pertinent de lsquotourrsquo ainsique leurs mots-contextes pertinents nous nous appuyons sur la mesure drsquoas-sociation de lrsquoinformation mutuelle speacutecifique ou Pointwise Mutual Information(PMI) Pour le regroupement et la visualisation des mots-cibles nous recouronsagrave lrsquoanalyse de positionnement multidimensionnel (MultiDimensional Scaling ouMDS) (Kruskal amp Wish 1978 Cox amp Cox 2001 Venables amp Ripley 2002 Borg ampGroenen 2005) La technique de MDS 3 est impleacutementeacutee dans le logiciel drsquoanalysestatistique R 4 Dans nos analyses nous utilisons le positionnement non meacutetriqueisoMDS Cette technique permet drsquoanalyser une matrice pour un ensemble dedonneacutees disposeacutees en ligne (ici les mots-cibles) agrave partir de leurs valeurs pourplusieurs variables disposeacutees en colonne (ici les mots-contextes) (cf Tableau 4)Dans un premier temps ces valeurs sont les valeurs drsquoassociation PMI entreun mot-cible et un mot-contexte avec lequel il apparaicirct Cela permet de geacuteneacute-rer un vecteur par mot-cible avec toutes les valeurs drsquoassociation avec tous sesmots-contextes Au cas ougrave cette matrice serait trop creuse nous pourrions enri-chir les donneacutees en faisant appel aux cooccurrents des mots-contextes Pour lesdeacutetails sur lrsquoenrichissement de la matrice on pourra se reacutefeacuterer agrave A Bertels etD Speelman (2013) Dans un deuxiegraveme temps le calcul pondeacutereacute de la similariteacutecosinus entre toutes les paires de mots-cibles permet de geacuteneacuterer une matrice desimilariteacute agrave lrsquoinstar du Tableau 3

3 Le MDS est une meacutethode drsquoanalyse multivarieacutee descriptive comme lrsquoanalyse factorielle des correspon-dances (AFC) ou lrsquoanalyse en composantes principales (ACP) Agrave la diffeacuterence de ces techniques le MDSpermet drsquoanalyser tout type de matrice de (dis)similariteacute si les (dis)similariteacutes sont eacutevidentes Le MDS nrsquoim-pose pas de restrictions telles que des relations lineacuteaires entre les donneacutees sous-jacentes leur distributionnormale multivarieacutee ou la matrice de correacutelation [httpwwwstatsoftcomtextbookstmulscahtml]

4 R [wwwr-projectorg]

Langages 201 59

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

La seacutemantique linguistique en vision peacuteripheacuterique

Tableau 4 Matrice de cooccurrence pondeacutereacutee mots-cibles par mots-contextes

minute par commande broche

millevaleur drsquoassociation (PMI)

entre mille et minutePMI

numeacuterique PMI

inverseacute PMI

horizon

La matrice de similariteacute est ensuite soumise agrave une analyse de positionnementmultidimensionnel qui consiste agrave regrouper les mots-cibles ou les cooccurrentsde lsquotourrsquo en fonction des valeurs drsquoassociation similaires avec des mots-contextessimilaires et agrave visualiser ces proximiteacutes et distances seacutemantiques en 2D Cettevisualisation permettra aux chercheurs-linguistes non-informaticiens drsquoacceacutederagrave la seacutemantique du mot lsquotourrsquo

Dans la Figure 1 infra la reacutepartition des mots-cibles repreacutesente bien le carac-tegravere seacutemantiquement heacuteteacuterogegravene de lsquotourrsquo Les proximiteacutes et les distances seacuteman-tiques montrent quelques mots-cibles isoleacutes et quelques groupes de mots-ciblesseacutemantiquement lieacutes Les mots-cibles peacuteripheacuteriques pointent vers des sens par-ticuliers agrave savoir horizon (sens geacuteneacuteral dans laquo tour drsquohorizon raquo) et mille (senstechnique dans laquo mille tours par minute raquo) Dans la partie supeacuterieure agrave droiteon retrouve des mots-cibles qui attestent le sens technique particulier laquo tourinverseacute raquo avec inverseacutes inverseacute et bibroches Le nuage de mots-cibles dans lapartie infeacuterieure agrave gauche visualise le sens technique laquo machine-outil pour lrsquousi-nage des piegraveces raquo La preacutesence de plusieurs petits regroupements de mots-ciblesteacutemoigne de la variation des contextes drsquoapparition On observe un contextespeacutecialiseacute laquo tour (agrave) deux broches raquo agrave gauche en bas axes broches broche outilsdeux trois centres et mecircme au milieu vertical et verticaux Agrave gauche au milieu onretrouve commande numeacuterique CNC gamme seacuterie type et quelques mots-ciblesmoins speacutecialiseacutes Les mots-cibles plus geacuteneacuteraux comme manutention ligne geacuteneacute-rale production et conception se retrouvent dans la partie supeacuterieure de ce nuageet font preuve drsquoun contexte drsquoapparition plus geacuteneacuteral

60

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

Seacutemantique distributionnelle en linguistique de corpus

Figure 1 Visualisation des mots-cibles ou cooccurrents de lsquotourrsquo

4 CONCLUSION

Dans cet article nous avons preacutesenteacute les possibiliteacutes de la modeacutelisation seacuteman-tique distributionnelle pour les analyses linguistiques Gracircce agrave la disponibiliteacutede vastes corpus eacutelectroniques les lexicologues et lexicographes disposent denos jours drsquoune eacutenorme base de donneacutees empirique Pour analyser cette abon-dance de donneacutees ils pourront recourir agrave des outils drsquoanalyse statistique et agravedes meacutethodes drsquoanalyse distributionnelle qui leur permettront notamment derepeacuterer des patrons et motifs

Les meacutethodes drsquoanalyse distributionnelle srsquoappuient sur lrsquohypothegravese distri-butionnelle selon laquelle des mots qui se trouvent dans des contextes drsquoappa-rition similaires tendent agrave avoir des sens similaires Elles regroupent plusieursapproches et sous-types en fonction du type de contexte du niveau drsquoanalyse etdu mode de repreacutesentation computationnelle des donneacutees Nous avons expliqueacuteles principes de base de ces modegraveles agrave partir drsquoun modegravele distributionnel par-ticulier relativement intuitif pour des linguistes agrave savoir un modegravele agrave base de

Langages 201 61

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

La seacutemantique linguistique en vision peacuteripheacuterique

mots qui considegravere les cooccurrents graphiques au niveau des types sous formede repreacutesentation vectorielle Ce modegravele distributionnel permet non seulementde recenser des (dis)similariteacutes seacutemantiques entre diffeacuterents mots tels que lesexemples-jouets lsquochienrsquo lsquochatrsquo et lsquocafeacutersquo mais eacutegalement drsquoexplorer les diffeacuterentssens drsquoun mot particulier agrave partir des (dis)similariteacutes seacutemantiques entre ses cooc-currents Agrave titre drsquoexemple nous avons discuteacute une application lexicologiquequi consistait agrave regrouper les mots-cibles ou les cooccurrents du mot techniquelsquotourrsquo en fonction des valeurs drsquoassociation similaires avec des mots-contextessimilaires Ces proximiteacutes et distances seacutemantiques sont visualiseacutees en 2D pourpermettre aux chercheurs-linguistes non-informaticiens drsquoacceacuteder agrave la seacuteman-tique du mot lsquotourrsquo

Lrsquoobjectif de cet article eacutetait de montrer lrsquoutiliteacute des modegraveles seacutemantiquesdistributionnels pour les linguistes lexicologues et lexicographes agrave lrsquoaide drsquounepreacutesentation non technique des principes de base et drsquoune application lexicolo-gique concregravete Comme les diffeacuterentes approches et les nombreux sous-types demodegraveles le suggegraverent des recherches futures devront srsquoatteler agrave la mise au pointdes nombreux paramegravetres pour aboutir au modegravele qui soit le mieux adapteacute auxbesoins speacutecifiques de la recherche lexicologique ou lexicographique neacutecessaire

Reacutefeacuterences

BERNIER-COLBORNE G (2014) laquo Analyse distributionnelle de corpus speacutecialiseacutes pour lrsquoidentifica-tion de relations lexico-seacutemantiques raquo Actes du 21e Traitement Automatique des LanguesNaturelles (TALN2014) Atelier SemDis 2014 Marseille France 238-251

BERTELS A amp SPEELMAN D (2013) laquo Exploration seacutemantique visuelle agrave partir des cooccurrencesde deuxiegraveme et troisiegraveme ordre raquo Actes du 20e Traitement Automatique des LanguesNaturelles (TALN2013) Atelier SemDis 2013 Les Sables-drsquoOlonne France 126-139

BERTELS A amp SPEELMAN D (2014) laquo Analyse de positionnement multidimensionnel sur lecorpus speacutecialiseacute TALN raquo Actes du 21e Traitement Automatique des Langues Naturelles(TALN2014) Atelier SemDis 2014 Marseille France 252-265

BORG I amp GROENEN P (20052) Modern Multidimensional Scaling theory and applications NewYork Springer-Verlag

BOUAUD J et al (1997) laquo Regroupements issus de deacutependances syntaxiques en corpus cateacute-gorisation et confrontation agrave deux modeacutelisations conceptuelles raquo Actes des 1res journeacuteesIngeacutenierie des Connaissances Roskoff France 207-223

BRUNI E TRAN N K amp BARONI M (2014) ldquoMultimodal Distributional Semanticsrdquo Journal ofArtificial Intelligence Research 49 (1) 1-47

BULLINARIA J A amp LEVY J P (2007) ldquoExtracting Semantic Representations from Word Co-occurrence Statistics A Computational Studyrdquo Behavior Research Methods 39 510-526

CHURCH K W amp HANKS P (1989) ldquoWord association norms mutual information and lexico-graphyrdquo Proceedings of the 27th Annual Conference of the Association of ComputationalLinguistics Vancouver British Columbia 76-83

CLAVEAU V KIJAK E amp FERRET O (2014) laquo Explorer le graphe de voisinage pour ameacuteliorer lestheacutesaurus distributionnels raquo Actes du 21e Traitement Automatique des Langues Naturelles(TALN2014) Marseille France 220-231

62

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

Seacutemantique distributionnelle en linguistique de corpus

COOK P et al (2013) ldquoA lexicographic appraisal of an automatic approach for detecting newword-sensesrdquo Proceedings of the eLex 2013 Conference Tallinn Estonia 49-65

COX T F amp COX M A A (2001) Multidimensional Scaling Boca Raton (FL) Chapman amp Hall

CURRAN J R amp MOENS M (2002) ldquoImprovements in automatic thesaurus extractionrdquoProceedings of the ACL-02 Workshop on Unsupervised Lexical Acquisition Vol 9Stroudsburg (PA) USA 59-66

DESALLE Y et al (2014) laquo BACANAL Balades Aleacuteatoires Courtes pour ANAlyses LexicalesApplication agrave la substitution lexicale raquo Actes du 21e Traitement Automatique des LanguesNaturelles (TALN2014) Atelier SemDis 2014 Marseille France 206-217

DINU G THATER S amp LAUE S (2012) ldquoA comparison of models of word meaning in contextrdquoProceedings of the 2012 Conference of the North American Chapter of the Association forComputational Linguistics Human Language Technologies Atlanta (GA) USA 611-615

EVERT S (2004) The Statistics of Word Cooccurrences Word Pairs and CollocationsDissertation Institut fuumlr maschinelle Sprachverarbeitung University of Stuttgart

FABRE C et al (2014a) laquo Preacutesentation de lrsquoatelier SemDis 2014 seacutemantique distributionnellepour la substitution lexicale et lrsquoexploration de corpus speacutecialiseacutes raquo Actes du 21e TraitementAutomatique des Langues Naturelles (TALN2014) Atelier SemDis 2014 Marseille France196-205

FABRE C et al (2014b) laquo Ajuster lrsquoanalyse distributionnelle agrave un corpus speacutecialiseacute de petitetaille raquo Actes du 21e Traitement Automatique des Langues Naturelles (TALN2014) AtelierSemDis 2014 Marseille France 266-279

FERRET O (2010) laquo Similariteacute seacutemantique et extraction de synonymes agrave partir de corpus raquoActes du 17e Traitement Automatique des Langues Naturelles (TALN2010) MontreacutealCanada [httpwwwiroumontrealcasimfelipeTALN2010XmlPapersalltaln2010_submission_77pdf]

FERRET O (2014) laquo Utiliser un modegravele neuronal geacuteneacuterique pour la substitution lexicale raquo Actesdu 21e Traitement Automatique des Langues Naturelles (TALN2014) Atelier SemDis 2014Marseille France 218-227

FIRTH J R (1957) Papers in Linguistics 1934-1951 Oxford Oxford University Press

GEERAERTS D (2010) Theories of Lexical Semantics OxfordNew York Oxford University Press

GLYNN D (2010) ldquoTesting the Hypothesis Objectivity and Verification in Usage-Based CognitiveSemanticsrdquo in D Glynn amp K Fischer (eds) Quantitative Methods in Cognitive SemanticsCorpus-driven approaches BerlinNew York Mouton de Gruyter 239-270

HABERT B amp ZWEIGENBAUM P (2002) ldquoContextual acquisition of information categories whathas been done and what can be done automaticallyrdquo in B Nevin amp S Johnson (eds) TheLegacy of Zellig Harris Language and information into the 21st century Amsterdam JohnBenjamins 203-231

HARRIS Z (1954) ldquoDistributional structurerdquo Word 10 (23) 146-162

HEYLEN K et al (2014) ldquoMonitoring Polysemy Word Space Models as a Tool for Large-ScaleLexical Semantic Analysisrdquo Lingua International Review of General Linguistics 157 153-172

HEYLEN K SPEELMAN D amp GEERAERTS D (2012) ldquoLooking at word meaning An interactivevisualization of Semantic Vector Spaces for Dutch synsetsrdquo Proceedings of the EACL 2012Joint Workshop of LINGVIS et UNCLH Avignon France 16-24

KRUSKAL J B amp WISH M (1978) Multidimensional Scaling Sage University Paper series onQuantitative Applications in the Social Sciences number 07-011 Newbury Park (CA) SagePublications

Langages 201 63

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

La seacutemantique linguistique en vision peacuteripheacuterique

LANDAUER T K amp DUMAIS S T (1997) ldquoA solution to Platorsquos problem The latent semanticanalysis theory of acquisition induction and representation of knowledgerdquo PsychologicalReview 104 (2) 211-240

LUND K amp BURGESS C (1996) ldquoProducing high-dimensional semantic spaces from lexical co-occurrencerdquo Behavior Research Methods Instrumentation and Computers 28 203-208

MORARDO M amp VILLEMONTE DE LA CLERGERIE Eacute (2013) laquo Vers un environnement de production etde validation de ressources lexicales seacutemantiques raquo Actes du 20e Traitement Automatiquedes Langues Naturelles (TALN2013) Atelier SemDis 2013 Les Sables-drsquoOlonne France167-180

MORLANE-HONDEgraveRE F (2013) laquo Utiliser une base distributionnelle pour filtrer un dictionnaire desynonymes raquo Actes du 20e Traitement Automatique des Langues Naturelles (TALN2013)Atelier SemDis 2013 Les Sables-drsquoOlonne France 112-125

NAVIGLI R (2012) ldquoA Quick Tour of Word Sense Disambiguation Induction and RelatedApproachesrdquo Proceedings of the 38th Conference on Current Trends in Theory and Practiceof Computer Science (SOFSEM) Spindleruv Mlyn Czech Republic 115-129

PEIRSMAN Y GEERAERTS D amp SPEELMAN D (2010) ldquoThe automatic identification of lexical variationbetween language varietiesrdquo Natural Language Engineering 16 (4) 469-491

PEREK F (2014) ldquoVector spaces for historical linguistics Using distributional semantics tostudy syntactic productivity in diachrony raquo Proceedings of the 52nd Annual Meeting of theAssociation for Computational Linguistics Baltimore USA 309-314

PEacuteRINET A amp HAMON T (2014) laquo Analyse et proposition de paramegravetres distributionnels adapteacutesaux corpus de speacutecialiteacute raquo Actes des 12e Journeacutees internationales drsquoAnalyse statistiquedes Donneacutees Textuelles (JADT 2014) Paris France 507-518

SAGI E KAUFMANN S amp CLARK B (2009) ldquoSemantic density analysis Comparing word meaningacross time and phonetic spacerdquo Proceedings of the EACL 2009 Workshop on GEMSAthens Greece 104-111

SAHLGREN M (2006) The Word-Space Model Using distributional analysis to represent syntag-matic and paradigmatic relations between words in high-dimensional vector spaces PhDThesis Department of Linguistics Stockholm University

SINCLAIR J (1991) Corpus Concordance Collocation Oxford Oxford University Press

THANOPOULOS A FAKOTAKIS N amp KOKKINAKIS G (2002) ldquoComparative Evaluation of CollocationExtraction Metricsrdquo Proceedings of the 3rd Language Resources Evaluation ConferenceLas Palmas Spain 620-625

TURNEY P D amp PANTEL P (2010) ldquoFrom Frequency to Meaning Vector Space Models ofSemanticsrdquo Journal of Artificial Intelligence Research 37 (1) 141-188

VENABLES W N amp RIPLEY B D (20024) Modern Applied Statistics with S New York Springer-Verlag

WEAVER W (1955) ldquoTranslationrdquo in W N Locke amp A D Booth (eds) Machine Translation ofLanguages Cambridge (MA) The MIT Press 15-23

WIECHMANN D (2008) ldquoOn the Computation of Collostruction Strengthrdquo Corpus Linguistics andLinguistic Theory 4 (2) 253-290

64

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

La seacutemantique linguistique en vision peacuteripheacuterique

cos(chien chat) = 087cos(chien cafeacute) = 031cos(chat cafeacute) = 032

Le calcul pondeacutereacute de la similariteacute cosinus entre toutes les paires de mots-ciblespermet de geacuteneacuterer une matrice de similariteacute avec les mots-cibles tant dans leslignes que dans les colonnes et avec la valeur de similariteacute cosinus par pairede mots-cibles dans les cellules Les eacuteleacutements de la diagonale sont tous deslsquo1rsquo chaque mot-cible eacutetant complegravetement similaire agrave lui-mecircme La matrice estsymeacutetrique avec des valeurs identiques de part et drsquoautre de la diagonale parceque la similariteacute cosinus entre les mots A et B est identique agrave celle entre lesmots B et A Le Tableau 3 infra visualise les similariteacutes cosinus pour nos troismots-cibles exemples Dans un grand corpus du monde reacuteel on pourra trouverainsi pour chaque mot-cible le mot le plus similaire dans le reste du vocabulaireEacutetant donneacute que des mots tregraves similaires sont souvent des (quasi-)synonymesce type de matrice de similariteacute mot-par-mot est souvent utiliseacute en linguistiquecomputationnelle pour des tacircches drsquoextraction automatique de synonymes

Tableau 3 Matrice des valeurs de similariteacute cosinus

chat cafeacute chien

chat 1 032 087

cafeacute 032 1 031

chien 087 031 1

3 APPLICATION LEXICOLOGIQUE

Les meacutethodes drsquoanalyse distributionnelle se precirctent agrave diverses applicationslexicologiques et lexicographiques notamment la seacutelection automatique dephrases-exemples pour les dictionnaires (Cook et al 2013) lrsquoeacutetude diachroniquede la seacutemantique (Sagi Kaufmann amp Clark 2009 Perek 2014) et lrsquoeacutetude dela variation socio-linguistique (Peirsman Geeraerts amp Speelman 2010) Nouspreacutesentons infra une eacutetude de la polyseacutemie dans la langue speacutecialiseacutee Le modegraveledistributionnel expliqueacute dans la section preacuteceacutedente permet non seulement derecenser des (dis)similariteacutes seacutemantiques entre diffeacuterents mots tels que lsquochienrsquolsquochatrsquo et lsquocafeacutersquo mais eacutegalement drsquoexplorer les diffeacuterents sens drsquoun mot particulieragrave partir des (dis)similariteacutes seacutemantiques entre ses cooccurrents

Nous proceacutedons agrave lrsquoanalyse exploratoire de la polyseacutemie ou de lrsquoheacuteteacuterogeacute-neacuteiteacute seacutemantique du mot lsquotourrsquo dans un corpus technique relevant du domainespeacutecialiseacute des machines-outils pour lrsquousinage des meacutetaux (17 millions drsquooccur-rences) Ce mot a en effet plusieurs sens techniques dans ce corpus speacutecialiseacuteagrave savoir laquo machine-outil pour lrsquousinage des piegraveces raquo et laquo rotation raquo ainsi queplusieurs sens geacuteneacuteraux notamment dans les expressions tour drsquohorizon et agrave tourde rocircle Comme nous lrsquoavons indiqueacute supra (cf sect 2) la plupart des analyses en

58

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

Seacutemantique distributionnelle en linguistique de corpus

seacutemantique distributionnelle eacutetudient la proximiteacute seacutemantique entre mots enfonction des mots-contextes partageacutes Dans notre eacutetude lrsquoobjet drsquoanalyse se situeagrave un niveau supeacuterieur Les mots-cibles (cf Tableau 2) dont nous essayons drsquoeacutetu-dier les (dis)similariteacutes seacutemantiques sont les cooccurrents de lsquotourrsquo parce queceux-ci reflegravetent les diffeacuterents sens et usages de lsquotourrsquo dans le corpus techniqueNotre analyse consiste agrave regrouper les mots-cibles en fonction de leurs mots-contextes et agrave les positionner les uns par rapport aux autres en 2D Ces analysesde regroupement (clustering) et de visualisation (plotting) des cooccurrents per-mettent de cerner des groupes de cooccurrents seacutemantiquement lieacutes pour ainsiacceacuteder agrave la seacutemantique du mot lsquotourrsquo

Pour identifier les mots-cibles ou les cooccurrents pertinent de lsquotourrsquo ainsique leurs mots-contextes pertinents nous nous appuyons sur la mesure drsquoas-sociation de lrsquoinformation mutuelle speacutecifique ou Pointwise Mutual Information(PMI) Pour le regroupement et la visualisation des mots-cibles nous recouronsagrave lrsquoanalyse de positionnement multidimensionnel (MultiDimensional Scaling ouMDS) (Kruskal amp Wish 1978 Cox amp Cox 2001 Venables amp Ripley 2002 Borg ampGroenen 2005) La technique de MDS 3 est impleacutementeacutee dans le logiciel drsquoanalysestatistique R 4 Dans nos analyses nous utilisons le positionnement non meacutetriqueisoMDS Cette technique permet drsquoanalyser une matrice pour un ensemble dedonneacutees disposeacutees en ligne (ici les mots-cibles) agrave partir de leurs valeurs pourplusieurs variables disposeacutees en colonne (ici les mots-contextes) (cf Tableau 4)Dans un premier temps ces valeurs sont les valeurs drsquoassociation PMI entreun mot-cible et un mot-contexte avec lequel il apparaicirct Cela permet de geacuteneacute-rer un vecteur par mot-cible avec toutes les valeurs drsquoassociation avec tous sesmots-contextes Au cas ougrave cette matrice serait trop creuse nous pourrions enri-chir les donneacutees en faisant appel aux cooccurrents des mots-contextes Pour lesdeacutetails sur lrsquoenrichissement de la matrice on pourra se reacutefeacuterer agrave A Bertels etD Speelman (2013) Dans un deuxiegraveme temps le calcul pondeacutereacute de la similariteacutecosinus entre toutes les paires de mots-cibles permet de geacuteneacuterer une matrice desimilariteacute agrave lrsquoinstar du Tableau 3

3 Le MDS est une meacutethode drsquoanalyse multivarieacutee descriptive comme lrsquoanalyse factorielle des correspon-dances (AFC) ou lrsquoanalyse en composantes principales (ACP) Agrave la diffeacuterence de ces techniques le MDSpermet drsquoanalyser tout type de matrice de (dis)similariteacute si les (dis)similariteacutes sont eacutevidentes Le MDS nrsquoim-pose pas de restrictions telles que des relations lineacuteaires entre les donneacutees sous-jacentes leur distributionnormale multivarieacutee ou la matrice de correacutelation [httpwwwstatsoftcomtextbookstmulscahtml]

4 R [wwwr-projectorg]

Langages 201 59

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

La seacutemantique linguistique en vision peacuteripheacuterique

Tableau 4 Matrice de cooccurrence pondeacutereacutee mots-cibles par mots-contextes

minute par commande broche

millevaleur drsquoassociation (PMI)

entre mille et minutePMI

numeacuterique PMI

inverseacute PMI

horizon

La matrice de similariteacute est ensuite soumise agrave une analyse de positionnementmultidimensionnel qui consiste agrave regrouper les mots-cibles ou les cooccurrentsde lsquotourrsquo en fonction des valeurs drsquoassociation similaires avec des mots-contextessimilaires et agrave visualiser ces proximiteacutes et distances seacutemantiques en 2D Cettevisualisation permettra aux chercheurs-linguistes non-informaticiens drsquoacceacutederagrave la seacutemantique du mot lsquotourrsquo

Dans la Figure 1 infra la reacutepartition des mots-cibles repreacutesente bien le carac-tegravere seacutemantiquement heacuteteacuterogegravene de lsquotourrsquo Les proximiteacutes et les distances seacuteman-tiques montrent quelques mots-cibles isoleacutes et quelques groupes de mots-ciblesseacutemantiquement lieacutes Les mots-cibles peacuteripheacuteriques pointent vers des sens par-ticuliers agrave savoir horizon (sens geacuteneacuteral dans laquo tour drsquohorizon raquo) et mille (senstechnique dans laquo mille tours par minute raquo) Dans la partie supeacuterieure agrave droiteon retrouve des mots-cibles qui attestent le sens technique particulier laquo tourinverseacute raquo avec inverseacutes inverseacute et bibroches Le nuage de mots-cibles dans lapartie infeacuterieure agrave gauche visualise le sens technique laquo machine-outil pour lrsquousi-nage des piegraveces raquo La preacutesence de plusieurs petits regroupements de mots-ciblesteacutemoigne de la variation des contextes drsquoapparition On observe un contextespeacutecialiseacute laquo tour (agrave) deux broches raquo agrave gauche en bas axes broches broche outilsdeux trois centres et mecircme au milieu vertical et verticaux Agrave gauche au milieu onretrouve commande numeacuterique CNC gamme seacuterie type et quelques mots-ciblesmoins speacutecialiseacutes Les mots-cibles plus geacuteneacuteraux comme manutention ligne geacuteneacute-rale production et conception se retrouvent dans la partie supeacuterieure de ce nuageet font preuve drsquoun contexte drsquoapparition plus geacuteneacuteral

60

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

Seacutemantique distributionnelle en linguistique de corpus

Figure 1 Visualisation des mots-cibles ou cooccurrents de lsquotourrsquo

4 CONCLUSION

Dans cet article nous avons preacutesenteacute les possibiliteacutes de la modeacutelisation seacuteman-tique distributionnelle pour les analyses linguistiques Gracircce agrave la disponibiliteacutede vastes corpus eacutelectroniques les lexicologues et lexicographes disposent denos jours drsquoune eacutenorme base de donneacutees empirique Pour analyser cette abon-dance de donneacutees ils pourront recourir agrave des outils drsquoanalyse statistique et agravedes meacutethodes drsquoanalyse distributionnelle qui leur permettront notamment derepeacuterer des patrons et motifs

Les meacutethodes drsquoanalyse distributionnelle srsquoappuient sur lrsquohypothegravese distri-butionnelle selon laquelle des mots qui se trouvent dans des contextes drsquoappa-rition similaires tendent agrave avoir des sens similaires Elles regroupent plusieursapproches et sous-types en fonction du type de contexte du niveau drsquoanalyse etdu mode de repreacutesentation computationnelle des donneacutees Nous avons expliqueacuteles principes de base de ces modegraveles agrave partir drsquoun modegravele distributionnel par-ticulier relativement intuitif pour des linguistes agrave savoir un modegravele agrave base de

Langages 201 61

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

La seacutemantique linguistique en vision peacuteripheacuterique

mots qui considegravere les cooccurrents graphiques au niveau des types sous formede repreacutesentation vectorielle Ce modegravele distributionnel permet non seulementde recenser des (dis)similariteacutes seacutemantiques entre diffeacuterents mots tels que lesexemples-jouets lsquochienrsquo lsquochatrsquo et lsquocafeacutersquo mais eacutegalement drsquoexplorer les diffeacuterentssens drsquoun mot particulier agrave partir des (dis)similariteacutes seacutemantiques entre ses cooc-currents Agrave titre drsquoexemple nous avons discuteacute une application lexicologiquequi consistait agrave regrouper les mots-cibles ou les cooccurrents du mot techniquelsquotourrsquo en fonction des valeurs drsquoassociation similaires avec des mots-contextessimilaires Ces proximiteacutes et distances seacutemantiques sont visualiseacutees en 2D pourpermettre aux chercheurs-linguistes non-informaticiens drsquoacceacuteder agrave la seacuteman-tique du mot lsquotourrsquo

Lrsquoobjectif de cet article eacutetait de montrer lrsquoutiliteacute des modegraveles seacutemantiquesdistributionnels pour les linguistes lexicologues et lexicographes agrave lrsquoaide drsquounepreacutesentation non technique des principes de base et drsquoune application lexicolo-gique concregravete Comme les diffeacuterentes approches et les nombreux sous-types demodegraveles le suggegraverent des recherches futures devront srsquoatteler agrave la mise au pointdes nombreux paramegravetres pour aboutir au modegravele qui soit le mieux adapteacute auxbesoins speacutecifiques de la recherche lexicologique ou lexicographique neacutecessaire

Reacutefeacuterences

BERNIER-COLBORNE G (2014) laquo Analyse distributionnelle de corpus speacutecialiseacutes pour lrsquoidentifica-tion de relations lexico-seacutemantiques raquo Actes du 21e Traitement Automatique des LanguesNaturelles (TALN2014) Atelier SemDis 2014 Marseille France 238-251

BERTELS A amp SPEELMAN D (2013) laquo Exploration seacutemantique visuelle agrave partir des cooccurrencesde deuxiegraveme et troisiegraveme ordre raquo Actes du 20e Traitement Automatique des LanguesNaturelles (TALN2013) Atelier SemDis 2013 Les Sables-drsquoOlonne France 126-139

BERTELS A amp SPEELMAN D (2014) laquo Analyse de positionnement multidimensionnel sur lecorpus speacutecialiseacute TALN raquo Actes du 21e Traitement Automatique des Langues Naturelles(TALN2014) Atelier SemDis 2014 Marseille France 252-265

BORG I amp GROENEN P (20052) Modern Multidimensional Scaling theory and applications NewYork Springer-Verlag

BOUAUD J et al (1997) laquo Regroupements issus de deacutependances syntaxiques en corpus cateacute-gorisation et confrontation agrave deux modeacutelisations conceptuelles raquo Actes des 1res journeacuteesIngeacutenierie des Connaissances Roskoff France 207-223

BRUNI E TRAN N K amp BARONI M (2014) ldquoMultimodal Distributional Semanticsrdquo Journal ofArtificial Intelligence Research 49 (1) 1-47

BULLINARIA J A amp LEVY J P (2007) ldquoExtracting Semantic Representations from Word Co-occurrence Statistics A Computational Studyrdquo Behavior Research Methods 39 510-526

CHURCH K W amp HANKS P (1989) ldquoWord association norms mutual information and lexico-graphyrdquo Proceedings of the 27th Annual Conference of the Association of ComputationalLinguistics Vancouver British Columbia 76-83

CLAVEAU V KIJAK E amp FERRET O (2014) laquo Explorer le graphe de voisinage pour ameacuteliorer lestheacutesaurus distributionnels raquo Actes du 21e Traitement Automatique des Langues Naturelles(TALN2014) Marseille France 220-231

62

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

Seacutemantique distributionnelle en linguistique de corpus

COOK P et al (2013) ldquoA lexicographic appraisal of an automatic approach for detecting newword-sensesrdquo Proceedings of the eLex 2013 Conference Tallinn Estonia 49-65

COX T F amp COX M A A (2001) Multidimensional Scaling Boca Raton (FL) Chapman amp Hall

CURRAN J R amp MOENS M (2002) ldquoImprovements in automatic thesaurus extractionrdquoProceedings of the ACL-02 Workshop on Unsupervised Lexical Acquisition Vol 9Stroudsburg (PA) USA 59-66

DESALLE Y et al (2014) laquo BACANAL Balades Aleacuteatoires Courtes pour ANAlyses LexicalesApplication agrave la substitution lexicale raquo Actes du 21e Traitement Automatique des LanguesNaturelles (TALN2014) Atelier SemDis 2014 Marseille France 206-217

DINU G THATER S amp LAUE S (2012) ldquoA comparison of models of word meaning in contextrdquoProceedings of the 2012 Conference of the North American Chapter of the Association forComputational Linguistics Human Language Technologies Atlanta (GA) USA 611-615

EVERT S (2004) The Statistics of Word Cooccurrences Word Pairs and CollocationsDissertation Institut fuumlr maschinelle Sprachverarbeitung University of Stuttgart

FABRE C et al (2014a) laquo Preacutesentation de lrsquoatelier SemDis 2014 seacutemantique distributionnellepour la substitution lexicale et lrsquoexploration de corpus speacutecialiseacutes raquo Actes du 21e TraitementAutomatique des Langues Naturelles (TALN2014) Atelier SemDis 2014 Marseille France196-205

FABRE C et al (2014b) laquo Ajuster lrsquoanalyse distributionnelle agrave un corpus speacutecialiseacute de petitetaille raquo Actes du 21e Traitement Automatique des Langues Naturelles (TALN2014) AtelierSemDis 2014 Marseille France 266-279

FERRET O (2010) laquo Similariteacute seacutemantique et extraction de synonymes agrave partir de corpus raquoActes du 17e Traitement Automatique des Langues Naturelles (TALN2010) MontreacutealCanada [httpwwwiroumontrealcasimfelipeTALN2010XmlPapersalltaln2010_submission_77pdf]

FERRET O (2014) laquo Utiliser un modegravele neuronal geacuteneacuterique pour la substitution lexicale raquo Actesdu 21e Traitement Automatique des Langues Naturelles (TALN2014) Atelier SemDis 2014Marseille France 218-227

FIRTH J R (1957) Papers in Linguistics 1934-1951 Oxford Oxford University Press

GEERAERTS D (2010) Theories of Lexical Semantics OxfordNew York Oxford University Press

GLYNN D (2010) ldquoTesting the Hypothesis Objectivity and Verification in Usage-Based CognitiveSemanticsrdquo in D Glynn amp K Fischer (eds) Quantitative Methods in Cognitive SemanticsCorpus-driven approaches BerlinNew York Mouton de Gruyter 239-270

HABERT B amp ZWEIGENBAUM P (2002) ldquoContextual acquisition of information categories whathas been done and what can be done automaticallyrdquo in B Nevin amp S Johnson (eds) TheLegacy of Zellig Harris Language and information into the 21st century Amsterdam JohnBenjamins 203-231

HARRIS Z (1954) ldquoDistributional structurerdquo Word 10 (23) 146-162

HEYLEN K et al (2014) ldquoMonitoring Polysemy Word Space Models as a Tool for Large-ScaleLexical Semantic Analysisrdquo Lingua International Review of General Linguistics 157 153-172

HEYLEN K SPEELMAN D amp GEERAERTS D (2012) ldquoLooking at word meaning An interactivevisualization of Semantic Vector Spaces for Dutch synsetsrdquo Proceedings of the EACL 2012Joint Workshop of LINGVIS et UNCLH Avignon France 16-24

KRUSKAL J B amp WISH M (1978) Multidimensional Scaling Sage University Paper series onQuantitative Applications in the Social Sciences number 07-011 Newbury Park (CA) SagePublications

Langages 201 63

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

La seacutemantique linguistique en vision peacuteripheacuterique

LANDAUER T K amp DUMAIS S T (1997) ldquoA solution to Platorsquos problem The latent semanticanalysis theory of acquisition induction and representation of knowledgerdquo PsychologicalReview 104 (2) 211-240

LUND K amp BURGESS C (1996) ldquoProducing high-dimensional semantic spaces from lexical co-occurrencerdquo Behavior Research Methods Instrumentation and Computers 28 203-208

MORARDO M amp VILLEMONTE DE LA CLERGERIE Eacute (2013) laquo Vers un environnement de production etde validation de ressources lexicales seacutemantiques raquo Actes du 20e Traitement Automatiquedes Langues Naturelles (TALN2013) Atelier SemDis 2013 Les Sables-drsquoOlonne France167-180

MORLANE-HONDEgraveRE F (2013) laquo Utiliser une base distributionnelle pour filtrer un dictionnaire desynonymes raquo Actes du 20e Traitement Automatique des Langues Naturelles (TALN2013)Atelier SemDis 2013 Les Sables-drsquoOlonne France 112-125

NAVIGLI R (2012) ldquoA Quick Tour of Word Sense Disambiguation Induction and RelatedApproachesrdquo Proceedings of the 38th Conference on Current Trends in Theory and Practiceof Computer Science (SOFSEM) Spindleruv Mlyn Czech Republic 115-129

PEIRSMAN Y GEERAERTS D amp SPEELMAN D (2010) ldquoThe automatic identification of lexical variationbetween language varietiesrdquo Natural Language Engineering 16 (4) 469-491

PEREK F (2014) ldquoVector spaces for historical linguistics Using distributional semantics tostudy syntactic productivity in diachrony raquo Proceedings of the 52nd Annual Meeting of theAssociation for Computational Linguistics Baltimore USA 309-314

PEacuteRINET A amp HAMON T (2014) laquo Analyse et proposition de paramegravetres distributionnels adapteacutesaux corpus de speacutecialiteacute raquo Actes des 12e Journeacutees internationales drsquoAnalyse statistiquedes Donneacutees Textuelles (JADT 2014) Paris France 507-518

SAGI E KAUFMANN S amp CLARK B (2009) ldquoSemantic density analysis Comparing word meaningacross time and phonetic spacerdquo Proceedings of the EACL 2009 Workshop on GEMSAthens Greece 104-111

SAHLGREN M (2006) The Word-Space Model Using distributional analysis to represent syntag-matic and paradigmatic relations between words in high-dimensional vector spaces PhDThesis Department of Linguistics Stockholm University

SINCLAIR J (1991) Corpus Concordance Collocation Oxford Oxford University Press

THANOPOULOS A FAKOTAKIS N amp KOKKINAKIS G (2002) ldquoComparative Evaluation of CollocationExtraction Metricsrdquo Proceedings of the 3rd Language Resources Evaluation ConferenceLas Palmas Spain 620-625

TURNEY P D amp PANTEL P (2010) ldquoFrom Frequency to Meaning Vector Space Models ofSemanticsrdquo Journal of Artificial Intelligence Research 37 (1) 141-188

VENABLES W N amp RIPLEY B D (20024) Modern Applied Statistics with S New York Springer-Verlag

WEAVER W (1955) ldquoTranslationrdquo in W N Locke amp A D Booth (eds) Machine Translation ofLanguages Cambridge (MA) The MIT Press 15-23

WIECHMANN D (2008) ldquoOn the Computation of Collostruction Strengthrdquo Corpus Linguistics andLinguistic Theory 4 (2) 253-290

64

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

Seacutemantique distributionnelle en linguistique de corpus

seacutemantique distributionnelle eacutetudient la proximiteacute seacutemantique entre mots enfonction des mots-contextes partageacutes Dans notre eacutetude lrsquoobjet drsquoanalyse se situeagrave un niveau supeacuterieur Les mots-cibles (cf Tableau 2) dont nous essayons drsquoeacutetu-dier les (dis)similariteacutes seacutemantiques sont les cooccurrents de lsquotourrsquo parce queceux-ci reflegravetent les diffeacuterents sens et usages de lsquotourrsquo dans le corpus techniqueNotre analyse consiste agrave regrouper les mots-cibles en fonction de leurs mots-contextes et agrave les positionner les uns par rapport aux autres en 2D Ces analysesde regroupement (clustering) et de visualisation (plotting) des cooccurrents per-mettent de cerner des groupes de cooccurrents seacutemantiquement lieacutes pour ainsiacceacuteder agrave la seacutemantique du mot lsquotourrsquo

Pour identifier les mots-cibles ou les cooccurrents pertinent de lsquotourrsquo ainsique leurs mots-contextes pertinents nous nous appuyons sur la mesure drsquoas-sociation de lrsquoinformation mutuelle speacutecifique ou Pointwise Mutual Information(PMI) Pour le regroupement et la visualisation des mots-cibles nous recouronsagrave lrsquoanalyse de positionnement multidimensionnel (MultiDimensional Scaling ouMDS) (Kruskal amp Wish 1978 Cox amp Cox 2001 Venables amp Ripley 2002 Borg ampGroenen 2005) La technique de MDS 3 est impleacutementeacutee dans le logiciel drsquoanalysestatistique R 4 Dans nos analyses nous utilisons le positionnement non meacutetriqueisoMDS Cette technique permet drsquoanalyser une matrice pour un ensemble dedonneacutees disposeacutees en ligne (ici les mots-cibles) agrave partir de leurs valeurs pourplusieurs variables disposeacutees en colonne (ici les mots-contextes) (cf Tableau 4)Dans un premier temps ces valeurs sont les valeurs drsquoassociation PMI entreun mot-cible et un mot-contexte avec lequel il apparaicirct Cela permet de geacuteneacute-rer un vecteur par mot-cible avec toutes les valeurs drsquoassociation avec tous sesmots-contextes Au cas ougrave cette matrice serait trop creuse nous pourrions enri-chir les donneacutees en faisant appel aux cooccurrents des mots-contextes Pour lesdeacutetails sur lrsquoenrichissement de la matrice on pourra se reacutefeacuterer agrave A Bertels etD Speelman (2013) Dans un deuxiegraveme temps le calcul pondeacutereacute de la similariteacutecosinus entre toutes les paires de mots-cibles permet de geacuteneacuterer une matrice desimilariteacute agrave lrsquoinstar du Tableau 3

3 Le MDS est une meacutethode drsquoanalyse multivarieacutee descriptive comme lrsquoanalyse factorielle des correspon-dances (AFC) ou lrsquoanalyse en composantes principales (ACP) Agrave la diffeacuterence de ces techniques le MDSpermet drsquoanalyser tout type de matrice de (dis)similariteacute si les (dis)similariteacutes sont eacutevidentes Le MDS nrsquoim-pose pas de restrictions telles que des relations lineacuteaires entre les donneacutees sous-jacentes leur distributionnormale multivarieacutee ou la matrice de correacutelation [httpwwwstatsoftcomtextbookstmulscahtml]

4 R [wwwr-projectorg]

Langages 201 59

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

La seacutemantique linguistique en vision peacuteripheacuterique

Tableau 4 Matrice de cooccurrence pondeacutereacutee mots-cibles par mots-contextes

minute par commande broche

millevaleur drsquoassociation (PMI)

entre mille et minutePMI

numeacuterique PMI

inverseacute PMI

horizon

La matrice de similariteacute est ensuite soumise agrave une analyse de positionnementmultidimensionnel qui consiste agrave regrouper les mots-cibles ou les cooccurrentsde lsquotourrsquo en fonction des valeurs drsquoassociation similaires avec des mots-contextessimilaires et agrave visualiser ces proximiteacutes et distances seacutemantiques en 2D Cettevisualisation permettra aux chercheurs-linguistes non-informaticiens drsquoacceacutederagrave la seacutemantique du mot lsquotourrsquo

Dans la Figure 1 infra la reacutepartition des mots-cibles repreacutesente bien le carac-tegravere seacutemantiquement heacuteteacuterogegravene de lsquotourrsquo Les proximiteacutes et les distances seacuteman-tiques montrent quelques mots-cibles isoleacutes et quelques groupes de mots-ciblesseacutemantiquement lieacutes Les mots-cibles peacuteripheacuteriques pointent vers des sens par-ticuliers agrave savoir horizon (sens geacuteneacuteral dans laquo tour drsquohorizon raquo) et mille (senstechnique dans laquo mille tours par minute raquo) Dans la partie supeacuterieure agrave droiteon retrouve des mots-cibles qui attestent le sens technique particulier laquo tourinverseacute raquo avec inverseacutes inverseacute et bibroches Le nuage de mots-cibles dans lapartie infeacuterieure agrave gauche visualise le sens technique laquo machine-outil pour lrsquousi-nage des piegraveces raquo La preacutesence de plusieurs petits regroupements de mots-ciblesteacutemoigne de la variation des contextes drsquoapparition On observe un contextespeacutecialiseacute laquo tour (agrave) deux broches raquo agrave gauche en bas axes broches broche outilsdeux trois centres et mecircme au milieu vertical et verticaux Agrave gauche au milieu onretrouve commande numeacuterique CNC gamme seacuterie type et quelques mots-ciblesmoins speacutecialiseacutes Les mots-cibles plus geacuteneacuteraux comme manutention ligne geacuteneacute-rale production et conception se retrouvent dans la partie supeacuterieure de ce nuageet font preuve drsquoun contexte drsquoapparition plus geacuteneacuteral

60

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

Seacutemantique distributionnelle en linguistique de corpus

Figure 1 Visualisation des mots-cibles ou cooccurrents de lsquotourrsquo

4 CONCLUSION

Dans cet article nous avons preacutesenteacute les possibiliteacutes de la modeacutelisation seacuteman-tique distributionnelle pour les analyses linguistiques Gracircce agrave la disponibiliteacutede vastes corpus eacutelectroniques les lexicologues et lexicographes disposent denos jours drsquoune eacutenorme base de donneacutees empirique Pour analyser cette abon-dance de donneacutees ils pourront recourir agrave des outils drsquoanalyse statistique et agravedes meacutethodes drsquoanalyse distributionnelle qui leur permettront notamment derepeacuterer des patrons et motifs

Les meacutethodes drsquoanalyse distributionnelle srsquoappuient sur lrsquohypothegravese distri-butionnelle selon laquelle des mots qui se trouvent dans des contextes drsquoappa-rition similaires tendent agrave avoir des sens similaires Elles regroupent plusieursapproches et sous-types en fonction du type de contexte du niveau drsquoanalyse etdu mode de repreacutesentation computationnelle des donneacutees Nous avons expliqueacuteles principes de base de ces modegraveles agrave partir drsquoun modegravele distributionnel par-ticulier relativement intuitif pour des linguistes agrave savoir un modegravele agrave base de

Langages 201 61

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

La seacutemantique linguistique en vision peacuteripheacuterique

mots qui considegravere les cooccurrents graphiques au niveau des types sous formede repreacutesentation vectorielle Ce modegravele distributionnel permet non seulementde recenser des (dis)similariteacutes seacutemantiques entre diffeacuterents mots tels que lesexemples-jouets lsquochienrsquo lsquochatrsquo et lsquocafeacutersquo mais eacutegalement drsquoexplorer les diffeacuterentssens drsquoun mot particulier agrave partir des (dis)similariteacutes seacutemantiques entre ses cooc-currents Agrave titre drsquoexemple nous avons discuteacute une application lexicologiquequi consistait agrave regrouper les mots-cibles ou les cooccurrents du mot techniquelsquotourrsquo en fonction des valeurs drsquoassociation similaires avec des mots-contextessimilaires Ces proximiteacutes et distances seacutemantiques sont visualiseacutees en 2D pourpermettre aux chercheurs-linguistes non-informaticiens drsquoacceacuteder agrave la seacuteman-tique du mot lsquotourrsquo

Lrsquoobjectif de cet article eacutetait de montrer lrsquoutiliteacute des modegraveles seacutemantiquesdistributionnels pour les linguistes lexicologues et lexicographes agrave lrsquoaide drsquounepreacutesentation non technique des principes de base et drsquoune application lexicolo-gique concregravete Comme les diffeacuterentes approches et les nombreux sous-types demodegraveles le suggegraverent des recherches futures devront srsquoatteler agrave la mise au pointdes nombreux paramegravetres pour aboutir au modegravele qui soit le mieux adapteacute auxbesoins speacutecifiques de la recherche lexicologique ou lexicographique neacutecessaire

Reacutefeacuterences

BERNIER-COLBORNE G (2014) laquo Analyse distributionnelle de corpus speacutecialiseacutes pour lrsquoidentifica-tion de relations lexico-seacutemantiques raquo Actes du 21e Traitement Automatique des LanguesNaturelles (TALN2014) Atelier SemDis 2014 Marseille France 238-251

BERTELS A amp SPEELMAN D (2013) laquo Exploration seacutemantique visuelle agrave partir des cooccurrencesde deuxiegraveme et troisiegraveme ordre raquo Actes du 20e Traitement Automatique des LanguesNaturelles (TALN2013) Atelier SemDis 2013 Les Sables-drsquoOlonne France 126-139

BERTELS A amp SPEELMAN D (2014) laquo Analyse de positionnement multidimensionnel sur lecorpus speacutecialiseacute TALN raquo Actes du 21e Traitement Automatique des Langues Naturelles(TALN2014) Atelier SemDis 2014 Marseille France 252-265

BORG I amp GROENEN P (20052) Modern Multidimensional Scaling theory and applications NewYork Springer-Verlag

BOUAUD J et al (1997) laquo Regroupements issus de deacutependances syntaxiques en corpus cateacute-gorisation et confrontation agrave deux modeacutelisations conceptuelles raquo Actes des 1res journeacuteesIngeacutenierie des Connaissances Roskoff France 207-223

BRUNI E TRAN N K amp BARONI M (2014) ldquoMultimodal Distributional Semanticsrdquo Journal ofArtificial Intelligence Research 49 (1) 1-47

BULLINARIA J A amp LEVY J P (2007) ldquoExtracting Semantic Representations from Word Co-occurrence Statistics A Computational Studyrdquo Behavior Research Methods 39 510-526

CHURCH K W amp HANKS P (1989) ldquoWord association norms mutual information and lexico-graphyrdquo Proceedings of the 27th Annual Conference of the Association of ComputationalLinguistics Vancouver British Columbia 76-83

CLAVEAU V KIJAK E amp FERRET O (2014) laquo Explorer le graphe de voisinage pour ameacuteliorer lestheacutesaurus distributionnels raquo Actes du 21e Traitement Automatique des Langues Naturelles(TALN2014) Marseille France 220-231

62

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

Seacutemantique distributionnelle en linguistique de corpus

COOK P et al (2013) ldquoA lexicographic appraisal of an automatic approach for detecting newword-sensesrdquo Proceedings of the eLex 2013 Conference Tallinn Estonia 49-65

COX T F amp COX M A A (2001) Multidimensional Scaling Boca Raton (FL) Chapman amp Hall

CURRAN J R amp MOENS M (2002) ldquoImprovements in automatic thesaurus extractionrdquoProceedings of the ACL-02 Workshop on Unsupervised Lexical Acquisition Vol 9Stroudsburg (PA) USA 59-66

DESALLE Y et al (2014) laquo BACANAL Balades Aleacuteatoires Courtes pour ANAlyses LexicalesApplication agrave la substitution lexicale raquo Actes du 21e Traitement Automatique des LanguesNaturelles (TALN2014) Atelier SemDis 2014 Marseille France 206-217

DINU G THATER S amp LAUE S (2012) ldquoA comparison of models of word meaning in contextrdquoProceedings of the 2012 Conference of the North American Chapter of the Association forComputational Linguistics Human Language Technologies Atlanta (GA) USA 611-615

EVERT S (2004) The Statistics of Word Cooccurrences Word Pairs and CollocationsDissertation Institut fuumlr maschinelle Sprachverarbeitung University of Stuttgart

FABRE C et al (2014a) laquo Preacutesentation de lrsquoatelier SemDis 2014 seacutemantique distributionnellepour la substitution lexicale et lrsquoexploration de corpus speacutecialiseacutes raquo Actes du 21e TraitementAutomatique des Langues Naturelles (TALN2014) Atelier SemDis 2014 Marseille France196-205

FABRE C et al (2014b) laquo Ajuster lrsquoanalyse distributionnelle agrave un corpus speacutecialiseacute de petitetaille raquo Actes du 21e Traitement Automatique des Langues Naturelles (TALN2014) AtelierSemDis 2014 Marseille France 266-279

FERRET O (2010) laquo Similariteacute seacutemantique et extraction de synonymes agrave partir de corpus raquoActes du 17e Traitement Automatique des Langues Naturelles (TALN2010) MontreacutealCanada [httpwwwiroumontrealcasimfelipeTALN2010XmlPapersalltaln2010_submission_77pdf]

FERRET O (2014) laquo Utiliser un modegravele neuronal geacuteneacuterique pour la substitution lexicale raquo Actesdu 21e Traitement Automatique des Langues Naturelles (TALN2014) Atelier SemDis 2014Marseille France 218-227

FIRTH J R (1957) Papers in Linguistics 1934-1951 Oxford Oxford University Press

GEERAERTS D (2010) Theories of Lexical Semantics OxfordNew York Oxford University Press

GLYNN D (2010) ldquoTesting the Hypothesis Objectivity and Verification in Usage-Based CognitiveSemanticsrdquo in D Glynn amp K Fischer (eds) Quantitative Methods in Cognitive SemanticsCorpus-driven approaches BerlinNew York Mouton de Gruyter 239-270

HABERT B amp ZWEIGENBAUM P (2002) ldquoContextual acquisition of information categories whathas been done and what can be done automaticallyrdquo in B Nevin amp S Johnson (eds) TheLegacy of Zellig Harris Language and information into the 21st century Amsterdam JohnBenjamins 203-231

HARRIS Z (1954) ldquoDistributional structurerdquo Word 10 (23) 146-162

HEYLEN K et al (2014) ldquoMonitoring Polysemy Word Space Models as a Tool for Large-ScaleLexical Semantic Analysisrdquo Lingua International Review of General Linguistics 157 153-172

HEYLEN K SPEELMAN D amp GEERAERTS D (2012) ldquoLooking at word meaning An interactivevisualization of Semantic Vector Spaces for Dutch synsetsrdquo Proceedings of the EACL 2012Joint Workshop of LINGVIS et UNCLH Avignon France 16-24

KRUSKAL J B amp WISH M (1978) Multidimensional Scaling Sage University Paper series onQuantitative Applications in the Social Sciences number 07-011 Newbury Park (CA) SagePublications

Langages 201 63

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

La seacutemantique linguistique en vision peacuteripheacuterique

LANDAUER T K amp DUMAIS S T (1997) ldquoA solution to Platorsquos problem The latent semanticanalysis theory of acquisition induction and representation of knowledgerdquo PsychologicalReview 104 (2) 211-240

LUND K amp BURGESS C (1996) ldquoProducing high-dimensional semantic spaces from lexical co-occurrencerdquo Behavior Research Methods Instrumentation and Computers 28 203-208

MORARDO M amp VILLEMONTE DE LA CLERGERIE Eacute (2013) laquo Vers un environnement de production etde validation de ressources lexicales seacutemantiques raquo Actes du 20e Traitement Automatiquedes Langues Naturelles (TALN2013) Atelier SemDis 2013 Les Sables-drsquoOlonne France167-180

MORLANE-HONDEgraveRE F (2013) laquo Utiliser une base distributionnelle pour filtrer un dictionnaire desynonymes raquo Actes du 20e Traitement Automatique des Langues Naturelles (TALN2013)Atelier SemDis 2013 Les Sables-drsquoOlonne France 112-125

NAVIGLI R (2012) ldquoA Quick Tour of Word Sense Disambiguation Induction and RelatedApproachesrdquo Proceedings of the 38th Conference on Current Trends in Theory and Practiceof Computer Science (SOFSEM) Spindleruv Mlyn Czech Republic 115-129

PEIRSMAN Y GEERAERTS D amp SPEELMAN D (2010) ldquoThe automatic identification of lexical variationbetween language varietiesrdquo Natural Language Engineering 16 (4) 469-491

PEREK F (2014) ldquoVector spaces for historical linguistics Using distributional semantics tostudy syntactic productivity in diachrony raquo Proceedings of the 52nd Annual Meeting of theAssociation for Computational Linguistics Baltimore USA 309-314

PEacuteRINET A amp HAMON T (2014) laquo Analyse et proposition de paramegravetres distributionnels adapteacutesaux corpus de speacutecialiteacute raquo Actes des 12e Journeacutees internationales drsquoAnalyse statistiquedes Donneacutees Textuelles (JADT 2014) Paris France 507-518

SAGI E KAUFMANN S amp CLARK B (2009) ldquoSemantic density analysis Comparing word meaningacross time and phonetic spacerdquo Proceedings of the EACL 2009 Workshop on GEMSAthens Greece 104-111

SAHLGREN M (2006) The Word-Space Model Using distributional analysis to represent syntag-matic and paradigmatic relations between words in high-dimensional vector spaces PhDThesis Department of Linguistics Stockholm University

SINCLAIR J (1991) Corpus Concordance Collocation Oxford Oxford University Press

THANOPOULOS A FAKOTAKIS N amp KOKKINAKIS G (2002) ldquoComparative Evaluation of CollocationExtraction Metricsrdquo Proceedings of the 3rd Language Resources Evaluation ConferenceLas Palmas Spain 620-625

TURNEY P D amp PANTEL P (2010) ldquoFrom Frequency to Meaning Vector Space Models ofSemanticsrdquo Journal of Artificial Intelligence Research 37 (1) 141-188

VENABLES W N amp RIPLEY B D (20024) Modern Applied Statistics with S New York Springer-Verlag

WEAVER W (1955) ldquoTranslationrdquo in W N Locke amp A D Booth (eds) Machine Translation ofLanguages Cambridge (MA) The MIT Press 15-23

WIECHMANN D (2008) ldquoOn the Computation of Collostruction Strengthrdquo Corpus Linguistics andLinguistic Theory 4 (2) 253-290

64

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

La seacutemantique linguistique en vision peacuteripheacuterique

Tableau 4 Matrice de cooccurrence pondeacutereacutee mots-cibles par mots-contextes

minute par commande broche

millevaleur drsquoassociation (PMI)

entre mille et minutePMI

numeacuterique PMI

inverseacute PMI

horizon

La matrice de similariteacute est ensuite soumise agrave une analyse de positionnementmultidimensionnel qui consiste agrave regrouper les mots-cibles ou les cooccurrentsde lsquotourrsquo en fonction des valeurs drsquoassociation similaires avec des mots-contextessimilaires et agrave visualiser ces proximiteacutes et distances seacutemantiques en 2D Cettevisualisation permettra aux chercheurs-linguistes non-informaticiens drsquoacceacutederagrave la seacutemantique du mot lsquotourrsquo

Dans la Figure 1 infra la reacutepartition des mots-cibles repreacutesente bien le carac-tegravere seacutemantiquement heacuteteacuterogegravene de lsquotourrsquo Les proximiteacutes et les distances seacuteman-tiques montrent quelques mots-cibles isoleacutes et quelques groupes de mots-ciblesseacutemantiquement lieacutes Les mots-cibles peacuteripheacuteriques pointent vers des sens par-ticuliers agrave savoir horizon (sens geacuteneacuteral dans laquo tour drsquohorizon raquo) et mille (senstechnique dans laquo mille tours par minute raquo) Dans la partie supeacuterieure agrave droiteon retrouve des mots-cibles qui attestent le sens technique particulier laquo tourinverseacute raquo avec inverseacutes inverseacute et bibroches Le nuage de mots-cibles dans lapartie infeacuterieure agrave gauche visualise le sens technique laquo machine-outil pour lrsquousi-nage des piegraveces raquo La preacutesence de plusieurs petits regroupements de mots-ciblesteacutemoigne de la variation des contextes drsquoapparition On observe un contextespeacutecialiseacute laquo tour (agrave) deux broches raquo agrave gauche en bas axes broches broche outilsdeux trois centres et mecircme au milieu vertical et verticaux Agrave gauche au milieu onretrouve commande numeacuterique CNC gamme seacuterie type et quelques mots-ciblesmoins speacutecialiseacutes Les mots-cibles plus geacuteneacuteraux comme manutention ligne geacuteneacute-rale production et conception se retrouvent dans la partie supeacuterieure de ce nuageet font preuve drsquoun contexte drsquoapparition plus geacuteneacuteral

60

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

Seacutemantique distributionnelle en linguistique de corpus

Figure 1 Visualisation des mots-cibles ou cooccurrents de lsquotourrsquo

4 CONCLUSION

Dans cet article nous avons preacutesenteacute les possibiliteacutes de la modeacutelisation seacuteman-tique distributionnelle pour les analyses linguistiques Gracircce agrave la disponibiliteacutede vastes corpus eacutelectroniques les lexicologues et lexicographes disposent denos jours drsquoune eacutenorme base de donneacutees empirique Pour analyser cette abon-dance de donneacutees ils pourront recourir agrave des outils drsquoanalyse statistique et agravedes meacutethodes drsquoanalyse distributionnelle qui leur permettront notamment derepeacuterer des patrons et motifs

Les meacutethodes drsquoanalyse distributionnelle srsquoappuient sur lrsquohypothegravese distri-butionnelle selon laquelle des mots qui se trouvent dans des contextes drsquoappa-rition similaires tendent agrave avoir des sens similaires Elles regroupent plusieursapproches et sous-types en fonction du type de contexte du niveau drsquoanalyse etdu mode de repreacutesentation computationnelle des donneacutees Nous avons expliqueacuteles principes de base de ces modegraveles agrave partir drsquoun modegravele distributionnel par-ticulier relativement intuitif pour des linguistes agrave savoir un modegravele agrave base de

Langages 201 61

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

La seacutemantique linguistique en vision peacuteripheacuterique

mots qui considegravere les cooccurrents graphiques au niveau des types sous formede repreacutesentation vectorielle Ce modegravele distributionnel permet non seulementde recenser des (dis)similariteacutes seacutemantiques entre diffeacuterents mots tels que lesexemples-jouets lsquochienrsquo lsquochatrsquo et lsquocafeacutersquo mais eacutegalement drsquoexplorer les diffeacuterentssens drsquoun mot particulier agrave partir des (dis)similariteacutes seacutemantiques entre ses cooc-currents Agrave titre drsquoexemple nous avons discuteacute une application lexicologiquequi consistait agrave regrouper les mots-cibles ou les cooccurrents du mot techniquelsquotourrsquo en fonction des valeurs drsquoassociation similaires avec des mots-contextessimilaires Ces proximiteacutes et distances seacutemantiques sont visualiseacutees en 2D pourpermettre aux chercheurs-linguistes non-informaticiens drsquoacceacuteder agrave la seacuteman-tique du mot lsquotourrsquo

Lrsquoobjectif de cet article eacutetait de montrer lrsquoutiliteacute des modegraveles seacutemantiquesdistributionnels pour les linguistes lexicologues et lexicographes agrave lrsquoaide drsquounepreacutesentation non technique des principes de base et drsquoune application lexicolo-gique concregravete Comme les diffeacuterentes approches et les nombreux sous-types demodegraveles le suggegraverent des recherches futures devront srsquoatteler agrave la mise au pointdes nombreux paramegravetres pour aboutir au modegravele qui soit le mieux adapteacute auxbesoins speacutecifiques de la recherche lexicologique ou lexicographique neacutecessaire

Reacutefeacuterences

BERNIER-COLBORNE G (2014) laquo Analyse distributionnelle de corpus speacutecialiseacutes pour lrsquoidentifica-tion de relations lexico-seacutemantiques raquo Actes du 21e Traitement Automatique des LanguesNaturelles (TALN2014) Atelier SemDis 2014 Marseille France 238-251

BERTELS A amp SPEELMAN D (2013) laquo Exploration seacutemantique visuelle agrave partir des cooccurrencesde deuxiegraveme et troisiegraveme ordre raquo Actes du 20e Traitement Automatique des LanguesNaturelles (TALN2013) Atelier SemDis 2013 Les Sables-drsquoOlonne France 126-139

BERTELS A amp SPEELMAN D (2014) laquo Analyse de positionnement multidimensionnel sur lecorpus speacutecialiseacute TALN raquo Actes du 21e Traitement Automatique des Langues Naturelles(TALN2014) Atelier SemDis 2014 Marseille France 252-265

BORG I amp GROENEN P (20052) Modern Multidimensional Scaling theory and applications NewYork Springer-Verlag

BOUAUD J et al (1997) laquo Regroupements issus de deacutependances syntaxiques en corpus cateacute-gorisation et confrontation agrave deux modeacutelisations conceptuelles raquo Actes des 1res journeacuteesIngeacutenierie des Connaissances Roskoff France 207-223

BRUNI E TRAN N K amp BARONI M (2014) ldquoMultimodal Distributional Semanticsrdquo Journal ofArtificial Intelligence Research 49 (1) 1-47

BULLINARIA J A amp LEVY J P (2007) ldquoExtracting Semantic Representations from Word Co-occurrence Statistics A Computational Studyrdquo Behavior Research Methods 39 510-526

CHURCH K W amp HANKS P (1989) ldquoWord association norms mutual information and lexico-graphyrdquo Proceedings of the 27th Annual Conference of the Association of ComputationalLinguistics Vancouver British Columbia 76-83

CLAVEAU V KIJAK E amp FERRET O (2014) laquo Explorer le graphe de voisinage pour ameacuteliorer lestheacutesaurus distributionnels raquo Actes du 21e Traitement Automatique des Langues Naturelles(TALN2014) Marseille France 220-231

62

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

Seacutemantique distributionnelle en linguistique de corpus

COOK P et al (2013) ldquoA lexicographic appraisal of an automatic approach for detecting newword-sensesrdquo Proceedings of the eLex 2013 Conference Tallinn Estonia 49-65

COX T F amp COX M A A (2001) Multidimensional Scaling Boca Raton (FL) Chapman amp Hall

CURRAN J R amp MOENS M (2002) ldquoImprovements in automatic thesaurus extractionrdquoProceedings of the ACL-02 Workshop on Unsupervised Lexical Acquisition Vol 9Stroudsburg (PA) USA 59-66

DESALLE Y et al (2014) laquo BACANAL Balades Aleacuteatoires Courtes pour ANAlyses LexicalesApplication agrave la substitution lexicale raquo Actes du 21e Traitement Automatique des LanguesNaturelles (TALN2014) Atelier SemDis 2014 Marseille France 206-217

DINU G THATER S amp LAUE S (2012) ldquoA comparison of models of word meaning in contextrdquoProceedings of the 2012 Conference of the North American Chapter of the Association forComputational Linguistics Human Language Technologies Atlanta (GA) USA 611-615

EVERT S (2004) The Statistics of Word Cooccurrences Word Pairs and CollocationsDissertation Institut fuumlr maschinelle Sprachverarbeitung University of Stuttgart

FABRE C et al (2014a) laquo Preacutesentation de lrsquoatelier SemDis 2014 seacutemantique distributionnellepour la substitution lexicale et lrsquoexploration de corpus speacutecialiseacutes raquo Actes du 21e TraitementAutomatique des Langues Naturelles (TALN2014) Atelier SemDis 2014 Marseille France196-205

FABRE C et al (2014b) laquo Ajuster lrsquoanalyse distributionnelle agrave un corpus speacutecialiseacute de petitetaille raquo Actes du 21e Traitement Automatique des Langues Naturelles (TALN2014) AtelierSemDis 2014 Marseille France 266-279

FERRET O (2010) laquo Similariteacute seacutemantique et extraction de synonymes agrave partir de corpus raquoActes du 17e Traitement Automatique des Langues Naturelles (TALN2010) MontreacutealCanada [httpwwwiroumontrealcasimfelipeTALN2010XmlPapersalltaln2010_submission_77pdf]

FERRET O (2014) laquo Utiliser un modegravele neuronal geacuteneacuterique pour la substitution lexicale raquo Actesdu 21e Traitement Automatique des Langues Naturelles (TALN2014) Atelier SemDis 2014Marseille France 218-227

FIRTH J R (1957) Papers in Linguistics 1934-1951 Oxford Oxford University Press

GEERAERTS D (2010) Theories of Lexical Semantics OxfordNew York Oxford University Press

GLYNN D (2010) ldquoTesting the Hypothesis Objectivity and Verification in Usage-Based CognitiveSemanticsrdquo in D Glynn amp K Fischer (eds) Quantitative Methods in Cognitive SemanticsCorpus-driven approaches BerlinNew York Mouton de Gruyter 239-270

HABERT B amp ZWEIGENBAUM P (2002) ldquoContextual acquisition of information categories whathas been done and what can be done automaticallyrdquo in B Nevin amp S Johnson (eds) TheLegacy of Zellig Harris Language and information into the 21st century Amsterdam JohnBenjamins 203-231

HARRIS Z (1954) ldquoDistributional structurerdquo Word 10 (23) 146-162

HEYLEN K et al (2014) ldquoMonitoring Polysemy Word Space Models as a Tool for Large-ScaleLexical Semantic Analysisrdquo Lingua International Review of General Linguistics 157 153-172

HEYLEN K SPEELMAN D amp GEERAERTS D (2012) ldquoLooking at word meaning An interactivevisualization of Semantic Vector Spaces for Dutch synsetsrdquo Proceedings of the EACL 2012Joint Workshop of LINGVIS et UNCLH Avignon France 16-24

KRUSKAL J B amp WISH M (1978) Multidimensional Scaling Sage University Paper series onQuantitative Applications in the Social Sciences number 07-011 Newbury Park (CA) SagePublications

Langages 201 63

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

La seacutemantique linguistique en vision peacuteripheacuterique

LANDAUER T K amp DUMAIS S T (1997) ldquoA solution to Platorsquos problem The latent semanticanalysis theory of acquisition induction and representation of knowledgerdquo PsychologicalReview 104 (2) 211-240

LUND K amp BURGESS C (1996) ldquoProducing high-dimensional semantic spaces from lexical co-occurrencerdquo Behavior Research Methods Instrumentation and Computers 28 203-208

MORARDO M amp VILLEMONTE DE LA CLERGERIE Eacute (2013) laquo Vers un environnement de production etde validation de ressources lexicales seacutemantiques raquo Actes du 20e Traitement Automatiquedes Langues Naturelles (TALN2013) Atelier SemDis 2013 Les Sables-drsquoOlonne France167-180

MORLANE-HONDEgraveRE F (2013) laquo Utiliser une base distributionnelle pour filtrer un dictionnaire desynonymes raquo Actes du 20e Traitement Automatique des Langues Naturelles (TALN2013)Atelier SemDis 2013 Les Sables-drsquoOlonne France 112-125

NAVIGLI R (2012) ldquoA Quick Tour of Word Sense Disambiguation Induction and RelatedApproachesrdquo Proceedings of the 38th Conference on Current Trends in Theory and Practiceof Computer Science (SOFSEM) Spindleruv Mlyn Czech Republic 115-129

PEIRSMAN Y GEERAERTS D amp SPEELMAN D (2010) ldquoThe automatic identification of lexical variationbetween language varietiesrdquo Natural Language Engineering 16 (4) 469-491

PEREK F (2014) ldquoVector spaces for historical linguistics Using distributional semantics tostudy syntactic productivity in diachrony raquo Proceedings of the 52nd Annual Meeting of theAssociation for Computational Linguistics Baltimore USA 309-314

PEacuteRINET A amp HAMON T (2014) laquo Analyse et proposition de paramegravetres distributionnels adapteacutesaux corpus de speacutecialiteacute raquo Actes des 12e Journeacutees internationales drsquoAnalyse statistiquedes Donneacutees Textuelles (JADT 2014) Paris France 507-518

SAGI E KAUFMANN S amp CLARK B (2009) ldquoSemantic density analysis Comparing word meaningacross time and phonetic spacerdquo Proceedings of the EACL 2009 Workshop on GEMSAthens Greece 104-111

SAHLGREN M (2006) The Word-Space Model Using distributional analysis to represent syntag-matic and paradigmatic relations between words in high-dimensional vector spaces PhDThesis Department of Linguistics Stockholm University

SINCLAIR J (1991) Corpus Concordance Collocation Oxford Oxford University Press

THANOPOULOS A FAKOTAKIS N amp KOKKINAKIS G (2002) ldquoComparative Evaluation of CollocationExtraction Metricsrdquo Proceedings of the 3rd Language Resources Evaluation ConferenceLas Palmas Spain 620-625

TURNEY P D amp PANTEL P (2010) ldquoFrom Frequency to Meaning Vector Space Models ofSemanticsrdquo Journal of Artificial Intelligence Research 37 (1) 141-188

VENABLES W N amp RIPLEY B D (20024) Modern Applied Statistics with S New York Springer-Verlag

WEAVER W (1955) ldquoTranslationrdquo in W N Locke amp A D Booth (eds) Machine Translation ofLanguages Cambridge (MA) The MIT Press 15-23

WIECHMANN D (2008) ldquoOn the Computation of Collostruction Strengthrdquo Corpus Linguistics andLinguistic Theory 4 (2) 253-290

64

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

Seacutemantique distributionnelle en linguistique de corpus

Figure 1 Visualisation des mots-cibles ou cooccurrents de lsquotourrsquo

4 CONCLUSION

Dans cet article nous avons preacutesenteacute les possibiliteacutes de la modeacutelisation seacuteman-tique distributionnelle pour les analyses linguistiques Gracircce agrave la disponibiliteacutede vastes corpus eacutelectroniques les lexicologues et lexicographes disposent denos jours drsquoune eacutenorme base de donneacutees empirique Pour analyser cette abon-dance de donneacutees ils pourront recourir agrave des outils drsquoanalyse statistique et agravedes meacutethodes drsquoanalyse distributionnelle qui leur permettront notamment derepeacuterer des patrons et motifs

Les meacutethodes drsquoanalyse distributionnelle srsquoappuient sur lrsquohypothegravese distri-butionnelle selon laquelle des mots qui se trouvent dans des contextes drsquoappa-rition similaires tendent agrave avoir des sens similaires Elles regroupent plusieursapproches et sous-types en fonction du type de contexte du niveau drsquoanalyse etdu mode de repreacutesentation computationnelle des donneacutees Nous avons expliqueacuteles principes de base de ces modegraveles agrave partir drsquoun modegravele distributionnel par-ticulier relativement intuitif pour des linguistes agrave savoir un modegravele agrave base de

Langages 201 61

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

La seacutemantique linguistique en vision peacuteripheacuterique

mots qui considegravere les cooccurrents graphiques au niveau des types sous formede repreacutesentation vectorielle Ce modegravele distributionnel permet non seulementde recenser des (dis)similariteacutes seacutemantiques entre diffeacuterents mots tels que lesexemples-jouets lsquochienrsquo lsquochatrsquo et lsquocafeacutersquo mais eacutegalement drsquoexplorer les diffeacuterentssens drsquoun mot particulier agrave partir des (dis)similariteacutes seacutemantiques entre ses cooc-currents Agrave titre drsquoexemple nous avons discuteacute une application lexicologiquequi consistait agrave regrouper les mots-cibles ou les cooccurrents du mot techniquelsquotourrsquo en fonction des valeurs drsquoassociation similaires avec des mots-contextessimilaires Ces proximiteacutes et distances seacutemantiques sont visualiseacutees en 2D pourpermettre aux chercheurs-linguistes non-informaticiens drsquoacceacuteder agrave la seacuteman-tique du mot lsquotourrsquo

Lrsquoobjectif de cet article eacutetait de montrer lrsquoutiliteacute des modegraveles seacutemantiquesdistributionnels pour les linguistes lexicologues et lexicographes agrave lrsquoaide drsquounepreacutesentation non technique des principes de base et drsquoune application lexicolo-gique concregravete Comme les diffeacuterentes approches et les nombreux sous-types demodegraveles le suggegraverent des recherches futures devront srsquoatteler agrave la mise au pointdes nombreux paramegravetres pour aboutir au modegravele qui soit le mieux adapteacute auxbesoins speacutecifiques de la recherche lexicologique ou lexicographique neacutecessaire

Reacutefeacuterences

BERNIER-COLBORNE G (2014) laquo Analyse distributionnelle de corpus speacutecialiseacutes pour lrsquoidentifica-tion de relations lexico-seacutemantiques raquo Actes du 21e Traitement Automatique des LanguesNaturelles (TALN2014) Atelier SemDis 2014 Marseille France 238-251

BERTELS A amp SPEELMAN D (2013) laquo Exploration seacutemantique visuelle agrave partir des cooccurrencesde deuxiegraveme et troisiegraveme ordre raquo Actes du 20e Traitement Automatique des LanguesNaturelles (TALN2013) Atelier SemDis 2013 Les Sables-drsquoOlonne France 126-139

BERTELS A amp SPEELMAN D (2014) laquo Analyse de positionnement multidimensionnel sur lecorpus speacutecialiseacute TALN raquo Actes du 21e Traitement Automatique des Langues Naturelles(TALN2014) Atelier SemDis 2014 Marseille France 252-265

BORG I amp GROENEN P (20052) Modern Multidimensional Scaling theory and applications NewYork Springer-Verlag

BOUAUD J et al (1997) laquo Regroupements issus de deacutependances syntaxiques en corpus cateacute-gorisation et confrontation agrave deux modeacutelisations conceptuelles raquo Actes des 1res journeacuteesIngeacutenierie des Connaissances Roskoff France 207-223

BRUNI E TRAN N K amp BARONI M (2014) ldquoMultimodal Distributional Semanticsrdquo Journal ofArtificial Intelligence Research 49 (1) 1-47

BULLINARIA J A amp LEVY J P (2007) ldquoExtracting Semantic Representations from Word Co-occurrence Statistics A Computational Studyrdquo Behavior Research Methods 39 510-526

CHURCH K W amp HANKS P (1989) ldquoWord association norms mutual information and lexico-graphyrdquo Proceedings of the 27th Annual Conference of the Association of ComputationalLinguistics Vancouver British Columbia 76-83

CLAVEAU V KIJAK E amp FERRET O (2014) laquo Explorer le graphe de voisinage pour ameacuteliorer lestheacutesaurus distributionnels raquo Actes du 21e Traitement Automatique des Langues Naturelles(TALN2014) Marseille France 220-231

62

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

Seacutemantique distributionnelle en linguistique de corpus

COOK P et al (2013) ldquoA lexicographic appraisal of an automatic approach for detecting newword-sensesrdquo Proceedings of the eLex 2013 Conference Tallinn Estonia 49-65

COX T F amp COX M A A (2001) Multidimensional Scaling Boca Raton (FL) Chapman amp Hall

CURRAN J R amp MOENS M (2002) ldquoImprovements in automatic thesaurus extractionrdquoProceedings of the ACL-02 Workshop on Unsupervised Lexical Acquisition Vol 9Stroudsburg (PA) USA 59-66

DESALLE Y et al (2014) laquo BACANAL Balades Aleacuteatoires Courtes pour ANAlyses LexicalesApplication agrave la substitution lexicale raquo Actes du 21e Traitement Automatique des LanguesNaturelles (TALN2014) Atelier SemDis 2014 Marseille France 206-217

DINU G THATER S amp LAUE S (2012) ldquoA comparison of models of word meaning in contextrdquoProceedings of the 2012 Conference of the North American Chapter of the Association forComputational Linguistics Human Language Technologies Atlanta (GA) USA 611-615

EVERT S (2004) The Statistics of Word Cooccurrences Word Pairs and CollocationsDissertation Institut fuumlr maschinelle Sprachverarbeitung University of Stuttgart

FABRE C et al (2014a) laquo Preacutesentation de lrsquoatelier SemDis 2014 seacutemantique distributionnellepour la substitution lexicale et lrsquoexploration de corpus speacutecialiseacutes raquo Actes du 21e TraitementAutomatique des Langues Naturelles (TALN2014) Atelier SemDis 2014 Marseille France196-205

FABRE C et al (2014b) laquo Ajuster lrsquoanalyse distributionnelle agrave un corpus speacutecialiseacute de petitetaille raquo Actes du 21e Traitement Automatique des Langues Naturelles (TALN2014) AtelierSemDis 2014 Marseille France 266-279

FERRET O (2010) laquo Similariteacute seacutemantique et extraction de synonymes agrave partir de corpus raquoActes du 17e Traitement Automatique des Langues Naturelles (TALN2010) MontreacutealCanada [httpwwwiroumontrealcasimfelipeTALN2010XmlPapersalltaln2010_submission_77pdf]

FERRET O (2014) laquo Utiliser un modegravele neuronal geacuteneacuterique pour la substitution lexicale raquo Actesdu 21e Traitement Automatique des Langues Naturelles (TALN2014) Atelier SemDis 2014Marseille France 218-227

FIRTH J R (1957) Papers in Linguistics 1934-1951 Oxford Oxford University Press

GEERAERTS D (2010) Theories of Lexical Semantics OxfordNew York Oxford University Press

GLYNN D (2010) ldquoTesting the Hypothesis Objectivity and Verification in Usage-Based CognitiveSemanticsrdquo in D Glynn amp K Fischer (eds) Quantitative Methods in Cognitive SemanticsCorpus-driven approaches BerlinNew York Mouton de Gruyter 239-270

HABERT B amp ZWEIGENBAUM P (2002) ldquoContextual acquisition of information categories whathas been done and what can be done automaticallyrdquo in B Nevin amp S Johnson (eds) TheLegacy of Zellig Harris Language and information into the 21st century Amsterdam JohnBenjamins 203-231

HARRIS Z (1954) ldquoDistributional structurerdquo Word 10 (23) 146-162

HEYLEN K et al (2014) ldquoMonitoring Polysemy Word Space Models as a Tool for Large-ScaleLexical Semantic Analysisrdquo Lingua International Review of General Linguistics 157 153-172

HEYLEN K SPEELMAN D amp GEERAERTS D (2012) ldquoLooking at word meaning An interactivevisualization of Semantic Vector Spaces for Dutch synsetsrdquo Proceedings of the EACL 2012Joint Workshop of LINGVIS et UNCLH Avignon France 16-24

KRUSKAL J B amp WISH M (1978) Multidimensional Scaling Sage University Paper series onQuantitative Applications in the Social Sciences number 07-011 Newbury Park (CA) SagePublications

Langages 201 63

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

La seacutemantique linguistique en vision peacuteripheacuterique

LANDAUER T K amp DUMAIS S T (1997) ldquoA solution to Platorsquos problem The latent semanticanalysis theory of acquisition induction and representation of knowledgerdquo PsychologicalReview 104 (2) 211-240

LUND K amp BURGESS C (1996) ldquoProducing high-dimensional semantic spaces from lexical co-occurrencerdquo Behavior Research Methods Instrumentation and Computers 28 203-208

MORARDO M amp VILLEMONTE DE LA CLERGERIE Eacute (2013) laquo Vers un environnement de production etde validation de ressources lexicales seacutemantiques raquo Actes du 20e Traitement Automatiquedes Langues Naturelles (TALN2013) Atelier SemDis 2013 Les Sables-drsquoOlonne France167-180

MORLANE-HONDEgraveRE F (2013) laquo Utiliser une base distributionnelle pour filtrer un dictionnaire desynonymes raquo Actes du 20e Traitement Automatique des Langues Naturelles (TALN2013)Atelier SemDis 2013 Les Sables-drsquoOlonne France 112-125

NAVIGLI R (2012) ldquoA Quick Tour of Word Sense Disambiguation Induction and RelatedApproachesrdquo Proceedings of the 38th Conference on Current Trends in Theory and Practiceof Computer Science (SOFSEM) Spindleruv Mlyn Czech Republic 115-129

PEIRSMAN Y GEERAERTS D amp SPEELMAN D (2010) ldquoThe automatic identification of lexical variationbetween language varietiesrdquo Natural Language Engineering 16 (4) 469-491

PEREK F (2014) ldquoVector spaces for historical linguistics Using distributional semantics tostudy syntactic productivity in diachrony raquo Proceedings of the 52nd Annual Meeting of theAssociation for Computational Linguistics Baltimore USA 309-314

PEacuteRINET A amp HAMON T (2014) laquo Analyse et proposition de paramegravetres distributionnels adapteacutesaux corpus de speacutecialiteacute raquo Actes des 12e Journeacutees internationales drsquoAnalyse statistiquedes Donneacutees Textuelles (JADT 2014) Paris France 507-518

SAGI E KAUFMANN S amp CLARK B (2009) ldquoSemantic density analysis Comparing word meaningacross time and phonetic spacerdquo Proceedings of the EACL 2009 Workshop on GEMSAthens Greece 104-111

SAHLGREN M (2006) The Word-Space Model Using distributional analysis to represent syntag-matic and paradigmatic relations between words in high-dimensional vector spaces PhDThesis Department of Linguistics Stockholm University

SINCLAIR J (1991) Corpus Concordance Collocation Oxford Oxford University Press

THANOPOULOS A FAKOTAKIS N amp KOKKINAKIS G (2002) ldquoComparative Evaluation of CollocationExtraction Metricsrdquo Proceedings of the 3rd Language Resources Evaluation ConferenceLas Palmas Spain 620-625

TURNEY P D amp PANTEL P (2010) ldquoFrom Frequency to Meaning Vector Space Models ofSemanticsrdquo Journal of Artificial Intelligence Research 37 (1) 141-188

VENABLES W N amp RIPLEY B D (20024) Modern Applied Statistics with S New York Springer-Verlag

WEAVER W (1955) ldquoTranslationrdquo in W N Locke amp A D Booth (eds) Machine Translation ofLanguages Cambridge (MA) The MIT Press 15-23

WIECHMANN D (2008) ldquoOn the Computation of Collostruction Strengthrdquo Corpus Linguistics andLinguistic Theory 4 (2) 253-290

64

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

La seacutemantique linguistique en vision peacuteripheacuterique

mots qui considegravere les cooccurrents graphiques au niveau des types sous formede repreacutesentation vectorielle Ce modegravele distributionnel permet non seulementde recenser des (dis)similariteacutes seacutemantiques entre diffeacuterents mots tels que lesexemples-jouets lsquochienrsquo lsquochatrsquo et lsquocafeacutersquo mais eacutegalement drsquoexplorer les diffeacuterentssens drsquoun mot particulier agrave partir des (dis)similariteacutes seacutemantiques entre ses cooc-currents Agrave titre drsquoexemple nous avons discuteacute une application lexicologiquequi consistait agrave regrouper les mots-cibles ou les cooccurrents du mot techniquelsquotourrsquo en fonction des valeurs drsquoassociation similaires avec des mots-contextessimilaires Ces proximiteacutes et distances seacutemantiques sont visualiseacutees en 2D pourpermettre aux chercheurs-linguistes non-informaticiens drsquoacceacuteder agrave la seacuteman-tique du mot lsquotourrsquo

Lrsquoobjectif de cet article eacutetait de montrer lrsquoutiliteacute des modegraveles seacutemantiquesdistributionnels pour les linguistes lexicologues et lexicographes agrave lrsquoaide drsquounepreacutesentation non technique des principes de base et drsquoune application lexicolo-gique concregravete Comme les diffeacuterentes approches et les nombreux sous-types demodegraveles le suggegraverent des recherches futures devront srsquoatteler agrave la mise au pointdes nombreux paramegravetres pour aboutir au modegravele qui soit le mieux adapteacute auxbesoins speacutecifiques de la recherche lexicologique ou lexicographique neacutecessaire

Reacutefeacuterences

BERNIER-COLBORNE G (2014) laquo Analyse distributionnelle de corpus speacutecialiseacutes pour lrsquoidentifica-tion de relations lexico-seacutemantiques raquo Actes du 21e Traitement Automatique des LanguesNaturelles (TALN2014) Atelier SemDis 2014 Marseille France 238-251

BERTELS A amp SPEELMAN D (2013) laquo Exploration seacutemantique visuelle agrave partir des cooccurrencesde deuxiegraveme et troisiegraveme ordre raquo Actes du 20e Traitement Automatique des LanguesNaturelles (TALN2013) Atelier SemDis 2013 Les Sables-drsquoOlonne France 126-139

BERTELS A amp SPEELMAN D (2014) laquo Analyse de positionnement multidimensionnel sur lecorpus speacutecialiseacute TALN raquo Actes du 21e Traitement Automatique des Langues Naturelles(TALN2014) Atelier SemDis 2014 Marseille France 252-265

BORG I amp GROENEN P (20052) Modern Multidimensional Scaling theory and applications NewYork Springer-Verlag

BOUAUD J et al (1997) laquo Regroupements issus de deacutependances syntaxiques en corpus cateacute-gorisation et confrontation agrave deux modeacutelisations conceptuelles raquo Actes des 1res journeacuteesIngeacutenierie des Connaissances Roskoff France 207-223

BRUNI E TRAN N K amp BARONI M (2014) ldquoMultimodal Distributional Semanticsrdquo Journal ofArtificial Intelligence Research 49 (1) 1-47

BULLINARIA J A amp LEVY J P (2007) ldquoExtracting Semantic Representations from Word Co-occurrence Statistics A Computational Studyrdquo Behavior Research Methods 39 510-526

CHURCH K W amp HANKS P (1989) ldquoWord association norms mutual information and lexico-graphyrdquo Proceedings of the 27th Annual Conference of the Association of ComputationalLinguistics Vancouver British Columbia 76-83

CLAVEAU V KIJAK E amp FERRET O (2014) laquo Explorer le graphe de voisinage pour ameacuteliorer lestheacutesaurus distributionnels raquo Actes du 21e Traitement Automatique des Langues Naturelles(TALN2014) Marseille France 220-231

62

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

Seacutemantique distributionnelle en linguistique de corpus

COOK P et al (2013) ldquoA lexicographic appraisal of an automatic approach for detecting newword-sensesrdquo Proceedings of the eLex 2013 Conference Tallinn Estonia 49-65

COX T F amp COX M A A (2001) Multidimensional Scaling Boca Raton (FL) Chapman amp Hall

CURRAN J R amp MOENS M (2002) ldquoImprovements in automatic thesaurus extractionrdquoProceedings of the ACL-02 Workshop on Unsupervised Lexical Acquisition Vol 9Stroudsburg (PA) USA 59-66

DESALLE Y et al (2014) laquo BACANAL Balades Aleacuteatoires Courtes pour ANAlyses LexicalesApplication agrave la substitution lexicale raquo Actes du 21e Traitement Automatique des LanguesNaturelles (TALN2014) Atelier SemDis 2014 Marseille France 206-217

DINU G THATER S amp LAUE S (2012) ldquoA comparison of models of word meaning in contextrdquoProceedings of the 2012 Conference of the North American Chapter of the Association forComputational Linguistics Human Language Technologies Atlanta (GA) USA 611-615

EVERT S (2004) The Statistics of Word Cooccurrences Word Pairs and CollocationsDissertation Institut fuumlr maschinelle Sprachverarbeitung University of Stuttgart

FABRE C et al (2014a) laquo Preacutesentation de lrsquoatelier SemDis 2014 seacutemantique distributionnellepour la substitution lexicale et lrsquoexploration de corpus speacutecialiseacutes raquo Actes du 21e TraitementAutomatique des Langues Naturelles (TALN2014) Atelier SemDis 2014 Marseille France196-205

FABRE C et al (2014b) laquo Ajuster lrsquoanalyse distributionnelle agrave un corpus speacutecialiseacute de petitetaille raquo Actes du 21e Traitement Automatique des Langues Naturelles (TALN2014) AtelierSemDis 2014 Marseille France 266-279

FERRET O (2010) laquo Similariteacute seacutemantique et extraction de synonymes agrave partir de corpus raquoActes du 17e Traitement Automatique des Langues Naturelles (TALN2010) MontreacutealCanada [httpwwwiroumontrealcasimfelipeTALN2010XmlPapersalltaln2010_submission_77pdf]

FERRET O (2014) laquo Utiliser un modegravele neuronal geacuteneacuterique pour la substitution lexicale raquo Actesdu 21e Traitement Automatique des Langues Naturelles (TALN2014) Atelier SemDis 2014Marseille France 218-227

FIRTH J R (1957) Papers in Linguistics 1934-1951 Oxford Oxford University Press

GEERAERTS D (2010) Theories of Lexical Semantics OxfordNew York Oxford University Press

GLYNN D (2010) ldquoTesting the Hypothesis Objectivity and Verification in Usage-Based CognitiveSemanticsrdquo in D Glynn amp K Fischer (eds) Quantitative Methods in Cognitive SemanticsCorpus-driven approaches BerlinNew York Mouton de Gruyter 239-270

HABERT B amp ZWEIGENBAUM P (2002) ldquoContextual acquisition of information categories whathas been done and what can be done automaticallyrdquo in B Nevin amp S Johnson (eds) TheLegacy of Zellig Harris Language and information into the 21st century Amsterdam JohnBenjamins 203-231

HARRIS Z (1954) ldquoDistributional structurerdquo Word 10 (23) 146-162

HEYLEN K et al (2014) ldquoMonitoring Polysemy Word Space Models as a Tool for Large-ScaleLexical Semantic Analysisrdquo Lingua International Review of General Linguistics 157 153-172

HEYLEN K SPEELMAN D amp GEERAERTS D (2012) ldquoLooking at word meaning An interactivevisualization of Semantic Vector Spaces for Dutch synsetsrdquo Proceedings of the EACL 2012Joint Workshop of LINGVIS et UNCLH Avignon France 16-24

KRUSKAL J B amp WISH M (1978) Multidimensional Scaling Sage University Paper series onQuantitative Applications in the Social Sciences number 07-011 Newbury Park (CA) SagePublications

Langages 201 63

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

La seacutemantique linguistique en vision peacuteripheacuterique

LANDAUER T K amp DUMAIS S T (1997) ldquoA solution to Platorsquos problem The latent semanticanalysis theory of acquisition induction and representation of knowledgerdquo PsychologicalReview 104 (2) 211-240

LUND K amp BURGESS C (1996) ldquoProducing high-dimensional semantic spaces from lexical co-occurrencerdquo Behavior Research Methods Instrumentation and Computers 28 203-208

MORARDO M amp VILLEMONTE DE LA CLERGERIE Eacute (2013) laquo Vers un environnement de production etde validation de ressources lexicales seacutemantiques raquo Actes du 20e Traitement Automatiquedes Langues Naturelles (TALN2013) Atelier SemDis 2013 Les Sables-drsquoOlonne France167-180

MORLANE-HONDEgraveRE F (2013) laquo Utiliser une base distributionnelle pour filtrer un dictionnaire desynonymes raquo Actes du 20e Traitement Automatique des Langues Naturelles (TALN2013)Atelier SemDis 2013 Les Sables-drsquoOlonne France 112-125

NAVIGLI R (2012) ldquoA Quick Tour of Word Sense Disambiguation Induction and RelatedApproachesrdquo Proceedings of the 38th Conference on Current Trends in Theory and Practiceof Computer Science (SOFSEM) Spindleruv Mlyn Czech Republic 115-129

PEIRSMAN Y GEERAERTS D amp SPEELMAN D (2010) ldquoThe automatic identification of lexical variationbetween language varietiesrdquo Natural Language Engineering 16 (4) 469-491

PEREK F (2014) ldquoVector spaces for historical linguistics Using distributional semantics tostudy syntactic productivity in diachrony raquo Proceedings of the 52nd Annual Meeting of theAssociation for Computational Linguistics Baltimore USA 309-314

PEacuteRINET A amp HAMON T (2014) laquo Analyse et proposition de paramegravetres distributionnels adapteacutesaux corpus de speacutecialiteacute raquo Actes des 12e Journeacutees internationales drsquoAnalyse statistiquedes Donneacutees Textuelles (JADT 2014) Paris France 507-518

SAGI E KAUFMANN S amp CLARK B (2009) ldquoSemantic density analysis Comparing word meaningacross time and phonetic spacerdquo Proceedings of the EACL 2009 Workshop on GEMSAthens Greece 104-111

SAHLGREN M (2006) The Word-Space Model Using distributional analysis to represent syntag-matic and paradigmatic relations between words in high-dimensional vector spaces PhDThesis Department of Linguistics Stockholm University

SINCLAIR J (1991) Corpus Concordance Collocation Oxford Oxford University Press

THANOPOULOS A FAKOTAKIS N amp KOKKINAKIS G (2002) ldquoComparative Evaluation of CollocationExtraction Metricsrdquo Proceedings of the 3rd Language Resources Evaluation ConferenceLas Palmas Spain 620-625

TURNEY P D amp PANTEL P (2010) ldquoFrom Frequency to Meaning Vector Space Models ofSemanticsrdquo Journal of Artificial Intelligence Research 37 (1) 141-188

VENABLES W N amp RIPLEY B D (20024) Modern Applied Statistics with S New York Springer-Verlag

WEAVER W (1955) ldquoTranslationrdquo in W N Locke amp A D Booth (eds) Machine Translation ofLanguages Cambridge (MA) The MIT Press 15-23

WIECHMANN D (2008) ldquoOn the Computation of Collostruction Strengthrdquo Corpus Linguistics andLinguistic Theory 4 (2) 253-290

64

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

Seacutemantique distributionnelle en linguistique de corpus

COOK P et al (2013) ldquoA lexicographic appraisal of an automatic approach for detecting newword-sensesrdquo Proceedings of the eLex 2013 Conference Tallinn Estonia 49-65

COX T F amp COX M A A (2001) Multidimensional Scaling Boca Raton (FL) Chapman amp Hall

CURRAN J R amp MOENS M (2002) ldquoImprovements in automatic thesaurus extractionrdquoProceedings of the ACL-02 Workshop on Unsupervised Lexical Acquisition Vol 9Stroudsburg (PA) USA 59-66

DESALLE Y et al (2014) laquo BACANAL Balades Aleacuteatoires Courtes pour ANAlyses LexicalesApplication agrave la substitution lexicale raquo Actes du 21e Traitement Automatique des LanguesNaturelles (TALN2014) Atelier SemDis 2014 Marseille France 206-217

DINU G THATER S amp LAUE S (2012) ldquoA comparison of models of word meaning in contextrdquoProceedings of the 2012 Conference of the North American Chapter of the Association forComputational Linguistics Human Language Technologies Atlanta (GA) USA 611-615

EVERT S (2004) The Statistics of Word Cooccurrences Word Pairs and CollocationsDissertation Institut fuumlr maschinelle Sprachverarbeitung University of Stuttgart

FABRE C et al (2014a) laquo Preacutesentation de lrsquoatelier SemDis 2014 seacutemantique distributionnellepour la substitution lexicale et lrsquoexploration de corpus speacutecialiseacutes raquo Actes du 21e TraitementAutomatique des Langues Naturelles (TALN2014) Atelier SemDis 2014 Marseille France196-205

FABRE C et al (2014b) laquo Ajuster lrsquoanalyse distributionnelle agrave un corpus speacutecialiseacute de petitetaille raquo Actes du 21e Traitement Automatique des Langues Naturelles (TALN2014) AtelierSemDis 2014 Marseille France 266-279

FERRET O (2010) laquo Similariteacute seacutemantique et extraction de synonymes agrave partir de corpus raquoActes du 17e Traitement Automatique des Langues Naturelles (TALN2010) MontreacutealCanada [httpwwwiroumontrealcasimfelipeTALN2010XmlPapersalltaln2010_submission_77pdf]

FERRET O (2014) laquo Utiliser un modegravele neuronal geacuteneacuterique pour la substitution lexicale raquo Actesdu 21e Traitement Automatique des Langues Naturelles (TALN2014) Atelier SemDis 2014Marseille France 218-227

FIRTH J R (1957) Papers in Linguistics 1934-1951 Oxford Oxford University Press

GEERAERTS D (2010) Theories of Lexical Semantics OxfordNew York Oxford University Press

GLYNN D (2010) ldquoTesting the Hypothesis Objectivity and Verification in Usage-Based CognitiveSemanticsrdquo in D Glynn amp K Fischer (eds) Quantitative Methods in Cognitive SemanticsCorpus-driven approaches BerlinNew York Mouton de Gruyter 239-270

HABERT B amp ZWEIGENBAUM P (2002) ldquoContextual acquisition of information categories whathas been done and what can be done automaticallyrdquo in B Nevin amp S Johnson (eds) TheLegacy of Zellig Harris Language and information into the 21st century Amsterdam JohnBenjamins 203-231

HARRIS Z (1954) ldquoDistributional structurerdquo Word 10 (23) 146-162

HEYLEN K et al (2014) ldquoMonitoring Polysemy Word Space Models as a Tool for Large-ScaleLexical Semantic Analysisrdquo Lingua International Review of General Linguistics 157 153-172

HEYLEN K SPEELMAN D amp GEERAERTS D (2012) ldquoLooking at word meaning An interactivevisualization of Semantic Vector Spaces for Dutch synsetsrdquo Proceedings of the EACL 2012Joint Workshop of LINGVIS et UNCLH Avignon France 16-24

KRUSKAL J B amp WISH M (1978) Multidimensional Scaling Sage University Paper series onQuantitative Applications in the Social Sciences number 07-011 Newbury Park (CA) SagePublications

Langages 201 63

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

La seacutemantique linguistique en vision peacuteripheacuterique

LANDAUER T K amp DUMAIS S T (1997) ldquoA solution to Platorsquos problem The latent semanticanalysis theory of acquisition induction and representation of knowledgerdquo PsychologicalReview 104 (2) 211-240

LUND K amp BURGESS C (1996) ldquoProducing high-dimensional semantic spaces from lexical co-occurrencerdquo Behavior Research Methods Instrumentation and Computers 28 203-208

MORARDO M amp VILLEMONTE DE LA CLERGERIE Eacute (2013) laquo Vers un environnement de production etde validation de ressources lexicales seacutemantiques raquo Actes du 20e Traitement Automatiquedes Langues Naturelles (TALN2013) Atelier SemDis 2013 Les Sables-drsquoOlonne France167-180

MORLANE-HONDEgraveRE F (2013) laquo Utiliser une base distributionnelle pour filtrer un dictionnaire desynonymes raquo Actes du 20e Traitement Automatique des Langues Naturelles (TALN2013)Atelier SemDis 2013 Les Sables-drsquoOlonne France 112-125

NAVIGLI R (2012) ldquoA Quick Tour of Word Sense Disambiguation Induction and RelatedApproachesrdquo Proceedings of the 38th Conference on Current Trends in Theory and Practiceof Computer Science (SOFSEM) Spindleruv Mlyn Czech Republic 115-129

PEIRSMAN Y GEERAERTS D amp SPEELMAN D (2010) ldquoThe automatic identification of lexical variationbetween language varietiesrdquo Natural Language Engineering 16 (4) 469-491

PEREK F (2014) ldquoVector spaces for historical linguistics Using distributional semantics tostudy syntactic productivity in diachrony raquo Proceedings of the 52nd Annual Meeting of theAssociation for Computational Linguistics Baltimore USA 309-314

PEacuteRINET A amp HAMON T (2014) laquo Analyse et proposition de paramegravetres distributionnels adapteacutesaux corpus de speacutecialiteacute raquo Actes des 12e Journeacutees internationales drsquoAnalyse statistiquedes Donneacutees Textuelles (JADT 2014) Paris France 507-518

SAGI E KAUFMANN S amp CLARK B (2009) ldquoSemantic density analysis Comparing word meaningacross time and phonetic spacerdquo Proceedings of the EACL 2009 Workshop on GEMSAthens Greece 104-111

SAHLGREN M (2006) The Word-Space Model Using distributional analysis to represent syntag-matic and paradigmatic relations between words in high-dimensional vector spaces PhDThesis Department of Linguistics Stockholm University

SINCLAIR J (1991) Corpus Concordance Collocation Oxford Oxford University Press

THANOPOULOS A FAKOTAKIS N amp KOKKINAKIS G (2002) ldquoComparative Evaluation of CollocationExtraction Metricsrdquo Proceedings of the 3rd Language Resources Evaluation ConferenceLas Palmas Spain 620-625

TURNEY P D amp PANTEL P (2010) ldquoFrom Frequency to Meaning Vector Space Models ofSemanticsrdquo Journal of Artificial Intelligence Research 37 (1) 141-188

VENABLES W N amp RIPLEY B D (20024) Modern Applied Statistics with S New York Springer-Verlag

WEAVER W (1955) ldquoTranslationrdquo in W N Locke amp A D Booth (eds) Machine Translation ofLanguages Cambridge (MA) The MIT Press 15-23

WIECHMANN D (2008) ldquoOn the Computation of Collostruction Strengthrdquo Corpus Linguistics andLinguistic Theory 4 (2) 253-290

64

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin

La seacutemantique linguistique en vision peacuteripheacuterique

LANDAUER T K amp DUMAIS S T (1997) ldquoA solution to Platorsquos problem The latent semanticanalysis theory of acquisition induction and representation of knowledgerdquo PsychologicalReview 104 (2) 211-240

LUND K amp BURGESS C (1996) ldquoProducing high-dimensional semantic spaces from lexical co-occurrencerdquo Behavior Research Methods Instrumentation and Computers 28 203-208

MORARDO M amp VILLEMONTE DE LA CLERGERIE Eacute (2013) laquo Vers un environnement de production etde validation de ressources lexicales seacutemantiques raquo Actes du 20e Traitement Automatiquedes Langues Naturelles (TALN2013) Atelier SemDis 2013 Les Sables-drsquoOlonne France167-180

MORLANE-HONDEgraveRE F (2013) laquo Utiliser une base distributionnelle pour filtrer un dictionnaire desynonymes raquo Actes du 20e Traitement Automatique des Langues Naturelles (TALN2013)Atelier SemDis 2013 Les Sables-drsquoOlonne France 112-125

NAVIGLI R (2012) ldquoA Quick Tour of Word Sense Disambiguation Induction and RelatedApproachesrdquo Proceedings of the 38th Conference on Current Trends in Theory and Practiceof Computer Science (SOFSEM) Spindleruv Mlyn Czech Republic 115-129

PEIRSMAN Y GEERAERTS D amp SPEELMAN D (2010) ldquoThe automatic identification of lexical variationbetween language varietiesrdquo Natural Language Engineering 16 (4) 469-491

PEREK F (2014) ldquoVector spaces for historical linguistics Using distributional semantics tostudy syntactic productivity in diachrony raquo Proceedings of the 52nd Annual Meeting of theAssociation for Computational Linguistics Baltimore USA 309-314

PEacuteRINET A amp HAMON T (2014) laquo Analyse et proposition de paramegravetres distributionnels adapteacutesaux corpus de speacutecialiteacute raquo Actes des 12e Journeacutees internationales drsquoAnalyse statistiquedes Donneacutees Textuelles (JADT 2014) Paris France 507-518

SAGI E KAUFMANN S amp CLARK B (2009) ldquoSemantic density analysis Comparing word meaningacross time and phonetic spacerdquo Proceedings of the EACL 2009 Workshop on GEMSAthens Greece 104-111

SAHLGREN M (2006) The Word-Space Model Using distributional analysis to represent syntag-matic and paradigmatic relations between words in high-dimensional vector spaces PhDThesis Department of Linguistics Stockholm University

SINCLAIR J (1991) Corpus Concordance Collocation Oxford Oxford University Press

THANOPOULOS A FAKOTAKIS N amp KOKKINAKIS G (2002) ldquoComparative Evaluation of CollocationExtraction Metricsrdquo Proceedings of the 3rd Language Resources Evaluation ConferenceLas Palmas Spain 620-625

TURNEY P D amp PANTEL P (2010) ldquoFrom Frequency to Meaning Vector Space Models ofSemanticsrdquo Journal of Artificial Intelligence Research 37 (1) 141-188

VENABLES W N amp RIPLEY B D (20024) Modern Applied Statistics with S New York Springer-Verlag

WEAVER W (1955) ldquoTranslationrdquo in W N Locke amp A D Booth (eds) Machine Translation ofLanguages Cambridge (MA) The MIT Press 15-23

WIECHMANN D (2008) ldquoOn the Computation of Collostruction Strengthrdquo Corpus Linguistics andLinguistic Theory 4 (2) 253-290

64

Doc

umen

t teacutel

eacutecha

rgeacute

depu

is w

ww

cai

rnin

fo -

Kat

holie

ke U

nive

rsite

it Le

uven

-

- 13

458

253

56

- 20

01

2017

10h

31 copy

Arm

and

Col

in D

ocument teacuteleacutechargeacute depuis w

ww

cairninfo - Katholieke U

niversiteit Leuven - - 1345825356 - 20012017 10h31 copy A

rmand C

olin