outillage de l’accès aux textes par la lecture active ... · amawal tamazight-tafransist 4505 15...
TRANSCRIPT
Outillage de l’accès aux textes par la lecture active étymologique multilingue pour apprenants berbérophones et arabophones
Slimane Abdellaoui(1) Valérie Bellynck(2) Mathieu Mangeot(3) Christian Boitet(4)
(1) Université Paris 13 et LIG-GETALP (2), (3) Université Grenoble Alpes et LIG-GETALP
(4) LIG-GETALP
26/09/2018 1
S. Abdellaoui et al. TALAf-LTT2018 Lecture active étymologique
multilingue
GETALP-LIG
Equipe spécialisée en traitement automatique des
langues naturelles et de la parole.
R&D en lexicographie computationnelle depuis 1986.
JIBIKI Plate-forme de bases lexicales multilingues contributives en
ligne.
Réalisation récente Cesselin/lecture/J-F
◦ Outil de lecture active en ligne
◦ Incorpore la segmentation et la lemmatisation de MECAB et
l’accès au dictionnaire Cesselin.
26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 2/30
Lecture active pour le lao –français (Berment, 2004)
26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 3/30
Lecture active pour le japonais-français Cesselin/JIbIkI (Mangeot, 2016)
Exemple de la lecture active de Cesselin/lecture
26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 4/30
26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 5/30
Lecture active pour les Tweets (SUFT-1/JIBIKI (Shah, 2017)
(Shah.R 2017)
Le projet Étymolo
Étymolo = « lecture active étymologique multilingue ».
Faciliter la lecture aux apprenants connaissant plusieurs langues.
Utiliser des liens lexicaux (en particulier des « cognats ») entre une
ou plusieurs langues pour faciliter la mémorisation lexicale.
Le projet Étymolo/berbère
Spécialiser Étymolo au contexte de l’apprentissage du berbère (en Algérie)
Adapter Cesselin/lecture à ce contexte, de façon différente de SUFT-1/Jibiki
Produire un outil réellement utilisable et vérifier l’utilité des « cognats ».
26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 6/30
Contexte
◦ PFE Master TILDE au LIG-GETALP◦ Le projet Étymolo et le projet Étymolo/berbère◦ Le berbère
Ce qu’il y a à faire◦ Cognats entre le berbère, l’arabe et le français◦ Situations typiques d’apprentissage◦ Situations visées◦ Maquettage de l’interface souhaitée. Objectifs
Méthodologie
Que doit-on faire pour réaliser Cesselin/lecture/berbère?◦ Collecter des corpus◦ Collecter des dictionnaires◦ Collecter des cognats◦ Lemmatiser les formes◦ Accéder par les lemmes à la base lexicale via l’API de Jibiki
Perspectives
S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 26/09/2018 7/30
Macrolangue parlée en Afrique du Nord
45 M locuteurs
Différents dialectes (kabyle, chaoui, chelhi, rifain, touareg, etc.).
Deux systèmes d’écriture le Tifinagh et le latin (Tamaamrit).
Morphologie flexionnelle riche
Étude « institutionnelle » dans certains pays (Maroc, Algérie, Mali) + arabe + français.
26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 8/30
• Le travail sur le berbère (kabyle) est le premier essai de progresser vers la lecture active étymologique multilingue.
S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 26/09/20189/30
Définition Mots déjà connus dans une ou plusieurs langues.
Ils ressemblent à des mots de la langue étudiée.
Exemple: développer (fr) develop (en)
Intérêt (hypothèse)
Faciliter la mémorisation lexicale.
Établir des liens (cognats) avec le lexique d’une ou plusieurs langues.
26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 10/30
Le projet Étymolo/berbère
Étendre la lecture active existante dans la plate-forme Jibiki/lecture.
Construire les ressources et outils nécessaires.
Vérifier l’hypothèse de l’utilité des cognats dans notre situations
26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 11/30
Cognats entre berbère et arabe
Cognats entre berbère et français
26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 12/30
1. Enfant berbérophone apprenant
1. l’arabe (à 5 ans),
2. le français (à 7 ans),
3. le berbère (à 8 ans),
4. l’anglais (à 10 ans).
2. Enfant arabophone apprenant
1. l’arabe (à5 ans),
2. le français (à7 ans),
3. l’anglais (à10 ans).
3. Adultes apprenant l’arabe, le français et l’anglais.
26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 13/30
26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 14/30
Langue mater
nelle
Langues
connues
Langue d’appren
tissage# Contexte d’apprentissage Exemples Ressources utiles
berbère arabe français2,5
M
Algérie,
à partir de 3ème
année de primaire
Fr: La gazelle est terrifiée
LA-Ar: ة الغَزالَ خاِئفة
LA-Be: Taγzalt tugad
LA-Ad : خايفةلغزالة
Ar: ة ةخاِئفالغزالَ
Ad: خايفةلغزالة
Tr: Leġzāla ẖaifa
Cognats: Fr: gazelle, Ar: ة ,Be: taγzalt ,لغزالة :Adخايفة ,الغَزالَ
Lemmatiseur français,
arabe
Dictionnaires
français -arabe
arabe - français
berbèrearabe+
françaisanglais 1 M
Algérie
à partir de la première année
moyenne
En: I’ve got some tomato soup.
LA-Fr: J’ai peu tomate soupe
LA-Ar: الطماِطمَحساءبعضَلدَي
:LA-Adعنديشويةالسوبطماطيش
LA-Be: sɛiγ cuya tomatic lasup
Fr: J’ai un peu de soupe de tomate
Ar: الطماِطمَحساءبعضَلدَي
Tr: Ladaīa baʿḍ ḥasāʾ al-ṭmāṭim
Ad: طوماطشتاعالسوبشويةعندي
Tr: ʿendī šuwya lāsūp tāʿ tūmāṭiš
Be: sɛiγ cuya n lasup n tomatic
Cognat : En : soup, tomato, Fr: soupe tomate, Ar السوب, :Ad ,طماطم ,
Be: lasup
Lemmatiseur français,
anglais, arabe
Dictionnaires
anglais - français
anglais- arabe
arabe français anglais 4 MAlgérie à partir
de la première année moyenne
En: The table is in front of the sofa
LA-fr: La table en face le sofa
LA-Ar: األريكةمقابلالطاولة
LA-Ad: لفوتايمقابلالطابلة
Fr: La table est en face du sofa
Ar: األريكةمقابلالطاولة
Tr: al-ṭāwila muqābil al-arīka
Ad: الطابلةمقابللفوتاي
Tr: ṭṭābla meqābla el-futai
Cognats: En: table, sofa, Fr : table, sofa, Ar: الطاولة, Ad الفوتاي ,الطابلة,
Ber: tabla, afutai
Lemmatiseur anglais,
français
Dictionnaires
anglais - français
anglais - arabe
Objectifs1. construire le "cahier des charges" puis les spécifications
externes de CESSELIN/ETYMOLO.
2. discuter avec des participants à TALAf en disposant d’une maquette concrète.
3. faire une première estimation du travail à faire.
Méthode de construction1. remplacement du japonais par le berbère
2. ajout d’autres langues (arabe, français et anglais).
3. ajout de cases à cocher avec des couleurs.
4. mise en gras des cognats.
26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 15/30
26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 16/30
Exemple: curseur sur le dernier mot
26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 17/30
Exemple: curseur sur le deuxième mot
Collecter des corpus intéressants
Collecter des dictionnaires intéressants
Collecter des cognats
Lemmatiser les formes
Accéder par les lemmes à la base lexicale via
l’API de Jibiki
26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 18/30
26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 19/30
Corpus Nombre de mots Intérêt (/20)Facilité de
récupération (/20)Score(/20)
La dépêche de Kabylie1,57 M de mots dont
98% des articles sont en kabyle
16 15 15,5
Tullianum : Taggara n
yugurten30700 12 16 14
The Amazigh Voice 60000 10 18 14
L’Ogresse et l’abeille 14830 15 12 13,5
Sujets de baccalauréat 6500 10 12 11
kabyle.com 2000 10 10 10
Tamurt.info 1800 10 10 10
Q
Capture d’un article de journal La dépêche de Kabylie
26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 20/31
• Un grand corpus récupéré de « La Dépêche de Kabylie. »
• 5900 articles.
• Environ 1,57M d’occurrences.
• Environ11000 mots formes et 7000 lemmes.• http://etymolo-corpus.imag.fr/amazig/
26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 21/30
26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 22/30
E
Évaluation du nombre des mots-formes
26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 23/30
Liste de dictionnaires en berbère dans Lexilogos
26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 24/30
26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 25/30
But final: récupération secondaire
Dictionnaire Nombre d’entrées Intérêt(/20) Facilité de récupération(/20) Score(/20)
Amawal Tamazight-
Tafransist
4505 15 15 15
Dictionnaire kabyle-français 10950 17 13 15
Amawal.net 10958 15 14 14,5
Dictionnaire tarifit-français 6700 15 12 13,5
Vocabulaire grammatical
(français-anglais-berbère-
arabe)
1280 12 15 13,5
Amawal Wikidot 13000 13 12 12,5
Danoun Chez Alice 4049 10 15 12,5
Amawal Ingliz-Amazigh-
Aԑrab
1090 10 15 12,5
Lexique Animal français-
kabyle
1343 10 15 12,5
Lexique Informatique 1200 10 12 11
Dictionnaire français-kabyle 9400 12 10 11
Dictionnaire français tachelhit
et tamazight
8900 12 10 11
Dictionnaire IRCAM 100 10 10 10
Vocabulaire Amazigh de la
mer
100 10 10 10
Dictionnaire français berbère
de DCCC XLIV
6500 10 10 10
26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 26/01
26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 27/30
Récupération de plus de 350 cognats des corpus et dictionnaires.
26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 28/30
Implémenter réellement toutes les fonctionnalités, ainsi qu’intégrer et construire les ressources nécessaires.
Pour cela, récupérer les deux ou trois premiers dictionnaires de notre liste.
Extraire le plus possible de cognats à partir des dictionnaires et textes des langues concernées.
Construire un lemmatiseur pour chacune des langues concernées.
26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 29/30
• Berment, V. (2004) Méthodes pour informatiser les langues et les groupes de langues “ peu dotées ”. Autre [cs.OH]. Université Joseph-Fourier - Grenoble.
• Mangeot-Nagata, M. (2016). Collaborative Construction of a Good Quality, Broad Coverage and Copyright Free Japanese-French Dictionary. International Journal of Lexicography, Oxford University PressPress (OUP). International Journal of Lexicography, 31(1), 78-112. https://doi.org/10.1093/ijl/ecw035
• Shah, R. (2017). SUFT-1, un système pour aider à comprendre les tweets spontanés multilingues et à commutation de code en langues étrangères: expérimentation et évaluation sur les tweets indiens et japonais (thèse). Université Grenoble-Alpes, LIG-GETALP, Grenoble.
26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 30/30