outillage de l’accès aux textes par la lecture active ... · amawal tamazight-tafransist 4505 15...

30
Outillage de l’accès aux textes par la lecture active étymologique multilingue pour apprenants berbérophones et arabophones Slimane Abdellaoui(1) Valérie Bellynck(2) Mathieu Mangeot(3) Christian Boitet(4) (1) Université Paris 13 et LIG-GETALP (2), (3) Université Grenoble Alpes et LIG-GETALP (4) LIG-GETALP 26/09/2018 1 S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue

Upload: others

Post on 07-Jan-2020

6 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Outillage de l’accès aux textes par la lecture active ... · Amawal Tamazight-Tafransist 4505 15 15 15 Dictionnaire kabyle-français 10950 17 13 15 Amawal.net 10958 15 14 14,5

Outillage de l’accès aux textes par la lecture active étymologique multilingue pour apprenants berbérophones et arabophones

Slimane Abdellaoui(1) Valérie Bellynck(2) Mathieu Mangeot(3) Christian Boitet(4)

(1) Université Paris 13 et LIG-GETALP (2), (3) Université Grenoble Alpes et LIG-GETALP

(4) LIG-GETALP

26/09/2018 1

S. Abdellaoui et al. TALAf-LTT2018 Lecture active étymologique

multilingue

Page 2: Outillage de l’accès aux textes par la lecture active ... · Amawal Tamazight-Tafransist 4505 15 15 15 Dictionnaire kabyle-français 10950 17 13 15 Amawal.net 10958 15 14 14,5

GETALP-LIG

Equipe spécialisée en traitement automatique des

langues naturelles et de la parole.

R&D en lexicographie computationnelle depuis 1986.

JIBIKI Plate-forme de bases lexicales multilingues contributives en

ligne.

Réalisation récente Cesselin/lecture/J-F

◦ Outil de lecture active en ligne

◦ Incorpore la segmentation et la lemmatisation de MECAB et

l’accès au dictionnaire Cesselin.

26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 2/30

Page 3: Outillage de l’accès aux textes par la lecture active ... · Amawal Tamazight-Tafransist 4505 15 15 15 Dictionnaire kabyle-français 10950 17 13 15 Amawal.net 10958 15 14 14,5

Lecture active pour le lao –français (Berment, 2004)

26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 3/30

Page 4: Outillage de l’accès aux textes par la lecture active ... · Amawal Tamazight-Tafransist 4505 15 15 15 Dictionnaire kabyle-français 10950 17 13 15 Amawal.net 10958 15 14 14,5

Lecture active pour le japonais-français Cesselin/JIbIkI (Mangeot, 2016)

Exemple de la lecture active de Cesselin/lecture

26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 4/30

Page 5: Outillage de l’accès aux textes par la lecture active ... · Amawal Tamazight-Tafransist 4505 15 15 15 Dictionnaire kabyle-français 10950 17 13 15 Amawal.net 10958 15 14 14,5

26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 5/30

Lecture active pour les Tweets (SUFT-1/JIBIKI (Shah, 2017)

(Shah.R 2017)

Page 6: Outillage de l’accès aux textes par la lecture active ... · Amawal Tamazight-Tafransist 4505 15 15 15 Dictionnaire kabyle-français 10950 17 13 15 Amawal.net 10958 15 14 14,5

Le projet Étymolo

Étymolo = « lecture active étymologique multilingue ».

Faciliter la lecture aux apprenants connaissant plusieurs langues.

Utiliser des liens lexicaux (en particulier des « cognats ») entre une

ou plusieurs langues pour faciliter la mémorisation lexicale.

Le projet Étymolo/berbère

Spécialiser Étymolo au contexte de l’apprentissage du berbère (en Algérie)

Adapter Cesselin/lecture à ce contexte, de façon différente de SUFT-1/Jibiki

Produire un outil réellement utilisable et vérifier l’utilité des « cognats ».

26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 6/30

Page 7: Outillage de l’accès aux textes par la lecture active ... · Amawal Tamazight-Tafransist 4505 15 15 15 Dictionnaire kabyle-français 10950 17 13 15 Amawal.net 10958 15 14 14,5

Contexte

◦ PFE Master TILDE au LIG-GETALP◦ Le projet Étymolo et le projet Étymolo/berbère◦ Le berbère

Ce qu’il y a à faire◦ Cognats entre le berbère, l’arabe et le français◦ Situations typiques d’apprentissage◦ Situations visées◦ Maquettage de l’interface souhaitée. Objectifs

Méthodologie

Que doit-on faire pour réaliser Cesselin/lecture/berbère?◦ Collecter des corpus◦ Collecter des dictionnaires◦ Collecter des cognats◦ Lemmatiser les formes◦ Accéder par les lemmes à la base lexicale via l’API de Jibiki

Perspectives

S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 26/09/2018 7/30

Page 8: Outillage de l’accès aux textes par la lecture active ... · Amawal Tamazight-Tafransist 4505 15 15 15 Dictionnaire kabyle-français 10950 17 13 15 Amawal.net 10958 15 14 14,5

Macrolangue parlée en Afrique du Nord

45 M locuteurs

Différents dialectes (kabyle, chaoui, chelhi, rifain, touareg, etc.).

Deux systèmes d’écriture le Tifinagh et le latin (Tamaamrit).

Morphologie flexionnelle riche

Étude « institutionnelle » dans certains pays (Maroc, Algérie, Mali) + arabe + français.

26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 8/30

Page 9: Outillage de l’accès aux textes par la lecture active ... · Amawal Tamazight-Tafransist 4505 15 15 15 Dictionnaire kabyle-français 10950 17 13 15 Amawal.net 10958 15 14 14,5

• Le travail sur le berbère (kabyle) est le premier essai de progresser vers la lecture active étymologique multilingue.

S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 26/09/20189/30

Page 10: Outillage de l’accès aux textes par la lecture active ... · Amawal Tamazight-Tafransist 4505 15 15 15 Dictionnaire kabyle-français 10950 17 13 15 Amawal.net 10958 15 14 14,5

Définition Mots déjà connus dans une ou plusieurs langues.

Ils ressemblent à des mots de la langue étudiée.

Exemple: développer (fr) develop (en)

Intérêt (hypothèse)

Faciliter la mémorisation lexicale.

Établir des liens (cognats) avec le lexique d’une ou plusieurs langues.

26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 10/30

Page 11: Outillage de l’accès aux textes par la lecture active ... · Amawal Tamazight-Tafransist 4505 15 15 15 Dictionnaire kabyle-français 10950 17 13 15 Amawal.net 10958 15 14 14,5

Le projet Étymolo/berbère

Étendre la lecture active existante dans la plate-forme Jibiki/lecture.

Construire les ressources et outils nécessaires.

Vérifier l’hypothèse de l’utilité des cognats dans notre situations

26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 11/30

Page 12: Outillage de l’accès aux textes par la lecture active ... · Amawal Tamazight-Tafransist 4505 15 15 15 Dictionnaire kabyle-français 10950 17 13 15 Amawal.net 10958 15 14 14,5

Cognats entre berbère et arabe

Cognats entre berbère et français

26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 12/30

Page 13: Outillage de l’accès aux textes par la lecture active ... · Amawal Tamazight-Tafransist 4505 15 15 15 Dictionnaire kabyle-français 10950 17 13 15 Amawal.net 10958 15 14 14,5

1. Enfant berbérophone apprenant

1. l’arabe (à 5 ans),

2. le français (à 7 ans),

3. le berbère (à 8 ans),

4. l’anglais (à 10 ans).

2. Enfant arabophone apprenant

1. l’arabe (à5 ans),

2. le français (à7 ans),

3. l’anglais (à10 ans).

3. Adultes apprenant l’arabe, le français et l’anglais.

26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 13/30

Page 14: Outillage de l’accès aux textes par la lecture active ... · Amawal Tamazight-Tafransist 4505 15 15 15 Dictionnaire kabyle-français 10950 17 13 15 Amawal.net 10958 15 14 14,5

26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 14/30

Langue mater­

nelle

Langues

connues

Langue d’appren­

tissage# Contexte d’apprentissage Exemples Ressources utiles

berbère arabe français2,5

M

Algérie,

à partir de 3ème

année de primaire

Fr: La gazelle est terrifiée

LA-Ar: ة الغَزالَ خاِئفة

LA-Be: Taγzalt tugad

LA-Ad : خايفةلغزالة

Ar: ة ةخاِئفالغزالَ

Ad: خايفةلغزالة

Tr: Leġzāla ẖaifa

Cognats: Fr: gazelle, Ar: ة ,Be: taγzalt ,لغزالة :Adخايفة ,الغَزالَ

Lemmatiseur français,

arabe

Dictionnaires

français -­arabe

arabe - français

berbèrearabe+

françaisanglais 1 M

Algérie

à partir de la première année

moyenne

En: I’ve got some tomato soup.

LA-Fr: J’ai peu tomate soupe

LA-Ar: الطماِطمَحساءبعضَلدَي

:LA-Adعنديشويةالسوبطماطيش

LA-Be: sɛiγ cuya tomatic lasup

Fr: J’ai un peu de soupe de tomate

Ar: الطماِطمَحساءبعضَلدَي

Tr: Ladaīa baʿḍ ḥasāʾ al-ṭmāṭim

Ad: طوماطشتاعالسوبشويةعندي

Tr: ʿendī šuwya lāsūp tāʿ tūmāṭiš

Be: sɛiγ cuya n lasup n tomatic

Cognat : En : soup, tomato, Fr: soupe tomate, Ar السوب, :Ad ,طماطم ,

Be: lasup

Lemmatiseur français,

anglais, arabe

Dictionnaires

anglais - français

anglais- arabe

arabe français anglais 4 MAlgérie à partir

de la première année moyenne

En: The table is in front of the sofa

LA-fr: La table en face le sofa

LA-Ar: األريكةمقابلالطاولة

LA-Ad: لفوتايمقابلالطابلة

Fr: La table est en face du sofa

Ar: األريكةمقابلالطاولة

Tr: al-ṭāwila muqābil al-arīka

Ad: الطابلةمقابللفوتاي

Tr: ṭṭābla meqābla el-futai

Cognats: En: table, sofa, Fr : table, sofa, Ar: الطاولة, Ad الفوتاي ,الطابلة,

Ber: tabla, afutai

Lemmatiseur anglais,

français

Dictionnaires

anglais - français

anglais - arabe

Page 15: Outillage de l’accès aux textes par la lecture active ... · Amawal Tamazight-Tafransist 4505 15 15 15 Dictionnaire kabyle-français 10950 17 13 15 Amawal.net 10958 15 14 14,5

Objectifs1. construire le "cahier des charges" puis les spécifications

externes de CESSELIN/ETYMOLO.

2. discuter avec des participants à TALAf en disposant d’une maquette concrète.

3. faire une première estimation du travail à faire.

Méthode de construction1. remplacement du japonais par le berbère

2. ajout d’autres langues (arabe, français et anglais).

3. ajout de cases à cocher avec des couleurs.

4. mise en gras des cognats.

26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 15/30

Page 16: Outillage de l’accès aux textes par la lecture active ... · Amawal Tamazight-Tafransist 4505 15 15 15 Dictionnaire kabyle-français 10950 17 13 15 Amawal.net 10958 15 14 14,5

26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 16/30

Exemple: curseur sur le dernier mot

Page 17: Outillage de l’accès aux textes par la lecture active ... · Amawal Tamazight-Tafransist 4505 15 15 15 Dictionnaire kabyle-français 10950 17 13 15 Amawal.net 10958 15 14 14,5

26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 17/30

Exemple: curseur sur le deuxième mot

Page 18: Outillage de l’accès aux textes par la lecture active ... · Amawal Tamazight-Tafransist 4505 15 15 15 Dictionnaire kabyle-français 10950 17 13 15 Amawal.net 10958 15 14 14,5

Collecter des corpus intéressants

Collecter des dictionnaires intéressants

Collecter des cognats

Lemmatiser les formes

Accéder par les lemmes à la base lexicale via

l’API de Jibiki

26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 18/30

Page 19: Outillage de l’accès aux textes par la lecture active ... · Amawal Tamazight-Tafransist 4505 15 15 15 Dictionnaire kabyle-français 10950 17 13 15 Amawal.net 10958 15 14 14,5

26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 19/30

Corpus Nombre de mots Intérêt (/20)Facilité de

récupération (/20)Score(/20)

La dépêche de Kabylie1,57 M de mots dont

98% des articles sont en kabyle

16 15 15,5

Tullianum : Taggara n

yugurten30700 12 16 14

The Amazigh Voice 60000 10 18 14

L’Ogresse et l’abeille 14830 15 12 13,5

Sujets de baccalauréat 6500 10 12 11

kabyle.com 2000 10 10 10

Tamurt.info 1800 10 10 10

Page 20: Outillage de l’accès aux textes par la lecture active ... · Amawal Tamazight-Tafransist 4505 15 15 15 Dictionnaire kabyle-français 10950 17 13 15 Amawal.net 10958 15 14 14,5

Q

Capture d’un article de journal La dépêche de Kabylie

26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 20/31

Page 21: Outillage de l’accès aux textes par la lecture active ... · Amawal Tamazight-Tafransist 4505 15 15 15 Dictionnaire kabyle-français 10950 17 13 15 Amawal.net 10958 15 14 14,5

• Un grand corpus récupéré de « La Dépêche de Kabylie. »

• 5900 articles.

• Environ 1,57M d’occurrences.

• Environ11000 mots formes et 7000 lemmes.• http://etymolo-corpus.imag.fr/amazig/

26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 21/30

Page 22: Outillage de l’accès aux textes par la lecture active ... · Amawal Tamazight-Tafransist 4505 15 15 15 Dictionnaire kabyle-français 10950 17 13 15 Amawal.net 10958 15 14 14,5

26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 22/30

Page 23: Outillage de l’accès aux textes par la lecture active ... · Amawal Tamazight-Tafransist 4505 15 15 15 Dictionnaire kabyle-français 10950 17 13 15 Amawal.net 10958 15 14 14,5

E

Évaluation du nombre des mots-formes

26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 23/30

Page 24: Outillage de l’accès aux textes par la lecture active ... · Amawal Tamazight-Tafransist 4505 15 15 15 Dictionnaire kabyle-français 10950 17 13 15 Amawal.net 10958 15 14 14,5

Liste de dictionnaires en berbère dans Lexilogos

26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 24/30

Page 25: Outillage de l’accès aux textes par la lecture active ... · Amawal Tamazight-Tafransist 4505 15 15 15 Dictionnaire kabyle-français 10950 17 13 15 Amawal.net 10958 15 14 14,5

26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 25/30

But final: récupération secondaire

Page 26: Outillage de l’accès aux textes par la lecture active ... · Amawal Tamazight-Tafransist 4505 15 15 15 Dictionnaire kabyle-français 10950 17 13 15 Amawal.net 10958 15 14 14,5

Dictionnaire Nombre d’entrées Intérêt(/20) Facilité de récupération(/20) Score(/20)

Amawal Tamazight-

Tafransist

4505 15 15 15

Dictionnaire kabyle-français 10950 17 13 15

Amawal.net 10958 15 14 14,5

Dictionnaire tarifit-français 6700 15 12 13,5

Vocabulaire grammatical

(français-anglais-berbère-

arabe)

1280 12 15 13,5

Amawal Wikidot 13000 13 12 12,5

Danoun Chez Alice 4049 10 15 12,5

Amawal Ingliz-Amazigh-

Aԑrab

1090 10 15 12,5

Lexique Animal français-

kabyle

1343 10 15 12,5

Lexique Informatique 1200 10 12 11

Dictionnaire français-kabyle 9400 12 10 11

Dictionnaire français tachelhit

et tamazight

8900 12 10 11

Dictionnaire IRCAM 100 10 10 10

Vocabulaire Amazigh de la

mer

100 10 10 10

Dictionnaire français berbère

de DCCC XLIV

6500 10 10 10

26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 26/01

Page 27: Outillage de l’accès aux textes par la lecture active ... · Amawal Tamazight-Tafransist 4505 15 15 15 Dictionnaire kabyle-français 10950 17 13 15 Amawal.net 10958 15 14 14,5

26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 27/30

Récupération de plus de 350 cognats des corpus et dictionnaires.

Page 28: Outillage de l’accès aux textes par la lecture active ... · Amawal Tamazight-Tafransist 4505 15 15 15 Dictionnaire kabyle-français 10950 17 13 15 Amawal.net 10958 15 14 14,5

26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 28/30

Page 29: Outillage de l’accès aux textes par la lecture active ... · Amawal Tamazight-Tafransist 4505 15 15 15 Dictionnaire kabyle-français 10950 17 13 15 Amawal.net 10958 15 14 14,5

Implémenter réellement toutes les fonctionnalités, ainsi qu’intégrer et construire les ressources nécessaires.

Pour cela, récupérer les deux ou trois premiers dictionnaires de notre liste.

Extraire le plus possible de cognats à partir des dictionnaires et textes des langues concernées.

Construire un lemmatiseur pour chacune des langues concernées.

26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 29/30

Page 30: Outillage de l’accès aux textes par la lecture active ... · Amawal Tamazight-Tafransist 4505 15 15 15 Dictionnaire kabyle-français 10950 17 13 15 Amawal.net 10958 15 14 14,5

• Berment, V. (2004) Méthodes pour informatiser les langues et les groupes de langues “ peu dotées ”. Autre [cs.OH]. Université Joseph-Fourier - Grenoble.

• Mangeot-Nagata, M. (2016). Collaborative Construction of a Good Quality, Broad Coverage and Copyright Free Japanese-French Dictionary. International Journal of Lexicography, Oxford University PressPress (OUP). International Journal of Lexicography, 31(1), 78-112. https://doi.org/10.1093/ijl/ecw035

• Shah, R. (2017). SUFT-1, un système pour aider à comprendre les tweets spontanés multilingues et à commutation de code en langues étrangères: expérimentation et évaluation sur les tweets indiens et japonais (thèse). Université Grenoble-Alpes, LIG-GETALP, Grenoble.

26/09/2018S. Abdellaoui et al. TALAf-LTT 2018 Lecture active étymologique multilingue 30/30