alexandr rosen - cuni.cz

70
Akvizi ˇ cní korpusy Alexandr Rosen Ústav teoretické a komputaˇ cní lingvistiky Filozofické fakulty Univerzity Karlovy v Praze Korpusový seminᡠr 17. bˇ rezna 2016 Alexandr Rosen (ÚTKL FF UK) Akviziˇ cní korpusy Seminᡠˇ CNK 1 / 68

Upload: others

Post on 05-Oct-2021

13 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Alexandr Rosen - cuni.cz

Akvizicní korpusy

Alexandr Rosen

Ústav teoretické a komputacní lingvistikyFilozofické fakulty Univerzity Karlovy v Praze

Korpusový seminár17. brezna 2016

Alexandr Rosen (ÚTKL FF UK) Akvizicní korpusy Seminár ÚCNK 1 / 68

Page 2: Alexandr Rosen - cuni.cz

Osnova

1 Akvizicní korpusy a jejich anotace

2 Learner Corpora of Czech: Merlin and CzeSL

3 Error Annotation of CzeSL

4 An automatically annotated corpus – CzeSL-SGT

5 Searching the corpus

6 Theoretical issues

Alexandr Rosen (ÚTKL FF UK) Akvizicní korpusy Seminár ÚCNK 2 / 68

Page 3: Alexandr Rosen - cuni.cz

Akvizicní korpusy a jejich anotace

Osnova

1 Akvizicní korpusy a jejich anotace

2 Learner Corpora of Czech: Merlin and CzeSL

3 Error Annotation of CzeSL

4 An automatically annotated corpus – CzeSL-SGT

5 Searching the corpus

6 Theoretical issues

Alexandr Rosen (ÚTKL FF UK) Akvizicní korpusy Seminár ÚCNK 3 / 68

Page 4: Alexandr Rosen - cuni.cz

Akvizicní korpusy a jejich anotace

Akvizicní korpusy

Pro studium osvojování a výuky materského i cizího (druhého)jazykaDoklady o užívání jazyka mluvcími, kterí si jazyk (dosud) neosvojilina úrovni dospelého rodilého mluvcíhoPsané i mluvenéZamerené na rodilé i nerodilé mluvcíNekdy s chybovou anotací, která vyznacuje odchylky od bežnéhoúzu nebo normyNekdy longitudinální nebo kvazilongitudinálníCNK: SCHOLA2010, SKRIPT2012, CzeSL-plain, CzeSL-SGT1

1http://akces.ff.cuni.cz,http://utkl.ff.cuni.cz/learncorp/,https://www.facebook.com/novacds/videos/vb.501336856549038/978415935507792/?type=2&theater

Alexandr Rosen (ÚTKL FF UK) Akvizicní korpusy Seminár ÚCNK 4 / 68

Page 5: Alexandr Rosen - cuni.cz

Akvizicní korpusy a jejich anotace

Žákovské korpusy (learner corpora)

Obsahují texty nerodilých mluvcích, kterí se daný jazyk ucí.Vetšinou psané školní práce, casto v rámci zkoušky, nekdy imluvené žákovské korpusy.Duraz na metadata: vek, materský jazyk, úroven znalosti cílovéhojazyka apod.Od 1990– jako materiál pro slovníky urcené studentum anglictiny(napr. Longman Learner Corpus)2002: International Corpus of Learner English (ICLE)– Univerzita v Nové LovaniPro autory ucebnic, metodology, jazykovedceOdchylky od úzu/standardu lze opravovat a urcit typ chybyOdchylky mohou být na více rovinách soucasne

Alexandr Rosen (ÚTKL FF UK) Akvizicní korpusy Seminár ÚCNK 5 / 68

Page 6: Alexandr Rosen - cuni.cz

Akvizicní korpusy a jejich anotace

Korpus M slov L1 L2 Úroven Médium AnotaceICLE 3 26 en pokr. psaný cást.CLC 35 130 en vše psaný cást.LINDSEI 0.8 11 en pokr. mluv. cást.PELCRA 0.5 pl en vše psaný cást.USE 1.2 sv en pokr. psaný neHKUST 25 zh en pokr. psaný cást.CHUNGDAHM 131 ko en vše psaný cást.JEFLL 0.7 jp en zac. psaný cást.MELD 1 16 en pokr. psaný neMICASE 1.8 ruz. en pokr. mluv. neNICT JLE 2 jp en vše mluv. cást.FALKO 0.3 5 de pokr. psaný cást.FRIDA 0.2 ruz. fr str.-pokr. mluv. cást.FLLOC 2 en fr vše mluv. nePiKUST 0.04 18 sl pokr. psaný anoASU 0.5 ruz. no pokr. psaný neTUFS 0.6 ruz. jp vše psaný ne

M znaku

Alexandr Rosen (ÚTKL FF UK) Akvizicní korpusy Seminár ÚCNK 6 / 68

Page 7: Alexandr Rosen - cuni.cz

Akvizicní korpusy a jejich anotace

Using a learner corpus

To describe levels of progress in learners’ interlanguageTo identify an optimal order and method of teaching grammarTo research L1 influenceTo distinguish universal errors from errors due to learner’s L1To identify overuse and underuse of linguistic items in learnerlanguageTo identify features responsible for the ‘foreign sound’

Alexandr Rosen (ÚTKL FF UK) Akvizicní korpusy Seminár ÚCNK 7 / 68

Page 8: Alexandr Rosen - cuni.cz

Akvizicní korpusy a jejich anotace

Annotation of Learner Corpora

Learner corpora can be annotated in two independent ways:

Linguistic annotationLemmatization, morphological tagging, syntactic structure, etc.On the original text or on the corrected textUsually automatic or semiautomatic

Error annotationCorrecting and/or categorizing errorsDiverse annotation systemsUsually manual

Alexandr Rosen (ÚTKL FF UK) Akvizicní korpusy Seminár ÚCNK 8 / 68

Page 9: Alexandr Rosen - cuni.cz

Akvizicní korpusy a jejich anotace

Capturing errors

1. Implicit – errors are identified and corrected

Pros:faster training of annotatorsfaster process of annotation

Cons:results hard to search and analyze

2. Explicit – errors are identified and categorized

Error categories (tags) reflect a specific theory

Alexandr Rosen (ÚTKL FF UK) Akvizicní korpusy Seminár ÚCNK 9 / 68

Page 10: Alexandr Rosen - cuni.cz

Akvizicní korpusy a jejich anotace

A sample (manual) error annotation – CzeSL2

incor incorrect formincorInfl M inflection error T1incorBase M stem error T1incorOther A other T1

fw foreign word, neologism, unidentifiablefwFab M newly created “Czech” word T1fwNc M foreign word T1flex M inflection of fw T1

wbd word-boundary errorwbdPre M separate prefix, attached preposition T1wbdComp M incorrectly separated/joined composites T1wbdOther M other word-boundary errors T1

styl colloquial, bookish, regional expressionstylColl M colloquial expression T1,T2stylOther M bookish, regional, slang expression T1,T2stylMark M filler T2

problem M problem T1,T22[Štindlová et al.(2013), Rosen et al.(2014a)]

Alexandr Rosen (ÚTKL FF UK) Akvizicní korpusy Seminár ÚCNK 10 / 68

Page 11: Alexandr Rosen - cuni.cz

Akvizicní korpusy a jejich anotace

agr M agreement error T2dep M structural error T2ref M pronominal reference error T2vbx M complex verb error T2

cvf A analytical verb form error T2mod A modal verb error T2vnp A copula T2

rflx M reflexive form error T2neg M negation error T2odd A extra word T2miss A missing word T2wo A word-order errror T2lex M lexical and idiomatic error T2use M incorrect use of a category T2sec M secondary error T2disr M word salad T2

Alexandr Rosen (ÚTKL FF UK) Akvizicní korpusy Seminár ÚCNK 11 / 68

Page 12: Alexandr Rosen - cuni.cz

Akvizicní korpusy a jejich anotace

Automatic annotation?

For many native languages, reasonably reliable annotation toolsare available.

Non-native language is often annotated manually, but this is notrealistic for larger volumes.

Can methods and tools developed for native language help?

Alexandr Rosen (ÚTKL FF UK) Akvizicní korpusy Seminár ÚCNK 12 / 68

Page 13: Alexandr Rosen - cuni.cz

Akvizicní korpusy a jejich anotace

Automatic annotation of learner corpora

NLP for learner language:3

tutoring systems(Intelligent Computer-Assisted Language Learning – ICALL)4

automated scoring in language testinganalysis and annotation of learner corpora

Linguistic annotation: lemmatization, tagging, (shallow) parsing5

Error annotation

3[Meurers(2013)]4[Dickinson & Herring(2008)]5[Nagata et al.(2011), Dickinson & Ragheb(2009), Krivanek & Meurers(2014)]

Alexandr Rosen (ÚTKL FF UK) Akvizicní korpusy Seminár ÚCNK 13 / 68

Page 14: Alexandr Rosen - cuni.cz

Learner Corpora of Czech: Merlin and CzeSL

Osnova

1 Akvizicní korpusy a jejich anotace

2 Learner Corpora of Czech: Merlin and CzeSL

3 Error Annotation of CzeSL

4 An automatically annotated corpus – CzeSL-SGT

5 Searching the corpus

6 Theoretical issues

Alexandr Rosen (ÚTKL FF UK) Akvizicní korpusy Seminár ÚCNK 14 / 68

Page 15: Alexandr Rosen - cuni.cz

Learner Corpora of Czech: Merlin and CzeSL

Merlin

Learner corpus of Czech, German, and Italian6

To build a platform matching CEFR levels with languagephenomena specific to the level

Funded by the EU Lifelong Learning Programme, 2012–2014

Czech: 64.5K words, CEFR levels A1–C1

Tagged, parsed, on-line searchable

6[Boyd et al.(2014)], http://www.merlin-platform.euAlexandr Rosen (ÚTKL FF UK) Akvizicní korpusy Seminár ÚCNK 15 / 68

Page 16: Alexandr Rosen - cuni.cz

Learner Corpora of Czech: Merlin and CzeSL

AKCES – Acquisition corpora of Czech7

An umbrella project, various fundingFaculty of Arts, Charles University in PragueProject head: Karel Šebesta,Institute of Czech Language and Theory of CommunicationGroups:

Native learnersLearners growing up in socially excluded communities,mostly with Romani backgroundNon-native learners

Written/spoken language

7[Šebesta(2012)], http://akces.ff.cuni.cz, http://utkl.ff.cuni.cz/learncorp/Alexandr Rosen (ÚTKL FF UK) Akvizicní korpusy Seminár ÚCNK 16 / 68

Page 17: Alexandr Rosen - cuni.cz

Learner Corpora of Czech: Merlin and CzeSL

Searchable:CNC – http://kontext.korpus.czITCL – http://chomsky.ruk.cuni.cz:5125

Downloadable:LINDAT – http://lindat.mff.cuni.czLicense – Creative Commons BY-(NC-)ND 3.0

Native learners, elementary and secondary schoolSpeech: SCHOLA 2010 ≈ AKCES 2 (1M tokens)Essays: SKRIPT 2012 ≈ AKCES 1 (0.7M tokens), SKRIPT-SGT – inprep., also Roma learners

Roma learnersSpeech: ROMi 1.0 (1.5M words)Essays: AKCES 4 (300K words)

Non-native learners (essays)CzeSL-plain ≈ AKCES 3 – also Roma and native (2.3M tokens)CzeSL-SGT ≈ AKCES 5 – automatic annotation (1.1M tokens)CzeSL-MAN – manual annotation (288K/48K tokens, SeLaQ beta)

Alexandr Rosen (ÚTKL FF UK) Akvizicní korpusy Seminár ÚCNK 17 / 68

Page 18: Alexandr Rosen - cuni.cz

Learner Corpora of Czech: Merlin and CzeSL

The CzeSL corpus – Czech as a Second Language

Approx. 1 MW, transcribed hand-written essays

L1 groups:Slavic: Russian, Ukrainian, Polish, ...Other Indo-European: German, English, French, ...Non-Indo-European: Vietnamese, Chinese, Arabic, ...

All levels of proficiency according to CEFR

Metadata on the learner and the task (30 items)

Alexandr Rosen (ÚTKL FF UK) Akvizicní korpusy Seminár ÚCNK 18 / 68

Page 19: Alexandr Rosen - cuni.cz

Learner Corpora of Czech: Merlin and CzeSL

Sizes and proportions

Texts 8.6KSentences 111KWords 958KTokens 1,148KDifferent authors 1,965Different native languages 54Proficiency levels A1–C2Age 9–76Women/Men 5/3 KWWords per text 100–200

Alexandr Rosen (ÚTKL FF UK) Akvizicní korpusy Seminár ÚCNK 19 / 68

Page 20: Alexandr Rosen - cuni.cz

Learner Corpora of Czech: Merlin and CzeSL

Language groups and proficiency levels8

CEFR (Czech) L1 groupSlavic IndEur non-IndEur ? Total

A1 1783 199 622 5 2609A1+ 283 21 11 0 315A2 1348 269 480 1 2098A2+ 403 54 113 0 570B1 929 195 357 0 1481B2 523 115 107 0 745C1 82 17 24 0 123C2 0 1 0 0 1? 291 27 33 324 675Total 5642 898 1747 330 8617

8More statistics on http://utkl.ff.cuni.cz/~rosen/public/sgt_counts_by_meta_en.htmlAlexandr Rosen (ÚTKL FF UK) Akvizicní korpusy Seminár ÚCNK 20 / 68

Page 21: Alexandr Rosen - cuni.cz

Error Annotation of CzeSL

Osnova

1 Akvizicní korpusy a jejich anotace

2 Learner Corpora of Czech: Merlin and CzeSL

3 Error Annotation of CzeSL

4 An automatically annotated corpus – CzeSL-SGT

5 Searching the corpus

6 Theoretical issues

Alexandr Rosen (ÚTKL FF UK) Akvizicní korpusy Seminár ÚCNK 21 / 68

Page 22: Alexandr Rosen - cuni.cz

Error Annotation of CzeSL

Workflow

AcquisitionTranscriptionProofreadingConversion to PMLError annotationRevisionAdjudicationPostprocessing

Alexandr Rosen (ÚTKL FF UK) Akvizicní korpusy Seminár ÚCNK 22 / 68

Page 23: Alexandr Rosen - cuni.cz

Error Annotation of CzeSL

Strategy

Minimal correction

Capture only grammatical and lexical characteristicsof non-native language

Relative to Literary Czech

Alexandr Rosen (ÚTKL FF UK) Akvizicní korpusy Seminár ÚCNK 23 / 68

Page 24: Alexandr Rosen - cuni.cz

Error Annotation of CzeSL

Error Annotation of a Flective Language

Problems

Inflection (nouns: 15 basic paradigms, subparadigms, subsub...)Derivation, agreement, word-order reflecting information structure,etc.

Solution

Multilevel annotation schemeCombining manual and automatic annotation

Alexandr Rosen (ÚTKL FF UK) Akvizicní korpusy Seminár ÚCNK 24 / 68

Page 25: Alexandr Rosen - cuni.cz

Error Annotation of CzeSL

Error Annotation of a Flective Language

Problems

Inflection (nouns: 15 basic paradigms, subparadigms, subsub...)Derivation, agreement, word-order reflecting information structure,etc.

Solution

Multilevel annotation schemeCombining manual and automatic annotation

Alexandr Rosen (ÚTKL FF UK) Akvizicní korpusy Seminár ÚCNK 24 / 68

Page 26: Alexandr Rosen - cuni.cz
Page 27: Alexandr Rosen - cuni.cz

•  <li>Viktor je mladý pan z Polska Ruska. Studuje {češtinu}<in> ve

škole, protože ne umí psat a čist spravně. Bydlí na koleje vedle

školy, má jednu sestru Irenu, která se učí na univerzite u profesora

Smutneveselého. Bohužel, Viktor není dobrym student, protože spí

na lekci, ale jeho sestra {piše všechno -> všechno piše} a vyborně

rozumí českeho profesora Smutneveselého {a brzo delá domací

ukol}<in>. Večeře Irena jde na prohaska spolu z kamaradem, ale

její bratr dělá nic. Jeho čeština je špatná, vím, že se vratit ve

Polsko Ruskou a tam budí studovat u pomalu myt podlahy.

<li>Kamarad Ireny je {A|a}meričan a chytry můž. On miluje Irenu a

chce se vzít na ní. protože ona je hezká, taky chytra, rozumí ho a

umí vyborný vařit.

Page 28: Alexandr Rosen - cuni.cz

•  <li>Viktor je mladý pan z Polska Ruska. Studuje {češtinu}<in> ve

škole, protože ne umí psat a čist spravně. Bydlí na koleje vedle

školy, má jednu sestru Irenu, která se učí na univerzite u profesora

Smutneveselého. Bohužel, Viktor není dobrym student, protože spí

na lekci, ale jeho sestra {piše všechno -> všechno piše} a vyborně

rozumí českeho profesora Smutneveselého {a brzo delá domací

ukol}<in>. Večeře Irena jde na prohaska spolu z kamaradem, ale

její bratr dělá nic. Jeho čeština je špatná, vím, že se vratit ve

Polsko Ruskou a tam budí studovat u pomalu myt podlahy.

<li>Kamarad Ireny je {A|a}meričan a chytry můž. On miluje Irenu a

chce se vzít na ní. protože ona je hezká, taky chytra, rozumí ho a

umí vyborný vařit.

Page 29: Alexandr Rosen - cuni.cz

•  <li>Viktor je mladý pan z Polska Ruska. Studuje {češtinu}<in> ve

škole, protože ne umí psat a čist spravně. Bydlí na koleje vedle

školy, má jednu sestru Irenu, která se učí na univerzite u profesora

Smutneveselého. Bohužel, Viktor není dobrym student, protože spí

na lekci, ale jeho sestra {piše všechno -> všechno piše} a vyborně

rozumí českeho profesora Smutneveselého {a brzo delá domací

ukol}<in>. Večeře Irena jde na prohaska spolu z kamaradem, ale

její bratr dělá nic. Jeho čeština je špatná, vím, že se vratit ve

Polsko Ruskou a tam budí studovat u pomalu myt podlahy.

<li>Kamarad Ireny je {A|a}meričan a chytry můž. On miluje Irenu a

chce se vzít na ní. protože ona je hezká, taky chytra, rozumí ho a

umí vyborný vařit.

Page 30: Alexandr Rosen - cuni.cz

Error Annotation of CzeSL

Multilevel Annotation Scheme

Level 0Original text (transcribed, self-corrections inlined)

Level 1Corrections disregarding word contextSpelling, form of stems and endingsResult: sequence of existing Czech forms

Level 2Remaining errors: syntactic, lexical, word-order, style, referential,negation, . . .Result: grammatically correct sentence

Alexandr Rosen (ÚTKL FF UK) Akvizicní korpusy Seminár ÚCNK 29 / 68

Page 31: Alexandr Rosen - cuni.cz

Error Annotation of CzeSL

Bojal jsme se že ona se ne bude libila slavnou prahu,proto to bylo velmí vadí pro mne.

Bál jsem se, že se jí nebude líbit slavná Praha,protože to by mi velmi vadilo.

‘I was affraid that she would not like the famous city of Prague,because I would be very unhappy about it.’

Alexandr Rosen (ÚTKL FF UK) Akvizicní korpusy Seminár ÚCNK 30 / 68

Page 32: Alexandr Rosen - cuni.cz

Error Annotation of CzeSL

Bojal jsme se že ona se ne bude libila slavnou prahu,proto to bylo velmí vadí pro mne.

Bál jsem se, že se jí nebude líbit slavná Praha,protože to by mi velmi vadilo.

‘I was affraid that she would not like the famous city of Prague,because I would be very unhappy about it.’

Alexandr Rosen (ÚTKL FF UK) Akvizicní korpusy Seminár ÚCNK 30 / 68

Page 33: Alexandr Rosen - cuni.cz

Bojal jsme*feared aux

incorInfl

Bál jsme

agr rflx

Bál jsem se ,

I was afraid

že ona se ne bude libila slavnou prahu ,that she rflx not will *like famous Prague ,

wbdPre incorBase

že ona se nebude líbila slavnou Prahu ,

dep vbx agr,sec dep

že se jí nebude líbit slavná Praha ,

that she would not like the famous city of Prague,

proto to bylo velmí vadí pro mně .therefore it was *very resent for me .

incorBase

proto to bylo velmi vadí pro mně .

lex vbx dep

protože to by mi velmi vadilo .

protože to by mi velmi vadilo.

1

Page 34: Alexandr Rosen - cuni.cz

Bojal jsme*feared aux

incorInfl

Bál jsme

agr rflx

Bál jsem se ,

I was afraid

že ona se ne bude libila slavnou prahu ,that she rflx not will *like famous Prague ,

wbdPre incorBase

že ona se nebude líbila slavnou Prahu ,

dep vbx agr,sec dep

že se jí nebude líbit slavná Praha ,

that she would not like the famous city of Prague,

proto to bylo velmí vadí pro mně .therefore it was *very resent for me .

incorBase

proto to bylo velmi vadí pro mně .

lex vbx dep

protože to by mi velmi vadilo .

protože to by mi velmi vadilo.

1

Page 35: Alexandr Rosen - cuni.cz

Bojal jsme*feared aux

incorInfl

Bál jsme

agr rflx

Bál jsem se ,

I was afraid

že ona se ne bude libila slavnou prahu ,that she rflx not will *like famous Prague ,

wbdPre incorBase

že ona se nebude líbila slavnou Prahu ,

dep vbx agr,sec dep

že se jí nebude líbit slavná Praha ,

that she would not like the famous city of Prague,

proto to bylo velmí vadí pro mně .therefore it was *very resent for me .

incorBase

proto to bylo velmi vadí pro mně .

lex vbx dep

protože to by mi velmi vadilo .

because I would be very unhappy about it.

1

Page 36: Alexandr Rosen - cuni.cz
Page 37: Alexandr Rosen - cuni.cz

An automatically annotated corpus – CzeSL-SGT

Osnova

1 Akvizicní korpusy a jejich anotace

2 Learner Corpora of Czech: Merlin and CzeSL

3 Error Annotation of CzeSL

4 An automatically annotated corpus – CzeSL-SGT

5 Searching the corpus

6 Theoretical issues

Alexandr Rosen (ÚTKL FF UK) Akvizicní korpusy Seminár ÚCNK 35 / 68

Page 38: Alexandr Rosen - cuni.cz

An automatically annotated corpus – CzeSL-SGT

The CzeSL-SGT corpus:Czech as a Second Language with Spelling, Grammar and TagsTranscriptions of essays written by non-native speakers of Czechin 2009–2013Extends the “foreign” part of CzeSL-plain by texts collected in 2013Transcription markup discardedWith metadata about the text and the authorWith automatic linguistic and error annotation

correctiontagging and lemmatizationerror labels

Searchable from the interface of the Czech National Corpus:http://kontext.korpus.czDownloadable from the LINDAT data repository (AKCES 5):http://www.lindat.cz9

9http://hdl.handle.net/11234/1-162Alexandr Rosen (ÚTKL FF UK) Akvizicní korpusy Seminár ÚCNK 36 / 68

Page 39: Alexandr Rosen - cuni.cz

An automatically annotated corpus – CzeSL-SGT

Annotation

If possible, each word form is tagged by a standard tagger10 with:word classmorphological categoriesbase form (lemmas)

Forms detected as incorrect are corrected by a stochastic spellingand grammar checker, targeting even some ‘real word’ errors11

The corrected text is re-taggedOriginal and corrected forms are compared and error labels, basedon applicable formal criteria, are assigned12

All the annotation is assigned automatically

10[Votrubec(2006)]11[Richter(2010), Richter et al.(2012)]12[Jelínek et al.(2012)]Alexandr Rosen (ÚTKL FF UK) Akvizicní korpusy Seminár ÚCNK 37 / 68

Page 40: Alexandr Rosen - cuni.cz

An automatically annotated corpus – CzeSL-SGT

The tools: morphological analyzer + tagger

Morce13

Standard tool, reported results on native text 95–96%Trained on native texts (Prague Dependency Treebank)14

A rule-based module deteriorates the result on learner textsSuccess varies by text

13[Votrubec(2006)]14[PZK(2005)]Alexandr Rosen (ÚTKL FF UK) Akvizicní korpusy Seminár ÚCNK 38 / 68

Page 41: Alexandr Rosen - cuni.cz

An automatically annotated corpus – CzeSL-SGT

The tools: Spell-checker

Korektor15

Combines rule-based morphology with a stochastic modelModes: spell-checker, proof-reader, diacritics assignerTrained on native texts (Prague Dependency Treebank)16

Produces ranked suggestions with a correction type: spelling orgrammarSuggestions for single words only, proposing single words again

15[Richter et al.(2012)]16[PZK(2005)]Alexandr Rosen (ÚTKL FF UK) Akvizicní korpusy Seminár ÚCNK 39 / 68

Page 42: Alexandr Rosen - cuni.cz

An automatically annotated corpus – CzeSL-SGT

Annotation of a sample sentence with “spelling” errors

(1) TénTen

pespes

mílujemiluje

svéchosvého

kamaradakamaráda

––

cloveka.cloveka.

‘That dog loves his friend – the man.’

word lemma tag word1 lemma1 tag1 gs errTén Tén X@ Ten ten PDYS1 S Quant1pes pes NNMS1 pes pes NNMS1míluje míluje X@ miluje milovat VB-S-3P S Quant1svécho svécho X@ svého svuj P8MS4 S Voicedkamarada kamarada X@ kamaráda kamarád NNMS4 S Quant0- - Z: - - Z:cloveka clovek NNMS2 cloveka clovek NNMS4. . Z:- . . Z:

Alexandr Rosen (ÚTKL FF UK) Akvizicní korpusy Seminár ÚCNK 40 / 68

Page 43: Alexandr Rosen - cuni.cz

An automatically annotated corpus – CzeSL-SGT

Annotation of a sample sentence with “real-word”errors

(2) NejakijNejakej

mužmuž

spíspí

vv

postele.posteli.

‘Some guy is sleeping in the bed.’

word lemma tag word1 lemma1 tag1 gs errNejakij Nejakij X@ Nejakej nejaký PZYS1-6 S Caron0muž muž NNMS1 muž muž NNMS1spí spát VB-S---3P spí spát VB-S---3Pv v RR--4 v v RR--6postele postel NNFP4 posteli postel NNFS6 G SingCh. . Z: . . Z:

Alexandr Rosen (ÚTKL FF UK) Akvizicní korpusy Seminár ÚCNK 41 / 68

Page 44: Alexandr Rosen - cuni.cz

An automatically annotated corpus – CzeSL-SGT

Formal error tags

Error type Error description ExampleCap0 capitalization: incor. lower case evrope/Evrope; štedrý /ŠtedrýCap1 capitalization: incor. upper case Staré/staré; Rodine/rodineVcd0 voicing assimilation: incor. voiced stratíme/ztratíme; nabítku/nabídkuVcd1 voicing assimilation: incor. vcless zbalit /sbalit ; nigdo/nikdoVcdFin0 word-final voicing: incor. voiceless kdyš/když; vztach/vztahVcdFin1 word-final voicing: incor. voiced prez/pres; pag/pakVcd voicing: other errors protoše/protože; hodili /chodiliPalat0 missing palatalization (k,g,h,ch) amerike/Americe; matke/matceJe0 je/e: incorrect e ubjehlo/ubehlo; Nejvjetší /NejvetšíJe1 je/e: incorrect je vjedel /vedel ; vjeci /veciMne0 me/mne: incorrect me zapomela/zapomnelaMne1 me/mne: incor. mne, mne, mne mnela/mela; rozumneli /rozumeliProtJ0 protethic j : missing j sem/jsem; menoval /jmenovalProtJ1 protethic j : extra j jse/se; jmé/méProtV1 protethic v : extra v vosm/osm; vopravdu/opravduEpentE0 e epenthesis: missing e domcek /domecekEpentE1 e epenthesis: extra e rozebehl /rozbehl ; úcety /úcty

Alexandr Rosen (ÚTKL FF UK) Akvizicní korpusy Seminár ÚCNK 42 / 68

Page 45: Alexandr Rosen - cuni.cz

An automatically annotated corpus – CzeSL-SGT

Metadata

Most texts are equipped with metadata about the author and the text.

15 items about the author:sexageL1CEFR level of proficiency in Czechduration and method of studylength of stay in Czechiaknowledge of Czech among family members...

Alexandr Rosen (ÚTKL FF UK) Akvizicní korpusy Seminár ÚCNK 43 / 68

Page 46: Alexandr Rosen - cuni.cz

An automatically annotated corpus – CzeSL-SGT

Metadata, cont’d

15 items about the text:datetime limitword counttopicgenredictionary/textbook allowedexam?...

Alexandr Rosen (ÚTKL FF UK) Akvizicní korpusy Seminár ÚCNK 44 / 68

Page 47: Alexandr Rosen - cuni.cz

An automatically annotated corpus – CzeSL-SGT

Anonymization

The texts are anonymized by replacing personal names withappropriate forms of Adam and Eva.

Names of smaller places (streets, villages, small towns) and otherpotentially sensitive data are replaced by QQQ.

Unreadable characters or words are transcribed as XXX.

Alexandr Rosen (ÚTKL FF UK) Akvizicní korpusy Seminár ÚCNK 45 / 68

Page 48: Alexandr Rosen - cuni.cz

An automatically annotated corpus – CzeSL-SGT

Evaluation of the automatic correction

KorektorThe sample: 67 texts, 9373 tokens, 7995 wordsEvaluated on a manually and doubly annotated subset of CzeSLUsing corrections where both annotators agree(97% on T1, 91% on T2)Ill-formed tokens:

total (= unknown to MA): 918with identical corrections on T1: 786

Results for ill-formed tokens:diacritics assigner only: 70%proof-reader: 80%diacritics assigner followed by proof-reader 82%a

a[Štindlová et al.(2012)]

Alexandr Rosen (ÚTKL FF UK) Akvizicní korpusy Seminár ÚCNK 46 / 68

Page 49: Alexandr Rosen - cuni.cz

Searching the corpus

Osnova

1 Akvizicní korpusy a jejich anotace

2 Learner Corpora of Czech: Merlin and CzeSL

3 Error Annotation of CzeSL

4 An automatically annotated corpus – CzeSL-SGT

5 Searching the corpus

6 Theoretical issues

Alexandr Rosen (ÚTKL FF UK) Akvizicní korpusy Seminár ÚCNK 47 / 68

Page 50: Alexandr Rosen - cuni.cz

Searching the corpus

Dynamic attributes

Dynamic attributes are derived from some positions of tag andtag1.Useful in queries:

To access individual morphological categoriesTo stipulate identity of categories across mutiple forms to requiregrammatical concordTo compare values of a category for the original and corrected forms

k, k1 – word class (position 1 of the tag)s, s1 – detailed word class (position 2 of the tag)g, g1 – gender (position 3 of the tag)n, n1 – number (position 4 of the tag)c, c1 – case (position 5 of the tag)p, p1 – person (position 8 of the tag)

Alexandr Rosen (ÚTKL FF UK) Akvizicní korpusy Seminár ÚCNK 48 / 68

Page 51: Alexandr Rosen - cuni.cz

Searching the corpus

Comparing annotation of original and corrected forms

Global conditions in a CQL query1:[] 2:[] & 1.lemma = 2.lemma1:[] 2:[] & 1.lemma = 2.word1:[] & 1.lemma != 1.lemma11:[] & 1.c != 1.c1

Alexandr Rosen (ÚTKL FF UK) Akvizicní korpusy Seminár ÚCNK 49 / 68

Page 52: Alexandr Rosen - cuni.cz
Page 53: Alexandr Rosen - cuni.cz

Theoretical issues

Osnova

1 Akvizicní korpusy a jejich anotace

2 Learner Corpora of Czech: Merlin and CzeSL

3 Error Annotation of CzeSL

4 An automatically annotated corpus – CzeSL-SGT

5 Searching the corpus

6 Theoretical issues

Alexandr Rosen (ÚTKL FF UK) Akvizicní korpusy Seminár ÚCNK 51 / 68

Page 54: Alexandr Rosen - cuni.cz

Theoretical issues

Theoretical issues of annotating learner language

The absence of automatic methods and tools targeting non-nativelanguage is not caused only by the computational complexity of thetask and the absence of data resources, e.g. for machine learningapplications.There is a more fundamental issue of largely missing concepts andschemes to describe non-standard linguistic phenomena.An option: non-standard phenomena modelled as mismatchesbetween different dimensions of a word class classification.17

17[Díaz-Negrillo et al.(2010), Rosen et al.(2014b), Rosen(2014)]Alexandr Rosen (ÚTKL FF UK) Akvizicní korpusy Seminár ÚCNK 52 / 68

Page 55: Alexandr Rosen - cuni.cz

Theoretical issues

Word classes in 3D

Each word form has three word classes:inflectional (morphology)

word as a sequence of morphsto deal with ill-formed morphs or wrongly concatenated morphsproperties: form, lemma, paradigm

lexical (stem)word as a bundle of morphemes (grammatical, lexical)categories interpreted within the local context of isolated word formsproperties: form, lemma, paradigm, case, number, gender, person,...

syntactic (distribution)word as a syntactic constituentcategories interpreted in the syntactic contextproperties: case, number, gender, person, ...

Alexandr Rosen (ÚTKL FF UK) Akvizicní korpusy Seminár ÚCNK 53 / 68

Page 56: Alexandr Rosen - cuni.cz

Theoretical issues

Types of mismatches:

inflectional 6= lexical = syntactic– to model phenomena involving morphology (stems, inflection,derivation), including distinction between a problem in stem andinflection:

vidím leva – iP:lev-leva, xP:lev-lva (‘I see a lion’)novorocní predsevzení – iL:predsevzení, xL:predsevzetí

(‘New Year’s resolution’)

inflectional = lexical 6= syntactic– to model phenomena involving morphosyntax (agreement,government):

vidím lev – xNom, sAcc (‘I see a lionNOM ’)pomáhat rodinu – xAcc, sDat (‘help the familyACC ’)

Alexandr Rosen (ÚTKL FF UK) Akvizicní korpusy Seminár ÚCNK 54 / 68

Page 57: Alexandr Rosen - cuni.cz

Theoretical issues

Word classes in standard language ...

... can differ across dimensions, but only specific combinations areavailable:který – iAdj,xPrn,sNoun (‘which’)

Alexandr Rosen (ÚTKL FF UK) Akvizicní korpusy Seminár ÚCNK 55 / 68

Page 58: Alexandr Rosen - cuni.cz

Theoretical issues

Examples

Morphology

kvetiny kvétou – iP:kvést-kvétou (‘flowers bloom’)ucitelka bí žáky – iP:bít-bí (‘the teacher beats pupils’)po jednem roku – iP:jeden-jednem (‘after one year’)Praha libi se mi moc – iP:libit-libi, xL:líbit (‘Prague I like a lot’)skuzím – iL:skuzit, xL:zkusit (‘I’ll try’)maminkou – iL:maminka, xL:maminka (‘[with] maminka’)

Alexandr Rosen (ÚTKL FF UK) Akvizicní korpusy Seminár ÚCNK 56 / 68

Page 59: Alexandr Rosen - cuni.cz

Theoretical issues

Morphosyntactic categories

Chtela bych bydlet v nejakém evropském zemi. – sFem(‘I’d like to live in some EuropeanMASC countryFEM ’)

na univerzite Karlova – sLoc (at ‘CharlesNOM University’)skoncit magistr – sAcc (‘finish MasterNOM ’)potrebuju mnoho sil a snah – xSg

(‘need much strength and efforts’)nemusila jsem prevzít odpovednost za neco – sNeg

(‘didn’t have to accept responsibility for something’)

Alexandr Rosen (ÚTKL FF UK) Akvizicní korpusy Seminár ÚCNK 57 / 68

Page 60: Alexandr Rosen - cuni.cz

Theoretical issues

Thanks to...

... other members of the team, esp.:

Barbora Štindlová, Jirka Hana, Tomáš Jelínek, Svatava Škodová, KarelŠebesta, Vladimír Petkevic, Pavel Procházka, Hana Skoumalová, MilenaHnátková, Jan Štepánek, Zuzanna Bedrichová, Katerina Šormová, KaterinaLundáková, Dagmar Toufarová

... the sponsors:

The European Social Fund and the Czech government:Education for Competitiveness – Innovation in Education in the Field ofCzech as a Second Language (CZ.1.07/2.2.00/07.0259)

Large Research, Development and Innovation Infrastructures:The Czech National Corpus (LM2011023)

PRVOUK, the research funding programme at Charles University: P10 –Linguistics, Acquisition and Development of Linguistic andCommunicative Competence in Selected Communities of the CzechRepublic

Alexandr Rosen (ÚTKL FF UK) Akvizicní korpusy Seminár ÚCNK 58 / 68

Page 61: Alexandr Rosen - cuni.cz

Theoretical issues

... and you!

Alexandr Rosen (ÚTKL FF UK) Akvizicní korpusy Seminár ÚCNK 59 / 68

Page 62: Alexandr Rosen - cuni.cz

Theoretical issues

References I

Boyd, A., Hana, J., Nicolas, L., Meurers, D., Wisniewski, K., Abel,A., Schöne, K., Štindlová, B., & Vettori, C. (2014).The MERLIN corpus: Learner language and the CEFR.In N. Calzolari, K. Choukri, T. Declerck, H. Loftsson, B. Maegaard,J. Mariani, A. Moreno, J. Odijk, and S. Piperidis, editors,Proceedings of the Ninth International Conference on LanguageResources and Evaluation (LREC’14), Reykjavik, Iceland.European Language Resources Association (ELRA).

Dickinson, M. & Herring, J. (2008).Developing online ICALL exercises for Russian.In The 3rd Workshop on Innovative Use of NLP for BuildingEducational Applications (ACL08-NLP-Education), pages 1–9,Columbus, OH.

Alexandr Rosen (ÚTKL FF UK) Akvizicní korpusy Seminár ÚCNK 60 / 68

Page 63: Alexandr Rosen - cuni.cz

Theoretical issues

References II

Dickinson, M. & Ragheb, M. (2009).Dependency annotation for learner corpora.In Proceedings of the Eighth Workshop on Treebanks and LinguisticTheories TLT8.

Díaz-Negrillo, A., Meurers, D., Valera, S., & Wunsch, H. (2010).Towards interlanguage POS annotation for effective learner corporain SLA and FLT.Language Forum, 36(1–2), 139–154.Special Issue on Corpus Linguistics for Teaching and Learning. InHonour of John Sinclair.

Alexandr Rosen (ÚTKL FF UK) Akvizicní korpusy Seminár ÚCNK 61 / 68

Page 64: Alexandr Rosen - cuni.cz

Theoretical issues

References III

Jelínek, T., Štindlová, B., Rosen, A., & Hana, J. (2012).Combining manual and automatic annotation of a learner corpus.In P. Sojka, A. Horák, I. Kopecek, and K. Pala, editors, Text, Speechand Dialogue – Proceedings of the 15th International ConferenceTSD 2012, number 7499 in Lecture Notes in Computer Science,pages 127–134. Springer.

Krivanek, J. & Meurers, D. (2014).Comparing rule-based and data-driven dependency parsing oflearner language.In E. H. Kim Gerdes and L. Wanner, editors, Dependency Theory,Frontiers in AI and Applications. IOS Press, Amsterdam.

Alexandr Rosen (ÚTKL FF UK) Akvizicní korpusy Seminár ÚCNK 62 / 68

Page 65: Alexandr Rosen - cuni.cz

Theoretical issues

References IV

Meurers, D. (2013).Natural language processing and language learning.In C. A. Chapelle, editor, Encyclopedia of Applied Linguistics, pages4193–4205. Blackwell.

Nagata, R., Whittaker, E., & Sheinman, V. (2011).Creating a manually error-tagged and shallow-parsed learnercorpus.In Proceedings of the 49th Annual Meeting of the Association forComputational Linguistics: Human Language Technologies -Volume 1, HLT ’11, pages 1210–1219, Stroudsburg, PA, USA.Association for Computational Linguistics.

Alexandr Rosen (ÚTKL FF UK) Akvizicní korpusy Seminár ÚCNK 63 / 68

Page 66: Alexandr Rosen - cuni.cz

Theoretical issues

References V

PZK (2005).Pražský závislostní korpus.Ústav formální a aplikované lingvistiky MFF UK, Praha.Verze 2.0, http://ufal.mff.cuni.cz/pdt/.

Richter, M. (2010).An Advanced Spell Checker of Czech.Master’s thesis, Faculty of Mathematics and Physics, CharlesUniversity, Prague.

Richter, M., Stranák, P., & Rosen, A. (2012).Korektor – a system for contextual spell-checking and diacriticscompletion.In Proceedings of COLING 2012: Posters, pages 1019–1028,Mumbai, India. The COLING 2012 Organizing Committee.

Alexandr Rosen (ÚTKL FF UK) Akvizicní korpusy Seminár ÚCNK 64 / 68

Page 67: Alexandr Rosen - cuni.cz

Theoretical issues

References VI

Rosen, A. (2014).A 3D taxonomy of word classes at work.In L. Veselovská and M. Janebová, editors, Complex Visibles OutThere. Proceedings of the Olomouc Linguistics Colloquium 2014:Language Use and Linguistic Structure, volume 4 of OlomoucModern Language Series, pages 575–590, Olomouc. PalackýUniversity.

Rosen, A., Hana, J., Štindlová, B., & Feldman, A. (2014a).Evaluating and automating the annotation of a learner corpus.Language Resources and Evaluation – Special Issue: Resourcesfor language learning, 48(1), 65–92.

Alexandr Rosen (ÚTKL FF UK) Akvizicní korpusy Seminár ÚCNK 65 / 68

Page 68: Alexandr Rosen - cuni.cz

Theoretical issues

References VII

Rosen, A., Štindlová, B., Škodová, S., & Hana, J. (2014b).Using a cross-classifying taxonomy of non-standard forms toanalyze non-native Czech.In SLE 2014 — 47th Annual Meeting of the Societas LinguisticaEuropaea, Workshop on Interlanguage Annotation, Poznan,Poland. Adam Mickiewicz University.

Votrubec, J. (2006).Morphological tagging based on averaged perceptron.In WDS’06 Proceedings of Contributed Papers, pages 191–195,Praha, Czechia. Matfyzpress, Charles University.

Alexandr Rosen (ÚTKL FF UK) Akvizicní korpusy Seminár ÚCNK 66 / 68

Page 69: Alexandr Rosen - cuni.cz

Theoretical issues

References VIII

Šebesta, K. (2012).Learner corpora and Czech language.In I. Semrádová, editor, Intercultural Inspirations for LanguageEducation. Spaces for understanding., pages 74–89. UniverzitaHradec Králové, Hradec Králové.

Štindlová, B., Rosen, A., Hana, J., & Škodová, S. (2012).CzeSL – an error tagged corpus of Czech as a second language.In P. Pezik, editor, Corpus Data across Languages and Disciplines,volume 28 of Łódz Studies in Language, pages 21–32, Frankfurtam Main. Peter Lang.

Alexandr Rosen (ÚTKL FF UK) Akvizicní korpusy Seminár ÚCNK 67 / 68

Page 70: Alexandr Rosen - cuni.cz

Theoretical issues

References IX

Štindlová, B., Škodová, S., Hana, J., & Rosen, A. (2013).A learner corpus of Czech: current state and future directions.In S. Granger, G. Gilquin, and F. Meunier, editors, Twenty Years ofLearner Corpus Research: Looking back, Moving ahead, Corporaand Language in Use – Proceedings 1, Louvain-la-Neuve. PressesUniversitaires de Louvain.

Alexandr Rosen (ÚTKL FF UK) Akvizicní korpusy Seminár ÚCNK 68 / 68