gal halfon machine translation seminarcs.tau.ac.il/~kfirbar/mt/persian-language-gal.pdfاب هک...

16
Persian Language Gal Halfon - Machine Translation Seminar

Upload: vandang

Post on 27-Apr-2018

221 views

Category:

Documents


3 download

TRANSCRIPT

Page 1: Gal Halfon Machine Translation Seminarcs.tau.ac.il/~kfirbar/mt/Persian-Language-Gal.pdfاب هک دندوب هدرک معا ،دندش یم هتخانش شعاد هدنگنج دنتسناوت

Persian LanguageGal Halfon - Machine Translation Seminar

Page 2: Gal Halfon Machine Translation Seminarcs.tau.ac.il/~kfirbar/mt/Persian-Language-Gal.pdfاب هک دندوب هدرک معا ،دندش یم هتخانش شعاد هدنگنج دنتسناوت

History

Page 3: Gal Halfon Machine Translation Seminarcs.tau.ac.il/~kfirbar/mt/Persian-Language-Gal.pdfاب هک دندوب هدرک معا ،دندش یم هتخانش شعاد هدنگنج دنتسناوت

Language Origin

Page 4: Gal Halfon Machine Translation Seminarcs.tau.ac.il/~kfirbar/mt/Persian-Language-Gal.pdfاب هک دندوب هدرک معا ،دندش یم هتخانش شعاد هدنگنج دنتسناوت

Historical Facts

Ancient Central Asia Tribes

“Arya” tribes migrated to Iran

Persian Ancient Empire

Zoroastrianism religion (6th century B.C)

Old-Mid Persian language - until 7th century A.D

Muslim Empire

Muslim Religion - 7th century

Adopted arabic alphabet

Page 5: Gal Halfon Machine Translation Seminarcs.tau.ac.il/~kfirbar/mt/Persian-Language-Gal.pdfاب هک دندوب هدرک معا ،دندش یم هتخانش شعاد هدنگنج دنتسناوت

Old Persian

Page 6: Gal Halfon Machine Translation Seminarcs.tau.ac.il/~kfirbar/mt/Persian-Language-Gal.pdfاب هک دندوب هدرک معا ،دندش یم هتخانش شعاد هدنگنج دنتسناوت

Persian Native Speakers Distribution

70 million fluent speakers

110 million total speakers

Types of Persian:

Western - Iran

Eastern - Afghanistan

Tajiki - Tajikistan

Page 7: Gal Halfon Machine Translation Seminarcs.tau.ac.il/~kfirbar/mt/Persian-Language-Gal.pdfاب هک دندوب هدرک معا ،دندش یم هتخانش شعاد هدنگنج دنتسناوت

Persian Language

Grammar is similar to Latin-origin languages

Arabic-based alphabet

Influence:

Arabic - 24% of the everyday vocabulary are of Arab origin.

Little Turkish/Mongolian

Page 8: Gal Halfon Machine Translation Seminarcs.tau.ac.il/~kfirbar/mt/Persian-Language-Gal.pdfاب هک دندوب هدرک معا ،دندش یم هتخانش شعاد هدنگنج دنتسناوت

Major Modifications from Arabic Alphabet

Addition of 4 letters

teh Marbuta ( ة ) changes to heh ( ه )

5 major vowels - (a, i, e, o, u)

Page 9: Gal Halfon Machine Translation Seminarcs.tau.ac.il/~kfirbar/mt/Persian-Language-Gal.pdfاب هک دندوب هدرک معا ،دندش یم هتخانش شعاد هدنگنج دنتسناوت

Persian Grammar

SOV word order

The main clause precedes a subordinate clause

Agglutination - Stringing morphemes together

Page 10: Gal Halfon Machine Translation Seminarcs.tau.ac.il/~kfirbar/mt/Persian-Language-Gal.pdfاب هک دندوب هدرک معا ،دندش یم هتخانش شعاد هدنگنج دنتسناوت

Nouns

Nouns

Persian nouns have no grammatical gender

nouns can be made plural using a separate word ‹hā› (ها)

pluralize using the suffix ‹-ān› (ان)

Accusative case using the word ‹rā› (را) after the word

Page 11: Gal Halfon Machine Translation Seminarcs.tau.ac.il/~kfirbar/mt/Persian-Language-Gal.pdfاب هک دندوب هدرک معا ،دندش یم هتخانش شعاد هدنگنج دنتسناوت

Adjective

Adjectives

Typically followed the noun using Ezāfe construct (-e- or -i-).

barādar-e-bozorg = “Big Brother”

Sometimes can be before the noun.

khosh-bakht = good-luck

Example sentence

سگ من از گربه‌ی تو کوچک‌تر است

Sag-e man az gorbe-ye to kuchektar ast; My dog is smaller than your cat.

Page 12: Gal Halfon Machine Translation Seminarcs.tau.ac.il/~kfirbar/mt/Persian-Language-Gal.pdfاب هک دندوب هدرک معا ،دندش یم هتخانش شعاد هدنگنج دنتسناوت

Verbs

Morpheme pattern:

( NEG - DUR or SUBJ / IMPER ) - root - PAST - PERSON - ACC-ENCLITIC

Tenses -

past, perfect, pluperfect, present, future

Very often use with compound verb:

”To do“ = کردن

”Conversation“ = گفتگو

”To speak“ = گفتگو کردن

Page 13: Gal Halfon Machine Translation Seminarcs.tau.ac.il/~kfirbar/mt/Persian-Language-Gal.pdfاب هک دندوب هدرک معا ،دندش یم هتخانش شعاد هدنگنج دنتسناوت

Translation QualityUp to date research (2013) made in Colombia University:

Morphological analysis improves results significantly

Word order should still be improved

Example:

Input: از فردا نمی ترسم چراکه دیروز را دیده ام وامروز را دوست دارم

Reference: i ’m not afraid of tomorrow because i have seen yesterday and i like today

Translation: from tomorrow , not afraid because i have seen yesterday and today i love

Page 14: Gal Halfon Machine Translation Seminarcs.tau.ac.il/~kfirbar/mt/Persian-Language-Gal.pdfاب هک دندوب هدرک معا ،دندش یم هتخانش شعاد هدنگنج دنتسناوت

Example - Google Translate امریکا می‌گوید که برخالف ادعای گروه موسوم به "دولت اسالمی"، هواپیمای اردنی با شلیک آنها

.سرنگون نشده است

روز چهارشنبه این هواپیما در قلمروی تحت نفوذ این گروه شبه نظامی گم شد و خلبانش به اسارت

.آنها در آمد

شبه نظامیان "دولت اسالمی" که پیشتر به نامشدند، اعالم کرده بودند که با داعش شناخته می‌

را F-16 موشک‌های ردیاب توانستند جنگنده.سرنگون کنند

گویند "شواهد به وضوح" ها می‌ در مقابل آمریکایی‌.نشان می‌دهد که این ادعا صحیح نیست

America says that contrary to the claims of so-called "Islamic state", Jordanian aircraft to shoot them down yet.

On Wednesday, the aircraft was lost in the sphere of influence of the militant group Khlbansh they were captured.

Militant "Islamic state" that previously were known as the Dash, had announced that the tracer missiles could overthrow F-16 fighter.

The Americans said "the evidence clearly" shows that this claim is not true.

Page 15: Gal Halfon Machine Translation Seminarcs.tau.ac.il/~kfirbar/mt/Persian-Language-Gal.pdfاب هک دندوب هدرک معا ،دندش یم هتخانش شعاد هدنگنج دنتسناوت

Translation Tools

Translation preferences: Limited parallel corpuses, high morphology

Corpuses:

TEP: Tehran English-Persian Parallel Corpus

El Kholy et al., 2013a; El Kholy et al., 2013b - 160,000 sentences

Analysis Tools

PerStem: (Jadidinejad et al., 2010) - morphological Segmenter

VerbStem: verb analyzer tool (Bijankhan et al., 2011)

Page 16: Gal Halfon Machine Translation Seminarcs.tau.ac.il/~kfirbar/mt/Persian-Language-Gal.pdfاب هک دندوب هدرک معا ،دندش یم هتخانش شعاد هدنگنج دنتسناوت

References

http://en.wikipedia.org/wiki/Persian_language#Grammar

http://en.wikipedia.org/wiki/Persian_grammar

Improved Language Modeling for English-Persian Statistical MachineTranslation: http://www.aclweb.org/anthology/W10-3810

http://www.cs.columbia.edu/~rasooli/papers/ijcnlp13.pdf