computational linguistics - infitt

33

Upload: others

Post on 30-Nov-2021

11 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Computational Linguistics - INFITT
Page 2: Computational Linguistics - INFITT

163

Computational Linguistics

(கணினி ெமாழியிய )

Page 3: Computational Linguistics - INFITT

164

Page 4: Computational Linguistics - INFITT

165

A Package for Learning Negations in Tamil

Dr. G. Singaravelu

Reader, UGC-Academic Staff College,&B.Ed Coordinator

Bharathiar University, Coimbatore-641 046.

Introduction

Tamil is an important language to learn different cultures of Tamilnadu and India. Teaching of Tamil

is difficult to the teachers of Tamil due to the more letters in Tamil and learning Tamil grammar is

difficult to the learners of primary and upper primary schools due to ineffective methods of teaching.

Grammar is indispensable for learning any language. Maximum teaching methods of grammar is

adopting formal grammar. Less concentration is transacted in the class room of the Tamil language in

functional grammar. Conventional methods of teaching of functional grammar are ineffective and it

lead the learners towards aversion in learning grammar. Negations have unique place in

communicative competency. Conventional methods discourage the students to learn negation

effectively at school level. Students are able to use it inappropriately. This study investigates the

effectiveness of learning package of Negations in Tamil among the learners of standard VI.

Need of the study

Conventional methods are unable to create the appropriate learning atmosphere for scoring more

marks in Tamil grammar of the mother tongue of the learners and also for the learners of the second

language as Tamil. Traditional methods did not help the learners to learn Negations in Tamil. It was a

challenging task to the learners of standard VI. An innovative Learning package can be encouraged

the young learners to learn more negations in limited time. Hence the researcher endeavoured to

prepare a learning package for acquiring more negations in Tamil for the young learners.

Objectives

The researcher has framed the following objectives of the study:

1. To find out the problems of conventional methods in learning Negations in Tamil at

Government school.

2. To find out the problems of conventional methods in learning Negations in Tamil at Aided

school.

3. To find out the significant difference in achievement mean score between the pre test of

control group and the post test of control group in Government school.

4. To find out the significant difference in achievement mean score between the pre test of

control group and the post test of control group in Aided school.

5. To find out the significant difference in achievement mean score between the pre test of

Experimental group and the post test of Experimental group in Government school.

Page 5: Computational Linguistics - INFITT

166

6. To find out the significant difference in achievement mean score between the pre test of

Experimental group and the post test of Experimental group in Aided school.

7. To find out the impact of innovative Learning package in Negations of Tamil at standard VI

in Government school and Aided school.

Hypotheses

The research has framed the following hypotheses

1. Students of standard VI have problems of conventional methods in learning Negations in

Tamil at Government school.

2. Students of standard VI have problems of conventional methods in learning Negations in

Tamil at Aided school.

3. There is no significant difference in achievement mean score between the pre test of control

group and the post test of control group in Government school.

4. There is no significant difference in achievement mean score between the pre test of control

group and the post test of control group in Aided school.

5. There is no significant difference in achievement mean score between the pre test of

Experimental group and the post test of Experimental group in Government school.

6. There is no significant difference in achievement mean score between the pre test of

Experimental group and the post test of Experimental group in Aided school.

7. To find out the impact of innovative Learning package in Negations of Tamil at standard VI

in Government school and Aided school.

Method of study

Methodology: Equivalent group Experimental method was adopted in the study.

Sample selected for the study

Sixty pupils of studying in standard VI from Government Higher Secondary school,

Kalveeranpalayam, Coimbatore and another Sixty pupils of studying in standard VI from

Maruthamalai Devasdanam Subramanian swamy Higher secondary school, Vadavalli ,Coimbatore

were selected as sample for the study. Sixty students were considered as Controlled group and

another Sixty were considered as Experimental group.

Instrumentation

Researcher’s self-made achievement test was used as a tool for the study.

Reliability of the tool

Test- retest method was used for the study .The co-efficient correlation was found 0.85 in the tool

through test-retest method.

Page 6: Computational Linguistics - INFITT

167

Validity of the tool

Content validity was established for the test through expert suggestions. Hence reliability and validity

were properly established for the study.

Statistical Technique

Percentage, mean, SD and t test were adopted in the study for analyzing the tabulated data.

Procedures of the study:

Phase 1: Assessing the problems of the students in acquiring competency in learning Tamil

Negations for both schools of Govt and Aided in existing methods through administering pretest.

Phase 2 Pre-production stage..

Phase 3: Production stage.

Phase 4: Preparation of package

Phase 5: Execution of activities through using the learning package

Phase 6: Administrating pretest and post test to the control group and tabulated the scores.

Phase7: Administrating pre test and post test to the Experimental group and tabulated the scores.

Phase 8: Finding the effectiveness of the Package for Negation.

Data collection:

The researcher administered a diagnostic test to identify the problems of the students in learning

Tamil with permission of Principals of the schools. Pretest –Treatment-Posttest was used in the study.

Hypothesis testing

Hypothesis 1&2

1. Students of standard VI have problems of conventional methods in learning Negations in

Tamil at Government school.

2. Students of standard VI have problems of conventional methods in learning Negations in

Tamil at Aided school.

In the pre-test, students of Govt schools and Aided schools score 19%, 28% marks respectively in

acquiring Negation in Tamil through conventional method and the Experimental group students

score 49 %, 56% marks respectively..It shows the problems of acquisition of Negation in Tamil

through conventional methods among the students.

Hypothesis 3:

There is no significant difference in achievement mean score between the pre test of control group and

the post test of control group in Government school.

Page 7: Computational Linguistics - INFITT

168

The calculated t value is (0.08) less than table value (1.96). Hence null hypothesis is accepted at 0.05

levels. Hence there is no significant difference between the pre test of control group and post test of

control group in achievement mean scores of the teachers in learning Tamil Negations in Govt school.

Hypothesis 4:

There is no significant difference in achievement mean score between the pre test of control group and

the post test of control group in Private school.

The calculated t value is (1.85) less than table value (1.96). Hence null hypothesis is accepted at 0.05

levels. Hence there is no significant difference between the pre test of control group and post test of

control group in achievement mean scores of the teachers in learning Tamil Negations in private

school.

Hypothesis 5:

There is no significant difference in achievement mean score between the pre test of Experimental

group and the post test of Experimental group in Government school.

Stages N Mean S.D. df t- value Result

Pretest control

group 30 10.63 3.23

Post test control

group group 30 10.78 3.21

58 0.08 insignificant

Stages N Mean S.D. df t- value Result

Pretest control group 30 10.53 3.23

Post test control group

group 30 10.28 3.28

58 0.29 insignificant

Stages N Mean S.D. df t- value Result

Pre test

Experimenta

l group

30 10.62 3.23

Post test

Experimenta

l group

30 16.56 3.21

58 7.14 significant

Page 8: Computational Linguistics - INFITT

169

Achievement mean scores between pre test of Experimental and posttest of Experimental group.

The calculated t value is (7.14) greater than table value (1.96). Hence null hypothesis is rejected at 0.05

levels. Hence there is significant difference between the pretest of experimental group and post test of

experimental group in achievement mean scores of the students in learning Negation in Tamil.

Hypothesis 6:

There is no significant difference in achievement mean score between the pre test of Experimental

group and the post test of Experimental group in Aided school.

Achievement mean scores between pretest of experimental group and posttest of Experimental

group.

The calculated‘t’ value is (7.08) greater than table value (1.96). Hence null hypothesis is rejected at 0.05

levels. Hence there is significant difference in achievement mean score between the pre test of

Experimental group and post test experimental group in achievement mean scores of the students in

Tamil Negation.

Hypothesis 7.

Learning package is more effective than conventional learning in learning Negation in Tamil

The above two tables prove and confirm the Learning Package is more effective than traditional

approaches in developing Negation in Tamil.. Mean scores in pre-test of Experimental group is

(10.62 and13.70) greater than the mean score of post test of Experimental group by using Learning

Package in acquiring Negation in Tamil (16.56 and 19.65).

Findings:

1. Students of standard VI have problems of conventional methods in learning Negations in

Tamil at Government school.

2. Students of standard VI have problems of conventional methods in learning Negations in

Tamil at Aided school..

3. There is no significant difference in achievement mean score between the pre test of control

group and the post test of control group in Government school.

Stages N Mean S.D. df t- value Level of significance

Pretest

Experimenta

l group

30 13.70 3.30

Post test

Experimenta

l group

30 19.65 3.20

58 7.08 P>0.05

Page 9: Computational Linguistics - INFITT

170

4 There is no significant difference in achievement mean score between the pre test of control

group and the post test of control group in Aided school.

5. There is significant difference in achievement mean score between the pre test of

Experimental group and the post test of Experimental group in Government school.

6. There is significant difference in achievement mean score between the pre test of

Experimental group and the post test of Experimental group in Aided school.

7. Learning package in Negations of Tamil is more effective than conventional methods in

learning Tamil Negation at standard VI in Government school and Aided school.

Educational Implications:

1. Learning package can be prepared for other subjects also.

2. It can be encouraged to implement to use in adult education

3. It may be implemented in Higher education

Conclusion

The study reveals that the students have problems in learning Negation in Tamil by using traditional

approaches. Learning Package is more effective in Learning Tamil Negation. Hence it will be more

supportive to promote the learners in learning Tamil.

References

� Vasu Renganathan(2009) Enhancing the process of learning Tamil with synchronized Media,

Tamil internet conference, INFILL: Germany.

� Sampath. K, Paneerselvem. A and Santhanam. S (1998) Introduction to Educational

technology, sterling publication Pvt Lit. Pg: no:103

� INFIT (2009) Conference papers, Tamil internet 2009, University of Cologne: Germany

� INFIT (2010) Conference papers , Tamil internet 2010, Coimbatore.

Page 10: Computational Linguistics - INFITT

171

Morphology based Factored Statistical Machine

Translation

(F-SMT) system from English to Tamil

Anand Kumar M1, Dhanalakshmi V1, Soman K P1, Rajendran S2 1Computational Engineering and Networking

Amrita Vishwa Vidyapeetham Coimbatore, India {m_anandkumar,v_dhanalakshmi, kp_soman} @cb.amrita.edu

2Tamil University, Thanjavur, India

Abstract

This paper presents a novel preprocessing methodology in factorized Statistical Machine Translation

system from English to Tamil language. SMT system considers the translation problem as a machine

learning problem. Statistical machine translation system for morphologically rich languages is a

challenging task. Moreover it is very complex for the different word order language pair. So a simple

SMT alone would not give good result for English to Tamil, which differs in morphological structure

and word order. A simple SMT system performs only at the lexical level mapping. Because of the

highly rich morphological structure of Tamil language, a simple lexical mapping alone will suffer a

lacuna in collecting all the morphological and syntactic information from the English language. The

proposed SMT system is based on factored translation models. The factored SMT uses machine

learning techniques to automatically learn translation patterns from factored corpora. Using the

learned model FSMT predicts the output factors for the given input factors. Using the Tamil

morphological generator the factored output is synthesized.

Introduction

Statistical approach to machine translation learns translation patterns directly from training sentences

and generalized them to handle new sentences. When translating from simple morphological

language to the rich morphological language, the SMT baseline system will not generate the word

forms that are not present in the training corpora. For training the SMT system, both monolingual and

bilingual sentence-aligned parallel corpora of significant size are essential. The corpus size decides the

accuracy of machine translation. The limited availability of parallel corpora for Tamil language and

high inflectional variation increases a data sparseness problem for phrase-based SMT. To reduce the

data sparseness, the words are split into lemma and their inflected forms based on their part of

speech. Factored translation models [Koehn and Hoang, 2007] allow the integration of the linguistic

information into a phrase-based translation model. These linguistical features are treated as separate

tokens during the factored training process.

Page 11: Computational Linguistics - INFITT

172

P(T|E) = P(T) P(E|T) / P(E)

Tˆ = argmax P(T) P(E|T)

T

SMT works on the above equation. Where T represents Tamil language and E represents English

language. We have to find the best Tamil translation sentence (Tˆ) using P(T) and P(E|T), Where P(T)

is given by the Language model and P(E|T) is given by the translation model.

Factored SMT for Tamil

Tamil language is morphologically rich language with free word order of SOV pattern. English

language is morphologically simple with the word order of SVO pattern. The baseline SMT would not

perform well for the languages with different word order and disparate morphological structure. For

resolving this, we go for factored SMT system (F-SMT). A factored model, which is a subtype of SMT

[Koehn and Hoang, 2007], will allow multiple levels of representation of the word from the most

specific level to more general levels of analysis such as lemma, part-of-speech and morphological

features. A preprocessing module is externally attached to the SMT system for Factored SMT.

The preprocessing module for source language includes three stages, which are reordering,

factorization and compounding. In reordering stage the source language sentence is syntactically

reordered according to the Tamil language syntax using reordering rules. After reordering, the

English words are factored into lemma and other morphological features. A compounding process for

English language is then followed, in which the various function words are removed from the

reordered sentence and attached as a morphological factor to the corresponding content word. This

reduces the length of English sentence. Now the representation of the source syntax is closely related

to the target language syntax. This decreases the complexity in alignment, which is also a key problem

in SMT from English to Tamil language.

Parallel corpora and monolingual corpora are used to train the statistical translation models. Parallel

corpora contains factored English sentences (using Stanford parser) along with its factored Tamil

translated sentences (using Tamil POS Tagger [V Dhanalakshmi et.al, 2009] and Morphological

analyzer [M Anand kumar et.al,2009]. Factorized monolingual corpus is used in the Language model.

The parsed source language is reordered according to the target language structure using the syntax

based reordering system. A compounding process for English language is then followed, in which the

various function words are removed from the reordered sentence and attached as a morphological

factor to the corresponding content word. This reduces the length of English sentence. Now the

representation of the source syntax is closely related to the target language syntax. This decreases the

complexity in alignment, which is also a key problem in SMT from English to Tamil language.

The factored SMT system’s output is post processed, where the Tamil Morphological generator is

pipelined to generate the target sentence. Figure.1 shows the architecture of the prototype factored

SMT system from English to Tamil.

Page 12: Computational Linguistics - INFITT

173

Figure.1 Architecture of the prototype factored SMT system from English to Tamil

Morphological models for Tamil language

Morphological models for target language Tamil are used in preprocessing as well as post processing

stage. In preprocessing, Tamil POS tagger and Morphological analyzer are used to factorize the Tamil

parallel corpus and monolingual corpus. Morphological generator is used in the post processing stage

to generate the Tamil words from Factored SMT output.

Tamil POS tagger

Parts of speech (POS) tagging means labeling grammatical classes i.e. assigning parts of speech tags to

each and every word of the given input sentence. POS tagging for Tamil is done using SVM based

machine learning tool [V Dhanalakshmi et.al, 2009], which make the task simple and efficient. The

SVM Tool[] is used for training the tagged sentences and tagging the untagged sentences. In this

method, one requires Part of speech tagged corpus to create a trained model.

Tamil Morphological Analyzer

The Tamil morphological analyzer is based on sequence labeling and training by kernel methods. It

captures the non-linear relationships and various morphological features of natural language in a

better and simpler way. In this machine learning approach two training models are created for

morphological analyzer. These two models are represented as Model-I and Model-II. First model is

trained using the sequence of input characters and their corresponding output labels. This trained

model-I is used for finding the morpheme boundaries [M Anand kumar et.al, 2009].

Second model is trained using sequence of morphemes and their grammatical categories. This trained

Model-II is used for assigning grammatical classes to each morpheme. The SVMTool is used for

training the data. Generally SVMTool is developed for POS tagging but here this tool is used in

morphological analysis.

Tamil Morphological Generator

The developed morphological generator receives an input in the form of lemma+word_class+Morpho-

lexical Information, where lemma specifies the lemma of the word-form to be generated, word_class

Page 13: Computational Linguistics - INFITT

174

specifies the grammatical category (POS category) and Morpho-lexical Information specifies the type

of inflection. The morphological generator system needs to handle three major things; first one is the

lemma part, then the word class and finally the morpho lexical information. By the way the generator

is implemented makes it distinct from other morphological generator[M Anand kumar et.al,2010].

The input which is in Unicode format is first Romanized and then the paradigm number is identified

by end characters. For sake of easy computation we are using romanized form. A Perl program has

been written for identifying paradigm number, which is referred as column index. The morpho-lexical

information of the required word class is given by the user as input. From the morpho-lexicon

information list the index number of the corresponding input is identified, this is referred as row

index. A verb and noun suffix tables are used in this system. Using the word class specified by the

user the system uses the corresponding suffix table. In this two-dimensional suffix table rows are

morpho-lexical information index and columns are paradigm numbers.

Conclusion

In this paper, we have presented a morphology based Factored SMT for English to Tamil language.

The morphology based Factored SMT improves the performance of translation system for

morphologically rich language and also it drastically reduces the training corpus size. So this model is

suitable for languages which have less parallel corpus. Tamil morphological models are used to create

a factorized parallel corpus. Source language reordering module captures structural difference

between source and target language and reorder it accordingly. Compounding module converts the

source language structure to fit into the target language structure. Initial results obtained from the

Factored SMT are encouraging.

References

� Philipp Koehn and Hieu Hoang (2007), “Factored Translation Models”, Conference on

Empirical Methods in Natural Language Processing (EMNLP), Prague, Czech Republic, June

2007.

� V Dhanalakshmi, M Anand kumar, K P Soman, S Rajendran (2009),“POS Tagger and Chunker

for Tamil language”, Proceedings of Tamil Internet Conference 2009, Cologne, Germany,

October 2009.

� M Anand kumar, V Dhanalakshmi, K P Soman, S Rajendran (2009),“A Novel Apporach For

Tamil Morphological Analyzer”, Proceedings of Tamil Internet Conference 2009 , Cologne,

Germany, Page no: 23-35, October 2009.

� M Anand kumar, V Dhanalakshmi, R U Rekha, K P Soman, S Rajendran (2010), “Morphological

Generator for Tamil a new data driven approach”, Proceedings of Tamil Internet Conference

2010, Coimbatore, India, 2010.

� Jes´us Gim´enez and Llu´ıs M`arquez.(2004), “SVMTool: A general pos tagger generator based

on support vector machines”, Proceedings of the 4th LREC Conference, 2004.

� Fishel,M (2009), “Deeper than words : Morph-based Alignment for Statistical Machine

Translation ”, Proceedings of the conference of the pacific Association for Computational

Computational Linguistics (PacLing 2009 ) Sapporo, Japan.

Page 14: Computational Linguistics - INFITT

175

Tamil Shallow Parser using Machine Learning Approach

Dhanalakshmi V1, Anand Kumar M1, Soman K P1 and Rajendran S2

1Computational Engineering and Networking

Amrita Vishwa Vidyapeetham Coimbatore, India

{m_anandkumar,v_dhanalakshmi, kp_soman} @cb.amrita.edu

2Tamil University, Thanjavur, India

Abstract

This paper presents the Shallow Parser for Tamil using machine learning approach. Tamil Shallow

Parser is an important module in Machine Translation from Tamil to any other language. It is also a

key component in all NLP applications. It is used to understand natural language by machine and also

useful for second language learners. The Tamil Shallow Parser was developed using the new and state

of the art machine learning approach. The POS Tagger, Chunker, Morphological Analyzer and

Dependency Parser were built for implementing the Tamil Shallow Parser. The above modules gives

an encouraging result.

Introduction

Partial or Shallow Parsing is the task of recovering a limited amount of syntactic information from a

natural language sentence. A full parser often provides more information than needed and sometimes

it may also give less information. For example, in Information Retrieval, it may be enough to find

simple NPs (Noun Phrases) and VPs (Verb Phrases). In Information Extraction, Summary Generation,

and Question Answering System, information about special syntactico-semantic relations such as

subject, object, location, time, etc, are needed than elaborate configurational syntactic analyses. In full

parsing, grammar and search strategies are used to assign a complete syntactic structure to sentences.

The main problem here is to select the most possible syntactic analysis to be obtained from thousands

of possible analyses a typical parser with a sophisticated grammar may return. This complexity of the

task makes machine learning an attractive option in comparison to the handcrafted rules.

Methodology

Machine learning approach is applied here to develop the shallow parser for Tamil. Part of speech

tagger for Tamil has been generated using Support Vector Machine approach [Dhanalakshmi V e.tal.,

2009]. A novel approach using machine learning has been built for developing morphological analyzer

for Tamil [Anand kumar M e.tal., 2009]. Tamil Chunker has been developed using CRF++ tool

[Dhanalakshmi V e.tal., 2009]. And finally, Tamil Dependency parser, which is used to find syntactico-

semantic relations such as subject, object, location, time, etc, is built using MALT Parser

[Dhanalakshmi V e.tal., 2011].

Page 15: Computational Linguistics - INFITT

176

General Framework and Modules

• The general block diagram for Tamil Shallow parser is given in Figure 1.

Figure.1. General Framework for Tamil Shallow Parser

• Tamil Part-of-Speech Tagger [Dhanalakshmi V e.tal., 2009]: The Part of Speech (POS) tagging is

the process of labeling a part of speech or other lexical class marker (noun, verb, adjective, etc.)

to each and every word in a sentence. POS tagger was developed for Tamil language using

SVMTool [Jes´us Gim´enez and Llu´ıs M`arquez, 2004].

• Tamil Morphological Analyzer [Anand Kumar M e.tal., 2009]: Morphological Analysis is the

process of breaking down morphologically complex words into their constituent morphemes. It

is the primary step for word formation analysis of any language. Morphological Analyzer was

developed using a novel machine learning approach and was implemented using SVMTool.

• Tamil Chunker [Dhanalakshmi V e.tal., 2009]: Chunks are normally taken to be non recursive

correlated group of words. Chunker divides a sentence into its major-non-overlapping phrases

POS Tagging

Chunking Morphological

Analyzer

Tokenization

Format Conversion

MALT

Parser for

Relation

Input

Sentenc

Shallow

Parsed

Page 16: Computational Linguistics - INFITT

177

(noun phrase, verb phrase, etc.) and attaches a label to each chunk. Chunker for Tamil language

was developed using CRF++ Tool[Sha F and Pereira F, 2003].

• Tamil Dependency Parser for Relation finding [Dhanalakshmi V e.tal., 2011]: Given the POS

tag, Morphological information and chunks in a sentence, this decides which relations they

have with the main verb (subject, object, location, etc.). Dependency parser was developed for

Tamil language using Malt Parser tool [Joakim Nivre and Johan Hall, 2005].

Dependency Parsing using Malt Parser

MALT Parser Tool is used for dependency parsing, which uses supervised machine learning

algorithm. Using this tool dependency relations and position of the head are obtained for Tamil

sentence. There are 10 tuples used in the training data that can be user define. For Tamil dependency

parsing, the following features are defined and others are set as NULL and are mentioned as ‘_’ in the

training data format.

WordID: Position of each word in the input sentence.

Words: Each word in the input sentence.

CPos Tag and Pos Tag: Defines the Parts Of Speech of each word.

Head: The position of the parent of each word.

Lemma: The lemma of the word.

Morph Features The Morphological features of the word.

Chunk The chunk information of the word.

Dependency Relation: The terminology given for each parent – child relation.

Sample Training Data

1 அவ _ <PRP> <PRP> 8 <N.SUB> _ _

2 ைடகைள _ <NN> <NN> 3 <D.OBJ> _ _

3 வா கி _ <VNAV> <VNAV> 4 <ATT> _ _

4 சைம _ <VNAV> <VNAV> 6 <VNAV.MOD>_ _

5 த _ <NN> <NN> 6 <NST.MOD> _ _

6 ேபா _ <VNAV> <VNAV> 8 <V.COMP> _ _

7 உன _ <PRP> <PRP> 8 <I.OBJ> _ _

8 ெகா கி றா _ <VF> <VF> 0 <ROOT> _ _

9 . <DOT> <DOT> 8 <SYM> _ _

For Tamil language, a corpus of three thousand sentences is annotated with dependency relations and

labels using the customized tag set (Table.1). The corpus is trained using the MALT Parser tool which

generates a model. Using this model the new input sentences are tested.

Page 17: Computational Linguistics - INFITT

178

S.No Tags Description S.No Tags Description

1 ROOT Head word 5 NST-MOD Spatial Time

Modifier

2 N-SUB Subject 6 SYM Symbols

3 D-OBJ Direct Object 7 X Others

4 I-OBJ Indirect Object

Table.1 Shallow Dependency Tagset

Application of Shallow Parser

Shallow parsers were used in Verbmobil project [Wahlster W, 2000], to add robustness to a large

speech-to-speech translation system. Shallow parsers are also typically used to reduce the search space

for full-blown, `deep' parsers [Collins, 1999]. Yet another application of shallow parsing is question-

answering on the World Wide Web, where there is a need to efficiently process large quantities of ill-

formed documents [Buchholz and Daelemans, 2001] and more generally, all text mining applications,

e.g. in biology [Sekimizu et al., 1998].

The developed Tamil Shallow Parser can be used to develop the following systems for Tamil

language.

• Information extraction and retrieval system for Tamil.

• Simple Tamil Machine Translation system.

• Tamil Grammar checker.

• Automatic Tamil Sentence Structure Analyzer.

• Language based educational exercises for Tamil language learners.

Conclusion

Shallow Parsing has proved to be a useful technology for written and spoken language domains. Full

parsing is expensive, and is not very robust. Partial parsing has proved to be much faster and more

robust. Dependency parser is better suited than phrase structure parser for languages with free or

flexible word order like Tamil. Fully functional Shallow Parser for Tamil gives reliable results. The

Shallow Parser system developed for Tamil is an important tool for Machine Translation between

Tamil and other languages.

References

� Anand kumar M, Dhanalakshmi V , Soman K P and Rajendran S (2009) , “A Novel Approach

for Tamil Morphological Analyzer”, Proceedings of the 8th Tamil Internet Conference 2009,

Cologne, Germany.

� Buchholz Sabine and Daelemans Walter (2001), “Complex Answers: A Case Study using a

WWW Question Answering System”, Natural Language Engineering.

� Collins M (1999), “Head-Driven Statistical Models for Natural Language Parsing”, Ph.D

Thesis, University of Pennsylvania.

Page 18: Computational Linguistics - INFITT

179

� Dhanalakshmi V, Anand Kumar M, Vijaya M S, Loganathan R, Soman K P, Rajendran S

(2008), “Tamil Part-of-Speech tagger based on SVMTool”, Proceedings of the COLIPS

International Conference on natural language processing(IALP), Chiang Mai, Thailand.

� Dhanalakshmi V, Anand kumar M, Soman K P and Rajendran S (2009), “POS Tagger and

Chunker for Tamil Language”, Proceedings of the 8th Tamil Internet Conference, Cologne,

Germany.

� Dhanalakshmi V, Anand Kumar M, Rekha R U, Soman K.P and Rajendran S (2011), “Data

driven Dependency Parser for Tamil and Malayalam” NCILC-2011, Cochin University of

Science & Technology, India.

� Jes´us Gim´enez and Llu´ıs M`arquez.(2004) SVMTool: A general pos tagger generator based on

support vector machines.In Proceedings of the 4th LREC Conference, 2004.

� Joakim Nivre and Johan Hall, MaltParser: A language-independent system for data-driven

dependency parsing. In Proceedings of the Fourth Workshop on Treebanks and Linguistic

Theories (TLT), 2005.

� Sekimizu T, Park H and Tsujii J (1998), “Identifying the interaction between genes and gene

products based on frequently seen verbs in Medline abstracts”, Genome Informatics,

Universal Academy Press.

� Sha F and Pereira F (2003), “Shallow Parsing with Conditional Random Fields”, Proceedings

of Human Language Technology Coference’2003, Canada.

� Wahlster W (2000), “VERBMOBIL: Foundations of Speech-to-Speech Translation”, Springer-

Verlag.

Page 19: Computational Linguistics - INFITT

180

கணினிவழி தமி ெமாழியா வி ெபா மய ககணினிவழி தமி ெமாழியா வி ெபா மய ககணினிவழி தமி ெமாழியா வி ெபா மய ககணினிவழி தமி ெமாழியா வி ெபா மய க

Ambiguities in Computer Assisted Tamil Language Processing

இலஇலஇலஇல. தரதரதரதர ைண ேபராசிாிய , ஒ கிைண பாள ,

கணினி தமி க வி தமி ேபராய , SRM ப கைல கழக . மி ன ச : [email protected]

ைரைரைரைர

கணினியி தமி ெமாழியி பய பா ெப கி ள . தமி ெமாழியி வள சி கணினியி ப களி தவி க யாத ஒ றாகிவி ட . ெமாழி ஆ க வியாக கணினிைய பய ப தி வ கிற நிைலயி தமி ெமாழி தர கைள அத ஓ ஒ கைம ட க தரேவ ள .

அதாவ கணித அ பைடயி ெமாழியி உ ள ெமாழியிய கைள கணினி ஏ ற வைகயி மா றி தரேவ ள . இ தைகய வழி ைறகைள ெகா பேத கணினி ெமாழியிய எ பதா . ெமாழி ெசய ப வதி உ ள ஒ ைறயி ெதா தா இல கண . இ தைகய ஒ ைற ந ன, ெதாழி ப வள சிகளினா ெமாழி உலகமயமா க ழ னா சிைத மா ப வ கிற . ெமாழிைய இ தைகய சிைத களி மீ ெட க ெமாழியிய

கைள ைறயாக க , பய ப தேவ ய க டாய ஏ ப ள .

ெபா மய க தமி ெமாழி பய பா உ வா கி ற நிைல பா கைள ,கணினிவழி ஆ ெச ேபா ஏ ப கிற ெமாழியைம சி க கைள ,அவ ைற தவி பத கான

வழி ைறகைள , ெமாழியிய வைக பா ெநறி ைறகைள எ வதாக இ க ைர அைமகிற .

இய ைகெமாழியாஇய ைகெமாழியாஇய ைகெமாழியாஇய ைகெமாழியா ; கணினிெமாழியியகணினிெமாழியியகணினிெமாழியியகணினிெமாழியிய ; ெமாழி ெதாழி பெமாழி ெதாழி பெமாழி ெதாழி பெமாழி ெதாழி ப :

தமி ெமாழியி இய கைள ெதளிவாக அறி ெகா ள ஒ யனிய , உ பனிய , ெதாடாிய

ம ெபா ைமயிய ேபா ற ெமாழியிய அறி இ றியைமயாதன.

மனித ைளைய ேபா கணினிைய இய ைகெமாழி அறிைவ ெபறைவ ,ெமாழி

ெதாட கைள ாி ெகா ள , உ வா க , ெச யைவ ய சிேய இய ைக ெமாழியா

(Natural Language Processing). இ தைகய இய ைகெமாழியா ைவ ேம ெகா ள உ வா க ப கிற

வழி ைறக ைற ப த ேம கணினி ெமாழியிய (Computational Linguistics). கணினி ெமாழியிய ைணேயா ெமாழி ேதைவயான மி ன ெமாழி க விகைள உ வா க

உத பேம ெமாழி ெதாழி ப (Language Technology). இைவ தா தமி ெம

ெபா கைள உ வா வத ேம ெகா ள ப கிற ப ைற வள சி பணிக .

கணினி தமி வள சி எ ப தமி ெதாட கைள ாி ெகா ள (Understanding), அவ ைற உ வா க (Generate) ேதைவயான தமி ெமாழி அறிைவ கணினி அளி பத காக நா ேம ெகா ளேவ ய பணிகைள றி கிற . தமி தர கைள கணினி ாி ெகா வைகயி ெகா பத ெமாழியிய விதிக ேகா பா க ைண ாிகி றன. கணினி ெமாழியிய ேகா பா கைள ெகா ெமாழியி அைம ைப, இல கண ைத கணினி ேக ற வைகயி நிர களாக )Programs(, மி ன இல கணமாக மா றி ெகா , தமி ெமாழியி ேதைவைய நிைற ெச ய ேவ . இ வா தமி ெமாழியி அைம ைப ஒ கைம ட ,

Page 20: Computational Linguistics - INFITT

181

விதிகளாக மா ேபா தமி ெமாழியி த கால எ வழ கி ப ேவ ைறக பய ப த ப வதா ெசா கைள பிாி ேபா (Parsing) வாிைச ப ேபா (Sorting)

ப ேவ ெமாழி பய பா சி க க எ கி றன. இ தைகய ெமாழி பய பா சி க களி ஒ தா ெபா மய க (Word Sense Ambiguity).

தமிழி ச திச திச திச தி பிைழதி திபிைழதி திபிைழதி திபிைழதி தி (Sandhi Checker), உ பனியஉ பனியஉ பனியஉ பனிய ப பா விப பா விப பா விப பா வி (Morphological Parser),

ெதாடாியெதாடாியெதாடாியெதாடாிய ப பா விப பா விப பா விப பா வி (Syntactic Parser), அைடவிஅைடவிஅைடவிஅைடவி (Indexing)(ெசா லைட , ெதாடரைட ,

ெபா ளைட ), தானிய கிதானிய கிதானிய கிதானிய கி ேபேபேபேப அறிவாஅறிவாஅறிவாஅறிவா (Automatic Speech Recognizer-ASR), இய திரஇய திரஇய திரஇய திர

ெமாழிெபயெமாழிெபயெமாழிெபயெமாழிெபய (Machine Translation) ஆகிய ெமாழியா ெம ெபா க விகைள உ வா

வதி இ தைகய ெபா மய க இைட றாக அைமகி றன. இவ ைற சாிெச ய, ெபா மய க

ெசா லகராதிைய உ வா கேவ ய அவசிய .

ெபா மய க ெபா மய க ெபா மய க ெபா மய க - விள கவிள கவிள கவிள க

‘Word Sense Ambiguity’ எ ஆ கில ெசா தமிழி ெதளிவி ைம, ழ ப , க மய க ,

ெபா மய க , இ ெபா ப நிைல, ெதளிவ ற நிைல என ப ேவ நிைலகளி ெபா ெகா ள ப கி ற . எனி , கணினிெமாழியிய ெபா மய க எ ேற ைகயாள ப கி ற . இ தைகய ெபா மய க கைள கைளவைத கணினிெமாழியிய ‘Word

Sense Disambiguation )WSD(’ எ வ .

ஒ ெதாட த அைம பி ெவளி ேதா ற தி உ ேதா ற தி ெவ ேவ ெபா த கிற . இ தைகய ெபா ைம மா பா ஏ ப வத ாிய சில ெசா க சில நிைலக இ ேநா க ப கி றன. தமி மரபில கண தி ஒ ெசா றி த பல ெபா , பல ெபா றி த

ஒ ெசா எ ற வைக பா காண ப கிற . அகராதி நிைலயி ஒ ெசா பல ெபா க இ கலா .ஆனா , இவ றி ெபா மய க எ ப மா ப ட .

ெபா மய க ஏ ப வத கான நிைல பா கெபா மய க ஏ ப வத கான நிைல பா கெபா மய க ஏ ப வத கான நிைல பா கெபா மய க ஏ ப வத கான நிைல பா க

தமி ெமாழி தர க உலகளாவிய ெபா ெமாழியி த ைமகைள ெகா பேதா தம ெகன

சில தனி த ைமகைள ெகா கி றன. வழ கிழ த க தா க க தமிழி

கால காலமாக நிக ெகா ளன. சாதி, ெதாழி , வ டார ேபா றைவ சா த வழ க ,

ைறசா த வழ க ேப , எ எ நிைல பா க தமி ெமாழி தரவிைன

கணினியி ஏ திற ஏ றா ேபா ஒ ைம ப வத ெபா விதிகைள உ வா

வத இைட களாக அைமகி றன.

ெசா களி இல கண வைக பா ைட நா ைமயான இல கண அறி (Grammatical

Knowledge) ம உலகிய அறிவி (Pragmatic Knowledge) ைணேயா அறிகிேறா . ஆனா

அவ ைற கணினி க த வதி ப ேவ ெமாழியைம சி க க எ கி றன. அவ ைற

சாிெச வத உ பனிய , ெதாடாிய ப பா க ைண ாிகி றன. ஒ ெதாடாி ஒ

ேம ப ட அைம க காண படலா . அதாவ றி பி ட ெதாடாி இட ெப ெசா க

த க ெவ ேவ வைகயி இைணயலா . அ ேபா ெபா மய க ஏ ப கிற .

ஆ கில தி ஒ ெபய (Transliterate) எ ேபா ைற ப த ப ட ஒ றி எ கைள பய ப தேவ . ஆனா றி , ெந , ல,ழ,ள, ற,ர ேபா ற எ க

ேவ பா களி றி பய ப த ப வதா ெபா ழ ப அவ ைற உ சாி ேபா

ெதளிவி லாத நிைல காண ப கிற . எ கா டாக, பாட எ எ வைத ‘padam’

எ எ தினா பட எ ப பத வா பி கிற . எனேவ ம களி ெபய , ஊ ெபய ,

Page 21: Computational Linguistics - INFITT

182

கவாி, ெபா களி ெபய ேபா றவ ைற தவறாக உ சாி கிற நிைல ஏ ப கிற . எனேவ, இவ ைற ஓ ஒ ைற ெகா வரேவ .

ெபா ேவ பா ேவ ைம உ க , ச தி மா ற க , ல,ழ,ள, ற,ர ேவ பா க

கிய ப கா கி றன. ேம சாாிையக , இர த ேபா றைவ ைணெச கி றன.

பாட கைள ப ேபா எளிைமயாக ாி ெகா ளேவ ெம ேநா கி ெசா கைள பிாி பதா உைரநைட எ ேபா ெபா மய வ ெதாியாம ெசா கைள பிாி பதா ெபா மய கிற .ெபா மய க ஏ படாதவா பிாி கேவ எ பைத கவன தி

ெகா ளேவ ய அவசிய .ெபா உண திற ைற த இ கால தி பாட களி எ லா ெசா கைள பிாி ேத எ த ேவ , எளிைம ப தேவ , சாதாரண ேப வழ கி இ கேவ எ ப ேபா ற த ைமக கைடபி க ப கி றன .ேம , எ நைடயி ம றவ களிடமி த கைள ேவ ப தேவ எ பத காக இ தைகய நிைல இ கி ற .

1. தனி ெசா களா ஏ ப கிற ெபா மய கதனி ெசா களா ஏ ப கிற ெபா மய கதனி ெசா களா ஏ ப கிற ெபா மய கதனி ெசா களா ஏ ப கிற ெபா மய க

சில தனி ெசா க ெதாட களி பய ப ேபா இ ேவ ெபா கைள த நி கி றன.

தமிழி தனி த சில ெசா கைள ெதாட களி பய ப ேபா அைவ ேதா ற தி ஒ

ேபால ெபா ளி இ ேவ நிைலகளி காண ப கி ற . ஒ ெதாடாி ேவைல எ ற ெசா காண ப கிற . அ ‘ேவைலைய ’ றி கிறதா? அ ல ‘ேவ ’ எ ஆ த ைத றி கிறதா? எ ற மய க ஏ ப கிற . ெதாட நிைலயி அத அ அ ல அத அைம த ெசா ைல ைவ ேத, இ த ெசா இைத தா றி கிற எ அறிய கிற . நா ேவைலேவைலேவைலேவைல வா கிேன .

[அவைர - அவ + ஐ அவைர ெச ], [வ ட - வ ட , தைலைய வ ட],

[காைல - கா + ஐ காைல ெபா ], [பா திர - கதா பா திர , சைமய பா திர ]

[ஆ - ஆ (River) எ (Number)], [எ ண - எ ண (Thinking) எ ண(Counting)]

ேம றி த சில ெசா க ட இர டா ேவ ைம உ வ ளதா அ ல தனி ெசா தானா எ ற ழ பேம இ த ெபா மய க தி ாிய காரணமா . இ தைகய ழ பமி றி ேவ ப வத சில இட களி ‘இ ’ சாாிைய பய ப த ப கிற .

கா + ஐ = காைத => கா + இ + ஐ = காதிைன.

கா + ஐ = காைட => கா + (இ ) + ஐ = கா ைட, கா ைன.

2. ெதாடரைம நிைலயி ஏ ப கிற ெபா மய கெதாடரைம நிைலயி ஏ ப கிற ெபா மய கெதாடரைம நிைலயி ஏ ப கிற ெபா மய கெதாடரைம நிைலயி ஏ ப கிற ெபா மய க

ஒ ெதாட அைம பி எ லா ெசா க சாியான ெபா ைளேய த நி றா அைவ ெபா ெகா ைறயி மய க ஏ ப கி றன. ‘ டா மரனி மைனவி’ எ ெதாடாி டா எ ப மர ெபயரைடயாக வ கிறதா அ ல அவ மைனவி ெபயரைடயாக வ கிறதா எ கிற ழ ப ஏ ப கிற . இ தைகய நிைலயி ேவ ைம உ மைற வ வதா டா எ பத அ , கா ளி இ எ தாததா இ தைகய

ழ ப ஏ ப கிற . இதைன அைம ெபா மய க (Structural Ambiguity) எ ெமாழியிய அறிஞ க வ . ெதாடாி றநிைலயி அகநிைலயி மா படாம ழ பமி றி இ தா அைவ எ ெகா ைறயி ழ த ெபா ளி ேவ ப கி றன.

Page 22: Computational Linguistics - INFITT

183

3. ெசா கைள பிாி ேச எ கி ற நிைலயி ஏ ப கிற ெபா ெசா கைள பிாி ேச எ கி ற நிைலயி ஏ ப கிற ெபா ெசா கைள பிாி ேச எ கி ற நிைலயி ஏ ப கிற ெபா ெசா கைள பிாி ேச எ கி ற நிைலயி ஏ ப கிற ெபா மய கமய கமய கமய க

தமிழி ேவ ெசா ட ப ேவ ப ட ஒ க இைணகி றன. அ வா இைண ேபா அவ ேளேய ஓ இைய விதி உ வாகி ற . இ வா ெசா க ட ஒ கைள இைண ேபா ெசா கைள பிாி ேச எ கி ற வழ க காண ப கி ற .

தமிழி ெமாழியிய விதி ப தனி நி ெபா தராத ைணவிைனக (Auxiliary Verb),

ஒ க (Affixes) மிதைவ ஒ க (Clitic) ேபா றவ ைற பிாி எ த டா எ பைத மீ வ ெபா மய க தி கிய காரணமா .

ெபா வாக ஒ ெசா ைல பிாி ேதா ேச ேதா எ ேபா றவ த க தி அ பைடேய மா கி ற நிைல ஏ ப கிற . எ கா டாக, அவ டேன எ ேச எ தினா with him

எ ெபா ப . அவ உடேன எ பிாி எ தினா he at once எ ெபா ப . எனேவ மிக கவன ேதா இடமறி ெபா மய க ஏ படாதவா ேச ேதா பிாி ேதா எ தேவ .

ப கைல கழக , ெதாழி ப ேபா ற சில கைல ெசா கைள பிாி எ த டா .

இ ேபால ெமாழி பய பா விதிகைள ைறயாக பய ப தினா கணினிவழி ெமாழியா ெபா மய கமி றி வாசி பத பய த .

• ைணவிைனகைணவிைனகைணவிைனகைணவிைனக விவிவிவி (வ வி , ேபா வி , ப வி , கிவி ). பபபப (பா ப , ேவதைன ப , ஆைச ப ).

இஇஇஇ (பா ெகா , ப ெகா ). இஇஇஇ ேச தி , கா , பா தி ). ெகாெகாெகாெகா

(ெதாி ெகா , பா ெகா ). ெகா ளெகா ளெகா ளெகா ள (பா ெகா ள, ேபசி ெகா ள, அறி

ெகா ள). விவிவிவி , வி டவி டவி டவி ட (பா வி , ேபசிவி , பா வி ட , ேபா வி ட ). பபபப ,

ப டப டப டப ட (அறிய ப , விள க ப , ற ப ட , ேச க ப ட ). ேவேவேவேவ (பா க

ேவ , ெச லேவ , எ தேவ ). உ ளஉ ளஉ ளஉ ள (ெதாியவ ள , பாட ப ள ).

ெகா , உ , ஆ , ேபா , வ , த , உ இ ேபா ற ஐ ப ேம ப ட ைணவிைனக

எ வழ கி ேப வழ கி காண ப கி றன. ஒ ெதாடாி ஒ ேம ப ட

ைணவிைனக இைண வ .

அவ க ப விப விப விப வி ெச றன . அவ க ப விப விப விப வி ெச றன .

பிாி எ தியதா இ வி ெதாட க கிைடேய ெபா ேவ பா ெதளிவாக ெதாிகிற .

• மிதைவ ஒமிதைவ ஒமிதைவ ஒமிதைவ ஒ தா - அைத தா , அவ தா , அ ேபா தா , அதனா தா .

� பி ெனாபி ெனாபி ெனாபி ெனா

கீகீகீகீ , ேமேமேமேம - ைறயி கீ , தைலேம . வழிவழிவழிவழி - கணினிவழி, அத வழி. விடவிடவிடவிட - அவைனவிட, ேபசியைதவிட.

� விைனவிைனவிைனவிைன வி திவி திவி திவி தி ேபாேபாேபாேபா - ெசா னேபா , பா தேபா . பபபப - அத ப , ெசா னப .

� ெபா நிைலெபா நிைலெபா நிைலெபா நிைல

கககக - அத க . காலகாலகாலகால - இைட கால , ச ககால . வரவரவரவர - ெச வர, நட வர.

Page 23: Computational Linguistics - INFITT

184

உ பனிய ெபா மய கஉ பனிய ெபா மய கஉ பனிய ெபா மய கஉ பனிய ெபா மய க

ஒ ெசா ஓ உ ப ெகா டதாகேவா அ ல அத ேம ப ட உ ப களாகேவா இ கலா .

ப ேவ உ ப களா உ வான ெசா கைள கணினிவழி ப பா ெச வ ‘உ பனிய ப பா ’ எ பதா . இத காக உ பனிய ப பா விக (Morphological Parsers) உ வா க

ப வ கி றன. இ வா உ வா ேபா ெபா மய க ெசா களி சி க க ேநா க

த கதாக உ ளன.

இய திர ெமாழிெபய பி (Machine Translation) கணினிெமாழியிய விதியான இ நிைல உ பனிய (Two Level Morphology) எ ற ெமாழி த ைம றி ஆரா வ . ஒ ெதாடாி அ நிைல (Deep Structure), றநிைல (Surface Structure) ஆகிய இர காண ப . இவ

றநிைலயி எ தவித மா பா ஏ ப வதி ைல. ஆனா , ெபா மய க ெசா க வ ேபா அகநிைலயி ழ ப ஏ ப கிற .

தமிழி காண ப ெதாட களி ேவ ெசா க தனி வி திகேள காண ப கி றன.

தனி த ெசா கைள க டறிவத அகராதிகைள பய ப தலா . ம றவ ைற உ ளீ ெச

ஆ ெச ேத ப தறிய . ேவ ெசா கைள ஒ கைள ப , ெபா மய கமி றி வைக ப வத உ பனிய ப பா அவசியமாகிற .

ெமாழியியெமாழியியெமாழியியெமாழியிய வைக பாவைக பாவைக பாவைக பா ெபா மய கெபா மய கெபா மய கெபா மய க

ெமாழியிய அ பைடயி ெபா மய க ைத, ஒ யனியஒ யனியஒ யனியஒ யனிய (Phonology), உ பனியஉ பனியஉ பனியஉ பனிய

(Morphology), ெதாடாியெதாடாியெதாடாியெதாடாிய (Syntax), ெசா ெபா ைமயியெசா ெபா ைமயியெசா ெபா ைமயியெசா ெபா ைமயிய (Semantics), கககக தாடதாடதாடதாட (Discourse)

ஆகிய நிைலகளி வைக ப தலா .

ஒ யனியஒ யனியஒ யனியஒ யனிய (ச தி) நிைலயி , ‘ேவைல ெச தா ’, ‘ேவைல ெச தா ’ எ பவ றி தலாவ

ேவைல பணிைய றி கிற , இர டாவ ேவைல க விைய றி கிற . உ பனியஉ பனியஉ பனியஉ பனிய நிைலயி ,

‘நா க தி வி ேற ’ எ ற ெதாடாி க தி எ ற ெபயைர றி கிறதா அ ல விைனைய

றி கிறதா எ பதி ழ ப ஏ ப கிற . ெதாடாியெதாடாியெதாடாியெதாடாிய நிைலயி , ‘நா இராமேனா சீைதைய

பா ேத ’ எ ற ெதாடாி இர வைகயாக ெபா ெகா ளலா . நா இராம சீைதைய

பா ேதா எ நா இராம சீைத ேச தி ேபா பா ேத எ ெபா

ப கிற . ெசா ெபா ைமெசா ெபா ைமெசா ெபா ைமெசா ெபா ைம நிைலயி , ‘ப ைச கா கறி’, ‘ப ைச ெபா ’, ‘ப ைச உட ’ ஆகிய

ெதாட களி ப ைச எ ற ெசா ேவ ப ட ெபா கைள றி நி கிற . றி எ த

ெபா ைள எ ெகா வ எ ப அத அ த ெசா ைல ெபா த . க தாடக தாடக தாடக தாட நிைலயி ,

ஏ ப கிற ெபா மய க ைத கணினி க தர யா . அவ ைற உலகிய அறிவி

(Pragmatic Knowledge) வாயிலாகேவ உணர .

ேம றி த ெபா மய க கைள தீ ைவ க ய அறிைவ - வழி ைறகைள எ வா

கணினி அளி ப றி , ப ேவ நிைலகளி ஆராய ெப கி றன.

ெபா மய க ைத தவி பத ாிய ெபா வான சில வழி ைறகெபா மய க ைத தவி பத ாிய ெபா வான சில வழி ைறகெபா மய க ைத தவி பத ாிய ெபா வான சில வழி ைறகெபா மய க ைத தவி பத ாிய ெபா வான சில வழி ைறக

கணினிவழி தமி ெதாட கைள ஆ ெச ேபா ஏ ப கிற ெபா மயக ைத நீ கி

ெபா ைள ெதளிவாக ாி ெகா வத உ ெபா யனிய மா ற க ைண ாிகி றன.

ெபா மய க ைத இல கண வைக பா வாயிலாகேவ ெதளி ப த . ெபய , விைன

அ பைடயி உ வா ெசா களாக உ பனிய , ெதாடாிய ப பா கைள ெகா

அ ெசா , வி திக ஆகியவ ைற ப தா இவ ைற சாிெச ய .

Page 24: Computational Linguistics - INFITT

185

‘அவ ெந தா வி றா ’ எ ற ெதாடாி , அவ ெந ைய தா (ெந +தா ) வி றா எ

ேவ ைம மைற நி ெபா த கிறதா? அ ல அவ ணிைய ெந தா (ெந + + +ஆ )

பிற வி றா எ ற ெபா ப கிறதா? எ ற ஐய ஏ ப கிற . இ தைகய நிைலயி ெதாடாிய

ஆ வி அ பைடயிேலேய ெதளி ெபற .

அ ெசா லா ஏ ப கிற ெபா மய க ைத வி திகைள ெகா ெதளி ெபறலா . வி திகளா

ஏ ப கிற ெபா மய க தி அ ெசா ைல ெகா ெதளி ெபறலா . எ கா டாக,

‘ப தா ’ எ ற ெசா ப எ ப ெபயராக வ ேபா ப தா எ விைனயாக

வ ேபா ப தா எ வ எ பதைன அ ெசா வாயிலாக ெபற கிற . ‘ஆ ’

எ வி தி ‘அவனா நா வ ேத ’ எ ெதாடாி ெபய பி வ ததா ேவ ைம

வி தி எ ,‘வ தா நா வ ேவ ’ எ ெதாடாி விைன பிற வ ததா ஆ எ ப

நிப தைன வி தி எ ப க டறிய கிற .

‘இ ’ எ ற ெசா இ ேவ ெபா த கி றன .அவ ைற இட ெபா அ பைடயிேலேய ேச ேதா பிாி ேதா எ த . வி ைச பி காக , வைக ப வத காக , ெபா ெதளிவி காக கா ளி ‘,’ இ எ வ க டாயமாகிற . இ ேபா ற ப ேவ ெமாழி பய பா ெநறிக தமி ெமாழி இல கண களி ெமாழியிய விதிகளி காண கிைட

கி றன.

நிைறவாகநிைறவாகநிைறவாகநிைறவாக

ெபா மய க தி கான அைட பைட காரண க , ெபா மய க ஏ ப வத ாிய நிைல பா கைள றாக ப ெமாழியிய வைக பா த த எ கா க ட

ஆராய ெப றன. ேம , ெபா மய க ைத தவி பத ாிய ெபா வான சில வழி ைறக ,

கணினிவழி தமிழா ெச ேபா ஏ ப கிற சி க க ஆராய ெப றன. ஒ ெதாடைர எ ேபா ெபய , விைன, ைணவிைன ேபா ற அ பைட ேவ பா கைள அறி ,பய ப தினா ப ேவ ெமாழி பய பா சி க க சாிெச ய ப . அைனவ ஒேரவிதமான ெமாழி பய பா ெகா ைகைய பய ப வத வழி ,கணினிவழி ெமாழியா ெச வத எளிைமயாக இ . இ ேபா ற ப ேவ ெமாழியைம கைள ைற ப த

ேவ ய க டாய ஏ ப ள எ பைத இ க ைர கா கிற .

ேத ெத க ப டேத ெத க ப டேத ெத க ப டேத ெத க ப ட ைண ப யைண ப யைண ப யைண ப ய

1. ைனவ ச .அக திய க ,தமி ெமாழி அைம பியதமி ெமாழி அைம பியதமி ெமாழி அைம பியதமி ெமாழி அைம பிய ,ெம ய ப தமிழா வக ,சித பர . 2. டா ட ெபா ேகா, (2006), இ காலஇ காலஇ காலஇ கால தமிதமிதமிதமி இல கணஇல கணஇல கணஇல கண , ெபாழி ெவளி ,ெச ைன. 3. எ .ஏ. ஃமா , (2007), அ பைடஅ பைடஅ பைடஅ பைட தமிதமிதமிதமி இல கணஇல கணஇல கணஇல கண , அைடயாள ,தி சி. 4. ேபரா. கலாநிதி அ. ச கதா , (2008), தமி ெமாழிதமி ெமாழிதமி ெமாழிதமி ெமாழி இல கணஇல கணஇல கணஇல கண இய கஇய கஇய கஇய க , நி ெச ாி

ஹ .

5. ைனவ ெச. ைவ. ச க , (2004), ெதா கா பியெதா கா பியெதா கா பியெதா கா பிய ெதாடாியெதாடாியெதாடாியெதாடாிய , உலக தமிழாரா சி நி வன .

6. ைனவ அ. தாேமாதர , ைணவிைனகைணவிைனகைணவிைனகைணவிைனக , , , ,ஆ க ைர .

7. தமிதமிதமிதமி இைணயஇைணயஇைணயஇைணய 2010, மாநா க ைரக . 8. Dr. M. Suseela, (2001), A Historical Study of Old Tamil Syntax, Tamil University.

9. Thomas Lehman, (1993), A Grammar of Modern Tamil, Pondichery Institute of Linguistics and

Culture.

Page 25: Computational Linguistics - INFITT

186

கணினியி ேராம வாிவ வ ஒ ெபயகணினியி ேராம வாிவ வ ஒ ெபயகணினியி ேராம வாிவ வ ஒ ெபயகணினியி ேராம வாிவ வ ஒ ெபய

ைனவைனவைனவைனவ இராதாஇராதாஇராதாஇராதா ெச ல பெச ல பெச ல பெச ல ப

ேபராசிாிய (ஓ ) பாரதிதாச ப கைல கழக , தி சிரா ப ளி

ேராம வாிவ வ ெபய எ ப ேராம எ கைள பய ப தி தமி உைரகைள ஒ ய வ தி எ வ ஆ . அ வா எ ேபா தமி எ க கான த பவ ஒ க கிைட காதேபா அ கமான ம ெறா ஒ யைன பய ப தி எ வதா . தமி ெமாழியி இ தைகய ய சி தியத ல. தமிழி கிைட த ெமாழிெபய ப டனா கீைத எ ப . அ சம கி த பாட கைள தமிழி ஒ ெபய ளன . தமிழி இ லாத ஒ களான ஸ,ஷ, ஜ, ஹ, ஆகியவ ைற ஒ ெபய ளேபா கிர த எ கைள பய ப தின . தமிழி இ லாத வ க எ கைள எ த எ ைற பய ப த ப ள .

பாி தாராணாய ஸா 4னா வினாசாய ச1 3 தா !

த4 மஸ தா2பனா தா2ய ஸ ப4வாமி ேக3 ெக3 !!

ேராம வாிவ வ தி தமி ப வ கைள எ வழ க பலரா ப ென காலமாக ைகயாள ப வ வதா . ஆ கில திேல க ைர எ தமிழறிஞ க தமி சிற ெபய

கைள (ஆ ெபய , ஊ ெபய தலானைவ) ெசா கைள ேராம எ தி எ கி றன . தமிழ ேக உாிய நாகாிக ப பா ெசா கைள ஒ ெபய எ கி றன . க வி நிைலயி தமிைழ ஆ கில வழி க க வி ேவா ேராம வ வி தமிைழ எ தி க றன . தமி வாிவ வ ெதாியாதவ க தமி க பி க ேராம வாிவ ைத பல பய ப தின . அவ க கியமாக, ரமா னிவ , ேபா ஆகிேயாைர றி பிடலா . ெமாழியிய அறிஞ க ேராம வாிவ வ ைத மிக அதிகமாக பய ப கி றன . ஒ சா கைள ஒ ய சா கைள கா ட ெசா கைள சா களாக கா ட பிற ெமாழி ெசா கேளா ஒ பி கா ட என ப ேவ நிைலகளி ேராம வாிவ வ ைத பய ப கி றன . அவ க றி பிட த க ேமனா டவ களாக, ரா ம ரா , கா ெவ ஆகிேயாைர

றி பிடலா . தமிழா விேல ஆ வ ைடய ெவளிநா டவ பிற திராவிட ெமாழியாரா சியாள

க தமிைழ ேராம எ தி் எ தி பய ப தின . தமிழ பிற நா களி இர , அ ல நா பர பைரக ேயறி வா வ நிைல உ ள . அவ க த தா ெமாழியா தமிைழ ந பய ப த இயலாதவ களாக உ ளன . ேபச ெதாி த அளவி அவ க எ தேவா ப கேவா பயி சி கிைட பதி ைல. அ ழ வா அவ க நம பார பாிய ப தி பாட கைள ப வ கைள தமி எ களால றி ேராம எ களாேலேய அறிகி றன . எனேவ அவ க ேராம வாிவ வ ஒ ெபய மிக ேதைவ ப கிற . சா றாக, ெமாாீஷிய ெத னா பிாி கா த ய நா களி வழிபா பாட கைள ேராம எ களி எ தி பய ப கி றன . ேமைலநா இ தியவிய ஆ வாள க ேராம எ களி எ வதி ஆ வ கா வ தன . அ கால த கால கணினி ன உ ள கால . அவ ைற தர ப த ேவ எ ற ேநா க அவ

களிைடேய 1888 களிேலேய விவாதி க ப டதாக அறிகிேறா .

ேராம எ கைள பய ப தி திராவிட ெமாழிகைள எ ைற ஏற தாழ ஒ றா பி ேத பய ப த ப ட . இ ைறய கணினி க தி ேராம

Page 26: Computational Linguistics - INFITT

187

வாிவ வ மிக ேதைவ ப ஒ . தமி இல கிய கைள பாரறிய ெச ேநா கி பல ய வ கி றன . கா டாக, ம ைர தி ட தமி இல கிய கைள ேராம வ வ

ெபய பி த கிற . ைல ராி ஆ கா கிர அெமாி க ஐேரா பிய நா களி ள அவ க ைடய லக க வைலய தி த ப யைல, ேத பா வசதி ட இ ளன. Digital Dictionaries of South India எ ற தள தி பல ெமாழி அகராதிக உ ளன. இவ றி ெசா கைள ேதட ேராம எ க பய ப த ப கி றன. தமிழி எ வத அதிக பழ கமி லாத தமிழ க ம மய ெகா கைள றிய ெதளிவி லாதவ க ேராம வாிவ வ ைத பய ப கி றன . இ வாறான ேதட வசதியாக பிெள ஆ கி வ வ க அவ றி கான சிற றி களி றி பய ப த ப கி றன. கணினியிேல தமி த ட ெச ய பயி சி இ லாதவ க த க க கைள ேராம வ வ தி எ தி அவ ைற கணினியி தமி் எ களி ெப கி றன . கணினி வழி அ சி பய ப கிற . ேத ெபாறிகளி தமி ெசா ைல ேத பவ க அகராதிகளி ெசா ைல த ெபா ேத பவ க ேராம வாிவ வ ஒேர சீராக இ க ேவ வ இ றியைமயாத .

ேராம எ களி எ தி அவ ைற தமி எ களி ெப த எ ற நிைலயி பல ெம ம க த ேபா உ வா க ப ளன. இதி தமிழி ெப உைரயி தி த க ெச ய ேவ ெம றா ஆ கில உைர ெச தி த ெவ . த ேபா தி எ ற ஒ ெம மமான இ திைரகைள உ வா கி ேம திைரயி ஆ கில கீ திைரயி தமி எ த வழி வ ள . ம ெறா ெம ம ஆதவி எ ப . இ தைகய ேராம வ வ உ ளீ ெம ம க அழகி எ ப றி பிட த க ஒ . இதி தமி எ கைள ேராம எ களி ெப வசதி உ ள . சினிமா ைறயின இதைன அதிகமாக பய ப கி றன . Universal Digital Library எ பதி களி ெபய க ேராம எ களி தமி எ களி தர ப ளன.

ேராம வ வ ெபய பி த த தி ட வ த நி வன ைல ராி ஆ கா கிர எ பதா . கியமான தமிழா நி வன க பல ் ைல ராி ஆ கா கிர வாிவ வ

ைறையேய ஏ பய ப தின. அவ கியமாக ஆசியவிய நி வன ேராஜா ைதயா தமிழா லக றி பிட த கன.

• 1926-36 களி ெச ைன ப கைல கழக தா ெவளியிட ப ட தமி ேபரகராதி பிெள ஆ கி வ வ ைத அ பைடயாக ெகா ட வாிவ வ ைத பய ப திய . ெகாேலா ப கைல கழக தி இ திய ம தமிழா நி வன இ த வாிவ ைதேய ஏ ச க இல கிய தலான பழ கால இல கிய கைள ஒ ெபய ள . ஆதவி , ம ைர தி ட ஆகியைவ ஒ யிைணகைள பய ப கி றன.

• ITRANS- ஆ கில சிறிய எ கைள சில சிற றி கைள பய ப தின . இ த தி ட 1912-இ ஏெத சி நட த கீைழ ேதய தாாி ப னா கழக மாநா பாி ைரைய ஒ ய .

• ISO 15919 இ திய ெமாழிக கான ேராம றி ைறைய த ள . அ ேவ பி ன ேம கீ றி கைள தவி ைறயி ப கவா றி கைள அைம மா ைறைய த த .

• ப னா ஒ ெந கண ைறயி ேராம ஒ ெபய க நைடெப கி றன.

Page 27: Computational Linguistics - INFITT

188

• ெப சி ேவனியா ப கைல கழக , ம ைர தி ட , ேகால ப கைல கழக , கி நி வன தயாாி த கி இ ரா டேரஷ ஆகியன ேராம வாிவ வ தி தமி இல கிய க , அகராதிக தலானவ ைற உ வா கி வ கி றன.

இ வா கணினி பய பா ேராம வாிவ வ பய ப த ப நிைலயி , ேராம வாிவ வ ஒ ெபய பி பலவைகயான ேவ பா க காண ப வைத காணலா . ஒ ெபய

ைறயி ஒ சீ ைம இ ைல ஒேர எ ப ேவ வைககயி ெபய க ப வைத காண

கிற . அவ ைற ஒ ெமா தமாக ஆரா தா அவ றி கிைடேய சில வ வ களி ஒ ைம பா சிலவ றி ேவ பா உ ளைத அறிய கிற . இத கான கியமான காரண களாக இ பைவ வ மா . தமிழி ள எ களி சில ேராம எ ைறயி இ ைல. உயிெர கைள ெபா த வைரயி ஆ கில றி ெந ஆகிய இர எ க ேம ஒ வ வ ைதேய பய ப கி றன. ண, ன, ந, ஆகியவ ைற ேவ ப வைகயி , ல, ழ, ள ஆகியவ ைற ேவ ப வைகயி , ர,ற ஆகியவ ைற ேவ ப வைகயி தனி தனி எ க இ ைல. ங, ஞ ஆகிய எ க தனி வாிவ வ இ ைல. எனேவ இவ ைற ேராம எ தி றி க பல உ திகைள ஒ ெபய பாள க ைகயா டன .

த ேல தாளி எ தியவ க அ ல த ட ெச தவ க அ த ேநா க திேலேய இ த ேவ பா கைள நீ வைகயி றி கைள ைகயா டன . அதி ேராம வ வ ைத ைகயா ஒ ெபய த ரமா னிவ ைகயா ட ைறக சில பி ேனாரா எ

ெகா ள ப டன; சில மா ற ெப றன; சில திய றி க உ வா க ப டன.

றி உயிெர க

• றி உயி களி ெப பா ேவ பா இ ைல. a i u e o இ ைற ெப கி, கா ெவ

ெதாட கி பல அறிஞ களா பய ப த ப ட ைற. ரமா னிவ ைற ISO (1) 1591 ம ம ம ம KOELN–ஆஆஆஆ பய ப த ப டபய ப த ப டபய ப த ப டபய ப த ப ட . google Indic ெபாிெய ைதெபாிெய ைதெபாிெய ைதெபாிெய ைத

சி னெவ ைதசி னெவ ைதசி னெவ ைதசி னெவ ைத ேசேசேசேச பய ப தியபய ப தியபய ப தியபய ப திய .

• ஐ-ஒ0 சீரான ெபய�� எ�றா3� கா,4ெவ, தவிர ஏைனேயா�

அைனவ0ேம ai என எ7தின�. கா,4ெவ, ம�4ேம ei எ�� எ7தினா�.

வ �ரமா�னிவ

கா� ெவ�

ேபா�

ெத.

ெபா.மீ

பேரா

ISO (1)

1591

9

ISO

(2)

Penn.U

ty TL L

C

Madu

rai

KOE

LN

google

Indic

IT

RA

NS

அ A a a a a A a a a a a A a/Aa a

இ I i i i i I i i i i i I i/I i

உ U u u u u U u u u u u U u/U u

எ E e e e e e e e e e e E e/E e

ஒ O o o o o o o o o o o O o/O o

Page 28: Computational Linguistics - INFITT

189

google Indic அத�ட� ெப�ய எ�� ! "றிய%ைட'(ீ ேச� �

பய�ப �திய

• ஔ- au என பயனாளிகளா, ஒ0 சீ�ைம9ட� பய�ப4�தப�4*ள:.

google Indic அத�ட� ெப�ய எ��ைத'( ேச� � பய�ப �திய .

• ெந% யிக-

வ �ரமா�னி வ

கா� ெவ�

ேபா�

ெத.

ெபா.மீ

பேரா

ISO (1)

1591

9

ISO

(2) Penn.

Uty

TL L

C

Mad

urai

KOE

LN

Goog

le

Indic

ITRAN

S

ஐ ai ei ai ai ai ai ai ai ai ai ai ai ai/AI ai

வ �ரமா�னிவ

கா� ெவ�

ேபா�

ெத.

ெபா.மீ

பேரா

ISO (1)

1591

9

ISO

(2)

Penn.

Uty TL LC Mad

urai

KOEL

N

google

Indic

ITRAN

S

ஔ au au au au au au

au au

au au au au au/A

U

au

வ �ர

மா�னிவ

கா� ெவ�

ேபா� ெத.

ெபா.மீ

பேரா

ISO (1) 15919

ISO (2)

Penn.Uty

TL LC

Madurai

KOELN

google

Indic

ITRANS

ஆ Ā ā ā ā ā ā -a aa/ A

ā ā A A aa/Aw

aa, A ā

ஈ Ī ī ī ī ī Ī _ i ii/ I ī ī I I ii/II ii,I ī

ஊ ū ū ū ū ū ū _ u uu/

U ū ū U U uu/UU

uu,U ū

ஏ Ē ē ē ē ē ē _ e ee/ E

ē ē E E ee/EE E

ஓ ō ō ō ō ō ō _ o oo/ O

ō ō O O oo/OO

O

Page 29: Computational Linguistics - INFITT

190

o ஆ--- ā a: aa –a A Aw o ஈ --- ī i: ii _ i I II

o ஊ -- ū u: uu _ u U UU o ஏ --- ē e: ee –e E EE o ஓ -- ō o: oo -o O OO

ம ைர தி ட ேகாேலா ெந யி கைள றி க ெபாிய எ கைளேய பய ப

கி றன எ ப றி பிட த க . ெம ெய களி

o க ச த ப – இவ றி ஒ ெப க ெசா க ெப பா ஒ சீராக ெபய க ப ளன.

� க ஒ சீரான ெமாழிெபய - K. அ ேவ ஒ ெபா யாக வ ேபா g, இ

உயி க கிைடேய வ ேபா h ெசா யாக வ ேபா kh, gh.

� ச – c அ ேவ ஒ ெபா யாக வ ேபா j, இ உயி க கிைடேய

வ ேபா s ெசா யாக வ ேபா ch.

� த – t, d அ ேவ ெசா யாக வ ேபா th, dh

� ப – ஒ சீரான ெமாழிெபய - p. அ ேவ ஒ ெபா யாக வ ேபா b,

ெசா யாக வ ேபா ph, bh.

o ம, ய, ர, ல, வ ஆகியைவ ெப0�பா3� ஒ0 சீராக �ைறேய m, y, r, l, v

என ெபய��கப�4*ளன. KOELN நி5வன( இவ6ைற ெப�ய

எ�� !களாக அதாவ M, Y, R, L, V என� ெபய� -ள .

வ �ர

மா

�னி

கா�

ெவ

ேபா

ெத.

ெபா

.மீ

ேரா

ISO

(1)

159

19

ISO

(2)

Pen

n.Ut

y

T

L

L

C

Mad

urai

KO

EL

N

google

Indic

ITRA

NS

க k k k k K K K k/g k,kh,g

,gh

ச s ch,j c,j c C c c c� c

c c C ch c,ch

த t t, d t,th t t t t t th t

t t T th ta,th,d

,dh

ப p p, b p, b p p p p p p p p P p

p,ph,b

,bh

Page 30: Computational Linguistics - INFITT

191

o ங ஞ ட ண ந ன ழ ள ற -ப ேவ ெபய க காண ப கி றன. இ ேவ பா க காரண இ ெவ களான இைணக ேராம வாிவ வ தி இ ைல எ பேத. இவ ைற றி் க கீ கா ைறக பய ப த ப கி றன.

• ெந கிய ெதாட ைடய ேராம எ தி பி ப கவா சிற றி கைள அைம த

வ �ர

மா

னிவ

கா

ெவ

ேபா

ெத

.

ெபா

.மீ

ேரா

IS

O

(1)

159

19

ISO (2)

Pe

n

n.

Ut

y

TL L

C

Ma

dur

ai

KO

EL

N

googl

e

Indic

ITR

AN

S

ம m M m m m m m m m m m M m m

ய y Y y y y y y y y y y Y y y

ர r R r r r r r r r r r R r r

ல l L l l l l l l l l l L l l

வ v V v v v v v v;

W v v v V v v

வ �ர

மா�

னிவ

கா�

ெவ

ேபா

ெத.

ெபா

.மீ

ேரா

ISO

(1)

1591

9

ISO (2) Penn.U

ty TL LC

M

ad

ur

ai

KO

ELN

goo

gle

Indi

c

ITR

ANS

ண n � � � � ṇ #n N ṇ

ṟ N N N Na

ன n N ṟ ṟ ṟ ṟ _n n n

n_

/n

2

n_/

n2 nZ n

ந n N n n n n n nd; n;

n^

ṟ n n ‘ N n n

Page 31: Computational Linguistics - INFITT

192

o ண,ன ஆகிய தமி எ க ாிய இைணக இ ைல. அைவ இர ஒேர எ தான

n எ பதி ேம , கீ , , பி என ப ேவ சிற றி களா றி க ெப கி றன.

� ண - n ṇ #n ṇ N Na

� ன - n ṇ _n n2 nZ

• ல, ள, ழ – l எ�ற எ7�:ட� சில �றிய4ீகைளA ேச��:!

�றி�கப4கி�றன. அ�:ட� ெப�ய சிறிய எ7�:�க �

பய�ப4�தப4கி�றன.

� ல – l, L

� ள - ṇ , #l L

� ழ – l, ṇ, ṇ ṇ, _l zh, z, Z LZ

o ர,ற

வ �ர

மா�

னிவ

கா�

ெவ

ேபா

ெத.

ெபா

.மீ

ேரா

ISO

(1)

1591

9

ISO

(2)

Penn.

Uty TL LC

Mad

urai

KO

EL

N

googl

e

Indic

ITRA

NS

ட d ṇ, ṇ d, ṇṇ ṇ ṇ ṇ #t T; d ṇ

ṇ T T T

T,Th,D

,Dh

ṇ, ṇh

d, dh

ள l ḷ ḷ ḷ ḷ ḷ #l L ḷ ḷ L L L L, ḷ

ழ l ḷ ḷ ḷ ḷ ḷ _l z; zh ḷ ḷ z Z LZ/z z

Page 32: Computational Linguistics - INFITT

193

o - r

� ர – r, R

� ற – rr ṇ, ṇr ṇ r, t, d, _r, R, Ra

o ங, ஞ n எ7�:ட� சிற�� �றிய4ீகைளA ேச��ேதா ெப�ய

சிறிய எ7�:�களாேலா அைவ �றி�கப4கி�றன.

� ங - ng, ṟ , Ñ, ^n, ŋ, G, NG, ~N, N^

� ஞ - nj, ñ, ~n, ɲ , n-, n^/jn, NY, JN

• ஆ கில ெபாிய எ கைள சிறிய எ கைள பய ப த

ேமேல றி பி டப , கணினியி பய ப த ப ேராம வாிவ வ களி ஒ ைம பா இ லாத காரண தா பயனாளிக சிரம தி காளாகி றன . கா டாக, மணி எ ற ெசா ைல ைல ராி கா கிரசி தள தி க ெவா னியா ப கைல கழக தள தி mani என எ தி தகவைல ெபறலா . ஆனா ெகாலா ப கைல கழக தள தி maNi என எ தினா தா தகவைல ெபற

. எனேவ பயனாளிக ஒ தகவ ேதடைல ெச ேபா தா எ த வ வ ைறைய

வ �ர

மா�

னிவ

கா�

ெவ

ேபா�

ெத.

ெபா

.மீ

ேரா

ISO

(1)

1591

9

ISO

(2)

Penn

.Uty TL LC

Mad

urai

KOE

LN

google

Indic

IT

R

A

N

S

ர r R r r r r r r r r r R r r

ற rr , ṟ ṟ r ṟ , ṟ ṟ ṟ ṟ ṟ _r R ṟ ṟ R R Ra R

வ �ர

மா�

னிவ

கா�

ெவ

ேபா�

ெத.

ெபா

.மீ

ேரா

ISO

(1)

1591

9

ISO

(2)

Penn

.Uty TL LC

Mad

urai

KOE

LN

goog

le

Indic

ITRA

NS

ங ng ṟ ñ Ñ ñ ṟ ^n ng ṟ ṟ ng G NG

~N,

N^

ஞ nj Ñ ñ ñ ñ ñ ~n nj ñ

ñ n-

n^/j

n NY

JN

ñ

Page 33: Computational Linguistics - INFITT

194

பய ப தள தி இ கிேறா எ பைத அறி த பிற தா ெசயலா ற . எனேவ அவ ைற தர ப தவ இ ைறய கால க ட தி் ேதைவயாக ஆகி உ ள .

பா கட பா கட பா கட பா கட p āḷka ḷ al - - - - ISO (1) 15919 தமிதமிதமிதமி tamiḷ - - - - ISO (1) 15919 p-a_rka#tal - ISO (2) tami_l ---- ISO (2)

pɑ ːɑ ːɑ ːɑ ː rkatal - IPA tami[ɻɻɻɻ ] ---- IPA

paaRkaDal, pARkaDal ---- Penn Uty tamiz/tamizh ---- PennUty

p ā ṟṟṟṟ ka ṟṟṟṟ al ---- TL tamiṟṟṟṟ ---- TL

p ā ṟṟṟṟ ka ṟṟṟṟ al - LC tamiṟṟṟṟ ---- LC

pARkaTal ---- Madurai tamiz ---- Madurai

pARkaTal - KOELN tamiz - KOELN

pARkaTal, paaRkaTal - Adami thamiz/tamizh - Adami

எனஎனஎனஎனேவ ப ேவ வ வ ைறயி இ அவ ைற தர ப வ எ ப மிக ேதைவயான

ஒ றாக ஆகி ள .இ வா தர ப ய சியி கவன ெச தேவ யைவ வ மா ;

ஏ கனேவ இ றி க ெபா தமானவ ைற ேத ெத தர ப தலா .

1. தியதானெதா ைறைய உ வா கி பாி ைர கலா .

2. பி ேனா ஒ ெபய பி சாியான ெசா கிைட கிறதா எ உ தி ெச ெகா ள ெவ . Universal Digital Library தள தி களி ெபய க ேராம எ களி தமி எ களி தர ப ளன. அ க னவல ஸாிதிர ... by அ னசல கவிரய L:

Tamil, Y: 1898, S: ARUMUGA NAVALAR SARITHIRAM, 98 pgs. ஆ கில தி த உ ளீ ெச அதைன தமி ப தியேபா ஆ க நாவல சாி திர , அ ணாசல கவிராய ஆகியைவ ாி ெகா ள இயலாத அளவி வ வ மாறியி ப லனா .

3. ேராம எ பி , ேம கீ ேகா க அ ல ளிகைள பய ப ைறைய ம ஆ ெச ய ேவ . அ ட ெபாிய எ க இட ெப கி றன. இ வா அைம ேபா வாிக அழகி றி ஒ சீராக அைமவதி ைல. அ ட அவ ைற த ட ெச வைகயி கணினி விைசக அைமயவி ைல எ ப மிக கியமானெதா பிர சைன. எனேவ இ த ேராம வாிவ வ தி த ட ெச ய ஒ தனி ெம ெபா ேளா தனி பயி சிேயா ேதைவ.

4. கணினி பய பா ேராம வ வ ஒ ெபய ைப ப றி ெச வ தனிமனித வாக அைமயாம ய சியாக அைமய ேவ . இத ெகன ஒ பணி

ெசயலா றி ஒ ெபய ைறகைள தர ப த ேவ .