ingenieria

9
EL CEPROSIMAD. 2013; 2(1): 57-65 Presentado: 16/07/2013. Aceptado: 17/09/2013 SISTEMAS - ARTÍCULO ORIGINAL / ORIGINAL ARTICLE INCUBACIÓN DE SISTEMA DE TRADUCCIÓN AUTOMÁTICA ESPAÑOL A QUECHUA, BASADO EN LA PLATAFORMA LIBRE Y CÓDIGO ABIERTO APERTIUM INCUBATION SYSTEM MACHINE TRANSLATION SPANISH TO QUECHUA, BASED ON FREE AND OPEN SOURCE PLATFORM APERTIUM Guido-Raúl Larico-Uchamaco 1 , Hugo-David Calderón-Vilca 2 y Flor-Cagniy Cárdenas-Mariño 3 , (1) Universidad Nacional Amazónica de Madre de Dios, Carrera Profesional de Ingeniería de Sistemas e Informática, Puerto Maldonado, Madre de Dios, Perú. Email: [email protected] (2) Universidad Nacional Micaela Bastidas, Carrera Profesional de Ingeniería de Informática e Sistemas, Abancay-Perú. Email: [email protected] (3) Universidad Nacional Micaela Bastidas, Carrera Profesional de Ingeniería de Informática e Sistemas, Abancay-Perú. Email: [email protected] RESUMEN En éste artículo se presenta una alternativa de implementación de traducción automática para lengua español-quechua basada en “Apertium” una plataforma libre y de código abierto. La lengua quechua pertenece a las lenguas aglutinantes que expresan conceptos y relaciones gramaticales mediante la adición de sufijos, en cambio el idioma español es diferente al ser considerado como una lengua flexiva de tipo fusional. Apertium ha sido creado inicialmente para traducciones entre lenguas emparentadas, sin embargo ha evolucionado para tratar con lenguas más divergentes como inglés-catalán. Por lo que en esta investigación se experimenta la creación de un sistema de traducción automática con una lengua nativa aglutinante y un idioma flexivo, teniendo como resultado el sistema de traducción automática apertium-es-qve basado en la plataforma libre y código abierto Apertium, se reutiliza el diccionario monolingüe del idioma español, se implementan el diccionario monolingüe de la lengua quechua y las reglas de transferencia, seguidamente se compilan los diccionarios para su funcionamiento, finalmente se prueba el traductor con un bloque de palabras, dando como entrada una frase en español y teniendo como salida la frase en la lengua quechua, el resultado es la traducción mediante transferencia sintáctica superficial. PALABRAS CLAVE: Español, quechua, apertium, traducción automática, traductor automático, código abierto, software libre. ABSTRACT In this paper we present an alternative implementation of automatic translation to Spanish- Quechua language based on free and open source platform "Apertium". The Quechua language belongs to the agglutinative languages expressing concepts and relationships by adding grammatical suffixes, whereas the Spanish language is different to be considered a fusional type inflected language. Apertium has been initially created for translations between 57

Upload: kayo-louis

Post on 13-Dec-2015

213 views

Category:

Documents


1 download

DESCRIPTION

Ingenieria

TRANSCRIPT

Page 1: Ingenieria

EL CEPROSIMAD. 2013; 2(1): 57-65 Presentado: 16/07/2013. Aceptado: 17/09/2013

SISTEMAS - ARTÍCULO ORIGINAL / ORIGINAL ARTICLE

INCUBACIÓN DE SISTEMA DE TRADUCCIÓN

AUTOMÁTICA ESPAÑOL A QUECHUA, BASADO EN LA

PLATAFORMA LIBRE Y CÓDIGO ABIERTO APERTIUM

INCUBATION SYSTEM MACHINE TRANSLATION SPANISH TO QUECHUA,

BASED ON FREE AND OPEN SOURCE PLATFORM APERTIUM

Guido-Raúl Larico-Uchamaco1, Hugo-David Calderón-Vilca

2 y

Flor-Cagniy Cárdenas-Mariño3,

(1) Universidad Nacional Amazónica de Madre de Dios, Carrera Profesional de Ingeniería de Sistemas e

Informática, Puerto Maldonado, Madre de Dios, Perú. Email: [email protected]

(2) Universidad Nacional Micaela Bastidas, Carrera Profesional de Ingeniería de Informática e Sistemas,

Abancay-Perú. Email: [email protected]

(3) Universidad Nacional Micaela Bastidas, Carrera Profesional de Ingeniería de Informática e Sistemas,

Abancay-Perú. Email: [email protected]

RESUMEN

En éste artículo se presenta una alternativa de implementación de traducción automática para

lengua español-quechua basada en “Apertium” una plataforma libre y de código abierto. La

lengua quechua pertenece a las lenguas aglutinantes que expresan conceptos y relaciones

gramaticales mediante la adición de sufijos, en cambio el idioma español es diferente al ser

considerado como una lengua flexiva de tipo fusional. Apertium ha sido creado inicialmente

para traducciones entre lenguas emparentadas, sin embargo ha evolucionado para tratar con

lenguas más divergentes como inglés-catalán. Por lo que en esta investigación se experimenta

la creación de un sistema de traducción automática con una lengua nativa aglutinante y un

idioma flexivo, teniendo como resultado el sistema de traducción automática apertium-es-qve

basado en la plataforma libre y código abierto Apertium, se reutiliza el diccionario

monolingüe del idioma español, se implementan el diccionario monolingüe de la lengua

quechua y las reglas de transferencia, seguidamente se compilan los diccionarios para su

funcionamiento, finalmente se prueba el traductor con un bloque de palabras, dando como

entrada una frase en español y teniendo como salida la frase en la lengua quechua, el resultado

es la traducción mediante transferencia sintáctica superficial.

PALABRAS CLAVE: Español, quechua, apertium, traducción automática, traductor

automático, código abierto, software libre.

ABSTRACT

In this paper we present an alternative implementation of automatic translation to Spanish-

Quechua language based on free and open source platform "Apertium". The Quechua

language belongs to the agglutinative languages expressing concepts and relationships by

adding grammatical suffixes, whereas the Spanish language is different to be considered a

fusional type inflected language. Apertium has been initially created for translations between

57

Page 2: Ingenieria

EL CEPROSIMAD. 2013; 2(1): 57-65 Incubación de sistema de traducción automática español a quechua,

basado en la plataforma libre y código abierto Apertium

SISTEMAS - ARTÍCULO ORIGINAL / ORIGINAL ARTICLE Larico Uchamaco G, y cols.

related languages, however, has evolved to deal with more divergent languages as English-

Catalan. So in this research experience creating a machine translation system with a native

language and a language inflected, resulting in automatic translation system apertium-es-qve

based on free and open source platform Apertium is reuses the Spanish language monolingual

dictionary, monolingual dictionary implemented in Quechua and transfer rules, then

dictionaries are compiled for operation, finally test the translator with a block of words,

giving as input a phrase in Spanish and having as output the Quechua phrase, the result is the

translation by syntactic transfer superficial.

KEY WORDS: Español, quechua, apertium, automatic translation, machine translator, open

source, free software.

INTRODUCCIÓN

En este mundo globalizado, de múltiples

culturas e idiomas, el traductor automático

como aplicación del procesamiento de

lenguaje natural han aportado

significativamente en la interacción de

culturas permitiendo al ser humano

comprender e interrelacionarse con sus

semejantes, mediante la traducción de textos

o habla de un lenguaje natural a otro.

Sin embargo, dichos avances como los

traductores automáticos poco trascienden

todavía en la cultura minoritaria como el

quechua.

Por lo que en este artículo se describe cómo

crear sistema de traducción automática entre

español-quechua, mostrando las etapas de la

incubación del sistema, así mismo la

creación del diccionario como su

manipulación de los datos lingüísticos,

compilación de los mismos y la prueba de

análisis morfológico y traducción de

palabras y frases cortas.

El paper está organizado de la siguiente

manera: la primera sección Introducción, la

segunda sección Materiales y Métodos, en la

tercera sección La Ingeniería de Traducción

de Apertium, en la cuarta sección Caso de

Estudio Incubación de Sistema de

Traducción de Español-Quechua, en la

quinta sección Resultados y Discusión,

finalmente se presenta las Conclusiones y

bibliografía.

MATERIAL Y MÉTODOS

LENGUAS INVOLUCRADAS Y

ANTECEDENTES DE LA

INVESTIGACIÓN:

Idioma español (ES)

Es una lengua flexiva de tipo fusionante,

hablado en diferentes países con 405 638

110 hablantes de acuerdo al SIL

International, pertenece a las familias

indoeuropeo, itálico y ibero-occidental, con

código ES de acuerdo ISO 639-1 y SPA de

acuerdo ISO 639-3 segunda lengua del

mundo por el número de personas que

tienen como lengua materna.

Lengua quechua

Quechua también denominada Quichua es

una familia de lenguas originaria de los

Andes centrales que se extiende por la parte

occidental de Sudamérica. Es una macro

lengua con una población hablante de más

de 9 000 000 distribuidos en los países Perú,

Argentina, Ecuador, Chile y Bolivia, es

lengua co-oficial en Perú.

Quechua como macro lengua se clasifica en

44 lenguas diferentes con código propio de

acuerdo al ISO 639-3 dada por SIL

International, de los cuales 32 variantes se

encuentran relacionadas con Perú.

Quechua pertenece al tipo aglutinante,

donde las relaciones gramaticales se

expresan mediante elementos formativos

denominados “sufijos” que se aglutinan a

58

Page 3: Ingenieria

EL CEPROSIMAD. 2013; 2(1): 57-65 Incubación de sistema de traducción automática español a quechua,

basado en la plataforma libre y código abierto Apertium

SISTEMAS - ARTÍCULO ORIGINAL / ORIGINAL ARTICLE Larico Uchamaco G, y cols.

una raíz, formando palabras largas, cada

sufijo tiene su valor formativo y semántico.

Antecedentes de la investigación artículo

científico [2]

Artículo Científico [2] escrito por Rios

Annete 2011 “Spell Checkingan

Agglutinative Language Quechua”

donde implementa el corrector

ortográfico para quechua utilizando

métodos de estado finito bajo

herramientas XFST para su analizador

morfológico.

Artículo Científico [3] escrito por Rios

Annete y Martin Wolk, “A Quechua-

Spanish parallel tree bank” describe las

características de la lengua quechua

buscando alineamiento con el idioma

español.

Traductor Automático en sola dirección

Quechua Cusco (QUZ)-Español

implementada por Vlastimil Rataj.

TRADUCCIÓN AUTOMÁTICA (TA):

Es una aplicación de Procesamiento de

Lenguaje Natural, también considerada

como área de la lingüística computacional

que investiga el uso de software para

traducir texto o habla de un lenguaje natural

a otro. El traductor automático debe analizar

el texto original, interrelacionar con la

situación referida y como resultado debe

encontrar el texto correspondiente en el

lenguaje destino [8].

Figura 1

Modelos de traducción automática Fuente: Martin Volk

Basada en reglas, realiza transformaciones a

partir del texto del idioma original

reemplazando palabras por su equivalente

en el idioma objetivo de traducción. En

cambio la traducción basada en datos o

corpus, realiza análisis de muestras reales en

sus respectivas traducciones entre el par

idiomas, mientras mayor cantidad de textos

traducidos se tenga mejores resultados se

obtiene.

Traductor automático basada en reglas

Establece tres enfoques principales: los

enfoques directos, los de interlingua y los de

transferencia (sintáctica y semántica).

Figura 2

Paradigmas de traducción automática por

transferencia Fuente: Moreno, 2000

Traducción automática por transferencia Modelo en la cual el texto original se analiza

morfológica y sintácticamente, obteniendo

como resultado una representación sintáctica

superficial. Esta representación se

transforma a continuación en otra más

abstracta que hace especial énfasis en

aspectos relevantes para el proceso de

traducción e ignora otro tipo de

información. El proceso de transferencia

convierte esta última representación (ligada

aún al idioma original) a una representación

al mismo nivel de abstracción pero ligada al

lenguaje objetivo. Estas dos

representaciones son las llamadas

normalizadas o intermedias. A partir de aquí

59

Page 4: Ingenieria

EL CEPROSIMAD. 2013; 2(1): 57-65 Incubación de sistema de traducción automática español a quechua,

basado en la plataforma libre y código abierto Apertium

SISTEMAS - ARTÍCULO ORIGINAL / ORIGINAL ARTICLE Larico Uchamaco G, y cols.

el proceso se invierte: los componentes

sintácticos generan una representación del

texto y finalmente se genera la traducción,

modelo usado por la plataforma de código

abierto Apertium.

INGENIERÍA DE TRADUCCIÓN DE

APERTIUM:

Apertium es una plataforma de traducción

automática de código abierto desarrollado

por el grupo Transducens de la Universitat

d’Alacant España, basado en reglas, cuya

arquitectura usa transductores de estados

finitos para el procesamiento léxico,

modelos ocultos de Markov para la

desambiguación léxica y procesamiento de

patrones basado en estados finitos para la

transferencia estructural, actualmente esta

plataforma de traducción automática ha

permitido implementar y en poner en

marcha a más de 35 pares de lenguas como

sistemas de traducción automática [1].

La plataforma proporciona: un ingenio de

traducción independiente de la lengua,

herramienta para gestionar los datos

lingüísticos necesarios para construir un

sistema de traducción automática para

unalengua dado. Plataforma con siguientes

componentes: lttoolbox, apertium, apertium-

lex-tools, OpenFST, Foma, HFST3 [6] y

vislcg3 (www.apertium.org)

Figura 3

Arquitectura modular construida por la

plataforma apertium Fuente: Documentación de Apertium

El desformateador Encapsula las cadenas de texto en bloques

de formato o superblancos poniendo

delimitadores “[ ]” cada una de estas

cadenas encapsuladas son tratadas como un

blanco <b></b>.

Los tipos de bloques o superblancos:

bloques de formato o superblancos no

vacíos, bloques de formato con referencia a

archivo externo o superblancos extensos y

bloques de formato vacíos.

El analizador morfológico

Segmenta el texto en formas superficiales

(FS) (las unidades léxicas tal como se

presentan en los textos) y entrega para cada

FS una o más formas léxicas (FL)

consistentes en un lema (forma base usada

en los diccionarios clásicos), la categoría

léxica (nombre, verbo, preposición, etc.) y la

información de flexión morfológica

(número, género, persona, tiempo, etc.).

Las unidades léxicas de más de una palabra

(multipalabras) son tratadas como formas

léxicas individuales y, según su naturaleza,

reciben un tratamiento específico, al recibir

como entrada el texto del módulo anterior,

el analizador morfológico proporciona como

salida el texto resultante.

El desambiguador léxico categorial

El desambiguador léxico categorial está

basado en modelos ocultos de Markov de

primer orden. Los estados del modelo de

Markov representan categorías gramaticales

y los observables son clases de ambigüedad,

esto es, conjuntos de categorías

gramaticales, analiza una palabra ambigua

de acuerdo con su contexto; por ejemplo la

palabra ambigua forma superficial en

quechua “urqu” en español tiene dos

significados “cerro” como nombre y

“macho” como indicador de género.

El desambiguador proporciona a su salida

etiquetas finas como las del analizador

morfológico, de hecho, en ocasiones, puede

suceder que el analizador morfológico

entregue, para una palabra dada, dos o más

etiquetas finas que pueden agruparse bajo

una misma categoría: por ejemplo en

60

Page 5: Ingenieria

EL CEPROSIMAD. 2013; 2(1): 57-65 Incubación de sistema de traducción automática español a quechua,

basado en la plataforma libre y código abierto Apertium

SISTEMAS - ARTÍCULO ORIGINAL / ORIGINAL ARTICLE Larico Uchamaco G, y cols.

español la palabra “cante” puede ser la 1a o

la 3a persona del presente de subjuntivo del

verbo cantar las dos etiquetas finas:

verbo<vblex> primera persona<prs><p1>

singular<sg> y verbo<vblex> tercera

persona<prs><p3> singular<sg>.

El módulo transferencia léxica

El módulo de transferencia léxica, que

gestiona un diccionario bilingüe y es

invocado por el módulo de transferencia

estructural, lee cada FL en LO y entrega la

FL correspondiente en lengua meta (LM). El

diccionario contiene un únicoequivalente

para cada forma léxica de la LO; esto

significa que no se realiza ningún tipo de

tratamiento de la polisemia, las

multipalabras son traducidas como una

unidad.

<l>t’anta</l><r>pan</r><l>wasi</l><r>cas

a</r><l>hatun</l><r>grande</r><l>musuq

</l><r>nuevo</r>

El módulo de transferencia estructural

Detecta y trata patrones de palabras

(sintagmas) que exigen un tratamiento

especial por causa de las divergencias

gramaticales entre la lengua tales como:

cambios de género, número,

reordenamientos, cambios preposicionales

etc.

a) Chunker.- Identifica los segmentos,

realiza la traducción palabra por palabra, así

como ciertas operaciones de reordenamiento

y propagación de información

morfosintáctica dentro del segmento (por

ejemplo, para establecer la concordancia).

Además, crea los segmentos para que sean

tratados por el módulo siguiente. El chunker

tiene la opción de funcionar como único

módulo en un sistema de transferencia

sintáctica superficial. Ello se controla

mediante un atributo del elemento

<transfer>.

b) Interchunk.- Este módulo recibe los

segmentos construidos por el chunker y

permite reordenarlos, modificar la

“información sintáctica” asociada a cada

segmento y, finalmente, imprimir los

segmentos en el orden nuevo y con las

características nuevas en la salida, creando

segmentos nuevos si es necesario.

c) Postchunk.- Este módulo recibe los

segmentos modificados por el interchunk y

realiza tareas finales de modificación de las

palabras contenidas en cada segmento y de

impresión del texto contenido en los

segmentos en el formato que acepta el

generador.

El objetivo de este móduloes permitir la

manipulación y la relación de patrones de

patrones de palabras, se pretende que haya

un tratamiento más adecuado de todas las

transformaciones que se requieren para

traducir de una lengua a otra.

El generador morfológico

Genera a partir de la forma léxica en lengua

meta una forma superficial flexionada

adecuadamente. El resultado para la frase de

ejemplo sería:

wasiyki:wasi<n><px2sg><nom>wasiykima

n: wasi<n><px2sg><dat>

El portgenerador

Realiza algunas operaciones ortográficas en

LM tales como contracciones y

apostrofaciones, y que es generado a partir

de un archivo de reglas de transformación

con un formato similar al de los diccionarios

anteriores.

El reformateador

Reintegra la información de formato

original al texto traducido similar al módulo

desformateador.

CASO DE ESTUDIO INCUBACIÓN DE

SISTEMA DE TRADUCCIÓN:

Datos lingüísticos (ficheros) del par de

lenguas español-quechua Cada fichero es

necesario crear, sin embargo es posible

reutilizar datos linguísticos de otros pares de

61

Page 6: Ingenieria

EL CEPROSIMAD. 2013; 2(1): 57-65 Incubación de sistema de traducción automática español a quechua,

basado en la plataforma libre y código abierto Apertium

SISTEMAS - ARTÍCULO ORIGINAL / ORIGINAL ARTICLE Larico Uchamaco G, y cols.

lenguasimplementadas, es una característica

del sistema de código abierto Apertium.

apertium-es-qve.qve.lexc.- Diccionario

monolingüe de quechua compatible con

HFST

apertium-es-qve.es.dix.- Diccionario

monolingüe del idioma español.

apertium-es-qve.es-qve.dix.- Diccionario

bilingüe español-quechua.

apertium-es-qve.qve.twol.- Reglas de

morfología compatible con HFST.

apertium-es-qve.qve-es.rlx.- Reglas de

desambiguación al diccionario

monolingüe del quechua basado en

VISLG3.

apertium-es-qve-es.tsx.- Reglas de

desambiguación al diccionario

monolingüe español basado apertium-

lextools

apertium-es-qve-qve-es.t1x.- Reglas de

transferencia estructural “chunker” del

quechua hacia español.

apertium-es-qve-qve-es.t2x.- Reglas de

transferencia estructural “interchunk”

del quechua hacia español.

apertium-es-qve-qve-es.t3x.- Reglas de

transferencia estructural “postchunk” del

quechua hacia español.

apertium-es-qve-es-qve.t1x.- Reglas de

transferencia estructural “chunker” del

español hacia quechua.

apertium-es-qve-qve-es.t2x.- Reglas de

transferencia estructural “interchunk”

del español hacia quechua.

apertium-es-qve-qve-es.t3x.- Reglas de

transferencia estructural “postchunk” del

español hacia quechua.

Creación de los diccionarios monolingües

Cada diccionario monolingüe se especifica

en un fichero compatible con HFST,

especificando LEXICONES para cada

categoría gramatical, LEXICONES para

cada sufijo, LEXICONES para los grupos

de nombres, adjetivos, verbos, etc.

Tabla 1

Estructura y contenido del diccionario

monolingüe. Diccionario monolingüe

quechua apertium-es-

qve.lexc

Significado

<n>

<adj>

<prnp>

<adv>

<vblex>

<m>

<sg>

<pl>

otros

! nombre

! adjetivo

! pronombre

! advervio

! verbo

! masculino

! singular

! plural

. . .

Nombres ;

Adjetivos ;

PrnPersonales ;

Adverbios ;

Verbos ;

otros

!Nombres

!Adjetivos

!PronombresP

!Adverbios

!Verbos

. . .

LEXICON Plural

<pl>:>kuna;

LEXICON Caso

<acc>:>ta;

<abl>:>manta;

LEXICON Posv

<px1sg>:y;

Otros

! plural s

! acusativo

a!

ablativo de

! posesivo

1ra persn

singular

...

Lexicon Nombres

wasi:wasi N ;

t’anta:t’anta N ;

Lexicon Adjetivos

hatun:hatun ADJ;

musuq:musuq ADJ;

LexiconPrnPerson

nuqa:nuqa PRNP;

Lexicon Advervio

may:may ADV;

Lexicon verbos

mikhuy:mikhu V;

munay:muna V;

otros

!casa

!pan

!grande

!nuevo

!yo

!dónde

!comer

!querer

... Fuente: Elaboración propia.

Creación de los diccionarios bilingües

Se asigna cada forma (palabra raíz) léxica

de la Lengua Origen que corresponde a cada

forma léxica de la Lengua Meta, de cada

diccionario bilingüe se obtienen dos

productos según el sentido en el que el

sistema los lea: leídos de izquierda a

derecha se obtiene el módulo de

transferencia léxica del idioma Lengua

Origen a la Lengua Meta y leídos de derecha

a izquierda la transferencia de la Lengua

Meta a la Lengua Origen.

62

Page 7: Ingenieria

EL CEPROSIMAD. 2013; 2(1): 57-65 Incubación de sistema de traducción automática español a quechua,

basado en la plataforma libre y código abierto Apertium

SISTEMAS - ARTÍCULO ORIGINAL / ORIGINAL ARTICLE Larico Uchamaco G, y cols.

Tabla 2

Estructura y contenido del diccionario

bilingüe Diccionario bilingüe español quechua apertium-

es-qve.es-qve. dix

<sdefs>

<sdef n="n" c="Nombre"/>

<sdef n="adj" c="Adjetivo"/>

<sdef n="prn"c="Prnombre">

<sdef n="adv" c="Adverbio/>

<sdef n="vblex" c="Verbo"/>

<sdef n="sg" c="Singular"/>

<sdef n="pl" c="Plural"/>

<section id="NOMBRES">

<l>t’anta</l><r>pan</r>

<l>wasi</l><r>casa</r>

<section id="ADJETIVOS">

<l>hatun</l><r>grande</r>

<l>musuq</l><r>nuevo</r>

<section id="PRNPERSON">

<l>nuqa</l><r>yo</r>

<section id="ADVERBIO">

<l>may</l><r>dónde</r>

<section id="VERBOS">

<l>mikhuy</l><r>comer</r>

<l>munay</l><r>querer</r> Fuente: Elaboración propia.

Reglas de Transferencia estructural

<rule comment="Regla nombres">

<pattern>

<pattern-item n="nom"/>

</pattern>

<action>

<call-macro n="firstWord"><with-param

pos="1"/></call-macro>

<out> <chunk name="nombre" >

<tags> <tag>

<lit-tag v="SN"/></tag>

<tag><lit-tag v="nom"/></tag>

</tags>

<lu> <clip pos="1" side="tl"

part="lem"/>

<clip pos="1" side="tl" part="a_nom"/>

<lit-tag v="2"/>

</lu>

</chunk>

</out>

</action>

</rule>

Compilación del sistema Traducción

Automática español-quechua “apertium-

es-qve”

Compilando el diccionario morfológico

español #lt-complrapertium-es-

qve.es.dix es-qve.automorf.bin

Dando formato con foma a apertium-es-

qve.qve.lexc #hfst-lexc.-

formatfomaapertium-es-

qve.qve.lexcqve.lexc.hfst

Formato foma para apertium-es-

qve.qve.twol #hfst-twolc–

formatfomaapertium-es-qve.qve.twol -o

qve.twol.hfst

Composición lexc y twol #hfst-

compose-intersect -1 qve.lexc.hfst -2

qve.twol.hfst -o qve.hfst

Compilando diccionario morfológico

quechua #hfst-invertqve.hfst | hfst-

fst2fst -O -o qve-es.automorf.hfst

Compilando diccionario bilingüe

español-quechua #lt-comprl apertium-

es-qve.es-qve.dix es-qve.autobil.bin

Compilando diccionario bilingüe

quechua-español #lt-comprl apertium-

es-qve.es-qve.dixqve-es.autobil.bin

Compilando diccionario de auto-

generación es-qve #hfst-fst2fst -O

qve.hfst -o es-qve.autogen.hfst

Compilando diccionario de auto-

generación qve-es #lt-comprlapertium-

es-qve.es.dixqve-es.autogen.bin

Compilando reglas de desambiguación

al diccionario monolingüe quechua #cg-

compapertium-es-qve.esqve. rlx es-

qve.rlx.bin

Compilando reglas de transferencia

estructural es-qve #apertium-preprocess-

transfer apertium-es-qve.es-qve.t1x es-

qve.t1x.bin #apertium-preprocess-

transfer apertium-es- qve.es-qve.t2x es-

qve.t2x.bin #apertium-

preprocesstransfer apertium-es-qve.es-

qve.t3x es-qve.t3x.bin

Compilando reglas de transferencia

estructural qve-es #apertium-preprocess-

transfer apertium-es-qve.qve-es.t1x qve-

es.t1x.bin #apertium-preprocess-transfer

apertiumes- qve.qve-es.t2x qve-

es.t2x.bin #apertium-preprocesstransfer

63

Page 8: Ingenieria

EL CEPROSIMAD. 2013; 2(1): 57-65 Incubación de sistema de traducción automática español a quechua,

basado en la plataforma libre y código abierto Apertium

SISTEMAS - ARTÍCULO ORIGINAL / ORIGINAL ARTICLE Larico Uchamaco G, y cols.

apertium-es-qve.qve-es.t3x qve-

es.t3x.bin

RESULTADOS Y DISCUSIÓN

Análisis morfológico de quechua

Proporcionando entrada la palabra

"wasi" al sistema #echo "wasi" | hfst-

lookupqve-es.automorf.hfst se obtiene la

salida wasi: wasi<n><nom>, donde wasi

es la palabra raíz y <n><nom> son

etiquetas que indican que pertenece a la

categoría gramatica nombre.

Proporcionando entrada la palabra

aglutinada "wasiy" al sistema #echo

"wasiy" | hfst-lookupqve-

es.automorf.hfst se obtiene la salida

wasiy: wasi<n><px1sg><nom>, wasi es

la palabra raíz que pertenece

<n><nomb> "nombre" como el anterior,

seguidamente el sufijo "y" cuya etiqueta

<px2sg> indica que pertence a la

categoría posesivo primera persona

singular. Sin embargo si

proporcionamos la palabra aglutinada

"wasiyki" #echo "wasiyki" |

hfstlookupqve-es.automorf.hfst el sufijo

"yki" está consiserado uno sólo de

acuerdo al concepto linguístico por tanto

esto indica <px2sg> posesivo segunda

personal singular.

Seguimos aglutinando a la palabra

anterior ahora como entrada tenemos

"wasiykiman" #echo "wasiykiman" |

hfst-lookupqve-es.automorf.hfst se tiene

en la salida wasiykiman:

wasi<n><px2sg><dat>, wasi ya

sabemos que es la raíz que pertence a la

categoría nombre, <px2sg> indica que el

sufijo "yki" pertenece a la categoría

posesivo segunda persona singular,

finalmente <dat> refiere al sufijo "man"

que pertence a la categoría dativoilativo.

Más sufijos sobre sufijos como entrada

"wasiykimanta" #echo "wasiykimanta" |

hfst-lookupqvees. automorf.hfst se tiene

como salida wasiykimanta:

wasi<n><px2sg><abl>, a diferencia de

lo anterior la etiqueta <abl> indica que

el sufijo "manta" pertenece a los sufijos

ablativo.

Cada vez la palabra puede ser más

grande en quechua esta palabra

"wasiykikunamanta" tiene sentido #echo

"wasiykikunamanta" | hfst-lookupqvees.

automorf.hfst como salida se tiene

wasiykikunamanta:

wasi<n><px2sg><pl><abl>, visto lo

anterior siendo wasi raíz de la palabra,

<px2sg> es posesivo segunda persona

singular, <pl> plural es decir con

respecto a wasi, y finalmente <abl> es

ablativo.

Lengua quechua el fundamento lingüístico

es similar, las salidas proporcionadas son

listas para proporcionar como entrada al

siguiente módulo del traductor.

Traducción de palabras y frases cortas de

quechua a español

Ingresando la palabra "wasi" al sistema

para su traducción en la dirección de

qve-es quechua a español #echo "wasi" |

apertium -d .qve-es se tiene como salida

en españo casa.

Teniendo la palabra raíz "wasi" se

agrega el sufijo "yki" #echo "wasiyki" |

apertium -d .qve-es, se tiene como

resultado en español tu casa.

Aglutinando más sufijos en quechua

"wasi+yki+man" #echo "wasiykiman" |

apertium -d .qve-es, se tiene la

traducción a tu casa.

Ingresando sufijos sobre sufijo

"wasi+yki+manta" #echo

"wasiykimanta" | apertium -d .qve-es, la

traducción que da el sistema es de tu

casa.

Sucesivamente quechua puede tener más

grande las palabras aglutinadas

"wasi+yki+kuna+manta" #echo

"wasiykikunamanta" | apertium -d .qve-

es, como salida en español se tiene la

frase de tus casas.

64

Page 9: Ingenieria

EL CEPROSIMAD. 2013; 2(1): 57-65 Incubación de sistema de traducción automática español a quechua,

basado en la plataforma libre y código abierto Apertium

SISTEMAS - ARTÍCULO ORIGINAL / ORIGINAL ARTICLE Larico Uchamaco G, y cols.

Traducción de palabras y frases cortas de

español a quechua

De forma analógica en la dirección de

es-qveespañolquechua, se ingresa la

palabra "casa" #echo "casa" | apertium -

d . es-qve, como salida se tiene wasi.

En este caso se ingresa la frase corta

"esta casa" #echo "esta casa" | apertium -

d . es-qve, se obtiene la traducciónen

quechua kaywasi.

Otra frase desde español a quechua

#echo "esta casa nueva" | apertium -d .

es-qve, teniendo como salida la

traducción kaywasimusuq.

CONCLUSIONES

Mediante la investigación se ha explorado la

ingeniería de traducción automática de

Apertium, permitiendo incubar un sistema

apertium-es-qve, la creación y manipulación

de los datos lingüísticos requiere de la

intervención de linguistas, la compilación

son secuencias del shell de linux

automatizable para el makefile.

El sistema traductor automático apertium-

es-qve es funcional y se ajustan a la

plataforma de código abierto Apertium, aun

cuando son divergentes los pares entre los

tipos flexiva fusionante (español) y

aglutinante (quechua), esto es factible

utilizando las herramientas de Helsinki

Finite-StateTransducer (HFST) para el

analizador morfológico.

Finalmente algunas reglas de transferencia

puestas en los datos lingüísticos permiten la

traducción de algunas palabras y frases

cortas las mismas que prueban la

funcionalidad de los dos sistemas incubados

que tiene el camino a transformarse como

sistema de traducción automática.

AGRADECIMIENTOS

De manera especial a Vlastimil Rataj por su

apoyo en la comprensión del LEXC.

A CONCYTEC por su aprobación como

proyecto de investigación,

A personas muy especiales que han ayudado

con su sabiduría y experiencia plasmar

muchas de sus ideas en esta obra.

REFERENCIAS BIBLIOGRÁFICAS

Annete Rios, S., Göhring A. & Martin Wokl

A. (2009). “Quechua-Spanish Parallel

Treebank". Linguistic Issues in

Language Technology. University of

Zurich. Recuperado de: http://dx.doi.

org/10.5167/uzh-20593

Annete Rios, S. (2011). “Checking an

agglutinative language: Quechua".

Linguistic Issues in Language

Technology. University of Zurich.

Recuperado de: http://dx.doi.

org/10.5167/uzh-52921

Armentano-Oller, C., Corbí-Bellot, A. M.,

Forcada, M. L., Ginestí-Rosell, M.

Montava Belda, M. A., Ortiz-Rojas, S.

et al. (2007). "Apertium, una

plataforma de código abierto para el

desarrollo de sistemas de traducción

automática". Proceedings of the floss

international conference, 2007, pages

5-20, Universitatd’ Alacant.

Recuperado de: http://transducens.

dlsi.ua.es

Cerrón, Palomino, (2000). Rodolfo.

Lingüística Aimara. Lima.

Kenneth, R. Beesly y LauriKarttunen.Finite-

(2002). State Morphology Xerox

Tools and Techniques. Recuperado de:

https://victorio.uit.no/langtech/tags/Ro

ot-of-gt-UTF-8-conversion/gt/doc/

book.pdf_1.pdf

Rusell, Stuart y Norvig, Meter. (2004)

"Inteligencia Artificial un Enfoque

Moderno", Segunda Edición, Madrid.

Universidad Andina Néstor Cáceres

Velásquez. (2003). Morfología

contrastiva Quechua / Aymara /

Castellano. Escuela de Postgrado.

Segunda Especialización en

Educación Bilingüe Intercultural.

Juliaca, Perú.

65