Download - Ingenieria
EL CEPROSIMAD. 2013; 2(1): 57-65 Presentado: 16/07/2013. Aceptado: 17/09/2013
SISTEMAS - ARTÍCULO ORIGINAL / ORIGINAL ARTICLE
INCUBACIÓN DE SISTEMA DE TRADUCCIÓN
AUTOMÁTICA ESPAÑOL A QUECHUA, BASADO EN LA
PLATAFORMA LIBRE Y CÓDIGO ABIERTO APERTIUM
INCUBATION SYSTEM MACHINE TRANSLATION SPANISH TO QUECHUA,
BASED ON FREE AND OPEN SOURCE PLATFORM APERTIUM
Guido-Raúl Larico-Uchamaco1, Hugo-David Calderón-Vilca
2 y
Flor-Cagniy Cárdenas-Mariño3,
(1) Universidad Nacional Amazónica de Madre de Dios, Carrera Profesional de Ingeniería de Sistemas e
Informática, Puerto Maldonado, Madre de Dios, Perú. Email: [email protected]
(2) Universidad Nacional Micaela Bastidas, Carrera Profesional de Ingeniería de Informática e Sistemas,
Abancay-Perú. Email: [email protected]
(3) Universidad Nacional Micaela Bastidas, Carrera Profesional de Ingeniería de Informática e Sistemas,
Abancay-Perú. Email: [email protected]
RESUMEN
En éste artículo se presenta una alternativa de implementación de traducción automática para
lengua español-quechua basada en “Apertium” una plataforma libre y de código abierto. La
lengua quechua pertenece a las lenguas aglutinantes que expresan conceptos y relaciones
gramaticales mediante la adición de sufijos, en cambio el idioma español es diferente al ser
considerado como una lengua flexiva de tipo fusional. Apertium ha sido creado inicialmente
para traducciones entre lenguas emparentadas, sin embargo ha evolucionado para tratar con
lenguas más divergentes como inglés-catalán. Por lo que en esta investigación se experimenta
la creación de un sistema de traducción automática con una lengua nativa aglutinante y un
idioma flexivo, teniendo como resultado el sistema de traducción automática apertium-es-qve
basado en la plataforma libre y código abierto Apertium, se reutiliza el diccionario
monolingüe del idioma español, se implementan el diccionario monolingüe de la lengua
quechua y las reglas de transferencia, seguidamente se compilan los diccionarios para su
funcionamiento, finalmente se prueba el traductor con un bloque de palabras, dando como
entrada una frase en español y teniendo como salida la frase en la lengua quechua, el resultado
es la traducción mediante transferencia sintáctica superficial.
PALABRAS CLAVE: Español, quechua, apertium, traducción automática, traductor
automático, código abierto, software libre.
ABSTRACT
In this paper we present an alternative implementation of automatic translation to Spanish-
Quechua language based on free and open source platform "Apertium". The Quechua
language belongs to the agglutinative languages expressing concepts and relationships by
adding grammatical suffixes, whereas the Spanish language is different to be considered a
fusional type inflected language. Apertium has been initially created for translations between
57
EL CEPROSIMAD. 2013; 2(1): 57-65 Incubación de sistema de traducción automática español a quechua,
basado en la plataforma libre y código abierto Apertium
SISTEMAS - ARTÍCULO ORIGINAL / ORIGINAL ARTICLE Larico Uchamaco G, y cols.
related languages, however, has evolved to deal with more divergent languages as English-
Catalan. So in this research experience creating a machine translation system with a native
language and a language inflected, resulting in automatic translation system apertium-es-qve
based on free and open source platform Apertium is reuses the Spanish language monolingual
dictionary, monolingual dictionary implemented in Quechua and transfer rules, then
dictionaries are compiled for operation, finally test the translator with a block of words,
giving as input a phrase in Spanish and having as output the Quechua phrase, the result is the
translation by syntactic transfer superficial.
KEY WORDS: Español, quechua, apertium, automatic translation, machine translator, open
source, free software.
INTRODUCCIÓN
En este mundo globalizado, de múltiples
culturas e idiomas, el traductor automático
como aplicación del procesamiento de
lenguaje natural han aportado
significativamente en la interacción de
culturas permitiendo al ser humano
comprender e interrelacionarse con sus
semejantes, mediante la traducción de textos
o habla de un lenguaje natural a otro.
Sin embargo, dichos avances como los
traductores automáticos poco trascienden
todavía en la cultura minoritaria como el
quechua.
Por lo que en este artículo se describe cómo
crear sistema de traducción automática entre
español-quechua, mostrando las etapas de la
incubación del sistema, así mismo la
creación del diccionario como su
manipulación de los datos lingüísticos,
compilación de los mismos y la prueba de
análisis morfológico y traducción de
palabras y frases cortas.
El paper está organizado de la siguiente
manera: la primera sección Introducción, la
segunda sección Materiales y Métodos, en la
tercera sección La Ingeniería de Traducción
de Apertium, en la cuarta sección Caso de
Estudio Incubación de Sistema de
Traducción de Español-Quechua, en la
quinta sección Resultados y Discusión,
finalmente se presenta las Conclusiones y
bibliografía.
MATERIAL Y MÉTODOS
LENGUAS INVOLUCRADAS Y
ANTECEDENTES DE LA
INVESTIGACIÓN:
Idioma español (ES)
Es una lengua flexiva de tipo fusionante,
hablado en diferentes países con 405 638
110 hablantes de acuerdo al SIL
International, pertenece a las familias
indoeuropeo, itálico y ibero-occidental, con
código ES de acuerdo ISO 639-1 y SPA de
acuerdo ISO 639-3 segunda lengua del
mundo por el número de personas que
tienen como lengua materna.
Lengua quechua
Quechua también denominada Quichua es
una familia de lenguas originaria de los
Andes centrales que se extiende por la parte
occidental de Sudamérica. Es una macro
lengua con una población hablante de más
de 9 000 000 distribuidos en los países Perú,
Argentina, Ecuador, Chile y Bolivia, es
lengua co-oficial en Perú.
Quechua como macro lengua se clasifica en
44 lenguas diferentes con código propio de
acuerdo al ISO 639-3 dada por SIL
International, de los cuales 32 variantes se
encuentran relacionadas con Perú.
Quechua pertenece al tipo aglutinante,
donde las relaciones gramaticales se
expresan mediante elementos formativos
denominados “sufijos” que se aglutinan a
58
EL CEPROSIMAD. 2013; 2(1): 57-65 Incubación de sistema de traducción automática español a quechua,
basado en la plataforma libre y código abierto Apertium
SISTEMAS - ARTÍCULO ORIGINAL / ORIGINAL ARTICLE Larico Uchamaco G, y cols.
una raíz, formando palabras largas, cada
sufijo tiene su valor formativo y semántico.
Antecedentes de la investigación artículo
científico [2]
Artículo Científico [2] escrito por Rios
Annete 2011 “Spell Checkingan
Agglutinative Language Quechua”
donde implementa el corrector
ortográfico para quechua utilizando
métodos de estado finito bajo
herramientas XFST para su analizador
morfológico.
Artículo Científico [3] escrito por Rios
Annete y Martin Wolk, “A Quechua-
Spanish parallel tree bank” describe las
características de la lengua quechua
buscando alineamiento con el idioma
español.
Traductor Automático en sola dirección
Quechua Cusco (QUZ)-Español
implementada por Vlastimil Rataj.
TRADUCCIÓN AUTOMÁTICA (TA):
Es una aplicación de Procesamiento de
Lenguaje Natural, también considerada
como área de la lingüística computacional
que investiga el uso de software para
traducir texto o habla de un lenguaje natural
a otro. El traductor automático debe analizar
el texto original, interrelacionar con la
situación referida y como resultado debe
encontrar el texto correspondiente en el
lenguaje destino [8].
Figura 1
Modelos de traducción automática Fuente: Martin Volk
Basada en reglas, realiza transformaciones a
partir del texto del idioma original
reemplazando palabras por su equivalente
en el idioma objetivo de traducción. En
cambio la traducción basada en datos o
corpus, realiza análisis de muestras reales en
sus respectivas traducciones entre el par
idiomas, mientras mayor cantidad de textos
traducidos se tenga mejores resultados se
obtiene.
Traductor automático basada en reglas
Establece tres enfoques principales: los
enfoques directos, los de interlingua y los de
transferencia (sintáctica y semántica).
Figura 2
Paradigmas de traducción automática por
transferencia Fuente: Moreno, 2000
Traducción automática por transferencia Modelo en la cual el texto original se analiza
morfológica y sintácticamente, obteniendo
como resultado una representación sintáctica
superficial. Esta representación se
transforma a continuación en otra más
abstracta que hace especial énfasis en
aspectos relevantes para el proceso de
traducción e ignora otro tipo de
información. El proceso de transferencia
convierte esta última representación (ligada
aún al idioma original) a una representación
al mismo nivel de abstracción pero ligada al
lenguaje objetivo. Estas dos
representaciones son las llamadas
normalizadas o intermedias. A partir de aquí
59
EL CEPROSIMAD. 2013; 2(1): 57-65 Incubación de sistema de traducción automática español a quechua,
basado en la plataforma libre y código abierto Apertium
SISTEMAS - ARTÍCULO ORIGINAL / ORIGINAL ARTICLE Larico Uchamaco G, y cols.
el proceso se invierte: los componentes
sintácticos generan una representación del
texto y finalmente se genera la traducción,
modelo usado por la plataforma de código
abierto Apertium.
INGENIERÍA DE TRADUCCIÓN DE
APERTIUM:
Apertium es una plataforma de traducción
automática de código abierto desarrollado
por el grupo Transducens de la Universitat
d’Alacant España, basado en reglas, cuya
arquitectura usa transductores de estados
finitos para el procesamiento léxico,
modelos ocultos de Markov para la
desambiguación léxica y procesamiento de
patrones basado en estados finitos para la
transferencia estructural, actualmente esta
plataforma de traducción automática ha
permitido implementar y en poner en
marcha a más de 35 pares de lenguas como
sistemas de traducción automática [1].
La plataforma proporciona: un ingenio de
traducción independiente de la lengua,
herramienta para gestionar los datos
lingüísticos necesarios para construir un
sistema de traducción automática para
unalengua dado. Plataforma con siguientes
componentes: lttoolbox, apertium, apertium-
lex-tools, OpenFST, Foma, HFST3 [6] y
vislcg3 (www.apertium.org)
Figura 3
Arquitectura modular construida por la
plataforma apertium Fuente: Documentación de Apertium
El desformateador Encapsula las cadenas de texto en bloques
de formato o superblancos poniendo
delimitadores “[ ]” cada una de estas
cadenas encapsuladas son tratadas como un
blanco <b></b>.
Los tipos de bloques o superblancos:
bloques de formato o superblancos no
vacíos, bloques de formato con referencia a
archivo externo o superblancos extensos y
bloques de formato vacíos.
El analizador morfológico
Segmenta el texto en formas superficiales
(FS) (las unidades léxicas tal como se
presentan en los textos) y entrega para cada
FS una o más formas léxicas (FL)
consistentes en un lema (forma base usada
en los diccionarios clásicos), la categoría
léxica (nombre, verbo, preposición, etc.) y la
información de flexión morfológica
(número, género, persona, tiempo, etc.).
Las unidades léxicas de más de una palabra
(multipalabras) son tratadas como formas
léxicas individuales y, según su naturaleza,
reciben un tratamiento específico, al recibir
como entrada el texto del módulo anterior,
el analizador morfológico proporciona como
salida el texto resultante.
El desambiguador léxico categorial
El desambiguador léxico categorial está
basado en modelos ocultos de Markov de
primer orden. Los estados del modelo de
Markov representan categorías gramaticales
y los observables son clases de ambigüedad,
esto es, conjuntos de categorías
gramaticales, analiza una palabra ambigua
de acuerdo con su contexto; por ejemplo la
palabra ambigua forma superficial en
quechua “urqu” en español tiene dos
significados “cerro” como nombre y
“macho” como indicador de género.
El desambiguador proporciona a su salida
etiquetas finas como las del analizador
morfológico, de hecho, en ocasiones, puede
suceder que el analizador morfológico
entregue, para una palabra dada, dos o más
etiquetas finas que pueden agruparse bajo
una misma categoría: por ejemplo en
60
EL CEPROSIMAD. 2013; 2(1): 57-65 Incubación de sistema de traducción automática español a quechua,
basado en la plataforma libre y código abierto Apertium
SISTEMAS - ARTÍCULO ORIGINAL / ORIGINAL ARTICLE Larico Uchamaco G, y cols.
español la palabra “cante” puede ser la 1a o
la 3a persona del presente de subjuntivo del
verbo cantar las dos etiquetas finas:
verbo<vblex> primera persona<prs><p1>
singular<sg> y verbo<vblex> tercera
persona<prs><p3> singular<sg>.
El módulo transferencia léxica
El módulo de transferencia léxica, que
gestiona un diccionario bilingüe y es
invocado por el módulo de transferencia
estructural, lee cada FL en LO y entrega la
FL correspondiente en lengua meta (LM). El
diccionario contiene un únicoequivalente
para cada forma léxica de la LO; esto
significa que no se realiza ningún tipo de
tratamiento de la polisemia, las
multipalabras son traducidas como una
unidad.
<l>t’anta</l><r>pan</r><l>wasi</l><r>cas
a</r><l>hatun</l><r>grande</r><l>musuq
</l><r>nuevo</r>
El módulo de transferencia estructural
Detecta y trata patrones de palabras
(sintagmas) que exigen un tratamiento
especial por causa de las divergencias
gramaticales entre la lengua tales como:
cambios de género, número,
reordenamientos, cambios preposicionales
etc.
a) Chunker.- Identifica los segmentos,
realiza la traducción palabra por palabra, así
como ciertas operaciones de reordenamiento
y propagación de información
morfosintáctica dentro del segmento (por
ejemplo, para establecer la concordancia).
Además, crea los segmentos para que sean
tratados por el módulo siguiente. El chunker
tiene la opción de funcionar como único
módulo en un sistema de transferencia
sintáctica superficial. Ello se controla
mediante un atributo del elemento
<transfer>.
b) Interchunk.- Este módulo recibe los
segmentos construidos por el chunker y
permite reordenarlos, modificar la
“información sintáctica” asociada a cada
segmento y, finalmente, imprimir los
segmentos en el orden nuevo y con las
características nuevas en la salida, creando
segmentos nuevos si es necesario.
c) Postchunk.- Este módulo recibe los
segmentos modificados por el interchunk y
realiza tareas finales de modificación de las
palabras contenidas en cada segmento y de
impresión del texto contenido en los
segmentos en el formato que acepta el
generador.
El objetivo de este móduloes permitir la
manipulación y la relación de patrones de
patrones de palabras, se pretende que haya
un tratamiento más adecuado de todas las
transformaciones que se requieren para
traducir de una lengua a otra.
El generador morfológico
Genera a partir de la forma léxica en lengua
meta una forma superficial flexionada
adecuadamente. El resultado para la frase de
ejemplo sería:
wasiyki:wasi<n><px2sg><nom>wasiykima
n: wasi<n><px2sg><dat>
El portgenerador
Realiza algunas operaciones ortográficas en
LM tales como contracciones y
apostrofaciones, y que es generado a partir
de un archivo de reglas de transformación
con un formato similar al de los diccionarios
anteriores.
El reformateador
Reintegra la información de formato
original al texto traducido similar al módulo
desformateador.
CASO DE ESTUDIO INCUBACIÓN DE
SISTEMA DE TRADUCCIÓN:
Datos lingüísticos (ficheros) del par de
lenguas español-quechua Cada fichero es
necesario crear, sin embargo es posible
reutilizar datos linguísticos de otros pares de
61
EL CEPROSIMAD. 2013; 2(1): 57-65 Incubación de sistema de traducción automática español a quechua,
basado en la plataforma libre y código abierto Apertium
SISTEMAS - ARTÍCULO ORIGINAL / ORIGINAL ARTICLE Larico Uchamaco G, y cols.
lenguasimplementadas, es una característica
del sistema de código abierto Apertium.
apertium-es-qve.qve.lexc.- Diccionario
monolingüe de quechua compatible con
HFST
apertium-es-qve.es.dix.- Diccionario
monolingüe del idioma español.
apertium-es-qve.es-qve.dix.- Diccionario
bilingüe español-quechua.
apertium-es-qve.qve.twol.- Reglas de
morfología compatible con HFST.
apertium-es-qve.qve-es.rlx.- Reglas de
desambiguación al diccionario
monolingüe del quechua basado en
VISLG3.
apertium-es-qve-es.tsx.- Reglas de
desambiguación al diccionario
monolingüe español basado apertium-
lextools
apertium-es-qve-qve-es.t1x.- Reglas de
transferencia estructural “chunker” del
quechua hacia español.
apertium-es-qve-qve-es.t2x.- Reglas de
transferencia estructural “interchunk”
del quechua hacia español.
apertium-es-qve-qve-es.t3x.- Reglas de
transferencia estructural “postchunk” del
quechua hacia español.
apertium-es-qve-es-qve.t1x.- Reglas de
transferencia estructural “chunker” del
español hacia quechua.
apertium-es-qve-qve-es.t2x.- Reglas de
transferencia estructural “interchunk”
del español hacia quechua.
apertium-es-qve-qve-es.t3x.- Reglas de
transferencia estructural “postchunk” del
español hacia quechua.
Creación de los diccionarios monolingües
Cada diccionario monolingüe se especifica
en un fichero compatible con HFST,
especificando LEXICONES para cada
categoría gramatical, LEXICONES para
cada sufijo, LEXICONES para los grupos
de nombres, adjetivos, verbos, etc.
Tabla 1
Estructura y contenido del diccionario
monolingüe. Diccionario monolingüe
quechua apertium-es-
qve.lexc
Significado
<n>
<adj>
<prnp>
<adv>
<vblex>
<m>
<sg>
<pl>
otros
! nombre
! adjetivo
! pronombre
! advervio
! verbo
! masculino
! singular
! plural
. . .
Nombres ;
Adjetivos ;
PrnPersonales ;
Adverbios ;
Verbos ;
otros
!Nombres
!Adjetivos
!PronombresP
!Adverbios
!Verbos
. . .
LEXICON Plural
<pl>:>kuna;
LEXICON Caso
<acc>:>ta;
<abl>:>manta;
LEXICON Posv
<px1sg>:y;
Otros
! plural s
! acusativo
a!
ablativo de
! posesivo
1ra persn
singular
...
Lexicon Nombres
wasi:wasi N ;
t’anta:t’anta N ;
Lexicon Adjetivos
hatun:hatun ADJ;
musuq:musuq ADJ;
LexiconPrnPerson
nuqa:nuqa PRNP;
Lexicon Advervio
may:may ADV;
Lexicon verbos
mikhuy:mikhu V;
munay:muna V;
otros
!casa
!pan
!grande
!nuevo
!yo
!dónde
!comer
!querer
... Fuente: Elaboración propia.
Creación de los diccionarios bilingües
Se asigna cada forma (palabra raíz) léxica
de la Lengua Origen que corresponde a cada
forma léxica de la Lengua Meta, de cada
diccionario bilingüe se obtienen dos
productos según el sentido en el que el
sistema los lea: leídos de izquierda a
derecha se obtiene el módulo de
transferencia léxica del idioma Lengua
Origen a la Lengua Meta y leídos de derecha
a izquierda la transferencia de la Lengua
Meta a la Lengua Origen.
62
EL CEPROSIMAD. 2013; 2(1): 57-65 Incubación de sistema de traducción automática español a quechua,
basado en la plataforma libre y código abierto Apertium
SISTEMAS - ARTÍCULO ORIGINAL / ORIGINAL ARTICLE Larico Uchamaco G, y cols.
Tabla 2
Estructura y contenido del diccionario
bilingüe Diccionario bilingüe español quechua apertium-
es-qve.es-qve. dix
<sdefs>
<sdef n="n" c="Nombre"/>
<sdef n="adj" c="Adjetivo"/>
<sdef n="prn"c="Prnombre">
<sdef n="adv" c="Adverbio/>
<sdef n="vblex" c="Verbo"/>
<sdef n="sg" c="Singular"/>
<sdef n="pl" c="Plural"/>
<section id="NOMBRES">
<l>t’anta</l><r>pan</r>
<l>wasi</l><r>casa</r>
<section id="ADJETIVOS">
<l>hatun</l><r>grande</r>
<l>musuq</l><r>nuevo</r>
<section id="PRNPERSON">
<l>nuqa</l><r>yo</r>
<section id="ADVERBIO">
<l>may</l><r>dónde</r>
<section id="VERBOS">
<l>mikhuy</l><r>comer</r>
<l>munay</l><r>querer</r> Fuente: Elaboración propia.
Reglas de Transferencia estructural
<rule comment="Regla nombres">
<pattern>
<pattern-item n="nom"/>
</pattern>
<action>
<call-macro n="firstWord"><with-param
pos="1"/></call-macro>
<out> <chunk name="nombre" >
<tags> <tag>
<lit-tag v="SN"/></tag>
<tag><lit-tag v="nom"/></tag>
</tags>
<lu> <clip pos="1" side="tl"
part="lem"/>
<clip pos="1" side="tl" part="a_nom"/>
<lit-tag v="2"/>
</lu>
</chunk>
</out>
</action>
</rule>
Compilación del sistema Traducción
Automática español-quechua “apertium-
es-qve”
Compilando el diccionario morfológico
español #lt-complrapertium-es-
qve.es.dix es-qve.automorf.bin
Dando formato con foma a apertium-es-
qve.qve.lexc #hfst-lexc.-
formatfomaapertium-es-
qve.qve.lexcqve.lexc.hfst
Formato foma para apertium-es-
qve.qve.twol #hfst-twolc–
formatfomaapertium-es-qve.qve.twol -o
qve.twol.hfst
Composición lexc y twol #hfst-
compose-intersect -1 qve.lexc.hfst -2
qve.twol.hfst -o qve.hfst
Compilando diccionario morfológico
quechua #hfst-invertqve.hfst | hfst-
fst2fst -O -o qve-es.automorf.hfst
Compilando diccionario bilingüe
español-quechua #lt-comprl apertium-
es-qve.es-qve.dix es-qve.autobil.bin
Compilando diccionario bilingüe
quechua-español #lt-comprl apertium-
es-qve.es-qve.dixqve-es.autobil.bin
Compilando diccionario de auto-
generación es-qve #hfst-fst2fst -O
qve.hfst -o es-qve.autogen.hfst
Compilando diccionario de auto-
generación qve-es #lt-comprlapertium-
es-qve.es.dixqve-es.autogen.bin
Compilando reglas de desambiguación
al diccionario monolingüe quechua #cg-
compapertium-es-qve.esqve. rlx es-
qve.rlx.bin
Compilando reglas de transferencia
estructural es-qve #apertium-preprocess-
transfer apertium-es-qve.es-qve.t1x es-
qve.t1x.bin #apertium-preprocess-
transfer apertium-es- qve.es-qve.t2x es-
qve.t2x.bin #apertium-
preprocesstransfer apertium-es-qve.es-
qve.t3x es-qve.t3x.bin
Compilando reglas de transferencia
estructural qve-es #apertium-preprocess-
transfer apertium-es-qve.qve-es.t1x qve-
es.t1x.bin #apertium-preprocess-transfer
apertiumes- qve.qve-es.t2x qve-
es.t2x.bin #apertium-preprocesstransfer
63
EL CEPROSIMAD. 2013; 2(1): 57-65 Incubación de sistema de traducción automática español a quechua,
basado en la plataforma libre y código abierto Apertium
SISTEMAS - ARTÍCULO ORIGINAL / ORIGINAL ARTICLE Larico Uchamaco G, y cols.
apertium-es-qve.qve-es.t3x qve-
es.t3x.bin
RESULTADOS Y DISCUSIÓN
Análisis morfológico de quechua
Proporcionando entrada la palabra
"wasi" al sistema #echo "wasi" | hfst-
lookupqve-es.automorf.hfst se obtiene la
salida wasi: wasi<n><nom>, donde wasi
es la palabra raíz y <n><nom> son
etiquetas que indican que pertenece a la
categoría gramatica nombre.
Proporcionando entrada la palabra
aglutinada "wasiy" al sistema #echo
"wasiy" | hfst-lookupqve-
es.automorf.hfst se obtiene la salida
wasiy: wasi<n><px1sg><nom>, wasi es
la palabra raíz que pertenece
<n><nomb> "nombre" como el anterior,
seguidamente el sufijo "y" cuya etiqueta
<px2sg> indica que pertence a la
categoría posesivo primera persona
singular. Sin embargo si
proporcionamos la palabra aglutinada
"wasiyki" #echo "wasiyki" |
hfstlookupqve-es.automorf.hfst el sufijo
"yki" está consiserado uno sólo de
acuerdo al concepto linguístico por tanto
esto indica <px2sg> posesivo segunda
personal singular.
Seguimos aglutinando a la palabra
anterior ahora como entrada tenemos
"wasiykiman" #echo "wasiykiman" |
hfst-lookupqve-es.automorf.hfst se tiene
en la salida wasiykiman:
wasi<n><px2sg><dat>, wasi ya
sabemos que es la raíz que pertence a la
categoría nombre, <px2sg> indica que el
sufijo "yki" pertenece a la categoría
posesivo segunda persona singular,
finalmente <dat> refiere al sufijo "man"
que pertence a la categoría dativoilativo.
Más sufijos sobre sufijos como entrada
"wasiykimanta" #echo "wasiykimanta" |
hfst-lookupqvees. automorf.hfst se tiene
como salida wasiykimanta:
wasi<n><px2sg><abl>, a diferencia de
lo anterior la etiqueta <abl> indica que
el sufijo "manta" pertenece a los sufijos
ablativo.
Cada vez la palabra puede ser más
grande en quechua esta palabra
"wasiykikunamanta" tiene sentido #echo
"wasiykikunamanta" | hfst-lookupqvees.
automorf.hfst como salida se tiene
wasiykikunamanta:
wasi<n><px2sg><pl><abl>, visto lo
anterior siendo wasi raíz de la palabra,
<px2sg> es posesivo segunda persona
singular, <pl> plural es decir con
respecto a wasi, y finalmente <abl> es
ablativo.
Lengua quechua el fundamento lingüístico
es similar, las salidas proporcionadas son
listas para proporcionar como entrada al
siguiente módulo del traductor.
Traducción de palabras y frases cortas de
quechua a español
Ingresando la palabra "wasi" al sistema
para su traducción en la dirección de
qve-es quechua a español #echo "wasi" |
apertium -d .qve-es se tiene como salida
en españo casa.
Teniendo la palabra raíz "wasi" se
agrega el sufijo "yki" #echo "wasiyki" |
apertium -d .qve-es, se tiene como
resultado en español tu casa.
Aglutinando más sufijos en quechua
"wasi+yki+man" #echo "wasiykiman" |
apertium -d .qve-es, se tiene la
traducción a tu casa.
Ingresando sufijos sobre sufijo
"wasi+yki+manta" #echo
"wasiykimanta" | apertium -d .qve-es, la
traducción que da el sistema es de tu
casa.
Sucesivamente quechua puede tener más
grande las palabras aglutinadas
"wasi+yki+kuna+manta" #echo
"wasiykikunamanta" | apertium -d .qve-
es, como salida en español se tiene la
frase de tus casas.
64
EL CEPROSIMAD. 2013; 2(1): 57-65 Incubación de sistema de traducción automática español a quechua,
basado en la plataforma libre y código abierto Apertium
SISTEMAS - ARTÍCULO ORIGINAL / ORIGINAL ARTICLE Larico Uchamaco G, y cols.
Traducción de palabras y frases cortas de
español a quechua
De forma analógica en la dirección de
es-qveespañolquechua, se ingresa la
palabra "casa" #echo "casa" | apertium -
d . es-qve, como salida se tiene wasi.
En este caso se ingresa la frase corta
"esta casa" #echo "esta casa" | apertium -
d . es-qve, se obtiene la traducciónen
quechua kaywasi.
Otra frase desde español a quechua
#echo "esta casa nueva" | apertium -d .
es-qve, teniendo como salida la
traducción kaywasimusuq.
CONCLUSIONES
Mediante la investigación se ha explorado la
ingeniería de traducción automática de
Apertium, permitiendo incubar un sistema
apertium-es-qve, la creación y manipulación
de los datos lingüísticos requiere de la
intervención de linguistas, la compilación
son secuencias del shell de linux
automatizable para el makefile.
El sistema traductor automático apertium-
es-qve es funcional y se ajustan a la
plataforma de código abierto Apertium, aun
cuando son divergentes los pares entre los
tipos flexiva fusionante (español) y
aglutinante (quechua), esto es factible
utilizando las herramientas de Helsinki
Finite-StateTransducer (HFST) para el
analizador morfológico.
Finalmente algunas reglas de transferencia
puestas en los datos lingüísticos permiten la
traducción de algunas palabras y frases
cortas las mismas que prueban la
funcionalidad de los dos sistemas incubados
que tiene el camino a transformarse como
sistema de traducción automática.
AGRADECIMIENTOS
De manera especial a Vlastimil Rataj por su
apoyo en la comprensión del LEXC.
A CONCYTEC por su aprobación como
proyecto de investigación,
A personas muy especiales que han ayudado
con su sabiduría y experiencia plasmar
muchas de sus ideas en esta obra.
REFERENCIAS BIBLIOGRÁFICAS
Annete Rios, S., Göhring A. & Martin Wokl
A. (2009). “Quechua-Spanish Parallel
Treebank". Linguistic Issues in
Language Technology. University of
Zurich. Recuperado de: http://dx.doi.
org/10.5167/uzh-20593
Annete Rios, S. (2011). “Checking an
agglutinative language: Quechua".
Linguistic Issues in Language
Technology. University of Zurich.
Recuperado de: http://dx.doi.
org/10.5167/uzh-52921
Armentano-Oller, C., Corbí-Bellot, A. M.,
Forcada, M. L., Ginestí-Rosell, M.
Montava Belda, M. A., Ortiz-Rojas, S.
et al. (2007). "Apertium, una
plataforma de código abierto para el
desarrollo de sistemas de traducción
automática". Proceedings of the floss
international conference, 2007, pages
5-20, Universitatd’ Alacant.
Recuperado de: http://transducens.
dlsi.ua.es
Cerrón, Palomino, (2000). Rodolfo.
Lingüística Aimara. Lima.
Kenneth, R. Beesly y LauriKarttunen.Finite-
(2002). State Morphology Xerox
Tools and Techniques. Recuperado de:
https://victorio.uit.no/langtech/tags/Ro
ot-of-gt-UTF-8-conversion/gt/doc/
book.pdf_1.pdf
Rusell, Stuart y Norvig, Meter. (2004)
"Inteligencia Artificial un Enfoque
Moderno", Segunda Edición, Madrid.
Universidad Andina Néstor Cáceres
Velásquez. (2003). Morfología
contrastiva Quechua / Aymara /
Castellano. Escuela de Postgrado.
Segunda Especialización en
Educación Bilingüe Intercultural.
Juliaca, Perú.
65