induccion gramatical semisupervisada usando … · induccion gramatical semisupervisada usando...

8
Inducci´ on Gramatical Semisupervisada usando Informaci´ on de An ´ alisis Superficial * Semisupervised Grammar Induction based on Text Chunking Information Lourdes Araujo, Jes ´ us Santamar´ ıa UNED, NLP-IR Group [email protected], [email protected] Resumen: El an´ alisis sint´ actico de los textos es un proceso fundamental en el procesamien- to del lenguaje natural que requiere disponer de la gram´ atica correspondiente a la lengua considerada. La gram´ atica puede obtenerse de un corpus anotado sint´ acticamente, pero ta- les corpora no existen para muchas lenguas. Esta raz´ on ha provocado un inter´ es creciente en los m´ etodos no supervisados de inducci´ on gramatical, que no requieren dichos corpora. Sin embargo, los resultados de estos m´ etodos son menos precisos. Por este motivo nosotros hemos recurrido a informaci´ on adicional menos costosa de obtener. Concretamente, en es- te trabajo estudiamos la forma de introducir el an´ alisis sint´ actico superficial para mejorar los resultados de la inducci´ on gramatical no supervisada de un sistema basado en patrones exicos. El an´ alisis superficial o chunking identifica a los constituyentes de la oraci´ on, sin especificar su estructura interna. Los resultados han mostrado una mejora apreciable de los resultados a medida que se a ˜ naden distintos tipos de constituyentes. Palabras clave: Inducci´ on Gramatical, M´ etodos semisupervisados, An´ alisis superficial Abstract: Syntactic analysis of texts requires the availability of the grammar underlying the language. The grammar can be obtained from corpora syntactically annotated, but such corpora do not exist for many languages. This has led to a growing interest in unsupervi- sed grammar induction, which does not require such annotations, but provides less accurate results. Aiming at improving the accuracy of this kind of approach, we have resorted to additional information, which can be obtained more easily. Shallow parsing or chunking identifies the sentence constituents, but without specifying their internal structure. In this work we have investigated how the results of a pattern-based unsupervised grammar induc- tion system improve as data on new kind of phrase are added. Keywords: Grammar induction, Semisupervised Methods, Chunking 1. Introducci´ on Los analizadores sint´ acticos, que requieren la gram´ atica subyacente a la lengua considerada, son un recurso necesario para muchos proce- sos como la extracci´ on de informaci´ on, la tra- ducci´ on autom´ atica, etc. La inducci ´ on gramatical (IG) es el proceso de extracci´ on de una gram´ ati- ca a partir de una colecci´ on de textos. Los tra- bajos realizados en esta l´ ınea pueden clasificarse en tres grupos en funci´ on del grado de supervi- si´ on que requieren. Los sistemas de IG supervi- sada (IGS) requieren ejemplos anotados sint´ acti- camente que no est´ an disponibles en muchas len- guas. Los sistemas no supervisados (IGNS) s´ olo * Financiado por el proyecto Holopedia (TIN2010-21128- C02), y por el proyectos de la Comunidad Aut´ onoma de Madrid MA2VICMR (S2009/TIC-1542). requieren textos planos 1 , pero su rendimiento es menor que el de los sistemas supervisados. Fi- nalmente, existe un enfoque intermedio, el semi- supervisado (IGSS), que requiere cierto grado de supervisi´ on, pero no textos con anotaciones de an´ alisis sint´ actico completo. Se han desarrollado diversos trabajos dentro de los tres tipos de IG. Trabajos recientes en IGS (Petrov, 2010) han reportado resultados que se encuentran entre el 90 % y el 93 % cuando se aplican a la secci´ on Wall Street Journal del Penn Treebank corpus (Marcus, Santorini, y Marcin- kiewicz, 1994). Algunas de las propuestas m´ as recientes de IGNS han sido hechas por Klein y Manning (2005), Bod (2006) y Santamar´ ıa y Araujo 1 En la literatura se consideran m´ etodos no supervisa- dos aquellos que requieren textos etiquetados con categor´ ıas exicas, siempre que no requieran anotaciones sint´ acticas. Procesamiento de Lenguaje Natural, Revista nº 48 marzo de 2012, pp 35-42 recibido 21-12-11 revisado 10-03-12 aceptado 18-03-12 ISSN 1135-5948 © 2012 Sociedad Española para el Procesamiento de Lenguaje Natural

Upload: dinhthuy

Post on 03-Oct-2018

233 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Induccion Gramatical Semisupervisada usando … · Induccion Gramatical Semisupervisada usando Informaci´ on de´ Analisis´ ... supervision, pero no textos con anotaciones de´

Induccion Gramatical Semisupervisada usando Informacion deAnalisisSuperficial ∗

Semisupervised Grammar Induction based on Text Chunking Information

Lourdes Araujo, Jesus SantamarıaUNED, NLP-IR Group

[email protected], [email protected]

Resumen:El analisis sintactico de los textos es un proceso fundamental en el procesamien-to del lenguaje natural que requiere disponer de la gramatica correspondiente a la lenguaconsiderada. La gramatica puede obtenerse de un corpus anotado sintacticamente, pero ta-les corpora no existen para muchas lenguas. Esta razon ha provocado un interes crecienteen los metodos no supervisados de induccion gramatical, que no requieren dichos corpora.Sin embargo, los resultados de estos metodos son menos precisos. Por este motivo nosotroshemos recurrido a informacion adicional menos costosa de obtener. Concretamente, en es-te trabajo estudiamos la forma de introducir el analisis sintactico superficial para mejorarlos resultados de la induccion gramatical no supervisada de un sistema basado en patroneslexicos. El analisis superficial ochunkingidentifica a los constituyentes de la oracion, sinespecificar su estructura interna. Los resultados han mostrado una mejora apreciable de losresultados a medida que se anaden distintos tipos de constituyentes.Palabras clave:Induccion Gramatical, Metodos semisupervisados, Analisis superficial

Abstract: Syntactic analysis of texts requires the availability of the grammar underlyingthe language. The grammar can be obtained from corpora syntactically annotated, but suchcorpora do not exist for many languages. This has led to a growing interest in unsupervi-sed grammar induction, which does not require such annotations, but provides less accurateresults. Aiming at improving the accuracy of this kind of approach, we have resorted toadditional information, which can be obtained more easily. Shallow parsing or chunkingidentifies the sentence constituents, but without specifying their internal structure. In thiswork we have investigated how the results of a pattern-based unsupervised grammar induc-tion system improve as data on new kind of phrase are added.Keywords: Grammar induction, Semisupervised Methods, Chunking

1. Introduccion

Los analizadores sintacticos, que requieren lagramatica subyacente a la lengua considerada,son un recurso necesario para muchos proce-sos como la extraccion de informacion, la tra-duccion automatica, etc. La induccion gramatical(IG) es el proceso de extraccion de una gramati-ca a partir de una coleccion de textos. Los tra-bajos realizados en esta lınea pueden clasificarseen tres grupos en funcion del grado de supervi-sion que requieren. Los sistemas de IG supervi-sada (IGS) requieren ejemplos anotados sintacti-camente que no estan disponibles en muchas len-guas. Los sistemas no supervisados (IGNS) solo

∗ Financiadopor el proyecto Holopedia (TIN2010-21128-C02), y por el proyectos de la Comunidad Autonoma deMadrid MA2VICMR (S2009/TIC-1542).

requieren textos planos1, pero su rendimiento esmenor que el de los sistemas supervisados. Fi-nalmente, existe un enfoque intermedio, el semi-supervisado (IGSS), que requiere cierto grado desupervision, pero no textos con anotaciones deanalisis sintactico completo.

Se han desarrollado diversos trabajos dentrode los tres tipos de IG. Trabajos recientes en IGS(Petrov, 2010) han reportado resultados que seencuentran entre el 90 % y el 93 % cuando seaplican a la seccion Wall Street Journal del PennTreebank corpus (Marcus, Santorini, y Marcin-kiewicz, 1994).

Algunas de las propuestas mas recientes deIGNS han sido hechas por Klein y Manning(2005), Bod (2006) y Santamarıa y Araujo

1En la literatura se consideran metodos no supervisa-dos aquellos que requieren textos etiquetados con categorıaslexicas, siempre que no requieran anotaciones sintacticas.

Procesamiento de Lenguaje Natural, Revista nº 48 marzo de 2012, pp 35-42 recibido 21-12-11 revisado 10-03-12 aceptado 18-03-12

ISSN 1135-5948 © 2012 Sociedad Española para el Procesamiento de Lenguaje Natural

Page 2: Induccion Gramatical Semisupervisada usando … · Induccion Gramatical Semisupervisada usando Informaci´ on de´ Analisis´ ... supervision, pero no textos con anotaciones de´

(2010). En el primer trabajo se usa el algoritmode Expectation-Maximization (EM) para selec-cionar elarbol mas probable de una oracion. Estetrabajo alcanza una medida-F de71,1% para elcorpus WSJ10. Este corpus, que consta de 7422oraciones, esta formado por oraciones de hasta10 palabras de la seccion Wall Street Journal delPenn Treebank. El sistema propuesto por Bod(2006) genera todos losarboles binarios para ca-da oracion y elige aquel que puede obtenerse conel numero menor de sustituciones de subarbo-les en los nodos delarbol mayor generado. Es-te sistema alcanza una medida-F de82,9% parael corpus WSJ10, pero genera una enorme canti-dad de subarboles para cada oracion lo que haceque el sistema no sea aplicable a oraciones lar-gas. El sistema de IGNS de Santamarıa y Arau-jo (2010) esta basado en la deteccion estadısti-ca de determinados patrones de etiquetas lexicasque aparecen en las oraciones. Este sistema, quea diferencia de otros, considera cualquier tipo dearbol, no solo los binarios, alcanza una medida-Fdel 80.50 % para el WSJ10 corpus incluyendo laoracion como sintagma, como hacen el resto delos sistemas y de 75.82 % cuando no se incluyeeste sintagma, que siempre es correcto.

Finalmente, tambien hay un interes crecienteen el enfoque semisupervisado (IGSS), aunquela mayor parte de los trabajos se han desarrolla-do para analisis de dependencias. Por ejemplo,Druck, Mann, y McCallum (2009) han propues-to un sistema para extraer gramaticas de depen-dencias usando conocimiento linguıstico a priori.Haghighi y Klein (2006) han propuesto un mo-delo para incorporar conocimiento en el sistemano supervisado de Klein y Manning (2005). Eneste caso, el conocimiento a priori se especifi-ca de forma declarativa, introduciendo una seriede ejemplos canonicos de cada tipo de sintagmaconsiderado.

El enfoque supervisado requiere corpus ano-tados con el analisis sintactico completo, que noestan disponibles en muchas lenguas, o para de-terminados tipos de textos. Por este motivo es in-teresante considerar el enfoque no supervisado.Sin embargo, a pesar de las paulatinas mejoras enel rendimiento de este tipo de sistemas, aun hayuna diferencia importante entre su rendimiento yel de los sistemas supervisados. Para salvar estadiferencia, en este trabajo se propone introducirun pequeno grado de supervision que no requie-ra el analisis completo de las oraciones, sino solounanalisis superficial. En este tipo de analisis seidentifican los sintagmas de la oracion pero sinidentificar su estructura interna.

En los experimentos realizados en este tra-bajo hemos utilizado directamente los sintagmasanotados en un corpus, para evitar la dependen-cia de los resultados de un analizador superficialespecıfico. Sin embargo, se han obtenido resul-tados superiores al 95 % (Sha y Pereira, 2003),para algunos analizadores superficiales, aunqueno estan integrados en un sistema de libre acce-so. Por ello esperamos que los resultados solo sevieran ligeramente afectados si en lugar de ano-taciones se utilizara un analizador superficial dealto rendimiento.

Hemos analizado el efecto de introducir dis-tintos tipos de sintagmas: nominales (SN), ver-bales (SV) y preposicionales (SP), separada yconjuntamente. Tambien se ha estudiado el efec-to de introducir diferentes grados de supervision.El grado de supervision es la tasa de sintagmasanotados previamente respecto al numero totalde sintagmas. Se ha elegido como sistema no su-pervisado de base el propuesto por Santamarıay Araujo (2010) ya que los patrones que se ex-traen en este modelo pueden combinarse facil-mente con otros correspondientes a la supervi-sion introducida, porque no se restringe aarbolesbinarios y proporciona resultados competitivos.

El resto del artıculo se organiza de la siguienteforma: La seccion 2 describe el sistema de IGNSde partida. La seccion 3 describe la forma en quese introduce la informacion de analisis superficialen el sistema. La seccion 4 presenta y analiza losresultados, y finalmente la seccion 5 resume lasconclusiones del trabajo.

2. Induccion Gramatical no Supervisadabasada en Patrones

Santamarıa y Araujo (2010) han desarrollado unsistema de induccion no supervisada basado enla idea de que las categorıas lexicas tienden adesempenar determinados papeles en la estruc-tura del arbol sintactico. De acuerdo con esto,las categorıas lexicas se clasifican en un pequenonumero de clases, cuyos componentes tienden aaparecer en determinadas posiciones delarbol deanalisis. Este comportamiento no es especıfico deuna determinada lengua, sino que se observa enmuchas de ellas. El conjunto de etiquetas lexi-cas se clasifica en una serie de clases de etique-tas en funcion de ciertas heurısticas basadas enlas frecuencias de aparicion de dichas etiquetas.Despues, esta clasificacion se utiliza para anali-zar cualquier oracion mediante un procedimientodeterminista que selecciona los constituyentes ylos niveles en que aparecen en elarbol de analisisen funcion de las clases de etiquetas.

Lourdes Araujo, Jesús Santamaria

36

Page 3: Induccion Gramatical Semisupervisada usando … · Induccion Gramatical Semisupervisada usando Informaci´ on de´ Analisis´ ... supervision, pero no textos con anotaciones de´

Consideremos algunos ejemplos dearbolesdeanalisis para ilustrar las clases de etiquetas lexi-cas que se consideran en el modelo. Al examinarel ejemplo que aparece en la figura 1 podemosver que algunas secuencias de etiquetas lexicas oconstituyentes aparecen en el nivel mas bajo delarbol (estan exclusivamente compuestas de eti-quetas lexicas, sin etiquetas sintacticas que denlugar a otros constituyentes). Este es el caso de(DT, NNP) y (DT, NN), donde DT es un deter-minante, NNP un nombre propio singular, y NNun nombre singular. Otras etiquetas lexicas co-mo VBZ (verbo presente de singular, 3a perso-na) y TO dan lugar a un nuevo nivel en elarbol deanalisis ya que despues de ellas aparece un nuevosubarbol. El modelo intenta capturar estas ideas,identificando las clases de etiquetas que corres-ponden a un patron estructural determinado.

Figura 1: Arbol de analisis de la oracion TheU.S.S.R. belongs to neither organizationproce-dente del Penn Treebank.

El procedimiento para identificar las distintasclases de etiquetas lexicas se basa en la detecciondelconstituyente seguro(CS):

CS es la secuencia mas frecuente de dosetiquetas lexicas en el corpus.

La hipotesis es que al menos para el constituyen-te mas frecuente el numero de apariciones superecon seguridad al numero de secuencias que apa-recen por azar. En el corpus WSJ10, CS es DTNN*, donde NN* representa a cualquier tipo denombre (NN, NNS, NNP, NNPS).

Figura 2:Arbol de analisisde la oracionTelerateprovides an electronic financial information net-workprocedente de Penn Treebank.

El modelo considera las siguientes clases deetiquetas lexicas, cuya identificacion se basa enel comportamiento de las etiquetas respecto alCS:

Extensores: sonetiquetas lexicas con unatendencia a aparecer entre las etiquetas quedefinen al CS. Este es el caso de la etiquetaJJ (adjetivo) que aparece entre DT y NN enla figura 2.

Separadores: sonetiquetas lexicas con unatendencia estadıstica a aparecer fuera delCS. Este es el caso de VBZ en elarbol deanalisis de las figuras 1 y 2, y de TO en lafigura 1.

Subseparadores: sonetiquetas lexicas queno tienen una tendencia definida a aparecerdentro o fuera del CS. Generalmente apare-cen delimitando constituyentes, pero sin darlugar a un nuevo nivel en elarbol de analisiscomo hacen los separadores. Este es el casode la etiqueta POS (terminacion de posesi-vo) que aparece en la figura 3.

Figura 3: Arbol de analisis de la oracion Sodid the Federal Reserve Board’s industrial-production indexprocedente de Penn Treebank.

Vamos a introducir alguna notacion para es-pecificar como se identifican los extensores, se-paradores y subseparadores. Sea #(E1, . . . , En)el numero de apariciones de la secuencia de eti-quetas (E1, . . . , En). Ellado determinantede unaetiquetaE se define como la etiqueta izquierda(CSi) o la derecha (CSd) del constituyente segu-ro, con la mayor diferencia en el numero de apa-riciones deE a sus dos lados. Por ejemplo, si ladiferencia deE inmediatamente a la derecha ya la izquierda de DT (etiqueta izquierda del CS)es mayor que la diferencia de apariciones deEa ambos lados de NN (etiqueta derecha de CS),entonces CSi es el lado determinante deE y sedenotads(E). Introducimos tambien el predicadosimpara denotar la similitud entre el numero deapariciones de una secuencia de dos etiquetas ylas de la secuencia en orden inverso, es decir:

sim(E1, E2) = true iff#(E 1, E 2)/#(E 2, E 1) ∈ [3/4, 4/3]

Entonces, una etiquetaE se considera un se-parador si el lado determinante es el izquierdo,

Inducción Gramatical Semisupervisada usando Información de Análisis Superficial

37

Page 4: Induccion Gramatical Semisupervisada usando … · Induccion Gramatical Semisupervisada usando Informaci´ on de´ Analisis´ ... supervision, pero no textos con anotaciones de´

Separadores MD, PRP, IN, RB, RBR,CC, TO, VB, VBD, VBN,VBZ, VBP, VBG, EX, LS,RP, UH, WP, WRB, WDT

Sub-separadoresDT, PDT, POS, SYM, NN,NNS, NNP, NNPS

Cuadro1: Separadores y Sub-separadores obte-nidos para el corpus WSJ10.

CSi, y el numero de apariciones deE a am-bos lados deCSi no es similar, apareciendoEcon mas frecuencia a la izquierda deCSi (fueradeCS), o si el lado determinante es el derecho,CSd, y el numero de apariciones deE a amboslados deCSd no es similar, apareciendoE conmas frecuencia a la derecha deCSd (fuera deCSde nuevo).

Una etiqueta se considera un subseparador siel lado determinante es el izquierdo,CSi, y elnumero de apariciones deE a ambos lados deCSi es similar, o si el lado determinante es elderecho,CSd, y el numero de apariciones deEa ambos lados deCSd es similar.

En los casos restantes se considera que la pre-ferencia de la etiquetaE es a estar dentro delos constituyentes, formando parte de ellos, y portanto se clasifica como extensor.

El cuadro 1 muestra el conjunto de separado-res y subseparadores obtenidos aplicando el pro-cedimiento descrito al corpus WSJ10.

Los sub-separadores pueden formar gruposhacia su izquierda o hacia su derecha. La prefe-rencia de cada uno de ellos por una u otra di-reccion se determina comparando el numero deapariciones de la secuencia mas frecuente forma-da por el sub-separador y una etiqueta lexica a suizquierda y por el sub-separador y una etiquetalexica a su derecha. Despues se toma como di-reccion preferente la correspondiente a la secuen-cia mas frecuente. De acuerdo con este criterioDT, PDT, SYM tienden a aparecer a la izquierdadel sintagma, mientras POS, NN, NNS, NNP yNNPS lo hacen a la derecha.

La clasificacion de las etiquetas en separado-res, sub-separadores y extensores permite definirun procedimiento de analisis determinista basadoen el comportamiento esperado de cada etiquetalexica de la oracion. Este procedimiento sigue lossiguientes pasos:

Se identifican los separadores. Para la ora-cion del ejemploThe(DT) computers(NNS)were(VBD) crude(JJ) by(IN) today(NN)

’s(POS) standards(NNS)los separadoresaparecen en negrita:

[DT NNS VBD JJIN NN POS NNS]

Se divide la oracionde acuerdo a los separa-dores. El primer separador que es un verbo,si hay alguno, se utiliza para dividir la ora-cion en dos partes.

[[DT NNS] [VBD [JJ [IN [NN POSNNS]]]]]

Cada separador se utiliza para generar dossintagmas: uno compuesto de la secuenciade etiquetas entre el separador y el siguienteseparador, y otro que incluye al separador yla secuencia de etiquetas hasta el final de laparte de la oracion en que se encuentra.

Se identifican los sub-separadores, que apa-recensubrayados en la oracion:

[[DT NNS] [VBD [JJ[IN [NN POSNNS]]]]]

Se divide la oracion de acuerdo a los sub-separadores formando grupos de acuerdo asu direccion de agrupamiento preferente.

[[DT NNS] [VBD [JJ[IN [[NN POS]NNS]]]]]

En este punto se ha obtenido elarbol de analisisde la oracion.

3. Introduccion de Informacion deAnalisis Superficial

El analisis superficial ochunkingdivide a las ora-ciones en segmentos sin solapamientos. Los sis-temas de analisis superficial asignan a las oracio-nes una estructura mas plana que los de analisiscompletos. Generalmente identifican los consti-tuyentes para una determinada profundidad delarbol.

La mayor parte de los analizadores superfi-ciales se basan en modelos estadısticos (Church,1988; Sang, 2002; Sha y Pereira, 2003) que seaplican para obtener un automata finito (Pla, Mo-lina, y Prieto, 2000; Araujo y Serrano, 2008) oun conjunto de reglas (Bourigault, 1992; Vouti-lainen, 1993; Ramshaw y Marcus, 1995) que per-miten identificar a los constituyentes. En muchoscasos se centran en un tipo particular de sintag-ma, los nominales, aunque las tecnicas son apli-cables tambien al resto. Algunos de estos siste-mas han alcanzado valores tanto de precision co-mo de cobertura que estan por encima del 95 %.

Lourdes Araujo, Jesús Santamaria

38

Page 5: Induccion Gramatical Semisupervisada usando … · Induccion Gramatical Semisupervisada usando Informaci´ on de´ Analisis´ ... supervision, pero no textos con anotaciones de´

Estas consideraciones nos han llevado a di-senar un metodo de analisis que aprovecha lainformacion de analisis superficial para mejorarlos analisis proporcionados por un sistema de in-duccion gramatical no supervisada. En el siste-ma semisupervisado (IGSS) al que da lugar estacombinacion de informacion se supone que lossintagmas de un determinado tipo y a una deter-minada profundidad delarbol de analisis se hanidentificado previamente. La idea del sistema se-misupervisado es aplicar los sintagmas identifi-cados como restricciones al proceso de genera-cion del analisis completo que realiza el siste-ma no supervisado. El sistema de IGNS se aplicapara generar elarbol sintactico correspondientea cada uno de los sintagmas identificados. Unode estos subarboles es el de la posicion superiordel arbol de analisis y se obtiene sustituyendo lossintagmas identificados por etiquetas especialesque representan a alguna de las clases de etique-tas lexicas con las que trabaja el sistema no su-pervisado. El proceso de analisis semisupervisa-do sigue los siguientes pasos:

1. Reemplazar en la oracion los sintagmas deltipo (nominales, verbales, etc) y nivel que seeste considerando, por etiquetas lexicas es-peciales que representan a las clases de eti-quetas lexicas que considera el sistema deIGNS: separadores, subseparadores, etc.

2. Aplicar el sistema de IGNS para generar elarbol de la oracion resultante del paso ante-rior.

3. Aplicar el sistema de IGNS para generar elarbol correspondiente a los sintagmas iden-tificados previamente.

4. Reemplazar las etiquetas lexicas especialesdel arbol generado en el paso 2, por los co-rrespondientes subarboles generados en elpaso 3.

Figura 4:Arbol de analisisde la oracion It has nobearing on our work force todayprocedente de laparte Wall Street Journal del Penn Treebank.

El resultado de este proceso depende de los ti-pos de sintagmas identificados previamente. Vea-mos un ejemplo de aplicacion del procedimientoque se ha descrito. Supongamos que se estan con-siderandounicamente sintagmas nominales. En-tonces este tipo de sintagma se sustituye por unaetiqueta especial que se corresponde con una delas clases de etiquetas lexicas consideradas. Enel caso de los sintagmas nominales hemos ele-gido la clase de los subseparadores puesto queel nucleo de este tipo de sintagmas, los nombres(NN, NNS, NNP and NNPS), se han identificadocomo subseparadores por el sistema de IGNS. Enconsecuencia, hemos definido la etiqueta lexicaespecial SUBS para sustituir a los sintagmas no-minales. Apliquemos el procedimiento de anali-sis que se ha descrito a la oracion que aparece enla figura 4, considerando solo los sintagmas no-minales del nivel superior delarbol:

1. Se identifican los sintagmas nominales delnivel superior delarbol: SN = [DT NN INPRP$ NN NN NN].

2. Los sintagmas nominales identificados en elpaso previo se reemplazan por SUBS, dandolugar alarbol que aparece en la figura 5.

Figura 5:Arbol generado por el sistema de IG nosupervisadapara la secuencia de etiquetas lexi-cas obtenida despues de reemplazar por la etique-ta lexica especial SUBS los sintagmas nominalesdel nivel superior en elarbol de la figura 4.

3. El sistema no supervisado tambien se apli-ca para generar elarbol de analisis del SNreemplazado. El resultado se muestra en lafigura 6.

Figura 6:Arbol generado por el sistema no su-pervisadopara la secuencia de etiquetas lexicascorrespondiente al SN reemplazado en la figura4.

4. Finalmente, la etiqueta especial SUBS sesustituye por elarbol de analisis encontra-do para el constituyente en el paso anterior,obteniendo elarbol final de la figura 7.

Inducción Gramatical Semisupervisada usando Información de Análisis Superficial

39

Page 6: Induccion Gramatical Semisupervisada usando … · Induccion Gramatical Semisupervisada usando Informaci´ on de´ Analisis´ ... supervision, pero no textos con anotaciones de´

Figura 7:Arbol final obtenido por el sistema se-misupervisadopara la oracion de la figura 4.

Para otros tipos de sintagmas el proceso esanalogo. En el caso de los sintagmas verbales ypreposicionales la etiqueta lexica especial que seutiliza para la sustitucion es SEP y se trata comosi fuera un separador. La razon es que el nucleode los sintagmas verbales, el verbo (VB, VBD,VBN, VBZ, etc.), pertenece a la clase de los se-paradores, como puede observarse en el cuadro1. Podemos observar tambien que la preposicion(IN), el nucleo de los sintagmas preposicionales,tambien pertenece a la clase de los separadores.

4. ResultadosEn nuestros experimentos hemos usado el corpusWSJ10, que ha sido el utilizado por el sistema debase no supervisado, lo que nos permite compa-rarnos. Aunque el corpus esta anotado sintactica-mente, nosotros solo hemos utilizado esta infor-macion con fines de evaluacion, y para obtenerlos sintagmas que se supone que proporciona unanalizador superficial, lo que nos permite no de-pender del rendimiento de un analizador particu-lar. En la evaluacion de los analisis obtenidos he-mos utilizado las medidas mas comunes en anali-sis sintactico e induccion gramatical: cobertura,precision y su media armonica, la medida-F.

La precision viene dada por el numero deparentesis en el analisis a evaluar que se corres-ponden con los delarbol correcto y lacoberturamide el numero de parentesis delarbol correctoque estan en el evaluado. Estas medidas tienenequivalentes paraarboles cuyos nodos internosno estan etiquetados, que son los considerados eneste trabajo y en los sistema de IGNS que son lareferencia de este trabajo. En estas medidas no setienen en cuenta las etiquetas asignadas a los sin-tagmas. Los sintagmas que no puede ser erroneos(los de tamano uno y los correspondientes a laoracion completa) no se han incluido en las me-didas.

Las definiciones de precision (PSE) y cober-tura (CSE) sin etiquetas de un corpus propues-to P = [Pi] respecto a un corpus de referenciaG = [Gi] son:

PSE(P,G) =

∑i|parentesis(Pi) ∩ parentesis(Gi)|∑

i|parentesis(Pi)|

,

CSE(P,G) =∑i|parentesis(Pi) ∩ parentesis(Gi)|∑

i|parentesis(Gi)|

.

Finalmente, la medida-F sin etiquetas,FSE vie-ne dada por la media armonica entre las dos me-didas anteriores.

El sistema no supervisado subyacente alcanzaunaFSE de75,82% para el corpus considerado.En la evaluacion del sistema este ha sido nuestrovalor de referencia.

Hemos estudiado el efecto de usar la informa-cion del analisis superficial para distintos tiposde sintagmas separadamente, antes de evaluar elresultado de considerarlos simultaneamente. Pa-ra cada uno se ellos tambien se han investigadodistintos niveles de supervision.

4.1. El Efecto de los SintagmasNominales

En este caso la entrada son las secuencias de eti-quetas lexicas correspondientes a los sintagmasnominales de cada oracion, en diferentes nivelesdel arbol de analisis. Los sintagmas identificadospreviamente se sustituyen por la etiqueta SUBS,que es un sub-separador.

75

77

79

81

83

85

87

1 2 3 4 5 6 7

FS

E

Nivel de Supervisión

SV

SN

SP

IGNS

SV + SN + SP

Figura 8: Resultados de FSE por nivel de su-pervision usando la anotacion de distintos ti-pos de sintagmas: nominales (SN), verbales(SV),preposicionales (SP) y los tres simultaneamente(SV+SN+SP). IGNS corresponde al valor de re-ferencia dado por el sistema no supervisado.

La grafica etiquetada SN en la Figura 8 mues-tra la FSE alcanzada usando la anotacion de sin-tagmas nominales.

Muchos arboles de analisis no presentanalgun tipo de sintagma en determinados nivelesdel arbol. Por ello, en esta fase que considera ca-da tipo de sintagma por separado, los niveles desupervision se refieren al nivel delarbol en el que

Lourdes Araujo, Jesús Santamaria

40

Page 7: Induccion Gramatical Semisupervisada usando … · Induccion Gramatical Semisupervisada usando Informaci´ on de´ Analisis´ ... supervision, pero no textos con anotaciones de´

el tipo de sintagma que se esta considerandoapa-rece. Por ejemplo, si los SNs solo aparecen en losniveles 1 y 3 delarbol, el primer nivel de super-vision es el 1 delarbol, y el segundo es el 3 delarbol.

La supervision introducida por los sintagmasnominales mejora apreciablemente los resulta-dos del sistema no supervisado (IGNS). Inclusopara el nivel de supervision mas bajo, es decir,considerando solo los sintagmas correspondien-tes al primer nivel en que aparezca alguno (quese corresponde con un nivel de supervision del17,55 %) obtenemos una mejora del 2,43 % sobreel resultado de referencia del sistema no supervi-sado.

4.2. El Efecto de los Sintagmas VerbalesLa grafica etiquetada SV en la Figura 8 muestrala FSE alcanzada usando la anotacion de sintag-mas verbales. En este caso la mejora es mayorque en el de los SNs. La razon puede estar en quelos SVs son mas difıciles de detectar de formano supervisada, ya que pueden tener un nume-ro variable de complementos y adjuntos. Por ellola informacion del analisis superficial tendrıa unefecto mayor. Para el menor nivel de supervision(21,81 %) se obtiene una mejora del 5,34 % sobreel resultado de referencia del IGNS.

4.3. El Efecto de los SintagmasPreposicionales

Finalmente consideramos que los SPs de deter-minados niveles delarbol esten anotados previa-mente. La grafica etiquetada SP en la Figura 8muestra los resultados para este caso. El porcen-taje de mejora en este caso es mas bajo, ası comoel grado de supervision de los distintos niveles,lo que indica que los SPs aparecen menos. Parael menor nivel de supervision (5,51 %) se obtie-ne una mejora del 0,81 % sobre el resultado dereferencia del IGNS.

4.4. Efecto combinadoPodemos considerar distintos tipos de sintagmasanotados simultaneamente. La grafica etiquetadaSV+SN+SP en la Figura 8 muestra la FSE al-canzada usando la anotacion de los tres tipos desintagmas por nivel de supervision. En este casolos niveles de supervision se corresponden exac-tamente con los niveles delarbol de analisis, yaque en todos los niveles hay algun tipo de sintag-ma de uno u otro tipo. El efecto combinado delos tres tipos de sintagmas, SN, SVs y SPs, me-jora el efecto obtenido para cada uno de ellos porseparado. Los resultados mas relevantes son los

Nivelsuperv. CSE. PSE FSE1(26,40 %) 84.16 78.40 81,18(7,06 %)2(47,93 %) 87.42 79.56 83,31(9,87 %)3(58,51 %) 88.90 80.15 84,3(11,18 %)4(62,70 %) 89.25 80.38 84,6(11,58 %)5(63,76 %) 89.34 80.41 84,64(11,63 %)6(63,91 %) 89.36 80.42 84,65(11,64 %)7(63,93 %) 89.36 80.42 84,65(11,64 %)

Cuadro 2: Cobertura, precision y medida-F sinetiquetas del sistema semisupervisado para lostres tipos de sintagmas.

que se obtienen para niveles bajos de supervision,que pueden obtenerse con un sistema de anali-sis superficial. Podemos ver que anotando sololos sintagmas de los tres tipos considerados en elprimer nivel delarbol (26,40 % de supervision)se obtiene una mejora del 7,06 %.

El cuadro 2 muestra los resultados numeri-cos obtenidos por nivel de supervision cuando seconsideran conjuntamente los tres tipos de sin-tagmas. El numero entre parentesis al lado delnivel indica el grado de supervision asociado alnivel. Podemos observar que los resultados decobertura y precision estan bastante balanceados.El numero entre parentesis junto a la medida-Frepresenta la mejora obtenida respecto al valor dereferencia de 75.82 del sistema no supervisado.

5. ConclusionesHemos propuesto un metodo semisupervisadopara la induccion gramatical. El modelo propues-to introduce un pequeno grado de supervision enun modelo de IG no supervisada basado en pa-trones de etiquetas lexicas. La supervision que seanade corresponde al analisis superficial de cier-tos sintagmas, y se introduce de forma muy natu-ral en el modelo. Los resultados muestran que in-cluso para los niveles mas bajos de supervision,es decir contando solo con la anotacion de lossintagmas del primer nivel delarbol, se obtieneuna mejora relevante para todos los tipos de sin-tagmas, especialmente los verbales. Por lo tantola propuesta permite mejorar el rendimiento delsistema no supervisado sin utilizar textos analiza-dos sintacticamente, ya que los analizadores su-perficiales no requieren este tipo de anotacionespara su entrenamiento.

BibliografıaAraujo, Lourdes y Jose Ignacio Serrano. 2008.

Highly accurate error-driven method for nounphrase detection.Pattern Recognition Let-ters, 29(4):547–557.

Inducción Gramatical Semisupervisada usando Información de Análisis Superficial

41

Page 8: Induccion Gramatical Semisupervisada usando … · Induccion Gramatical Semisupervisada usando Informaci´ on de´ Analisis´ ... supervision, pero no textos con anotaciones de´

Bod, Rens. 2006. Unsupervised parsing withu-dop. En CoNLL-X ’06: Proceedings of theTenth Conference on Computational NaturalLanguage Learning, paginas 85–92, Morris-town, NJ, USA. Association for Computatio-nal Linguistics.

Bourigault, D. 1992. Surface grammaticalanalysis for the extraction of terminologicalnoun phrases. EnProc. of the Int. Conf.on Computational Linguistics (COLING-92),paginas 977–981.

Church, K. W. 1988. A stochastic parts pro-gram and noun phrase parser for unrestrictedtext. EnProc. of 1st Conference on AppliedNatural Language Processing, ANLP, pagi-nas 136–143.

Druck, Gregory, Gideon Mann, y Andrew McCa-llum. 2009. Semi-supervised learning of de-pendency parsers using generalized expecta-tion criteria. EnProceedings of the Joint Con-ference of the 47th Annual Meeting of the ACLand the 4th International Joint Conference onNatural Language Processing of the AFNLP:Volume 1 - Volume 1, ACL ’09, paginas 360–368, Stroudsburg, PA, USA. Association forComputational Linguistics.

Haghighi, Aria y Dan Klein. 2006. Prototype-driven grammar induction. EnProceedings ofthe 21st International Conference on Compu-tational Linguistics and 44th Annual Mee-ting of the Association for ComputationalLinguistics, paginas 881–888. Association forComputational Linguistics.

Klein, Dan y Christopher D. Manning. 2005.Natural language grammar induction with agenerative constituent-context model.Pat-tern Recognition, 38(9):1407–1419.

Marcus, Mitchell P., Beatrice Santorini, yMary Ann Marcinkiewicz. 1994. Buil-ding a large annotated corpus of english: Thepenn treebank. Computational Linguistics,19(2):313–330.

Petrov, Slav. 2010. Products of random latentvariable grammars. EnHuman Language Te-chnologies: The 2010 Annual Conference ofthe North American Chapter of the Associa-tion for Computational Linguistics, HLT ’10,paginas 19–27.

Pla, F., A. Molina, y N. Prieto. 2000. Tag-ging and chunking with bigrams. EnProc.of the 17th conference on Computational lin-guistics, paginas 614–620.

Ramshaw, Lance A. y Mitchell P. Marcus. 1995.Text chunking using transformation-basedlearning. CoRR, cmp-lg/9505040. informalpublication.

Sang, E. F. T. K. 2002. Memory-Based ShallowParsing. ArXiv Computer Science e-prints,Abril.

Santamarıa, Jesus y Lourdes Araujo. 2010.Identifying patterns for unsupervised gram-mar induction. EnProceedings of the Four-teenth Conference on Computational NaturalLanguage Learning, paginas 38–45, Uppsala,Sweden, July. Association for ComputationalLinguistics.

Sha, Fei y Fernando Pereira. 2003. Shallow par-sing with conditional random fields. EnPro-ceedings of HLT-NAACL 2003, paginas 213–220.

Voutilainen, A. 1993. Nptool, a detector of en-glish noun phrases. EnProc. of the Worshopon Very Large Corpora (ACL), paginas 48–57.

Lourdes Araujo, Jesús Santamaria

42