explorando twitter mediante la integraci on deinformaci on...

8
Explorando Twitter mediante la integraci´on de informaci´on estructurada y no estructurada Exploring Twitter by Combining Structured and Unstructured Information Juan M. Cotelo Universidad de Sevilla [email protected] Ferm´ ın Cruz Universidad de Sevilla [email protected] F. Javier Ortega Universidad de Sevilla [email protected] Jos´ e A. Troyano Universidad de Sevilla [email protected] Resumen: En este art´ ıculo mostramos c´ omo es posible sacar partido de la infor- maci´ on estructurada que proporciona la red social Twitter. Los textos escritos en Twitter son cortos y de baja calidad, lo que dificulta la aplicaci´on de t´ ecnicas y herramientas que tradicionalmente se han venido usando para procesar textos en lenguaje natural. Sin embargo, Twitter ofrece mucho m´ as que los 140 caracteres de sus mensajes para trabajar. En el ecosistema Twitter hay muchos objetos (tweets, hashtags, usuarios, palabras, ...) y relaciones entre ellos (co-ocurrencia, menciones, re-tuiteos, ...) que ofrecen innumerables posiblidades de procesado alternativo a las ecnicas cl´ asicas de PLN. En este trabajo hemos puesto nuestra atenci´ on en la tarea de clasificaci´ on de tweets. S´ olo usando la informaci´on de la relaci´ on Follow hemos conseguido un clasificador que iguala los resultados de un clasificador basado en bolsas de palabras. Cuando usamos las features de los dos modelos, el resultado de la clasificaci´ on mejora en m´ as de 13 puntos porcentuales con respecto a los modelos originales lo que demuestra que ambos clasificadores aportan informaciones comple- mentarias. Tambi´ en hemos aplicado la misma filosof´ ıa a la tarea de recopilaci´ on del corpus con el que hemos trabajado, usando una t´ ecnica de recuperaci´ on din´ amica basada en relaciones entre entidades Twitter que nos ha permitido construir una colecci´ on de tweets as representativa. Palabras clave: Recuperaci´ on de tweets, clasificaci´ on de tweets, informaci´ on es- tructurada y no estructurada Abstract: In this paper we show how it is possible to extract useful knowledge from Twitter structured information that can improve the results of a NLP task. Tweets are short and low quality and this makes it difficult to apply classical NLP techniques to this kind of texts. However, Twitter offers more than 140 characters in their messages to work with. In Twitter ecosystem there are many objects (tweets, hashtags, users, words, ...) and relationships between them (co-occurrence, mentions, re-tweets, ...) that allow us to experiment with alternative processing techniques. In this paper we have worked with a tweet classification task. If we only use knowledge extracted from the relationship Follow we achieve similar results to those of a clas- sifier based on bags of words. When we combine the knowledge from both sources we improve the results in more than 13 percentual points with respect to the ori- ginal models. This shows that structured information is not only a good source of knowledge but is also complementary to the content of the messages. We also have applied the same philosophy to the task of collecting the corpus for our classification task. In this case we have use a dynamic retrieval technique based on relationships between Twitter entities that allows us to build a collection of more representative tweets. Keywords: Tweets retrieval, tweets categorization, structured and unstructured information Procesamiento del Lenguaje Natural, Revista nº 55, septiembre de 2015, pp 75-82 recibido 26-02-2015 revisado 26-04-2015 aceptado 08-05-2015 ISSN 1135-5948 © 2015 Sociedad Española para el Procesamiento del Lenguaje Natural

Upload: others

Post on 21-Jun-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Explorando Twitter mediante la integraci on deinformaci on ...rua.ua.es/dspace/bitstream/10045/49278/1/PLN_55_08.pdf · Twitter son cortos y de baja calidad, lo que di culta la aplicaci

Explorando Twitter mediante la integracion de informacion estructurada y no estructurada

Exploring Twitter by Combining Structured and Unstructured Information

Juan M. CoteloUniversidad de Sevilla

[email protected]

Fermın CruzUniversidad de Sevilla

[email protected]

F. Javier OrtegaUniversidad de [email protected]

Jose A. TroyanoUniversidad de Sevilla

[email protected]

Resumen: En este artıculo mostramos como es posible sacar partido de la infor-macion estructurada que proporciona la red social Twitter. Los textos escritos enTwitter son cortos y de baja calidad, lo que dificulta la aplicacion de tecnicas yherramientas que tradicionalmente se han venido usando para procesar textos enlenguaje natural. Sin embargo, Twitter ofrece mucho mas que los 140 caracteres desus mensajes para trabajar. En el ecosistema Twitter hay muchos objetos (tweets,hashtags, usuarios, palabras, ...) y relaciones entre ellos (co-ocurrencia, menciones,re-tuiteos, ...) que ofrecen innumerables posiblidades de procesado alternativo a lastecnicas clasicas de PLN. En este trabajo hemos puesto nuestra atencion en la tareade clasificacion de tweets. Solo usando la informacion de la relacion Follow hemosconseguido un clasificador que iguala los resultados de un clasificador basado enbolsas de palabras. Cuando usamos las features de los dos modelos, el resultado dela clasificacion mejora en mas de 13 puntos porcentuales con respecto a los modelosoriginales lo que demuestra que ambos clasificadores aportan informaciones comple-mentarias. Tambien hemos aplicado la misma filosofıa a la tarea de recopilacion delcorpus con el que hemos trabajado, usando una tecnica de recuperacion dinamicabasada en relaciones entre entidades Twitter que nos ha permitido construir unacoleccion de tweets mas representativa.Palabras clave: Recuperacion de tweets, clasificacion de tweets, informacion es-tructurada y no estructurada

Abstract: In this paper we show how it is possible to extract useful knowledgefrom Twitter structured information that can improve the results of a NLP task.Tweets are short and low quality and this makes it difficult to apply classical NLPtechniques to this kind of texts. However, Twitter offers more than 140 characters intheir messages to work with. In Twitter ecosystem there are many objects (tweets,hashtags, users, words, ...) and relationships between them (co-occurrence, mentions,re-tweets, ...) that allow us to experiment with alternative processing techniques. Inthis paper we have worked with a tweet classification task. If we only use knowledgeextracted from the relationship Follow we achieve similar results to those of a clas-sifier based on bags of words. When we combine the knowledge from both sourceswe improve the results in more than 13 percentual points with respect to the ori-ginal models. This shows that structured information is not only a good source ofknowledge but is also complementary to the content of the messages. We also haveapplied the same philosophy to the task of collecting the corpus for our classificationtask. In this case we have use a dynamic retrieval technique based on relationshipsbetween Twitter entities that allows us to build a collection of more representativetweets.Keywords: Tweets retrieval, tweets categorization, structured and unstructuredinformation

Procesamiento del Lenguaje Natural, Revista nº 55, septiembre de 2015, pp 75-82 recibido 26-02-2015 revisado 26-04-2015 aceptado 08-05-2015

ISSN 1135-5948 © 2015 Sociedad Española para el Procesamiento del Lenguaje Natural

Page 2: Explorando Twitter mediante la integraci on deinformaci on ...rua.ua.es/dspace/bitstream/10045/49278/1/PLN_55_08.pdf · Twitter son cortos y de baja calidad, lo que di culta la aplicaci

1 Introduccion

Desde su aparicion en 2006 Twitter se ha con-vertido, ademas de en un fenomeno social,en un proveedor de material de experimen-tacion para la comunidad del Procesamientodel Lenguaje Natural. Hay infinidad de tra-bajos que aprovechan los escasos y de bajacalidad 140 caracteres para multiples tareasde tratamiento de textos. Entre estas tareasse encuentran la clasificacion de textos (Vita-le, Ferragina, y Scaiella, 2012; Schulz et al.,2014), en especial para determinar la polari-dad de las opiniones siendo esta una de lastareas sobre Twitter mas estudiadas por lacomunidad cientıfica (Agarwal et al., 2011;Montejo-Raez et al., 2014; Fernandez et al.,2014; Pla y Hurtado, 2014) la extraccion detopics (Lau, Collier, y Baldwin, 2012; Chen etal., 2013), la identificacion de perfiles (Abelet al., 2011), la geolocalizacion (Han, Cook,y Baldwin, 2014), y muchas otras tareas cuyoobjetivo es sacar informacion en claro desdetextos escritos en lenguaje natural. Sin em-bargo, cuando uno se enfrenta al trabajo deleer y etiquetar tweets para conseguir un re-curso de entrenamiento para una tarea PLNla pregunta que recurrentemente se viene ala cabeza es: ¿realmente se puede hacer PLNsobre Twitter con los problemas de cantidady calidad que presentan sus textos? Lo ciertoes que no se puede hacer un PLN de calidad silos textos con los que se trabajan son cortos,con una estructura gramatical en ocasionespoco definida, llenos de errores ortograficoso de elementos extranos (como emoticonos oascii-art). Hay intentos de mejorar la calidadde los textos mediante tecnicas de normali-zacion (Han y Baldwin, 2011; Villena Romanet al., 2013) que consiguen limpiar un pocolos tweets de algunos fenomenos, pero estastecnicas tienen un lımite y en muchos casoshay que tratar con textos que directamente“no tienen arreglo”.

Estos problemas de calidad son claramen-te un handicap, pero afortunadamente haymaneras de resolver tareas sobre textos sinprestar mucha atencion a los textos en sı. Porejemplo, cuando Google irrumpio en 1998 consu buscador ofreciendo una solucion rapida yeficaz al problema de recuperacion de docu-mentos en Internet no lo hizo porque su siste-ma incluyese un tratamiento de textos espe-cialmente bueno, sino porque aprovecho loshipervınculos para evaluar la calidad de laspaginas independientemente de lo que contu-

viesen. Es decir, uso informacion estructura-da (los hipervınculos) como clave para resol-ver un problema que tenıa que ver con in-formacion no estructurada (recuperar textosrelacionados con una consulta). La preguntaque ha motivado este trabajo es ¿se podrıahacer algo parecido con ciertas tareas sobreTwitter? La respuesta es claramente sı. Twit-ter, ademas de sus defectos en cuanto a la ca-lidad de los textos, tiene una gran virtud: lostextos estan acompanados de mucha informa-cion estructurada que relaciona a multiplesentidades de distinta naturaleza. Y es posibledisenar soluciones a muchas tareas que con-tengan un componente no estructural (me-diante el analisis del contenido de los mensa-jes) y otro componente estructural (medianteel analisis de los datos y relaciones asociadosa los mensajes).

La Figura 1 muestra algunos de los obje-tos y relaciones mas importantes que pode-mos extraer de Twitter. No estan todos losobjetos, y ni siquiera estan todas las posiblesrelaciones entre los cuatro objetos destaca-dos, pero aun ası da una idea del potencialde esta informacion si se utiliza conveniente-mente.

#hashtag  

@usuario  

palabra  escribe  

usa  

usa  

menciona  

con-ene  

con-ene   co-­‐ocurre  

con-ene  

co-­‐ocurre  

Figura 1: Algunas de las relaciones de Twit-ter.

En este trabajo pretendemos mostrarcomo el uso combinado de informacion es-tructurada y no estructurada beneficia la re-solucion de dos tareas relacionadas con Twit-ter: la recuperacion de tweets y la clasifica-cion de tweets. En ambos casos se usan tecni-cas que hacen uso tanto del contenido de losmensajes como de toda la estructura que losrodea.

Juan M. Cotelo, Fermín Cruz, F. Javier Ortega, José A. Troyano

76

Page 3: Explorando Twitter mediante la integraci on deinformaci on ...rua.ua.es/dspace/bitstream/10045/49278/1/PLN_55_08.pdf · Twitter son cortos y de baja calidad, lo que di culta la aplicaci

El resto del trabajo se organiza de la si-guiente manera. En la seccion 2 se presentael marco de trabajo en el que vamos a realizarlas experimentaciones, se trata del analisis deafinidades polıticas en Twitter. En la seccion3 se explica como se aprovecha un grafo derelaciones entre elementos de Twitter pararecopilar el corpus con el que trabajaremos.En la seccion 4 se muestra como se puedenmejorar los resultados de una clasificacion detweets haciendo uso de informacion sobre re-laciones entre los autores. Por ultimo, en laseccion 5 se extraen las conclusiones.

2 El marco de trabajo: analisis deafinidades polıticas en Twitter

El ambito polıtico es uno de los mas utiliza-dos por los estudios que usan Twitter comofuente de datos. La polıtica siempre da quehablar y eso tambien se traslada a las redessociales. Tanto los eventos importantes en elcalendario polıtico (p.e. las elecciones) comolas noticias que ocurren dıa a dıa, provocanun aluvion de mensajes de personas, mas omenos influyentes en la red, que se posicionany opinan con respecto a la actualidad polıtica.Hay trabajos que usan Twitter para resolverdistintas tareas relacionadas con la polıticacomo la prediccion de resultados (Tumasjanet al., 2010), la clasificacion de usuarios (Pen-nacchiotti y Popescu, 2011) o la aplicacion detecnicas de analisis de sentimientos con res-pecto a partidos polıticos (Mejova, Sriniva-san, y Boynton, 2013).

Para este trabajo hemos elegido, dentrodel dominio polıtico, una tarea de clasifica-cion multiple que permita determinar la pos-tura de los mensajes con respecto a los dosgrandes partidos del panorama polıtico es-panol: PP y PSOE. Para cada uno de losdos partidos hemos definido tres posibles ca-tegorıas: a favor, en contra y neutral. Conesta configuracion, cada tweet puede ser cla-sificado en una de las nueve categorıas que secorresponden con el producto cartesiano delos ejes correspondientes a cada partido.

Para realizar nuestros experimentos nece-sitamos, en primer lugar, un corpus represen-tativo de textos referentes a estos dos parti-dos polıticos, que utilizaremos para evaluardistintas aproximaciones a la tarea de clasifi-cacion. Tanto el proceso de construccion delcorpus, como la solucion final planteada pa-ra la clasificacion, nos brindan oportunidadesde verificar la hipotesis principal del trabajo:

el beneficio de integrar informacion estruc-turada y no estructurada a la hora de anali-zar los contenidos publicados en una platafor-ma como Twitter. En ambos casos (recupe-racion y clasificacion de tweets) acabaremosapoyandonos en sendos grafos construidos apartir de ciertas relaciones de Twitter paramejorar el resultado de cada tarea. En el pro-blema de la recuperacion usaremos un grafode usuarios y terminos que nos ayudara a di-senar consultas flexibles con las que podre-mos adaptarnos a los nuevos temas y tenden-cias que continuamente aparecen en Twitter.En el caso de la clasificacion demostraremosque con la ayuda de un grafo de usuarios sepuede extraer informacion adicional que per-mite mejorar los resultados de la tarea.

3 Recuperacion adaptativa detweets

La manera mas habitual de recopilar corpusde tweets es decidir un conjunto de terminos(palabras, hashtags o nombres de usuarios) yusar la API de Twitter para lanzar consultascon esos terminos. Este metodo es directo yse consigue recuperar todos los mensajes quese vayan escribiendo y que contengan esas pa-labras clave. Si esos terminos son frecuentes,en poco tiempo se puede conseguir una bue-na coleccion de mensajes con la que trabajar.El problema de esta aproximacion es que notiene en cuenta una de las principales carac-terısticas de Twitter: la espontaneidad. Fijarde antemano el conjunto de palabras clave delas consultas nos limita solo a los mensajesque contengan estos terminos y nos podemosdejar fuera mensajes que tengan que ver connuevos eventos que pueden aparecer en cual-quier momento. En el caso de la polıtica, siusamos un conjunto de terminos predetermi-nados perdemos la posibilidad de capturar alvuelo terminos que en un determinado mo-mento captan la atencion de la comunidadde usuarios interesada.

Nuestra aproximacion a la recuperacionpasa por tener consultas dinamicas, que evo-lucionan y que se adaptan a los temas que encada momento toman mas protagonismo enla conversacion colectiva. Nuestras consultasestaran compuestas de dos tipos de terminos,usuarios y etiquetas. Para no perder el focose definen una serie de terminos semilla queen nuestro caso seran las etiquetas #PP y#PSOE. A partir de ellos, y cada cierto tiem-po, se construiran las consultas que incluiran

Explorando Twitter mediante la integración de información estructurada y no estructurada

77

Page 4: Explorando Twitter mediante la integraci on deinformaci on ...rua.ua.es/dspace/bitstream/10045/49278/1/PLN_55_08.pdf · Twitter son cortos y de baja calidad, lo que di culta la aplicaci

tambien aquellos terminos que se considerenmas relevantes en funcion del analisis de losmensajes recuperados en la consulta anterior.Este proceso contempla dos fases: construc-cion de un grafo de relaciones entre usuariosy etiquetas a partir de los textos recuperadosen la consulta anterior, y aplicacion de unalgoritmo de ranking a dicho grafo para de-terminar los terminos mas relevantes en esemomento.

Las cuatro relaciones contempladas a lahora de construir el grafo de etiquetas y usua-rios son:

Usa: Relaciona un autor con una etique-ta. El autor del tweet usa la etiqueta enel texto del mensaje.

Menciona: Relaciona un autor con otroautor. El primero de ellos usa el nombredel segundo en el mensaje.

Re-tuitea: Relaciona un autor con otroautor. El primero de ellos reenvıa unmensaje del segundo.

Co-ocurre: Relaciona dos etiquetas entresı. Ambas aparecen en un mismo mensa-je.

Si se intenta anadir un arco ya existen-te al grafo, se incrementa en uno el peso deesa relacion. Esta informacion sera utilizadapor el algoritmo de ranking para dar mas im-portancia a las relaciones con frecuencias deaparicion mas altas.

La figura 2 muestra un sencillo ejemplodel tipo de grafo que se construye al procesaruna secuencia de tweets. Todas las relacionesidentificadas en cada uno de los mensajes sonregistradas mediante la creacion de los corres-pondientes nodos o arcos del grafo.

Una vez que se ha construido el grafo, sele aplica una adaptacion del algoritmo Page-Rank (Page et al., 1999) que tiene en cuentalos pesos de los arcos a la hora de calcular larelevancia de los nodos. Cada cierto perıodode tiempo se calcula un nuevo grafo a par-tir de los mensajes de la consulta anterior yse lanza una nueva consulta con los terminosmas relevantes segun el ranking. El perıodode tiempo dependera de la actividad de la co-munidad relacionada con los terminos semi-lla, en el caso de PP y PSOE observamos que60 minutos era un buen perıodo. En cuanto alnumero de terminos del ranking con los quequedarnos, tras hacer varias pruebas, vimosque entre 5 y 15 se conseguıa una captura de

usa #tag1

@usr1

usa

#tag2

@usr3

@usr2

menciona re-tuitea

menciona

co-ocurren

usa

Figura 2: Ejemplo sencillo del tipo de grafode etiquetas y usuarios usado en el procesode recuperacion.

buena calidad sin la introduccion de mensa-jes no relacionados con las semillas y elegimoscomo umbral de corte el 10.

El objetivo final de esta tarea es disponerde una coleccion de tweets anotados que nospermita evaluar la siguiente tarea de clasifica-cion. Para ello se lanzo el proceso de recupe-racion durante una semana y del conjunto to-tal de mensajes se extrajo una muestra alea-toria de 3000 tweets. Dichos mensajes fueronanotados manualmente, registrando en cadacaso la categorıa a la que pertenecıa de lasnueve definidas en nuestro esquema.

Con idea de evaluar tambien el procesode recuperacion, se anoto si los tweets de lamuestra eran relevantes, o no, para la temati-ca PP/PSOE. El resultado de esta anotacionfue que un 92,25 % de los mensajes estabanrelacionados con la tematica. Hay que des-tacar que muchos de los tweets no relevan-tes se deben a la utilizacion de terminos debusqueda, a priori fiables, que resultan serambiguos (por ejemplo la etiqueta #PP esusada por el programa de television chilenoPrimer Plano). Por tanto, la perdida de pre-cision no es achacable en su totalidad al posi-ble ruido introducido por el metodo de recu-peracion dinamico. Por ejemplo, en el caso dela etiqueta #PP solo el 96,60 % de los tweetsrecuperados de forma directa con la consultaestatica #PP son relevantes.

Esta perdida de precision del metododinamico de recuperacion esta acompanadacon una mayor capacidad de recuperacion detweets interesantes, cifrada en un incremen-

Juan M. Cotelo, Fermín Cruz, F. Javier Ortega, José A. Troyano

78

Page 5: Explorando Twitter mediante la integraci on deinformaci on ...rua.ua.es/dspace/bitstream/10045/49278/1/PLN_55_08.pdf · Twitter son cortos y de baja calidad, lo que di culta la aplicaci

to en volumen del 125,93 % con respecto alos mensajes que se hubiesen recuperado solocon los terminos semilla #PP y #PSOE me-diante consultas estaticas.

0

5

10

15

20

25

30

35

40

45

50

PP(-)PSOE(=)

PP(=)PSOE(=)

PP(=)PSOE(-)

PP(-)PSOE(-)

PP(=)PSOE(+)

PP(+)PSOE(=)

PP(+)PSOE(-)

PP(-)PSOE(+)

PP(+)PSOE(+)

Figura 3: Distribucion de porcentajes en elcorpus anotado para cada una de las nuevecategorıas de la tarea de clasificacion.

4 Clasificacion de la afinidadpolıtica

En esta seccion explicaremos las diferentesaproximaciones que hemos seguido a la ho-ra de abordar la tarea de clasificacion. Entotal hemos probado tres modelos distintos:uno basado en el contenido de los mensajes,otro basado en la estructura y otro que inte-gra ambas informaciones.

4.1 Clasificacion basada en elcontenido

En la figura 3 se observa como se distribuyela muestra de tweets anotados en las nuevecategorıas de la tarea de clasificacion. Los re-sultados muestran en general que la percep-cion de la polıtica por parte de los usuariosde Twitter es bastante negativa. Por destacarsolo algunos datos, el 69,49 % de los mensa-jes son negativos con respecto a alguno delos dos partidos (el 4 % son negativos paralos dos), mientras que solo el 5,96 % son po-sitivos con respecto a uno de los dos partidos(y no hay ningun mensaje que sea positivopara los dos).

Dado que la coleccion esta bastante sesga-da hacia las tres categorıas mayoritarias (quesuman el 89,54 % de los mensajes, hemos rea-lizado dos tipos de experimentos: con todaslas categorıas (lo hemos denominado Tarea-9) y solo con los mensajes de las tres cate-gorıas mayoritarias (Tarea-3).

La primera aproximacion probada es la dela clasificacion basada en el contenido. Con

un modelo clasico de bolsa de palabras ob-tuvimos un resultado del 61,97 % de accu-racy para la Tarea-9 y de un 68,36 % para laTarea-3. Los resultados se obtuvieron con unclasificador SVM y aplicando validacion cru-zada sobre el corpus de entrenamiento. Sonresultados bastante bajos incluso para la ta-rea reducida en la que solo hay que decidirentre tres categorıas, lo que da idea de la di-ficultad del corpus. Esta dificultad de decidiren base al contenido se debe, entre otros fac-tores, a los fenomenos usados para expresarla afinidad o rechazo a un partido, la faltade calidad de los textos y el hecho de que enmuchos mensajes no haya menciones explıci-tas a los partidos PP y PSOE a pesar de quesı se refieren a ellos.

4.2 Clasificacion basada en laestructura

Una vez que tenemos los resultados de la cla-sificacion basada en contenidos el siguientepaso es intentar verificar la hipotesis de quela informacion estructurada que proporcionaTwitter es de utilidad para una tarea comoesta. Analizando las distintas informacionesy relaciones disponibles, nos decidimos poraquellas relacionadas con los autores. La ideaes intentar obtener un perfil de los autores delos mensajes que refleje la tendencia polıticadel mismo. Si se asume que esta tendenciapolıtica va a ser relativamente constante, es-ta informacion puede ser de gran ayuda paracomplementar la que aporta el propio men-saje. Para determinar esa tendencia nos apo-yamos en la relacion Follow de Twitter, quenos da una informacion muy valiosa sobre losintereses de los usuarios.

A partir de los autores de los mensajesde nuestro corpus, recuperamos a todos losusuarios seguidos por estos, lo que nos da co-mo resultado un grafo de seguidores. Nuestraintuicion era que en ese grafo hay suficienteinformacion como para agrupar a los usuariosde nuestro corpus en grupos con la mismatendencia polıtica.

El problema recuerda al de deteccion decomunidades en una red (Girvan y Newman,2002; Shen et al., 2009) aunque las tecnicasclasicas para resolver esta tarea no son direc-tamente aplicables por la particular estruc-tura de nuestro grafo. Por lo general estastecnicas identifican grupos de nodos densa-mente conectados (Ball, Karrer, y Newman,2011) y en nuestro caso lo que necesitamos es

Explorando Twitter mediante la integración de información estructurada y no estructurada

79

Page 6: Explorando Twitter mediante la integraci on deinformaci on ...rua.ua.es/dspace/bitstream/10045/49278/1/PLN_55_08.pdf · Twitter son cortos y de baja calidad, lo que di culta la aplicaci

agrupar los nodos de los autores que siguena un grupo similar de usuarios (llamaremosa estos usuarios referentes). Esta diferencia-cion entre los usuarios autores de mensajes yusuarios referentes nos da una estructura degrafo bipartito como la que se ilustra en elesquema de la figura 4.

referentes

autores

Figura 4: Ejemplo sencillo del grafo bipartitode usuarios usado en el proceso de clasifica-cion.

Con esta topologıa, mas que identificar silos usuarios estan bien conectados, lo que nosinteresa es identificar si existen patrones enla forma de seguir a los usuarios referentes.En este sentido hemos usado la matriz deadyacencia de autores y consumidores paraagrupar a los autores similares en los mismosgrupos. Usando tecnicas de clustering hemosobtenido un total de 5 grupos de usuarios,de modo que para cada autor podemos cal-cular su grado de pertenencia a cada uno deestos grupos. Usando los grados de pertenen-cia del autor de un tweet como features paranuestra tarea de clasificacion obtenemos un59,97 % de precision para la tarea completa yun 68,75 % para la tarea reducida. Es decir,solo usando informacion sobre las personasa las que sigue el autor de un texto somoscapaces de obtener resultados similares a losque obtiene el clasificador basado en bolsa depalabras.

4.3 Integracion de ambos modelos

Una vez que hemos observado que la capa-cidad de clasificacion del contenido y de lasrelaciones Follow es similar, la pregunta na-tural es, ¿seran complementarias? Para res-ponderla hemos realizado dos experimentosde combinacion. En el primero de ellos he-mos construido un dataset en el que se inclu-

ye, para cada mensaje, las features provenien-tes del modelo de bolsa de palabras (experi-mento BOW) y las de la afinidad a cada unade las comunidades detectadas (experimentoGrafo). En el segundo esquema de combina-cion hemos aplicado la tecnica de Stacking(Wolpert, 1992) que permite aplicar un clasi-ficador de segundo nivel sobre las salidas deuna serie de clasificadores base. Para ello he-mos usado las features de los modelos BOWy Grafo para entrenar a su vez a cuatro clasi-ficadores base (SVM, Naive Bayes, MaximaEntropıa y Random Forests). En la tabla 1 semuestran los resultados de los dos esquemasde combinacion, junto con los de los modelosoriginales y los de un baseline que consiste enelegir la categorıa mas frecuente en ambas ta-reas de clasificacion. Los resultados de todoslos experimentos se han obtenido mediantevalidacion cruzada de 10 iteraciones.

Modelo Tarea-9 Tarea-3

Baseline 46,37 % 51,53 %BOW 61,97 % 68,36 %Grafo 59,97 % 68,75 %BOW+Grafo 64,79 % 71,98 %Stacking 75,10 % 81,14 %

Tabla 1: Resultados de accuracy de los dife-rentes modelos entrenados para la clasifica-cion de tweets.

Tal y como se observa en la tabla, la infor-macion estructurada no solo es de la “mismacalidad” que el contenido de los mensajes, alobtenerse con ella resultados similares, sinoque ademas es complementaria. Cuando seintegran en un clasificador features de ambosmodelos el resultado de la clasificacion mejo-ra a los dos clasificadores base. Para la Tarea-9 esta mejora es de casi 3 puntos porcentualessi se integran directamente las features y enmas de 13 puntos si se usa una tecnica massofisticada de combinacion que permite sacarmayor ventaja de las visiones complementa-rias que aporta cada tipo de informacion.

5 Conclusiones y trabajo futuro

En este trabajo hemos mostrado la utilidadde la informacion estructurada proporciona-da por un medio social como Twitter a la ho-ra de procesar los mensajes de los usuarios.Este tipo de aproximaciones permiten que lastecnicas PLN usadas a la hora de resolver

Juan M. Cotelo, Fermín Cruz, F. Javier Ortega, José A. Troyano

80

Page 7: Explorando Twitter mediante la integraci on deinformaci on ...rua.ua.es/dspace/bitstream/10045/49278/1/PLN_55_08.pdf · Twitter son cortos y de baja calidad, lo que di culta la aplicaci

ciertas tareas sobre textos puedan ser com-plementadas con otras informaciones e indi-cios. Este apoyo es especialmente interesantea la hora de procesar contenidos escritos porusuarios que por lo general suelen ser de unapobre calidad linguıstica.

Hemos elegido la tarea de clasificacion detweets en el ambito polıtico para verificar es-ta hipotesis. Aplicando tecnicas clasicas demodelo vectorial obtuvimos una precision del61,97 % en la tarea de clasificar los mensa-jes segun su afinidad o rechazo con respectoa los partidos PP y PSOE. Este resultadoes practicamente igualado (con un 59,97 %)con un clasificador que usa solo como fea-tures informacion extraıda de las relacionesentre usuarios de Twitter. La primera con-clusion, por tanto, es que para una tarea declasificacion de contenidos la informacion es-tructurada de la red es casi tan util como losmensajes en sı.

Tras experimentar con tecnicas de combi-nacion, conseguimos alcanzar el 75,10 %, su-perando ampliamente los resultados de losclasificadores iniciales. La segunda conclusionde nuestro trabajo es, por tanto, que el cono-cimiento aportado por la vıa estructural re-sulta ser muy complementario con respectoal que se puede extraer mediante el analisisde los contenidos.

Esta misma filosofıa de integracion de in-formacion estructurada y no estructurada hasido tambien puesta en practica en el procesode recuperacion de tweets que hemos desarro-llado para construir el corpus para la tareade clasificacion. En este caso hemos utiliza-do un metodo dinamico que hace uso de re-laciones entre distintas entidades de Twitterpara crear consultas que en cada momento seadaptan a los terminos de interes con respec-to a una determinada tematica.

Estamos convencidos de que este tipo deaproximaciones sera de utilidad en muchastareas, no solo sobre Twitter, sino en cual-quier medio en el que se disponga informa-ciones de distinta naturaleza. Como lınea detrabajo futuro tenemos pensado explorar es-te espacio de nuevas tareas, medios socialesy tipos de informaciones estructuradas dispo-nibles en estos medios.

Agradecimientos

Este trabajo ha sido financiado a traves delos proyectos ATTOS-ACOGEUS (TIN2012-38536-C03- 02) y AORESCU (P11-TIC-7684

MO).

Bibliografıa

Abel, F., Q. Gao, G.J. Houben, y K. Tao. 2011. Semantic enrichment of twitter posts for user profile construction on the social web. En The Semanic Web: Research and Applications. Springer, pagi-nas 375–389.

Agarwal, A., B. Xie, I. Vovsha, O. Rambow, y R. Passonneau. 2011. Sentiment analysis of twitter data. En Proceedings of the Workshop on Lan-guages in Social Media, paginas 30–38. As-sociation for Computational Linguistics.

Ball, B., B. Karrer, y M. Newman. 2011.Efficient and principled method for detec-ting communities in networks. PhysicalReview E, 84(3):36–103.

Chen, Y., H. Amiri, Z. Li, y T. Chua. 2013.Emerging topic detection for organizations from microblogs. En Proceedings of the 36th international ACM SIGIR conference on Research and development in information retrieval, paginas 43–52. ACM.

Fernandez, J., Y. Gutierrez, J.M. Gómez,y P. Martınez-Barco. 2014. Gplsi: Supervised sentiment analysis in twitter using skipgrams. SemEval 2014, paginas 294–298.

Girvan, M. y M. EJ Newman. 2002.Community structure in social and bio-logical networks. Proceedings of the Na-tional Academy of Sciences, 99(12):7821–7826.

Han, B. y T. Baldwin. 2011. Lexicalnormalisation of short text messages: Makn sens a# twitter. En Proceedings of the 49th Annual Meeting of the As-sociation for Computational Linguistics: Human Language Technologies-Volume 1, paginas 368–378. Association for Compu-tational Linguistics.

Han, B., P. Cook, y T. Baldwin. 2014. Text-based twitter user geolocation prediction. Journal of Artificial Intelli-gence Research, paginas 451–500.

Lau, J.H., N. Collier, y T. Bald-win. 2012. On-line trend analysis with topic models:\# twitter trends detection

Explorando Twitter mediante la integración de información estructurada y no estructurada

81

Page 8: Explorando Twitter mediante la integraci on deinformaci on ...rua.ua.es/dspace/bitstream/10045/49278/1/PLN_55_08.pdf · Twitter son cortos y de baja calidad, lo que di culta la aplicaci

topic model online. En COLING, paginas1519–1534. Citeseer.

Mejova, Y., P. Srinivasan, y B. Boynton. 2013. Gop primary season on twitter: popular political sentiment in social media. En Proceedings of the sixth ACM international conference on Web search and data mining, paginas 517–526. ACM.

Montejo-Raez, A., E. Martınez-Cámara, M. T. Martın-Valdivia, y L. A. Urena-Lopez. 2014. Ranked wordnet graph for sentiment polarity classification in twitter. Computer Speech & Language, 28(1):93–107.

Page, L., S. Brin, R. Motwani, y T. Winograd.1999. The page-rank citation ranking: Bringing order to the web.

Pennacchiotti, M. y A.M. Popescu. 2011Democrats, republicans and starbucks afficionados: user classification in twitter. En Proceedings of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining, paginas 430–438. ACM.

Pla, F. y L.F. Hurtado. 2014. Sentimentanalysis in twitter for spanish. En Natural Language Processing and Infor-mation Systems. Springer, paginas 208–213.

Schulz, A., E. Loza Mencıa, T. T. Dang, y B.Schmidt. 2014. Evaluating multi-label classifica-tion of incident-related tweets. Making Sense of Microposts (# Microposts2014), paginas 26–33.

Shen, H., X. Cheng, K. Cai, y M. Hu. 2009.Detect overlapping and hierarchical community structure in net-works. Physica A: Statistical Mechanics and its Applications, 388(8):1706–1712.

Tumasjan, A., T. O Sprenger, P. G Sandner,y I. M. Welpe. 2010. Election forecasts with twitter: How 140 characters reflect the political landscape. Social Science Computer Review, paginas 402–418.

Villena R., J., S. L. Serrano, E. Martınez Cámara, y J. C. Gonzalez Cristobal. 2013. Tass-workshop on sentiment analysis at sepln.

Procesamiento del Lenguaje Natural, 50:37–44.

Vitale, D., P. Ferragina, y U. Scaiella. 2012.Classification of short texts by deploying topical annotations. En Advances in Information Retrieval. Springer, paginas 376–387.

Wolpert, D. H. 1992. Stacked generalizationNeural networks, 5(2):241–259.

Juan M. Cotelo, Fermín Cruz, F. Javier Ortega, José A. Troyano

82