creación de un corpus de noticias de gran tamaño en...

8
Creaci´ on de un corpus de noticias de gran tama˜ no en espa˜ nol para el an´ alisis diacr´ onico y diat´opico del uso del lenguaje Creation of a large news corpus in Spanish for the diachronic and diatopic analysis of the use of language Pavel Razgovorov 1 , David Tomás 2 1 Ingenier´ ıa Inform´ atica Empresarial (i2e), C/ Auso y Monz´ o 16, 03006, Alicante (Espa˜ na) 2 Universidad de Alicante, C/ San Vicente del Raspeig s/n, 03690, Alicante (Espa˜ na) [email protected], [email protected] Resumen: Este art´ ıculo describe el proceso llevado a cabo para desarrollar un cor- pus de noticias period´ ısticas de gran tama˜ no en espa˜ nol. Todos los textos recopilados est´ an ubicados tanto temporal como geogr´ aficamente. Esto lo convierte en un re- curso de gran utilidad para trabajos en el ´ambito de la ling¨ ıstica, la sociolog´ ıa y el periodismo de datos, permitiendo tanto el estudio diacr´ onico y diat´ opico del uso del lenguaje como el seguimiento de la evoluci´ on de determinados eventos. El corpus se puede descargar libremente empleando el software que se ha desarrollado como parte de este trabajo. El art´ ıculo se completa con un an´ alisis estad´ ıstico del corpus y con la presentaci´ on de dos casos de estudio que muestran su potencial a la hora de analizar sucesos. Palabras clave: Corpus, miner´ ıa de texto, an´ alisis diacr´ onico, an´ alisis diat´ opico Abstract: This article describes the process carried out to develop a large corpus of news stories in Spanish. The collected texts are located both temporally and geographically. This makes it a very useful resource to work with in the field of linguistics, sociology and data journalism, allowing the diachronic and diatopic study of the use of language and tracking the evolution of specific events. The corpus can be freely downloaded using the software developed as part of this work. The article includes a statistical analysis of the corpus and two case studies that show its potential for event analysis. Keywords: Corpus, text mining, diachronic analysis, diatopic analysis 1 Introducci´on Las noticias period´ ısticas cada vez se produ- cen y consumen de manera m´ as frecuente a trav´ es de Internet, favoreciendo la existencia de grandes vol´ umenes de este tipo de textos en formato digital. El an´ alisis computacional de estos corpus de noticias puede llevar al descubrimiento de interesantes hallazgos des- de un punto de vista tanto sociol´ogico como ling¨ ıstico (Leetaru, 2011). Este art´ ıculo presenta el desarrollo de un corpus de noticias en espa˜ nol de gran tama˜ no ubicadas tanto geogr´ afica (lugar en el que se produjeron) como temporalmente (momento en el que tuvieron lugar). El objetivo de este corpus es el de servir de fuente para estudios en ´ areas como la ling¨ ıstica, la sociolog´ ıa y el periodismo de datos, permitiendo un an´ alisis diacr´ onico (evoluci´ on en el tiempo) y diat´ opi- co (evoluci´ on en el espacio) del uso del len- guaje. Adem´ as de describir las caracter´ ısticas del corpus y el proceso llevado a cabo para su obtenci´ on, este trabajo presenta ejemplos de casos de estudio centrados en su explotaci´ on. La fuente de informaci´ on empleada para la construcci´ on de este corpus ha sido el peri´ odi- co gratuito de informaci´ on general 20 minu- tos, 1 el cual ofrece en formato digital todas sus noticias desde enero de 2005 hasta la ac- tualidad. Este peri´odico contiene secciones lo- cales para todas y cada una de las provincias de Espa˜ na, lo que permite tener localizadas geogr´aficamente cada una de las noticias. Pa- 1 https://www.20minutos.es Procesamiento del Lenguaje Natural, Revista nº 62, marzo de 2019, pp. 29-36 recibido 21-11-2018 revisado 08-01-2019 aceptado 06-02-2019 ISSN 1135-5948. DOI 10.26342/2019-62-3 © 2019 Sociedad Española para el Procesamiento del Lenguaje Natural

Upload: others

Post on 04-Sep-2020

6 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Creación de un corpus de noticias de gran tamaño en ...rua.ua.es/dspace/bitstream/10045/89930/1/PLN_62_03.pdf · de habla hispana, desde el ano~ 2012 hasta la actualidad. Al igual

Creacion de un corpus de noticias de gran tamano enespanol para el analisis diacronico y diatopico del uso

del lenguaje

Creation of a large news corpus in Spanish for the diachronicand diatopic analysis of the use of language

Pavel Razgovorov1, David Tomás21Ingenierıa Informatica Empresarial (i2e), C/ Auso y Monzo 16, 03006, Alicante (Espana)

2Universidad de Alicante, C/ San Vicente del Raspeig s/n, 03690, Alicante (Espana) [email protected], [email protected]

Resumen: Este artıculo describe el proceso llevado a cabo para desarrollar un cor-pus de noticias periodısticas de gran tamano en espanol. Todos los textos recopiladosestan ubicados tanto temporal como geograficamente. Esto lo convierte en un re-curso de gran utilidad para trabajos en el ambito de la linguıstica, la sociologıa yel periodismo de datos, permitiendo tanto el estudio diacronico y diatopico del usodel lenguaje como el seguimiento de la evolucion de determinados eventos. El corpusse puede descargar libremente empleando el software que se ha desarrollado comoparte de este trabajo. El artıculo se completa con un analisis estadıstico del corpusy con la presentacion de dos casos de estudio que muestran su potencial a la horade analizar sucesos.Palabras clave: Corpus, minerıa de texto, analisis diacronico, analisis diatopico

Abstract: This article describes the process carried out to develop a large corpusof news stories in Spanish. The collected texts are located both temporally andgeographically. This makes it a very useful resource to work with in the field oflinguistics, sociology and data journalism, allowing the diachronic and diatopic studyof the use of language and tracking the evolution of specific events. The corpuscan be freely downloaded using the software developed as part of this work. Thearticle includes a statistical analysis of the corpus and two case studies that showits potential for event analysis.Keywords: Corpus, text mining, diachronic analysis, diatopic analysis

1 Introduccion

Las noticias periodısticas cada vez se produ-cen y consumen de manera mas frecuente atraves de Internet, favoreciendo la existenciade grandes volumenes de este tipo de textosen formato digital. El analisis computacionalde estos corpus de noticias puede llevar aldescubrimiento de interesantes hallazgos des-de un punto de vista tanto sociologico comolinguıstico (Leetaru, 2011).

Este artıculo presenta el desarrollo de uncorpus de noticias en espanol de gran tamanoubicadas tanto geografica (lugar en el que seprodujeron) como temporalmente (momentoen el que tuvieron lugar). El objetivo de estecorpus es el de servir de fuente para estudiosen areas como la linguıstica, la sociologıa y el

periodismo de datos, permitiendo un analisisdiacronico (evolucion en el tiempo) y diatopi-co (evolucion en el espacio) del uso del len-guaje. Ademas de describir las caracterısticasdel corpus y el proceso llevado a cabo para suobtencion, este trabajo presenta ejemplos decasos de estudio centrados en su explotacion.

La fuente de informacion empleada para laconstruccion de este corpus ha sido el periodi-co gratuito de informacion general 20 minu-tos,1 el cual ofrece en formato digital todassus noticias desde enero de 2005 hasta la ac-tualidad. Este periodico contiene secciones lo-cales para todas y cada una de las provinciasde Espana, lo que permite tener localizadasgeograficamente cada una de las noticias. Pa-

1https://www.20minutos.es

Procesamiento del Lenguaje Natural, Revista nº 62, marzo de 2019, pp. 29-36 recibido 21-11-2018 revisado 08-01-2019 aceptado 06-02-2019

ISSN 1135-5948. DOI 10.26342/2019-62-3 © 2019 Sociedad Española para el Procesamiento del Lenguaje Natural

Page 2: Creación de un corpus de noticias de gran tamaño en ...rua.ua.es/dspace/bitstream/10045/89930/1/PLN_62_03.pdf · de habla hispana, desde el ano~ 2012 hasta la actualidad. Al igual

ra el desarrollo de este corpus se han extraıdotodas las noticias publicadas en la seccion lo-cal de cada una de las cincuenta provincias ylas dos ciudades autonomas de Ceuta y Me-lilla, dando lugar a un corpus de casi dos mi-llones de noticias publicadas a lo largo de losultimos trece anos.

Ademas del contenido original de las noti-cias, se ha realizado un analisis linguıstico deltexto incorporando informacion sobre lemas,entidades y palabras con contenido semanti-co, codificando toda esta informacion en for-mato JSON para facilitar su posterior proce-samiento. Aunque el corpus no puede distri-buirse libremente por los derechos de uso de20 minutos, se proporciona el software nece-sario para que cualquier investigador puedadescargar y replicar este corpus en su orde-nador de manera sencilla.2

La gran ventaja que ofrece este corpusfrente a otros existentes es la localizaciongeografica de los artıculos, lo que permite rea-lizar analisis diatopicos del lenguaje y estu-diar los rasgos dialectales de distintas regio-nes. Hasta donde tenemos conocimiento, noexiste en la actualidad un corpus de noticiascon estas caracterısticas libremente disponi-ble.

El resto del artıculo se estructura comosigue: la Seccion 2 presenta diversos traba-jos en el ambito del desarrollo de corpus pe-riodısticos; la Seccion 3 describe el procesollevado a cabo para la generacion del cor-pus; en la Seccion 4 se presentan distintasestadısticas extraıdas del corpus y detallessobre el uso del lenguaje a nivel geografico ytemporal; en la Seccion 5 se ofrece un analisiscuantitativo de dos sucesos explotando la in-formacion contenida en el corpus; finalmente,la Seccion 6 muestra las conclusiones y posi-bles trabajos futuros.

2 Trabajo relacionado

Existen diferentes estudios y proyectos quetratan sobre la construccion de corpus detextos periodısticos para su posterior anali-sis linguıstico. En esta seccion nos vamos acentrar en revisar los trabajos realizados enidioma espanol y, por tanto, mas afines conel corpus descrito en este artıculo.

El primero de estos corpus es el recopi-lado en el proyecto Aracne,3 donde se pre-

2https://github.com/analisis-20minutos/herramientas-analisis

3https://www.fundeu.es/aracne

senta un estudio sobre la variacion de la ri-queza linguıstica en la prensa espanola desde1914 hasta 2014. Sobre este corpus de noti-cias se realizo un procesamiento linguıstico delos textos midiendo rasgos de variacion lexi-ca, densidad y complejidad de los textos. Elresultado de este proyecto fue un corpus de5.167 artıculos y 1.921.566 de palabras. Elcorpus no esta disponible para su estudio.

Otro trabajo en esta lınea es el corpusSpanish News Text (Graff y Gallegos, 1995),compuesto de textos periodısticos extraıdosde diferentes periodicos y agencias de noticiasde hispanoamerica entre el ano 1995 y 1996.El corpus cuenta con 170 millones de pala-bras y esta disponible para los miembros delLinguistic Data Consortium4 (LDC). Existeuna version posterior del corpus, el SpanishNewswire Text, Volume 2 (Graff y Gallegos,1999), que recoge noticias entre los anos 1996y 1998. Esta version esta disponible para elpublico en general previo pago.

El corpus Timestamped JSI web5 esta for-mado por artıculos de noticias obtenidos dedistintos servicios RSS a nivel mundial. Con-tiene textos desde el ano 2014 hasta la actua-lidad en diferentes idiomas, entre ellos el es-panol. El corpus esta accesible para usuariossuscritos a la plataforma Sketchengine y solopuede consultarse dentro de esta, ofreciendofuncionalidades para analisis del lenguaje co-mo la busqueda de sinonimos, ejemplos deuso, frecuencia de palabras o identificacionde neologismos.

Otro corpus relevante es el Corpus del Es-panol NOW (News on the Web)6 que contienecerca de 5.700 millones de palabras obtenidosde periodicos digitales y revistas de 21 paısesde habla hispana, desde el ano 2012 hasta laactualidad. Al igual que el corpus anterior,su acceso esta limitado a la plataforma en laque se oferta, en la que se pueden realizardiferentes consultas a traves de una interfaz.

Finalmente, Molino Labs7 presenta uncorpus formado a partir de artıculos de pren-sa de Espana, Argentina y Mexico, produci-das entre los anos 1997 y 2009. Cuenta conmas de 1.700 millones de artıculos y 660 mi-llones de palabras. El corpus se puede con-sultar a traves de una interfaz web, pero no

4https://www.ldc.upenn.edu5https://www.sketchengine.eu/

jozef-stefan-institute-newsfeed-corpus6https://www.corpusdelespanol.org7http://www.molinolabs.com/corpus.html

Pavel Razgovorov, David Tomás

30

Page 3: Creación de un corpus de noticias de gran tamaño en ...rua.ua.es/dspace/bitstream/10045/89930/1/PLN_62_03.pdf · de habla hispana, desde el ano~ 2012 hasta la actualidad. Al igual

esta disponible para descarga. Esta interfazofrece, entre otras, la posibilidad de buscarpalabras de una longitud fija que empiezanpor determinados caracteres o localizar pala-bras que aparecen en companıa de otras.

Si bien algunos de estos trabajos permi-ten hacer un estudio diacronico del corpus,a diferencia de nuestra propuesta ninguno deellos ofrece la posibilidad de hacer un estu-dio de los textos a nivel diatopico. Adicio-nalmente, existe el problema del acceso a losdocumentos. La mayorıa de las propuestas es-tudiadas solo permiten analizar el corpus atraves de una interfaz web con funciones li-mitadas, mientras que otras ofrecen su des-carga solo a suscriptores o previo pago. Enel caso de nuestro corpus, aunque por limita-ciones de derechos de uso no se pueda distri-buir libremente, se ha publicado el softwaredesarrollado para que cualquiera pueda des-cargarlo y replicarlo en su ordenador. Final-mente, otro de los puntos fuertes de nuestrocorpus frente a otras propuestas es el volu-men de noticias que presenta, la informacionde analisis linguıstico incluida y el contar connoticias actuales (ver Seccion 4).

3 Creacion del corpus

En esta seccion se describe todo el procesode obtencion del corpus. En primer lugar sedescribira el proceso de descarga y limpiezade las noticias. A continuacion se expondra elproceso llevado a cabo para la eliminacion deduplicados y casi duplicados. Finalmente, sedescribe el analisis linguıstico llevado a cabosobre los documentos.

3.1 Obtencion de noticias

La primera tarea llevada a cabo para la crea-cion del corpus fue la obtencion de las noti-cias en formato digital de la hemeroteca deldiario 20 minutos. Las noticias estan accesi-bles a traves de la seccion Archivo8 del diariodonde se encuentran agrupadas por dıas. Sepuede acceder a la pagina web de cada una deellas pinchando en el correspondiente enlace,pero no existe una forma directa de descargarel contenido de la noticia.

Para poder obtener el texto limpio de lasnoticias se tuvo que desarrollar un programapara la extraccion de datos de las paginasweb (web scraping). El objetivo era obtenerel tıtulo, resumen y cuerpo de las noticias, eli-minando todas las etiquetas HTML y conte-

8https://www.20minutos.es/archivo

nidos adicionales que se muestran en la pagi-na del diario (ej. menus, anuncios, noticiasrelacionadas e imagenes). Para dicha tarea seutilizo la herramienta Scrapy,9 que permiteextraer elementos de las paginas web median-te la definicion de selectores CSS.

La principal dificultad de esta tarea fuela falta de homogeneidad en la estructuraHTML de las paginas. Esta variaba en fun-cion de los anos y de algunas localizaciones,por lo que se tuvieron que realizar ajustes enla herramienta para contemplar estas varia-ciones. Se revisaron manualmente y de mane-ra sistematica subconjuntos de noticias en lasdistintas localizaciones y anos para compro-bar que la obtencion del contenido de todasellas fuera correcto.

Como resultado de este proceso se obtuvoun volcado completo de las noticias del por-tal desde el 17 de enero de 2005, primer dıadel que se tiene registro, hasta el 5 de julio de2018, momento en el que se finalizo la recolec-cion de datos. Para cada noticia se almacenoen formato JSON, tal y como se puede ver enla Figura 1, su localidad (province), fecha enformato ISO 8601 (date), URL de la paginade donde fue extraıda (url), tıtulo (title),resumen (lead) y cuerpo (body). Para es-tos tres ultimos campos, ademas del textooriginal (raw text), se incluyo una serie deinformacion adicional resultado del analisislinguıstico realizado, tal y como se describeen la Seccion 3.3.

En total se obtuvieron 2.215.078 artıculosde 52 localizaciones diferentes: las cincuen-ta provincias de Espana y las dos ciudadesautonomas de Ceuta y Melilla.

3.2 Eliminacion de duplicados

Dado que 20 minutos cuenta con numerosassecciones locales, era de esperar que algunasnoticias pudieran estar duplicadas o casi du-plicadas entre distintas provincias. Por ejem-plo, en ocasiones se usan noticias “plantilla”en las que solo cambian los datos especıfi-cos correspondientes a cada localidad. Es elcaso de eventos como “La fiesta del cine”,donde lo unico que varıa de una provincia aotra es el numero de asistentes. Otros ejem-plos de noticias casi duplicadas son aquellasque presentan actualizaciones sobre una no-ticia anterior. Dentro de este grupo entrancasos como el de las crecidas del Ebro, don-de cada dıa se publican datos actualizados

9https://scrapy.org

Creación de un corpus de noticias de gran tamaño en español para el análisis diacrónico y diatópico del uso del lenguaje

31

Page 4: Creación de un corpus de noticias de gran tamaño en ...rua.ua.es/dspace/bitstream/10045/89930/1/PLN_62_03.pdf · de habla hispana, desde el ano~ 2012 hasta la actualidad. Al igual

{"province ": "SEVILLA","date": "2005 -01 -28 T00 :00:00" ,"url": "https ://www.20 minutos.es/noticia /1994/0/ sevilla/bajo/cero/","title ": {

"raw_text ": "Y en Sevilla , bajo cero","lemmatized_text ": "y en sevilla bajo 0","lemmatized_text_reduced ": "sevilla","persons ": [], "locations ": [" Sevilla"], "organizations ": [], "dates": [],"numbers ": ["0"] , "others ": []

},"lead": {

...},"body": {

...}

}

Figura 1: Ejemplo de noticia del corpus en formato JSON. Los campos contenidos en title seencuentran tambien en lead y body. Se omiten aquı por motivos de espacio

utilizando el mismo cuerpo de noticia. Final-mente, tambien hay noticias de interes globalque simplemente se duplican literalmente en-tre distintas localidades.

Para evitar textos repetidos que puedanafectar al analisis estadıstico del corpus, sedesarrollo un programa para la eliminacionde duplicados y casi duplicados. El problemainicial de este proceso era la imposibilidad decotejar cada noticia del corpus con todas lasdemas, ya que implicaba mas de cuatro billo-nes de comparaciones. Una de las posibilida-des que se planteo para reducir este numerofue la de comparar noticias solo entre pro-vincias cercanas. Sin embargo, tras un anali-sis realizado sobre un subconjunto de ellas,se comprobo que existıan noticias duplicadasen localidades muy distantes. Lo que sı per-mitio este estudio preliminar fue identificarun patron temporal en las noticias duplica-das: todas ellas se daban en el mismo dıa oen dıas muy proximos. Para dar margen su-ficiente, se decidio comparar las noticias enbloques de sesenta dıas estableciendo un so-lapamiento de seis dıas entre bloques conse-cutivos.

Para acelerar aun mas el proceso de com-paracion entre pares de noticias, se utilizouna estructura de tipo MinHash (Broder,1997) que permitıa calcular la similitud deJaccard (Leskovec, Rajaraman, y Ullman,2014) entre dos textos en un tiempo lineal conrespecto al tamano del conjunto de documen-tos a comparar. En la implementacion se em-pleo Locality-Sensitive Hashing (LSH) (Indyk

y Motwani, 1998) para optimizar el procesode comparacion entre documentos. De estamanera se consiguio un algoritmo de comple-jidad O(n ·

√n) para la busqueda de duplica-

dos, reduciendo la complejidad de tipo O(n3)que hubiera tenido de no haber aplicado estasoptimizaciones.

Una vez establecido el procedimientode comparacion, era necesario determinarcuando dos noticias se iban a considerar comoduplicadas. Se probaron distintos porcentajesde solapamiento a nivel de palabra, compro-bando el numero de noticias que eran con-sideradas como duplicadas. Finalmente es-te umbral de solapamiento se establecio enun 70 %, ya que con este valor se alcanza-ba estabilidad en el numero de noticias eli-minadas, y para valores menores se conside-raba que podıa llevar a la obtencion de fal-sos duplicados. El numero total de noticiasque quedo como resultado de este proceso fuede 1.826.985, eliminando en total casi cuatro-cientas mil noticias.

3.3 Procesamiento linguıstico

Con el objetivo de enriquecer el corpus coninformacion linguıstica que permitiera unanalisis mas profundo de los textos, se proce-dio a la extraccion de distintas caracterısti-cas de este para incorporarlas a la estructuraJSON desarrollada. Concretamente, se extra-jeron los siguientes elementos de cada noticiapara el tıtulo, cuerpo y resumen (ver ejemploen la Figura 1):

Texto lematizado, sin signos de puntua-

Pavel Razgovorov, David Tomás

32

Page 5: Creación de un corpus de noticias de gran tamaño en ...rua.ua.es/dspace/bitstream/10045/89930/1/PLN_62_03.pdf · de habla hispana, desde el ano~ 2012 hasta la actualidad. Al igual

cion (lemmatized text).

Texto lematizado solo de adjetivos, nom-bres, verbos y adverbios acabados en“mente” (lemmatized text reduced).El objetivo es mantener aquı solo aque-llos terminos que tienen valor semanticoy aportan significado al texto.

Lista de entidades nombradas: orga-nizaciones (organizations), personas(persons), lugares (locations), fechas(dates), numeros (numbers) y otras(others).

Para obtener esta informacion se utilizo laherramienta FreeLing (Padro y Stanilovsky,2012). Despues de realizar unas pruebas derendimiento, se estimo que el procesado delcorpus llevarıa aproximadamente 108 horasde ejecucion. Para reducir este tiempo se pa-ralelizo el analisis de las noticias mediante lalibrerıa OpenMP,10 consiguiendo una reduc-cion del 72 % en el tiempo de procesamiento.

4 Analisis del corpus

Sobre el corpus creado se han realizado unaserie de analisis estadısticos para determinarla riqueza lexica de los textos, estudiar la evo-lucion temporal del lenguaje y tambien su usoen distintas zonas geograficas. Los siguientesapartados de esta seccion profundizan en ca-da uno de estos aspectos.

4.1 Estadısticas generales

Como se ha comentado anteriormente, el cor-pus final cuenta con un total de mas de 1.8millones de noticias (tras la eliminacion deduplicados) y un tamano cercano a los 20 GBdespues de incorporarle la informacion resul-tante del procesamiento con FreeLing. La Fi-gura 2 muestra un mapa coropletico con elnumero de noticias publicadas en cada pro-vincia para el total del corpus. Se ha creadouna infografıa interactiva completa, accesibleen Internet, donde se puede ver el numeroexacto de noticias por provincia y su evolu-cion a lo largo de los anos.11

Las provincias con mayor numero de noti-cias son Sevilla (176.903), seguida de Valen-cia (100.455) y Cantabria (92.268), mientrasque la que menos tiene es Ceuta (2.789). Ellugar con mayor numero de noticias en un

10https://www.openmp.org11http://cort.as/-C56M, accedida en noviembre

de 2018.

Figura 2: Numero de noticias por provinciapara el total de anos analizado

unico dıa es Murcia, el 12 de mayo de 2011,con 164 artıculos (este punto se describe conmas detalle en la Seccion 5.1). La mediade noticias por localizacion es de 35.134,33,mientras que su desviacion estandar es de±33.989,52, reflejando este ultimo dato unadiferencia notable en el numero de publica-ciones entre distintas ediciones locales.

En cuanto a la distribucion de noticias poranos, los periodos de mayor actividad fue-ron 2011 (200.599), 2014 (199.721) y 2013(199.334), mientras que los que menos pu-blicaciones tuvieron fueron 2005 (26.845),2009 (28.203) y 2006 (42.809). La media poranos se situa en 130.498,93 noticias con unadesviacion estandar de ±73.869,20, situacionanaloga al analisis anterior por provincia.

Por lo que respecta al numero de palabrasdel corpus, este se compone de un total de711.840.945 terminos. Para medir la riquezalexica del corpus analizamos el Type-TokenRatio (TTR) (Holmes, 1985), que representael cociente entre el numero de palabras dife-rentes que contiene un texto y el numero to-tal de palabras de ese texto. Concretamente,calculamos el TTR de cada noticia de mane-ra individual, obteniendo posteriormente pa-ra cada ano y localizacion el TTR promediode todas sus noticias. En la Figura 3 se pue-de ver la evolucion del TTR a lo largo de losanos, teniendo en cuenta tanto el vocabula-rio total (etiqueta TTR en el grafico) comoel que incluye unicamente palabras con va-lor semantico (grafico TTR reducido). En lagrafica se observa una perdida de riqueza lexi-ca con el paso de los anos, desde 2005 hasta2011, estabilizandose posteriormente con un

Creación de un corpus de noticias de gran tamaño en español para el análisis diacrónico y diatópico del uso del lenguaje

33

Page 6: Creación de un corpus de noticias de gran tamaño en ...rua.ua.es/dspace/bitstream/10045/89930/1/PLN_62_03.pdf · de habla hispana, desde el ano~ 2012 hasta la actualidad. Al igual

repunte de la riqueza en los ultimos tres anosestudiados.

Figura 3: Evolucion del TTR a lo largo delos anos, tanto para el lexico completo (TTR)como para el subconjunto de los terminos convalor semantico (TTR reducido)

Este calculo se llevo a cabo tambien a nivelde localizacion geografica.12 El estudio revelaque las provincias con mayor TTR son Ali-cante (69,08 %), Pontevedra (68,46 %) y Ma-drid (67,91 %). En la otra cara de la moneda,Toledo (60,72 %), Castellon (60,81 %) y Sevi-lla (61,45 %) presentan los ındices mas bajosde riqueza lexica.

4.2 Analisis diacronico

El objetivo del estudio llevado a cabo en esteapartado es averiguar, para cada ano, cualeshan sido los temas mas populares entre laspublicaciones del periodico a partir del lexicoempleado. Para la obtencion de los terminosmas populares se tuvieron en cuenta solo laspalabras con contenido semantico, tal y comofueron descritas en la Seccion 3.3. Se ha reali-zado una infografıa donde se pueden apreciaren forma de nube de palabras los cincuentaterminos (lemas) mas importantes y su fre-cuencia de aparicion para cada anualidad.13

La Figura 4 muestra como ejemplo la nu-be de palabras correspondiente al ano 2017.Hay terminos esperables en esta lista de pala-bras mas populares como “gobierno”, “ayun-tamiento”, “PP” (muy por encima de otrospartidos polıticos) o “presidente”. Llama la

12Todos los detalles estan disponibles en la siguien-te infografıa: http://cort.as/-C56R, accedida en no-viembre de 2018.

13http://cort.as/-C56W, accedida en noviembrede 2018.

atencion la frecuencia de uso de la palabra“persona”, hecho que puede deberse a la neu-tralidad que presenta a nivel de genero, sien-do por ello muy utilizada por los periodistaspara producir textos que contengan un len-guaje inclusivo y no sexista.

Figura 4: Nube de palabras con los cincuen-ta terminos (lemas) mas frecuentes en el ano2017

4.3 Analisis diatopico

De manera analoga al apartado anterior, seprocedio a realizar un estudio de los terminosmas usados en las distintas localizaciones es-tudiadas, obteniendo los cincuenta terminosmas frecuentas en cada una de ellas. Tambiense evaluaron las entidades mas populares quehabıan sido extraıdas por FreeLing, tal y co-mo se describe en la Seccion 3.3.14 Toda es-ta informacion esta incluida en la infografıamencionada en el apartado anterior.

Como era de esperar, entre las palabrasmas repetidas para cada lugar esta el propionombre de la provincia y su gentilicio, juntocon la comunidad autonoma a la que perte-nece. Es destacable tambien la aparicion departidos polıticos locales (como “BNG” en ACoruna, “PNV” en Paıs Vasco y “Foro [As-turias]” en Asturias) y la preponderancia quetienen algunos grupos en determinadas regio-nes (en Cadiz tanto “PP” como “PSOE” sonterminos muy frecuentes) frente a otras en lasque desaparecen (por ejemplo, en Barcelonano aparecen ninguno de estos dos entre loscincuenta terminos mas frecuentes).

En aquellas regiones en las que existen len-guas propias, se pueden encontrar entre los

14A modo de referencia, el rendimiento de Free-Ling clasificando entidades se evaluo revisando ma-nualmente 10 artıculos al azar, con un total de 4.960terminos y 378 entidades, obteniendo un 84,92 % deprecision en esta tarea.

Pavel Razgovorov, David Tomás

34

Page 7: Creación de un corpus de noticias de gran tamaño en ...rua.ua.es/dspace/bitstream/10045/89930/1/PLN_62_03.pdf · de habla hispana, desde el ano~ 2012 hasta la actualidad. Al igual

mas frecuentes terminos muy representativosde dichos lugares, como “generalitat” en Va-lencia, “xunta” en A Coruna, “euskadi” enVizcaya o “mossos” en Barcelona.

5 Casos de estudio

En esta seccion se muestran dos casos deejemplo del tipo de informacion que se puedeobtener del corpus desarrollado mediante elanalisis de texto. Una de las aplicaciones in-teresantes de este corpus es su uso para el pe-riodismo de datos (Gray, Chambers, y Bou-negru, 2012), una especialidad del periodis-mo que refleja el creciente valor de los datosen la produccion y distribucion de informa-cion, cuyo objetivo es recabar gran cantidadde datos y hacer la informacion comprensiblea la audiencia ayudandose de herramientascomo las infografıas, representaciones grafi-cas o aplicaciones interactivas.

En el primero de los casos de estudio seanaliza el terremoto que tuvo lugar en Lor-ca el 12 de mayo de 2011, mientras que enel segundo estudio se aborda el tema de laindependencia de Cataluna a lo largo de losdos ultimos anos.

5.1 Terremoto de Lorca

Tal y como se comento en la Seccion 4.1, laprovincia que mas noticias tuvo en un unicodıa fue Murcia, el 12 de mayo de 2011, con164 artıculos. El suceso que provoco este alu-vion de informacion fue el seısmo ocurrido eldıa anterior en la localidad de Lorca con unamagnitud de 5,1 en la escala Richter, causan-do numerosos danos materiales, mas de 300heridos y 9 muertos. Para recuperar las noti-cias relacionadas con este evento, se localiza-ron todas aquellas que contenıan el termino“Lorca” junto con “terremoto” o “seısmo”.

Para analizar el suceso partiendo del cor-pus desarrollado, se ha creado una nueva in-fografıa15 para identificar los terminos masrelevantes asociados con esta noticia, los lu-gares en los que mas se hablo del tema (desdeel punto de vista del numero de noticias pu-blicadas) y un estudio de la repercusion de lanoticia a lo largo del tiempo, identificando elmomento en el que los medios redujeron suinteres en este suceso. Este ultimo aspecto sepuede apreciar en la Figura 5.

Cabe destacar las posibilidades que ofreceel corpus como herramienta para determinar

15http://cort.as/-C56d, accedida en noviembrede 2018.

Figura 5: Seguimiento periodıstico del terre-moto de Lorca durante un ano, mostrando elnumero de noticias publicadas cada dıa

el interes en el tiempo que produce una noti-cia. En el caso de esta, se aprecia como unasemana despues del seısmo su interes decrecionotablemente en cuanto al numero de publi-caciones relacionadas, mostrando la limitadavida que puede tener en los medios de comu-nicacion un evento de esta magnitud.

5.2 Independencia de Cataluna

En este apartado se presenta un segundo es-tudio siguiendo las pautas del anterior, conel foco puesto en un tema de relevanciapolıtica nacional como es la independenciade Cataluna. Los terminos que se emplea-ron para localizar noticias relacionadas conesta tematica fueron: “independencia”, “in-dependencia”, “independentismo”, “indepen-dentisme” e “independentista”. El periodo deestudio se fijo desde el 1 de enero de 2017 has-ta el 5 de julio de 2018 (ultimo dıa en el quese incorporaron noticias al corpus).

Al igual que para el caso del terremoto deLorca, se ha disenado una infografıa que haceun analisis temporal y espacial de la cobertu-ra del suceso en el corpus.16 En este analisisse pueden observar datos destacables, comoque la cobertura de este tema en el periodico20 minutos se ha llevado a cabo de mane-ra practicamente ininterrumpida en el ano ymedio a estudio: solo en 6 dıas de los 445analizados no se produjo ninguna noticia re-lacionada con este asunto. Tambien llama laatencion detalles como que en Ceuta y Me-lilla no se hace ninguna mencion al procesoen todo el periodo analizado, que Barcelona(1.289 noticias), Valencia (336 noticias) y ACoruna (335 noticias) son las provincias conmayor cobertura del tema, y que en Madridapenas se encuentran 28 noticias sobre este

16http://cort.as/-C56g, accedida en noviembrede 2018.

Creación de un corpus de noticias de gran tamaño en español para el análisis diacrónico y diatópico del uso del lenguaje

35

Page 8: Creación de un corpus de noticias de gran tamaño en ...rua.ua.es/dspace/bitstream/10045/89930/1/PLN_62_03.pdf · de habla hispana, desde el ano~ 2012 hasta la actualidad. Al igual

asunto, un numero llamativamente bajo te-niendo en cuenta el volumen de publicacionesde su seccion local. En la Figura 6 se puedever una captura de la infografıa centrada enel analisis temporal.

Figura 6: Analisis temporal de las noticias re-lacionadas con la independencia de Cataluna

6 Conclusiones y trabajo futuro

Este artıculo presenta el desarrollo de un cor-pus de noticias periodısticas de gran tamanoque contempla tanto la dimension temporalcomo la geografica de las noticias. Hasta don-de tenemos conocimiento, no existe en la ac-tualidad un corpus de noticias con estas ca-racterısticas libremente disponible. Este cor-pus puede servir de fuente para realizar dis-tintos estudios del uso y evolucion del len-guaje, ademas de ser un recurso de utilidadpara el periodismo de datos, tal y como semostro en la Seccion 5 mediante dos casos deestudio. Si bien el corpus, por cuestiones dederechos de uso no esta disponible para su li-bre distribucion, una de las aportaciones deeste trabajo es proporcionar las herramientassoftware necesarias para que cualquier perso-na que quiera trabajar con el pueda descar-garlo y replicarlo en su ordenador.

En este trabajo se ha descrito todo el pro-ceso llevado a cabo para la extraccion y ob-tencion de las noticias, dificultades afronta-das para la limpieza y eliminacion de duplica-dos, ası como el posterior analisis linguısticoy enriquecimiento del mismo. Se han propor-cionado tambien datos estadısticos del cor-pus resultante desde las dimensiones tempo-ral y geografica, desarrollando diversas info-grafıas interactivas que permiten un analisismas profundo y detallado del mismo.

Como trabajo futuro se plantea el desarro-llo de nuevos estudios de caracter linguısticoy sociologico que puedan resultar de interes a

partir de esta fuente de informacion. Se pro-yecta tambien extender este trabajo para suaplicacion a otros corpus de textos en la Webque puedan ser recopilados de manera simi-lar.

Agradecimientos

Queremos agradecer al Dr. Borja Navarro-Colorado sus valiosos comentarios y sugeren-cias previos al envıo de este artıculo.

Bibliografıa

Broder, A. Z. 1997. On the resemblanceand containment of documents. En Pro-ceedings of the Compression and Comple-xity of Sequences 1997, SEQUENCES ’97,paginas 21–29, Washington, DC, USA.IEEE Computer Society.

Graff, D. y G. Gallegos. 1995. Spanishnews text. Download at Linguistic Da-ta Consortium: https://catalog.ldc.upenn.edu/LDC95T9.

Graff, D. y G. Gallegos. 1999. Spanish news-wire text, volume 2. Download at Linguis-tic Data Consortium: https://catalog.ldc.upenn.edu/LDC99T41.

Gray, J., L. Chambers, y L. Bounegru. 2012.The data journalism handbook: How jour-nalists can use data to improve the news.O’Reilly Media.

Holmes, D. I. 1985. The analysis of literarystyle. Journal of the Royal Statistical So-ciety. Series A (General), 148(4):328–341.

Indyk, P. y R. Motwani. 1998. Approximatenearest neighbors: Towards removing thecurse of dimensionality. En Proceedings ofthe Thirtieth Annual ACM Symposium onTheory of Computing, STOC ’98, paginas604–613, New York, NY, USA. ACM.

Leetaru, K. 2011. Culturomics 2.0: Forecas-ting large-scale human behavior using glo-bal news media tone in time and space.First Monday, 16(9).

Leskovec, J., A. Rajaraman, y J. D. Ullman.2014. Mining of Massive Datasets. Cam-bridge University Press, New York, NY,USA, 2nd edicion.

Padro, L. y E. Stanilovsky. 2012. Free-ling 3.0: Towards wider multilinguality.En Proceedings of the Language Resourcesand Evaluation Conference (LREC 2012),Istanbul, Turkey. ELRA.

Pavel Razgovorov, David Tomás

36