web-scrapping, social media, and big data in politics · web-scrapping, social media, and big data...
TRANSCRIPT
Web-Scrapping, Social Media, and Big Data in Politics
Profesor: @Ernesto Calvo [email protected] EIM – UCU/DCSP
Julio, 20-22, 2017
Este seminario tiene como objetivo introducir a sus participantes al procesamiento de datos publicados en internet (scraping); el procesamiento de datos no estructurados; el procesamiento de filas JSON frecuentemente utilizado en por APIs de organizaciones como Facebook, Twitter y el Banco Mundial; la creación de redes sociales y el procesamiento de la metadata asociada con estas redes.
El seminario está estructurado en 3 clases de 6 ½ horas a lo largo de tres días. Será dictado
en R/R-Studio y se concentrará en los paquetes XML, Igraph y TM. Objectivos del Curso: Los @participantes adquirirán las herramientas para: 1. Utilizar R/R-Studio para crear listados, arrays, vectores, matrices, estimar modelos estadísticos lineales (lm) modelos lineales generalizados (glm) entre otros; 2. Utilizar XML, RCurl, rvest, httr y tm para “scrape” páginas de la web y procesar sus contenidos; 3. Crear funciones para extraer texto, tablas y transformarlo en bases de datos; 4. Conectar con APIs para extraer variables, direcciones de web y formatear bases de datos; 5. Utilizar el paquete “twitteR” para bajar el texto y la metadata de tweets; 6. Crear redes utilizando el paquete “igraph”, estimar comunidades, estimar la disposición de los nodos en la red, identificar grupos y extraer contenido para ser graficado.
7. Utilizar “regular expressions” para procesar el texto de Twitter. Textos de apoyo:
i) Munzer et.al. Automated Data Collection with R: A Practical Guide to Web
Scraping and Text Mining. Willey. 2015 (I will provide selected chapters).
ii) An introduction to R: https://cran.r-project.org/doc/manuals/R-intro.pdf
iii) https://www.rstudio.com/online-learning/
iv) Barberá, Pablo, et al. "Tweeting From Left to Right Is Online Political
Communication More Than an Echo Chamber?" Psychological Science (2015):
0956797615594620.
v) Feld, S. L. (1991). "Why your friends have more friends than you do." American
journal of sociology: 1464-1477.
vi) Calvo, Ernesto. 2015. Anatomía política de twitter en Argentina (Selected
chapters).
Las lecturas y el código para del taller de trabajo estarán a disposición en el website de la materia. Software: En el seminario utilizaremos R/R-Studio (cualquiera de las dos opciones).
- Para bajar R-Studio: https://www.rstudio.com/
- Para bajar R: https://cran.r-project.org/
- Para instalar los paquetes requeridos para la clase correr en R o R-Studio el código:
sapply(c("rvest","RCurl","XML","httr","xml2","RCurl","tm","igraph","foreign","twitteR","lmer"),install.packages)
Programa Módulo 1, Jueves Julio 20, Mañana I: Introduction to R, 1 ½ horas
Una introducción a R. Tipos de datos, vectores, matrices, arrays, listas, loops, apply,
tapply/sapply. Programación de funciones.
Codigo 1: Basic R and a Multi-level World.txt https://www.dropbox.com/s/ijg8mir6pm3r2d7/Basic%20R%20and%20a%20Mul
ti-level%20World.txt?dl=0
Codigo 2: Basic R - Funciones.txt https://www.dropbox.com/s/1b38et32mdftxww/Basic%20R%20-
%20Understanding%20Functions-Students.txt?dl=0
Ejercicio: Advent of Code – Day 1
https://www.dropbox.com/s/y6318o04q4nbp5s/Day%201%20-%20Advent%20of%20Code.html?dl=0
Data: https://www.dropbox.com/s/tfo3absnckawpha/input1.txt?dl=0
Módulo 2, Jueves Julio 20, Mañana II: Introducción a Modelos y Gráficos en R/R-Studio, 1 ½ horas.
LM, GLM, and LMER. Predicción, extracción de coeficientes, plots.
Módulo 3, Jueves Julio 20, Tarde I: Web Data Scrapping I, 1 ½ Hours.
Web Scrapping. Some basics. ReadLines, Rvest.
Processing Text I.
Codigo 3: Sample code for google scholar
https://www.dropbox.com/s/1pw5jv4c7j92llf/Sample%20code%20for%20google%20sch
olar.txt?dl=0
Exercise: Process other author(s), extract other information.
Módulo 4, Jueves Julio 20, Tarde II: Web Data Scrapping II, 1 ½ Hours.
Reading RSS feeds.
Processing Text II.
Módulo 5, Viernes Julio 21, Mañana I: Creating a Working Dataset, 1 ½ Hours.
From Unstructured Data to a Dataset.
TM: A package to process documents.
Módulo 6, Viernes Julio 21, Mañana II: Trabajando con APIs, 1 ½ Hours.
Working with APIs. Get, Post. HTML and JSON files.
Twitter data: Getting data.
Processing JSON files.
Módulo 7, Viernes Julio 21, Tarde I: Networks, 1 ½ Hours.
Las Redes Sociales como Objeto. Edges, Nodes. Types of networks.
Módulo 8, Viernes Julio 21, Tarde II: Twitter Networks I, 1 ½ Hours.
Layouts, Communities, Clusters.
Módulo 9, Sábado Julio 22, Mañana I: Twitter Networks II, 1 ½ Hours.
Detección de términos, análisis de texto.
Módulo 10, Sábado Julio 22, Mañana II: Implementación I, 1 ½ Hours.
Laboratorio para trabajo final.
Módulo 11, Sábado Julio 22, Tarde I: Implementacion 2, 1 ½ Hours.
Laboratorio para trabajo final.
Módulo 11, Sábado Julio 22, Tarde II: Y ahora? 1 ½ Hours.
Cierre, presentación de resultados.