web-scrapping, social media, and big data in politics · web-scrapping, social media, and big data...

4
Web-Scrapping, Social Media, and Big Data in Politics Profesor: @Ernesto Calvo [email protected] EIM UCU/DCSP Julio, 20-22, 2017 Este seminario tiene como objetivo introducir a sus participantes al procesamiento de datos publicados en internet (scraping); el procesamiento de datos no estructurados; el procesamiento de filas JSON frecuentemente utilizado en por APIs de organizaciones como Facebook, Twitter y el Banco Mundial; la creación de redes sociales y el procesamiento de la metadata asociada con estas redes. El seminario está estructurado en 3 clases de 6 ½ horas a lo largo de tres días. Será dictado en R/R-Studio y se concentrará en los paquetes XML, Igraph y TM. Objectivos del Curso: Los @participantes adquirirán las herramientas para: 1. Utilizar R/R-Studio para crear listados, arrays, vectores, matrices, estimar modelos estadísticos lineales (lm) modelos lineales generalizados (glm) entre otros; 2. Utilizar XML, RCurl, rvest, httr y tm para “scrape” páginas de la web y procesar sus contenidos; 3. Crear funciones para extraer texto, tablas y transformarlo en bases de datos; 4. Conectar con APIs para extraer variables, direcciones de web y formatear bases de datos; 5. Utilizar el paquete “twitteR” para bajar el texto y la metadata de tweets; 6. Crear redes utilizando el paquete “igraph”, estimar comunidades, estimar la disposición de los nodos en la red, identificar grupos y extraer contenido para ser graficado.

Upload: others

Post on 24-May-2020

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Web-Scrapping, Social Media, and Big Data in Politics · Web-Scrapping, Social Media, and Big Data in Politics Profesor: @Ernesto Calvo ecalvo@umd.edu EIM – UCU/DCSP Julio, 20-22,

Web-Scrapping, Social Media, and Big Data in Politics

Profesor: @Ernesto Calvo [email protected] EIM – UCU/DCSP

Julio, 20-22, 2017

Este seminario tiene como objetivo introducir a sus participantes al procesamiento de datos publicados en internet (scraping); el procesamiento de datos no estructurados; el procesamiento de filas JSON frecuentemente utilizado en por APIs de organizaciones como Facebook, Twitter y el Banco Mundial; la creación de redes sociales y el procesamiento de la metadata asociada con estas redes.

El seminario está estructurado en 3 clases de 6 ½ horas a lo largo de tres días. Será dictado

en R/R-Studio y se concentrará en los paquetes XML, Igraph y TM. Objectivos del Curso: Los @participantes adquirirán las herramientas para: 1. Utilizar R/R-Studio para crear listados, arrays, vectores, matrices, estimar modelos estadísticos lineales (lm) modelos lineales generalizados (glm) entre otros; 2. Utilizar XML, RCurl, rvest, httr y tm para “scrape” páginas de la web y procesar sus contenidos; 3. Crear funciones para extraer texto, tablas y transformarlo en bases de datos; 4. Conectar con APIs para extraer variables, direcciones de web y formatear bases de datos; 5. Utilizar el paquete “twitteR” para bajar el texto y la metadata de tweets; 6. Crear redes utilizando el paquete “igraph”, estimar comunidades, estimar la disposición de los nodos en la red, identificar grupos y extraer contenido para ser graficado.

Page 2: Web-Scrapping, Social Media, and Big Data in Politics · Web-Scrapping, Social Media, and Big Data in Politics Profesor: @Ernesto Calvo ecalvo@umd.edu EIM – UCU/DCSP Julio, 20-22,

7. Utilizar “regular expressions” para procesar el texto de Twitter. Textos de apoyo:

i) Munzer et.al. Automated Data Collection with R: A Practical Guide to Web

Scraping and Text Mining. Willey. 2015 (I will provide selected chapters).

ii) An introduction to R: https://cran.r-project.org/doc/manuals/R-intro.pdf

iii) https://www.rstudio.com/online-learning/

iv) Barberá, Pablo, et al. "Tweeting From Left to Right Is Online Political

Communication More Than an Echo Chamber?" Psychological Science (2015):

0956797615594620.

v) Feld, S. L. (1991). "Why your friends have more friends than you do." American

journal of sociology: 1464-1477.

vi) Calvo, Ernesto. 2015. Anatomía política de twitter en Argentina (Selected

chapters).

Las lecturas y el código para del taller de trabajo estarán a disposición en el website de la materia. Software: En el seminario utilizaremos R/R-Studio (cualquiera de las dos opciones).

- Para bajar R-Studio: https://www.rstudio.com/

- Para bajar R: https://cran.r-project.org/

- Para instalar los paquetes requeridos para la clase correr en R o R-Studio el código:

sapply(c("rvest","RCurl","XML","httr","xml2","RCurl","tm","igraph","foreign","twitteR","lmer"),install.packages)

Programa Módulo 1, Jueves Julio 20, Mañana I: Introduction to R, 1 ½ horas

Una introducción a R. Tipos de datos, vectores, matrices, arrays, listas, loops, apply,

tapply/sapply. Programación de funciones.

Codigo 1: Basic R and a Multi-level World.txt https://www.dropbox.com/s/ijg8mir6pm3r2d7/Basic%20R%20and%20a%20Mul

ti-level%20World.txt?dl=0

Page 3: Web-Scrapping, Social Media, and Big Data in Politics · Web-Scrapping, Social Media, and Big Data in Politics Profesor: @Ernesto Calvo ecalvo@umd.edu EIM – UCU/DCSP Julio, 20-22,

Codigo 2: Basic R - Funciones.txt https://www.dropbox.com/s/1b38et32mdftxww/Basic%20R%20-

%20Understanding%20Functions-Students.txt?dl=0

Ejercicio: Advent of Code – Day 1

https://www.dropbox.com/s/y6318o04q4nbp5s/Day%201%20-%20Advent%20of%20Code.html?dl=0

Data: https://www.dropbox.com/s/tfo3absnckawpha/input1.txt?dl=0

Módulo 2, Jueves Julio 20, Mañana II: Introducción a Modelos y Gráficos en R/R-Studio, 1 ½ horas.

LM, GLM, and LMER. Predicción, extracción de coeficientes, plots.

Módulo 3, Jueves Julio 20, Tarde I: Web Data Scrapping I, 1 ½ Hours.

Web Scrapping. Some basics. ReadLines, Rvest.

Processing Text I.

Codigo 3: Sample code for google scholar

https://www.dropbox.com/s/1pw5jv4c7j92llf/Sample%20code%20for%20google%20sch

olar.txt?dl=0

Exercise: Process other author(s), extract other information.

Módulo 4, Jueves Julio 20, Tarde II: Web Data Scrapping II, 1 ½ Hours.

Reading RSS feeds.

Processing Text II.

Módulo 5, Viernes Julio 21, Mañana I: Creating a Working Dataset, 1 ½ Hours.

From Unstructured Data to a Dataset.

TM: A package to process documents.

Page 4: Web-Scrapping, Social Media, and Big Data in Politics · Web-Scrapping, Social Media, and Big Data in Politics Profesor: @Ernesto Calvo ecalvo@umd.edu EIM – UCU/DCSP Julio, 20-22,

Módulo 6, Viernes Julio 21, Mañana II: Trabajando con APIs, 1 ½ Hours.

Working with APIs. Get, Post. HTML and JSON files.

Twitter data: Getting data.

Processing JSON files.

Módulo 7, Viernes Julio 21, Tarde I: Networks, 1 ½ Hours.

Las Redes Sociales como Objeto. Edges, Nodes. Types of networks.

Módulo 8, Viernes Julio 21, Tarde II: Twitter Networks I, 1 ½ Hours.

Layouts, Communities, Clusters.

Módulo 9, Sábado Julio 22, Mañana I: Twitter Networks II, 1 ½ Hours.

Detección de términos, análisis de texto.

Módulo 10, Sábado Julio 22, Mañana II: Implementación I, 1 ½ Hours.

Laboratorio para trabajo final.

Módulo 11, Sábado Julio 22, Tarde I: Implementacion 2, 1 ½ Hours.

Laboratorio para trabajo final.

Módulo 11, Sábado Julio 22, Tarde II: Y ahora? 1 ½ Hours.

Cierre, presentación de resultados.