Download - Growth hacking - Introducción al scraping
![Page 1: Growth hacking - Introducción al scraping](https://reader035.vdocument.in/reader035/viewer/2022062710/55ba1d5cbb61ebe7098b4643/html5/thumbnails/1.jpg)
Nuestros Hacks y sus resultados
Growth Hack Spain
WEB SCRAPPING 101
Martes 16 – Junio – 2015
![Page 2: Growth hacking - Introducción al scraping](https://reader035.vdocument.in/reader035/viewer/2022062710/55ba1d5cbb61ebe7098b4643/html5/thumbnails/2.jpg)
¿Scrapping?
![Page 3: Growth hacking - Introducción al scraping](https://reader035.vdocument.in/reader035/viewer/2022062710/55ba1d5cbb61ebe7098b4643/html5/thumbnails/3.jpg)
“Obtener y acumular datos extraidos de servicios online de forma automática”
Definición de Scraping
@Joviwap - #GHSMad
![Page 4: Growth hacking - Introducción al scraping](https://reader035.vdocument.in/reader035/viewer/2022062710/55ba1d5cbb61ebe7098b4643/html5/thumbnails/4.jpg)
Utilidad – Generación de Leads
@Joviwap - #GHSMad
![Page 5: Growth hacking - Introducción al scraping](https://reader035.vdocument.in/reader035/viewer/2022062710/55ba1d5cbb61ebe7098b4643/html5/thumbnails/5.jpg)
Utilidad – Generación de Leads
@Joviwap - #GHSMad
![Page 6: Growth hacking - Introducción al scraping](https://reader035.vdocument.in/reader035/viewer/2022062710/55ba1d5cbb61ebe7098b4643/html5/thumbnails/6.jpg)
Utilidad – Análisis de mercado
@Joviwap - #GHSMad
![Page 7: Growth hacking - Introducción al scraping](https://reader035.vdocument.in/reader035/viewer/2022062710/55ba1d5cbb61ebe7098b4643/html5/thumbnails/7.jpg)
Utilidad – Buscadores
@Joviwap - #GHSMad
![Page 8: Growth hacking - Introducción al scraping](https://reader035.vdocument.in/reader035/viewer/2022062710/55ba1d5cbb61ebe7098b4643/html5/thumbnails/8.jpg)
Ventajas
• Ahorra mucho tiempo.• Estandariza los datos.• Permite cotejar la validez de los datos si hay
varias fuentes.
@Joviwap - #GHSMad
![Page 9: Growth hacking - Introducción al scraping](https://reader035.vdocument.in/reader035/viewer/2022062710/55ba1d5cbb61ebe7098b4643/html5/thumbnails/9.jpg)
Desventajas
• Pueden haber datos incompletos.• Pueden haber datos incorrectos.• Pueden haber duplicidades.• Puede ser ilegal.
@Joviwap - #GHSMad
![Page 10: Growth hacking - Introducción al scraping](https://reader035.vdocument.in/reader035/viewer/2022062710/55ba1d5cbb61ebe7098b4643/html5/thumbnails/10.jpg)
Cuando es ilegal el scrapping
American Airllines vs FareChase (USA)
FareChase vendía un software que recopilaba los
precios de los vuelos de AA
Caso:
Actividad:
@Joviwap - #GHSMad
![Page 11: Growth hacking - Introducción al scraping](https://reader035.vdocument.in/reader035/viewer/2022062710/55ba1d5cbb61ebe7098b4643/html5/thumbnails/11.jpg)
Cuando es ilegal el scrapping
American Airllines vs FareChase (USA)
FareChase vendía un software que recopilaba los
precios de los vuelos de AA
Caso:
Actividad:
@Joviwap - #GHSMad
![Page 12: Growth hacking - Introducción al scraping](https://reader035.vdocument.in/reader035/viewer/2022062710/55ba1d5cbb61ebe7098b4643/html5/thumbnails/12.jpg)
Cuando es ilegal el scrapping
American Airllines vs FareChase (USA)
FareChase vendía un software que recopilaba los
precios de los vuelos de AA
Caso:
Actividad:
@Joviwap - #GHSMad
![Page 13: Growth hacking - Introducción al scraping](https://reader035.vdocument.in/reader035/viewer/2022062710/55ba1d5cbb61ebe7098b4643/html5/thumbnails/13.jpg)
Cuando es ilegal el scrapping
Ryanair vs Atrápalo (España)
Atrapalo realizaba busquedas de vuelos, agrupaba
los precios y los publicaba a sus usuarios.
Caso:
Actividad:
@Joviwap - #GHSMad
![Page 14: Growth hacking - Introducción al scraping](https://reader035.vdocument.in/reader035/viewer/2022062710/55ba1d5cbb61ebe7098b4643/html5/thumbnails/14.jpg)
Cuando es ilegal el scrapping
Ryanair vs Atrápalo (España)
Atrapalo realizaba busquedas de vuelos, agrupaba
los precios y los publicaba a sus usuarios.
Caso:
Actividad:
NOT GUILTY
@Joviwap - #GHSMad
![Page 15: Growth hacking - Introducción al scraping](https://reader035.vdocument.in/reader035/viewer/2022062710/55ba1d5cbb61ebe7098b4643/html5/thumbnails/15.jpg)
Cuando es ilegal el scrapping
Google News vs EADE(España)
Google News buscaba noticias en diferentes medios
que se habían dado de alta en su servicio para
despues mostrar los resultados a sus usuarios de
forma gratuita.
Caso:
Actividad:
@Joviwap - #GHSMad
![Page 16: Growth hacking - Introducción al scraping](https://reader035.vdocument.in/reader035/viewer/2022062710/55ba1d5cbb61ebe7098b4643/html5/thumbnails/16.jpg)
Cuando es ilegal el scrapping
Google News vs EADE(España)
Google News buscaba noticias en diferentes medios
que se habían dado de alta en su servicio para
despues mostrar los resultados a sus usuarios de
forma gratuita.
Caso:
Actividad:
@Joviwap - #GHSMad
![Page 17: Growth hacking - Introducción al scraping](https://reader035.vdocument.in/reader035/viewer/2022062710/55ba1d5cbb61ebe7098b4643/html5/thumbnails/17.jpg)
¿Cuándo es legal el scrapping?
No hay norma común de lo que está permitido y lo que no.
-Mandar emails.-Llamar por teléfono.-Seguir en Twitter!!!!
A personas que no lo hayan solicitado, no se puede:
No se puede vulnerar en ningún caso la ley de propiedad intelectual .
@Joviwap - #GHSMad
![Page 18: Growth hacking - Introducción al scraping](https://reader035.vdocument.in/reader035/viewer/2022062710/55ba1d5cbb61ebe7098b4643/html5/thumbnails/18.jpg)
WTF!!
![Page 19: Growth hacking - Introducción al scraping](https://reader035.vdocument.in/reader035/viewer/2022062710/55ba1d5cbb61ebe7098b4643/html5/thumbnails/19.jpg)
Ven al lado oscuro!!!
![Page 20: Growth hacking - Introducción al scraping](https://reader035.vdocument.in/reader035/viewer/2022062710/55ba1d5cbb61ebe7098b4643/html5/thumbnails/20.jpg)
¿Porque es posible el Web Scrapping?Respuesta
HTTP/1.1 200 OKDate: Fri, 31 Dec 2003 23:59:59 GMTContent-Type: text/htmlContent-Length: 1221 ---------------------[Línea en blanco]------------------<html><body><h1>Página principal que quiero leer</h1>(Contenido) . .</body></html>
PeticiónGET /index.html HTTP/1.1 Host: www.example.com User-Agent: nombre-cliente -------------[Línea en blanco]---------------
![Page 21: Growth hacking - Introducción al scraping](https://reader035.vdocument.in/reader035/viewer/2022062710/55ba1d5cbb61ebe7098b4643/html5/thumbnails/21.jpg)
¿Porque es posible el Web Scrapping?
HTML<html> <head> -------------------- </head> <body> -------------------- </body></html>
@Joviwap - #GHSMad
![Page 22: Growth hacking - Introducción al scraping](https://reader035.vdocument.in/reader035/viewer/2022062710/55ba1d5cbb61ebe7098b4643/html5/thumbnails/22.jpg)
¿Porque es posible el Web Scrapping?
HTML<html> <head> -------------------- </head> <body> -------------------- </body></html>
@Joviwap - #GHSMad
![Page 23: Growth hacking - Introducción al scraping](https://reader035.vdocument.in/reader035/viewer/2022062710/55ba1d5cbb61ebe7098b4643/html5/thumbnails/23.jpg)
Métodos de búsqueda de datos
<div class=“articulo” id=“1”> <div class=“titulo”>titulo</div> <div class=“fecha”>16/06/2015</div> <div class=“contenido”>
<p> Parrafo 1 </p><a> Enlace 1 </a><p> Parrafo 2 </p><img> Imagen 1 </img>
</div></div>
@Joviwap - #GHSMad
• Xpath
/div/div/a• Query Selectors
.articulo.titulo• Regex
/(\d\d\/){2}20(\d\d)/gmi
![Page 24: Growth hacking - Introducción al scraping](https://reader035.vdocument.in/reader035/viewer/2022062710/55ba1d5cbb61ebe7098b4643/html5/thumbnails/24.jpg)
Herramientas
![Page 25: Growth hacking - Introducción al scraping](https://reader035.vdocument.in/reader035/viewer/2022062710/55ba1d5cbb61ebe7098b4643/html5/thumbnails/25.jpg)
Herramientas
@Joviwap - #GHSMad
![Page 26: Growth hacking - Introducción al scraping](https://reader035.vdocument.in/reader035/viewer/2022062710/55ba1d5cbb61ebe7098b4643/html5/thumbnails/26.jpg)
Herramienta Offline JS Session Training Speed Parallel API Capcha Price
Import.IO ✓ ✓ ✓ Paid ✓ ✗ Free
Kimono Labs ✓ ✗ ✗ Paid ✓ ✗ Free
WebScrapper ✗ ✗ ✗ − ✗ ✗ ✗ Free
Fminer ✗ ✓ ✓ ✗ ✗ ✓ ≈$200
Request ? ✗ ✗ ✓ ? ? Server
PhantomJS ? ✓ ✓ ✓ ? ? Server
Selenium ? ✓ ✓ − ✓ ? ? Server
@Joviwap - #GHSMad
![Page 27: Growth hacking - Introducción al scraping](https://reader035.vdocument.in/reader035/viewer/2022062710/55ba1d5cbb61ebe7098b4643/html5/thumbnails/27.jpg)
DEMO TIME!!!!
![Page 28: Growth hacking - Introducción al scraping](https://reader035.vdocument.in/reader035/viewer/2022062710/55ba1d5cbb61ebe7098b4643/html5/thumbnails/28.jpg)
Preguntas
@Joviwap - #GHSMad
![Page 29: Growth hacking - Introducción al scraping](https://reader035.vdocument.in/reader035/viewer/2022062710/55ba1d5cbb61ebe7098b4643/html5/thumbnails/29.jpg)
“La potencia sin control no sirve de nada”
@Joviwap - #GHSMad
![Page 30: Growth hacking - Introducción al scraping](https://reader035.vdocument.in/reader035/viewer/2022062710/55ba1d5cbb61ebe7098b4643/html5/thumbnails/30.jpg)
“La potencia sin control no sirve de nada”automatización
@Joviwap - #GHSMad
![Page 31: Growth hacking - Introducción al scraping](https://reader035.vdocument.in/reader035/viewer/2022062710/55ba1d5cbb61ebe7098b4643/html5/thumbnails/31.jpg)
“La potencia sin control no sirve de nada”automatización
propósito
@Joviwap - #GHSMad
![Page 32: Growth hacking - Introducción al scraping](https://reader035.vdocument.in/reader035/viewer/2022062710/55ba1d5cbb61ebe7098b4643/html5/thumbnails/32.jpg)
![Page 33: Growth hacking - Introducción al scraping](https://reader035.vdocument.in/reader035/viewer/2022062710/55ba1d5cbb61ebe7098b4643/html5/thumbnails/33.jpg)
Gracias!!
@Joviwap - #GHSMad
![Page 34: Growth hacking - Introducción al scraping](https://reader035.vdocument.in/reader035/viewer/2022062710/55ba1d5cbb61ebe7098b4643/html5/thumbnails/34.jpg)
@Joviwap - #GHSMad