big data : extraer y visualizar grandes volúmenes de datos
DESCRIPTION
Presentación en HacksHackers Buenos Aires #HHBA de nuestra experencia construyendo Tribatics.com y Flowics.com aplicando tecnologías de Big Data.TRANSCRIPT
BIG DATA: Extraer y visualizar grandes volúmenes de datos
Visualizaciones en tiempo real sobre Twitter
Fernando Zunino@fzunino
Pauline Morrison Fell@polinmf
Thursday, June 21, 12
Acerca de Zauber
• Somos una boutique de software y lab con base en Argentina y Estados Unidos que provee servicios a una alta gama de líderes de la industria y startups de internet en América Latina y Silicon Valley.
• Nos especializamos en proyectos de Consumer Web, Social Analytics y Big Data. Combinamos nuestros servicios de desarrollo boutique con un laboratorio de I+D para desarrollar nuevos emprendimientos y productos.
Big Data: Extraer y visualizar grandes volúmenes de datos
Visualizaciones en tiempo real sobre Twitter
Thursday, June 21, 12
Nuestra experiencia con Twitter APIs
Big Data: Extraer y visualizar grandes volúmenes de datos
Visualizaciones en tiempo real sobre Twitter
Al Jazeera - Twitter Dashboard
Coca Cola - Social World Cup
CABA - Elecciones legislativas 2011
La Nacion - Elecciones presidenciales 2011
JSConfAr - Visualizing Tweets
Zauberlabs - Tweet Discover
Thursday, June 21, 12
• Procesa social media data a gran escala para entregar reportes en tiempo real
• Identifica patrones demográficos y de comportamiento de seguidores y conversaciones en Twitter
• Usa ML y NLP para entregar perfiles sociales aumentados con información nueva respecto de APIs existentes o perfiles de usuarios.
Big Data: Extraer y visualizar grandes volúmenes de datos
Visualizaciones en tiempo real sobre Twitter
Value insights on social audiences and conversations
Plataforma online que:
Diseñada para:
• Investigación de mercado online
• Monitoreo de marcas en tiempo real
• ROI en Social Media
• Estrategias en Social Media
Análisis de audiencias
online
Thursday, June 21, 12
• Construir infografías animadas sobre temas en Twitter
• Enriquecer noticias con contenido social
• Ofrecer una segunda pantalla para un programa de TV
• Aumentar la participación en un evento
• Cubrir el buzz en eventos grandes o internacionales
Big Data: Extraer y visualizar grandes volúmenes de datos
Visualizaciones en tiempo real sobre Twitter
Build your own Twitter real-time visualizations
Plataforma online que permite:
Diseñada para:
• Periodistas, Bloggers, Directores de Contenido, Marketeers, Organizadores de Eventos, Emisoras
Visualizacio-nes animadas
de Twitter
Thursday, June 21, 12
Cómo lo construimos
Big Data: Extraer y visualizar grandes volúmenes de datos
Visualizaciones en tiempo real sobre Twitter
FRONTEND
INFRAESTRUCTURA
BACKEND
TWITTER API
Storm
Oozie
ELB, EC2, S3Elastic Map Reduce
Route53, CloudWatch
Rest APIStreaming API
Thursday, June 21, 12
Desafíos tecnológicos
• Límites API Twitter
• Big Data
• Manejo de datos no estructurados
• Inferencia de atributos ocultos
Big Data: Extraer y visualizar grandes volúmenes de datos
Visualizaciones en tiempo real sobre Twitter
Thursday, June 21, 12
Límites API Twitter
• Rest API limitada a 350 requests por ahora por IP
• Streaming API (statuses/filter) está limitada si tweets exceden el 1% del Firehose
• Partners de Twitter (Gnip, DataSift) pueden ser una opción para obtener un acceso mayor
Big Data: Extraer y visualizar grandes volúmenes de datos
Visualizaciones en tiempo real sobre Twitter
Thursday, June 21, 12
Big Data• Twitter en #
• 400M tweets por dia (http://www.theverge.com/2012/6/6/3069424/twitter-400-million-total-daily-tweets)
• 140M usuarios activos (http://blog.twitter.com/2012/03/twitter-turns-six.html)
• Generación de estadísticas en tiempo real
• Stream Processing => Storm
• Generación de estadísticas sobre los usuarios
• Batch Processing => Hadoop (Map Reduce, Pig)
Big Data: Extraer y visualizar grandes volúmenes de datos
Visualizaciones en tiempo real sobre Twitter
Thursday, June 21, 12
Manejo de datos no estructurados
• Ubicación
• 5% de tweets utilizan GeoLocation API
• 72% Ingresan datos de ubicación en forma no estructurada
• Utilizamos técnicas de NLP e Information Retrieval para detectar ubicación
Big Data: Extraer y visualizar grandes volúmenes de datos
Visualizaciones en tiempo real sobre Twitter
Thursday, June 21, 12
Inferencia de atributos ocultos
• Datos demográficos de usuarios no están presentes
• Tipo de Usuario
• Hombre/Mujer/Compañia
• Rango etario
• Machine Learning al rescate!
• Se utilizan técnicas de aprendizaje supervisado para detectar dichos atributos
Big Data: Extraer y visualizar grandes volúmenes de datos
Visualizaciones en tiempo real sobre Twitter
Thursday, June 21, 12
Demos
Big Data: Extraer y visualizar grandes volúmenes de datos
Visualizaciones en tiempo real sobre Twitter
Boca vs Universidad de Chile
Rio+20 Malvinas
Elecciones en Mexico
Thursday, June 21, 12
Gracias!
Big Data: Extraer y visualizar grandes volúmenes de datos
Visualizaciones en tiempo real sobre Twitter
Preguntas?
Thursday, June 21, 12