data science
TRANSCRIPT
Data Science
Svet Ivantchev, eFaberUniEE, 7 de marzo de 2012
El sexy job del la década?
“I keep saying the sexy job in the next ten years will be statisticians. People think I'm joking, but who would've guessed that computer engineers
would've been the sexy job of the 1990s?”
Hal Varian, The McKinsey Quarterly, January 2009
http://www.dataists.com/2010/09/the-data-science-venn-diagram/
http://www.mymodernmet.com/profiles/blogs/stephen-wildish-clever-venn-diagrams
http://www.mymodernmet.com/profiles/blogs/stephen-wildish-clever-venn-diagrams
Hablaremos de:
• Presentación de datos
• Aprendizaje automático
• Estadística
• Big Data
Presentación de datos
Cuatro “sets” de datos con los mismas “medidas”
Anscombe, F. (1973), Graphs in Statistical Analysis, The American Statistician, pp. 195-199.
Los mismos promedios presentados gráficamente
http://en.wikipedia.org/wiki/Anscombe%27s_quartet
Ej: Epidemia de cólera en Londres
• año 1854
• 19 de agosto -- 29 de septiembre: 616 muertos
• tardan 2.5 semanas en descubrir el motivo
Comparativas sin sentido
Radiación solar y la bolsa
El contexto
NYT y la deuda de los países
http://www.nytimes.com/interactive/2011/10/23/sunday-review/an-overview-of-the-euro-crisis.html
Estadística 101
Aprendizaje automático(aka Machine Learning)
Desarrollo de algoritmos y métodos quepermiten a los ordenadores “evolucionar”
en base de datos empíricos
Temas y ejemplos
• Clasificación
• Recomendaciones
• Clustering (con zip :-) ?)
• Ejemplo y relación con Compresión
• En la vida real I: datos vs algoritmos
• En la vida real II: experiencia vs metodología
Relacionado: búsqueda
• Idea de TF-IDF, tf (t, d) * idf (t, D)
• Idea de PageRank
Peligro: Usar sin entender
Otro ejemplo (mejor)
Datos propios
• Con un móvil Android
• Del coche
Con un Android
OBD II
GPS speed
Engine RPM
Acc pedal pos
Fuel flow
CO2
Recapitulando
• Visualización
• Gestión de muchos datos
• Métodos matemáticos y estadística