tendencias recientes en data mining

66
Tendencias recientes en Data Mining José Angel Alvarez Febrero 2013

Upload: data-mining-peru

Post on 29-Jun-2015

925 views

Category:

Education


2 download

DESCRIPTION

¿Cuales son las nuevas tendencia en Data Mining? Técnicas, SNA, Big Data, Analytics

TRANSCRIPT

Page 1: Tendencias Recientes en Data Mining

Tendencias recientes en Data Mining

José Angel Alvarez

Febrero 2013

Page 2: Tendencias Recientes en Data Mining

www.dataminingperu.com

Historia “revolucionaria” del Data Mining

• Una “revolución” tras otra: – Reglas de asociación – Arboles de decisiones – Redes neuronales – Análisis de supervivencia – Analytics – Uplifting – SNA (redes sociales) – Servicios de data mining – Big Data y “Data Science”

Page 3: Tendencias Recientes en Data Mining

www.dataminingperu.com

Fuerzas detrás de las “revoluciones”

• Necesidad de las empresas de mejorar su competitividad

• Necesidad de las empresas de software y consultoras de ampliar su oferta de productos y servicios

• Desarrollos en el mundo académico en busca de ser “útiles”

• Necesidad del mundo “académico” de ampliar su oferta educativa

Page 4: Tendencias Recientes en Data Mining

www.dataminingperu.com

Características generales de las “revoluciones” en data mining

• Mucho ruido y pocas nueces

• Clientes confundidos y muchos proyectos fallidos

• Múltiple reinvención de la rueda • Muchos disparates…

• Mucha “mala praxis” • Muchas veces más de lo mismo

• Pero, finalmente algo queda…

Page 5: Tendencias Recientes en Data Mining

www.dataminingperu.com

Análisis de redes sociales

Page 6: Tendencias Recientes en Data Mining

www.dataminingperu.com

Importancia de las redes sociales

o Las redes son un componente importante en el mundo físico, biológico y social: redes químicas, cadenas alimentarias, jerarquías sociales, etc.

o En el mundo actual, las redes son aun más prominentes: WWW, supply chain, comunidades virtuales, etc.

o Los avances tecnológicos tienen mucho que ver en esta importancia: Internet, celulares, transporte, procesamiento de datos, mayor nivel de interconexión en general

o Este hecho plantea la necesidad de desarrollar instrumentos para utilizar los datos sobre las redes de un modo efectivo

Page 7: Tendencias Recientes en Data Mining

www.dataminingperu.com

Desarrollos académicos

• Descubrimiento de las limitaciones expresivas de los modelos clásicos de data mining

• Desarrollo e identificación de representaciones más expresivas

• Desarrollo e implementación de técnicas de Data Mining Relacional

Page 8: Tendencias Recientes en Data Mining

www.dataminingperu.com

Limitaciones expresivas de los modelos clásicos de data mining

o Los modelos clásicos están implícitamente limitados a describir un solo objeto (cliente, caso, etc.)

o Las relaciones entre atributos o fenómenos que involucran relaciones entre objetos no pueden incorporarse a un modelo a menos que se las recodifique como atributos asociados a los objetos individuales

o Supuesto de “Tabla única”

Page 9: Tendencias Recientes en Data Mining

www.dataminingperu.com

Representaciones más expresivas

o Bases de datos relacionales: conjunto de tablas de entidades y relaciones

o Bases de conocimiento de lógica de primer orden: conjunto de sentencias de lógica de primer orden

o Grafos: Hipergrafos (dirigidos o no) tipificados donde los nodos representan objetos y los hiperarcos relaciones

Page 10: Tendencias Recientes en Data Mining

www.dataminingperu.com

Desarrollo e implementación de técnicas de Data Mining Relacional

Modelos Proposicionales Relacionales

No probabilís-ticos

Gráficos

Arboles de decisiones

Arboles relacionales Modelo relacional SNA

No gráficos Reglas Lógica prop.

Reglas relacionales Lógica relacional

Probabilís-ticos

Gráficos

No dirigidos

Redes Markovianas (MN) Redes de dependencia (DN)

Redes Markov. Relacionales (RMN) Redes de depen-dencia rel. (RDN)

Dirigidos Redes bayesianas (BN)

Redes bayesianas rel. (RBN) Modelos de grupos latentes (LGM)

No gráficos Reglas prob. Modelos lógicos probabilísticos

Reglas prob. Rel. Modelos lógicos probab. relac.

Page 11: Tendencias Recientes en Data Mining

www.dataminingperu.com

Implementaciones comerciales actuales de SNA

• Implementaciones de representaciones de grafos y algoritmos sobre estos para determinar comunidades, roles, etc.

• Generación de reportes y alertas • En algunos casos un “framework” más general que

incluye SNA como componente

Page 12: Tendencias Recientes en Data Mining

www.dataminingperu.com

Proceso de desarrollo para SNA

Proceso de ETL

Reglas de negocio

Detección de comunidades

Asignación de roles por

comunidad Reportes

• Cargar tres meses de CDR (Call detail record) • Sumarizar los 3 meses en una tabla relacional • Cargar variables demográficas sobre las líneas

• Restringir el análisis solo a celulares de todas las compañías • Solo usar CDR de llamadas, SMS, MMS y tiempo de transferencia. • Si un nodo tiene más de 150 relaciones con otros nodos, no incluir en el análisis. •Si un nodo A tiene más de 20.000 sucesos de contacto con un nodo B, no incluir este número en el análisis. •Si una relacion A-B tiene menos de 4 contactos en tres meses, no considerarla.

•Probar diversos algoritmos para detección de comunidades

• Para todo nodo identificar un rol entre los siguientes: • Líder. • Seguidor • Marginal grado 1 • Marginal grado 2 • Antagonista

• Tabla de resultados a ser usado por el departamento de marketing. • Tabla excel para consultar los resultados. • Objeto JAVA para graficar las comunidades

Page 13: Tendencias Recientes en Data Mining

www.dataminingperu.com

Algunas aplicaciones

• Detección de churn y potenciales adquisiciones en Telcos – Los nodos son los clientes – Los arcos son los patrones de comunicaciones entre los

clientes (según los CDR) • Detección de fraude

– Los nodos son cuentas y/o propiedades de esas cuentas – Los arcos son transferencias monetarias o vínculos entre

propiedades de las cuentas (usualmente identidad) • Marketing viral

– Los nodos son clientes – Los arcos son mensajes

Page 14: Tendencias Recientes en Data Mining

Enfoque híbrido de detección de fraudes (Framework de riesgo de SAS)

Patrones conocidos

Patrones desconocidos

Patrones complejos

Patrones asociativos

Reglas Detección de anomalías

Modelos supervisados

SNA

Definir reglas para filtrar transacciones fraudulentas

Detectar patrones anormales individuales y agregados

Aplicar modelos predictivos de data mining relacional

Aplicar visualización y métricas de grafos para descubrir anomalías

Ejemplo: Dos transacciones entre cuentas “marcadas”

Ejemplos: Análisis de secuencias, outliers, clustering

Ejemplos: modelos relacionales estadísticos

Ejemplos: Conceptos de teoría de grafos

Page 15: Tendencias Recientes en Data Mining

www.dataminingperu.com

Algunos desafíos del SNA

o Encontrar un balance apropiado entre la información local asociada al cliente e información de la red: No todo está en el individuo ni en la red

o Poder aplicar procedimientos que permitan inferir (predecir) la conducta de conjuntos de nodos simultáneamente: inferencia colectiva

o Resolver el problema de la validación de un modelo: no se puede partir aleatoriamente una red en conjuntos de entrenamiento y validación:

Page 16: Tendencias Recientes en Data Mining

www.dataminingperu.com

Estado actual de los SNA en Latinoamérica

• Dificultades en la carga de datos (CDR) • Dificultades en la definición de conceptos y alertas • Solo aplicaciones básicas de teoría de grafos • Dificultades en enriquecer modelos tradicionales o

utilizar las redes de un modo realmente productivo • Dificultades en usar la red más globalmente

(concentración “local” en el nodo) • Ausencia total de modelos predictivos “colectivos”

Page 17: Tendencias Recientes en Data Mining

Tendencias Recientes

Page 18: Tendencias Recientes en Data Mining

www.dataminingperu.com

Tendencias recientes

• Data mining como servicio • Extensión a nuevas áreas de aplicación • Big Data y el “Data Science”

Page 19: Tendencias Recientes en Data Mining

www.dataminingperu.com

Data mining como servicio

• Dos sentidos: – Sector centralizado de data mining dentro de una

empresa – Modelización predictiva anidada en soluciones

Page 20: Tendencias Recientes en Data Mining

www.dataminingperu.com

Evolución de la inserción del data mining en las empresas

• Servicio externo en sectores aislados • Función incorporada en distintos sectores

(modelos in house) – Difusión de modelos creados centralmente y

ajustados localmente • Servicio interno más o menos centralizado

Page 21: Tendencias Recientes en Data Mining

www.dataminingperu.com

Servicio externo en sectores aislados

• Modelos cerrados para el cliente (poca posibilidad de control o ajuste)

• El negocio de las consultoras externas es el de modelos “genéricos”, con el mínimo ajuste posible

• Baja transferencia de know-how y capacitación al cliente

Page 22: Tendencias Recientes en Data Mining

www.dataminingperu.com

Función incorporada en sectores particulares (modelos in house)

• Mayor control sobre los modelos • Mayor precisión de los mismos • Metodologías, criterios, evaluaciones y capacitación

fragmentadas y muchas veces inconsistentes o incoherentes entre diversos sectores de una misma organización

• Poca experiencia, capacitación; evaluación pobre de los modelos y transferencia deficiente de conocimientos

Page 23: Tendencias Recientes en Data Mining

www.dataminingperu.com

Servicio interno centralizado

• Un sector especializado y capacitado tiene el control de los modelos, las metodologías, etc.

• Mayor coherencia en toda la organización • Capacitación centralizada y más eficaz • Mejor transferencia de conocimientos • Mejor vinculación con otros sectores

(especialmente IT)

Page 24: Tendencias Recientes en Data Mining

www.dataminingperu.com

Modelización anidada (I)

• Plataformas de BI que incluyen funciones de analytics predictivo (Alteryx, Pentaho)

• Plataformas de BPM (Business Process Management) con funciones de modelización predictiva (Pegasystems, Rage Frameworks)

• Database Analytics: RDBMSs, EDWs, NoSQLs, BDOGs, Hadoop: contienen funciones de modelización predictiva (usualmente muy limitadas y mediante código) (Aster, Apache Mahout para Hadoop, etc.)

Page 25: Tendencias Recientes en Data Mining

www.dataminingperu.com

Modelización anidada (II)

• Modelos anidados en soluciones – Framework de riesgo – Automatización de marketing – Mantenimiento predictivo

Page 26: Tendencias Recientes en Data Mining

www.dataminingperu.com

Mantenimiento Predictivo

• Motivaciones: – Pérdidas económicas importantes cuando falla

un recurso (baja en producción, multas, etc.) – Deterioro en la “reputación” – Regulaciones estatales, acuerdos de niveles de

servicio y requerimientos de seguridad – Disminuir el costo de mantenimiento (15 a

60% del costo del bien en venta – COGS)

Page 27: Tendencias Recientes en Data Mining

www.dataminingperu.com

Valor del mantenimiento predictivo

• Beneficios a partir del inicio de un programa de mantenimiento predictivo: – ROI: 10 veces

– Reducción en los costos de mantenimiento: 25% - 30%

– Eliminación de eventos de fuera de servicio: 70% - 75%

– Reducción del tiempo fuera de servicio: 35% - 45%

– Aumento en la producción: 20% - 25%. Fuente: Operations and Maintenance Best Practices

Guide. US Department of Energy

Page 28: Tendencias Recientes en Data Mining

www.dataminingperu.com

Analytics en mantenimiento predictivo

Qué recursos debieran recibir mantenimiento/reemplazarse debido a que es probable que fallen durante el próximo ciclo de mantenimiento?

Inteligencia

Valo

r/Con

fiabi

lidad

Mantenimiento Reactivo Alertas….Qué está pasando?

Dónde? Qué está afectado?

Mantenimiento Predictivo

Mantenimiento Preventivo Cómo puedo impedir salidas de

servicio en ciclos costo-eficientes de mantenimiento?

Qué alertas habría que atender primero? Cómo puedo optimizar mi estrategia de mantenimiento?

Optimización del mantenimiento

Page 29: Tendencias Recientes en Data Mining

29 Copyright © 2010 SAS Institute Inc. All rights reserved.

Performance Monitoring, Indicators

and Dashboards

Scoring & Alerting on Issue

Root Cause Analysis • Enterprise Miner • Enterprise Guide • JMP

Predictive Modeling • Enterprise Miner • Enterprise Guide

Mod

el

Repo

sito

ry

Analytics Scheduled Process

Data Stores

Case Management (SAS ECM)

Publish

Model Monitoring

Repo

rtin

g an

d Al

erts

D

ata

Mar

t

Filtered Subsets

Filtering

Data Warehouse (Events, Asset …)

ETL

Data Mart

Validation, Cleanup,

Access to OPC

SAS PAM Predictive Asset Maintenance

Page 30: Tendencias Recientes en Data Mining

www.dataminingperu.com

Nuevas aplicaciones: Government Analytics

• La aplicación de técnicas analíticas (econometría, estadística, modelización predictiva, optimización, etc.) a la gestión gubernamental.

• Provee un marco para la toma de decisiones que ayuda a los Gobiernos a resolver dificultades complejas, mejorar su desempeño y anticiparse a la ocurrencia de los problemas administrando y balanceando de manera apropiada los riesgos que le son propios.

Page 31: Tendencias Recientes en Data Mining

www.dataminingperu.com

¿Qué es Government Analytics?

• Es la siguiente etapa de lo que se denomina Government Intelligence, un estadio de desarrollo de la Gestión Pública Orientada a Resultados ampliamente difundida en latinoamérica, en la que los gobiernos ajustan su accionar con base en patrones correctivos, es decir, mediante la revisión de los resultados históricos alcanzados

Page 32: Tendencias Recientes en Data Mining

www.dataminingperu.com

¿Qué es Government Analytics?

• Government Analytics supone un cambio radical en la administración pública:

la obliga a pasar de un esquema pasivo de formulación de políticas públicas a un modelo completamente proactivo en el que puede predecir los resultados y las reformulaciones incluso antes de proceder a su implementación.

Page 33: Tendencias Recientes en Data Mining

www.dataminingperu.com

Big Data

• “Big data analytics promete revolucionar el modo en que las organizaciones analizan y obtienen valor de sus datos”.

Page 34: Tendencias Recientes en Data Mining

www.dataminingperu.com

Big Data

• “Las organizaciones de todas las formas y tamaños cuentan con la capacidad para aprovechar la cantidad siempre creciente de datos que recolectan. Sin embargo, muchas todavía luchan por producir valor de los datos que ya tienen a su disposición”.

Big Data Insight Group

Page 35: Tendencias Recientes en Data Mining

www.dataminingperu.com

Big Data

Page 36: Tendencias Recientes en Data Mining

www.dataminingperu.com

Big Data

• Cada día creamos 2.5 quintillones (1018) bytes

• El 90% de los datos disponibles fueron creados en los últimos dos años

Page 37: Tendencias Recientes en Data Mining

www.dataminingperu.com

Big Data

Page 38: Tendencias Recientes en Data Mining

www.dataminingperu.com

¿Qué es Big Data?

• Big data es un término relativo que describe una situación en la que el volumen, velocidad y variedad de los datos exceden la capacidad de almacenamiento y utilización para una toma de decisiones precisa y oportuna

• Big data se define menos por el volumen – que es un blanco móvil – que por su siempre creciente variedad, velocidad, variabilidad y complejidad

Page 39: Tendencias Recientes en Data Mining

www.dataminingperu.com

¿Big Data es Data Mining rebautizado?

http://www.insideanalysis.com/2012/04/data-mining-and-beyond/ From Data Mining to Big Data and Beyond Posted on April 18, 2012 by Gregory Piatetsky-Shapiro

Page 40: Tendencias Recientes en Data Mining

www.dataminingperu.com

¿Big Data es Data Mining rebautizado?

http://www.insideanalysis.com/2012/04/data-mining-and-beyond/ From Data Mining to Big Data and Beyond Posted on April 18, 2012 by Gregory Piatetsky-Shapiro

Page 41: Tendencias Recientes en Data Mining

www.dataminingperu.com

¿Big Data es Data Mining rebautizado?

http://www.insideanalysis.com/2012/04/data-mining-and-beyond/ From Data Mining to Big Data and Beyond Posted on April 18, 2012 by Gregory Piatetsky-Shapiro

Page 42: Tendencias Recientes en Data Mining

www.dataminingperu.com

¿Big Data es Data Mining rebautizado?

http://www.insideanalysis.com/2012/04/data-mining-and-beyond/ From Data Mining to Big Data and Beyond Posted on April 18, 2012 by Gregory Piatetsky-Shapiro

Page 43: Tendencias Recientes en Data Mining

www.dataminingperu.com

¿Big Data es Data Mining rebautizado?

“En resumen, vemos que al proceso de análisis de datos se le dió muchos nombres diferentes, dependiendo de diversas tendencias en áreas de negocios y marketing. Nuevas tendencias surgirán y podemos esperar que los términos, ahora de moda, de data science y big data serán reemplazados en unos pocos años”.

http://www.insideanalysis.com/2012/04/data-mining-and-beyond/ From Data Mining to Big Data and Beyond Posted on April 18, 2012 by Gregory Piatetsky-Shapiro

Page 44: Tendencias Recientes en Data Mining

www.dataminingperu.com

¿Big Data es el último grito de la moda? (La industria del Big Data)

• Consultoras “revolucionarias”

Page 45: Tendencias Recientes en Data Mining

www.dataminingperu.com

¿Big Data es el último grito de la moda? (La industria del Big Data)

• Consultoras “revolucionarias”

• Revistas ¿científicas?

Big Data Journal

Page 46: Tendencias Recientes en Data Mining

www.dataminingperu.com

¿Big Data es el último grito de la moda? (La industria del Big Data)

• Consultoras “revolucionarias”

• Revistas ¿científicas?

• Big Data Books

Page 47: Tendencias Recientes en Data Mining

www.dataminingperu.com

¿Big Data es el último grito de la moda? (La industria del Big Data)

• Consultoras “revolucionarias”

• Revistas ¿científicas?

• Big Data Books • Big Data Certificates

Page 48: Tendencias Recientes en Data Mining

www.dataminingperu.com

¿Big Data es el último grito de la moda? (La industria del Big Data)

• Consultoras “revolucionarias”

• Revistas ¿científicas?

• Big Data Books • Big Data Certificates

• Big Data Tools

Page 49: Tendencias Recientes en Data Mining

www.dataminingperu.com

¿Big Data es el último grito de la moda? (La industria del Big Data)

• Consultoras “revolucionarias”

• Revistas ¿científicas?

• Big Data Books • Big Data Certificates

• Big Data Tools • ¡Una nueva ciencia¡

Data Science

Wikipedia

Page 52: Tendencias Recientes en Data Mining

www.dataminingperu.com

Evaluación del mercado de proveedores

• Mejor manejo de grandes volúmenes de datos, herramientas de modelización fáciles de aprender/usar y una amplia variedad de algoritmos de análisis para datos estructurados y no estructurados dictan cuál proveedor liderará el mercado. Prevemos que el mercado de las soluciones analíticas de Big Data será vibrante, altamente competitivo y poblado de nuevos jugadores durante los próximos tres años”.

The Forrester Wave™: Big Data Predictive Analytics Solutions, Q1 2013

Page 53: Tendencias Recientes en Data Mining

www.dataminingperu.com

Forrester Wave™: Big Data Predictive Analytics Solutions, Q1 ’13

Forrester define las soluciones analíticas predictivas de big data así: Soluciones de software y/o hardware que permiten a las empresas descubrir, evaluar, optimizar y desplegar modelos predictivos resultantes del análisis de fuentes de datos de gran volúmen para mejorar la performance del negocio o mitigar los riesgos.

Page 54: Tendencias Recientes en Data Mining

www.dataminingperu.com

Big data según SAS

• Estrategias: – Repensar la gestión de datos

• Integrar los procesos de integración de datos, data quality, administración de metadatos y data governance

– Incorporar muy grandes volúmenes de datos en tareas analíticas

• Analytics de Alta Performance: computación en grids, procesamiento en base de datos, analytics en memoria

• Data Analytics Warehouse

– Determinación temprana de relevancia de los datos

Page 55: Tendencias Recientes en Data Mining

www.dataminingperu.com

Information Management for Big Data

• Big data no solo intensifica la necesidad de almacenar inmensos volúmenes de datos, sino también la necesidad de data quality y data governance, de anidar las funciones de analytics en los sistemas operacionales y las cuestiones de seguridad, privacidad y regulaciones.

• Todo lo que antes era problemático ahora se hará más problemático.

Page 56: Tendencias Recientes en Data Mining

www.dataminingperu.com

Information Management for Big Data

• En lugar de hacer una gestión reactiva de los datos, hacer una gestión proactiva y predictiva

• Componentes clave: – Gestión integrada de los datos incluyendo data

governance, integración de datos, data quality y gestión de metadatos

– Gestión completa de los procesos analíticos, incluyendo la gestión de modelos, su puesta en producción y monitoreo

– Gestión efectiva de las decisiones para anidar fácilmente la información y los resultados analíticos en los procesos de negocios (en reglas de negocio, workflows y lógica de sucesos)

Page 57: Tendencias Recientes en Data Mining

www.dataminingperu.com

High-Performance Analytics for Big Data

• Diversas opciones de alta performance – Computación en grid

– Procesamiento en base de datos – Analytics en memoria – Soporte para Hadoop

– Analytics visual en Web

Page 58: Tendencias Recientes en Data Mining

www.dataminingperu.com

Determinación temprana de relevancia de los datos

• Incorporar analytics de alta performance al propio proceso de gestión de datos

• Este análisis identifica los datos relevantes que debieran ser llevados al DW o sobre los que debieran hacerse procesos analíticos de alta performance

Page 59: Tendencias Recientes en Data Mining

www.dataminingperu.com

Algunas Reflexiones

• Enfoque

• Utilidad

• Educación • Prioridades

Page 61: Tendencias Recientes en Data Mining

www.dataminingperu.com

Utilidad

• Maldición de la dimensionalidad: – Mayor cantidad de casos aumenta la probabilidad de

encontrar patrones espurios

– Mayor cantidad de variables aumenta exponencialmente la cantidad necesaria de casos

• Muchos datos (casos o dimensiones) no necesariamente significan mejores modelos

Page 62: Tendencias Recientes en Data Mining

www.dataminingperu.com

¡Es la educación estúpido!

Page 63: Tendencias Recientes en Data Mining

www.dataminingperu.com

Prioridades

• ¿Cuántas empresas locales tienen petabytes de datos?

• ¿Las muy pocas que los tienen, los subutilizan por falta de Big Data?

• ¿Cuáles es realmente el estado del data mining en las empresas latinoamericanas?

Page 64: Tendencias Recientes en Data Mining

www.dataminingperu.com

Estado de cosas

• Capacitación deficiente de los data miners

• Confusión en la metodología o metodologías débiles: – En la preparación de datos – En la estrategia de modelización

– En la utilización y gestión de los modelos – En la evaluación de los mismos

• Considerable confusión en los “clientes”

Page 65: Tendencias Recientes en Data Mining

www.dataminingperu.com

En síntesis

• Hay mucho que hacer antes de llegar al Big Data

• Cuando lo hagamos (si lo hacemos) probablemente ya haya cambiado de nombre….

• Data Mining como servicio, aplicaciones en campos como gobierno, mantenimiento y otros parecen más útiles en este momento

• También el refuerzo y profundización en áreas como el análisis de supervivencia y el SNA

Page 66: Tendencias Recientes en Data Mining

¿Preguntas?