tendencias recientes en data mining
DESCRIPTION
¿Cuales son las nuevas tendencia en Data Mining? Técnicas, SNA, Big Data, AnalyticsTRANSCRIPT
Tendencias recientes en Data Mining
José Angel Alvarez
Febrero 2013
www.dataminingperu.com
Historia “revolucionaria” del Data Mining
• Una “revolución” tras otra: – Reglas de asociación – Arboles de decisiones – Redes neuronales – Análisis de supervivencia – Analytics – Uplifting – SNA (redes sociales) – Servicios de data mining – Big Data y “Data Science”
www.dataminingperu.com
Fuerzas detrás de las “revoluciones”
• Necesidad de las empresas de mejorar su competitividad
• Necesidad de las empresas de software y consultoras de ampliar su oferta de productos y servicios
• Desarrollos en el mundo académico en busca de ser “útiles”
• Necesidad del mundo “académico” de ampliar su oferta educativa
www.dataminingperu.com
Características generales de las “revoluciones” en data mining
• Mucho ruido y pocas nueces
• Clientes confundidos y muchos proyectos fallidos
• Múltiple reinvención de la rueda • Muchos disparates…
• Mucha “mala praxis” • Muchas veces más de lo mismo
• Pero, finalmente algo queda…
www.dataminingperu.com
Importancia de las redes sociales
o Las redes son un componente importante en el mundo físico, biológico y social: redes químicas, cadenas alimentarias, jerarquías sociales, etc.
o En el mundo actual, las redes son aun más prominentes: WWW, supply chain, comunidades virtuales, etc.
o Los avances tecnológicos tienen mucho que ver en esta importancia: Internet, celulares, transporte, procesamiento de datos, mayor nivel de interconexión en general
o Este hecho plantea la necesidad de desarrollar instrumentos para utilizar los datos sobre las redes de un modo efectivo
www.dataminingperu.com
Desarrollos académicos
• Descubrimiento de las limitaciones expresivas de los modelos clásicos de data mining
• Desarrollo e identificación de representaciones más expresivas
• Desarrollo e implementación de técnicas de Data Mining Relacional
www.dataminingperu.com
Limitaciones expresivas de los modelos clásicos de data mining
o Los modelos clásicos están implícitamente limitados a describir un solo objeto (cliente, caso, etc.)
o Las relaciones entre atributos o fenómenos que involucran relaciones entre objetos no pueden incorporarse a un modelo a menos que se las recodifique como atributos asociados a los objetos individuales
o Supuesto de “Tabla única”
www.dataminingperu.com
Representaciones más expresivas
o Bases de datos relacionales: conjunto de tablas de entidades y relaciones
o Bases de conocimiento de lógica de primer orden: conjunto de sentencias de lógica de primer orden
o Grafos: Hipergrafos (dirigidos o no) tipificados donde los nodos representan objetos y los hiperarcos relaciones
www.dataminingperu.com
Desarrollo e implementación de técnicas de Data Mining Relacional
Modelos Proposicionales Relacionales
No probabilís-ticos
Gráficos
Arboles de decisiones
Arboles relacionales Modelo relacional SNA
No gráficos Reglas Lógica prop.
Reglas relacionales Lógica relacional
Probabilís-ticos
Gráficos
No dirigidos
Redes Markovianas (MN) Redes de dependencia (DN)
Redes Markov. Relacionales (RMN) Redes de depen-dencia rel. (RDN)
Dirigidos Redes bayesianas (BN)
Redes bayesianas rel. (RBN) Modelos de grupos latentes (LGM)
No gráficos Reglas prob. Modelos lógicos probabilísticos
Reglas prob. Rel. Modelos lógicos probab. relac.
www.dataminingperu.com
Implementaciones comerciales actuales de SNA
• Implementaciones de representaciones de grafos y algoritmos sobre estos para determinar comunidades, roles, etc.
• Generación de reportes y alertas • En algunos casos un “framework” más general que
incluye SNA como componente
www.dataminingperu.com
Proceso de desarrollo para SNA
Proceso de ETL
Reglas de negocio
Detección de comunidades
Asignación de roles por
comunidad Reportes
• Cargar tres meses de CDR (Call detail record) • Sumarizar los 3 meses en una tabla relacional • Cargar variables demográficas sobre las líneas
• Restringir el análisis solo a celulares de todas las compañías • Solo usar CDR de llamadas, SMS, MMS y tiempo de transferencia. • Si un nodo tiene más de 150 relaciones con otros nodos, no incluir en el análisis. •Si un nodo A tiene más de 20.000 sucesos de contacto con un nodo B, no incluir este número en el análisis. •Si una relacion A-B tiene menos de 4 contactos en tres meses, no considerarla.
•Probar diversos algoritmos para detección de comunidades
• Para todo nodo identificar un rol entre los siguientes: • Líder. • Seguidor • Marginal grado 1 • Marginal grado 2 • Antagonista
• Tabla de resultados a ser usado por el departamento de marketing. • Tabla excel para consultar los resultados. • Objeto JAVA para graficar las comunidades
www.dataminingperu.com
Algunas aplicaciones
• Detección de churn y potenciales adquisiciones en Telcos – Los nodos son los clientes – Los arcos son los patrones de comunicaciones entre los
clientes (según los CDR) • Detección de fraude
– Los nodos son cuentas y/o propiedades de esas cuentas – Los arcos son transferencias monetarias o vínculos entre
propiedades de las cuentas (usualmente identidad) • Marketing viral
– Los nodos son clientes – Los arcos son mensajes
Enfoque híbrido de detección de fraudes (Framework de riesgo de SAS)
Patrones conocidos
Patrones desconocidos
Patrones complejos
Patrones asociativos
Reglas Detección de anomalías
Modelos supervisados
SNA
Definir reglas para filtrar transacciones fraudulentas
Detectar patrones anormales individuales y agregados
Aplicar modelos predictivos de data mining relacional
Aplicar visualización y métricas de grafos para descubrir anomalías
Ejemplo: Dos transacciones entre cuentas “marcadas”
Ejemplos: Análisis de secuencias, outliers, clustering
Ejemplos: modelos relacionales estadísticos
Ejemplos: Conceptos de teoría de grafos
www.dataminingperu.com
Algunos desafíos del SNA
o Encontrar un balance apropiado entre la información local asociada al cliente e información de la red: No todo está en el individuo ni en la red
o Poder aplicar procedimientos que permitan inferir (predecir) la conducta de conjuntos de nodos simultáneamente: inferencia colectiva
o Resolver el problema de la validación de un modelo: no se puede partir aleatoriamente una red en conjuntos de entrenamiento y validación:
www.dataminingperu.com
Estado actual de los SNA en Latinoamérica
• Dificultades en la carga de datos (CDR) • Dificultades en la definición de conceptos y alertas • Solo aplicaciones básicas de teoría de grafos • Dificultades en enriquecer modelos tradicionales o
utilizar las redes de un modo realmente productivo • Dificultades en usar la red más globalmente
(concentración “local” en el nodo) • Ausencia total de modelos predictivos “colectivos”
Tendencias Recientes
www.dataminingperu.com
Tendencias recientes
• Data mining como servicio • Extensión a nuevas áreas de aplicación • Big Data y el “Data Science”
www.dataminingperu.com
Data mining como servicio
• Dos sentidos: – Sector centralizado de data mining dentro de una
empresa – Modelización predictiva anidada en soluciones
www.dataminingperu.com
Evolución de la inserción del data mining en las empresas
• Servicio externo en sectores aislados • Función incorporada en distintos sectores
(modelos in house) – Difusión de modelos creados centralmente y
ajustados localmente • Servicio interno más o menos centralizado
www.dataminingperu.com
Servicio externo en sectores aislados
• Modelos cerrados para el cliente (poca posibilidad de control o ajuste)
• El negocio de las consultoras externas es el de modelos “genéricos”, con el mínimo ajuste posible
• Baja transferencia de know-how y capacitación al cliente
www.dataminingperu.com
Función incorporada en sectores particulares (modelos in house)
• Mayor control sobre los modelos • Mayor precisión de los mismos • Metodologías, criterios, evaluaciones y capacitación
fragmentadas y muchas veces inconsistentes o incoherentes entre diversos sectores de una misma organización
• Poca experiencia, capacitación; evaluación pobre de los modelos y transferencia deficiente de conocimientos
www.dataminingperu.com
Servicio interno centralizado
• Un sector especializado y capacitado tiene el control de los modelos, las metodologías, etc.
• Mayor coherencia en toda la organización • Capacitación centralizada y más eficaz • Mejor transferencia de conocimientos • Mejor vinculación con otros sectores
(especialmente IT)
www.dataminingperu.com
Modelización anidada (I)
• Plataformas de BI que incluyen funciones de analytics predictivo (Alteryx, Pentaho)
• Plataformas de BPM (Business Process Management) con funciones de modelización predictiva (Pegasystems, Rage Frameworks)
• Database Analytics: RDBMSs, EDWs, NoSQLs, BDOGs, Hadoop: contienen funciones de modelización predictiva (usualmente muy limitadas y mediante código) (Aster, Apache Mahout para Hadoop, etc.)
www.dataminingperu.com
Modelización anidada (II)
• Modelos anidados en soluciones – Framework de riesgo – Automatización de marketing – Mantenimiento predictivo
www.dataminingperu.com
Mantenimiento Predictivo
• Motivaciones: – Pérdidas económicas importantes cuando falla
un recurso (baja en producción, multas, etc.) – Deterioro en la “reputación” – Regulaciones estatales, acuerdos de niveles de
servicio y requerimientos de seguridad – Disminuir el costo de mantenimiento (15 a
60% del costo del bien en venta – COGS)
www.dataminingperu.com
Valor del mantenimiento predictivo
• Beneficios a partir del inicio de un programa de mantenimiento predictivo: – ROI: 10 veces
– Reducción en los costos de mantenimiento: 25% - 30%
– Eliminación de eventos de fuera de servicio: 70% - 75%
– Reducción del tiempo fuera de servicio: 35% - 45%
– Aumento en la producción: 20% - 25%. Fuente: Operations and Maintenance Best Practices
Guide. US Department of Energy
www.dataminingperu.com
Analytics en mantenimiento predictivo
Qué recursos debieran recibir mantenimiento/reemplazarse debido a que es probable que fallen durante el próximo ciclo de mantenimiento?
Inteligencia
Valo
r/Con
fiabi
lidad
Mantenimiento Reactivo Alertas….Qué está pasando?
Dónde? Qué está afectado?
Mantenimiento Predictivo
Mantenimiento Preventivo Cómo puedo impedir salidas de
servicio en ciclos costo-eficientes de mantenimiento?
Qué alertas habría que atender primero? Cómo puedo optimizar mi estrategia de mantenimiento?
Optimización del mantenimiento
29 Copyright © 2010 SAS Institute Inc. All rights reserved.
Performance Monitoring, Indicators
and Dashboards
Scoring & Alerting on Issue
Root Cause Analysis • Enterprise Miner • Enterprise Guide • JMP
Predictive Modeling • Enterprise Miner • Enterprise Guide
Mod
el
Repo
sito
ry
Analytics Scheduled Process
Data Stores
Case Management (SAS ECM)
Publish
Model Monitoring
Repo
rtin
g an
d Al
erts
D
ata
Mar
t
Filtered Subsets
Filtering
Data Warehouse (Events, Asset …)
ETL
Data Mart
Validation, Cleanup,
Access to OPC
SAS PAM Predictive Asset Maintenance
www.dataminingperu.com
Nuevas aplicaciones: Government Analytics
• La aplicación de técnicas analíticas (econometría, estadística, modelización predictiva, optimización, etc.) a la gestión gubernamental.
• Provee un marco para la toma de decisiones que ayuda a los Gobiernos a resolver dificultades complejas, mejorar su desempeño y anticiparse a la ocurrencia de los problemas administrando y balanceando de manera apropiada los riesgos que le son propios.
www.dataminingperu.com
¿Qué es Government Analytics?
• Es la siguiente etapa de lo que se denomina Government Intelligence, un estadio de desarrollo de la Gestión Pública Orientada a Resultados ampliamente difundida en latinoamérica, en la que los gobiernos ajustan su accionar con base en patrones correctivos, es decir, mediante la revisión de los resultados históricos alcanzados
www.dataminingperu.com
¿Qué es Government Analytics?
• Government Analytics supone un cambio radical en la administración pública:
la obliga a pasar de un esquema pasivo de formulación de políticas públicas a un modelo completamente proactivo en el que puede predecir los resultados y las reformulaciones incluso antes de proceder a su implementación.
www.dataminingperu.com
Big Data
• “Big data analytics promete revolucionar el modo en que las organizaciones analizan y obtienen valor de sus datos”.
www.dataminingperu.com
Big Data
• “Las organizaciones de todas las formas y tamaños cuentan con la capacidad para aprovechar la cantidad siempre creciente de datos que recolectan. Sin embargo, muchas todavía luchan por producir valor de los datos que ya tienen a su disposición”.
Big Data Insight Group
www.dataminingperu.com
Big Data
• Cada día creamos 2.5 quintillones (1018) bytes
• El 90% de los datos disponibles fueron creados en los últimos dos años
www.dataminingperu.com
¿Qué es Big Data?
• Big data es un término relativo que describe una situación en la que el volumen, velocidad y variedad de los datos exceden la capacidad de almacenamiento y utilización para una toma de decisiones precisa y oportuna
• Big data se define menos por el volumen – que es un blanco móvil – que por su siempre creciente variedad, velocidad, variabilidad y complejidad
www.dataminingperu.com
¿Big Data es Data Mining rebautizado?
http://www.insideanalysis.com/2012/04/data-mining-and-beyond/ From Data Mining to Big Data and Beyond Posted on April 18, 2012 by Gregory Piatetsky-Shapiro
www.dataminingperu.com
¿Big Data es Data Mining rebautizado?
http://www.insideanalysis.com/2012/04/data-mining-and-beyond/ From Data Mining to Big Data and Beyond Posted on April 18, 2012 by Gregory Piatetsky-Shapiro
www.dataminingperu.com
¿Big Data es Data Mining rebautizado?
http://www.insideanalysis.com/2012/04/data-mining-and-beyond/ From Data Mining to Big Data and Beyond Posted on April 18, 2012 by Gregory Piatetsky-Shapiro
www.dataminingperu.com
¿Big Data es Data Mining rebautizado?
http://www.insideanalysis.com/2012/04/data-mining-and-beyond/ From Data Mining to Big Data and Beyond Posted on April 18, 2012 by Gregory Piatetsky-Shapiro
www.dataminingperu.com
¿Big Data es Data Mining rebautizado?
“En resumen, vemos que al proceso de análisis de datos se le dió muchos nombres diferentes, dependiendo de diversas tendencias en áreas de negocios y marketing. Nuevas tendencias surgirán y podemos esperar que los términos, ahora de moda, de data science y big data serán reemplazados en unos pocos años”.
http://www.insideanalysis.com/2012/04/data-mining-and-beyond/ From Data Mining to Big Data and Beyond Posted on April 18, 2012 by Gregory Piatetsky-Shapiro
www.dataminingperu.com
¿Big Data es el último grito de la moda? (La industria del Big Data)
• Consultoras “revolucionarias”
www.dataminingperu.com
¿Big Data es el último grito de la moda? (La industria del Big Data)
• Consultoras “revolucionarias”
• Revistas ¿científicas?
Big Data Journal
www.dataminingperu.com
¿Big Data es el último grito de la moda? (La industria del Big Data)
• Consultoras “revolucionarias”
• Revistas ¿científicas?
• Big Data Books
www.dataminingperu.com
¿Big Data es el último grito de la moda? (La industria del Big Data)
• Consultoras “revolucionarias”
• Revistas ¿científicas?
• Big Data Books • Big Data Certificates
www.dataminingperu.com
¿Big Data es el último grito de la moda? (La industria del Big Data)
• Consultoras “revolucionarias”
• Revistas ¿científicas?
• Big Data Books • Big Data Certificates
• Big Data Tools
www.dataminingperu.com
¿Big Data es el último grito de la moda? (La industria del Big Data)
• Consultoras “revolucionarias”
• Revistas ¿científicas?
• Big Data Books • Big Data Certificates
• Big Data Tools • ¡Una nueva ciencia¡
Data Science
Wikipedia
www.dataminingperu.com
¿Big Data es el último grito de la moda? (La industria del Big Data)
• Próximamente • Muñequitos de acción Big Data!!
www.dataminingperu.com
¿Big Data es el último grito de la moda? (La industria del Big Data)
• Próximamente • Muñequitos de acción Big Data!!
• La secuela: BIG DATA 2
www.dataminingperu.com
Evaluación del mercado de proveedores
• Mejor manejo de grandes volúmenes de datos, herramientas de modelización fáciles de aprender/usar y una amplia variedad de algoritmos de análisis para datos estructurados y no estructurados dictan cuál proveedor liderará el mercado. Prevemos que el mercado de las soluciones analíticas de Big Data será vibrante, altamente competitivo y poblado de nuevos jugadores durante los próximos tres años”.
The Forrester Wave™: Big Data Predictive Analytics Solutions, Q1 2013
www.dataminingperu.com
Forrester Wave™: Big Data Predictive Analytics Solutions, Q1 ’13
Forrester define las soluciones analíticas predictivas de big data así: Soluciones de software y/o hardware que permiten a las empresas descubrir, evaluar, optimizar y desplegar modelos predictivos resultantes del análisis de fuentes de datos de gran volúmen para mejorar la performance del negocio o mitigar los riesgos.
www.dataminingperu.com
Big data según SAS
• Estrategias: – Repensar la gestión de datos
• Integrar los procesos de integración de datos, data quality, administración de metadatos y data governance
– Incorporar muy grandes volúmenes de datos en tareas analíticas
• Analytics de Alta Performance: computación en grids, procesamiento en base de datos, analytics en memoria
• Data Analytics Warehouse
– Determinación temprana de relevancia de los datos
www.dataminingperu.com
Information Management for Big Data
• Big data no solo intensifica la necesidad de almacenar inmensos volúmenes de datos, sino también la necesidad de data quality y data governance, de anidar las funciones de analytics en los sistemas operacionales y las cuestiones de seguridad, privacidad y regulaciones.
• Todo lo que antes era problemático ahora se hará más problemático.
www.dataminingperu.com
Information Management for Big Data
• En lugar de hacer una gestión reactiva de los datos, hacer una gestión proactiva y predictiva
• Componentes clave: – Gestión integrada de los datos incluyendo data
governance, integración de datos, data quality y gestión de metadatos
– Gestión completa de los procesos analíticos, incluyendo la gestión de modelos, su puesta en producción y monitoreo
– Gestión efectiva de las decisiones para anidar fácilmente la información y los resultados analíticos en los procesos de negocios (en reglas de negocio, workflows y lógica de sucesos)
www.dataminingperu.com
High-Performance Analytics for Big Data
• Diversas opciones de alta performance – Computación en grid
– Procesamiento en base de datos – Analytics en memoria – Soporte para Hadoop
– Analytics visual en Web
www.dataminingperu.com
Determinación temprana de relevancia de los datos
• Incorporar analytics de alta performance al propio proceso de gestión de datos
• Este análisis identifica los datos relevantes que debieran ser llevados al DW o sobre los que debieran hacerse procesos analíticos de alta performance
www.dataminingperu.com
Algunas Reflexiones
• Enfoque
• Utilidad
• Educación • Prioridades
www.dataminingperu.com
Enfoque
• ¿Nuestro sistema de procesamiento de información (individual y colectivo) se parece más a un disco rígido o a un sistema digestivo?
•´Big Data no es revolución, sino evolución
www.dataminingperu.com
Utilidad
• Maldición de la dimensionalidad: – Mayor cantidad de casos aumenta la probabilidad de
encontrar patrones espurios
– Mayor cantidad de variables aumenta exponencialmente la cantidad necesaria de casos
• Muchos datos (casos o dimensiones) no necesariamente significan mejores modelos
www.dataminingperu.com
Prioridades
• ¿Cuántas empresas locales tienen petabytes de datos?
• ¿Las muy pocas que los tienen, los subutilizan por falta de Big Data?
• ¿Cuáles es realmente el estado del data mining en las empresas latinoamericanas?
www.dataminingperu.com
Estado de cosas
• Capacitación deficiente de los data miners
• Confusión en la metodología o metodologías débiles: – En la preparación de datos – En la estrategia de modelización
– En la utilización y gestión de los modelos – En la evaluación de los mismos
• Considerable confusión en los “clientes”
www.dataminingperu.com
En síntesis
• Hay mucho que hacer antes de llegar al Big Data
• Cuando lo hagamos (si lo hacemos) probablemente ya haya cambiado de nombre….
• Data Mining como servicio, aplicaciones en campos como gobierno, mantenimiento y otros parecen más útiles en este momento
• También el refuerzo y profundización en áreas como el análisis de supervivencia y el SNA
¿Preguntas?