data mining hugo m. castro. data mining es un proceso automático que permite extraer esquemas...

Data Mining

Hugo M. Castro

Data Mining

Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de los datos y descubrir relaciones entre variables

Data Mining Trabajo conjunto

Negocios Especialista

Problema puntual Datos al nivel más detallado No un solo enfoque No una sola solución

Data Mining

Dos tipos de modelos Predictivos

Clasificación Regresión

Descriptivos Asociación Segmentación

Data Mining

Modelos Predictivos Clasificación

Predice un valor discreto Sí / No Alto / Mediano / Bajo

Regresión Predice un valor continuo

Importes Cantidades

Data Mining

Modelos Descriptivos Asociación

Análisis de Canasta Soporte Confianza

Segmentación

Modelos de Data Mining Entrenamiento

Supervisado No supervisado

Prueba Evaluación

Modelos de Data MiningPRUEBADe los casos históricos disponibles se

destina una cierta cantidad para entrenar el modelo y se reserva una porción de ellos para probar el modelo

Se presentan los casos como si fueran nuevos y se coteja la respuesta del modelo con los valores reales

Modelos de Data MiningMatriz de confusión

Sí No

SíNo

Predicción

Real

455 29

32 384

Cantidad de casos

Matriz de confusión

Sobre un total de 900 casos el modelo predijo

455 como sí y en realidad era sí384 como no y en realidad era no839 predicciones correctas (93,2%)El resto (6,8%) los predijo en forma

incorrectaPRECISION

Modelos predictivos Los atributos (variables) son columnas de

la tabla Variables de entrada (atributos

descriptivos) Variable objetivo (atributo objetivo) El entrenamiento tiene por objeto

descubrir las relaciones entre las variables de entrada y la variable objetivo

En producción usa ese conocimiento para predecir el valor de la variable objetivo

Modelos predictivosPautas para la evaluación Precisión

No hay un algoritmo que sea siempre más preciso que otro u otros

Interpretabilidad Facilidad para interpretar los resultados

Velocidad Entrenamiento Producción

Modelos de clasificación Predicen el valor de un atributo

con una cantidad finita de valores posibles

Bayes Redes Neuronales K-vecinos (CBR) Árboles de decisión

BayesConstrucción y entrenamiento De los 10 casos hay 6 con calificación B

y 4 con calificación M. Sin saber nada más, la probabilidad a

priori de que la calificación sea B es 0,6 y de que sea M es 0,4

La información sobre Nivel de Ingresos, Nivel de Deudas y si es casado o no apunta a calcular la probabilidad a posteriori de que sea calificado B o M.

Bayes Nivel de Ingresos De los que tienen Nivel de Ingresos

A hay 3 B y 0 M. De los que tienen Nivel de Ingresos

M hay 2 B y 1 M. De los que tienen Nivel de Ingresos

B hay 1 B y 3 M.

Bayes De los 6 B hay 3 que tienen Nivel del

Ingresos A. Luego P(B/Ingresos A) = 3/6 = 0.5

De los 6 B hay 2 que tienen Nivel del Ingresos M. Luego P(B/Ingresos M) = 2/6 = 0.33

De los 6 B hay 1 que tiene Nivel del Ingresos B. Luego P(B/Ingresos B) = 1/6 = 0.17

Bayes

De la misma manera P(M/Ingresos A) = 0 P(M/Ingresos M) = 0.25 P(M/Ingresos B) = 0.75

Bayes

Nivel de Deudas De los que tienen Nivel de Deudas

A hay 1 B y 3 M. De los que tienen Nivel de Deudas

M hay 3 B y 0 M. De los que tienen Nivel de Deudas

B hay 2 B y 1 M.

Bayes

Calculamos las probabilidades de la misma forma que en el caso anterior

P(B/Deudas A) = 0.17 P(B/Deudas M) = 0.50 P(B/Deudas B) = 0.33 P(M/Deudas A) = 0.75 P(M/Deudas M) = 0 P(M/Deudas B) = 0.25

BayesCasado De los que tienen Casado sí hay 4 B y 1 M De los que tienen Casado no hay 2 B y 3 M Con lo que P(B/Casado sí) = 0.67 P(B/Casado no) = 0.33 P(M(Casado sí) = 0.25 P(M/Casado no) = 0.75

Bayes

Frecuencias

Probabilidades

condicionales

Bueno Malo Bueno Malo

6 4 0,60 0,40Nivel de ingresos

Alto 3 0 0,50 0

Mediano 2 1 0,33 0,25Bajo 1 3 0,17 0,75

Bayes

Frecuencias

Probabilidades

condicionales

Bueno Malo Bueno Malo

6 4 0,60 0,40Nivel de Deudas

Alto 1 3 0,17 0,75

Mediano 3 0 0,50 0Bajo 2 1 0,33 0,25

Casado Sí 4 1 0,67 0,25No 2 3 0,33 0,75

Bayes

PRODUCCION

Tomás tiene Nivel de Ingresos A Nivel de Deudas B Casado no

BayesLa probabilidad a posteriori de que Tomás

tenga una calificación B sale del producto de

P(B) = 0.6 P(B/Ingresos A) = 0.5 P(B/Deudas B) = 0.33 P(B/Casado no) = 0.33 Esta probabilidad resulta 0.6 x 0.5 x 0.33

x 0.33 = 0.03267

Bayes La probabilidad a posteriori de que

Tomás tenga una calificación M sale del producto de

P(M) = 0.4 P(M/Ingresos A) = 0 P(M/Deudas B) = 0.25 P(M/Casado no) = 0.75 Esta probabilidad resulta 0.4 x 0 x 0.25 x

0.75 = 0

Bayes

Como la probabilidad de tener calificación B es mayor que la de tener M, resulta que

El modelo predice queTomás va a tener calificación B

Bayes

Por su parte Lucía tiene Nivel de Ingresos M Nivel de Deudas B Casado sí

Bayes

En base a estos datos, Lucía tiene

probabilidad de calificación B igual a 0,6 x 0,33 x 0,33 x 0,67 = 0,04378

probabilidad de calificación M igual a 0,4 x 0,25 x 0,25 x 0,25 = 0,00625

Bayes

Como la probabilidad de tener calificación B es mayor que la de tener M, resulta que

El modelo predice queLucía va a tener calificación B

Bayes

A su vez Horacio tiene Nivel de Ingresos B Nivel de Deudas A Casado sí

Bayes

En base a estos datos, Horacio tiene

probabilidad de calificación B igual a 0,6 x 0,17 x 0,17 x 0,67 = 0,0116

probabilidad de calificación M igual a 0,4 x 0,75 x 0,75 x 0,25 = 0,0562

Bayes

Como la probabilidad de tener calificación M es mayor que la de tener B, resulta que

El modelo predice que Horacio va a tener calificación M

Redes Neuronales

NODO

NODO

W

FACTOR DE PONDERACION

CONEXION

COMPONENTES

Redes Neuronales

w1

w2

w3

EN

TR

AD

AS

v

SALIDA

NODO

Puede ser más de una, pero todas tienen el mismo valor

X1

x2

x3

Redes neuronales Estructura Nodos Conexiones Factores de ponderación

Perceptrón de tres capas Aprendizaje supervisado Se presentan los casos de

entrenamiento con sus respuestas Errores Cambios en los factores de

ponderación Prueba

Perceptrón de tres capas

EntradaIntermedia Salid

a

wkj

wji

Datos de entrada

Respuesta

Respuesta deseada

Corrección de factores de ponderación

K-vecinos También llamada CBR

Razonamiento basado en casos Resuelve un problema tomando en

cuenta casos parecidos Función de vecindad o de distancia Función de combinación

K-vecinos El modelo de los K-vecinos no tiene

fase de entrenamiento Entra directamente en la fase de

producción K indica la cantidad de casos

parecidos (vecinos) que se van a considerar

En este caso vamos a tomar K = 3

K-vecinosFunción de vecindad para nivel de ingresos y nivel de deudas

0 si son iguales 1 si uno tiene A y el otro M 1 si uno tiene M y el otro B 2 si uno tiene A y el otro B

para casado 0 si son iguales 1 si son distintos

K-vecinos

Función de vecindad Para cada caso a resolver se confronta

con todos los casos testigo Se suman los 3 valores Se eligen los 3 (K) casos testigo que

tienen el menor valor de esta función

Tomás Lucía Horaci

o

Jorge 0 2 1 = 3 1 2 0 = 3 2 0 0 = 2

Carlos 1 2 0 = 3 0 2 1 = 3 1 0 1 = 2

Andrea 0 1 0 = 1 1 1 1 = 3 2 1 1 = 4

Débora 1 0 0 = 1 0 0 1 = 1 1 2 1 = 4

Sergio 2 2 0 = 4 1 2 1 = 4 0 0 1 = 1

Vanesa 2 1 1 = 4 1 1 0 = 2 0 1 0 = 1

Mario 2 2 1 = 5 1 2 0 = 3 0 0 0 = 0

Gala 2 0 0 = 2 1 0 1 = 2 0 2 1 = 3

Paola 0 0 1 = 1 1 0 0 = 1 2 2 0 = 4

Román 1 1 1 = 3 0 1 0 = 1 1 1 0 = 2

K-Vecinos Tomás tiene como vecinos a Andrea (1), Débora (1), Paola (1) Lucía tiene a Débora (1), Paola (1), Román (1) Y Horacio a Sergio (1), Vanesa (1), Mario (0)

K-VecinosFunción de combinación Vamos a tomar como valor de la

predicción sobre la calificación aquella que corresponda a la mayoría de los vecinos.

Ejemplos Vecinos: B B M - Predicción: B Vecinos: M B M - Predicción: M

K-Vecinos

PREDICCIONES Andrea B, Débora B, Paola B Predicción para Tomás: B Débora B, Paola B, Román B Predicción para Lucía: B Sergio M, Vanesa B, Mario M Predicción para Horacio: M

Árboles de decisión ID3 Elección de los mejores

separadores Entropía

Mide la incertidumbre sobre un suceso

Entropía (S) = Σi –pi log2 pi

Arbol de decisión

Niv. ingresos

Niv. deuda Casado

Niv. deuda

A

M

B

A M B

SíNo

A M B

B

M M B

M B B

M

Arbol de decisión

Niv. ingresos

Niv. deuda Casado

Niv. deuda

A

M

B

A M B

SíNo

A M B

B

M M B

M B B

MTomás B

Lucía B

Horacio M

Modelos de regresión El más difundido es una versión

del modelo de los k-vecinos Función de vecindad Equilibrio Función de combinación Mayor peso de los más cercanos

Los compradoresFunción de vecindad Debe ser un coeficiente que sea

mayor cuando el caso es más cercano

Deben influir en él en forma pareja los valores de las variables de entrada (sexo y edad)

Tomamos como vecinos a los cinco casos

Los compradores

Función de vecindad Para la edad

abs (edad del caso – edad testigo) / rango máximo de edades

Ejemplo: para Natalia |45 – 33| / 25 = 0,48

Para el sexo: 0 si son iguales 1 si son distintos

Los compradores

FUNCIÓN DE COMBINACIÓN El valor que vamos a adjudicar a la

predicción del monto de la compra de María es la suma de los montos de compra de los casos testigo ponderada por el coeficiente obtenido

Los compradores

Edad Sexo Total 2 - Total

Norm. Compra

Aporte

Carla 0,72 0 0,72 1,28 0,24 190 45,6

Fernando

0,24 1 1,24 0,76 0,14 640 89,6

Alberto 0,28 1 1,28 0,72 0,14 750 105,0

Natalia 0,48 0 0,48 1,52 0,29 500 145,0

Oscar 0 1 1 1 0,19 400 76,0

TOTALES

5,28 1,00 461,2

Los compradores La predicción de la compra de

María es 461,2

En números redondos 460

Pautas de evaluación Precisión

Proporción de aciertos en la matriz de confusión

No hay un algoritmo que siempre sea más preciso que otros

Interpretabilidad Velocidad

Entrenamiento producción

Modelos descriptivos

No realizan predicciones Analizan otros aspectos de los

datos Asociación Segmentación

Modelo de asociación Análisis de canasta ¿La venta de Cordon Bleu incide

sobre la venta de papas fritas? Búsqueda sistemática Umbral de soporte Umbral de confianza

Análisis de Canasta con un Modelo de Asociación

Caso 1: Dos productos Cantidad total de tickets: 500.000 Cantidad de tickets que contienen

cerveza: 30.000 Cantidad de tickets que contienen

pañales: 20.000 Cantidad de tickets que contienen

pañales y cerveza: 10.000

Soporte y confianza Valores clave Soporte (p+c) =10.000/500.000 = 0,02.

Esto significa que el 2% de todos los clientes compra pañales y cerveza

Confianza (pc) = (p+c)/p = 10.000/20.000 = 0,50. O sea que el 50% de los que compran pañales compran cerveza

Confianza (cp) = (p+c)/c = 10.000/30.000 = 0,33. O sea que el 33% de los que compran cerveza compran pañales

Confianza esperada y Empuje (lift) Confianza esperada (c) = 30000/500000

= 0,06 = 6% Empuje (lift) de los pañales sobre la

cerveza E(pc) = confianza (pc) / confianza

esperada ( c ) Vemos que el empuje de los pañales

sobre la cerveza es 50/6 = 8,33 Esto significa que los clientes que

compran pañales compran 8.33 más cerveza que el común de los clientes.

El soporte depende sólo de los

productos que se combinan. La confianza y la confianza esperada dependen del sentido de la influencia.

Reglas de asociación : pañales y cerveza

Si compra pañales entonces compracerveza con un soporte del 2%, una confianza esperada del 6% una confianza del 50% y un empuje del 8,33%

Reglas de asociación : cerveza y pañales

Si compra cerveza entonces comprapañales con un soporte del 2%, una confianza esperada del 4% una confianza del 33% y un empuje del 8,33%

Conclusiones El soporte y el empuje en ambas reglas

es el mismo La confianza y la confianza esperada

son diferentes. Si se fija el umbral de confianza en el

50% no aparece la segunda regla. DEPENDE de cuál es el antecedente y

cuál el consecuente en la regla (sentido de la influencia)

Modelos de segmentación Mapas auto-organizados de

Kohonen Entrenamiento no supervisado Dos capas

Entrada Salida

Centroides (RBF) Mecanismo de entrenamiento

Mapas de Kohonen El propósito de los Mapas de

Kohonen es separar los registros de datos de entrada en una cierta cantidad de categorías

Los registros de cada categoría tienen características similares y distintas de los de las otras categorías

Segmentación

Mapas de Kohonen

Salida

Entrada

Mapas de Kohonen Dos capas de nodos Entrada: un nodo por cada dato Salida: un nodo por cada categoría Los nodos de la capa de salida

están conectados entre sí La suma de los w que llegan a

cada nodo de salida es constante

Mapas de Kohonen

El entrenamiento es no supervisado Se presenta un registro a la capa de

entrada Cada uno se los nodos de la capa

de salida recibe impulsos de los de los de la capa de entrada

Cada nodo de salida produce una salida

Mapas de Kohonen

Salida

Entrada

El nodo 3 es el que produce la salida mayor

Mapas de Kohonen Por haber sido el ganador, el nodo

3 adquiere el derecho a aprender Para ello va a aumentar los w que

corresponden a entradas no nulas Como la suma de los w que llegan

al nodo 3 es constante debe disminuir los w que corresponden a los ceros

Mapas de Kohonen Si se presenta un registro de

entrada parecido al anterior, es muy posible que el ganador sea el mismo nodo 3.

Por eso los registros semejantes van a parar a la misma categoría

Una vez entrenado, el mapa de Kohonen se puede usar para categorizar nuevos registros

Redes de Función de Base Radial Sirven para segmentación de

grandes cantidades de registros Se basan en la definición de

centroides Centros de gravedad en espacios

de muchas dimensiones Cada centroide agrupa casos

similares

Centroides Se definen tantos centroides como

categorías En el caso del banco se definen 3

centroides Arbitrariamente se toman los tres

primeros casos como centroides

C

an

tid

ad

de

serv

icio

s

Antigüedad

Centroides Calculamos la distancia de cada

caso a cada uno de los centroides La distancia se calcula como D = x2 + y2

Adjudicamos cada caso al centroide más próximo

Atención al caso 12

CentroidesCaso Antig

.Serv. A

(3,3)B

(4,5)C

(5,2)Grup

o

1 3 3 0 5 5 A

2 4 5 5 0 10 B

3 5 2 5 10 0 C

4 1 5 8 9 25 A

5 1 2 5 18 16 A

6 2 1 5 20 10 A

7 2 4 2 5 13 A

8 3 6 9 2 20 B

Centroides

Caso Antig.

Serv. A (3,3)

B (4,5)

C (5,2)

Grupo

9 4 1 5 16 2 C

10 5 4 5 2 4 B

11 5 6 13 5 16 B

12 6 4 10 5 5 C

13 7 2 17 18 4 C

14 8 5 29 16 18 B

15 7 6 25 20 20 B

Centroides Al grupo A pertenecen los casos

1 (3;3) 4 (1;5) 5 (1;2) 6 (2;1) 7 (2;4)

Su centro de gravedad (promedio de coordenadas) es

A ( 1,8 ; 3)

Centroides De la misma manera, el centro de

gravedad del grupo B esB (5,3 ; 5,3)

Y el centro de gravedad del grupo C es

C (5,5 ; 2,2)

Centroides Ahora volvemos a efectuar los cálculos de

distancias con los nuevos centroides A, B y C.

Como antes, se asigna cada caso al grupo cuyo centroide está más próximo

Para el caso 12 las distancias con B: 2,18 C: 3,49

Con lo que el caso 12 pasa al grupo B El proceso termina cuando de un paso a otro

ya no hay cambios

C

an

tid

ad

de

serv

icio

s

Antigüedad

A

B

C

CentroidesHemos separado los clientes en tres

grupos: A: Clientes nuevos con un buen potencial

de aceptación de productos B: Clientes antiguos buenos

compradores de servicios C: Clientes antiguos que no se

engancharon con el banco Campañas de marketing

diferenciadas

El proceso de Data Mining Se define el problema

Hay que entender el negocio Hay que entender los datos

Se construye la base de datos para Data Mining Recolección Selección Depuración Carga Actualización

El proceso de Data Mining Se exploran los datos

Distribución Relación Influencia

Se preparan los datos Se eligen variables Se eligen las filas Se crean nuevas variables Se transforman las variables

El proceso de Data Mining Se construye el modelo Se entrena y ejecuta el modelo

Datos para entrenamiento Datos para prueba

Se prueba el modelo Se evalúan los resultados Se rehacen corridas si es necesario Se guardan los resultados

El análisis de riesgos 600.000 préstamos 50.000 con problemas ¿Cuáles? Calificación del préstamo

Sin problemas Sub stándard Perdido No clasificado Nodisponible

El análisis de riesgos Muestra: 12.000 casos

Entrenamiento: 8.000 Prueba: 4.000

Valor de la cuota U$s 0 – u$s 60.000

Categorización 5 franjas de u$s 12.000

Datos relevantes El préstamo

Tipo de préstamo Monto Cuota Plazo

El propósito Tipo de propiedad Destino

Datos relevantes El tomador

Edad Estado civil Nivel de ingresos

La región Estado Zona Minorías

Primer modelo Categorización errónea Montos pequeños tienden a tener

más problemas 80% de las cuotas no llegan a u$s

400 99% de los préstamos cae en la

primera franja

Nueva categorización Cinco categorías con 1/5 de los

casos en cada una Precisión

Acierto en el 67% de los casos Acierto en el 76 % de los casos sin

problemas y perdidos Es demasiado bueno (!)

¿Por qué? Un atributo descriptivo que están

usando es el monto de la deuda Esto permite predecir bisn casos

sub standard o perdidos Pero en realidad ese monto es alto

porque ya tiene problemas Se elimina

Cambios Se elimina el monto de la deuda

como atributo descriptivo

La precisión se reduce a 46% en general 37% de los casos perdidos

Nuevo modelo Se eliminan las categorías

No clasificado No disponible

Menos del 1% del total Se unifican

Sub standard Perdidos

Casos con problemas

Nuevo modelo Quedan dos categorías OK (sin problemas) No OK (con problemas) La precisión en la predicción es

82% en general 20% de casos con problemas

Arboles de decisión Usando un modelo de árboles de

decisión se llega a una precisión

85% en general 23% en préstamos con problemas

¿Hay algo más para hacer?

Hagamos cuentas Hay alrededor de 50.000 préstamos

con problemas por año No detectarlo a tiempo cuesta a

USDA u$s 5.000 cada uno Intervenir en un caso cuesta u$s

500 Se supone que interviniendo a

tiempo se evitan problemas en el 30% de los casos

Hagamos cuentas Aún con un porcentaje bajo de

identificación de casos con problemas USDA ahorra por año u$s 11,9 millones

Dado que el 29% de las predicciones No OK eran realmente OK (con lo que se interviene inútilmente)

El ahorro es de u$s 9,1 millones

Conclusiones No solamente cuenta la precisión No hay que guiarse solamente por

la matriz de confusión No necesariamente un nivel bajo de

aciertos en la predicción invalida el uso del modelo

Hay que tener en cuenta otros factores

Data MiningDónde se puede utilizar Marketing: Segmentación, campañas, rentabilidad,

lealtad,... Ventas: Esquemas de comportamiento, hábitos de

compra Finanzas: Inversiones, administración de cartera Bancos y Seguros: Aprobación de créditos y pólizas Seguridad: Detección de fraudes Medicina: Análisis de tratamientos Fabricación: control de calidad, adjudicación de

recursos Internet: Análisis de clicks (Web mining)

Data Mining Trabajo conjunto Problema puntual Modelos predictivos Modelos descriptivos Algoritmos El proceso de Data Mining Áreas de aplicación

data mining hugo m. castro. data mining es un proceso automático que permite extraer esquemas...

Documents