data mining hugo m. castro. data mining es un proceso automático que permite extraer esquemas...

102
Data Mining Hugo M. Castro

Upload: novio-avena

Post on 08-Jan-2015

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Data Mining

Hugo M. Castro

Page 2: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Data Mining

Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de los datos y descubrir relaciones entre variables

Page 3: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Data Mining Trabajo conjunto

Negocios Especialista

Problema puntual Datos al nivel más detallado No un solo enfoque No una sola solución

Page 4: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Data Mining

Dos tipos de modelos Predictivos

Clasificación Regresión

Descriptivos Asociación Segmentación

Page 5: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Data Mining

Modelos Predictivos Clasificación

Predice un valor discreto Sí / No Alto / Mediano / Bajo

Regresión Predice un valor continuo

Importes Cantidades

Page 6: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Data Mining

Modelos Descriptivos Asociación

Análisis de Canasta Soporte Confianza

Segmentación

Page 7: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Modelos de Data Mining Entrenamiento

Supervisado No supervisado

Prueba Evaluación

Page 8: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Modelos de Data MiningPRUEBADe los casos históricos disponibles se

destina una cierta cantidad para entrenar el modelo y se reserva una porción de ellos para probar el modelo

Se presentan los casos como si fueran nuevos y se coteja la respuesta del modelo con los valores reales

Page 9: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Modelos de Data MiningMatriz de confusión

Sí No

SíNo

Predicción

Real

455 29

32 384

Cantidad de casos

Page 10: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Matriz de confusión

Sobre un total de 900 casos el modelo predijo

455 como sí y en realidad era sí384 como no y en realidad era no839 predicciones correctas (93,2%)El resto (6,8%) los predijo en forma

incorrectaPRECISION

Page 11: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Modelos predictivos Los atributos (variables) son columnas de

la tabla Variables de entrada (atributos

descriptivos) Variable objetivo (atributo objetivo) El entrenamiento tiene por objeto

descubrir las relaciones entre las variables de entrada y la variable objetivo

En producción usa ese conocimiento para predecir el valor de la variable objetivo

Page 12: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Modelos predictivosPautas para la evaluación Precisión

No hay un algoritmo que sea siempre más preciso que otro u otros

Interpretabilidad Facilidad para interpretar los resultados

Velocidad Entrenamiento Producción

Page 13: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Modelos de clasificación Predicen el valor de un atributo

con una cantidad finita de valores posibles

Bayes Redes Neuronales K-vecinos (CBR) Árboles de decisión

Page 14: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

BayesConstrucción y entrenamiento De los 10 casos hay 6 con calificación B

y 4 con calificación M. Sin saber nada más, la probabilidad a

priori de que la calificación sea B es 0,6 y de que sea M es 0,4

La información sobre Nivel de Ingresos, Nivel de Deudas y si es casado o no apunta a calcular la probabilidad a posteriori de que sea calificado B o M.

Page 15: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Bayes Nivel de Ingresos De los que tienen Nivel de Ingresos

A hay 3 B y 0 M. De los que tienen Nivel de Ingresos

M hay 2 B y 1 M. De los que tienen Nivel de Ingresos

B hay 1 B y 3 M. 

Page 16: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Bayes De los 6 B hay 3 que tienen Nivel del

Ingresos A. Luego P(B/Ingresos A) = 3/6 = 0.5

De los 6 B hay 2 que tienen Nivel del Ingresos M. Luego P(B/Ingresos M) = 2/6 = 0.33

De los 6 B hay 1 que tiene Nivel del Ingresos B. Luego P(B/Ingresos B) = 1/6 = 0.17

Page 17: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Bayes

De la misma manera P(M/Ingresos A) = 0 P(M/Ingresos M) = 0.25 P(M/Ingresos B) = 0.75

Page 18: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Bayes

Nivel de Deudas De los que tienen Nivel de Deudas

A hay 1 B y 3 M. De los que tienen Nivel de Deudas

M hay 3 B y 0 M. De los que tienen Nivel de Deudas

B hay 2 B y 1 M.

Page 19: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Bayes

Calculamos las probabilidades de la misma forma que en el caso anterior

P(B/Deudas A) = 0.17 P(B/Deudas M) = 0.50 P(B/Deudas B) = 0.33 P(M/Deudas A) = 0.75 P(M/Deudas M) = 0 P(M/Deudas B) = 0.25

Page 20: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

BayesCasado De los que tienen Casado sí hay 4 B y 1 M De los que tienen Casado no hay 2 B y 3 M Con lo que  P(B/Casado sí) = 0.67 P(B/Casado no) = 0.33 P(M(Casado sí) = 0.25 P(M/Casado no) = 0.75

Page 21: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Bayes

Frecuencias

Probabilidades

condicionales

Bueno Malo Bueno Malo

6 4 0,60 0,40Nivel de ingresos

Alto 3 0 0,50 0

Mediano 2 1 0,33 0,25Bajo 1 3 0,17 0,75

Page 22: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Bayes

Frecuencias

Probabilidades

condicionales

Bueno Malo Bueno Malo

6 4 0,60 0,40Nivel de Deudas

Alto 1 3 0,17 0,75

Mediano 3 0 0,50 0Bajo 2 1 0,33 0,25

Casado Sí 4 1 0,67 0,25No 2 3 0,33 0,75

Page 23: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Bayes

PRODUCCION

Tomás tiene Nivel de Ingresos A Nivel de Deudas B Casado no

Page 24: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

BayesLa probabilidad a posteriori de que Tomás

tenga una calificación B sale del producto de

P(B) = 0.6 P(B/Ingresos A) = 0.5 P(B/Deudas B) = 0.33 P(B/Casado no) = 0.33 Esta probabilidad resulta 0.6 x 0.5 x 0.33

x 0.33 = 0.03267

Page 25: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Bayes La probabilidad a posteriori de que

Tomás tenga una calificación M sale del producto de

P(M) = 0.4 P(M/Ingresos A) = 0 P(M/Deudas B) = 0.25 P(M/Casado no) = 0.75 Esta probabilidad resulta 0.4 x 0 x 0.25 x

0.75 = 0

Page 26: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Bayes

Como la probabilidad de tener calificación B es mayor que la de tener M, resulta que

El modelo predice queTomás va a tener calificación B

Page 27: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Bayes

Por su parte Lucía tiene Nivel de Ingresos M Nivel de Deudas B Casado sí

Page 28: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Bayes

En base a estos datos, Lucía tiene

probabilidad de calificación B igual a 0,6 x 0,33 x 0,33 x 0,67 = 0,04378

probabilidad de calificación M igual a 0,4 x 0,25 x 0,25 x 0,25 = 0,00625

Page 29: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Bayes

Como la probabilidad de tener calificación B es mayor que la de tener M, resulta que

El modelo predice queLucía va a tener calificación B

Page 30: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Bayes

A su vez Horacio tiene Nivel de Ingresos B Nivel de Deudas A Casado sí

Page 31: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Bayes

En base a estos datos, Horacio tiene

probabilidad de calificación B igual a 0,6 x 0,17 x 0,17 x 0,67 = 0,0116

probabilidad de calificación M igual a 0,4 x 0,75 x 0,75 x 0,25 = 0,0562

Page 32: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Bayes

Como la probabilidad de tener calificación M es mayor que la de tener B, resulta que

El modelo predice que Horacio va a tener calificación M

Page 33: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Redes Neuronales

NODO

NODO

W

FACTOR DE PONDERACION

CONEXION

COMPONENTES

Page 34: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Redes Neuronales

w1

w2

w3

EN

TR

AD

AS

v

SALIDA

NODO

Puede ser más de una, pero todas tienen el mismo valor

X1

x2

x3

Page 35: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Redes neuronales Estructura Nodos Conexiones Factores de ponderación

Page 36: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Perceptrón de tres capas Aprendizaje supervisado Se presentan los casos de

entrenamiento con sus respuestas Errores Cambios en los factores de

ponderación Prueba

Page 37: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Perceptrón de tres capas

EntradaIntermedia Salid

a

wkj

wji

Datos de entrada

Respuesta

Respuesta deseada

Corrección de factores de ponderación

Page 38: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

K-vecinos También llamada CBR

Razonamiento basado en casos Resuelve un problema tomando en

cuenta casos parecidos Función de vecindad o de distancia Función de combinación

Page 39: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

K-vecinos El modelo de los K-vecinos no tiene

fase de entrenamiento Entra directamente en la fase de

producción K indica la cantidad de casos

parecidos (vecinos) que se van a considerar

En este caso vamos a tomar K = 3

Page 40: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

K-vecinosFunción de vecindad para nivel de ingresos y nivel de deudas

0 si son iguales 1 si uno tiene A y el otro M 1 si uno tiene M y el otro B 2 si uno tiene A y el otro B

para casado 0 si son iguales 1 si son distintos

Page 41: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

K-vecinos

Función de vecindad Para cada caso a resolver se confronta

con todos los casos testigo Se suman los 3 valores Se eligen los 3 (K) casos testigo que

tienen el menor valor de esta función

Page 42: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Tomás Lucía Horaci

o

Jorge 0 2 1 = 3 1 2 0 = 3 2 0 0 = 2

Carlos 1 2 0 = 3 0 2 1 = 3 1 0 1 = 2

Andrea 0 1 0 = 1 1 1 1 = 3 2 1 1 = 4

Débora 1 0 0 = 1 0 0 1 = 1 1 2 1 = 4

Sergio 2 2 0 = 4 1 2 1 = 4 0 0 1 = 1

Vanesa 2 1 1 = 4 1 1 0 = 2 0 1 0 = 1

Mario 2 2 1 = 5 1 2 0 = 3 0 0 0 = 0

Gala 2 0 0 = 2 1 0 1 = 2 0 2 1 = 3

Paola 0 0 1 = 1 1 0 0 = 1 2 2 0 = 4

Román 1 1 1 = 3 0 1 0 = 1 1 1 0 = 2

Page 43: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

K-Vecinos Tomás tiene como vecinos a Andrea (1), Débora (1), Paola (1) Lucía tiene a Débora (1), Paola (1), Román (1) Y Horacio a Sergio (1), Vanesa (1), Mario (0)

Page 44: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

K-VecinosFunción de combinación Vamos a tomar como valor de la

predicción sobre la calificación aquella que corresponda a la mayoría de los vecinos.

Ejemplos Vecinos: B B M - Predicción: B Vecinos: M B M - Predicción: M

Page 45: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

K-Vecinos

PREDICCIONES Andrea B, Débora B, Paola B Predicción para Tomás: B Débora B, Paola B, Román B Predicción para Lucía: B Sergio M, Vanesa B, Mario M Predicción para Horacio: M

Page 46: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Árboles de decisión ID3 Elección de los mejores

separadores Entropía

Mide la incertidumbre sobre un suceso

Entropía (S) = Σi –pi log2 pi

Page 47: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Arbol de decisión

Niv. ingresos

Niv. deuda Casado

Niv. deuda

A

M

B

A M B

SíNo

A M B

B

M M B

M B B

M

Page 48: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Arbol de decisión

Niv. ingresos

Niv. deuda Casado

Niv. deuda

A

M

B

A M B

SíNo

A M B

B

M M B

M B B

MTomás B

Lucía B

Horacio M

Page 49: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Modelos de regresión El más difundido es una versión

del modelo de los k-vecinos Función de vecindad Equilibrio Función de combinación Mayor peso de los más cercanos

Page 50: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Los compradoresFunción de vecindad Debe ser un coeficiente que sea

mayor cuando el caso es más cercano

Deben influir en él en forma pareja los valores de las variables de entrada (sexo y edad)

Tomamos como vecinos a los cinco casos

Page 51: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Los compradores

Función de vecindad Para la edad

abs (edad del caso – edad testigo) / rango máximo de edades

Ejemplo: para Natalia |45 – 33| / 25 = 0,48

Para el sexo: 0 si son iguales 1 si son distintos

Page 52: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Los compradores

FUNCIÓN DE COMBINACIÓN El valor que vamos a adjudicar a la

predicción del monto de la compra de María es la suma de los montos de compra de los casos testigo ponderada por el coeficiente obtenido

Page 53: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Los compradores

Edad Sexo Total 2 - Total

Norm. Compra

Aporte

Carla 0,72 0 0,72 1,28 0,24 190 45,6

Fernando

0,24 1 1,24 0,76 0,14 640 89,6

Alberto 0,28 1 1,28 0,72 0,14 750 105,0

Natalia 0,48 0 0,48 1,52 0,29 500 145,0

Oscar 0 1 1 1 0,19 400 76,0

TOTALES

5,28 1,00 461,2

Page 54: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Los compradores La predicción de la compra de

María es 461,2

En números redondos 460

Page 55: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Pautas de evaluación Precisión

Proporción de aciertos en la matriz de confusión

No hay un algoritmo que siempre sea más preciso que otros

Interpretabilidad Velocidad

Entrenamiento producción

Page 56: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Modelos descriptivos

No realizan predicciones Analizan otros aspectos de los

datos Asociación Segmentación

Page 57: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Modelo de asociación Análisis de canasta ¿La venta de Cordon Bleu incide

sobre la venta de papas fritas? Búsqueda sistemática Umbral de soporte Umbral de confianza

Page 58: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Análisis de Canasta con un Modelo de Asociación

Caso 1: Dos productos Cantidad total de tickets: 500.000 Cantidad de tickets que contienen

cerveza: 30.000 Cantidad de tickets que contienen

pañales: 20.000 Cantidad de tickets que contienen

pañales y cerveza: 10.000

Page 59: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Soporte y confianza Valores clave Soporte (p+c) =10.000/500.000 = 0,02.

Esto significa que el 2% de todos los clientes compra pañales y cerveza

Confianza (pc) = (p+c)/p = 10.000/20.000 = 0,50. O sea que el 50% de los que compran pañales compran cerveza

Confianza (cp) = (p+c)/c = 10.000/30.000 = 0,33. O sea que el 33% de los que compran cerveza compran pañales

Page 60: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Confianza esperada y Empuje (lift) Confianza esperada (c) = 30000/500000

= 0,06 = 6% Empuje (lift) de los pañales sobre la

cerveza E(pc) = confianza (pc) / confianza

esperada ( c ) Vemos que el empuje de los pañales

sobre la cerveza es 50/6 = 8,33 Esto significa que los clientes que

compran pañales compran 8.33 más cerveza que el común de los clientes.

Page 61: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

El soporte depende sólo de los

productos que se combinan. La confianza y la confianza esperada dependen del sentido de la influencia.

Page 62: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Reglas de asociación : pañales y cerveza

Si compra pañales entonces compracerveza con un soporte del 2%, una confianza esperada del 6% una confianza del 50% y un empuje del 8,33%

Page 63: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Reglas de asociación : cerveza y pañales

Si compra cerveza entonces comprapañales con un soporte del 2%, una confianza esperada del 4% una confianza del 33% y un empuje del 8,33%

Page 64: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Conclusiones El soporte y el empuje en ambas reglas

es el mismo La confianza y la confianza esperada

son diferentes. Si se fija el umbral de confianza en el

50% no aparece la segunda regla. DEPENDE de cuál es el antecedente y

cuál el consecuente en la regla (sentido de la influencia)

Page 65: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Modelos de segmentación Mapas auto-organizados de

Kohonen Entrenamiento no supervisado Dos capas

Entrada Salida

Centroides (RBF) Mecanismo de entrenamiento

Page 66: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Mapas de Kohonen El propósito de los Mapas de

Kohonen es separar los registros de datos de entrada en una cierta cantidad de categorías

Los registros de cada categoría tienen características similares y distintas de los de las otras categorías

Segmentación

Page 67: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Mapas de Kohonen

Salida

Entrada

Page 68: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Mapas de Kohonen Dos capas de nodos Entrada: un nodo por cada dato Salida: un nodo por cada categoría Los nodos de la capa de salida

están conectados entre sí La suma de los w que llegan a

cada nodo de salida es constante

Page 69: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Mapas de Kohonen

El entrenamiento es no supervisado Se presenta un registro a la capa de

entrada Cada uno se los nodos de la capa

de salida recibe impulsos de los de los de la capa de entrada

Cada nodo de salida produce una salida

Page 70: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Mapas de Kohonen

Salida

Entrada

El nodo 3 es el que produce la salida mayor

Page 71: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Mapas de Kohonen Por haber sido el ganador, el nodo

3 adquiere el derecho a aprender Para ello va a aumentar los w que

corresponden a entradas no nulas Como la suma de los w que llegan

al nodo 3 es constante debe disminuir los w que corresponden a los ceros

Page 72: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Mapas de Kohonen Si se presenta un registro de

entrada parecido al anterior, es muy posible que el ganador sea el mismo nodo 3.

Por eso los registros semejantes van a parar a la misma categoría

Una vez entrenado, el mapa de Kohonen se puede usar para categorizar nuevos registros

Page 73: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Redes de Función de Base Radial Sirven para segmentación de

grandes cantidades de registros Se basan en la definición de

centroides Centros de gravedad en espacios

de muchas dimensiones Cada centroide agrupa casos

similares

Page 74: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Centroides Se definen tantos centroides como

categorías En el caso del banco se definen 3

centroides Arbitrariamente se toman los tres

primeros casos como centroides

Page 75: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

C

an

tid

ad

de

serv

icio

s

Antigüedad

Page 76: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Centroides Calculamos la distancia de cada

caso a cada uno de los centroides La distancia se calcula como D = x2 + y2

Adjudicamos cada caso al centroide más próximo

Atención al caso 12

Page 77: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

CentroidesCaso Antig

.Serv. A

(3,3)B

(4,5)C

(5,2)Grup

o

1 3 3 0 5 5 A

2 4 5 5 0 10 B

3 5 2 5 10 0 C

4 1 5 8 9 25 A

5 1 2 5 18 16 A

6 2 1 5 20 10 A

7 2 4 2 5 13 A

8 3 6 9 2 20 B

Page 78: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Centroides

Caso Antig.

Serv. A (3,3)

B (4,5)

C (5,2)

Grupo

9 4 1 5 16 2 C

10 5 4 5 2 4 B

11 5 6 13 5 16 B

12 6 4 10 5 5 C

13 7 2 17 18 4 C

14 8 5 29 16 18 B

15 7 6 25 20 20 B

Page 79: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Centroides Al grupo A pertenecen los casos

1 (3;3) 4 (1;5) 5 (1;2) 6 (2;1) 7 (2;4)

Su centro de gravedad (promedio de coordenadas) es

A ( 1,8 ; 3)

Page 80: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Centroides De la misma manera, el centro de

gravedad del grupo B esB (5,3 ; 5,3)

Y el centro de gravedad del grupo C es

C (5,5 ; 2,2)

Page 81: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Centroides Ahora volvemos a efectuar los cálculos de

distancias con los nuevos centroides A, B y C.

Como antes, se asigna cada caso al grupo cuyo centroide está más próximo

Para el caso 12 las distancias con B: 2,18 C: 3,49

Con lo que el caso 12 pasa al grupo B El proceso termina cuando de un paso a otro

ya no hay cambios

Page 82: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

C

an

tid

ad

de

serv

icio

s

Antigüedad

A

B

C

Page 83: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

CentroidesHemos separado los clientes en tres

grupos: A: Clientes nuevos con un buen potencial

de aceptación de productos B: Clientes antiguos buenos

compradores de servicios C: Clientes antiguos que no se

engancharon con el banco Campañas de marketing

diferenciadas

Page 84: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

El proceso de Data Mining Se define el problema

Hay que entender el negocio Hay que entender los datos

Se construye la base de datos para Data Mining Recolección Selección Depuración Carga Actualización

Page 85: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

El proceso de Data Mining Se exploran los datos

Distribución Relación Influencia

Se preparan los datos Se eligen variables Se eligen las filas Se crean nuevas variables Se transforman las variables

Page 86: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

El proceso de Data Mining Se construye el modelo Se entrena y ejecuta el modelo

Datos para entrenamiento Datos para prueba

Se prueba el modelo Se evalúan los resultados Se rehacen corridas si es necesario Se guardan los resultados

Page 87: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

El análisis de riesgos 600.000 préstamos 50.000 con problemas ¿Cuáles? Calificación del préstamo

Sin problemas Sub stándard Perdido No clasificado Nodisponible

Page 88: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

El análisis de riesgos Muestra: 12.000 casos

Entrenamiento: 8.000 Prueba: 4.000

Valor de la cuota U$s 0 – u$s 60.000

Categorización 5 franjas de u$s 12.000

Page 89: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Datos relevantes El préstamo

Tipo de préstamo Monto Cuota Plazo

El propósito Tipo de propiedad Destino

Page 90: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Datos relevantes El tomador

Edad Estado civil Nivel de ingresos

La región Estado Zona Minorías

Page 91: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Primer modelo Categorización errónea Montos pequeños tienden a tener

más problemas 80% de las cuotas no llegan a u$s

400 99% de los préstamos cae en la

primera franja

Page 92: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Nueva categorización Cinco categorías con 1/5 de los

casos en cada una Precisión

Acierto en el 67% de los casos Acierto en el 76 % de los casos sin

problemas y perdidos Es demasiado bueno (!)

Page 93: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

¿Por qué? Un atributo descriptivo que están

usando es el monto de la deuda Esto permite predecir bisn casos

sub standard o perdidos Pero en realidad ese monto es alto

porque ya tiene problemas Se elimina

Page 94: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Cambios Se elimina el monto de la deuda

como atributo descriptivo

La precisión se reduce a 46% en general 37% de los casos perdidos

Page 95: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Nuevo modelo Se eliminan las categorías

No clasificado No disponible

Menos del 1% del total Se unifican

Sub standard Perdidos

Casos con problemas

Page 96: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Nuevo modelo Quedan dos categorías OK (sin problemas) No OK (con problemas) La precisión en la predicción es

82% en general 20% de casos con problemas

Page 97: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Arboles de decisión Usando un modelo de árboles de

decisión se llega a una precisión

85% en general 23% en préstamos con problemas

¿Hay algo más para hacer?

Page 98: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Hagamos cuentas Hay alrededor de 50.000 préstamos

con problemas por año No detectarlo a tiempo cuesta a

USDA u$s 5.000 cada uno Intervenir en un caso cuesta u$s

500 Se supone que interviniendo a

tiempo se evitan problemas en el 30% de los casos

Page 99: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Hagamos cuentas Aún con un porcentaje bajo de

identificación de casos con problemas USDA ahorra por año u$s 11,9 millones

Dado que el 29% de las predicciones No OK eran realmente OK (con lo que se interviene inútilmente)

El ahorro es de u$s 9,1 millones

Page 100: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Conclusiones No solamente cuenta la precisión No hay que guiarse solamente por

la matriz de confusión No necesariamente un nivel bajo de

aciertos en la predicción invalida el uso del modelo

Hay que tener en cuenta otros factores

Page 101: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Data MiningDónde se puede utilizar Marketing: Segmentación, campañas, rentabilidad,

lealtad,... Ventas: Esquemas de comportamiento, hábitos de

compra Finanzas: Inversiones, administración de cartera Bancos y Seguros: Aprobación de créditos y pólizas Seguridad: Detección de fraudes Medicina: Análisis de tratamientos Fabricación: control de calidad, adjudicación de

recursos Internet: Análisis de clicks (Web mining)

Page 102: Data Mining Hugo M. Castro. Data Mining Es un proceso automático que permite extraer esquemas interesantes, no triviales y previamente desconocidos, de

Data Mining Trabajo conjunto Problema puntual Modelos predictivos Modelos descriptivos Algoritmos El proceso de Data Mining Áreas de aplicación