mineríade datos

150
Minería de Datos Juan C. Garcia-Ojeda, PhD(c), MSc., Ing. [email protected]

Upload: juan-carlos-garcia-ojeda

Post on 22-Jul-2015

592 views

Category:

Engineering


0 download

TRANSCRIPT

Page 1: Mineríade datos

Minería de Datos

Juan C. Garcia-Ojeda, PhD(c), MSc., Ing.

[email protected]

Page 2: Mineríade datos

Minería de Datos

“Knowledge is Power” Francis Bacon

http://upload.wikimedia.org/wikipedia/commons/a/a7/Pourbus_Francis_Bacon.jpg

Page 3: Mineríade datos

Descubirmiento del Conocimiento y

Minería de Datos

TEMARIO

Fundamentos

Representación del Conocimiento

Clasificación

Asociación

Agrupamiento

Page 4: Mineríade datos

Fundamentos

¿Porqué son necesarios KDD y DM?

¿Qué es el descubrimiento del conocimiento en

bases de datos (KDD)?

¿Qué es la minería de datos (DM)?

¿Cuáles son los objetivos?

¿Que disciplinas intervienen?

Page 5: Mineríade datos

Motivación

Información: Conjunto de patrones o modelos especificados como reglas de clasificación o asociación, entre otros.

ITESM-UNAB, Curso Minería de Datos, 2003

Page 6: Mineríade datos

Motivación Creciente Volúmen de Datos

Bases de Datos

Almacenes de Datos (Datawerehouse)

Archivos

¿Capacidad de análisis?

ITESM-UNAB, Curso Minería de Datos, 2003

Page 7: Mineríade datos

Motivación

Riqueza de datos recolectados, almacenados y a

los que se ha dado un mantenimiento.

Incapacidad para descubrir la información

inmersa en los datos. ¿cómo?

Técnicas Estadísticas

Page 8: Mineríade datos

Motivación

Los grandes volúmenes de datos han rebasado

la capacidad de analizarlos usando las técnicas

tradicionales de análisis de la información.

Extraer el conocimiento para tomar buenas

decisiones (e.g., tratamiento médico, promoción y

prevención) y aprovechar las oportunidades

Page 9: Mineríade datos

Descubrimiento del conocimiento en

Bases de Datos (KDD)

KDD es el proceso de preparación de los datos,

extracción de patrones, y validación de los

modelos o predicción; mientras que Minería de

Datos e refiere únicamente a la extracción de

patrones.

DatosDatos

Elegidos

Datos

TransformadosPatrones Conocimiento

Interpretación

Minería de DatosSelección

de los Datos

Pre-procesamiento

Transformación

Page 10: Mineríade datos

Minería de Datos

La minería de datos es el proceso de extraer

información válida, novedosa, comprensible y

potencialmente útil.

El aprendizaje automático ofrece las técnicas

para la Minería de datos.

DatosMinería de

DatosDecisión

Información

Conocimiento

fácilmente útil

Integración

de los Datos

Page 11: Mineríade datos

Minería de Datos

Es el proceso de extraer información válida,

novedosa, comprensible y potencialmente útil.

Información (Niveles)

Datos: Datos en bruto

Información: Manipulación de variables

Conocimiento: Atribución a causas

Sabiduria: Saber sopesar el conocimiento

Page 12: Mineríade datos

Minería de Datos

Validez : Nivel de certidumbre de la

información.

Al ser menos formal puede haber más mentiras.

“Cuando se compran pañales se compran bebidas

alcohólicas en el 50% de los casos”

Page 13: Mineríade datos

Minería de Datos

Novedosa : La información obtenida era

desconocida

Evaluada por el ser humano

Verdades universales

“Si el genero del sujeto es femenino,

entonces puede ser que consulte al

ginecólogo” ó

“Si el genero del sujeto es masculino,

entonces no consulta al ginecólogo”

Page 14: Mineríade datos

Minería de Datos

Comprensible : La información obtenida debe ser

legible al usuario.

“Los atributos: genero y tipo de doctor tienen una

correlación de .....”

“Si el genero del sujeto es masculino, entonces no

consulta al ginecólogo”

Útil : Ayuda a tomar una decisión ó a predecir

un comportamiento

Page 15: Mineríade datos

Minería de Datos

Caso 1: Salud Pública

Información:

Válida:

Novedosa:

Comprensible:

Útil:

Page 16: Mineríade datos

Minería de Datos

Es la búsqueda de relaciones y patrones globales

escondidos en los datos que existen en BD

grandes.

La relación entre los datos del paciente y su

diagnóstico medico.

Estas relaciones representan conocimiento

valioso acerca de la base de datos y los objetos

en ella, así como de si la BD es un espejo fiel, del

mundo registrado por ella.

Page 17: Mineríade datos

Multidisciplinario Bases de Datos

Inteligencia Artificial

Algoritmos

Computación del alto rendimiento

Estadística

Visualización

Aprendizaje automático

Minería de Datos

Reconocimiento de Patrones

Adquisición y Representación del Conocimiento

Page 18: Mineríade datos

Aplicaciones

Comercio

Salud

Astronomía

Sistemas de Información Geográfica

Detección de Fraudes

Servicios Bancarios

Internet

Page 19: Mineríade datos

Ética Uso de los datos

Responsabilidad

Aplicado a Gente (Blanca – Negra) Discriminación

Sexual

Racial (áreas)

Religiosa

Información Personal ¿cómo será usada? ¿Para qué? ¿Protección? ¿vender, compartir?

Page 20: Mineríade datos

Deducción vs. Inducción

Una BD es un almacén de información

confiable. Su propósito es recuperar

eficientemente la información almacenada en, o

inferida de la BD.

Desde una perspectiva lógica, dos técnicas de

inferencia pueden distinguirse:

Deducción

Inducción

Page 21: Mineríade datos

Deducción vs. Inducción La diferencia radica en que la deducción es el

resultado de enunciados correctos acerca del mundo real (si la BD es correcta), mientras que la inducción es el resultado de los enunciados soportados en la BD (pueden no ser verdaderos en el mundo real).

Inducción: Selección de las regularidades y reglas más plausibles, soportadas por la BD.

La minería de Datos es una forma de aprendizaje inductivo

Page 22: Mineríade datos

Minería de Datos

Los patrones están representados en términos de

una estructura que puede ser examinada,

razonada y usada para tomar decisiones futuras.

La minería de datos trata de encontrar y describir

patrones estructurales en los datos con el fin

de ayudarnos a explicarlos y hacer predicciones.

Page 23: Mineríade datos

Minería de Datos

Toma de decisiones

Representación

Clasificación

Agrupamiento

Visualización

Page 24: Mineríade datos

Minería de Datos

Entrada: Conceptos, instancias y atributos

Proceso: Técnica de aprendizaje (Minería)

Salida: Representación del conocimiento

Aprendizaje

(patrones)

SalidaEntrada

Page 25: Mineríade datos

Minería de Datos

El concepto: lo que hay que aprender

Los datos dados al aprendiz toma la forma de un

conjunto de instancias.

Cada instancia se caracteriza por un conjunto

de atributos (características) que miden

aspectos diferentes de la instancia (numéricos,

nominales y categóricos ordinales)

Page 26: Mineríade datos

Ambiente Temperatura Humedad Viento Golf

lluvioso templado normal No Jugar

lluvioso templado alta No Jugar

lluvioso templado alta Si No Jugar

lluvioso frio normal No Jugar

lluvioso frio normal Si No Jugar

nublado templado alta Si Jugar

nublado frio normal Si Jugar

nublado calor normal No Jugar

nublado templado alta No Jugar

soleado templado normal Si Jugar

soleado templado alta No No Jugar

soleado frio normal No Jugar

soleado calor alta Si No Jugar

soleado calor alta No No Jugar

Atributos Concepto

I

n

s

t

a

n

c

i

a

s

Page 27: Mineríade datos

Salida

Descripción del concepto: lo que hay que

aprender (inteligible y operacional)

La salida incluye una descripción de la

estructura, como representación explícita del

conocimiento adquirido y que puede usarse

para clasificar ejemplos nuevos.

Page 28: Mineríade datos

Proceso: Estilos de

Aprendizaje

Clasificación

Asociación

Agrupamiento

Predicción Numérica

Page 29: Mineríade datos

Aprendizaje Automático

Un sistema de este tipo utiliza observaciones

codificadas, frecuentemente almacenadas en

un conjunto llamado de entrenamiento.

En el aprendizaje supervisado, el sistema

busca descripciones para las clases definidas

por el usuario y en el no supervisado

construye un sumario del conjunto de

entrenamiento, como un conjunto de clases

descubiertas y sus descripciones.

Page 30: Mineríade datos

Minería de Datos

Supervisado (Dirigida): La meta principal es

predecir, estimar, clasificar ó caracterizar el

comportamiento de algún atributo, previamente

identificado, en términos de un conjunto de

variables de entrada.

No Supervisado (No dirigida): La meta es

descubrir una estructura en el conjunto de datos

Page 31: Mineríade datos

Clasificación

Page 32: Mineríade datos

Clasificación

Minería de datos dirigida: su objetivo es

clasificar ó caracterizar el comportamiento de un

atributo particular, en términos del resto.

Árboles

Reglas

Page 33: Mineríade datos

Árboles de Decisión

Ambiente

Soleado Nublado Lluvia

Humedad VientoClase Jugar

Alta Normal Si No

Clase Jugar Clase JugarClase No JugarClase No Jugar

Tecnologías:

ID3,C4.5,C5,

Indice GINI

Page 34: Mineríade datos

Árboles de Decisión Utiliza la técnica de Divide y Conquista

Procedimiento inductivo

La salida es un árbol de decisión

Desarrollada y refinada por Ross Quinlan en la Universidad de Sydney(Australia)

Conocido como ID3

Page 35: Mineríade datos

Árboles de Decisión

Clasifica patrones con atributos no numéricos

Mejorado con el uso del radio de ganancia

Variaciones

C4.5,

C5

Page 36: Mineríade datos

Árboles de Decisión Puede expresarse recursivamente

Seleccionar un atributo

Colocar una rama para cada valor del atributo

Dividir las instancias en subconjuntos uno por cadavalor

Repetir el proceso para cada rama utilizando el sub-conjunto apropiado

Si las instancias de una rama son de la misma clase, el proceso termina para esa rama.

Page 37: Mineríade datos

Ejemplo

Estatura Cabello Ojos Clase

Alto Negro Azul A

Bajo Negro Azul A

Alto Rubio Azul O

Alto Rojo Azul O

Alto Rubio Café A

Bajo Rubio Azul O

Bajo Rubio Café A

Alto negro Café A

Page 38: Mineríade datos

Por Atributo

Ojos Clase

Azul A

Azul A

Azul O

Azul O

Azul O

Café A

Café A

Café A

Estatura Clase

Alto A

Alto O

Alto O

Alto A

Alto A

Bajo A

Bajo O

Bajo A

Cabello Clase

Negro A

Negro A

Negro A

Rojo O

Rubio O

Rubio A

Rubio O

Rubio A

Page 39: Mineríade datos

¿Cuál es el mejor atributo?

Intuitivamente, cualquier hoja con instancias de

solo una clase no tendrá que dividirse después.

Se desea que quede un árbol pequeño.

Medida de la pureza de cada nodo.

Escoger el atributo que produzca los nodos hijos

mas puros.

Page 40: Mineríade datos

Medida de Pureza

Información.

Se mide en fracciones de bit, y frecuentemente

es menor a 1.

Se asocia a cada nodo y se calcula con base al

número de instancias de cada clase en él.

Representa la cantidad de información esperada

que sería necesaria para especificar la clase de

una instancia dada.

Page 41: Mineríade datos

Información

Propiedades esperadas

Cuando queda una sola clase, la información debe

ser cero

Cuando el número de instancias de cada clase es

igual, la información alcanza su máximo valor

La función que satisface estas propiedades es

conocida como entropía

Page 42: Mineríade datos

Entropía

Información del Sistema

Información del atributo

Información de cada rama

Ganancia del atributo

Se busca el atributo que provee la mayor

ganancia en información.

)(log),...,,(2

121 ni

n

in

pppppEntropia

Page 43: Mineríade datos

Información del Sistema

La entropía del sistema es

bit954.0)8

3(*log*)

8

3()

8

5(*log*)

8

5( 22

Page 44: Mineríade datos

Ejemplo

Ganancia de información al probar la

caracteristicas de Cabello

negro rojo

rubio

cabello

Estatura Cabello Ojos Clase

Alto Negro Azul A

Bajo Negro Azul A

Alto Negro Café A

Estatura Cabello Ojos Clase

Alto Rojo Azul O

Estatura Cabello Ojos Clase

Alto Rubio Azul O

Alto Rubio Café A

Bajo Rubio Azul O

Bajo Rubio Café A

Page 45: Mineríade datos

Entropía sistema: 0.954 bit

• Entropía de la rama negro: 0

• Entropía de la rama rojo: 0

• Entropía de la rama rubio:

Entropía de cabello respecto al sistema:

bit1)2

1(*log*)

2

1()

2

1(*log*)

2

1( 22

bit5.0)1(*)8

4()0(*)

8

1()0(*)

8

3(

Page 46: Mineríade datos

Ejemplo

Ganancia de información al evaluar cabello:

Entropía (I) - Entropía (I, cabello)

= 0.954 - 0.5 = 0.454 bit

Page 47: Mineríade datos

Ejemplo

Ganancia al evaluar los ojos

azulcafe

ojos

Estatura Cabello Ojos Clase

Alto Rubio Café A

Bajo Rubio Café A

Alto negro Café A

Estatura Cabello Ojos Clase

Alto Negro Azul A

Bajo Negro Azul A

Alto Rubio Azul O

Alto Rojo Azul O

Bajo Rubio Azul O

Page 48: Mineríade datos

Entropía sistema: 0.954 bit

Entropía de la rama café: 0

Entropía de la rama azul:

Entropía de ojos respecto al sistema:

bit971.0)5

3(*log*)

5

3()

5

2(*log*)

5

2( 22

bit607.0)0(*)8

3()971.0(*)

8

5(

Page 49: Mineríade datos

Ejemplo

Ganancia de información al evaluar ojos:

Entropía (I) - Entropía (I, ojos)

= 0.954 – 0.607 = 0.347 bit

Page 50: Mineríade datos

negrorojo

rubio

cabello

Estatura Cabello Ojos Clase

Alto Negro Azul A

Bajo Negro Azul A

Alto Negro Café A

Estatura Cabello Ojos Clase

Alto Rojo Azul O

azul cafeojos

Estatura Cabello Ojos Clase

Alto Rubio Café A

Bajo Rubio Café A

Alto negro Café A

Estatura Cabello Ojos Clase

Alto Negro Azul A

Bajo Negro Azul A

Alto Rubio Azul O

Alto Rojo Azul O

Bajo Rubio Azul O

Page 51: Mineríade datos

Ambiente Temperatura Humedad Viento Golf

lluvioso templado normal No Jugar

lluvioso templado alta No Jugar

lluvioso frio normal No Jugar

nublado templado alta Si Jugar

nublado frio normal Si Jugar

nublado calor normal No Jugar

nublado calor alta No Jugar

soleado templado normal Si Jugar

soleado frio normal No Jugar

lluvioso templado alta Si No Jugar

lluvioso frio normal Si No Jugar

soleado templado alta No No Jugar

soleado calor alta Si No Jugar

soleado calor alta No No Jugar

Page 52: Mineríade datos

Ambiente Temperatura

Jugar

Jugar

No

Jugar

No

Jugar

No

Jugar

Jugar

Jugar

Jugar

Jugar

Jugar

Jugar

Jugar

No

Jugar

No

Jugar

Jugar

Jugar

No

Jugar

No

Jugar

Jugar

Jugar

Jugar

No

Jugar

soleado

nubladolluvioso caliente frio

Jugar

Jugar

Jugar

Jugar

No

Jugar

No

Jugar

templado

Page 53: Mineríade datos

Humedad Viento

Jugar

Jugar

Jugar

No

Jugar

No

Jugar

No

Jugar

No

Jugar

No

Jugar

Jugar

Jugar

Jugar

Jugar

Jugar

Jugar

No

Jugar

Jugar

Jugar

Jugar

Jugar

Jugar

Jugar

No

Jugar

No

Jugar

Jugar

Jugar

Jugar

No

Jugar

No

Jugar

No

Jugar

altanormal nosi

Page 54: Mineríade datos

Información del Sistemas

No se considera ningun atributo

940.0

5305.04097.0

)14

5(log*)

14

5()

14

9(log*)

14

9(])5,9([ 22

IS

Page 55: Mineríade datos

Información

De cada rama ISoleado ([2,3])=0.5287+0.4421 0.971

INublado ([4,0])=0

ILluvioso ([3,2]) = 0.4421 + 0.5287 0.971

Del atributo IAmbiente =

693.0

971.0*14

50*)

14

4(971.0*)

14

5(

Page 56: Mineríade datos

Ganancia GAmbiente = IS – IAmbiente

= 0.940 – 0.693 = 0.247

GTemperatura = IS – ITemperatura =0.940 – 0.911 = 0.029

GHumeda = IS – IHumedad =0.940 – 0.788 = 0.152

GViento = IS – IViento =0.940 – 0.892 = 0.048

Page 57: Mineríade datos

Ambiente

soleado

……

Temperatura

No

Jugar

No

Jugar

Jugar

caliente

frio

Jugar

No

Jugar

templado

Ambiente

soleado

……

Humedad

No

Jugar

No

Jugar

No

Jugar

Jugar

Jugar

alta normal

Ambiente

soleado

……

Viento

Jugar

Jugar

No

Jugar

No

Jugar

Jugar

No

Jugar

alta no

Page 58: Mineríade datos

Ambiente – Soleado

ISAmbiente = 0.971

ITemperatura = 0.4

GTemperatura = 0.571

IHumedad = 0

GHumedad = 0.971

IViento = 0.95098

Gviento = 0.020

Page 59: Mineríade datos

Ambiente – Lluvioso

ISAmbiente = 0.971

ITemperatura = 0.95098

GTemperatura = 0.20

IHumedad = 0.95098

GHumedad = 0.20

IViento = 0

Gviento = 0.971

Page 60: Mineríade datos

Ambiente

Soleado

Humedad

Jugar

normal

No

Jugar

alta

Viento

LluviosoNublado

Jugar

No

Jugar

Si

Jugar

No

Page 61: Mineríade datos

Arboles de Decisióna < b

b < c a < c

a < c b < cOrder is

a < b < c

Order is

b < a < c

Order is

a < c < b

Order is

c < a < b

Order is

b < c < a

Order is

c < b < a

Si (a<b)^(b<c) a < b < c

• Si (a<b)^(b>c)^(a<c) a < c < b

...

• Si (a>b)^(a>c)^(b>c) c < b < a

Page 62: Mineríade datos

Atributos

Numéricos

Binario

Seleccionar un punto

Calcular la información de la misma forma

Preprocesamiento: Ordenar

¿Reordenar?

Page 63: Mineríade datos

Atributos

Faltantes

¿es relevante?

Ignorar instancias

un nuevo valor del atributo

Dividir y enviar a cada rama en proporción al

número de instancias que van a cada rama

considerando el conjunto de entrenamiento.

Page 64: Mineríade datos

Applet de Prueba

Para hacer algunos experimentos y comprobar

resultados, pueden acudir a la siguiente

dirección:

http://webdocs.cs.ualberta.ca/~aixplore/learning/

DecisionTrees/Applet/DecisionTreeApplet.html

Page 65: Mineríade datos

Reglas de Clasificación

Page 66: Mineríade datos

Reglas de Clasificación : Antecedente → Consecuente

Antecedente: precondiciones, son la serie de

pruebas que se realizan sobre los atributos.

Conjuntivas ("cumplen para que la regla tenga

éxito”)

Pueden ser expresiones lógicas.

Consecuente: conclusión, da la clase o clases

que aplican a las instancias cubiertas por la

regla

Las reglas son disyuntivas

Posibles conflictos

Tecnologías:

1-Rule

PRISM

Page 67: Mineríade datos

Modelo Estadístico

Todos los atributos contribuyen

Los atributos se consideran:

Iguales en importancia

Independientes

Se toma en cuenta la frecuencia del par atributo-

valor por clase

No realista, ¡pero funciona!

Page 68: Mineríade datos

Modelo Estadistico

Está basado en la regla de probabilidad

condicional de Bayes

Si se tiene una hipótesis H, y una evidencia E

entonces:

P[H|E] = P[E|H] P[H]/ P[E]

H : Play=Yes

E : Combinación de valores del nuevo día

Page 69: Mineríade datos

Naïve Bayes

Los números encontrados se convierten en

probabilidades normalizandolos de forma que

sumen 1

][

]|[]|[]|[]|[]|[ 4321

EP

HEPHEPHEPHEPEHP

]|[...]|[

][]|[...]|[]|[

1

1

1

m

n

HEPHEP

HPHEPHEPEHP

Page 70: Mineríade datos

Ejemplo

Ambiente Golf Temperatura Golf Humedad Golf Viento Golflluvioso Jugar calor Jugar alta Jugar No Jugarlluvioso Jugar calor Jugar alta Jugar No Jugarlluvioso Jugar calor No Jugar alta Jugar No Jugarlluvioso No Jugar calor No Jugar alta No Jugar No Jugarlluvioso No Jugar frio Jugar alta No Jugar No Jugarnublado Jugar frio Jugar alta No Jugar No Jugarnublado Jugar frio Jugar alta No Jugar No No Jugarnublado Jugar frio No Jugar normal Jugar No No Jugarnublado Jugar templado Jugar normal Jugar Si Jugarsoleado Jugar templado Jugar normal Jugar Si Jugarsoleado Jugar templado Jugar normal Jugar Si Jugarsoleado No Jugar templado Jugar normal Jugar Si No Jugarsoleado No Jugar templado No Jugar normal Jugar Si No Jugarsoleado No Jugar templado No Jugar normal No Jugar Si No Jugar

Page 71: Mineríade datos

Frecuencias

Probabilidades Observadas

Probabilidad a Priori

Ambiente Temperatura Humedad VientoJugar No Jugar Jugar No Jugar Jugar No Jugar Jugar No Jugar

Soleado Caliente Alta SiNublado Templado Normal NoLluvia Frio

GolfJugar No Jugar

Page 72: Mineríade datos

Ejemplo

Ambiente Temperatura Humedad VientoJugar No Jugar Jugar No Jugar Jugar No Jugar Jugar No Jugar

Soleado 2 3 Caliente 2 2 Alta 3 4 Si 3 3Nublado 4 0 Templado 4 2 Normal 6 1 No 6 2Lluvia 3 2 Frio 3 1

Ambiente Temperatura Humedad VientoJugar No Jugar Jugar No Jugar Jugar No Jugar Jugar No Jugar

Soleado 2/9 3/5 Caliente 2/9 2/5 Alta 3/9 4/5 Si 3/9 3/5Nublado 4/9 0/5 Templado 4/9 2/5 Normal 6/9 1/5 No 6/9 2/5Lluvia 3/9 2/5 Frio 3/9 1/5

Golf GolfJugar No Jugar Jugar No Jugar9 5 9/14 5/14

Page 73: Mineríade datos

Ejemplo

Nuevo día

Ambiente Temperatura Humedad Viento Golf

Soleado Frio Alta Si ?

Posibilidad de Jugar = 2/9*3/9*3/9*3/9*9/14 = 0.0053

Posibilidad de No Jugar = 3/5*1/5*4/5*3/5*5/14 = 0.0206

Probabilidad de Jugar = 0.0053/(0.0053+0.0206) = 20.5%

Probabilidad de No Jugar = 0.0206/(0.0053+0.0206) = 79.5%

Page 74: Mineríade datos

Ejercicio Lentes de ContactoLentes de Contacto

Edad Problema Astigmatismo Prod. Lágrimas Lentes

Joven Miopía No Reducida Ninguno

Joven Miopía No Normal Blandos

Joven Miopía Si Reducida Ninguno

Joven Miopía Si Normal Duros

Joven Hipermetropía No Reducida Ninguno

Joven Hipermetropía No Normal Blandos

Joven Hipermetropía Si Reducida Ninguno

Joven Hipermetropía Si Normal Duros

Adulto Miopía No Reducida Ninguno

Adulto Miopía No Normal Blandos

Adulto Miopía Si Reducida Ninguno

Adulto Miopía Si Normal Duros

Adulto Hipermetropía No Reducida Ninguno

Adulto Hipermetropía No Normal Blandos

Adulto Hipermetropía Si Reducida Ninguno

Adulto Hipermetropía Si Normal Ninguno

Anciano Miopía No Reducida Ninguno

Anciano Miopía No Normal Ninguno

Anciano Miopía Si Reducida Ninguno

Anciano Miopía Si Normal Duros

Anciano Hipermetropía No Reducida Ninguno

Anciano Hipermetropía No Normal Blandos

Anciano Hipermetropía Si Reducida Ninguno

Anciano Hipermetropía Si Normal Ninguno

Page 75: Mineríade datos

Edad B N D Problema B N D Astigmatismo B N D Lagrimeo B N D

Adulto 2 5 0Hipermetropia 2 7 1Si 4 6 0Normal 4 3 3

Anciano 0 6 1Miopia 2 7 2No 0 8 3Reducido 0 11 0

Joven 2 3 2

Edad B N D Problema B N D Astigmatismo B N D Lagrimeo B N D

Adulto 2/4 5/14 0/3Hipermetropia 2/4 7/14 1/3Si 4/4 6/14 0Normal 4/4 3/14 3/3

Anciano 0/4 6/14 1/3Miopia 2/4 7/14 2/3No 0/4 8/14 3/3Reducido 0/4 11/14 0/3

Joven

Lentes

B N D

4 14 3

4/21 14/21 3/21

Edad Problema Astigmatismo Lagrimeo Lentes

Joven Hipermetropia No Reducida ?

Adulto Miopia Si Normal ?

Anciano Hipermetropia No Normal ?

Page 76: Mineríade datos

Soluciones

Ej1)

Pos B = (2/4)*(2/4)*(4/4)*(0)*(4/21) = 0

Pos D = (2/3)*(1/3)*(0)*(0)*(3/21) = 0

Pos N = (3/14)*(7/14)*(6/14)*(11/14)*(14/21)=0.024 Pr=100%

Ej2)

Pos B = (2/4)*(2/4)*(0)*(1)*(4/21) = 0

Pos D = (0)*(1/3)*(3/4)*(1)*(3/21) = 0

Pos N = (5/14)*(7/14)*(8/14)*(3/14)*(14/21)=0.00145

Pr=100%

Ej3)

Pos B = (0/14)*… = 0

Pos D = (1/3)*(1/3)*(0)*… = 0

Pos N = (6/14)*(7/14)*(6/14)*(3/14)*(14/21)=0.00131

Pr=100%

Page 77: Mineríade datos

Problemas

Valores de un atributo que no se presentan.

La probabilidad de la clase dado que el atributo

tiene el valor ausente sería cero causando que

todo el término sea cero.

La corrección es agregar uno a cada valor y

compensar. (Estimador de Laplace MF. P) 2/9,

3/9, 4/9 cambian por 3/12, 4/12, 5/12

Page 78: Mineríade datos

Problemas

Valores Faltantes

Nueva instancia: se omite

Conj. Entrenamiento: no cuenta

Atributos numéricos

Se supone que tienen una distribución de

probabilidad “Normal” o “Gaussiana”

Se calcula la media x y la desviación estándar

Page 79: Mineríade datos

Atributos Numéricos

n

x

x

n

ii

1

1

][1

2

n

xxn

ii

2

2

2

)(

2

1)(

x

exf

Page 80: Mineríade datos

Ejemplo

Ambiente Temperatura Humedad Viento Golfnublado 64 65Si Jugarlluvioso 65 70Si No Jugarlluvioso 68 80No Jugarsoleado 69 70No Jugarlluvioso 70 96No Jugarlluvioso 71 91Si No Jugarsoleado 72 95No No Jugarnublado 72 90Si Jugarlluvioso 75 80No Jugarsoleado 75 70Si Jugarsoleado 80 90Si No Jugarnublado 81 75No Jugarnublado 83 86No Jugarsoleado 85 85No No Jugar

Page 81: Mineríade datos

Ambiente Temperatura Humedad Viento Golf

JugarNo

Jugar Jugar No Jugar Jugar No Jugar Jugar No Jugar Jugar No Jugar

Soleado 2 3 85 85 86 85 No 6 2 9 5

Templado 4 0 70 80 96 90 Si 3 3

Lluvia 3 2 68 65 80 70

64 72 65 95

69 71 70 91

75 80

75 70

72 90

81 75

Soleado 2/9 3/5Media 73 74,6Media 79,1 86,2 No 6/9 2/5 9/14 5/14

Templado 4/9 0/5DesEst 6,2 7,9DesEst 10,2 9,7 Si 3/9 3/5

Lluvia 3/9 2/5

Ambiente Temperatura Humedad Viento

Golf

Soleado 66 90 Si

? 0340.02.6*2

1)|66(

2

2

)2.6(2

)7366(

eJugarTf

Page 82: Mineríade datos

Ejemplo

Posibilidad Jugar:

(2/9)*0.034*0.0221*(3/9)*(9/14) =0.000036

Pos No Jugar

(3/5)*0.0279*0.038*(3/5)*(5/14) =0.000136

Probabilidad Jugar:

0.000036/(0.000036+0.000136)=20.9%

Probabilidad No Jugar:

0.000136/(0.000036+0.000136)=79.1%

Page 83: Mineríade datos

Inferencia de Reglas

Algoritmo de cobertura.

Considerar cada clase buscando la forma de

cubrir todas las instancias en la clase, y al mismo

tiempo excluir a las instancias que no pertenecen

a la clase.

Es llamado de cobertura porque en cada etapa

se identifica una regla que “cubre” la mayoría de

las instancias.

Page 84: Mineríade datos

Método PRISM

Para cada clase se busca construir las reglas

(agregando términos), que cubran todas las

instancias de esa clase.

Al agregar un termino, suponga que la nueva

regla cubre un total de t instancias, de las cuales

p son ejemplos de la clase y t-p están en otras

clases (errores de la regla).

• Escoger el término que maximiza p/t

Page 85: Mineríade datos

x

y

b

bb

bbb

b

b

b

b

baaaaa

b

bb

b

b

bb

b

b

b

baaaaa

1.2

y 2.6

b

bb

b

b

bb

b

bbb

aa

aa

a

1.2

x>1.2

y>2.6b

No Si

No Si

ab

Espacio de

las Instancias

Regla hasta

el momento

Regla después

de añadir un

nuevo término

Page 86: Mineríade datos

Método PRISM Para cada clase C

Inicializar E con el conjunto de instancias Mientras E contenga instancias de la clase C

Crear la regla R: ? C

Hasta que R sea perfecta (o más atributos) haz:

Para cada atributo A no mencionado en R, y valor v

Page 87: Mineríade datos

Método PRISM

Considerar agregar A=v en el lado Izquierdo de

R

Seleccionar A y v que maximicen la precisión

p/t (si existen iguales escoger el de mayor p)

Agregar A=v a R

Eliminar las instancias cubiertas por R de E

Page 88: Mineríade datos

Lentes de ContactoEdad Problema Astigmatismo Prod. Lágrimas Lentes

Joven Miopía No Reducida Ninguno

Joven Miopía No Normal Blandos

Joven Miopía Si Reducida Ninguno

Joven Miopía Si Normal Duros

Joven Hipermetropía No Reducida Ninguno

Joven Hipermetropía No Normal Blandos

Joven Hipermetropía Si Reducida Ninguno

Joven Hipermetropía Si Normal Duros

Adulto Miopía No Reducida Ninguno

Adulto Miopía No Normal Blandos

Adulto Miopía Si Reducida Ninguno

Adulto Miopía Si Normal Duros

Adulto Hipermetropía No Reducida Ninguno

Adulto Hipermetropía No Normal Blandos

Adulto Hipermetropía Si Reducida Ninguno

Adulto Hipermetropía Si Normal Ninguno

Anciano Miopía No Reducida Ninguno

Anciano Miopía No Normal Ninguno

Anciano Miopía Si Reducida Ninguno

Anciano Miopía Si Normal Duros

Anciano Hipermetropía No Reducida Ninguno

Anciano Hipermetropía No Normal Blandos

Anciano Hipermetropía Si Reducida Ninguno

Anciano Hipermetropía Si Normal Ninguno

Page 89: Mineríade datos

Ejemplo: Lentes Si ? Duros

Edad Joven 2/8 0.25

Adulto 1/8 0.125

Anciano 1/8 0.125

Problema Miopía 3/12 0.25

Hipermetropía 1/12 0.083

Astigmatismo Si 4/12 0.333

No 0/12 0

Producción de Lágrimas Reducida 0/12 0

Normal 4/12 0.333

Si (Astigmatismo = Si) Duros

Page 90: Mineríade datos

Si (Astigmatismo = Si) ? Duros

Edad

Joven 2/4 0.5

Adulto 1/4 0.25

Anciano 1/4 0.25

Problema

Miopía 3/6 0.5

Hipermetropía 1/6 0.166

Producción de Lágrimas

Reducida 0/6 0

Normal 4/6 0.666

Si (Astigmatismo = Si) (Producción de Lágrimas=Normal) Duros

Lentes de ContactoEdad Problema Astigmatismo Prod. Lágrimas Lentes

Joven Miopía Si Reducida Ninguno

Joven Miopía Si Normal Duros

Joven Hipermetropía Si Reducida Ninguno

Joven Hipermetropía Si Normal Duros

Adulto Miopía Si Reducida Ninguno

Adulto Miopía Si Normal Duros

Adulto Hipermetropía Si Reducida Ninguno

Adulto Hipermetropía Si Normal Ninguno

Anciano Miopía Si Reducida Ninguno

Anciano Miopía Si Normal Duros

Anciano Hipermetropía Si Reducida Ninguno

Anciano Hipermetropía Si Normal Ninguno

Page 91: Mineríade datos

Si (Astigmatismo = Si Producción de Lágrimas=Normal) ? Duros Edad

Joven 2/2 1

Adulto 1/2 0.5

Anciano 1/2 0.5

Problema Miopía 3/3 1

Hipermetropía 1/3 0.333

Si (Astigmatismo = Si Producción de Lágrimas=Normal Problema=Miopía) Duros

Lentes de ContactoEdad Problema Astigmatismo Prod. Lágrimas Lentes

Joven Miopía Si Normal Duros

Joven Hipermetropía Si Normal Duros

Adulto Miopía Si Normal Duros

Adulto Hipermetropía Si Normal Ninguno

Anciano Miopía Si Normal Duros

Anciano Hipermetropía Si Normal Ninguno

Page 92: Mineríade datos

Reglas para Lentes = Duros

Si (Astigmatismo = Si Producción de

Lágrimas=Normal Problema=Miopía) Duros

Si (Edad = Joven Astigmatismo = Si

Producción de Lágrimas = Normal) Duros

Page 93: Mineríade datos

Reglas de Asociación

Page 94: Mineríade datos

Reglas de Asociación

Similares a las reglas de clasificación

Pueden predecir cualquier atributo, no solo la

clase, o predecir combinaciones de atributos.

Las diferentes reglas de asociación expresan

diferentes regularidades que yacen en el

conjunto de datos y generalmente predicen cosa

diferentes.

Page 95: Mineríade datos

Reglas de Asociación

Se centra el interés en las reglas que aplican a

un número grande de instancias y que tiene una

precisión alta en las instancias en las que aplica.

La cobertura de una regla de asociación es el

número de instancias para las cuales ella predice

correctamente (soporte).

La precisión (confianza) es el número de

instancias que predice correctamente, expresado

como una proporción de todas las instancias a

las que se aplica

Page 96: Mineríade datos

Reglas de Asociación Son similares a las reglas de clasificación.

Cualquier expresión puede ocurrir del lado derecho

de la regla.

Puede utilizarse el mismo procedimiento de inducción

de reglas para cada posible combinación de atributos.

Pares de atributo - valor que tengan una cobertura

mínima (item)

Combinaciones de items (itemset)

Page 97: Mineríade datos

Reglas de Asociación

Los 1-itemset se obtienen con la frecuencia de

cada item.

Los candidatos de los n-itemset se obtienen del

(n-1)-itemset.

Los candidatos de los 2-itemset se obtienen del

1-itemset: Se buscan pares de valores de

atributos diferentes.

!)!(

!

rrn

n

r

n

Page 98: Mineríade datos

Los candidatos de los 2-itemset se obtienen del

1-itemset: Se buscan pares de valores de

atributos diferentes.

Valores: Atr 1: A, B, C Valores Atri 2: D, E

Quedan: (A,D), (A, E), (B, D), (B, E), (C,D),(C,E)

Se elimina: (A, B), (A, C), (B,C), (D, E) ya que son

valores del mismo atributo.

102*6

120

!2)!25(

!5

!)!(

!

rrn

n

r

n

Page 99: Mineríade datos

Ambiente Temperatura Humedad Viento Golf

lluvioso templado normal No Jugar

lluvioso templado alta No Jugar

lluvioso frio normal No Jugar

nublado templado alta Si Jugar

nublado frio normal Si Jugar

nublado calor normal No Jugar

nublado calor alta No Jugar

soleado templado normal Si Jugar

soleado frio normal No Jugar

lluvioso templado alta Si No Jugar

lluvioso frio normal Si No Jugar

soleado templado alta No No Jugar

soleado calor alta Si No Jugar

soleado calor alta No No Jugar

Page 100: Mineríade datos

1-ITEM-SORT 2-ITEMNublado(4) Nublado(4) Calor(4) 1Lluvioso(5) Nublado(4) Frio(4) 1Soleado(5) Nublado(4) Templado(6) 2Calor(4) Nublado(4) Alta(7) 2Frio(4) Nublado(4) Normal(7) 2Templado(6) Nublado(4) No(6) 2Alta(7) Nublado(4) Si(8) 2Normal(7) Nublado(4) No Jugar(5) 0No(6) Nublado(4) Jugar(9) 4Si(8) Lluvioso(5) Calor(4) 0No Jugar(5) Lluvioso(5) Frio(4) 2Jugar(9) Lluvioso(5) Templado(6) 3

Lluvioso(5) Alta(7) 2Lluvioso(5) Normal(7) 3Lluvioso(5) No(6) 3Lluvioso(5) Si(8) 2Lluvioso(5) No Jugar(5) 2Lluvioso(5) Jugar(9) 3

Page 101: Mineríade datos

1-ITEM-SORT Soleado(5) Calor(4) 2Nublado(4) Soleado(5) Frio(4) 1Lluvioso(5) Soleado(5) Templado(6) 2Soleado(5) Soleado(5) Alta(7) 3Calor(4) Soleado(5) Normal(7) 2Frio(4) Soleado(5) No(6) 3Templado(6) Soleado(5) Si(8) 2Alta(7) Soleado(5) No Jugar(5) 3Normal(7) Soleado(5) Jugar(9) 2No(6) Calor(4) Alta(7) 3Si(8) Calor(4) Normal(7) 1No Jugar(5) Calor(4) No(6) 3Jugar(9) Calor(4) Si(8) 1

Calor(4) No Jugar(5) 2Calor(4) Jugar(9) 2Frio(4) Alta(7) 0Frio(4) Normal(7) 4Frio(4) No(6) 2Frio(4) Si(8) 2Frio(4) No Jugar(5) 1Frio(4) Jugar(9) 3

Page 102: Mineríade datos

1-ITEM-SORT Templado(4) Alta(7) 4Nublado(4) Templado(4) Normal(7) 2Lluvioso(5) Templado(4) No(6) 3Soleado(5) Templado(4) Si(8) 3Calor(4) Templado(4) No Jugar(5) 2Frio(4) Templado(4) Jugar(9) 4Templado(6) Alta(7) No(6) 4Alta(7) Alta(7) Si(8) 3Normal(7) Alta(7) No Jugar(5) 4No(6) Alta(7) Jugar(9) 3Si(8) Normal(7) No(6) 4No Jugar(5) Normal(7) Si(8) 3Jugar(9) Normal(7) No Jugar(5) 1

Normal(7) Jugar(9) 6No(6) No Jugar(5) 2No(6) Jugar(9) 6Si(8) No Jugar(5) 3Si(8) Jugar(9) 3

Page 103: Mineríade datos

Reglas de Asociación

Candidatos de los n-itemset se obtienen del (n-

1)-itemset.

Los candidatos de los 3-itemset se obtienen del

2-itemset de la siguiente forma:

Deben coincidir en los (n-2) elementos del

itemset

2-ITEMSET: (A, B), (A, C), (B,C), (B, C)

Potenciales: (A, B, C), (B, C, D)

Quedan: (A, B, C)

Se elimina: (B, C, D) ya que (C, D) no existe

Page 104: Mineríade datos

2-ITEM 3-ITEMNublado Calor 2Nublado Calor Alta 1Nublado Alta 2Nublado Calor Normal 1Nublado Normal 2Nublado Calor Normal 2Nublado No 2Nublado Calor Si 0Nublado Si 2Nublado Calor Jugar 4Nublado Jugar 4Nublado Alta Normal 1Calor Alta 2Nublado Alta Si 1Calor No 3Nublado Alta Jugar 2Calor No Jugar 2Nublado Normal Normal 1Calor Jugar 3Nublado Normal Si 1Alta No 3Nublado Normal Jugar 2Alta Si 2Nublado No Jugar 3Alta No Jugar 2Nublado Si Jugar 2Alta Jugar 3Lluvioso Frio Alta 0Normal No Jugar 2Lluvioso Frio Normal 2Normal Jugar 2Lluvioso Frio No 1Normal No Jugar 3Lluvioso Frio Si 1

No No Jugar 2Lluvioso Frio No Jugar 1No Jugar 3Lluvioso Frio Jugar 1Si No Jugar 2Lluvioso Templado Alta 2Si Jugar 3Lluvioso Templado Normal 1

Page 105: Mineríade datos

4-ITEMSETNublado Calor No Jugar 2Lluvioso Templado No Jugar 2Lluvioso Normal No Jugar 2Soleado Calor Alta No Jugar 2Soleado Alta No No Jugar 2Frio Normal No Jugar 2

Page 106: Mineríade datos

Itemsets Generados

La cantidad de elementos por itemsets son:

1-itemsets 12

2-itemsets 47

3-itemsets 39

4-itemsets 7

Page 107: Mineríade datos

Reglas de asociación Las reglas se obtienen a partir de los itemsets

Humedad = normal, Viento = no, Golf = jugar

Esto nos lleva a las 7 reglas potenciales: If Humedad = normal Viento = no Golf = Jugar

4/4

If Humedad = normal Golf = jugar Viento = no 4/6

If Viento = no Golf = jugar Humedad = normal 4/7

If Humedad = normal Viento = no Golf = jugar4/6

If Viento = no Humedad = normal Golf = jugar4/8

If Golf = jugar Humedad = normal Viento = no

Page 108: Mineríade datos

Reglas de Asociación cov1humedad=normal viento=no golf=jugar 4

2temperatura=frio humedad=normal 4

3ambiente=nublado golf=jugar 4

4temperatura = frio golf = jugar humedad = normal 35ambiente=lluvioso viento =no golf=jugar 3

6ambiente=lluvioso golf=jugar viento=no 3

7ambiente=soleado humedad=alta golf=no jugar 3

8ambiente=soleado golf=no jugar humedad=alta 3

9temperatura=frio viento=no humedad=normal golf=jugar 210temperatura=frio viento=no humedad=normal golf=jugar 2

11temperatura=frio viento=no golf=jugar humedad=normal 2

12ambiente=lluvioso humedad=normal viento=no golf=jugar 2

13ambiente=lluvioso humedad=normal golf=jugar viento=no 214ambiente=lluvioso temperatura=templado viento=no golf=jugar 2

15ambiente=lluvioso temperatura=templado golf=jugar viento=no 2

16temperatura=templado viento=no golf=jugar ambiente=lluvioso 2

17ambiente=nublado temperatura=calor viento=no golf=jugar 218ambiente=nublado viento=no temperatura=calor golf=jugar 219temperatura=calor golf=jugar ambiente=nublado viento=no 2

20ambiente=nublado temperatura=calor viento=no golf=jugar 2

21ambiente=nublado temperatura=calor golf=jugar viento=no 2

22ambiente=nublado viento=no golf=jugar temperatura=calor 223temperatura=calor viento = no golf = jugar ambiente = nublado 2

58ambiente=soleado temperatura=calor humedad=alta 2

Page 109: Mineríade datos

4-Itemset

Elementos 3-ITEMSET (A,B,C), (A, B, D),

(A,C,D), (A,C,E), (B,C,D)

Potenciales ITESMSET-4 (A, B, C, D), (A, C, D,

E)

Queda (A, B, C, D)

Se elimina (A, C, D, E) porque (C, D, E) no existe

(no cumple la cobertura)

Page 110: Mineríade datos

Conjunto Final de Reglas

3 Reglas con cobertura 4

5 Reglas con cobertura 3

50 Reglas con cobertura 2

Total 58 Reglas

Page 111: Mineríade datos

Regla de los 3-Itemset

(A, B, C)

1. Si A, B C

2. Si B, C A

3. Si A, C B

4. Si A B, C

5. Si B A, C

6. Si C A, B

7. Si - A, B, C

Page 112: Mineríade datos

Agrupamiento (Clustering)

Page 113: Mineríade datos

Agrupamiento (Clustering)

Las técnicas de agrupamiento se aplican cuando

no hay propiamente una clase que predecir sino

cuando las instancias se dividen en grupos de

forma natural.

Es una técnica de minería de datos no dirigida.

El agrupamiento requiere de técnicas diferentes a

las de clasificación y asociación.

Page 114: Mineríade datos

Diagramas

En el agrupamiento, la salida es un diagrama que

muestra como las instancias forman grupos.

Se asocia un número de grupo a cada instancia

grupos disjuntos

grupos traslapados

probabilidad de pertenencia a un grupo

Jerarquía

Page 115: Mineríade datos

1 2 3

a 0,4 0,1 0,5

b 0,1 0,8 0,1

c 0,3 0,3 0,4

d 0,1 0,1 0,8

e 0,4 0,1 0,5

f 0,1 0,4 0,5

g 0,7 0,2 0,1

h

e

c

bd

j

ha

k

gi f

i

f

bc

e

hd

a

j

kg

g a c i e d k b j f h

Page 116: Mineríade datos

Agrupamiento

Los mapeos auto-organizables: forma

especializada de red neuronal.

K-Medias (K-Means): agrupamiento iterativo

basado en distancias.

Agrupamiento incremental.

EM-Algorithm: Expectation Maximization.

Page 117: Mineríade datos

Minería de Datos

Dependiendo de la meta que se persigue en la

minería de datos, se requiere la aplicación de

una técnica diferente.

Metas:

Prescriptiva: automatizar el proceso de toma de

decisiones (clasificación, predicción).

Descriptiva: Incrementar el entendimiento de lo

que sucede en los datos y del mundo que reflejan.

(agrupamiento - clustering)

Page 118: Mineríade datos

Diferencias

Analizar la respuesta a una oferta

Entradas: Finanzas, Estilo de vida

Projecto 1: producir un modelo que dé a cada

prospecto una puntuación de cómo responderá a

la oferta

Projecto 2: Entender las causas de la respuesta

para mejorar futuros esfuerzos

Page 119: Mineríade datos

Minería de Datos

Dirigida: La meta principal es predecir, estimar,

clasificar ó caracterizar el comportamiento de

algun atributo, prevíamente identificado, en

términos de un conjunto de variables de entrada.

No dirigida: La meta es descubrir una estructura

en el conjunto de datos

Page 120: Mineríade datos

Agrupamiento (Clustering)

Las técnicas de agrupamiento se aplican cuando

no hay propiamente una clase que predecir sino

cuando las instancias se dividen en grupos de

forma natural.

Es una técnica de minería de datos no dirigida.

El agrupamiento requiere de técnicas diferentes a

las de clasificación y asociación

Page 121: Mineríade datos

Agrupamiento

Se genera un diagrama que muestra cómo las

instancias forman grupos.

En el caso más simple, se asocia un número de

grupo a cada instancia. Se colocan las instancias

en dos dimensiones y se particiona el espacio

para mostrar cada cluster (disjuntos).

e

c

b

d

j

ha

k

g

i

f

Page 122: Mineríade datos

Agrupamiento

Algunos algoritmos permiten que una

instancia pertenezca a dos grupos (clusters)

La representación se puede visualizar mediante

diagramas de Venn

i

f

bc

e

hd

a

j

kg

Page 123: Mineríade datos

Agrupamiento

Otros algoritmos

asocian a las

instancias con los

grupos de manera

probabilística.

En este caso para

cada instancia

existe una

probabilidad o

grado de

pertenencia a cada

cluster.

1 2 3

a 0,4 0,1 0,5

b 0,1 0,8 0,1

c 0,3 0,3 0,4

d 0,1 0,1 0,8

e 0,4 0,1 0,5

f 0,1 0,4 0,5

g 0,7 0,2 0,1

h

Page 124: Mineríade datos

Agrupamiento

Otros producen una

estructura jerárquica de

clusters.

Los elementos unidos

en niveles inferiores

tienen una mayor

cohesión que los de

niveles superiores.

g a c i e d k b j f h

Page 125: Mineríade datos

Agrupamiento

Enfoques matemáticos.

Los métodos son Divisivos y Aglomerativos

Se define alguna medida del valor de la partición

del conjunto de clusters.

La medida es almacenada para decidir al final del

proceso cuál partición es la mejor.

Page 126: Mineríade datos

Métodos Divisivos

Inician considerando todas las instancias como

parte de un gran grupo (cluster) .

El cluster inicial se divide en dos o más clusters.

Estos clusters se dividen sucesivamente.

Hasta que cada instancia tiene su propio cluster.

Page 127: Mineríade datos

Métodos Aglomerativos

Otros métodos son llamados aglomerativos.

Iniciar con cada instancia en un grupo (cluster).

Iterativamente se combinan los clusters.

Termina cuando sólo hay un cluster.

Page 128: Mineríade datos

Agrupamiento

Los mapeos auto-organizables: forma

especializada de red neuronal.

K-Medias (K-Means): agrupamiento iterativo

basado en distancias.

Agrupamiento incremental

EM-Algorithm: Expectation Maximization

Page 129: Mineríade datos

Agrupamiento Iterativo Basado en

Distancia

K- Medias

K-medias es uno de los algoritmos más

ampliamente utilizado en herramientas

comerciales de minería de datos.

K-medias trabaja mejor cuando la entrada de

datos es numérica principalmente.

Page 130: Mineríade datos

K-Medias

¿Cómo funciona?

Divide el conjunto de datos en un número

predeterminado de clusters.

Ese número es K, de aquí el nombre.

Page 131: Mineríade datos

K-Medias

¿Cómo funciona?

La media es lo que los estadistas llaman

promedio.

En este caso la media se refiere a la ubicación

promedio de los miembros de un grupo en

particular.

Page 132: Mineríade datos

K-Medias

¿Ubicación? ¡Hablamos de Registros en una

Base de Datos!

La respuesta viene de la geometría:

Para formar los clusters, cada instancia es

asociada a un punto en el “espacio de instancias”

Ese espacio tiene tantas dimensiones como

atributos hay en las instancias.

Page 133: Mineríade datos

K-Medias

El valor de cada atributo es interpretado como

una distancia a partir del origen y a lo largo del

eje correspondiente.

Para que la interpretación sea útil, los atributos

deben ser convertidos a números y éstos deben

normalizarse para que los cambios en las

dimensiones sean comparables.

Page 134: Mineríade datos

Algoritmo

Las instancias son asignadas a clusters a través

de un proceso iterativo que inicia con clusters

centrados en localidades aleatorias en el espacio

de instancias y mueve los centroides del cluster

hasta que alguno de ellos se encuentre en

realidad en el centro de algún cluster.

Page 135: Mineríade datos

0

1

2

3

4

5

6

7

8

0 2 4 6 8 10

Punto X YA 1,2 1B 1,4 2C 2 1,1D 2,5 1,5E 3,6 1,7F 0,7 3G 1,3 6H 1,9 7,3I 3 6,9J 3,3 6K 4 6L 2,3 5M 3,5 5N 3 4O 6,1 3,2P 8 5,5Q 9,1 4,9R 8,1 4S 8,6 3T 7,5 2

El parámetro K indica el

número de cluster que se

seleccionarán en este caso

K=3

Page 136: Mineríade datos

Algoritmo

Se seleccionan K puntos al azar cómo centros de

los clusters (F, N y O).

Las instancias se asignan al centro del cluster

más cercano considerando la distancia de

Euclidiana.

2

22

2

1121

212211

)()(),(

,,

yxyxPPD

yyPxxP

Page 137: Mineríade datos

Algoritmo

Se

seleccionan K

puntos y se

asignan las

instancias al

centro del

cluster más

cercano

0

1

2

3

4

5

6

7

8

0 2 4 6 8 10

Semilla 1

Semilla 2

Semilla 3

Page 138: Mineríade datos

Límites

Para dibujar los limites entre los clusters, basta

con recordar que si se tienen 2 puntos X y Y,

todos los puntos que están equidistantes desde X

y Y, caen en la línea que está a la mitad del

segmento que une a X y Y, y es perpendicular.

Asi el punto del cuadro es asignado a el cluster

controlado por el centroide 2.

Page 139: Mineríade datos

Ejemplo

0

1

2

3

4

5

6

7

8

0 1 2 3 4 5 6 7 8 9 10

Semilla 1

Semilla 2

Semilla 3

Page 140: Mineríade datos

AsignaciónPunto X Y DF DN DOA 1,2 1 2,06 3,50 5,37B 1,4 2 1,22 2,56 4,85C 2 1,1 2,30 3,07 4,61D 2,5 1,5 2,34 2,55 3,98E 3,6 1,7 3,18 2,38 2,92F 0,7 3 0,00 2,51 5,40G 1,3 6 3,06 2,62 5,56H 1,9 7,3 4,46 3,48 5,87I 3 6,9 4,53 2,90 4,83

J 3,3 6 3,97 2,02 3,96K 4 6 4,46 2,24 3,50L 2,3 5 2,56 1,22 4,20M 3,5 5 3,44 1,12 3,16N 3 4 2,51 0,00 3,20O 6,1 3,2 5,40 3,20 0,00P 8 5,5 7,72 5,22 2,98Q 9,1 4,9 8,61 6,17 3,45R 8,1 4 7,47 5,10 2,15

S 8,6 3 7,90 5,69 2,51T 7,5 2 6,87 4,92 1,84

0

1

2

3

4

5

6

7

8

0 2 4 6 8 10

Page 141: Mineríade datos

Algoritmo

Después se calculará el centroide, es decir, la

media de todas las instancias.

Estos centroides serán los nuevos centros de los

clusters y el proceso se repite.

La iteración continúa hasta que los mismos

puntos son asignados a cada cluster en rondas

consecutivas. En este momento los centroides se

han estabilizado.

Page 142: Mineríade datos

Ejemplo

Grupo1 Grupo2 Grupo3Punto X Y Punto X Y Punto X YA 1,2 1 E 3,6 1,7 O 6,1 3,2B 1,4 2 G 1,3 6 P 8 5,5C 2 1,1 H 1,9 7,3 Q 9,1 4,9D 2,5 1,5 I 3 6,9 R 8,1 4F 0,7 3 J 3,3 6 S 8,6 3

1,56 1,72 K 4 6 T 7,5 2L 2,3 5 7,9 3,8M 3,5 5N 3 4

2,88 5,3

Medias

Page 143: Mineríade datos

Ejemplo

0

1

2

3

4

5

6

7

8

0 2 4 6 8 10

Page 144: Mineríade datos

Clustering Si hay más de una dimensión, la distancia

euclidiana se calcula de la misma forma:

En el caso de la media, se calcula la media para cada dimensión.

ni

iii

yxPPD

yyPxxP

1

2

21

212211

)(),(

,,

Page 145: Mineríade datos

Consecuencias

Tipo de preguntas que se pueden

responder

Es una técnica de aprendizaje no dirigido, por lo

que puede ser aplicada sin un conocimiento a priori

de la estructura a ser descubierta.

Dado que los grupos detectados automáticamente

no tienen una interpretación natural distinta, es

difícil poner los resultados en práctica.

Page 146: Mineríade datos

Consecuencias

Preparación de los datos

Seleccionando diferentes medidas de distancias, el

clustering se puede aplicar a cualquier tipo de datos

(distancia entre textos). Sin embargo, la más usada

es la distancia Euclidiana.

Page 147: Mineríade datos

Consecuencias

Seleccionar el número adecuado para K

Si el número no iguala a la estructura natural de

los datos, los resultados no son buenos.

Si no se tiene una razón a priori para elegir el

número se debe probar con varios valores.

Page 148: Mineríade datos

Consecuencias

Los mejores conjuntos de clusters, son aquellos

en los que la distancia entre los miembros:

Del mismo cluster es pequeña

De clusters adyacentes es grande

Page 149: Mineríade datos

Interpretación

¡Cuando no se sabe lo que se está buscando, no

se reconoce cuando se ha encontrado!

Existen algunos enfoques para interpretar.

Construir un árbol de decisión para explicar cómo

asignar las instancias al cluster correcto.

Visualización para ver como se afectan los

clusters con los cambios.

Page 150: Mineríade datos

Soporte TIC

http://www.youtube.com/watch?v=m7kpIBGEdkI