mineríade datos

Minería de Datos

Juan C. Garcia-Ojeda, PhD(c), MSc., Ing.

[email protected]

Minería de Datos

“Knowledge is Power” Francis Bacon

http://upload.wikimedia.org/wikipedia/commons/a/a7/Pourbus_Francis_Bacon.jpg

Descubirmiento del Conocimiento y

Minería de Datos

TEMARIO

Fundamentos

Representación del Conocimiento

Clasificación

Asociación

Agrupamiento

Fundamentos

¿Porqué son necesarios KDD y DM?

¿Qué es el descubrimiento del conocimiento en

bases de datos (KDD)?

¿Qué es la minería de datos (DM)?

¿Cuáles son los objetivos?

¿Que disciplinas intervienen?

Motivación

Información: Conjunto de patrones o modelos especificados como reglas de clasificación o asociación, entre otros.

ITESM-UNAB, Curso Minería de Datos, 2003

Motivación Creciente Volúmen de Datos

Bases de Datos

Almacenes de Datos (Datawerehouse)

Archivos

¿Capacidad de análisis?

ITESM-UNAB, Curso Minería de Datos, 2003

Motivación

Riqueza de datos recolectados, almacenados y a

los que se ha dado un mantenimiento.

Incapacidad para descubrir la información

inmersa en los datos. ¿cómo?

Técnicas Estadísticas

Motivación

Los grandes volúmenes de datos han rebasado

la capacidad de analizarlos usando las técnicas

tradicionales de análisis de la información.

Extraer el conocimiento para tomar buenas

decisiones (e.g., tratamiento médico, promoción y

prevención) y aprovechar las oportunidades

Descubrimiento del conocimiento en

Bases de Datos (KDD)

KDD es el proceso de preparación de los datos,

extracción de patrones, y validación de los

modelos o predicción; mientras que Minería de

Datos e refiere únicamente a la extracción de

patrones.

DatosDatos

Elegidos

Datos

TransformadosPatrones Conocimiento

Interpretación

Minería de DatosSelección

de los Datos

Pre-procesamiento

Transformación

Minería de Datos

La minería de datos es el proceso de extraer

información válida, novedosa, comprensible y

potencialmente útil.

El aprendizaje automático ofrece las técnicas

para la Minería de datos.

DatosMinería de

DatosDecisión

Información

Conocimiento

fácilmente útil

Integración

de los Datos

Minería de Datos

Es el proceso de extraer información válida,

novedosa, comprensible y potencialmente útil.

Información (Niveles)

Datos: Datos en bruto

Información: Manipulación de variables

Conocimiento: Atribución a causas

Sabiduria: Saber sopesar el conocimiento

Minería de Datos

Validez : Nivel de certidumbre de la

información.

Al ser menos formal puede haber más mentiras.

“Cuando se compran pañales se compran bebidas

alcohólicas en el 50% de los casos”

Minería de Datos

Novedosa : La información obtenida era

desconocida

Evaluada por el ser humano

Verdades universales

“Si el genero del sujeto es femenino,

entonces puede ser que consulte al

ginecólogo” ó

“Si el genero del sujeto es masculino,

entonces no consulta al ginecólogo”

Minería de Datos

Comprensible : La información obtenida debe ser

legible al usuario.

“Los atributos: genero y tipo de doctor tienen una

correlación de .....”

“Si el genero del sujeto es masculino, entonces no

consulta al ginecólogo”

Útil : Ayuda a tomar una decisión ó a predecir

un comportamiento

Minería de Datos

Caso 1: Salud Pública

Información:

Válida:

Novedosa:

Comprensible:

Útil:

Minería de Datos

Es la búsqueda de relaciones y patrones globales

escondidos en los datos que existen en BD

grandes.

La relación entre los datos del paciente y su

diagnóstico medico.

Estas relaciones representan conocimiento

valioso acerca de la base de datos y los objetos

en ella, así como de si la BD es un espejo fiel, del

mundo registrado por ella.

Multidisciplinario Bases de Datos

Inteligencia Artificial

Algoritmos

Computación del alto rendimiento

Estadística

Visualización

Aprendizaje automático

Minería de Datos

Reconocimiento de Patrones

Adquisición y Representación del Conocimiento

Aplicaciones

Comercio

Salud

Astronomía

Sistemas de Información Geográfica

Detección de Fraudes

Servicios Bancarios

Internet

Ética Uso de los datos

Responsabilidad

Aplicado a Gente (Blanca – Negra) Discriminación

Sexual

Racial (áreas)

Religiosa

Información Personal ¿cómo será usada? ¿Para qué? ¿Protección? ¿vender, compartir?

Deducción vs. Inducción

Una BD es un almacén de información

confiable. Su propósito es recuperar

eficientemente la información almacenada en, o

inferida de la BD.

Desde una perspectiva lógica, dos técnicas de

inferencia pueden distinguirse:

Deducción

Inducción

Deducción vs. Inducción La diferencia radica en que la deducción es el

resultado de enunciados correctos acerca del mundo real (si la BD es correcta), mientras que la inducción es el resultado de los enunciados soportados en la BD (pueden no ser verdaderos en el mundo real).

Inducción: Selección de las regularidades y reglas más plausibles, soportadas por la BD.

La minería de Datos es una forma de aprendizaje inductivo

Minería de Datos

Los patrones están representados en términos de

una estructura que puede ser examinada,

razonada y usada para tomar decisiones futuras.

La minería de datos trata de encontrar y describir

patrones estructurales en los datos con el fin

de ayudarnos a explicarlos y hacer predicciones.

Minería de Datos

Toma de decisiones

Representación

Clasificación

Agrupamiento

Visualización

Minería de Datos

Entrada: Conceptos, instancias y atributos

Proceso: Técnica de aprendizaje (Minería)

Salida: Representación del conocimiento

Aprendizaje

(patrones)

SalidaEntrada

Minería de Datos

El concepto: lo que hay que aprender

Los datos dados al aprendiz toma la forma de un

conjunto de instancias.

Cada instancia se caracteriza por un conjunto

de atributos (características) que miden

aspectos diferentes de la instancia (numéricos,

nominales y categóricos ordinales)

Ambiente Temperatura Humedad Viento Golf

lluvioso templado normal No Jugar

lluvioso templado alta No Jugar

lluvioso templado alta Si No Jugar

lluvioso frio normal No Jugar

lluvioso frio normal Si No Jugar

nublado templado alta Si Jugar

nublado frio normal Si Jugar

nublado calor normal No Jugar

nublado templado alta No Jugar

soleado templado normal Si Jugar

soleado templado alta No No Jugar

soleado frio normal No Jugar

soleado calor alta Si No Jugar

soleado calor alta No No Jugar

Atributos Concepto

I

n

s

t

a

n

c

i

a

s

Salida

Descripción del concepto: lo que hay que

aprender (inteligible y operacional)

La salida incluye una descripción de la

estructura, como representación explícita del

conocimiento adquirido y que puede usarse

para clasificar ejemplos nuevos.

Proceso: Estilos de

Aprendizaje

Clasificación

Asociación

Agrupamiento

Predicción Numérica

Aprendizaje Automático

Un sistema de este tipo utiliza observaciones

codificadas, frecuentemente almacenadas en

un conjunto llamado de entrenamiento.

En el aprendizaje supervisado, el sistema

busca descripciones para las clases definidas

por el usuario y en el no supervisado

construye un sumario del conjunto de

entrenamiento, como un conjunto de clases

descubiertas y sus descripciones.

Minería de Datos

Supervisado (Dirigida): La meta principal es

predecir, estimar, clasificar ó caracterizar el

comportamiento de algún atributo, previamente

identificado, en términos de un conjunto de

variables de entrada.

No Supervisado (No dirigida): La meta es

descubrir una estructura en el conjunto de datos

Clasificación

Clasificación

Minería de datos dirigida: su objetivo es

clasificar ó caracterizar el comportamiento de un

atributo particular, en términos del resto.

Árboles

Reglas

Árboles de Decisión

Ambiente

Soleado Nublado Lluvia

Humedad VientoClase Jugar

Alta Normal Si No

Clase Jugar Clase JugarClase No JugarClase No Jugar

Tecnologías:

ID3,C4.5,C5,

Indice GINI

Árboles de Decisión Utiliza la técnica de Divide y Conquista

Procedimiento inductivo

La salida es un árbol de decisión

Desarrollada y refinada por Ross Quinlan en la Universidad de Sydney(Australia)

Conocido como ID3

Árboles de Decisión

Clasifica patrones con atributos no numéricos

Mejorado con el uso del radio de ganancia

Variaciones

C4.5,

C5

Árboles de Decisión Puede expresarse recursivamente

Seleccionar un atributo

Colocar una rama para cada valor del atributo

Dividir las instancias en subconjuntos uno por cadavalor

Repetir el proceso para cada rama utilizando el sub-conjunto apropiado

Si las instancias de una rama son de la misma clase, el proceso termina para esa rama.

Ejemplo

Estatura Cabello Ojos Clase

Alto Negro Azul A

Bajo Negro Azul A

Alto Rubio Azul O

Alto Rojo Azul O

Alto Rubio Café A

Bajo Rubio Azul O

Bajo Rubio Café A

Alto negro Café A

Por Atributo

Ojos Clase

Azul A

Azul A

Azul O

Azul O

Azul O

Café A

Café A

Café A

Estatura Clase

Alto A

Alto O

Alto O

Alto A

Alto A

Bajo A

Bajo O

Bajo A

Cabello Clase

Negro A

Negro A

Negro A

Rojo O

Rubio O

Rubio A

Rubio O

Rubio A

¿Cuál es el mejor atributo?

Intuitivamente, cualquier hoja con instancias de

solo una clase no tendrá que dividirse después.

Se desea que quede un árbol pequeño.

Medida de la pureza de cada nodo.

Escoger el atributo que produzca los nodos hijos

mas puros.

Medida de Pureza

Información.

Se mide en fracciones de bit, y frecuentemente

es menor a 1.

Se asocia a cada nodo y se calcula con base al

número de instancias de cada clase en él.

Representa la cantidad de información esperada

que sería necesaria para especificar la clase de

una instancia dada.

Información

Propiedades esperadas

Cuando queda una sola clase, la información debe

ser cero

Cuando el número de instancias de cada clase es

igual, la información alcanza su máximo valor

La función que satisface estas propiedades es

conocida como entropía

Entropía

Información del Sistema

Información del atributo

Información de cada rama

Ganancia del atributo

Se busca el atributo que provee la mayor

ganancia en información.

)(log),...,,(2

121 ni

n

in

pppppEntropia

Información del Sistema

La entropía del sistema es

bit954.0)8

3(*log*)

8

3()

8

5(*log*)

8

5( 22

Ejemplo

Ganancia de información al probar la

caracteristicas de Cabello

negro rojo

rubio

cabello


Alto Negro Azul A

Bajo Negro Azul A

Alto Negro Café A


Alto Rojo Azul O


Alto Rubio Azul O

Alto Rubio Café A

Bajo Rubio Azul O

Bajo Rubio Café A

Entropía sistema: 0.954 bit

• Entropía de la rama negro: 0

• Entropía de la rama rojo: 0

• Entropía de la rama rubio:

Entropía de cabello respecto al sistema:

bit1)2

1(*log*)

2

1()

2

1(*log*)

2

1( 22

bit5.0)1(*)8

4()0(*)

8

1()0(*)

8

3(

Ejemplo

Ganancia de información al evaluar cabello:

Entropía (I) - Entropía (I, cabello)

= 0.954 - 0.5 = 0.454 bit

Ejemplo

Ganancia al evaluar los ojos

azulcafe

ojos


Alto Rubio Café A

Bajo Rubio Café A

Alto negro Café A


Alto Negro Azul A

Bajo Negro Azul A

Alto Rubio Azul O

Alto Rojo Azul O

Bajo Rubio Azul O

Entropía sistema: 0.954 bit

Entropía de la rama café: 0

Entropía de la rama azul:

Entropía de ojos respecto al sistema:

bit971.0)5

3(*log*)

5

3()

5

2(*log*)

5

2( 22

bit607.0)0(*)8

3()971.0(*)

8

5(

Ejemplo

Ganancia de información al evaluar ojos:

Entropía (I) - Entropía (I, ojos)

= 0.954 – 0.607 = 0.347 bit

negrorojo

rubio

cabello


Alto Negro Azul A

Bajo Negro Azul A

Alto Negro Café A


Alto Rojo Azul O

azul cafeojos


Alto Rubio Café A

Bajo Rubio Café A

Alto negro Café A


Alto Negro Azul A

Bajo Negro Azul A

Alto Rubio Azul O

Alto Rojo Azul O

Bajo Rubio Azul O








nublado calor alta No Jugar








Ambiente Temperatura

Jugar

Jugar

No

Jugar

No

Jugar

No

Jugar

Jugar

Jugar

Jugar

Jugar

Jugar

Jugar

Jugar

No

Jugar

No

Jugar

Jugar

Jugar

No

Jugar

No

Jugar

Jugar

Jugar

Jugar

No

Jugar

soleado

nubladolluvioso caliente frio

Jugar

Jugar

Jugar

Jugar

No

Jugar

No

Jugar

templado

Humedad Viento

Jugar

Jugar

Jugar

No

Jugar

No

Jugar

No

Jugar

No

Jugar

No

Jugar

Jugar

Jugar

Jugar

Jugar

Jugar

Jugar

No

Jugar

Jugar

Jugar

Jugar

Jugar

Jugar

Jugar

No

Jugar

No

Jugar

Jugar

Jugar

Jugar

No

Jugar

No

Jugar

No

Jugar

altanormal nosi

Información del Sistemas

No se considera ningun atributo

940.0

5305.04097.0

)14

5(log*)

14

5()

14

9(log*)

14

9(])5,9([ 22

IS

Información

De cada rama ISoleado ([2,3])=0.5287+0.4421 0.971

INublado ([4,0])=0

ILluvioso ([3,2]) = 0.4421 + 0.5287 0.971

Del atributo IAmbiente =

693.0

971.0*14

50*)

14

4(971.0*)

14

5(

Ganancia GAmbiente = IS – IAmbiente

= 0.940 – 0.693 = 0.247

GTemperatura = IS – ITemperatura =0.940 – 0.911 = 0.029

GHumeda = IS – IHumedad =0.940 – 0.788 = 0.152

GViento = IS – IViento =0.940 – 0.892 = 0.048

Ambiente

soleado

……

Temperatura

No

Jugar

No

Jugar

Jugar

caliente

frio

Jugar

No

Jugar

templado

Ambiente

soleado

……

Humedad

No

Jugar

No

Jugar

No

Jugar

Jugar

Jugar

alta normal

Ambiente

soleado

……

Viento

Jugar

Jugar

No

Jugar

No

Jugar

Jugar

No

Jugar

alta no

Ambiente – Soleado

ISAmbiente = 0.971

ITemperatura = 0.4

GTemperatura = 0.571

IHumedad = 0

GHumedad = 0.971

IViento = 0.95098

Gviento = 0.020

Ambiente – Lluvioso

ISAmbiente = 0.971

ITemperatura = 0.95098

GTemperatura = 0.20

IHumedad = 0.95098

GHumedad = 0.20

IViento = 0

Gviento = 0.971

Ambiente

Soleado

Humedad

Jugar

normal

No

Jugar

alta

Viento

LluviosoNublado

Jugar

No

Jugar

Si

Jugar

No

Arboles de Decisióna < b

b < c a < c

a < c b < cOrder is

a < b < c

Order is

b < a < c

Order is

a < c < b

Order is

c < a < b

Order is

b < c < a

Order is

c < b < a

Si (a<b)^(b<c) a < b < c

• Si (a<b)^(b>c)^(a<c) a < c < b

...

• Si (a>b)^(a>c)^(b>c) c < b < a

Atributos

Numéricos

Binario

Seleccionar un punto

Calcular la información de la misma forma

Preprocesamiento: Ordenar

¿Reordenar?

Atributos

Faltantes

¿es relevante?

Ignorar instancias

un nuevo valor del atributo

Dividir y enviar a cada rama en proporción al

número de instancias que van a cada rama

considerando el conjunto de entrenamiento.

Applet de Prueba

Para hacer algunos experimentos y comprobar

resultados, pueden acudir a la siguiente

dirección:

http://webdocs.cs.ualberta.ca/~aixplore/learning/

DecisionTrees/Applet/DecisionTreeApplet.html

http://webdocs.cs.ualberta.ca/~aixplore/learning/DecisionTrees/Applet/DecisionTreeApplet.html

Reglas de Clasificación

Reglas de Clasificación : Antecedente → Consecuente

Antecedente: precondiciones, son la serie de

pruebas que se realizan sobre los atributos.

Conjuntivas ("cumplen para que la regla tenga

éxito”)

Pueden ser expresiones lógicas.

Consecuente: conclusión, da la clase o clases

que aplican a las instancias cubiertas por la

regla

Las reglas son disyuntivas

Posibles conflictos

Tecnologías:

1-Rule

PRISM

Modelo Estadístico

Todos los atributos contribuyen

Los atributos se consideran:

Iguales en importancia

Independientes

Se toma en cuenta la frecuencia del par atributo-

valor por clase

No realista, ¡pero funciona!

Modelo Estadistico

Está basado en la regla de probabilidad

condicional de Bayes

Si se tiene una hipótesis H, y una evidencia E

entonces:

P[H|E] = P[E|H] P[H]/ P[E]

H : Play=Yes

E : Combinación de valores del nuevo día

Naïve Bayes

Los números encontrados se convierten en

probabilidades normalizandolos de forma que

sumen 1

][

]|[]|[]|[]|[]|[ 4321

EP

HEPHEPHEPHEPEHP

]|[...]|[

][]|[...]|[]|[

1

1

1

m

n

HEPHEP

HPHEPHEPEHP

Ejemplo

Ambiente Golf Temperatura Golf Humedad Golf Viento Golflluvioso Jugar calor Jugar alta Jugar No Jugarlluvioso Jugar calor Jugar alta Jugar No Jugarlluvioso Jugar calor No Jugar alta Jugar No Jugarlluvioso No Jugar calor No Jugar alta No Jugar No Jugarlluvioso No Jugar frio Jugar alta No Jugar No Jugarnublado Jugar frio Jugar alta No Jugar No Jugarnublado Jugar frio Jugar alta No Jugar No No Jugarnublado Jugar frio No Jugar normal Jugar No No Jugarnublado Jugar templado Jugar normal Jugar Si Jugarsoleado Jugar templado Jugar normal Jugar Si Jugarsoleado Jugar templado Jugar normal Jugar Si Jugarsoleado No Jugar templado Jugar normal Jugar Si No Jugarsoleado No Jugar templado No Jugar normal Jugar Si No Jugarsoleado No Jugar templado No Jugar normal No Jugar Si No Jugar

Frecuencias

Probabilidades Observadas

Probabilidad a Priori

Ambiente Temperatura Humedad VientoJugar No Jugar Jugar No Jugar Jugar No Jugar Jugar No Jugar

Soleado Caliente Alta SiNublado Templado Normal NoLluvia Frio

GolfJugar No Jugar

Ejemplo


Soleado 2 3 Caliente 2 2 Alta 3 4 Si 3 3Nublado 4 0 Templado 4 2 Normal 6 1 No 6 2Lluvia 3 2 Frio 3 1


Soleado 2/9 3/5 Caliente 2/9 2/5 Alta 3/9 4/5 Si 3/9 3/5Nublado 4/9 0/5 Templado 4/9 2/5 Normal 6/9 1/5 No 6/9 2/5Lluvia 3/9 2/5 Frio 3/9 1/5

Golf GolfJugar No Jugar Jugar No Jugar9 5 9/14 5/14

Ejemplo

Nuevo día


Soleado Frio Alta Si ?

Posibilidad de Jugar = 2/9*3/9*3/9*3/9*9/14 = 0.0053

Posibilidad de No Jugar = 3/5*1/5*4/5*3/5*5/14 = 0.0206

Probabilidad de Jugar = 0.0053/(0.0053+0.0206) = 20.5%

Probabilidad de No Jugar = 0.0206/(0.0053+0.0206) = 79.5%

Ejercicio Lentes de ContactoLentes de Contacto

Edad Problema Astigmatismo Prod. Lágrimas Lentes

Joven Miopía No Reducida Ninguno

Joven Miopía No Normal Blandos

Joven Miopía Si Reducida Ninguno

Joven Miopía Si Normal Duros

Joven Hipermetropía No Reducida Ninguno

Joven Hipermetropía No Normal Blandos

Joven Hipermetropía Si Reducida Ninguno

Joven Hipermetropía Si Normal Duros

Adulto Miopía No Reducida Ninguno

Adulto Miopía No Normal Blandos

Adulto Miopía Si Reducida Ninguno

Adulto Miopía Si Normal Duros

Adulto Hipermetropía No Reducida Ninguno

Adulto Hipermetropía No Normal Blandos

Adulto Hipermetropía Si Reducida Ninguno

Adulto Hipermetropía Si Normal Ninguno

Anciano Miopía No Reducida Ninguno

Anciano Miopía No Normal Ninguno

Anciano Miopía Si Reducida Ninguno

Anciano Miopía Si Normal Duros

Anciano Hipermetropía No Reducida Ninguno

Anciano Hipermetropía No Normal Blandos

Anciano Hipermetropía Si Reducida Ninguno

Anciano Hipermetropía Si Normal Ninguno

Edad B N D Problema B N D Astigmatismo B N D Lagrimeo B N D

Adulto 2 5 0Hipermetropia 2 7 1Si 4 6 0Normal 4 3 3

Anciano 0 6 1Miopia 2 7 2No 0 8 3Reducido 0 11 0

Joven 2 3 2

Edad B N D Problema B N D Astigmatismo B N D Lagrimeo B N D

Adulto 2/4 5/14 0/3Hipermetropia 2/4 7/14 1/3Si 4/4 6/14 0Normal 4/4 3/14 3/3

Anciano 0/4 6/14 1/3Miopia 2/4 7/14 2/3No 0/4 8/14 3/3Reducido 0/4 11/14 0/3

Joven

Lentes

B N D

4 14 3

4/21 14/21 3/21

Edad Problema Astigmatismo Lagrimeo Lentes

Joven Hipermetropia No Reducida ?

Adulto Miopia Si Normal ?

Anciano Hipermetropia No Normal ?

Soluciones

Ej1)

Pos B = (2/4)*(2/4)*(4/4)*(0)*(4/21) = 0

Pos D = (2/3)*(1/3)*(0)*(0)*(3/21) = 0

Pos N = (3/14)*(7/14)*(6/14)*(11/14)*(14/21)=0.024 Pr=100%

Ej2)

Pos B = (2/4)*(2/4)*(0)*(1)*(4/21) = 0

Pos D = (0)*(1/3)*(3/4)*(1)*(3/21) = 0

Pos N = (5/14)*(7/14)*(8/14)*(3/14)*(14/21)=0.00145

Pr=100%

Ej3)

Pos B = (0/14)*… = 0

Pos D = (1/3)*(1/3)*(0)*… = 0

Pos N = (6/14)*(7/14)*(6/14)*(3/14)*(14/21)=0.00131

Pr=100%

Problemas

Valores de un atributo que no se presentan.

La probabilidad de la clase dado que el atributo

tiene el valor ausente sería cero causando que

todo el término sea cero.

La corrección es agregar uno a cada valor y

compensar. (Estimador de Laplace MF. P) 2/9,

3/9, 4/9 cambian por 3/12, 4/12, 5/12

Problemas

Valores Faltantes

Nueva instancia: se omite

Conj. Entrenamiento: no cuenta

Atributos numéricos

Se supone que tienen una distribución de

probabilidad “Normal” o “Gaussiana”

Se calcula la media x y la desviación estándar

Atributos Numéricos

n

x

x

n

ii

1

1

][1

2

n

xxn

ii

2

2

2

)(

2

1)(

x

exf

Ejemplo

Ambiente Temperatura Humedad Viento Golfnublado 64 65Si Jugarlluvioso 65 70Si No Jugarlluvioso 68 80No Jugarsoleado 69 70No Jugarlluvioso 70 96No Jugarlluvioso 71 91Si No Jugarsoleado 72 95No No Jugarnublado 72 90Si Jugarlluvioso 75 80No Jugarsoleado 75 70Si Jugarsoleado 80 90Si No Jugarnublado 81 75No Jugarnublado 83 86No Jugarsoleado 85 85No No Jugar


JugarNo

Jugar Jugar No Jugar Jugar No Jugar Jugar No Jugar Jugar No Jugar

Soleado 2 3 85 85 86 85 No 6 2 9 5

Templado 4 0 70 80 96 90 Si 3 3

Lluvia 3 2 68 65 80 70

64 72 65 95

69 71 70 91

75 80

75 70

72 90

81 75

Soleado 2/9 3/5Media 73 74,6Media 79,1 86,2 No 6/9 2/5 9/14 5/14

Templado 4/9 0/5DesEst 6,2 7,9DesEst 10,2 9,7 Si 3/9 3/5

Lluvia 3/9 2/5

Ambiente Temperatura Humedad Viento

Golf

Soleado 66 90 Si

? 0340.02.6*2

1)|66(

2

2

)2.6(2

)7366(

eJugarTf

Ejemplo

Posibilidad Jugar:

(2/9)*0.034*0.0221*(3/9)*(9/14) =0.000036

Pos No Jugar

(3/5)*0.0279*0.038*(3/5)*(5/14) =0.000136

Probabilidad Jugar:

0.000036/(0.000036+0.000136)=20.9%

Probabilidad No Jugar:

0.000136/(0.000036+0.000136)=79.1%

Inferencia de Reglas

Algoritmo de cobertura.

Considerar cada clase buscando la forma de

cubrir todas las instancias en la clase, y al mismo

tiempo excluir a las instancias que no pertenecen

a la clase.

Es llamado de cobertura porque en cada etapa

se identifica una regla que “cubre” la mayoría de

las instancias.

Método PRISM

Para cada clase se busca construir las reglas

(agregando términos), que cubran todas las

instancias de esa clase.

Al agregar un termino, suponga que la nueva

regla cubre un total de t instancias, de las cuales

p son ejemplos de la clase y t-p están en otras

clases (errores de la regla).

• Escoger el término que maximiza p/t

x

y

b

bb

bbb

b

b

b

b

baaaaa

b

bb

b

b

bb

b

b

b

baaaaa

1.2

y 2.6

b

bb

b

b

bb

b

bbb

aa

aa

a

1.2

x>1.2

y>2.6b

No Si

No Si

ab

Espacio de

las Instancias

Regla hasta

el momento

Regla después

de añadir un

nuevo término

Método PRISM Para cada clase C

Inicializar E con el conjunto de instancias Mientras E contenga instancias de la clase C

Crear la regla R: ? C

Hasta que R sea perfecta (o más atributos) haz:

Para cada atributo A no mencionado en R, y valor v

Método PRISM

Considerar agregar A=v en el lado Izquierdo de

R

Seleccionar A y v que maximicen la precisión

p/t (si existen iguales escoger el de mayor p)

Agregar A=v a R

Eliminar las instancias cubiertas por R de E

Lentes de ContactoEdad Problema Astigmatismo Prod. Lágrimas Lentes

Joven Miopía No Reducida Ninguno

Joven Miopía No Normal Blandos



Joven Hipermetropía No Reducida Ninguno

Joven Hipermetropía No Normal Blandos



Adulto Miopía No Reducida Ninguno

Adulto Miopía No Normal Blandos



Adulto Hipermetropía No Reducida Ninguno

Adulto Hipermetropía No Normal Blandos



Anciano Miopía No Reducida Ninguno

Anciano Miopía No Normal Ninguno



Anciano Hipermetropía No Reducida Ninguno

Anciano Hipermetropía No Normal Blandos



Ejemplo: Lentes Si ? Duros

Edad Joven 2/8 0.25

Adulto 1/8 0.125

Anciano 1/8 0.125

Problema Miopía 3/12 0.25

Hipermetropía 1/12 0.083

Astigmatismo Si 4/12 0.333

No 0/12 0

Producción de Lágrimas Reducida 0/12 0

Normal 4/12 0.333

Si (Astigmatismo = Si) Duros

Si (Astigmatismo = Si) ? Duros

Edad

Joven 2/4 0.5

Adulto 1/4 0.25

Anciano 1/4 0.25

Problema

Miopía 3/6 0.5


Producción de Lágrimas

Reducida 0/6 0

Normal 4/6 0.666

Si (Astigmatismo = Si) (Producción de Lágrimas=Normal) Duros














Si (Astigmatismo = Si Producción de Lágrimas=Normal) ? Duros Edad

Joven 2/2 1

Adulto 1/2 0.5

Anciano 1/2 0.5

Problema Miopía 3/3 1


Si (Astigmatismo = Si Producción de Lágrimas=Normal Problema=Miopía) Duros








Reglas para Lentes = Duros

Si (Astigmatismo = Si Producción de

Lágrimas=Normal Problema=Miopía) Duros

Si (Edad = Joven Astigmatismo = Si

Producción de Lágrimas = Normal) Duros

Reglas de Asociación


Similares a las reglas de clasificación

Pueden predecir cualquier atributo, no solo la

clase, o predecir combinaciones de atributos.

Las diferentes reglas de asociación expresan

diferentes regularidades que yacen en el

conjunto de datos y generalmente predicen cosa

diferentes.


Se centra el interés en las reglas que aplican a

un número grande de instancias y que tiene una

precisión alta en las instancias en las que aplica.

La cobertura de una regla de asociación es el

número de instancias para las cuales ella predice

correctamente (soporte).

La precisión (confianza) es el número de

instancias que predice correctamente, expresado

como una proporción de todas las instancias a

las que se aplica

Reglas de Asociación Son similares a las reglas de clasificación.

Cualquier expresión puede ocurrir del lado derecho

de la regla.

Puede utilizarse el mismo procedimiento de inducción

de reglas para cada posible combinación de atributos.

Pares de atributo - valor que tengan una cobertura

mínima (item)

Combinaciones de items (itemset)


Los 1-itemset se obtienen con la frecuencia de

cada item.

Los candidatos de los n-itemset se obtienen del

(n-1)-itemset.

Los candidatos de los 2-itemset se obtienen del

1-itemset: Se buscan pares de valores de

atributos diferentes.

!)!(

!

rrn

n

r

n


1-itemset: Se buscan pares de valores de

atributos diferentes.

Valores: Atr 1: A, B, C Valores Atri 2: D, E

Quedan: (A,D), (A, E), (B, D), (B, E), (C,D),(C,E)

Se elimina: (A, B), (A, C), (B,C), (D, E) ya que son

valores del mismo atributo.

102*6

120

!2)!25(

!5

!)!(

!

rrn

n

r

n








nublado calor alta No Jugar








1-ITEM-SORT 2-ITEMNublado(4) Nublado(4) Calor(4) 1Lluvioso(5) Nublado(4) Frio(4) 1Soleado(5) Nublado(4) Templado(6) 2Calor(4) Nublado(4) Alta(7) 2Frio(4) Nublado(4) Normal(7) 2Templado(6) Nublado(4) No(6) 2Alta(7) Nublado(4) Si(8) 2Normal(7) Nublado(4) No Jugar(5) 0No(6) Nublado(4) Jugar(9) 4Si(8) Lluvioso(5) Calor(4) 0No Jugar(5) Lluvioso(5) Frio(4) 2Jugar(9) Lluvioso(5) Templado(6) 3

Lluvioso(5) Alta(7) 2Lluvioso(5) Normal(7) 3Lluvioso(5) No(6) 3Lluvioso(5) Si(8) 2Lluvioso(5) No Jugar(5) 2Lluvioso(5) Jugar(9) 3

1-ITEM-SORT Soleado(5) Calor(4) 2Nublado(4) Soleado(5) Frio(4) 1Lluvioso(5) Soleado(5) Templado(6) 2Soleado(5) Soleado(5) Alta(7) 3Calor(4) Soleado(5) Normal(7) 2Frio(4) Soleado(5) No(6) 3Templado(6) Soleado(5) Si(8) 2Alta(7) Soleado(5) No Jugar(5) 3Normal(7) Soleado(5) Jugar(9) 2No(6) Calor(4) Alta(7) 3Si(8) Calor(4) Normal(7) 1No Jugar(5) Calor(4) No(6) 3Jugar(9) Calor(4) Si(8) 1

Calor(4) No Jugar(5) 2Calor(4) Jugar(9) 2Frio(4) Alta(7) 0Frio(4) Normal(7) 4Frio(4) No(6) 2Frio(4) Si(8) 2Frio(4) No Jugar(5) 1Frio(4) Jugar(9) 3

1-ITEM-SORT Templado(4) Alta(7) 4Nublado(4) Templado(4) Normal(7) 2Lluvioso(5) Templado(4) No(6) 3Soleado(5) Templado(4) Si(8) 3Calor(4) Templado(4) No Jugar(5) 2Frio(4) Templado(4) Jugar(9) 4Templado(6) Alta(7) No(6) 4Alta(7) Alta(7) Si(8) 3Normal(7) Alta(7) No Jugar(5) 4No(6) Alta(7) Jugar(9) 3Si(8) Normal(7) No(6) 4No Jugar(5) Normal(7) Si(8) 3Jugar(9) Normal(7) No Jugar(5) 1

Normal(7) Jugar(9) 6No(6) No Jugar(5) 2No(6) Jugar(9) 6Si(8) No Jugar(5) 3Si(8) Jugar(9) 3


Candidatos de los n-itemset se obtienen del (n-

1)-itemset.


2-itemset de la siguiente forma:

Deben coincidir en los (n-2) elementos del

itemset

2-ITEMSET: (A, B), (A, C), (B,C), (B, C)

Potenciales: (A, B, C), (B, C, D)

Quedan: (A, B, C)

Se elimina: (B, C, D) ya que (C, D) no existe

2-ITEM 3-ITEMNublado Calor 2Nublado Calor Alta 1Nublado Alta 2Nublado Calor Normal 1Nublado Normal 2Nublado Calor Normal 2Nublado No 2Nublado Calor Si 0Nublado Si 2Nublado Calor Jugar 4Nublado Jugar 4Nublado Alta Normal 1Calor Alta 2Nublado Alta Si 1Calor No 3Nublado Alta Jugar 2Calor No Jugar 2Nublado Normal Normal 1Calor Jugar 3Nublado Normal Si 1Alta No 3Nublado Normal Jugar 2Alta Si 2Nublado No Jugar 3Alta No Jugar 2Nublado Si Jugar 2Alta Jugar 3Lluvioso Frio Alta 0Normal No Jugar 2Lluvioso Frio Normal 2Normal Jugar 2Lluvioso Frio No 1Normal No Jugar 3Lluvioso Frio Si 1

No No Jugar 2Lluvioso Frio No Jugar 1No Jugar 3Lluvioso Frio Jugar 1Si No Jugar 2Lluvioso Templado Alta 2Si Jugar 3Lluvioso Templado Normal 1

4-ITEMSETNublado Calor No Jugar 2Lluvioso Templado No Jugar 2Lluvioso Normal No Jugar 2Soleado Calor Alta No Jugar 2Soleado Alta No No Jugar 2Frio Normal No Jugar 2

Itemsets Generados

La cantidad de elementos por itemsets son:

1-itemsets 12

2-itemsets 47

3-itemsets 39

4-itemsets 7

Reglas de asociación Las reglas se obtienen a partir de los itemsets

Humedad = normal, Viento = no, Golf = jugar

Esto nos lleva a las 7 reglas potenciales: If Humedad = normal Viento = no Golf = Jugar

4/4

If Humedad = normal Golf = jugar Viento = no 4/6

If Viento = no Golf = jugar Humedad = normal 4/7

If Humedad = normal Viento = no Golf = jugar4/6

If Viento = no Humedad = normal Golf = jugar4/8

If Golf = jugar Humedad = normal Viento = no

Reglas de Asociación cov1humedad=normal viento=no golf=jugar 4

2temperatura=frio humedad=normal 4

3ambiente=nublado golf=jugar 4

4temperatura = frio golf = jugar humedad = normal 35ambiente=lluvioso viento =no golf=jugar 3

6ambiente=lluvioso golf=jugar viento=no 3

7ambiente=soleado humedad=alta golf=no jugar 3

8ambiente=soleado golf=no jugar humedad=alta 3

9temperatura=frio viento=no humedad=normal golf=jugar 210temperatura=frio viento=no humedad=normal golf=jugar 2

11temperatura=frio viento=no golf=jugar humedad=normal 2

12ambiente=lluvioso humedad=normal viento=no golf=jugar 2

13ambiente=lluvioso humedad=normal golf=jugar viento=no 214ambiente=lluvioso temperatura=templado viento=no golf=jugar 2

15ambiente=lluvioso temperatura=templado golf=jugar viento=no 2

16temperatura=templado viento=no golf=jugar ambiente=lluvioso 2

17ambiente=nublado temperatura=calor viento=no golf=jugar 218ambiente=nublado viento=no temperatura=calor golf=jugar 219temperatura=calor golf=jugar ambiente=nublado viento=no 2

20ambiente=nublado temperatura=calor viento=no golf=jugar 2

21ambiente=nublado temperatura=calor golf=jugar viento=no 2

22ambiente=nublado viento=no golf=jugar temperatura=calor 223temperatura=calor viento = no golf = jugar ambiente = nublado 2

…

58ambiente=soleado temperatura=calor humedad=alta 2

4-Itemset

Elementos 3-ITEMSET (A,B,C), (A, B, D),

(A,C,D), (A,C,E), (B,C,D)

Potenciales ITESMSET-4 (A, B, C, D), (A, C, D,

E)

Queda (A, B, C, D)

Se elimina (A, C, D, E) porque (C, D, E) no existe

(no cumple la cobertura)

Conjunto Final de Reglas

3 Reglas con cobertura 4



Total 58 Reglas

Regla de los 3-Itemset

(A, B, C)

1. Si A, B C

2. Si B, C A

3. Si A, C B

4. Si A B, C

5. Si B A, C

6. Si C A, B

7. Si - A, B, C

Agrupamiento (Clustering)


Las técnicas de agrupamiento se aplican cuando

no hay propiamente una clase que predecir sino

cuando las instancias se dividen en grupos de

forma natural.

Es una técnica de minería de datos no dirigida.

El agrupamiento requiere de técnicas diferentes a

las de clasificación y asociación.

Diagramas

En el agrupamiento, la salida es un diagrama que

muestra como las instancias forman grupos.

Se asocia un número de grupo a cada instancia

grupos disjuntos

grupos traslapados

probabilidad de pertenencia a un grupo

Jerarquía

1 2 3

a 0,4 0,1 0,5

b 0,1 0,8 0,1

c 0,3 0,3 0,4

d 0,1 0,1 0,8

e 0,4 0,1 0,5

f 0,1 0,4 0,5

g 0,7 0,2 0,1

h

…

e

c

bd

j

ha

k

gi f

i

f

bc

e

hd

a

j

kg

g a c i e d k b j f h

Agrupamiento

Los mapeos auto-organizables: forma

especializada de red neuronal.

K-Medias (K-Means): agrupamiento iterativo

basado en distancias.

Agrupamiento incremental.

EM-Algorithm: Expectation Maximization.

Minería de Datos

Dependiendo de la meta que se persigue en la

minería de datos, se requiere la aplicación de

una técnica diferente.

Metas:

Prescriptiva: automatizar el proceso de toma de

decisiones (clasificación, predicción).

Descriptiva: Incrementar el entendimiento de lo

que sucede en los datos y del mundo que reflejan.

(agrupamiento - clustering)

Diferencias

Analizar la respuesta a una oferta

Entradas: Finanzas, Estilo de vida

Projecto 1: producir un modelo que dé a cada

prospecto una puntuación de cómo responderá a

la oferta

Projecto 2: Entender las causas de la respuesta

para mejorar futuros esfuerzos

Minería de Datos

Dirigida: La meta principal es predecir, estimar,

clasificar ó caracterizar el comportamiento de

algun atributo, prevíamente identificado, en

términos de un conjunto de variables de entrada.

No dirigida: La meta es descubrir una estructura

en el conjunto de datos


Las técnicas de agrupamiento se aplican cuando

no hay propiamente una clase que predecir sino

cuando las instancias se dividen en grupos de

forma natural.

Es una técnica de minería de datos no dirigida.

El agrupamiento requiere de técnicas diferentes a

las de clasificación y asociación

Agrupamiento

Se genera un diagrama que muestra cómo las

instancias forman grupos.

En el caso más simple, se asocia un número de

grupo a cada instancia. Se colocan las instancias

en dos dimensiones y se particiona el espacio

para mostrar cada cluster (disjuntos).

e

c

b

d

j

ha

k

g

i

f

Agrupamiento

Algunos algoritmos permiten que una

instancia pertenezca a dos grupos (clusters)

La representación se puede visualizar mediante

diagramas de Venn

i

f

bc

e

hd

a

j

kg

Agrupamiento

Otros algoritmos

asocian a las

instancias con los

grupos de manera

probabilística.

En este caso para

cada instancia

existe una

probabilidad o

grado de

pertenencia a cada

cluster.

1 2 3

a 0,4 0,1 0,5

b 0,1 0,8 0,1

c 0,3 0,3 0,4

d 0,1 0,1 0,8

e 0,4 0,1 0,5

f 0,1 0,4 0,5

g 0,7 0,2 0,1

h

…

Agrupamiento

Otros producen una

estructura jerárquica de

clusters.

Los elementos unidos

en niveles inferiores

tienen una mayor

cohesión que los de

niveles superiores.

g a c i e d k b j f h

Agrupamiento

Enfoques matemáticos.

Los métodos son Divisivos y Aglomerativos

Se define alguna medida del valor de la partición

del conjunto de clusters.

La medida es almacenada para decidir al final del

proceso cuál partición es la mejor.

Métodos Divisivos

Inician considerando todas las instancias como

parte de un gran grupo (cluster) .

El cluster inicial se divide en dos o más clusters.

Estos clusters se dividen sucesivamente.

Hasta que cada instancia tiene su propio cluster.

Métodos Aglomerativos

Otros métodos son llamados aglomerativos.

Iniciar con cada instancia en un grupo (cluster).

Iterativamente se combinan los clusters.

Termina cuando sólo hay un cluster.

Agrupamiento

Los mapeos auto-organizables: forma

especializada de red neuronal.

K-Medias (K-Means): agrupamiento iterativo

basado en distancias.

Agrupamiento incremental

EM-Algorithm: Expectation Maximization

Agrupamiento Iterativo Basado en

Distancia

K- Medias

K-medias es uno de los algoritmos más

ampliamente utilizado en herramientas

comerciales de minería de datos.

K-medias trabaja mejor cuando la entrada de

datos es numérica principalmente.

K-Medias

¿Cómo funciona?

Divide el conjunto de datos en un número

predeterminado de clusters.

Ese número es K, de aquí el nombre.

K-Medias

¿Cómo funciona?

La media es lo que los estadistas llaman

promedio.

En este caso la media se refiere a la ubicación

promedio de los miembros de un grupo en

particular.

K-Medias

¿Ubicación? ¡Hablamos de Registros en una

Base de Datos!

La respuesta viene de la geometría:

Para formar los clusters, cada instancia es

asociada a un punto en el “espacio de instancias”

Ese espacio tiene tantas dimensiones como

atributos hay en las instancias.

K-Medias

El valor de cada atributo es interpretado como

una distancia a partir del origen y a lo largo del

eje correspondiente.

Para que la interpretación sea útil, los atributos

deben ser convertidos a números y éstos deben

normalizarse para que los cambios en las

dimensiones sean comparables.

Algoritmo

Las instancias son asignadas a clusters a través

de un proceso iterativo que inicia con clusters

centrados en localidades aleatorias en el espacio

de instancias y mueve los centroides del cluster

hasta que alguno de ellos se encuentre en

realidad en el centro de algún cluster.

0

1

2

3

4

5

6

7

8

0 2 4 6 8 10

Punto X YA 1,2 1B 1,4 2C 2 1,1D 2,5 1,5E 3,6 1,7F 0,7 3G 1,3 6H 1,9 7,3I 3 6,9J 3,3 6K 4 6L 2,3 5M 3,5 5N 3 4O 6,1 3,2P 8 5,5Q 9,1 4,9R 8,1 4S 8,6 3T 7,5 2

El parámetro K indica el

número de cluster que se

seleccionarán en este caso

K=3

Algoritmo

Se seleccionan K puntos al azar cómo centros de

los clusters (F, N y O).

Las instancias se asignan al centro del cluster

más cercano considerando la distancia de

Euclidiana.

2

22

2

1121

212211

)()(),(

,,

yxyxPPD

yyPxxP

Algoritmo

Se

seleccionan K

puntos y se

asignan las

instancias al

centro del

cluster más

cercano

0

1

2

3

4

5

6

7

8

0 2 4 6 8 10

Semilla 1

Semilla 2

Semilla 3

Límites

Para dibujar los limites entre los clusters, basta

con recordar que si se tienen 2 puntos X y Y,

todos los puntos que están equidistantes desde X

y Y, caen en la línea que está a la mitad del

segmento que une a X y Y, y es perpendicular.

Asi el punto del cuadro es asignado a el cluster

controlado por el centroide 2.

Ejemplo

0

1

2

3

4

5

6

7

8

0 1 2 3 4 5 6 7 8 9 10

Semilla 1

Semilla 2

Semilla 3

AsignaciónPunto X Y DF DN DOA 1,2 1 2,06 3,50 5,37B 1,4 2 1,22 2,56 4,85C 2 1,1 2,30 3,07 4,61D 2,5 1,5 2,34 2,55 3,98E 3,6 1,7 3,18 2,38 2,92F 0,7 3 0,00 2,51 5,40G 1,3 6 3,06 2,62 5,56H 1,9 7,3 4,46 3,48 5,87I 3 6,9 4,53 2,90 4,83

J 3,3 6 3,97 2,02 3,96K 4 6 4,46 2,24 3,50L 2,3 5 2,56 1,22 4,20M 3,5 5 3,44 1,12 3,16N 3 4 2,51 0,00 3,20O 6,1 3,2 5,40 3,20 0,00P 8 5,5 7,72 5,22 2,98Q 9,1 4,9 8,61 6,17 3,45R 8,1 4 7,47 5,10 2,15

S 8,6 3 7,90 5,69 2,51T 7,5 2 6,87 4,92 1,84

0

1

2

3

4

5

6

7

8

0 2 4 6 8 10

Algoritmo

Después se calculará el centroide, es decir, la

media de todas las instancias.

Estos centroides serán los nuevos centros de los

clusters y el proceso se repite.

La iteración continúa hasta que los mismos

puntos son asignados a cada cluster en rondas

consecutivas. En este momento los centroides se

han estabilizado.

Ejemplo

Grupo1 Grupo2 Grupo3Punto X Y Punto X Y Punto X YA 1,2 1 E 3,6 1,7 O 6,1 3,2B 1,4 2 G 1,3 6 P 8 5,5C 2 1,1 H 1,9 7,3 Q 9,1 4,9D 2,5 1,5 I 3 6,9 R 8,1 4F 0,7 3 J 3,3 6 S 8,6 3

1,56 1,72 K 4 6 T 7,5 2L 2,3 5 7,9 3,8M 3,5 5N 3 4

2,88 5,3

Medias

Ejemplo

0

1

2

3

4

5

6

7

8

0 2 4 6 8 10

Clustering Si hay más de una dimensión, la distancia

euclidiana se calcula de la misma forma:

En el caso de la media, se calcula la media para cada dimensión.

ni

iii

yxPPD

yyPxxP

1

2

21

212211

)(),(

,,

Consecuencias

Tipo de preguntas que se pueden

responder

Es una técnica de aprendizaje no dirigido, por lo

que puede ser aplicada sin un conocimiento a priori

de la estructura a ser descubierta.

Dado que los grupos detectados automáticamente

no tienen una interpretación natural distinta, es

difícil poner los resultados en práctica.

Consecuencias

Preparación de los datos

Seleccionando diferentes medidas de distancias, el

clustering se puede aplicar a cualquier tipo de datos

(distancia entre textos). Sin embargo, la más usada

es la distancia Euclidiana.

Consecuencias

Seleccionar el número adecuado para K

Si el número no iguala a la estructura natural de

los datos, los resultados no son buenos.

Si no se tiene una razón a priori para elegir el

número se debe probar con varios valores.

Consecuencias

Los mejores conjuntos de clusters, son aquellos

en los que la distancia entre los miembros:

Del mismo cluster es pequeña

De clusters adyacentes es grande

Interpretación

¡Cuando no se sabe lo que se está buscando, no

se reconoce cuando se ha encontrado!

Existen algunos enfoques para interpretar.

Construir un árbol de decisión para explicar cómo

asignar las instancias al cluster correcto.

Visualización para ver como se afectan los

clusters con los cambios.

Soporte TIC

http://www.youtube.com/watch?v=m7kpIBGEdkI

http://www.youtube.com/watch?v=m7kpIBGEdkI

mineríade datos

Engineering

minera de datos minera

bases de datos kddkdd

curso minera

minera de datoses

casos12 minera

informacin vlida

informacin obtenida

informacin nivelesdatos