mineríade datos
TRANSCRIPT
![Page 2: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/2.jpg)
Minería de Datos
“Knowledge is Power” Francis Bacon
http://upload.wikimedia.org/wikipedia/commons/a/a7/Pourbus_Francis_Bacon.jpg
![Page 3: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/3.jpg)
Descubirmiento del Conocimiento y
Minería de Datos
TEMARIO
Fundamentos
Representación del Conocimiento
Clasificación
Asociación
Agrupamiento
![Page 4: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/4.jpg)
Fundamentos
¿Porqué son necesarios KDD y DM?
¿Qué es el descubrimiento del conocimiento en
bases de datos (KDD)?
¿Qué es la minería de datos (DM)?
¿Cuáles son los objetivos?
¿Que disciplinas intervienen?
![Page 5: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/5.jpg)
Motivación
Información: Conjunto de patrones o modelos especificados como reglas de clasificación o asociación, entre otros.
ITESM-UNAB, Curso Minería de Datos, 2003
![Page 6: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/6.jpg)
Motivación Creciente Volúmen de Datos
Bases de Datos
Almacenes de Datos (Datawerehouse)
Archivos
¿Capacidad de análisis?
ITESM-UNAB, Curso Minería de Datos, 2003
![Page 7: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/7.jpg)
Motivación
Riqueza de datos recolectados, almacenados y a
los que se ha dado un mantenimiento.
Incapacidad para descubrir la información
inmersa en los datos. ¿cómo?
Técnicas Estadísticas
![Page 8: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/8.jpg)
Motivación
Los grandes volúmenes de datos han rebasado
la capacidad de analizarlos usando las técnicas
tradicionales de análisis de la información.
Extraer el conocimiento para tomar buenas
decisiones (e.g., tratamiento médico, promoción y
prevención) y aprovechar las oportunidades
![Page 9: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/9.jpg)
Descubrimiento del conocimiento en
Bases de Datos (KDD)
KDD es el proceso de preparación de los datos,
extracción de patrones, y validación de los
modelos o predicción; mientras que Minería de
Datos e refiere únicamente a la extracción de
patrones.
DatosDatos
Elegidos
Datos
TransformadosPatrones Conocimiento
Interpretación
Minería de DatosSelección
de los Datos
Pre-procesamiento
Transformación
![Page 10: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/10.jpg)
Minería de Datos
La minería de datos es el proceso de extraer
información válida, novedosa, comprensible y
potencialmente útil.
El aprendizaje automático ofrece las técnicas
para la Minería de datos.
DatosMinería de
DatosDecisión
Información
Conocimiento
fácilmente útil
Integración
de los Datos
![Page 11: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/11.jpg)
Minería de Datos
Es el proceso de extraer información válida,
novedosa, comprensible y potencialmente útil.
Información (Niveles)
Datos: Datos en bruto
Información: Manipulación de variables
Conocimiento: Atribución a causas
Sabiduria: Saber sopesar el conocimiento
![Page 12: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/12.jpg)
Minería de Datos
Validez : Nivel de certidumbre de la
información.
Al ser menos formal puede haber más mentiras.
“Cuando se compran pañales se compran bebidas
alcohólicas en el 50% de los casos”
![Page 13: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/13.jpg)
Minería de Datos
Novedosa : La información obtenida era
desconocida
Evaluada por el ser humano
Verdades universales
“Si el genero del sujeto es femenino,
entonces puede ser que consulte al
ginecólogo” ó
“Si el genero del sujeto es masculino,
entonces no consulta al ginecólogo”
![Page 14: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/14.jpg)
Minería de Datos
Comprensible : La información obtenida debe ser
legible al usuario.
“Los atributos: genero y tipo de doctor tienen una
correlación de .....”
“Si el genero del sujeto es masculino, entonces no
consulta al ginecólogo”
Útil : Ayuda a tomar una decisión ó a predecir
un comportamiento
![Page 15: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/15.jpg)
Minería de Datos
Caso 1: Salud Pública
Información:
Válida:
Novedosa:
Comprensible:
Útil:
![Page 16: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/16.jpg)
Minería de Datos
Es la búsqueda de relaciones y patrones globales
escondidos en los datos que existen en BD
grandes.
La relación entre los datos del paciente y su
diagnóstico medico.
Estas relaciones representan conocimiento
valioso acerca de la base de datos y los objetos
en ella, así como de si la BD es un espejo fiel, del
mundo registrado por ella.
![Page 17: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/17.jpg)
Multidisciplinario Bases de Datos
Inteligencia Artificial
Algoritmos
Computación del alto rendimiento
Estadística
Visualización
Aprendizaje automático
Minería de Datos
Reconocimiento de Patrones
Adquisición y Representación del Conocimiento
![Page 18: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/18.jpg)
Aplicaciones
Comercio
Salud
Astronomía
Sistemas de Información Geográfica
Detección de Fraudes
Servicios Bancarios
Internet
![Page 19: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/19.jpg)
Ética Uso de los datos
Responsabilidad
Aplicado a Gente (Blanca – Negra) Discriminación
Sexual
Racial (áreas)
Religiosa
Información Personal ¿cómo será usada? ¿Para qué? ¿Protección? ¿vender, compartir?
![Page 20: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/20.jpg)
Deducción vs. Inducción
Una BD es un almacén de información
confiable. Su propósito es recuperar
eficientemente la información almacenada en, o
inferida de la BD.
Desde una perspectiva lógica, dos técnicas de
inferencia pueden distinguirse:
Deducción
Inducción
![Page 21: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/21.jpg)
Deducción vs. Inducción La diferencia radica en que la deducción es el
resultado de enunciados correctos acerca del mundo real (si la BD es correcta), mientras que la inducción es el resultado de los enunciados soportados en la BD (pueden no ser verdaderos en el mundo real).
Inducción: Selección de las regularidades y reglas más plausibles, soportadas por la BD.
La minería de Datos es una forma de aprendizaje inductivo
![Page 22: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/22.jpg)
Minería de Datos
Los patrones están representados en términos de
una estructura que puede ser examinada,
razonada y usada para tomar decisiones futuras.
La minería de datos trata de encontrar y describir
patrones estructurales en los datos con el fin
de ayudarnos a explicarlos y hacer predicciones.
![Page 23: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/23.jpg)
Minería de Datos
Toma de decisiones
Representación
Clasificación
Agrupamiento
Visualización
![Page 24: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/24.jpg)
Minería de Datos
Entrada: Conceptos, instancias y atributos
Proceso: Técnica de aprendizaje (Minería)
Salida: Representación del conocimiento
Aprendizaje
(patrones)
SalidaEntrada
![Page 25: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/25.jpg)
Minería de Datos
El concepto: lo que hay que aprender
Los datos dados al aprendiz toma la forma de un
conjunto de instancias.
Cada instancia se caracteriza por un conjunto
de atributos (características) que miden
aspectos diferentes de la instancia (numéricos,
nominales y categóricos ordinales)
![Page 26: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/26.jpg)
Ambiente Temperatura Humedad Viento Golf
lluvioso templado normal No Jugar
lluvioso templado alta No Jugar
lluvioso templado alta Si No Jugar
lluvioso frio normal No Jugar
lluvioso frio normal Si No Jugar
nublado templado alta Si Jugar
nublado frio normal Si Jugar
nublado calor normal No Jugar
nublado templado alta No Jugar
soleado templado normal Si Jugar
soleado templado alta No No Jugar
soleado frio normal No Jugar
soleado calor alta Si No Jugar
soleado calor alta No No Jugar
Atributos Concepto
I
n
s
t
a
n
c
i
a
s
![Page 27: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/27.jpg)
Salida
Descripción del concepto: lo que hay que
aprender (inteligible y operacional)
La salida incluye una descripción de la
estructura, como representación explícita del
conocimiento adquirido y que puede usarse
para clasificar ejemplos nuevos.
![Page 28: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/28.jpg)
Proceso: Estilos de
Aprendizaje
Clasificación
Asociación
Agrupamiento
Predicción Numérica
![Page 29: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/29.jpg)
Aprendizaje Automático
Un sistema de este tipo utiliza observaciones
codificadas, frecuentemente almacenadas en
un conjunto llamado de entrenamiento.
En el aprendizaje supervisado, el sistema
busca descripciones para las clases definidas
por el usuario y en el no supervisado
construye un sumario del conjunto de
entrenamiento, como un conjunto de clases
descubiertas y sus descripciones.
![Page 30: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/30.jpg)
Minería de Datos
Supervisado (Dirigida): La meta principal es
predecir, estimar, clasificar ó caracterizar el
comportamiento de algún atributo, previamente
identificado, en términos de un conjunto de
variables de entrada.
No Supervisado (No dirigida): La meta es
descubrir una estructura en el conjunto de datos
![Page 31: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/31.jpg)
Clasificación
![Page 32: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/32.jpg)
Clasificación
Minería de datos dirigida: su objetivo es
clasificar ó caracterizar el comportamiento de un
atributo particular, en términos del resto.
Árboles
Reglas
![Page 33: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/33.jpg)
Árboles de Decisión
Ambiente
Soleado Nublado Lluvia
Humedad VientoClase Jugar
Alta Normal Si No
Clase Jugar Clase JugarClase No JugarClase No Jugar
Tecnologías:
ID3,C4.5,C5,
Indice GINI
![Page 34: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/34.jpg)
Árboles de Decisión Utiliza la técnica de Divide y Conquista
Procedimiento inductivo
La salida es un árbol de decisión
Desarrollada y refinada por Ross Quinlan en la Universidad de Sydney(Australia)
Conocido como ID3
![Page 35: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/35.jpg)
Árboles de Decisión
Clasifica patrones con atributos no numéricos
Mejorado con el uso del radio de ganancia
Variaciones
C4.5,
C5
![Page 36: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/36.jpg)
Árboles de Decisión Puede expresarse recursivamente
Seleccionar un atributo
Colocar una rama para cada valor del atributo
Dividir las instancias en subconjuntos uno por cadavalor
Repetir el proceso para cada rama utilizando el sub-conjunto apropiado
Si las instancias de una rama son de la misma clase, el proceso termina para esa rama.
![Page 37: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/37.jpg)
Ejemplo
Estatura Cabello Ojos Clase
Alto Negro Azul A
Bajo Negro Azul A
Alto Rubio Azul O
Alto Rojo Azul O
Alto Rubio Café A
Bajo Rubio Azul O
Bajo Rubio Café A
Alto negro Café A
![Page 38: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/38.jpg)
Por Atributo
Ojos Clase
Azul A
Azul A
Azul O
Azul O
Azul O
Café A
Café A
Café A
Estatura Clase
Alto A
Alto O
Alto O
Alto A
Alto A
Bajo A
Bajo O
Bajo A
Cabello Clase
Negro A
Negro A
Negro A
Rojo O
Rubio O
Rubio A
Rubio O
Rubio A
![Page 39: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/39.jpg)
¿Cuál es el mejor atributo?
Intuitivamente, cualquier hoja con instancias de
solo una clase no tendrá que dividirse después.
Se desea que quede un árbol pequeño.
Medida de la pureza de cada nodo.
Escoger el atributo que produzca los nodos hijos
mas puros.
![Page 40: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/40.jpg)
Medida de Pureza
Información.
Se mide en fracciones de bit, y frecuentemente
es menor a 1.
Se asocia a cada nodo y se calcula con base al
número de instancias de cada clase en él.
Representa la cantidad de información esperada
que sería necesaria para especificar la clase de
una instancia dada.
![Page 41: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/41.jpg)
Información
Propiedades esperadas
Cuando queda una sola clase, la información debe
ser cero
Cuando el número de instancias de cada clase es
igual, la información alcanza su máximo valor
La función que satisface estas propiedades es
conocida como entropía
![Page 42: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/42.jpg)
Entropía
Información del Sistema
Información del atributo
Información de cada rama
Ganancia del atributo
Se busca el atributo que provee la mayor
ganancia en información.
)(log),...,,(2
121 ni
n
in
pppppEntropia
![Page 43: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/43.jpg)
Información del Sistema
La entropía del sistema es
bit954.0)8
3(*log*)
8
3()
8
5(*log*)
8
5( 22
![Page 44: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/44.jpg)
Ejemplo
Ganancia de información al probar la
caracteristicas de Cabello
negro rojo
rubio
cabello
Estatura Cabello Ojos Clase
Alto Negro Azul A
Bajo Negro Azul A
Alto Negro Café A
Estatura Cabello Ojos Clase
Alto Rojo Azul O
Estatura Cabello Ojos Clase
Alto Rubio Azul O
Alto Rubio Café A
Bajo Rubio Azul O
Bajo Rubio Café A
![Page 45: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/45.jpg)
Entropía sistema: 0.954 bit
• Entropía de la rama negro: 0
• Entropía de la rama rojo: 0
• Entropía de la rama rubio:
Entropía de cabello respecto al sistema:
bit1)2
1(*log*)
2
1()
2
1(*log*)
2
1( 22
bit5.0)1(*)8
4()0(*)
8
1()0(*)
8
3(
![Page 46: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/46.jpg)
Ejemplo
Ganancia de información al evaluar cabello:
Entropía (I) - Entropía (I, cabello)
= 0.954 - 0.5 = 0.454 bit
![Page 47: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/47.jpg)
Ejemplo
Ganancia al evaluar los ojos
azulcafe
ojos
Estatura Cabello Ojos Clase
Alto Rubio Café A
Bajo Rubio Café A
Alto negro Café A
Estatura Cabello Ojos Clase
Alto Negro Azul A
Bajo Negro Azul A
Alto Rubio Azul O
Alto Rojo Azul O
Bajo Rubio Azul O
![Page 48: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/48.jpg)
Entropía sistema: 0.954 bit
Entropía de la rama café: 0
Entropía de la rama azul:
Entropía de ojos respecto al sistema:
bit971.0)5
3(*log*)
5
3()
5
2(*log*)
5
2( 22
bit607.0)0(*)8
3()971.0(*)
8
5(
![Page 49: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/49.jpg)
Ejemplo
Ganancia de información al evaluar ojos:
Entropía (I) - Entropía (I, ojos)
= 0.954 – 0.607 = 0.347 bit
![Page 50: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/50.jpg)
negrorojo
rubio
cabello
Estatura Cabello Ojos Clase
Alto Negro Azul A
Bajo Negro Azul A
Alto Negro Café A
Estatura Cabello Ojos Clase
Alto Rojo Azul O
azul cafeojos
Estatura Cabello Ojos Clase
Alto Rubio Café A
Bajo Rubio Café A
Alto negro Café A
Estatura Cabello Ojos Clase
Alto Negro Azul A
Bajo Negro Azul A
Alto Rubio Azul O
Alto Rojo Azul O
Bajo Rubio Azul O
![Page 51: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/51.jpg)
Ambiente Temperatura Humedad Viento Golf
lluvioso templado normal No Jugar
lluvioso templado alta No Jugar
lluvioso frio normal No Jugar
nublado templado alta Si Jugar
nublado frio normal Si Jugar
nublado calor normal No Jugar
nublado calor alta No Jugar
soleado templado normal Si Jugar
soleado frio normal No Jugar
lluvioso templado alta Si No Jugar
lluvioso frio normal Si No Jugar
soleado templado alta No No Jugar
soleado calor alta Si No Jugar
soleado calor alta No No Jugar
![Page 52: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/52.jpg)
Ambiente Temperatura
Jugar
Jugar
No
Jugar
No
Jugar
No
Jugar
Jugar
Jugar
Jugar
Jugar
Jugar
Jugar
Jugar
No
Jugar
No
Jugar
Jugar
Jugar
No
Jugar
No
Jugar
Jugar
Jugar
Jugar
No
Jugar
soleado
nubladolluvioso caliente frio
Jugar
Jugar
Jugar
Jugar
No
Jugar
No
Jugar
templado
![Page 53: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/53.jpg)
Humedad Viento
Jugar
Jugar
Jugar
No
Jugar
No
Jugar
No
Jugar
No
Jugar
No
Jugar
Jugar
Jugar
Jugar
Jugar
Jugar
Jugar
No
Jugar
Jugar
Jugar
Jugar
Jugar
Jugar
Jugar
No
Jugar
No
Jugar
Jugar
Jugar
Jugar
No
Jugar
No
Jugar
No
Jugar
altanormal nosi
![Page 54: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/54.jpg)
Información del Sistemas
No se considera ningun atributo
940.0
5305.04097.0
)14
5(log*)
14
5()
14
9(log*)
14
9(])5,9([ 22
IS
![Page 55: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/55.jpg)
Información
De cada rama ISoleado ([2,3])=0.5287+0.4421 0.971
INublado ([4,0])=0
ILluvioso ([3,2]) = 0.4421 + 0.5287 0.971
Del atributo IAmbiente =
693.0
971.0*14
50*)
14
4(971.0*)
14
5(
![Page 56: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/56.jpg)
Ganancia GAmbiente = IS – IAmbiente
= 0.940 – 0.693 = 0.247
GTemperatura = IS – ITemperatura =0.940 – 0.911 = 0.029
GHumeda = IS – IHumedad =0.940 – 0.788 = 0.152
GViento = IS – IViento =0.940 – 0.892 = 0.048
![Page 57: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/57.jpg)
Ambiente
soleado
……
Temperatura
No
Jugar
No
Jugar
Jugar
caliente
frio
Jugar
No
Jugar
templado
Ambiente
soleado
……
Humedad
No
Jugar
No
Jugar
No
Jugar
Jugar
Jugar
alta normal
Ambiente
soleado
……
Viento
Jugar
Jugar
No
Jugar
No
Jugar
Jugar
No
Jugar
alta no
![Page 58: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/58.jpg)
Ambiente – Soleado
ISAmbiente = 0.971
ITemperatura = 0.4
GTemperatura = 0.571
IHumedad = 0
GHumedad = 0.971
IViento = 0.95098
Gviento = 0.020
![Page 59: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/59.jpg)
Ambiente – Lluvioso
ISAmbiente = 0.971
ITemperatura = 0.95098
GTemperatura = 0.20
IHumedad = 0.95098
GHumedad = 0.20
IViento = 0
Gviento = 0.971
![Page 60: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/60.jpg)
Ambiente
Soleado
Humedad
Jugar
normal
No
Jugar
alta
Viento
LluviosoNublado
Jugar
No
Jugar
Si
Jugar
No
![Page 61: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/61.jpg)
Arboles de Decisióna < b
b < c a < c
a < c b < cOrder is
a < b < c
Order is
b < a < c
Order is
a < c < b
Order is
c < a < b
Order is
b < c < a
Order is
c < b < a
Si (a<b)^(b<c) a < b < c
• Si (a<b)^(b>c)^(a<c) a < c < b
...
• Si (a>b)^(a>c)^(b>c) c < b < a
![Page 62: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/62.jpg)
Atributos
Numéricos
Binario
Seleccionar un punto
Calcular la información de la misma forma
Preprocesamiento: Ordenar
¿Reordenar?
![Page 63: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/63.jpg)
Atributos
Faltantes
¿es relevante?
Ignorar instancias
un nuevo valor del atributo
Dividir y enviar a cada rama en proporción al
número de instancias que van a cada rama
considerando el conjunto de entrenamiento.
![Page 64: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/64.jpg)
Applet de Prueba
Para hacer algunos experimentos y comprobar
resultados, pueden acudir a la siguiente
dirección:
http://webdocs.cs.ualberta.ca/~aixplore/learning/
DecisionTrees/Applet/DecisionTreeApplet.html
![Page 65: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/65.jpg)
Reglas de Clasificación
![Page 66: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/66.jpg)
Reglas de Clasificación : Antecedente → Consecuente
Antecedente: precondiciones, son la serie de
pruebas que se realizan sobre los atributos.
Conjuntivas ("cumplen para que la regla tenga
éxito”)
Pueden ser expresiones lógicas.
Consecuente: conclusión, da la clase o clases
que aplican a las instancias cubiertas por la
regla
Las reglas son disyuntivas
Posibles conflictos
Tecnologías:
1-Rule
PRISM
![Page 67: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/67.jpg)
Modelo Estadístico
Todos los atributos contribuyen
Los atributos se consideran:
Iguales en importancia
Independientes
Se toma en cuenta la frecuencia del par atributo-
valor por clase
No realista, ¡pero funciona!
![Page 68: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/68.jpg)
Modelo Estadistico
Está basado en la regla de probabilidad
condicional de Bayes
Si se tiene una hipótesis H, y una evidencia E
entonces:
P[H|E] = P[E|H] P[H]/ P[E]
H : Play=Yes
E : Combinación de valores del nuevo día
![Page 69: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/69.jpg)
Naïve Bayes
Los números encontrados se convierten en
probabilidades normalizandolos de forma que
sumen 1
][
]|[]|[]|[]|[]|[ 4321
EP
HEPHEPHEPHEPEHP
]|[...]|[
][]|[...]|[]|[
1
1
1
m
n
HEPHEP
HPHEPHEPEHP
![Page 70: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/70.jpg)
Ejemplo
Ambiente Golf Temperatura Golf Humedad Golf Viento Golflluvioso Jugar calor Jugar alta Jugar No Jugarlluvioso Jugar calor Jugar alta Jugar No Jugarlluvioso Jugar calor No Jugar alta Jugar No Jugarlluvioso No Jugar calor No Jugar alta No Jugar No Jugarlluvioso No Jugar frio Jugar alta No Jugar No Jugarnublado Jugar frio Jugar alta No Jugar No Jugarnublado Jugar frio Jugar alta No Jugar No No Jugarnublado Jugar frio No Jugar normal Jugar No No Jugarnublado Jugar templado Jugar normal Jugar Si Jugarsoleado Jugar templado Jugar normal Jugar Si Jugarsoleado Jugar templado Jugar normal Jugar Si Jugarsoleado No Jugar templado Jugar normal Jugar Si No Jugarsoleado No Jugar templado No Jugar normal Jugar Si No Jugarsoleado No Jugar templado No Jugar normal No Jugar Si No Jugar
![Page 71: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/71.jpg)
Frecuencias
Probabilidades Observadas
Probabilidad a Priori
Ambiente Temperatura Humedad VientoJugar No Jugar Jugar No Jugar Jugar No Jugar Jugar No Jugar
Soleado Caliente Alta SiNublado Templado Normal NoLluvia Frio
GolfJugar No Jugar
![Page 72: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/72.jpg)
Ejemplo
Ambiente Temperatura Humedad VientoJugar No Jugar Jugar No Jugar Jugar No Jugar Jugar No Jugar
Soleado 2 3 Caliente 2 2 Alta 3 4 Si 3 3Nublado 4 0 Templado 4 2 Normal 6 1 No 6 2Lluvia 3 2 Frio 3 1
Ambiente Temperatura Humedad VientoJugar No Jugar Jugar No Jugar Jugar No Jugar Jugar No Jugar
Soleado 2/9 3/5 Caliente 2/9 2/5 Alta 3/9 4/5 Si 3/9 3/5Nublado 4/9 0/5 Templado 4/9 2/5 Normal 6/9 1/5 No 6/9 2/5Lluvia 3/9 2/5 Frio 3/9 1/5
Golf GolfJugar No Jugar Jugar No Jugar9 5 9/14 5/14
![Page 73: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/73.jpg)
Ejemplo
Nuevo día
Ambiente Temperatura Humedad Viento Golf
Soleado Frio Alta Si ?
Posibilidad de Jugar = 2/9*3/9*3/9*3/9*9/14 = 0.0053
Posibilidad de No Jugar = 3/5*1/5*4/5*3/5*5/14 = 0.0206
Probabilidad de Jugar = 0.0053/(0.0053+0.0206) = 20.5%
Probabilidad de No Jugar = 0.0206/(0.0053+0.0206) = 79.5%
![Page 74: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/74.jpg)
Ejercicio Lentes de ContactoLentes de Contacto
Edad Problema Astigmatismo Prod. Lágrimas Lentes
Joven Miopía No Reducida Ninguno
Joven Miopía No Normal Blandos
Joven Miopía Si Reducida Ninguno
Joven Miopía Si Normal Duros
Joven Hipermetropía No Reducida Ninguno
Joven Hipermetropía No Normal Blandos
Joven Hipermetropía Si Reducida Ninguno
Joven Hipermetropía Si Normal Duros
Adulto Miopía No Reducida Ninguno
Adulto Miopía No Normal Blandos
Adulto Miopía Si Reducida Ninguno
Adulto Miopía Si Normal Duros
Adulto Hipermetropía No Reducida Ninguno
Adulto Hipermetropía No Normal Blandos
Adulto Hipermetropía Si Reducida Ninguno
Adulto Hipermetropía Si Normal Ninguno
Anciano Miopía No Reducida Ninguno
Anciano Miopía No Normal Ninguno
Anciano Miopía Si Reducida Ninguno
Anciano Miopía Si Normal Duros
Anciano Hipermetropía No Reducida Ninguno
Anciano Hipermetropía No Normal Blandos
Anciano Hipermetropía Si Reducida Ninguno
Anciano Hipermetropía Si Normal Ninguno
![Page 75: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/75.jpg)
Edad B N D Problema B N D Astigmatismo B N D Lagrimeo B N D
Adulto 2 5 0Hipermetropia 2 7 1Si 4 6 0Normal 4 3 3
Anciano 0 6 1Miopia 2 7 2No 0 8 3Reducido 0 11 0
Joven 2 3 2
Edad B N D Problema B N D Astigmatismo B N D Lagrimeo B N D
Adulto 2/4 5/14 0/3Hipermetropia 2/4 7/14 1/3Si 4/4 6/14 0Normal 4/4 3/14 3/3
Anciano 0/4 6/14 1/3Miopia 2/4 7/14 2/3No 0/4 8/14 3/3Reducido 0/4 11/14 0/3
Joven
Lentes
B N D
4 14 3
4/21 14/21 3/21
Edad Problema Astigmatismo Lagrimeo Lentes
Joven Hipermetropia No Reducida ?
Adulto Miopia Si Normal ?
Anciano Hipermetropia No Normal ?
![Page 76: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/76.jpg)
Soluciones
Ej1)
Pos B = (2/4)*(2/4)*(4/4)*(0)*(4/21) = 0
Pos D = (2/3)*(1/3)*(0)*(0)*(3/21) = 0
Pos N = (3/14)*(7/14)*(6/14)*(11/14)*(14/21)=0.024 Pr=100%
Ej2)
Pos B = (2/4)*(2/4)*(0)*(1)*(4/21) = 0
Pos D = (0)*(1/3)*(3/4)*(1)*(3/21) = 0
Pos N = (5/14)*(7/14)*(8/14)*(3/14)*(14/21)=0.00145
Pr=100%
Ej3)
Pos B = (0/14)*… = 0
Pos D = (1/3)*(1/3)*(0)*… = 0
Pos N = (6/14)*(7/14)*(6/14)*(3/14)*(14/21)=0.00131
Pr=100%
![Page 77: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/77.jpg)
Problemas
Valores de un atributo que no se presentan.
La probabilidad de la clase dado que el atributo
tiene el valor ausente sería cero causando que
todo el término sea cero.
La corrección es agregar uno a cada valor y
compensar. (Estimador de Laplace MF. P) 2/9,
3/9, 4/9 cambian por 3/12, 4/12, 5/12
![Page 78: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/78.jpg)
Problemas
Valores Faltantes
Nueva instancia: se omite
Conj. Entrenamiento: no cuenta
Atributos numéricos
Se supone que tienen una distribución de
probabilidad “Normal” o “Gaussiana”
Se calcula la media x y la desviación estándar
![Page 79: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/79.jpg)
Atributos Numéricos
n
x
x
n
ii
1
1
][1
2
n
xxn
ii
2
2
2
)(
2
1)(
x
exf
![Page 80: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/80.jpg)
Ejemplo
Ambiente Temperatura Humedad Viento Golfnublado 64 65Si Jugarlluvioso 65 70Si No Jugarlluvioso 68 80No Jugarsoleado 69 70No Jugarlluvioso 70 96No Jugarlluvioso 71 91Si No Jugarsoleado 72 95No No Jugarnublado 72 90Si Jugarlluvioso 75 80No Jugarsoleado 75 70Si Jugarsoleado 80 90Si No Jugarnublado 81 75No Jugarnublado 83 86No Jugarsoleado 85 85No No Jugar
![Page 81: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/81.jpg)
Ambiente Temperatura Humedad Viento Golf
JugarNo
Jugar Jugar No Jugar Jugar No Jugar Jugar No Jugar Jugar No Jugar
Soleado 2 3 85 85 86 85 No 6 2 9 5
Templado 4 0 70 80 96 90 Si 3 3
Lluvia 3 2 68 65 80 70
64 72 65 95
69 71 70 91
75 80
75 70
72 90
81 75
Soleado 2/9 3/5Media 73 74,6Media 79,1 86,2 No 6/9 2/5 9/14 5/14
Templado 4/9 0/5DesEst 6,2 7,9DesEst 10,2 9,7 Si 3/9 3/5
Lluvia 3/9 2/5
Ambiente Temperatura Humedad Viento
Golf
Soleado 66 90 Si
? 0340.02.6*2
1)|66(
2
2
)2.6(2
)7366(
eJugarTf
![Page 82: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/82.jpg)
Ejemplo
Posibilidad Jugar:
(2/9)*0.034*0.0221*(3/9)*(9/14) =0.000036
Pos No Jugar
(3/5)*0.0279*0.038*(3/5)*(5/14) =0.000136
Probabilidad Jugar:
0.000036/(0.000036+0.000136)=20.9%
Probabilidad No Jugar:
0.000136/(0.000036+0.000136)=79.1%
![Page 83: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/83.jpg)
Inferencia de Reglas
Algoritmo de cobertura.
Considerar cada clase buscando la forma de
cubrir todas las instancias en la clase, y al mismo
tiempo excluir a las instancias que no pertenecen
a la clase.
Es llamado de cobertura porque en cada etapa
se identifica una regla que “cubre” la mayoría de
las instancias.
![Page 84: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/84.jpg)
Método PRISM
Para cada clase se busca construir las reglas
(agregando términos), que cubran todas las
instancias de esa clase.
Al agregar un termino, suponga que la nueva
regla cubre un total de t instancias, de las cuales
p son ejemplos de la clase y t-p están en otras
clases (errores de la regla).
• Escoger el término que maximiza p/t
![Page 85: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/85.jpg)
x
y
b
bb
bbb
b
b
b
b
baaaaa
b
bb
b
b
bb
b
b
b
baaaaa
1.2
y 2.6
b
bb
b
b
bb
b
bbb
aa
aa
a
1.2
x>1.2
y>2.6b
No Si
No Si
ab
Espacio de
las Instancias
Regla hasta
el momento
Regla después
de añadir un
nuevo término
![Page 86: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/86.jpg)
Método PRISM Para cada clase C
Inicializar E con el conjunto de instancias Mientras E contenga instancias de la clase C
Crear la regla R: ? C
Hasta que R sea perfecta (o más atributos) haz:
Para cada atributo A no mencionado en R, y valor v
![Page 87: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/87.jpg)
Método PRISM
Considerar agregar A=v en el lado Izquierdo de
R
Seleccionar A y v que maximicen la precisión
p/t (si existen iguales escoger el de mayor p)
Agregar A=v a R
Eliminar las instancias cubiertas por R de E
![Page 88: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/88.jpg)
Lentes de ContactoEdad Problema Astigmatismo Prod. Lágrimas Lentes
Joven Miopía No Reducida Ninguno
Joven Miopía No Normal Blandos
Joven Miopía Si Reducida Ninguno
Joven Miopía Si Normal Duros
Joven Hipermetropía No Reducida Ninguno
Joven Hipermetropía No Normal Blandos
Joven Hipermetropía Si Reducida Ninguno
Joven Hipermetropía Si Normal Duros
Adulto Miopía No Reducida Ninguno
Adulto Miopía No Normal Blandos
Adulto Miopía Si Reducida Ninguno
Adulto Miopía Si Normal Duros
Adulto Hipermetropía No Reducida Ninguno
Adulto Hipermetropía No Normal Blandos
Adulto Hipermetropía Si Reducida Ninguno
Adulto Hipermetropía Si Normal Ninguno
Anciano Miopía No Reducida Ninguno
Anciano Miopía No Normal Ninguno
Anciano Miopía Si Reducida Ninguno
Anciano Miopía Si Normal Duros
Anciano Hipermetropía No Reducida Ninguno
Anciano Hipermetropía No Normal Blandos
Anciano Hipermetropía Si Reducida Ninguno
Anciano Hipermetropía Si Normal Ninguno
![Page 89: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/89.jpg)
Ejemplo: Lentes Si ? Duros
Edad Joven 2/8 0.25
Adulto 1/8 0.125
Anciano 1/8 0.125
Problema Miopía 3/12 0.25
Hipermetropía 1/12 0.083
Astigmatismo Si 4/12 0.333
No 0/12 0
Producción de Lágrimas Reducida 0/12 0
Normal 4/12 0.333
Si (Astigmatismo = Si) Duros
![Page 90: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/90.jpg)
Si (Astigmatismo = Si) ? Duros
Edad
Joven 2/4 0.5
Adulto 1/4 0.25
Anciano 1/4 0.25
Problema
Miopía 3/6 0.5
Hipermetropía 1/6 0.166
Producción de Lágrimas
Reducida 0/6 0
Normal 4/6 0.666
Si (Astigmatismo = Si) (Producción de Lágrimas=Normal) Duros
Lentes de ContactoEdad Problema Astigmatismo Prod. Lágrimas Lentes
Joven Miopía Si Reducida Ninguno
Joven Miopía Si Normal Duros
Joven Hipermetropía Si Reducida Ninguno
Joven Hipermetropía Si Normal Duros
Adulto Miopía Si Reducida Ninguno
Adulto Miopía Si Normal Duros
Adulto Hipermetropía Si Reducida Ninguno
Adulto Hipermetropía Si Normal Ninguno
Anciano Miopía Si Reducida Ninguno
Anciano Miopía Si Normal Duros
Anciano Hipermetropía Si Reducida Ninguno
Anciano Hipermetropía Si Normal Ninguno
![Page 91: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/91.jpg)
Si (Astigmatismo = Si Producción de Lágrimas=Normal) ? Duros Edad
Joven 2/2 1
Adulto 1/2 0.5
Anciano 1/2 0.5
Problema Miopía 3/3 1
Hipermetropía 1/3 0.333
Si (Astigmatismo = Si Producción de Lágrimas=Normal Problema=Miopía) Duros
Lentes de ContactoEdad Problema Astigmatismo Prod. Lágrimas Lentes
Joven Miopía Si Normal Duros
Joven Hipermetropía Si Normal Duros
Adulto Miopía Si Normal Duros
Adulto Hipermetropía Si Normal Ninguno
Anciano Miopía Si Normal Duros
Anciano Hipermetropía Si Normal Ninguno
![Page 92: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/92.jpg)
Reglas para Lentes = Duros
Si (Astigmatismo = Si Producción de
Lágrimas=Normal Problema=Miopía) Duros
Si (Edad = Joven Astigmatismo = Si
Producción de Lágrimas = Normal) Duros
![Page 93: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/93.jpg)
Reglas de Asociación
![Page 94: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/94.jpg)
Reglas de Asociación
Similares a las reglas de clasificación
Pueden predecir cualquier atributo, no solo la
clase, o predecir combinaciones de atributos.
Las diferentes reglas de asociación expresan
diferentes regularidades que yacen en el
conjunto de datos y generalmente predicen cosa
diferentes.
![Page 95: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/95.jpg)
Reglas de Asociación
Se centra el interés en las reglas que aplican a
un número grande de instancias y que tiene una
precisión alta en las instancias en las que aplica.
La cobertura de una regla de asociación es el
número de instancias para las cuales ella predice
correctamente (soporte).
La precisión (confianza) es el número de
instancias que predice correctamente, expresado
como una proporción de todas las instancias a
las que se aplica
![Page 96: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/96.jpg)
Reglas de Asociación Son similares a las reglas de clasificación.
Cualquier expresión puede ocurrir del lado derecho
de la regla.
Puede utilizarse el mismo procedimiento de inducción
de reglas para cada posible combinación de atributos.
Pares de atributo - valor que tengan una cobertura
mínima (item)
Combinaciones de items (itemset)
![Page 97: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/97.jpg)
Reglas de Asociación
Los 1-itemset se obtienen con la frecuencia de
cada item.
Los candidatos de los n-itemset se obtienen del
(n-1)-itemset.
Los candidatos de los 2-itemset se obtienen del
1-itemset: Se buscan pares de valores de
atributos diferentes.
!)!(
!
rrn
n
r
n
![Page 98: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/98.jpg)
Los candidatos de los 2-itemset se obtienen del
1-itemset: Se buscan pares de valores de
atributos diferentes.
Valores: Atr 1: A, B, C Valores Atri 2: D, E
Quedan: (A,D), (A, E), (B, D), (B, E), (C,D),(C,E)
Se elimina: (A, B), (A, C), (B,C), (D, E) ya que son
valores del mismo atributo.
102*6
120
!2)!25(
!5
!)!(
!
rrn
n
r
n
![Page 99: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/99.jpg)
Ambiente Temperatura Humedad Viento Golf
lluvioso templado normal No Jugar
lluvioso templado alta No Jugar
lluvioso frio normal No Jugar
nublado templado alta Si Jugar
nublado frio normal Si Jugar
nublado calor normal No Jugar
nublado calor alta No Jugar
soleado templado normal Si Jugar
soleado frio normal No Jugar
lluvioso templado alta Si No Jugar
lluvioso frio normal Si No Jugar
soleado templado alta No No Jugar
soleado calor alta Si No Jugar
soleado calor alta No No Jugar
![Page 100: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/100.jpg)
1-ITEM-SORT 2-ITEMNublado(4) Nublado(4) Calor(4) 1Lluvioso(5) Nublado(4) Frio(4) 1Soleado(5) Nublado(4) Templado(6) 2Calor(4) Nublado(4) Alta(7) 2Frio(4) Nublado(4) Normal(7) 2Templado(6) Nublado(4) No(6) 2Alta(7) Nublado(4) Si(8) 2Normal(7) Nublado(4) No Jugar(5) 0No(6) Nublado(4) Jugar(9) 4Si(8) Lluvioso(5) Calor(4) 0No Jugar(5) Lluvioso(5) Frio(4) 2Jugar(9) Lluvioso(5) Templado(6) 3
Lluvioso(5) Alta(7) 2Lluvioso(5) Normal(7) 3Lluvioso(5) No(6) 3Lluvioso(5) Si(8) 2Lluvioso(5) No Jugar(5) 2Lluvioso(5) Jugar(9) 3
![Page 101: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/101.jpg)
1-ITEM-SORT Soleado(5) Calor(4) 2Nublado(4) Soleado(5) Frio(4) 1Lluvioso(5) Soleado(5) Templado(6) 2Soleado(5) Soleado(5) Alta(7) 3Calor(4) Soleado(5) Normal(7) 2Frio(4) Soleado(5) No(6) 3Templado(6) Soleado(5) Si(8) 2Alta(7) Soleado(5) No Jugar(5) 3Normal(7) Soleado(5) Jugar(9) 2No(6) Calor(4) Alta(7) 3Si(8) Calor(4) Normal(7) 1No Jugar(5) Calor(4) No(6) 3Jugar(9) Calor(4) Si(8) 1
Calor(4) No Jugar(5) 2Calor(4) Jugar(9) 2Frio(4) Alta(7) 0Frio(4) Normal(7) 4Frio(4) No(6) 2Frio(4) Si(8) 2Frio(4) No Jugar(5) 1Frio(4) Jugar(9) 3
![Page 102: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/102.jpg)
1-ITEM-SORT Templado(4) Alta(7) 4Nublado(4) Templado(4) Normal(7) 2Lluvioso(5) Templado(4) No(6) 3Soleado(5) Templado(4) Si(8) 3Calor(4) Templado(4) No Jugar(5) 2Frio(4) Templado(4) Jugar(9) 4Templado(6) Alta(7) No(6) 4Alta(7) Alta(7) Si(8) 3Normal(7) Alta(7) No Jugar(5) 4No(6) Alta(7) Jugar(9) 3Si(8) Normal(7) No(6) 4No Jugar(5) Normal(7) Si(8) 3Jugar(9) Normal(7) No Jugar(5) 1
Normal(7) Jugar(9) 6No(6) No Jugar(5) 2No(6) Jugar(9) 6Si(8) No Jugar(5) 3Si(8) Jugar(9) 3
![Page 103: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/103.jpg)
Reglas de Asociación
Candidatos de los n-itemset se obtienen del (n-
1)-itemset.
Los candidatos de los 3-itemset se obtienen del
2-itemset de la siguiente forma:
Deben coincidir en los (n-2) elementos del
itemset
2-ITEMSET: (A, B), (A, C), (B,C), (B, C)
Potenciales: (A, B, C), (B, C, D)
Quedan: (A, B, C)
Se elimina: (B, C, D) ya que (C, D) no existe
![Page 104: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/104.jpg)
2-ITEM 3-ITEMNublado Calor 2Nublado Calor Alta 1Nublado Alta 2Nublado Calor Normal 1Nublado Normal 2Nublado Calor Normal 2Nublado No 2Nublado Calor Si 0Nublado Si 2Nublado Calor Jugar 4Nublado Jugar 4Nublado Alta Normal 1Calor Alta 2Nublado Alta Si 1Calor No 3Nublado Alta Jugar 2Calor No Jugar 2Nublado Normal Normal 1Calor Jugar 3Nublado Normal Si 1Alta No 3Nublado Normal Jugar 2Alta Si 2Nublado No Jugar 3Alta No Jugar 2Nublado Si Jugar 2Alta Jugar 3Lluvioso Frio Alta 0Normal No Jugar 2Lluvioso Frio Normal 2Normal Jugar 2Lluvioso Frio No 1Normal No Jugar 3Lluvioso Frio Si 1
No No Jugar 2Lluvioso Frio No Jugar 1No Jugar 3Lluvioso Frio Jugar 1Si No Jugar 2Lluvioso Templado Alta 2Si Jugar 3Lluvioso Templado Normal 1
![Page 105: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/105.jpg)
4-ITEMSETNublado Calor No Jugar 2Lluvioso Templado No Jugar 2Lluvioso Normal No Jugar 2Soleado Calor Alta No Jugar 2Soleado Alta No No Jugar 2Frio Normal No Jugar 2
![Page 106: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/106.jpg)
Itemsets Generados
La cantidad de elementos por itemsets son:
1-itemsets 12
2-itemsets 47
3-itemsets 39
4-itemsets 7
![Page 107: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/107.jpg)
Reglas de asociación Las reglas se obtienen a partir de los itemsets
Humedad = normal, Viento = no, Golf = jugar
Esto nos lleva a las 7 reglas potenciales: If Humedad = normal Viento = no Golf = Jugar
4/4
If Humedad = normal Golf = jugar Viento = no 4/6
If Viento = no Golf = jugar Humedad = normal 4/7
If Humedad = normal Viento = no Golf = jugar4/6
If Viento = no Humedad = normal Golf = jugar4/8
If Golf = jugar Humedad = normal Viento = no
![Page 108: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/108.jpg)
Reglas de Asociación cov1humedad=normal viento=no golf=jugar 4
2temperatura=frio humedad=normal 4
3ambiente=nublado golf=jugar 4
4temperatura = frio golf = jugar humedad = normal 35ambiente=lluvioso viento =no golf=jugar 3
6ambiente=lluvioso golf=jugar viento=no 3
7ambiente=soleado humedad=alta golf=no jugar 3
8ambiente=soleado golf=no jugar humedad=alta 3
9temperatura=frio viento=no humedad=normal golf=jugar 210temperatura=frio viento=no humedad=normal golf=jugar 2
11temperatura=frio viento=no golf=jugar humedad=normal 2
12ambiente=lluvioso humedad=normal viento=no golf=jugar 2
13ambiente=lluvioso humedad=normal golf=jugar viento=no 214ambiente=lluvioso temperatura=templado viento=no golf=jugar 2
15ambiente=lluvioso temperatura=templado golf=jugar viento=no 2
16temperatura=templado viento=no golf=jugar ambiente=lluvioso 2
17ambiente=nublado temperatura=calor viento=no golf=jugar 218ambiente=nublado viento=no temperatura=calor golf=jugar 219temperatura=calor golf=jugar ambiente=nublado viento=no 2
20ambiente=nublado temperatura=calor viento=no golf=jugar 2
21ambiente=nublado temperatura=calor golf=jugar viento=no 2
22ambiente=nublado viento=no golf=jugar temperatura=calor 223temperatura=calor viento = no golf = jugar ambiente = nublado 2
…
58ambiente=soleado temperatura=calor humedad=alta 2
![Page 109: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/109.jpg)
4-Itemset
Elementos 3-ITEMSET (A,B,C), (A, B, D),
(A,C,D), (A,C,E), (B,C,D)
Potenciales ITESMSET-4 (A, B, C, D), (A, C, D,
E)
Queda (A, B, C, D)
Se elimina (A, C, D, E) porque (C, D, E) no existe
(no cumple la cobertura)
![Page 110: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/110.jpg)
Conjunto Final de Reglas
3 Reglas con cobertura 4
5 Reglas con cobertura 3
50 Reglas con cobertura 2
Total 58 Reglas
![Page 111: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/111.jpg)
Regla de los 3-Itemset
(A, B, C)
1. Si A, B C
2. Si B, C A
3. Si A, C B
4. Si A B, C
5. Si B A, C
6. Si C A, B
7. Si - A, B, C
![Page 112: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/112.jpg)
Agrupamiento (Clustering)
![Page 113: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/113.jpg)
Agrupamiento (Clustering)
Las técnicas de agrupamiento se aplican cuando
no hay propiamente una clase que predecir sino
cuando las instancias se dividen en grupos de
forma natural.
Es una técnica de minería de datos no dirigida.
El agrupamiento requiere de técnicas diferentes a
las de clasificación y asociación.
![Page 114: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/114.jpg)
Diagramas
En el agrupamiento, la salida es un diagrama que
muestra como las instancias forman grupos.
Se asocia un número de grupo a cada instancia
grupos disjuntos
grupos traslapados
probabilidad de pertenencia a un grupo
Jerarquía
![Page 115: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/115.jpg)
1 2 3
a 0,4 0,1 0,5
b 0,1 0,8 0,1
c 0,3 0,3 0,4
d 0,1 0,1 0,8
e 0,4 0,1 0,5
f 0,1 0,4 0,5
g 0,7 0,2 0,1
h
…
e
c
bd
j
ha
k
gi f
i
f
bc
e
hd
a
j
kg
g a c i e d k b j f h
![Page 116: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/116.jpg)
Agrupamiento
Los mapeos auto-organizables: forma
especializada de red neuronal.
K-Medias (K-Means): agrupamiento iterativo
basado en distancias.
Agrupamiento incremental.
EM-Algorithm: Expectation Maximization.
![Page 117: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/117.jpg)
Minería de Datos
Dependiendo de la meta que se persigue en la
minería de datos, se requiere la aplicación de
una técnica diferente.
Metas:
Prescriptiva: automatizar el proceso de toma de
decisiones (clasificación, predicción).
Descriptiva: Incrementar el entendimiento de lo
que sucede en los datos y del mundo que reflejan.
(agrupamiento - clustering)
![Page 118: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/118.jpg)
Diferencias
Analizar la respuesta a una oferta
Entradas: Finanzas, Estilo de vida
Projecto 1: producir un modelo que dé a cada
prospecto una puntuación de cómo responderá a
la oferta
Projecto 2: Entender las causas de la respuesta
para mejorar futuros esfuerzos
![Page 119: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/119.jpg)
Minería de Datos
Dirigida: La meta principal es predecir, estimar,
clasificar ó caracterizar el comportamiento de
algun atributo, prevíamente identificado, en
términos de un conjunto de variables de entrada.
No dirigida: La meta es descubrir una estructura
en el conjunto de datos
![Page 120: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/120.jpg)
Agrupamiento (Clustering)
Las técnicas de agrupamiento se aplican cuando
no hay propiamente una clase que predecir sino
cuando las instancias se dividen en grupos de
forma natural.
Es una técnica de minería de datos no dirigida.
El agrupamiento requiere de técnicas diferentes a
las de clasificación y asociación
![Page 121: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/121.jpg)
Agrupamiento
Se genera un diagrama que muestra cómo las
instancias forman grupos.
En el caso más simple, se asocia un número de
grupo a cada instancia. Se colocan las instancias
en dos dimensiones y se particiona el espacio
para mostrar cada cluster (disjuntos).
e
c
b
d
j
ha
k
g
i
f
![Page 122: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/122.jpg)
Agrupamiento
Algunos algoritmos permiten que una
instancia pertenezca a dos grupos (clusters)
La representación se puede visualizar mediante
diagramas de Venn
i
f
bc
e
hd
a
j
kg
![Page 123: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/123.jpg)
Agrupamiento
Otros algoritmos
asocian a las
instancias con los
grupos de manera
probabilística.
En este caso para
cada instancia
existe una
probabilidad o
grado de
pertenencia a cada
cluster.
1 2 3
a 0,4 0,1 0,5
b 0,1 0,8 0,1
c 0,3 0,3 0,4
d 0,1 0,1 0,8
e 0,4 0,1 0,5
f 0,1 0,4 0,5
g 0,7 0,2 0,1
h
…
![Page 124: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/124.jpg)
Agrupamiento
Otros producen una
estructura jerárquica de
clusters.
Los elementos unidos
en niveles inferiores
tienen una mayor
cohesión que los de
niveles superiores.
g a c i e d k b j f h
![Page 125: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/125.jpg)
Agrupamiento
Enfoques matemáticos.
Los métodos son Divisivos y Aglomerativos
Se define alguna medida del valor de la partición
del conjunto de clusters.
La medida es almacenada para decidir al final del
proceso cuál partición es la mejor.
![Page 126: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/126.jpg)
Métodos Divisivos
Inician considerando todas las instancias como
parte de un gran grupo (cluster) .
El cluster inicial se divide en dos o más clusters.
Estos clusters se dividen sucesivamente.
Hasta que cada instancia tiene su propio cluster.
![Page 127: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/127.jpg)
Métodos Aglomerativos
Otros métodos son llamados aglomerativos.
Iniciar con cada instancia en un grupo (cluster).
Iterativamente se combinan los clusters.
Termina cuando sólo hay un cluster.
![Page 128: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/128.jpg)
Agrupamiento
Los mapeos auto-organizables: forma
especializada de red neuronal.
K-Medias (K-Means): agrupamiento iterativo
basado en distancias.
Agrupamiento incremental
EM-Algorithm: Expectation Maximization
![Page 129: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/129.jpg)
Agrupamiento Iterativo Basado en
Distancia
K- Medias
K-medias es uno de los algoritmos más
ampliamente utilizado en herramientas
comerciales de minería de datos.
K-medias trabaja mejor cuando la entrada de
datos es numérica principalmente.
![Page 130: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/130.jpg)
K-Medias
¿Cómo funciona?
Divide el conjunto de datos en un número
predeterminado de clusters.
Ese número es K, de aquí el nombre.
![Page 131: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/131.jpg)
K-Medias
¿Cómo funciona?
La media es lo que los estadistas llaman
promedio.
En este caso la media se refiere a la ubicación
promedio de los miembros de un grupo en
particular.
![Page 132: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/132.jpg)
K-Medias
¿Ubicación? ¡Hablamos de Registros en una
Base de Datos!
La respuesta viene de la geometría:
Para formar los clusters, cada instancia es
asociada a un punto en el “espacio de instancias”
Ese espacio tiene tantas dimensiones como
atributos hay en las instancias.
![Page 133: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/133.jpg)
K-Medias
El valor de cada atributo es interpretado como
una distancia a partir del origen y a lo largo del
eje correspondiente.
Para que la interpretación sea útil, los atributos
deben ser convertidos a números y éstos deben
normalizarse para que los cambios en las
dimensiones sean comparables.
![Page 134: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/134.jpg)
Algoritmo
Las instancias son asignadas a clusters a través
de un proceso iterativo que inicia con clusters
centrados en localidades aleatorias en el espacio
de instancias y mueve los centroides del cluster
hasta que alguno de ellos se encuentre en
realidad en el centro de algún cluster.
![Page 135: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/135.jpg)
0
1
2
3
4
5
6
7
8
0 2 4 6 8 10
Punto X YA 1,2 1B 1,4 2C 2 1,1D 2,5 1,5E 3,6 1,7F 0,7 3G 1,3 6H 1,9 7,3I 3 6,9J 3,3 6K 4 6L 2,3 5M 3,5 5N 3 4O 6,1 3,2P 8 5,5Q 9,1 4,9R 8,1 4S 8,6 3T 7,5 2
El parámetro K indica el
número de cluster que se
seleccionarán en este caso
K=3
![Page 136: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/136.jpg)
Algoritmo
Se seleccionan K puntos al azar cómo centros de
los clusters (F, N y O).
Las instancias se asignan al centro del cluster
más cercano considerando la distancia de
Euclidiana.
2
22
2
1121
212211
)()(),(
,,
yxyxPPD
yyPxxP
![Page 137: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/137.jpg)
Algoritmo
Se
seleccionan K
puntos y se
asignan las
instancias al
centro del
cluster más
cercano
0
1
2
3
4
5
6
7
8
0 2 4 6 8 10
Semilla 1
Semilla 2
Semilla 3
![Page 138: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/138.jpg)
Límites
Para dibujar los limites entre los clusters, basta
con recordar que si se tienen 2 puntos X y Y,
todos los puntos que están equidistantes desde X
y Y, caen en la línea que está a la mitad del
segmento que une a X y Y, y es perpendicular.
Asi el punto del cuadro es asignado a el cluster
controlado por el centroide 2.
![Page 139: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/139.jpg)
Ejemplo
0
1
2
3
4
5
6
7
8
0 1 2 3 4 5 6 7 8 9 10
Semilla 1
Semilla 2
Semilla 3
![Page 140: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/140.jpg)
AsignaciónPunto X Y DF DN DOA 1,2 1 2,06 3,50 5,37B 1,4 2 1,22 2,56 4,85C 2 1,1 2,30 3,07 4,61D 2,5 1,5 2,34 2,55 3,98E 3,6 1,7 3,18 2,38 2,92F 0,7 3 0,00 2,51 5,40G 1,3 6 3,06 2,62 5,56H 1,9 7,3 4,46 3,48 5,87I 3 6,9 4,53 2,90 4,83
J 3,3 6 3,97 2,02 3,96K 4 6 4,46 2,24 3,50L 2,3 5 2,56 1,22 4,20M 3,5 5 3,44 1,12 3,16N 3 4 2,51 0,00 3,20O 6,1 3,2 5,40 3,20 0,00P 8 5,5 7,72 5,22 2,98Q 9,1 4,9 8,61 6,17 3,45R 8,1 4 7,47 5,10 2,15
S 8,6 3 7,90 5,69 2,51T 7,5 2 6,87 4,92 1,84
0
1
2
3
4
5
6
7
8
0 2 4 6 8 10
![Page 141: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/141.jpg)
Algoritmo
Después se calculará el centroide, es decir, la
media de todas las instancias.
Estos centroides serán los nuevos centros de los
clusters y el proceso se repite.
La iteración continúa hasta que los mismos
puntos son asignados a cada cluster en rondas
consecutivas. En este momento los centroides se
han estabilizado.
![Page 142: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/142.jpg)
Ejemplo
Grupo1 Grupo2 Grupo3Punto X Y Punto X Y Punto X YA 1,2 1 E 3,6 1,7 O 6,1 3,2B 1,4 2 G 1,3 6 P 8 5,5C 2 1,1 H 1,9 7,3 Q 9,1 4,9D 2,5 1,5 I 3 6,9 R 8,1 4F 0,7 3 J 3,3 6 S 8,6 3
1,56 1,72 K 4 6 T 7,5 2L 2,3 5 7,9 3,8M 3,5 5N 3 4
2,88 5,3
Medias
![Page 143: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/143.jpg)
Ejemplo
0
1
2
3
4
5
6
7
8
0 2 4 6 8 10
![Page 144: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/144.jpg)
Clustering Si hay más de una dimensión, la distancia
euclidiana se calcula de la misma forma:
En el caso de la media, se calcula la media para cada dimensión.
ni
iii
yxPPD
yyPxxP
1
2
21
212211
)(),(
,,
![Page 145: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/145.jpg)
Consecuencias
Tipo de preguntas que se pueden
responder
Es una técnica de aprendizaje no dirigido, por lo
que puede ser aplicada sin un conocimiento a priori
de la estructura a ser descubierta.
Dado que los grupos detectados automáticamente
no tienen una interpretación natural distinta, es
difícil poner los resultados en práctica.
![Page 146: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/146.jpg)
Consecuencias
Preparación de los datos
Seleccionando diferentes medidas de distancias, el
clustering se puede aplicar a cualquier tipo de datos
(distancia entre textos). Sin embargo, la más usada
es la distancia Euclidiana.
![Page 147: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/147.jpg)
Consecuencias
Seleccionar el número adecuado para K
Si el número no iguala a la estructura natural de
los datos, los resultados no son buenos.
Si no se tiene una razón a priori para elegir el
número se debe probar con varios valores.
![Page 148: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/148.jpg)
Consecuencias
Los mejores conjuntos de clusters, son aquellos
en los que la distancia entre los miembros:
Del mismo cluster es pequeña
De clusters adyacentes es grande
![Page 149: Mineríade datos](https://reader031.vdocument.in/reader031/viewer/2022032219/55aee2241a28ab647d8b4577/html5/thumbnails/149.jpg)
Interpretación
¡Cuando no se sabe lo que se está buscando, no
se reconoce cuando se ha encontrado!
Existen algunos enfoques para interpretar.
Construir un árbol de decisión para explicar cómo
asignar las instancias al cluster correcto.
Visualización para ver como se afectan los
clusters con los cambios.