fundamentos de data mining y sus aplicaciones n. queipo, s. pintos copyright 2000 clasificaciÓn no...

28
FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 200 CLASIFICACIÓN NO SUPERVISADA

Upload: rita-lagos

Post on 22-Jan-2016

222 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 CLASIFICACIÓN NO SUPERVISADA

FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000

CLASIFICACIÓN NO SUPERVISADA

Page 2: FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 CLASIFICACIÓN NO SUPERVISADA

FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000

CLASIFICACION

IMPORTANCIA

PROPÓSITO

METODOLOGÍAS

TIPOS DE CLASIFICACIÓN

Page 3: FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 CLASIFICACIÓN NO SUPERVISADA

FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000

IMPORTANCIA

CLASIFICAR HA SIDO, Y ES HOY DÍA, UN PROBLEMA FUNDAMENTAL EN UN AMPLIO ESPECTRO DE DISCIPLINAS CIENTÍFICAS QUE SE EXTIENDE DE LAS CIENCIAS BÁSICAS A LA INGENIERÍA

OTRAS DENOMINACIONES: TAXONOMÍA ANÁLISIS DE CONGLOMERADOS RECONOCIMIENTO DE PATRONES

Page 4: FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 CLASIFICACIÓN NO SUPERVISADA

FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000

PROPÓSITO

HACER UNA PARTICIÓN DE UN CONJUNTO DE OBJETOS EN CLASES O CATEGORÍAS

ÉSTAS SE CONSTRUYEN DE MODO QUE UN OBJETO EN UNA CLASE DADA ES SIMILAR A CUALQUIER OTRO DE SU MISMA CLASE, Y OBJETOS EN DISTINTAS CLASES TIENDEN A SER DIFERENTES.

Page 5: FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 CLASIFICACIÓN NO SUPERVISADA

FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000

CADA OBJETO ES OBSERVADO MEDIANTE UN CONJUNTO DE VARIABLES CUANTITATIVAS QUE REFLEJAN SUS CUALIDADES FUNDAMENTALES.

OBSERVACIÓN: CONJUNTO DE VALORES DE p VARIABLES ASOCIADO A CADA OBJETO.

CLASIFICAR: AGRUPAR UN CONJUNTO DE n OBSERVACIONES, CUYAS CARACTERÍSTICAS ESTÁN DADAS POR p VARIABLES, BASÁNDOSE EN LAS SEMEJANZAS QUE EXISTAN ENTRE SÍ.

Page 6: FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 CLASIFICACIÓN NO SUPERVISADA

FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000

METODOLOGÍAS

ANÁLISIS ESTADÍSTICO MULTIVARIADO ANÁLISIS CLUSTER

ANÁLISIS DISCRIMINANTE

CARACTERÍSTICAS NÚCLEO DE LOS PROCESOS CLASIFICATORIOS

DESARROLLADO EN LA PRIMERA MITAD DE ESTE SIGLO

SE IMPLEMENTAN EFICIENTES ALGORITMOS EN LAS ÚLTIMAS DÉCADAS DEBIDO AL DESARRO-LLO DEL COMPUTADOR

Page 7: FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 CLASIFICACIÓN NO SUPERVISADA

FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000

COMPUTACIÓN EMERGENTE

– REDES NEURONALES• PERCEPTRÓN MULTICAPA

• MAPAS AUTO-ORGANIZATIVOS

– LÓGICA DIFUSA

CARACTERÍSTICASMUY EFICIENTES ANTE DATA COMPLEJA

NO EXIGEN CONOCIMIENTO PREVIO DEL TIPO DE DISTRIBUCIÓN

Page 8: FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 CLASIFICACIÓN NO SUPERVISADA

FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000

DIVISIÓN FUNDAMENTAL DE LOS MÉTODOS DE CLASIFICACIÓN

• CLASIFICACIÓN SUPERVISADA

SE CONOCE LA CLASE A LA CUAL PERTENECE

CADA PATRÓN DE LA MUESTRA

• CLASIFICACIÓN NO SUPERVISADA LA MUESTRA ES NO CONTROLADA, NO EXISTE UNA

CLASIFICACIÓN PREVIA DE LAS OBSERVACIONES

Page 9: FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 CLASIFICACIÓN NO SUPERVISADA

FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000

CLASIFICACIÓN NO SUPERVISADA

DEFINICIÓN:

AGRUPAR UN CONJUNTO DE n OBJETOS, DEFINIDOS POR p VARIABLES, EN c CLASES, DONDE EN CADA CLASE LOS ELEMENTOS POSEAN CARACTERÍSTICAS AFINES Y SEAN MÁS SIMILARES ENTRE SÍ QUE RESPECTO A ELEMENTOS PERTENECIENTES A OTRAS CLASES

Page 10: FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 CLASIFICACIÓN NO SUPERVISADA

FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000

PROPÓSITOSGRAFICAR GRUPOS AFINES, COMO ES EL CASO DE LOS DENDROGRAMAS DE LAS TAXONOMÍAS.CLASIFICAR, SIMPLEMENTE, INFORMACIÓN ABUNDANTE Y COMPLEJAHALLAR EL NÚMERO C DE CLASES ADECUADOENCONTRAR SUBCLASES DENTRO DE CLASES NATURALESINTERPRETAR LOS PATRONES ANALIZANDO LAS CAUSAS INTRÍNSECAS DE LA FORMACIÓN DE LOS MISMOS

Page 11: FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 CLASIFICACIÓN NO SUPERVISADA

FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000

APLICACIONES

• Mercadeo

• Resultados de búsquedas Web

• Segmentación de imágenes

• Sistemas de recomendación

Page 12: FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 CLASIFICACIÓN NO SUPERVISADA

FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000

OBJETIVOS DUALES EN LA OBTENCIÓN DE UNA CLASIFICACIÓN ÓPTIMA

• MINIMIZAR LAS DESVIACIONES ENTRE LAS OBSERVACIONES QUE PERTENECEN AL MISMO GRUPO

• MAXIMIZAR LAS DISTANCIAS ENTRE LOS

CENTROS DE LOS GRUPOS

Page 13: FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 CLASIFICACIÓN NO SUPERVISADA

FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000

DISPERSIÓN DE UNA CLASE

DEFINICIÓN:

SE LLAMARÁ SWJ, DISPERSIÓN EN LA CLASE J, A LA SUMA DE LAS DISTANCIAS AL CUADRADO DE CADA OBSERVACIÓN Xi AL CENTRO mj DE LA

CLASE (J) QUE LA CONTIENE

Nj

ijiWj mXS

1

2mj

Page 14: FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 CLASIFICACIÓN NO SUPERVISADA

FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000

C

jWjW SPmin

1

CRITERIO DE OPTIMIZACIÓN

MINIMIZAR LA SUMA DE LAS DISPERSIONES DELAS CLASES:

Page 15: FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 CLASIFICACIÓN NO SUPERVISADA

FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000

DISPERSIÓN TOTAL:

N

ii mXST

1

2

m

STPw

R 12

INDICADOR, R2

MIDE LA BONDAD DE LA CLASIFICACIÓN

10 2 R

Page 16: FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 CLASIFICACIÓN NO SUPERVISADA

FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000

¿CUÁNTAS PARTICIONES SON POSIBLES?

EL NÚMERO DE PARTICIONES DE UN CONJUNTO DE n ELEMENTOS EN c CLASES ESTÁ DADO POR LOS NÚMEROS DE STIRLING DE SEGUNDA CLASE :

N C PARTICIONES

8 3 966

12 4 611.501

15 4 42.355.950

20 5 749.206.090.500

POR EJEMPLO:

ES IMPRÁCTICO HALLAR EL ÓPTIMO CALCULANDO EXHAUSTIVAMENTE EL VALOR DE PW PARA CADA PARTICIÓN

Page 17: FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 CLASIFICACIÓN NO SUPERVISADA

FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000

MÉTODOS DE CLASIFICACIÓNNO SUPERVISADA

• ANÁLISIS DE CONGLOMERADOS

– BASADOS EN CENTROIDES

– JERÁRQUICOS

– BASADOS EN DISTRIBUCIONES

– BASADOS EN DENSIDAD

• MAPAS AUTO-ORGANIZATIVOS

Page 18: FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 CLASIFICACIÓN NO SUPERVISADA

FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000

MÉTODOS DIRECTOSCARACTERÍSTICAS: CALCULAN LAS DISTANCIAS DE LAS

OBSERVACIONES A POSIBLES CENTROS DE LAS CLASES, PARA LUEGO MODIFICAR ESTOS ÚLTIMOS SIGUIENDO EL CRITERIO DE OPTIMIZACIÓN

NO HACEN USO DE LAS DISTANCIAS ENTRE LOS ELEMENTOS

EL NÚMERO DE CLASES SE FIJA DE ANTEMANO

PRINCIPALMENTE USADO CUANDO N ES GRANDE (N >5000, POR EJEMPLO)

Page 19: FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 CLASIFICACIÓN NO SUPERVISADA

FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000

ALGORITMO ITERATIVO DEEVOLUCIÓN DE LOS CENTROS

“K-MEANS”

ETAPAS:• UBICACIÓN DE LOS CENTROS INICIALES DE LAS

CLASES• ASIGNACIÓN DE LAS OBSERVACIONES A LA

CLASE MÁS CERCANA• DETERMINACIÓN DE LOS NUEVOS CENTROS DE

LAS CLASES• VERIFICAR SI SE CUMPLE ALGUNO DE LOS

CRITERIOS DE FINALIZACIÓN DEL ALGORITMO

Page 20: FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 CLASIFICACIÓN NO SUPERVISADA

FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000

DETERMINACIÓN DEL NÚMERO DE CLASES

CENTROS FINALES

Page 21: FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 CLASIFICACIÓN NO SUPERVISADA

FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000

K-means

Page 22: FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 CLASIFICACIÓN NO SUPERVISADA

FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000

K-mean en una imagen

Page 23: FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 CLASIFICACIÓN NO SUPERVISADA

FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000

DETERMINACIÓN DEL NÚMERO ÓPTIMO DE CLASES

R2

.7

.3

.6

.5

.4

.8

.2

ÓPTIMO

NO SE OBTIENE UN BENEFICIOSIGNIFICATIVOPOR DESGLOSAREN MAS DE 4CLASES

Page 24: FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 CLASIFICACIÓN NO SUPERVISADA

FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000

MÉTODOS JERÁRQUICOSPROPÓSITO:• DADO UN CONJUNTO INICIAL DONDE CADA

ELEMENTO ES UNA CLASE, CREAR UN ARBOL JERÁRQUICO AGRUPANDO EN CADA ETAPA LAS DOS CLASES UBICADAS A MÍNIMA DISTANCIA, ÉSTA INDICA LA ALTURA SOBRE EL ÁRBOL

A

B

C

D

EALTURA

Page 25: FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 CLASIFICACIÓN NO SUPERVISADA

FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000

CARACTERÍSTICAS

CLASIFICAN A PARTIR DE LA MATRIZ DE DISTANCIA ENTRE LAS OBSERVACIONES

NO SE FIJA EL NÚMERO DE CLASES SE DETERMINA EL NÚMERO ÓPTIMO DE CLASES

A PARTIR DEL ÁRBOL JERÁRQUICO APROPIADOS SÓLO SI EL TAMAÑO DEL

CONJUNTO ES PEQUEÑO, EN CUYO CASO SON MÁS EFICICIENTES QUE LOS MÉTODOS DIRECTOS

Page 26: FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 CLASIFICACIÓN NO SUPERVISADA

FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000

DISTANCIAS A DISTINGUIR

ENTRE ELEMENTOS• EUCLÍDEA

• ESTANDAR

• MAHALANOBIS

• MANHATTAN

• COSENO

ENTRE CLASES• DISTANCIA MÍNIMA

• DISTANCIA MÁXIMA

• DISTANCIA PROMEDIO

• DISTANCIA PROTOTIPO (CENTROIDE)

• MÍNIMA VARIANZA

Page 27: FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 CLASIFICACIÓN NO SUPERVISADA

FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000

DISTANCIA DE VUELOS ENTRE CIUDADES DISTANCIA DE VUELOS ENTRE CIUDADES

CLASIFICACIÓN NO SUPERVISADA

Page 28: FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000 CLASIFICACIÓN NO SUPERVISADA

FUNDAMENTOS DE DATA MINING Y SUS APLICACIONES N. QUEIPO, S. PINTOS COPYRIGHT 2000