introducción a aprendizaje no supervisadoassociationrules.pdfmotivaci on k-mediasdefinici...
TRANSCRIPT
![Page 1: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe](https://reader033.vdocument.in/reader033/viewer/2022042415/5f30ba94fdc92662505ad9b0/html5/thumbnails/1.jpg)
![Page 2: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe](https://reader033.vdocument.in/reader033/viewer/2022042415/5f30ba94fdc92662505ad9b0/html5/thumbnails/2.jpg)
Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion
Introduccion a Aprendizaje no Supervisado
Felipe Suarez, Alvaro Riascos
25 de abril de 2017
2 / 33
![Page 3: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe](https://reader033.vdocument.in/reader033/viewer/2022042415/5f30ba94fdc92662505ad9b0/html5/thumbnails/3.jpg)
Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion
Contenido
1. Motivacion
2. k-MediasAlgoritmosImplementacion
3. Definicion
4. Motivacion
5. Aproximacion
6. Implementacion
3 / 33
![Page 4: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe](https://reader033.vdocument.in/reader033/viewer/2022042415/5f30ba94fdc92662505ad9b0/html5/thumbnails/4.jpg)
Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion
Problema
Considere la siguiente imagen medica.
4 / 33
![Page 5: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe](https://reader033.vdocument.in/reader033/viewer/2022042415/5f30ba94fdc92662505ad9b0/html5/thumbnails/5.jpg)
Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion
Problema
Considere la siguiente imagen medica.
4 / 33
![Page 6: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe](https://reader033.vdocument.in/reader033/viewer/2022042415/5f30ba94fdc92662505ad9b0/html5/thumbnails/6.jpg)
Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion
Problema
Considere la siguiente imagen medica.
4 / 33
![Page 7: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe](https://reader033.vdocument.in/reader033/viewer/2022042415/5f30ba94fdc92662505ad9b0/html5/thumbnails/7.jpg)
Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion
Historia
Hugo Steinhaus, 1887 - 1972
5 / 33
![Page 8: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe](https://reader033.vdocument.in/reader033/viewer/2022042415/5f30ba94fdc92662505ad9b0/html5/thumbnails/8.jpg)
Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion
Historia
Hugo Steinhaus, 1887 - 1972
5 / 33
![Page 9: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe](https://reader033.vdocument.in/reader033/viewer/2022042415/5f30ba94fdc92662505ad9b0/html5/thumbnails/9.jpg)
Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion
Definicion
El metodo de agrupamiento (clustering) k−medias es un procedimiento de clasificacion nosupervisado basado en centroides. Las observaciones x1, . . . , xn son asignadas a la clase delcentroide mas cercano µ1, . . . , µk a el.
6 / 33
![Page 10: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe](https://reader033.vdocument.in/reader033/viewer/2022042415/5f30ba94fdc92662505ad9b0/html5/thumbnails/10.jpg)
Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion
Definicion
El metodo de agrupamiento (clustering) k−medias es un procedimiento de clasificacion nosupervisado basado en centroides. Las observaciones x1, . . . , xn son asignadas a la clase delcentroide mas cercano µ1, . . . , µk a el.
6 / 33
![Page 11: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe](https://reader033.vdocument.in/reader033/viewer/2022042415/5f30ba94fdc92662505ad9b0/html5/thumbnails/11.jpg)
Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion
Definicion
El metodo de agrupamiento (clustering) k−medias es un procedimiento de clasificacion nosupervisado basado en centroides. Las observaciones x1, . . . , xn son asignadas a la clase delcentroide mas cercano µ1, . . . , µk a el.
6 / 33
![Page 12: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe](https://reader033.vdocument.in/reader033/viewer/2022042415/5f30ba94fdc92662505ad9b0/html5/thumbnails/12.jpg)
Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion
Definicion
Definition
Sea X = {x1, . . . , xn} ⊆ Rd un conjunto de n observaciones numericas. El agrupamiento pork−medias consiste de particionar X en k subconjuntos X = S1 ∪ · · · ∪ Sk por medio de kcentroides µ1, . . . , µk que minimizan la varianza:
k∑i=1
∑x∈Si
||x− µi||2, donde µi =1
|Si|∑x∈Si
x.
Propiedades
I Estimacion de grupos con simetrıa esferica.
I Las variables tienen la misma varianza.
I Se asume apriori que todos los grupos son de igual tamano.
7 / 33
![Page 13: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe](https://reader033.vdocument.in/reader033/viewer/2022042415/5f30ba94fdc92662505ad9b0/html5/thumbnails/13.jpg)
Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion
Definicion
Definition
Sea X = {x1, . . . , xn} ⊆ Rd un conjunto de n observaciones numericas. El agrupamiento pork−medias consiste de particionar X en k subconjuntos X = S1 ∪ · · · ∪ Sk por medio de kcentroides µ1, . . . , µk que minimizan la varianza:
k∑i=1
∑x∈Si
||x− µi||2, donde µi =1
|Si|∑x∈Si
x.
Propiedades
I Estimacion de grupos con simetrıa esferica.
I Las variables tienen la misma varianza.
I Se asume apriori que todos los grupos son de igual tamano.
7 / 33
![Page 14: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe](https://reader033.vdocument.in/reader033/viewer/2022042415/5f30ba94fdc92662505ad9b0/html5/thumbnails/14.jpg)
Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion
Ejemplos
8 / 33
![Page 15: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe](https://reader033.vdocument.in/reader033/viewer/2022042415/5f30ba94fdc92662505ad9b0/html5/thumbnails/15.jpg)
Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion
Ejemplos
8 / 33
![Page 16: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe](https://reader033.vdocument.in/reader033/viewer/2022042415/5f30ba94fdc92662505ad9b0/html5/thumbnails/16.jpg)
Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion
Estado del Arte
Quien lo utiliza? Todavıa se investiga?
9 / 33
![Page 17: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe](https://reader033.vdocument.in/reader033/viewer/2022042415/5f30ba94fdc92662505ad9b0/html5/thumbnails/17.jpg)
Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion
Algoritmo
El problema de optimizacion no es computacionalmente facil de resolver: es NP-Dificil! Existenheurısticas que aproximan la solucion a un mınimo local muy rapido.
Definition
Input: Datos numericos X = {x1, . . . , xn} ⊆ Rd, Numero de grupos k > 0.Output: Subgrupos (x1, y1), . . . , (xn, yn), con yi ∈ {1, . . . , k}.Algoritmo:
1. Inicialice los centros µ1, . . . , µk aleatoriamente.
2. Repita2.1 Calcula el subgrupo de cada observacion:
yi = arg minj||xi − µj ||
2.2 Actualiza los centros:
µi =1
|Si|∑x∈Si
x.
10 / 33
![Page 18: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe](https://reader033.vdocument.in/reader033/viewer/2022042415/5f30ba94fdc92662505ad9b0/html5/thumbnails/18.jpg)
Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion
Algoritmo
El problema de optimizacion no es computacionalmente facil de resolver: es NP-Dificil! Existenheurısticas que aproximan la solucion a un mınimo local muy rapido.
Definition
Input: Datos numericos X = {x1, . . . , xn} ⊆ Rd, Numero de grupos k > 0.Output: Subgrupos (x1, y1), . . . , (xn, yn), con yi ∈ {1, . . . , k}.Algoritmo:
1. Inicialice los centros µ1, . . . , µk aleatoriamente.
2. Repita2.1 Calcula el subgrupo de cada observacion:
yi = arg minj||xi − µj ||
2.2 Actualiza los centros:
µi =1
|Si|∑x∈Si
x.
10 / 33
![Page 19: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe](https://reader033.vdocument.in/reader033/viewer/2022042415/5f30ba94fdc92662505ad9b0/html5/thumbnails/19.jpg)
Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion
Ejemplo
11 / 33
![Page 20: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe](https://reader033.vdocument.in/reader033/viewer/2022042415/5f30ba94fdc92662505ad9b0/html5/thumbnails/20.jpg)
Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion
Ejemplo
12 / 33
![Page 21: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe](https://reader033.vdocument.in/reader033/viewer/2022042415/5f30ba94fdc92662505ad9b0/html5/thumbnails/21.jpg)
Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion
Ejemplo
13 / 33
![Page 22: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe](https://reader033.vdocument.in/reader033/viewer/2022042415/5f30ba94fdc92662505ad9b0/html5/thumbnails/22.jpg)
Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion
Ejemplo
14 / 33
![Page 23: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe](https://reader033.vdocument.in/reader033/viewer/2022042415/5f30ba94fdc92662505ad9b0/html5/thumbnails/23.jpg)
Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion
Ejemplo
15 / 33
![Page 24: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe](https://reader033.vdocument.in/reader033/viewer/2022042415/5f30ba94fdc92662505ad9b0/html5/thumbnails/24.jpg)
Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion
Casos Problematicos
16 / 33
![Page 25: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe](https://reader033.vdocument.in/reader033/viewer/2022042415/5f30ba94fdc92662505ad9b0/html5/thumbnails/25.jpg)
Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion
Casos Problematicos
17 / 33
![Page 26: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe](https://reader033.vdocument.in/reader033/viewer/2022042415/5f30ba94fdc92662505ad9b0/html5/thumbnails/26.jpg)
Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion
Casos Problematicos
18 / 33
![Page 27: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe](https://reader033.vdocument.in/reader033/viewer/2022042415/5f30ba94fdc92662505ad9b0/html5/thumbnails/27.jpg)
Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion
Alternativas
Existen alternativas al algoritmo heurıstico. Las alternativas ayudan a evitar la agrupaciondiscontinua y la simetrıa esferica.
1. Estandarizar variables para evitar sesgos de escala.
2. Fuzzy k-means:
f(X,S) =
k∑i=1
∑x∈Si
ui(x)||x− µi||2, ui(x) =||x− µi||−2/r∑i ||x− µi||−2/r
3. Mixturas Gaussianas: Se asume que la muestra es una suma de normales y se actualizan µ, σpor subgrupos ponderado por probabilidad P(xi|µj , σj).
4. Kernel k-medias: Se utiliza una funcion de kernel k(xi − µj , xi − µj) a cambio de ||xi − µj ||2.
5. Metricas no euclidianas: l1, l∞, lp.
19 / 33
![Page 28: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe](https://reader033.vdocument.in/reader033/viewer/2022042415/5f30ba94fdc92662505ad9b0/html5/thumbnails/28.jpg)
Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion
Alternativas
Existen alternativas al algoritmo heurıstico. Las alternativas ayudan a evitar la agrupaciondiscontinua y la simetrıa esferica.
1. Estandarizar variables para evitar sesgos de escala.
2. Fuzzy k-means:
f(X,S) =
k∑i=1
∑x∈Si
ui(x)||x− µi||2, ui(x) =||x− µi||−2/r∑i ||x− µi||−2/r
3. Mixturas Gaussianas: Se asume que la muestra es una suma de normales y se actualizan µ, σpor subgrupos ponderado por probabilidad P(xi|µj , σj).
4. Kernel k-medias: Se utiliza una funcion de kernel k(xi − µj , xi − µj) a cambio de ||xi − µj ||2.
5. Metricas no euclidianas: l1, l∞, lp.
19 / 33
![Page 29: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe](https://reader033.vdocument.in/reader033/viewer/2022042415/5f30ba94fdc92662505ad9b0/html5/thumbnails/29.jpg)
Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion
Alternativas
Existen alternativas al algoritmo heurıstico. Las alternativas ayudan a evitar la agrupaciondiscontinua y la simetrıa esferica.
1. Estandarizar variables para evitar sesgos de escala.
2. Fuzzy k-means:
f(X,S) =
k∑i=1
∑x∈Si
ui(x)||x− µi||2, ui(x) =||x− µi||−2/r∑i ||x− µi||−2/r
3. Mixturas Gaussianas: Se asume que la muestra es una suma de normales y se actualizan µ, σpor subgrupos ponderado por probabilidad P(xi|µj , σj).
4. Kernel k-medias: Se utiliza una funcion de kernel k(xi − µj , xi − µj) a cambio de ||xi − µj ||2.
5. Metricas no euclidianas: l1, l∞, lp.
19 / 33
![Page 30: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe](https://reader033.vdocument.in/reader033/viewer/2022042415/5f30ba94fdc92662505ad9b0/html5/thumbnails/30.jpg)
Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion
Alternativas
Existen alternativas al algoritmo heurıstico. Las alternativas ayudan a evitar la agrupaciondiscontinua y la simetrıa esferica.
1. Estandarizar variables para evitar sesgos de escala.
2. Fuzzy k-means:
f(X,S) =
k∑i=1
∑x∈Si
ui(x)||x− µi||2, ui(x) =||x− µi||−2/r∑i ||x− µi||−2/r
3. Mixturas Gaussianas: Se asume que la muestra es una suma de normales y se actualizan µ, σpor subgrupos ponderado por probabilidad P(xi|µj , σj).
4. Kernel k-medias: Se utiliza una funcion de kernel k(xi − µj , xi − µj) a cambio de ||xi − µj ||2.
5. Metricas no euclidianas: l1, l∞, lp.
19 / 33
![Page 31: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe](https://reader033.vdocument.in/reader033/viewer/2022042415/5f30ba94fdc92662505ad9b0/html5/thumbnails/31.jpg)
Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion
Alternativas
Existen alternativas al algoritmo heurıstico. Las alternativas ayudan a evitar la agrupaciondiscontinua y la simetrıa esferica.
1. Estandarizar variables para evitar sesgos de escala.
2. Fuzzy k-means:
f(X,S) =
k∑i=1
∑x∈Si
ui(x)||x− µi||2, ui(x) =||x− µi||−2/r∑i ||x− µi||−2/r
3. Mixturas Gaussianas: Se asume que la muestra es una suma de normales y se actualizan µ, σpor subgrupos ponderado por probabilidad P(xi|µj , σj).
4. Kernel k-medias: Se utiliza una funcion de kernel k(xi − µj , xi − µj) a cambio de ||xi − µj ||2.
5. Metricas no euclidianas: l1, l∞, lp.
19 / 33
![Page 32: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe](https://reader033.vdocument.in/reader033/viewer/2022042415/5f30ba94fdc92662505ad9b0/html5/thumbnails/32.jpg)
Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion
Garantıas
1. Complejidad? NP-Difıcil, pero las heurısticas son O(nd).
2. Convergencia? El algortimo heurıstico converge rapidamente a un optimo local.
3. Robustez? No. De hecho es muy facil que el algoritmo falle:3.1 Muestra desbalanceada3.2 Sensible a escala3.3 No acepta datos categorticos3.4 Que pasa en dimensiones altas (d > n)?3.5 Convergencia a optimo local
20 / 33
![Page 33: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe](https://reader033.vdocument.in/reader033/viewer/2022042415/5f30ba94fdc92662505ad9b0/html5/thumbnails/33.jpg)
Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion
Garantıas
1. Complejidad? NP-Difıcil, pero las heurısticas son O(nd).
2. Convergencia? El algortimo heurıstico converge rapidamente a un optimo local.
3. Robustez? No. De hecho es muy facil que el algoritmo falle:3.1 Muestra desbalanceada3.2 Sensible a escala3.3 No acepta datos categorticos3.4 Que pasa en dimensiones altas (d > n)?3.5 Convergencia a optimo local
20 / 33
![Page 34: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe](https://reader033.vdocument.in/reader033/viewer/2022042415/5f30ba94fdc92662505ad9b0/html5/thumbnails/34.jpg)
Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion
Garantıas
1. Complejidad? NP-Difıcil, pero las heurısticas son O(nd).
2. Convergencia? El algortimo heurıstico converge rapidamente a un optimo local.
3. Robustez? No. De hecho es muy facil que el algoritmo falle:
3.1 Muestra desbalanceada3.2 Sensible a escala3.3 No acepta datos categorticos3.4 Que pasa en dimensiones altas (d > n)?3.5 Convergencia a optimo local
20 / 33
![Page 35: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe](https://reader033.vdocument.in/reader033/viewer/2022042415/5f30ba94fdc92662505ad9b0/html5/thumbnails/35.jpg)
Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion
Garantıas
1. Complejidad? NP-Difıcil, pero las heurısticas son O(nd).
2. Convergencia? El algortimo heurıstico converge rapidamente a un optimo local.
3. Robustez? No. De hecho es muy facil que el algoritmo falle:3.1 Muestra desbalanceada
3.2 Sensible a escala3.3 No acepta datos categorticos3.4 Que pasa en dimensiones altas (d > n)?3.5 Convergencia a optimo local
20 / 33
![Page 36: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe](https://reader033.vdocument.in/reader033/viewer/2022042415/5f30ba94fdc92662505ad9b0/html5/thumbnails/36.jpg)
Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion
Garantıas
1. Complejidad? NP-Difıcil, pero las heurısticas son O(nd).
2. Convergencia? El algortimo heurıstico converge rapidamente a un optimo local.
3. Robustez? No. De hecho es muy facil que el algoritmo falle:3.1 Muestra desbalanceada3.2 Sensible a escala
3.3 No acepta datos categorticos3.4 Que pasa en dimensiones altas (d > n)?3.5 Convergencia a optimo local
20 / 33
![Page 37: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe](https://reader033.vdocument.in/reader033/viewer/2022042415/5f30ba94fdc92662505ad9b0/html5/thumbnails/37.jpg)
Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion
Garantıas
1. Complejidad? NP-Difıcil, pero las heurısticas son O(nd).
2. Convergencia? El algortimo heurıstico converge rapidamente a un optimo local.
3. Robustez? No. De hecho es muy facil que el algoritmo falle:3.1 Muestra desbalanceada3.2 Sensible a escala3.3 No acepta datos categorticos
3.4 Que pasa en dimensiones altas (d > n)?3.5 Convergencia a optimo local
20 / 33
![Page 38: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe](https://reader033.vdocument.in/reader033/viewer/2022042415/5f30ba94fdc92662505ad9b0/html5/thumbnails/38.jpg)
Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion
Garantıas
1. Complejidad? NP-Difıcil, pero las heurısticas son O(nd).
2. Convergencia? El algortimo heurıstico converge rapidamente a un optimo local.
3. Robustez? No. De hecho es muy facil que el algoritmo falle:3.1 Muestra desbalanceada3.2 Sensible a escala3.3 No acepta datos categorticos3.4 Que pasa en dimensiones altas (d > n)?
3.5 Convergencia a optimo local
20 / 33
![Page 39: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe](https://reader033.vdocument.in/reader033/viewer/2022042415/5f30ba94fdc92662505ad9b0/html5/thumbnails/39.jpg)
Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion
Garantıas
1. Complejidad? NP-Difıcil, pero las heurısticas son O(nd).
2. Convergencia? El algortimo heurıstico converge rapidamente a un optimo local.
3. Robustez? No. De hecho es muy facil que el algoritmo falle:3.1 Muestra desbalanceada3.2 Sensible a escala3.3 No acepta datos categorticos3.4 Que pasa en dimensiones altas (d > n)?3.5 Convergencia a optimo local
20 / 33
![Page 40: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe](https://reader033.vdocument.in/reader033/viewer/2022042415/5f30ba94fdc92662505ad9b0/html5/thumbnails/40.jpg)
Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion
Garantıas
1. Complejidad? NP-Difıcil, pero las heurısticas son O(nd).
2. Convergencia? El algortimo heurıstico converge rapidamente a un optimo local.
3. Robustez? No. De hecho es muy facil que el algoritmo falle:3.1 Muestra desbalanceada3.2 Sensible a escala3.3 No acepta datos categorticos3.4 Que pasa en dimensiones altas (d > n)?3.5 Convergencia a optimo local
20 / 33
![Page 41: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe](https://reader033.vdocument.in/reader033/viewer/2022042415/5f30ba94fdc92662505ad9b0/html5/thumbnails/41.jpg)
Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion
Reglas de Asociacion
21 / 33
![Page 42: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe](https://reader033.vdocument.in/reader033/viewer/2022042415/5f30ba94fdc92662505ad9b0/html5/thumbnails/42.jpg)
Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion
Motivacion
I Las reglas de asociacion son muy usadas en bases de datos comerciales.
I Tenemos ”canastas” de bienes que son vectores (muy grandes)
I ¿Podemos encontrar bienes que sean comprados juntos con mucha frecuencia?
I ¿Para que podrıa servir algo ası?
22 / 33
![Page 43: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe](https://reader033.vdocument.in/reader033/viewer/2022042415/5f30ba94fdc92662505ad9b0/html5/thumbnails/43.jpg)
Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion
Motivacion
I Un almacen puede organizar mejor sus repisas para mejorar sus ingresos.
I Hacer mercadeo cruzado de ciertas promociones que tengan que ver la una con la otra.
I Segmentar clientes de acuerdo a sus patrones de consumo.
I Disenar experiencias para usuarios en paginas web.
I Recomendar pelıculas en Netflix? Productos en Amazon?
23 / 33
![Page 44: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe](https://reader033.vdocument.in/reader033/viewer/2022042415/5f30ba94fdc92662505ad9b0/html5/thumbnails/44.jpg)
Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion
Motivacion
24 / 33
![Page 45: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe](https://reader033.vdocument.in/reader033/viewer/2022042415/5f30ba94fdc92662505ad9b0/html5/thumbnails/45.jpg)
Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion
Aproximacion al problema
I Quisieramos encontrar algunas canastas v1, . . . , vn tales que su densidad de probabilidadPr(vi) sea ”alta”.
I Este problema se llama Mode Finding o Bump Hunting.
I Sin embargo hay muchısimas canastas posibles (¿Cuantos productos tiene Exito en susrepisas?)
I Una estimacion de la densidad de estas canastas siempre dara algo muy pequeno como paraser confiable.
I Ademas calcular esas densidades es incomputable! ¿Cuantas canastas hay?
25 / 33
![Page 46: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe](https://reader033.vdocument.in/reader033/viewer/2022042415/5f30ba94fdc92662505ad9b0/html5/thumbnails/46.jpg)
Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion
¿Cuantos productos vende Amazon?
26 / 33
![Page 47: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe](https://reader033.vdocument.in/reader033/viewer/2022042415/5f30ba94fdc92662505ad9b0/html5/thumbnails/47.jpg)
Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion
Simplificar
I Podemos dejar de buscar canastas prototipos y buscar ”regiones” en el consumo.
I Probablemente sea mucho mas interesante y facil de interpretar una relacion entre dos opocos productos.
I Podrıamos agrupar tipos de productos en una sola variable dummy.
I Podemos pensar en la probabilidad de todas las canastas que contienen el artıculo ω.
27 / 33
![Page 48: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe](https://reader033.vdocument.in/reader033/viewer/2022042415/5f30ba94fdc92662505ad9b0/html5/thumbnails/48.jpg)
Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion
Con variables dummy
I Considerando un elemento de cada clase (posiblemente binaria) la ecuacion se simplifica
P [∩k∈K(zk = 1)] = P
[∏k∈K
zk = 1
]= T (K)
I Esto implica segmentar variables continuas que pueda haber en el analisis.
I El conjunto K se conoce como conjunto de bienes o item set.
28 / 33
![Page 49: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe](https://reader033.vdocument.in/reader033/viewer/2022042415/5f30ba94fdc92662505ad9b0/html5/thumbnails/49.jpg)
Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion
Algoritmo Crecimiento de Arbol de patrones
Queremos encontrar reglas X → Y con buenas garantıa probabilısticas (confianza). Estimamos lasprobabilidades de las canatas con la frecuencia en las base de transacciones:
supp(X) :=T (X)
T, conf(X → Y ) =
supp(X y Y )
supp(X).
Queremos tener en cuenta solo aquellas transacciones con un soporte mınimimo t y confianzamınima s. El algoritmo del arbol busca reglas aprovechando:
1. X → Y y X → Z implican X → Y ∪ Z2. X ⊆ Y implica supp(X) ≥ supp(Y )
El algoritmo realiza:
1. Saca las items con soporte < t.
2. Ordena los items descendientemente por soporte.
3. Orden las transacciones descendientemente por tamano.
4. Construye un arbol con pesos en el que cada camino hacia la raız es una transaccion.
5. Para cada hoja del arbol, Y , la rama que la contiene es el antecedente que la implica X.
29 / 33
![Page 50: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe](https://reader033.vdocument.in/reader033/viewer/2022042415/5f30ba94fdc92662505ad9b0/html5/thumbnails/50.jpg)
Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion
Algoritmo Crecimiento de Arbol de patrones
Queremos encontrar reglas X → Y con buenas garantıa probabilısticas (confianza). Estimamos lasprobabilidades de las canatas con la frecuencia en las base de transacciones:
supp(X) :=T (X)
T, conf(X → Y ) =
supp(X y Y )
supp(X).
Queremos tener en cuenta solo aquellas transacciones con un soporte mınimimo t y confianzamınima s. El algoritmo del arbol busca reglas aprovechando:
1. X → Y y X → Z implican X → Y ∪ Z2. X ⊆ Y implica supp(X) ≥ supp(Y )
El algoritmo realiza:
1. Saca las items con soporte < t.
2. Ordena los items descendientemente por soporte.
3. Orden las transacciones descendientemente por tamano.
4. Construye un arbol con pesos en el que cada camino hacia la raız es una transaccion.
5. Para cada hoja del arbol, Y , la rama que la contiene es el antecedente que la implica X.
29 / 33
![Page 51: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe](https://reader033.vdocument.in/reader033/viewer/2022042415/5f30ba94fdc92662505ad9b0/html5/thumbnails/51.jpg)
Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion
Ejemplo
I Se buscan reglas de asociacion entre 9409 cuestionarios de compradores de un Mall en SanFrancisco.
I Se buscan relaciones entre las variables demograficas.
I Se parten las variables ordinales como ”Dummies” por la mediana.
I El algoritmo encuentra 6288 reglas de asociacion (difıcil de interpretar) con soporte mayor a10 %
30 / 33
![Page 52: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe](https://reader033.vdocument.in/reader033/viewer/2022042415/5f30ba94fdc92662505ad9b0/html5/thumbnails/52.jpg)
Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion
Ejemplo
31 / 33
![Page 53: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe](https://reader033.vdocument.in/reader033/viewer/2022042415/5f30ba94fdc92662505ad9b0/html5/thumbnails/53.jpg)
Motivacion k-Medias Definicion Motivacion Aproximacion Implementacion
Limitaciones
I Esta sesgado hacia observaciones mas frecuentes que otras.
I Nunca encontrarıa Vodka ⇒ Caviar. A pesar de tener un lift alto.
I Esto es porque intrınsicamente se esta comparando con una distribucion de referenciauniforme.
I Esto se puede solucionar en conjuntos pequenos con una estimacion de la densidad basada enuna distribucion de referencia acorde a las probabilidades marginales.
I Se usa aprendizaje supervisado para ajustar una densidad relativa a esa distribucion (porejemplo una logıstica).
32 / 33
![Page 54: Introducción a Aprendizaje no SupervisadoAssociationRules.pdfMotivaci on k-MediasDefinici onMotivaci onAproximaci onImplementaci on Introducci on a Aprendizaje no Supervisado Felipe](https://reader033.vdocument.in/reader033/viewer/2022042415/5f30ba94fdc92662505ad9b0/html5/thumbnails/54.jpg)