laboratorionacionaldeinformáticaavanzada ...emezura/util/files/tesis-azucena.pdf · resumen...

116
Laboratorio Nacional de Informática Avanzada Centro de Enseñanza LANIA DISCRETIZACIÓN DE DATOS COLPOSCÓPICOS USANDO CÓMPUTO INSPIRADO EN LA NATURALEZA TESIS Que presenta: Azucena Medina Vázquez Para obtener el grado de: Maestra en Computación Aplicada Directores de Tesis: Dr. Efrén Mezura Montes Dr. Héctor Gabriel Acosta Mesa Xalapa, Veracruz, México Febrero 10, 2012

Upload: vuongnhu

Post on 03-Dec-2018

212 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

Laboratorio Nacional de Informática AvanzadaCentro de Enseñanza LANIA

DISCRETIZACIÓN DE DATOS COLPOSCÓPICOS USANDO CÓMPUTO

INSPIRADO EN LA NATURALEZA

T E S I S

Que presenta:Azucena Medina Vázquez

Para obtener el grado de:Maestra en Computación Aplicada

Directores de Tesis:Dr. Efrén Mezura Montes

Dr. Héctor Gabriel Acosta Mesa

Xalapa, Veracruz, México Febrero 10, 2012

Page 2: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

Agradecimientos

A Dios. Por haberme guiado en estos dos años de estudio de maestríay permitirme culminarlos con este trabajo de tesis.

A mis padres. Por todo el apoyo que he recibido de los dos durantetodo mi desarrollo profesional. Gracias Papí por el ejemplo de honradez,honestidad y de profesionalismo que me has dado. Gracias Guada por elejemplo de persistencia, lucha y fortaleza que también me has dado. Ygracias a ambos por los cuidados que han tenido con Leonardo mientrasculminaba el presente trabajo.

A Leonardo. Por ser el ángel que bendijo y cambio mi vida, por llegary darle significado a todo lo que hago y ser testigo del desarrollo delalgoritmo DDISIGA y de la redacción de este documento, tú lo conocesigual que yo.

A mis hermanas y hermano. Gracias Ana, Reyna, Rey, Viole y Rosy porque en ustedes he visto el ejemplo de superación en diferentes formasy por el apoyo moral que siempre me han dado.

A mis sobrinas y sobrinos. Toño, José, Rubis, Amayrani, Dana, Guicho,Gabo, Regis, Viole y Johana, por ser angelitos que me inspiran sonreíry a su corta edad me han enseñado mucho.

A Iván. Por todo el apoyo moral, el ejemplo de superación y de respon-sabilidad que me has compartido. Por el seguimiento de mis avancesy tus puntos de vista al respecto. Por compartir tristezas y alegríasdurante estos dos años de maestría y por ser padre de lo más valiosoque tengo.

A mis directores de tesis. Al Dr. Efrén Mezura Montes por el apoyoprofesional, el seguimiento del desarrollo del algoritmo DDISIGA y deeste documento de tesis. Por sus observaciones y los conocimientos queme ha compartido. Al Dr. Héctor Gabriel Acosta Mesa por su apoyoprofesional en la dirección de esta tesis y el apoyo recibido durante laresidencia en el departamento de I .A. de la M.I.A.

A mi revisor de tesis Dr. Nicandro Cruz Ramírez, por sus valiosascontribuciones al presente trabajo de tesis.

1

Page 3: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

A mis compañeros de maestría y amigos: Adán, Gus, y Tere. Por sucompañerismo, el aprendizaje que me compartieron y su amistad.

A los catedráticos de la M.C.A. del LANIA, por sus valiosas clases ysu amistad.

A los administrativos y personal del CEL del LANIA. Por el apoyoadministrativo y de seguimiento durante la estancia de los estudios demaestría.

Al Consejo Nacional de Ciencia y Tecnología por las becas económicasde maestría y la de apoyo para la culminación de este trabajo de tesisrelacionada al Proyecto No. 79809.

2

Page 4: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

Resumen

En la actualidad en diversos sectores como la medicina, la industria, finan-zas y el sector empresarial se requieren grandes espacios de almacenamien-to de datos, debido al tipo de datos temporales (continuos) que puedenmanejar, aunado a ésto requieren sólo mantener de información útil [1].KDD (KnowledgeDiscoveryinDatabases) es el proceso no trivial de des-cubrir conocimiento e información potencialmente útil dentro de los datoscontenidos en algún repositorio de información [2]. La discretización es unproceso de KDD que permite particionar variables continuas a categorías,para así poder reducir la información y mantener sólo aquella que sea útilpara el proceso de aprendizaje automático [3].

Hablando sólo del sector médico, y específicamente del problema del cáncercérvico-uterino en México, existen contribuciones importantes, como lo sonlos algoritmos EBLA2, EBLA3, GENEBLA y PEVOMO que realizan tareasde discretización para obtener información reducida y útil. Estos algoritmoshan sido la base para el desarrollo del presente trabajo de tesis. El trabajo másreciente es PEVOMO (Programación EVOlutiva con función MultiObjetivo)[35] que ocupa un algoritmo basado en programación evolutiva para encontraruna solución óptima y su función de aptitud está basada en la maximizaciónde una función multiobjetivo (suma ponderada).

A diferencia de PEVOMO el algoritmo que se propone en esta tesis DDISI-GA por sus siglas inglés Data Discretization Inheritance Genetic Algorithm,utiliza como función objetivo únicamente la minimización de la tasa de error,basándose en un algoritmo genético con herencia de aptitud como técnica deaproximación para encontrar la solución óptima global. Se utilizó el clasifi-cador 1-NN en referencia a su aplicación en PEVOMO.

El conjunto de base de datos sobre el que fueron probados los algorit-mos PEVOMO, GENEBLA, SAX(PEVOMO), SAX(GENEBLA) y nuestrapropuesta, consta de 20 diferentes bases de datos. Se llevó a cabo la compara-ción directa de tasas de error de dichos algoritmos, registrando gráficamentemejores resultados en nuestra propuesta en 19 de 20 bases de datos.

Page 5: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

El algoritmo DDISIGA también fue probado sobre datos colposcópicosde 28 diferentes pacientes, donde se concluyó que el algoritmo propuestoes eficiente y competente sobre series de tiempo de datos colposcópicos, enrelación a valores de tasa de error.

Palabras Clave: Cáncer cérvico-uterino, colposcopía, minería de datos,discretización, 1-NN, algoritmo genético, herencia de aptitud.

2

Page 6: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

Índice general

1. Introducción 71.1. Definición del problema . . . . . . . . . . . . . . . . . . . . . . 81.2. Objetivo general . . . . . . . . . . . . . . . . . . . . . . . . . 111.3. Justificación . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111.4. Hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121.5. Estructura del documento . . . . . . . . . . . . . . . . . . . . 12

2. Cáncer cérvico-uterino 142.1. Cáncer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142.2. Cáncer del cérvix . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.2.1. Métodos de detección del cáncer cérvico-uterino . . . . 172.3. Colposcopía . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182.4. Sistema inteligente . . . . . . . . . . . . . . . . . . . . . . . . 19

3. Discretización 223.1. Datos continuos frente a datos discretos . . . . . . . . . . . . . 223.2. Problema de Discretización . . . . . . . . . . . . . . . . . . . . 233.3. Proceso de Discretización . . . . . . . . . . . . . . . . . . . . . 233.4. Métodos de Discretización . . . . . . . . . . . . . . . . . . . . 253.5. Trabajos relacionados . . . . . . . . . . . . . . . . . . . . . . . 28

3.5.1. Piecewise Aggregate Approximation (PAA) . . . 283.5.2. Symbolic Aggregate Approximation (SAX) . . . 293.5.3. Class-Attribute Interdependence Maximiza-

tion, CAIM . . . . . . . . . . . . . . . . . . . . . . . 303.5.4. Entropy Based Linear Approximation Algo-

rithm for Time Series Discretization, EBLA2 . . 303.5.5. Entropy Based Linear Approximation Algo-

rithm for Time Series Discretization, EBLA3 . . 31

1

Page 7: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

3.5.6. Discretization of Time Series Dataset with aGenetic Search, GENEBLA . . . . . . . . . . . . . 31

3.5.7. Programación EVOlutiva con función MultiOb-jetivo, PEVOMO . . . . . . . . . . . . . . . . . . . 32

4. Clasificación 344.1. Clasificadores con aprendizaje supervisado . . . . . . . . . . . 36

4.1.1. k-vecinos más cercano KNN . . . . . . . . . . . . . . . 364.1.2. Árbol de decisión ID3 . . . . . . . . . . . . . . . . . . 36

4.2. Medida de distancia Euclidiana . . . . . . . . . . . . . . . . . 374.3. Evaluación del desempeño de un clasificador . . . . . . . . . . 37

5. Algoritmo genético y herencia de aptitud 395.1. Algoritmo genético . . . . . . . . . . . . . . . . . . . . . . . . 39

5.1.1. Aplicaciones de Algoritmos genéticos: . . . . . . . . . . 405.1.2. Elementos de un algoritmo genético . . . . . . . . . . . 415.1.3. Pseudocódigo de un algoritmo genético . . . . . . . . . 44

5.2. Herencia de aptitud . . . . . . . . . . . . . . . . . . . . . . . . 45

6. Propuesta 476.1. Etapas del algoritmo genético . . . . . . . . . . . . . . . . . . 49

6.1.1. Representación entera y real de individuos. . . . . . . . 496.1.2. Población inicial . . . . . . . . . . . . . . . . . . . . . 496.1.3. Selección de padres por torneo binario determinista . . 506.1.4. Función de aptitud o calidad (Evaluación) . . . . . . . 506.1.5. Cruza de 2 puntos . . . . . . . . . . . . . . . . . . . . 526.1.6. Mutación uniforme . . . . . . . . . . . . . . . . . . . . 536.1.7. Reemplazo . . . . . . . . . . . . . . . . . . . . . . . . . 54

6.2. Algoritmo genético con Herencia de Aptitud . . . . . . . . . . 56

7. Metodología, resultados y discusión 597.1. Diseño experimental sobre el conjunto de 20 bases de datos . . 59

7.1.1. Análisis de resultados de los algoritmos sobre el con-junto de 20 bases de datos . . . . . . . . . . . . . . . . 60

7.2. Diseño experimental sobre datos colposcópicos . . . . . . . . . 707.2.1. Aplicación del algoritmo DDISIGA sobre series de

datos colposcópicos . . . . . . . . . . . . . . . . . . . . 717.2.2. Descripción de datos colposcópicos . . . . . . . . . . . 71

2

Page 8: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

7.2.3. Análisis de resultados del algoritmo DDISIGA sobredatos colposcópicos . . . . . . . . . . . . . . . . . . . . 72

7.3. Discusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 747.3.1. Algoritmo genético DDISIGA sobre el conjunto de

bases de datos . . . . . . . . . . . . . . . . . . . . . . . 747.3.2. Algoritmo genético DDISIGA sobre datos colposcópicos 75

8. Conclusiones y trabajo futuro 768.1. Conclusiones de la aplicación del algoritmo genético y el algo-

ritmo DDISIGA sobre el conjunto de bases de datos . . . . . . 768.2. Conclusiones de aplicación algoritmo DDISIGA sobre datos

colposcópicos . . . . . . . . . . . . . . . . . . . . . . . . . . . 778.3. Trabajo futuro . . . . . . . . . . . . . . . . . . . . . . . . . . 78

A. Gráfico de Box Plot de Tasa de Error 79

B. Gráfico de Box Plot de Tiempo de ejecución 85

C. Gráfico de Comparación múltiple de Tasa de Error 91

D. Gráfico de Comparación múltiple de Tiempo de Ejecución 96

3

Page 9: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

Índice de figuras

1.1. Representación del problema de discretización obteniendo eltamaño de palabra y los elementos del alfabeto que la forman. 9

1.2. Representación del problema de discretización obteniendo elnúmero de letras del alfabeto y el tamaño de cada una de ellas. 10

1.3. Representación de la solución del problema de discretizacióncon tamaño de palabra=7 y alfabeto=A,B,C y D . . . . . . . 10

2.1. Célula normal y anormal . . . . . . . . . . . . . . . . . . . . . 152.2. Cérvix o cuello del útero . . . . . . . . . . . . . . . . . . . . . 162.3. Estadísticas de cáncer cérvico-uterino . . . . . . . . . . . . . . 172.4. Incidencias por estados de México . . . . . . . . . . . . . . . . 182.5. Representación de los procesos del proyecto: Segmentación de

Imágenes Colposcópicas Utilizando Patrones Temporales Ace-toblancos para la Clasificación de Lesiones Cérvico Uterinas . 20

3.1. Proceso típico de discretización [13] . . . . . . . . . . . . . . . 243.2. Clasificación de métodos . . . . . . . . . . . . . . . . . . . . . 263.3. Reducción de dimensionalidad de una serie de tiempo vía PAA

[36] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 283.4. Serie de tiempo discretizada por SAX [36]. . . . . . . . . . . . 30

4.1. Modelo de clasificación . . . . . . . . . . . . . . . . . . . . . . 35

5.1. Proceso de un algoritmo genético simple . . . . . . . . . . . . 415.2. Cruza de un punto . . . . . . . . . . . . . . . . . . . . . . . . 435.3. Cruza de dos puntos . . . . . . . . . . . . . . . . . . . . . . . 435.4. Operador de mutación . . . . . . . . . . . . . . . . . . . . . . 445.5. Proceso de un algoritmo genético con herencia de aptitud . . . 46

6.1. Representación entera y real de un individuo . . . . . . . . . . 49

4

Page 10: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

6.2. Ordenamiento y eliminación de valores repetidos . . . . . . . . 516.3. Cruza de 2 puntos . . . . . . . . . . . . . . . . . . . . . . . . 53

7.1. Tasa de error del algoritmo DDISIGA frente a otros algoritmos 657.2. Prueba estadística U-Mann-Whitney del algoritmo DDISIGA

frente a otros algoritmos . . . . . . . . . . . . . . . . . . . . . 667.3. Gráfico de box plot de algoritmos . . . . . . . . . . . . . . . . 667.4. Gráfico de Correlación entre tiempo y tamaño del conjunto de

entrenamiento . . . . . . . . . . . . . . . . . . . . . . . . . . 677.5. Gráfico de correlación entre tiempo y tamaño del conjunto de

prueba . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 687.6. Gráfico de correlación entre tasa de error y el número de clases 697.7. Gráfico de correlación entre tasa de error y longitud de serie

de tiempo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 707.8. Resultados de tasa de error, de precisión, sensibilidad y de

especificidad de datos colposcópicos. . . . . . . . . . . . . . . 737.9. Resultados de tiempos de ejecución de algoritmo genético con

herencia sobre datos colposcópicos . . . . . . . . . . . . . . . . 74

5

Page 11: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

Índice de tablas

6.1. Tabla de características del Conjunto de 20 bases de datos. [34] 48

7.1. Prueba estadística U-Mann-Whitney de los Algoritmos 1, 2 y3 sobre el conjunto de base de datos . . . . . . . . . . . . . . 61

7.2. Tasa de error del algoritmo DDISIGA frente a otros algoritmos 647.3. Tabla de resultados de Algoritmo 1, 2 y 3 con series de datos

colposcópicos. . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

6

Page 12: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

Capítulo 1

Introducción

En México el cáncer cérvico-uterino es la segunda causa de muerte portumores malignos, 50 casos por 100,000 mujeres [4]. Este índice puede estarrelacionado a causas particulares de cada mujer mexicana que padece estaenfermedad, como la escasa información que se da en las comunidades o lafalta de servicios médicos y de personal calificado para estudios preventivosy de tratamientos.

Este tipo problemas médicos a propiciado que la Inteligencia Artificial in-cursione en la medicina en la construcción de programas de I.A. que obtengandiagnósticos y proporcionen recomendaciones terapéuticas [5].

En Veracruz, la colaboración del CONACyT a través del Fondo Sectorialde Investigación en Salud y Seguridad Social, el departamento de InteligenciaArtificial de la Facultad de Física e I.A. de la Universidad Veracruzana, elCentro de Especialidades Médicas del Estado de Veracruz y el LaboratorioNacional de Informática Avanzada, ha propiciado desarrollo del proyecto Seg-mentación de Imágenes Colposcópicas Utilizando Patrones Temporales Ace-toblancos para la Clasificación de Lesiones Cérvico Uterinas, que servirá deapoyo al equipo médico especializado del Centro de Especialidades Médicasde Xalapa, Veracruz, en realizar exámenes colposcópicos.

En el marco de este proyecto se implementan tareas de minería de datospara el procesamiento de los datos colposcópicos. La minería de datos esla aplicación de algoritmos específicos para la extracción de patrones en los

7

Page 13: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

datos [11]. Su oportuna aplicación generalmente permitirá obtener informa-ción útil para la toma de decisiones. Un proceso importante de este proyectoes la discretización, tema del presente trabajo de tesis.

La importancia del proceso discretización de datos colposcópicos delproyecto, recae en la necesidad actual de extraer información relevante yreducida de un conjunto de datos continuos, hacer la representación de datoscontinuos a datos discretos y finalmente que la preparación de dichos datossea la óptima para entrenar un clasificador, con el objeto de encontrar unaprecisión alta, que permita a los especialistas médicos guiarse para determi-nar un diagnóstico medico acertado.

La contribución principal de este documento de tesis, es la implementaciónde un algoritmo inspirado en la naturaleza que a través de un modelo deaproximación denominado herencia de aptitud, permita obtener una solu-ción global óptima de discretización. Así como reducir a su vez el alto costocomputacional que origina implementar un clasificador en un gran volumende datos continuos.

1.1. Definición del problemaEl problema general del proceso de discretización consiste en dos puntos:

Encontrar el número de grupos discretos sobre el eje de las abscisas,y la dimensión de cada grupo, para hacer el mapeo desde valorescontinuos a valores discretos, con el fin de obtener una versión reducidade la serie de tiempo original. Realizando una analogía de la serie detiempo con las letras del alfabeto, se busca saber cuantas palabrastiene el alfabeto y el tamaño de cada palabra (véase Figura 1.1).

8

Page 14: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

Figura 1.1: Representación del problema de discretización obteniendo eltamaño de palabra y los elementos del alfabeto que la forman.

Encontrar el menor número de categorías sobre el eje de las ordenadas,y la dimensión de cada categoría. En la misma analogía con el alfabeto,se busca obtener el menor número de letras del alfabeto y el rango decada letra (véase Figura 1.2).

9

Page 15: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

Figura 1.2: Representación del problema de discretización obteniendo elnúmero de letras del alfabeto y el tamaño de cada una de ellas.

De tal manera que se busca obtener una versión discreta de la serie detiempo original (ver Figura 1.3).

Figura 1.3: Representación de la solución del problema de discretización contamaño de palabra=7 y alfabeto=A,B,C y D

10

Page 16: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

1.2. Objetivo generalDiseñar un algoritmo genético para discretizar series de tiempo modelado

como un problema de optimización, utilizando la tasa de error de un clasifi-cador como función objetivo. El algoritmo DDISIGA se probará dentro delcontexto del proyecto Segmentación de Imágenes Colposcópicas UtilizandoPatrones Temporales Acetoblancos para la Clasificación de Lesiones CérvicoUterinas.

1.3. JustificaciónLas fases de la discretización, adquisición del conocimiento y aprendizaje

automático del proyecto Segmentación de Imágenes Colposcópicas UtilizandoPatrones Temporales Acetoblancos para la Clasificación de Lesiones CérvicoUterinas, consisten en modelar el conocimiento implícito en la interpretaciónde imágenes colposcópicas, para crear un sistema de apoyo a la toma dedecisiones que permita al especialista brindar un diagnóstico acertado a suspacientes. De ahí que se requiera un esquema de discretización altamentecompetitivo.

Derivado de lo anterior, se propone utilizar un método meta-heurístico conun enfoque mono-objetivo para obtener un mecanismo de discretización adhoc para este problema.

Se han encontrado propuestas como los algoritmos GENEBLA [37] yPEVOMO [35] que atacan el problema de discretización de datos como unproblema de optimización, utilizando algoritmos meta-heurísticos con resul-tados alentadores. Esto se considera como un buen indicio para resolver elproblema de discretización de series de tiempo, utilizando un algoritmo queutilice como función objetivo la salida de una técnica de clasificación, conla expectativa de mejorar los porcentajes de clasificación. El uso directo deun método de clasificación puede originar un costo computacional alto, loque conlleva el uso de un mecanismo de ahorro de evaluaciones (herencia deaptitud) en el algoritmo genético.

11

Page 17: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

1.4. HipótesisEs posible, mediante un algoritmo genético y una medida de calidad pro-

porcionada por un método de clasificación, obtener series de tiempo dis-cretizadas, en forma tal que el rendimiento del clasificador a desarrollar seamejor al del clasificador de algoritmos reportados en la literatura especiali-zada.

El criterio para evaluar la mejora del clasificador es mediante la tasa deerror y, equivalentemente también, la tasa de precisión.

1.5. Estructura del documentoLa estructura de este documento de tesis es la siguiente:

Capítulo 2, Cáncer cérvico-uterino. Aborda conceptos básicos en ma-teria de cáncer que se mencionarán en capítulos posteriores, tipos deexámenes clínicos para detectar el cáncer cérvico-uterino, se describeel proceso del examen de la colposcopía. Finalmente se describe el pro-ceso del proyecto Segmentación de Imágenes Colposcópicas UtilizandoPatrones Temporales Acetoblancos para la Clasificación de LesionesCérvico Uterinas, donde una de sus etapas, es la discretización deseries de tiempo de datos colposcópicos, tema que da pie al capítulode discretización.

Capítulo 3, Discretización. Se abordan conceptos básicos de dis-cretización que se mencionarán en capítulos posteriores. Ademásse comenta el estado del arte que describe diversos métodos dediscretización, y algunas soluciones propuestas al mismo dominio delproblema de este documento pero con otras medidas de calidad, comolo son los algoritmos EBLA2, EBLA3, GENEBLA y PEVOMO.

Capítulo 4, Clasificación. En este capítulo se describe el proceso declasificar en términos de aprendizaje supervisado. Se hace referencia alos conjuntos de entrenamiento y de prueba utilizados para clasificar,así como los tipos de modelos de clasificación. Además se describe el

12

Page 18: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

clasificador KNN y la medida de distancia utilizada en la aplicaciónde la propuesta, distancia Euclidiana. Finalmente se mencionan losmétodos de evaluación del desempeño de un clasificador.

Capítulo 5, Algoritmo genético y herencia de aptitud. Se describe elfuncionamiento general de un algoritmo genético así como el conceptoy el pseudocódigo de herencia de aptitud

Capítulo 6, Solución propuesta. Se documenta el diseño y la imple-mentación de la solución al problema descrito, basada en un algoritmogenético con el porcentaje de error obtenido para un método declasificación como función objetivo. También se documentarán lasherramientas tecnológicas utilizadas (p. ej. software Matlab) y loscriterios de desempeño utilizados.

Capítulo 7, Resultados y discusión. En este capítulo se documentanlos resultados obtenidos en los experimentos por el algoritmo genéticopropuesto y se muestran a través de tablas comparativas, esquemas ygráficas que permitirán formular una discusión.

Capítulo 8, Conclusiones y trabajo futuro. Se muestran las conclusionesobtenidas de acuerdo a los resultados sintetizados en el capítulo an-terior, donde se valida la hipótesis planteada originalmente, así comotambién se plantean propuestas de trabajos futuros a realizar para darlecontinuidad al presente tema de tesis.

13

Page 19: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

Capítulo 2

Cáncer cérvico-uterino

Este capítulo describe conceptos básicos de cáncer y cáncer cérvico-uterino,sus métodos de detección, el proceso del examen colposcópico que está in-merso en el estudio del sistema inteligente del proyecto: Segmentación deImágenes Colposcópicas Utilizando Patrones Temporales Acetoblancos parala Clasificación de Lesiones Cérvico Uterinas.

2.1. CáncerActualmente existen 100 tipos diferentes de cáncer. Todos los cánceres

empiezan en las células, dichas células son las unidades básicas que formanlos tejidos del cuerpo. El cuerpo está compuesto de muchos tipos de células,éstas se dividen para producir más conforme el cuerpo lo requiera. Cuando lascélulas envejecen, mueren y son reemplazadas por células nuevas [42] (Figura2.1). En ocasiones esa regeneración de células se descontrolan, es decir lascélulas nuevas se siguen formando cuando el cuerpo no las necesita, cuandoesto ocurre, las células viejas no mueren cuando deben morir, a esta masa detejido se le denomina tumor [42].

14

Page 20: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

Figura 2.1: Célula normal y anormal

Los tumores pueden ser benignos o malignos. Los tumores benignos no soncancerosos, en la mayoría de los casos se pueden extirpar, con la posibilidadde que se vuelvan a generar, sin embargo las células de los tumores benignosno se expanden a otros tejidos [43].

Los tumores malignos son cancerosos. Las células de estos tumores puedenexpandirse en otros tejidos u órganos. El nombre del cáncer maligno dependedel tipo del órgano o tipo de célula donde se originó [43].

2.2. Cáncer del cérvixEl cáncer cervical comienza en la superficie del cérvix o cuello del útero.

El cérvix es la parte más baja del útero (matriz). El cérvix conecta el cuerpodel útero con la vagina (ver Figura 2.2).

15

Page 21: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

Figura 2.2: Cérvix o cuello del útero

Este tipo de cáncer no aparece de forma espontánea, las células normalesdel cérvix van desarrollando gradualmente cambios pre cancerosos, de talmanera que se puede detectar a tiempo para su tratamiento, de lo contrariopuede convertirse en cáncer e invadir profundamente dentro del cérvix [42].

La causa del cáncer cérvico-uterino no está comprobada, pero su desarrolloestá relacionado con factores múltiples y principalmente por infección viraldel virus del papiloma humano. Los factores de riesgo descritos en diferentesestudios realizados a nivel mundial son:

Ser mayor de 25 años.

Inicio temprano de las relaciones sexuales (antes de los 19 años).

Múltiples parejas sexuales.

Multiparidad (más de 4 partos).

Embarazo temprano (antes de los 18 años).

Infección cervical por virus del papiloma humano (VPH).

16

Page 22: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

Antecedentes de enfermedades de transmisión sexual.

Tabaquismo.

Deficiencia de folatos y vitaminas A, C y E.

Nunca haberse practicado estudio citológico.

La mayoría de estos factores están relacionados primordialmente con un bajonivel socioeconómico y cultural, aunados a factores infecciosos locales.

En la Figura 2.3 se puede observar las estadísticas obtenidas en el 2008,que demuestra que el cáncer cérvico-uterino ocupa el segundo lugar de de-funciones por cáncer en mujeres mexicanas.

Figura 2.3: Estadísticas de cáncer cérvico-uterino

La Figura 2.4 muestra las incidencias de cáncer cérvico-uterino por estado,obtenidas en el 2009, de los cuales se ilustran sólo los estados de la RepúblicaMexicana con mayor número de incidencia y el estado de Veracruz perfilaentre ellos.

2.2.1. Métodos de detección del cáncer cérvico-uterino

A diferencia de otros tipos de cáncer, el cérvico-uterino se puede evitar. Ladetección temprana consiste en una prueba sencilla para detectarlo y se llama

17

Page 23: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

Figura 2.4: Incidencias por estados de México

prueba de papanicolaou (examen citológico cérvico-uterino). La prueba delpapanicolaou puede detectar cambios tempranos en las células del cuello delútero antes de que se convierta en cáncer cérvico-uterino. El papanicolaou,que se lleva a cabo usando un pedazo de algodón, un cepillo o una espátulade madera pequeña, para raspar suavemente el exterior del cuello uterino conel fin de recoger células [42].

La prueba secundaría es la colposcopía, es decir, si en la prueba del papani-colaou el resultado fue anormal, es necesario realizar la prueba colposcópica[6]. Esta prueba es más confiable, pero al mismo tiempo económicamente máscostosa.

2.3. ColposcopíaLa prueba colposcópica consiste en la observación de la superficie del cérvix

utilizando un microscopio de baja frecuencia llamado colposcopio. El diag-nóstico se realiza mediante la evaluación del cambio de intensidad del colorblanco que el epitelio experimenta después de la aplicación de ácido acéti-co. Este cambio transitorio de tonalidad en el tejido es llamado dinámica

18

Page 24: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

aceto-blanca y permite identificar el tejido normal (no presenta cambios decoloración) y el anormal (si presenta cambios de coloración)[9].

El proceso del examen colposcópico es el siguiente:

Se le pide a la paciente acostarse de espaldas con los pies sobre los estribosde la mesa de exploración ginecológica; se le introduce en la vagina un espécu-lo (un instrumento usado para mantener abierta la vagina y poder visualizary examinar el cuello uterino), se le aplica al cuello uterino una solución quími-ca (ácido acético) para retirar el moco cervical que recubre la superficie yayudar a resaltar las áreas anormales. Se ubica el colposcopio en la aberturade la vagina y se examina extensamente el área e incluso se pueden tomarfotografías. Si el médico lo considera necesario, puede tomar una muestra detejido para realizar una biopsia de alguna región que considere sugestiva decáncer cérvico-uterino[44].

La evaluación de las imágenes es subjetiva en el sentido que no hay criteriosabsolutos para correlacionar la tonalidad del tejido con el grado de lesión [6].Esto da pie al sistema inteligente en el cual se busca discriminar el tejidonormal de las lesiones cérvico-uterinas que se describen a continuación.

2.4. Sistema inteligenteEl proyecto Segmentación de Imágenes Colposcópicas Utilizando Patrones

Temporales Acetoblancos para la Clasificación de Lesiones Cérvico Uterinaspretende implementar la segmentación de una imagen colposcópica usandopatrones-temporales aceto-blancos para la clasificación de lesiones cervicales.En el proyecto intervienen CONACyT a través del fondo Sectorial de Inves-tigación en Salud y Seguridad Social, el departamento de Inteligencia Ar-tificial de la Facultad de Física e I. A. de la Universidad Veracruzana, elCentro de Especialidades Médicas del Estado de Veracruz y el LaboratorioNacional de Informática Avanzada (LANIA), y consta de las siguientes eta-pas; i)Adquisición de datos ii)Secuencias colposcópicas iii)Registro de imá-genes iv)Extracción de series de tiempo v)Discretización vi)Adquisición deconocimiento vii)Aprendizaje automático viii)Segmentación de la imagen. Elseguimiento correcto de cada una de las fases determinará el éxito del proyec-to (véase la Figura 2.5).

19

Page 25: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

Figura 2.5: Representación de los procesos del proyecto: Segmentación deImágenes Colposcópicas Utilizando Patrones Temporales Acetoblancos parala Clasificación de Lesiones Cérvico Uterinas

A continuación se describe en que consisten cada una de sus etapas:

i. Adquisición de datos. La adquisición de imágenes colposcópicas serealiza a través de un colposcopio, este proceso inicia diez segundosantes de rociar el ácido acético. La adquisición de imágenes se realizadurante un tiempo específico con una frecuencia de una imagen porsegundo [9].

ii. Secuencias colposcópicas. El conjunto de imágenes obtenidas du-

20

Page 26: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

rante la adquisición de datos es una secuencia colposcópica o tambiénconocida como volumen de imágenes. Se le denomina secuencia col-poscópica ya que el orden de las imágenes colposcópicas a través deltiempo es muy importante para su correcto análisis [9].

iii. Registro de imágenes. Su objetivo es reducir el movimiento que seorigina cuando la paciente respira durante la adquisición de imágenes[9].

iv. Extracción de series de tiempo. La reacción que se produce en eltejido cérvico-uterino después de la aplicación del ácido acético llamadadinámica aceto-blanca se representa a través de series de tiempo [38]. Laserie de tiempo se genera debido al cambio de intensidad de cada pixela través del tiempo.A estas series de tiempo las llamaremos FuncionesDinámicas de Respuesta Aceto Blanca (FDRA) [39].

v. Discretización. Se aplican técnicas de reducción de dimensionalidady de discretización de datos para extraer y mejorar el proceso de apren-dizaje automático [9].

vi. Adquisición de conocimiento. Una vez obtenidas el conjunto deseries de tiempo reducidas de dimensionalidad y discretizadas, se pre-sentan para dar pie al proceso de aprendizaje automático.

vii. Aprendizaje automático. La clasificación es una tarea de apren-dizaje automático, como se verá mas adelante, donde una técnica declasificación es empleada para construir un modelo de clasificación [22].El objetivo de este método es predecir las etiquetas de clase de un con-junto de datos prueba de acuerdo al aprendizaje que se obtuvo de unconjunto de datos de entrenamiento.

viii. Segmentación de la imagen. Son los resultados del proceso de clasi-ficación que se muestran en porcentajes de precisión, especificidad ysensibilidad.

21

Page 27: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

Capítulo 3

Discretización

Este capítulo define conceptos básicos de discretización, tipos de datos or-dinales, el proceso general de discretización que da pie al problema planteadoen el capítulo 1 y los diferentes métodos actuales de discretización.

La discretización es un proceso previo al de minería de datos, ambos pro-cesos forman parte del descubrimiento de conocimiento de datos (KDD). Ladiscretización es un proceso que transforma datos continuos a datos discre-tos (se describe formalmente en la Sección 3.2). La minería de datos, es elconjunto de técnicas que permiten obtener el máximo aprovechamiento deextracción de patrones importantes en los datos, y que mediante una serie deherramientas permite automatizar el proceso de extracción de informacióncon significado, a partir de los datos que ésta contiene [14].

Muchos estudios demuestran que tareas de inducción pueden ser beneficia-das del proceso de discretización. Reglas con valores discretos son normal-mente más cortas y más claras, la discretización puede conducir a una mejorprecisión de la predicción [13].

3.1. Datos continuos frente a datos discretosLos datos generalmente se presentan en un formato mixto: nominal, discre-

to, y/o continuo. Los datos discretos y continuos son datos de tipo ordinales,es decir con orden entre los valores, mientras que los nominales no poseenningún orden entre ellos [13].

22

Page 28: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

Los valores de los datos discretos son intervalos en una gama de valorescontinuos. El número de valores continuos para un atributo puede ser unnúmero infinito, mientras que los valores discretos a menudo suelen ser pocoso finitos [13].

3.2. Problema de DiscretizaciónLa discretización obtiene los datos del dominio x | x ε R, donde R es

el conjunto de los números reales y el esquema de discretización se definecomo D = {[d0, d1], (d1, d2], . . . , (dn−1, dn]} donde d0 y el dn son el valormínimo y máximo de x respectivamente. Cada par de valores representa unintervalo, el cual mapea el rango de valores continuos a un elemento de unconjunto discreto {1 . . .m}, donde m es llamado grado de discretización ydi | i = 1 . . . n son los límites del intervalo, también conocido como puntosde corte [24].

El problema de discretización puede ser dividido en dos tareas principales.La primera es encontrar el número de grupos discretos en que se puedenmapear los valores continuos. La segunda es definir el rango o límites decada intervalo en el dominio continuo [24].

3.3. Proceso de DiscretizaciónEs el proceso de partición de variables continuas en un número de sub-

rangos y trata cada subrango como una categoría, el número de maneras deindividualizar una cualidad continua es infinito.

23

Page 29: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

Un proceso típico de la discretización consiste en cuatro pasos [13], véaseFigura 3.1:

Atributo continuo Calsifica Atributo

Establecer Punto de Corte / Intervalos Adyacentes

Medida de Evaluación

Dividir / Unir Atributo

Medida Satisfecha

Criterio de Paro

Clasificando atributos continuos

Selecciona un punto decorte candidato o intervalos adyacentes

Invoca medidas adecuadas

Comprueba el resultado

Discretiza por división o uniónde intervalos adyacentes

Controla la discretización globalbasada en alguna medida

Si

No

Si

No

Clasificación

Evaluación

Dividiendo/Uniendo

Detener

Figura 3.1: Proceso típico de discretización [13]

(i) Ordenar los valores continuos con respecto a la característica en que seindividualizarán, puede ser descendente o ascendente. Este proceso puede sercomputacionalmente caro si no se tiene cuidado de implementarlo con dis-cretización. Es importante acelerar el proceso de discretización seleccionandoalgoritmos de ordenamiento.

(ii) Elegir un punto de corte. Después de ordenar la siguiente tarea esencontrar el mejor punto de corte ya sea para cortar o combinar los intervalosadyacentes.

24

Page 30: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

(iii) Cortar/Combinar. En un enfoque top− down los intervalos se cortanmientras que en bottom− up los intervalos son combinados. Realizar una deestas dos acciones requiere evaluar cada punto de corte hasta que el criteriode paro sea satisfecho.

(iv) Criterio de paro. El proceso finaliza cuando llega a una medida decorte o combinación que le fue proporcionada, o que el algoritmo decidió.

3.4. Métodos de DiscretizaciónUn buen algoritmo de discretización tiene que balancear la pérdida de lo

intrínseco de la información a esta clase de proceso y de generar un númerorazonable de puntos de corte, es decir, un espacio de búsqueda razonable.Generalmente para resolver este problema se ocupa una función de evaluación(medida de entropía y medidas estadísticas entre otras) para determinar lacorrelación de un corte o unión con una etiqueta de clase [3]. Así también sebusca un equilibrio entre precisión y compacidad [10].

Actualmente, existen diversos métodos de discretización de datos. Porejemplo en [13] se comparan los métodos más importantes, y realizan unesquema de clasificación de los métodos de discretización por niveles. Otrotrabajo que también analiza los métodos de discretización, es el de Kotsiantiset al. [3], en el cual muestra una clasificación de métodos de acuerdo cate-gorías (véase la Figura 3.2).

25

Page 31: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

Unión

Discretización

División

Supervisado No Supervisado

Dependencia

ChiMergeChi2ConMerge

Nulo

No Supervisado Supervisado

Almacenamiento

Igual anchura

Igualfrecuencia

Entropía

ID3D2MDLPContrast

DistanciaMantaras

Almacenamiento

1R EntropíaMarginal

Dependencia

Zeta

Precisión

Cuantificadoradaptable

(Nivel 0)

(Nivel 1)

(Nivel 2)

(Nivel 3: Medida Disc.)

(Nivel 4: MétodoDisc.)

Figura 3.2: Clasificación de métodos

Clasificación de acuerdo a categorías [3]:

(1) Supervisado o no supervisado. Se les denomina métodos supervisadosa aquellos que sí hacen uso de la información de clase durante el proceso dela discretización. Los métodos no supervisados son precisamente lo contrario,por ejemplo discretizaciones de igual-anchura y de igual-frecuencia.

(2) Directo o incremental. Los métodos directos dividen el rango de kintervalos simultáneamente (por ejemplo igual-anchura e igual-frecuencia),necesitando una entrada adicional (valor de k) del usuario para determinarel número de intervalos. Los métodos incrementales comienzan con una dis-cretización simple y pasan por un proceso de mejora, necesitando un criterioadicional para saber cuándo parar e individualizar.

(3) Global o local. El método local puede discretizar en una localizadaregión de una instancia de espacio, mientras que el método global usa lainstancia de espacio completa.

26

Page 32: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

(4) Estático o dinámico. Un método dinámico puede discretizar valorescontinuos cuando el clasificador está en construcción, mientras que en unestático la discretización se realiza antes de la clasificación.

(5) Descendente o ascendente (top − down/bottom − up). Los métodosdescendentes consideran un intervalo grande que contiene todos los valoresconocidos de una característica y después reparten este intervalo en subin-tervalos más pequeños y más pequeños (separando) hasta cierto criterio dedetención. Los métodos ascendentes consideran inicialmente un número deintervalos, para poder combinarlos durante la ejecución hasta cierto criteriode detención (uniendo).

Con el fin de mejorar el rendimiento de aprendizaje de un modelo, ladiscretización puede ayudar a simplificar la representación de datos, mejorarla interpretación de los resultados, y que los datos sean accesibles a un mayornúmero de métodos de minería de datos. Los beneficios pueden incluir lamejora del tiempo de inducción, pequeños árboles de inducción o tamaño deconjunto de reglas, e incluso mejorar la exactitud de predicción [25].

La discretización es frecuentemente aplicada a las variables que serán usa-das en clasificación o análisis de asociación. En general la mejor propuesta dediscretización es aquella que obtiene los mejores resultados en el algoritmode minería de datos que será utilizado para analizar la información, aunquetambién depende de cómo sea considerado el resto de las variables [1].

Antes de continuar es necesario describir el concepto de una serie de tiem-po. Una serie de tiempo es una colección de observaciones hechas secuencial-mente en tiempo. Por lo tanto las series de tiempo se producen en casi todoslos ámbitos médicos, científicos y empresariales [18].

Los métodos tradicionales de minería de datos están diseñados de acuerdoa bases de datos estáticas, es decir que el orden de los registros u objetosno tienen relación alguna con los patrones de interés, sin embargo existenmuchos casos donde la información secuencial, como un sello de tiempo, puedemejorar significativamente el conocimiento de los datos extraídos [17].

27

Page 33: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

3.5. Trabajos relacionadosExisten diferentes algoritmos, de diversas naturalezas, como PAA cuya

representación es no adaptativa, SAX con representación de series de tiempoadaptativa. Así mismo SAX, EBLA2 y EBLA3 son algoritmos que requierenparámetros definidos por el usuario para operar o GENEBLA cuya separaciónse da por minimizar el error primero por alfabeto y después sobre longitud depalabra. La clasificación en la que podemos localizar dichos algoritmos puedeser variada pero lo más importante es que, todos estos algoritmos buscanresolver el problema de discretización con diferentes heurísticas que sirvencomo marco de referencia para la solución propuesta de nuestro algoritmo(DDISIGA).

3.5.1. Piecewise Aggregate Approximation (PAA)

Es la principal representación de series de tiempo no adaptativas, dondecada secuencia de series de tiempo se divide en k segmentos iguales, y suvalor medio de cada segmento es utilizado como un sistema de coordenadasen un vector k-dimensional, que se convierte en una representación reducidade los datos [36]. Véase Figura 3.3.

Figura 3.3: Reducción de dimensionalidad de una serie de tiempo vía PAA[36]

Formalmente se define PAA como una serie de tiempo C de longitud nque puede ser representada en un espacio w − dimensional por un vector

28

Page 34: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

C = c1 . . . cw. El i − esimo elemento de C es calculado por la siguienteecuación:

ci =w

n

nwi∑

j= nw(i−1)+1

cj (3.1)

La principal desventaja de la representación PAA, es que el valor mediocalculado puede causar la posibilidad de perder algunos patrones importantesde la serie de tiempo durante su análisis [36].

3.5.2. Symbolic Aggregate Approximation (SAX)

El algoritmo está basado en la representation Piecewise Aggregate Appro-ximation (PAA) [20]. Primero se transforman los datos en representaciónPiecewise Aggregate Approximation (PAA) para posteriormente simbolizarla representación PAA en una cadena discreta. Se pueden utilizar varios sím-bolos para representar a la serie de tiempo, ya que cada símbolo requieremenos bits que un número real [18]. SAX es la primera representación sim-bólica de series de tiempo con una función de distancia aproximada a loslímites inferiores de la distancia Euclidiana [36]. La principal desventaja deSAX es requerir que el usuario defina el alfabeto y tamaño de la palabracomo parámetros. En la Figura 3.4 se puede observar una serie de tiempodiscretizada por SAX, cuya dimensionalidad es reducida vía PAA de 60 a 6,y mapeada a la palabra ABCBBA.

29

Page 35: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

Figura 3.4: Serie de tiempo discretizada por SAX [36].

3.5.3. Class-Attribute Interdependence Maximization,CAIM

Algoritmo que utiliza un método de discretización supervisado, cuyo ob-jetivo es maximizar la interdependencia clase-atributo utilizando gananciade información denominada CAIM y generar un número mínimo de interva-los discretos con sus respectivos límites. CAIM trabaja con datos estáticosy busca encontrar un esquema de discretización reducido para el proceso declasificación, basándose en resolver el problema general de discretización. Laprincipal ventaja de este algoritmo es que a diferencia de SAX, CAIM norequiere que el usuario predefina el número de intervalos, ya que busca enencontrar el número de grupos discretos y al mismo tiempo encontrar la di-mensión de cada intervalo, basándose en la interdependencia entre los valoresclase-atributo. Una posible desventaja es que utiliza un enfoque de búsquedaambiciosa [24].

3.5.4. Entropy Based Linear Approximation Algorithmfor Time Series Discretization, EBLA2

Utiliza un método de discretización supervisado, y no sólo busca dis-cretizar series de tiempo para reducir su dimensionalidad, sino también de-

30

Page 36: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

termina automáticamente la escala de reducción de series de tiempo (tamañode la palabra) y sus diferentes rangos para maximizar la precisión en el pro-ceso de clasificación. Resuelve el problema de discretización hacia ambosejes(abscisas y ordenadas). Se basa en el algoritmo CAIM ya que al igualutiliza una métrica para evaluar cada esquema de discretización, a diferenciaque EBLA2 ocupa ganancia de información en términos de entropía. Para lareducción de dimensionalidad se basa en la representación PAA. Una posi-ble desventaja de este algoritmo es que utiliza una búsqueda ambiciosa yaque construye sólo una solución a partir de los mejores resultados en cadaiteración [21].

3.5.5. Entropy Based Linear Approximation Algorithmfor Time Series Discretization, EBLA3

Algoritmo de discretización supervisado, que calcula automáticamente eltamaño del alfabeto y el tamaño de la palabra utilizando un enfoque de reco-cido simulado. Primero busca un esquema de discretización evaluando puntosde corte para obtener el mejor alfabeto, posteriormente, en una segunda fase,se busca calcular el tamaño de la palabra y reducir así la longitud de la se-rie de tiempo eliminando puntos de corte que no afecten el desempeño dela clasificación. Su objetivo es minimizar la entropía de los patrones tempo-rales sobre sus etiquetas de clase, con un mínimo de intervalos y procurandoconservar la información más relevante. El enfoque de recocido simulado lepermite a EBLA3 realizar una búsqueda más amplia que EBLA2. Sin em-bargo no se puede asegurar que la solución encontrada sea un óptimo global,puesto que el espacio de búsqueda explorado no abarca todas las posiblessoluciones [23].

3.5.6. Discretization of Time Series Dataset with a Ge-netic Search, GENEBLA

Algoritmo de discretización supervisado que resuelve el problema de dis-cretización sobre los dos ejes (abscisas y ordenadas). Utiliza un método de

31

Page 37: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

búsqueda genética simple, que permita encontrar buenas soluciones en menortiempo, y cuya función objetivo es minimizar la entropía de patrones tempo-rales con respecto a sus etiquetas de clase. Se basa en la representación PAApara la reducción de dimensionalidad de los datos. Este algoritmo requiereque el usuario defina los parámetros de número de generaciones, número mí-nimo de generaciones, porcentaje de cruza y probabilidad de mutación, quepermitan ejercer un control sobre el algoritmo y obtener así suficientes buenosresultados [37].

GENEBLA resuelve el problema de discretización en dos fases, la primeraconsiste en encontrar el número y rango de intervalos tiempo que mantienenla información relevante (alfabeto) y la segunda busca la discretización dedatos en cada intervalo de tiempo (tamaño de la palabra). En la primera fase(alfabeto), la representación del individuo es de tipo real, para la selecciónde padres utiliza el método de ruleta donde la probabilidad de selección escalculada basada en la población y su valor de aptitud, así como cruza de unpunto y mutación simple. En la segunda fase (tamaño de la palabra) la repre-sentación del individuo es binaria, la función de selección es similar a la dela primera fase, utiliza cruza de dos puntos y mutación simple para dos posi-ciones de un individuo elegidas al azar. A diferencia de EBLA3 implementauna búsqueda global.

3.5.7. Programación EVOlutiva con función MultiOb-jetivo, PEVOMO

. Algoritmo de discretización supervisada que se basa en el área de cóm-puto evolutivo empleando la técnica de programación evolutiva para encon-trar una solución óptima. Utiliza una representación PAA para la reducciónde dimensionalidad de los datos. Determina automáticamente el tamaño depalabra y de alfabeto. A diferencia de GENEBLA, este algoritmo crea unesquema de discretización uniendo tamaño de la palabra y alfabeto en unsólo individuo. La función de aptitud está basada en la maximización deuna función multiobjetivo (suma ponderada), para posteriormente utilizar elclasificador vecino más cercano (K-NN). La suma ponderada está constituidapor precisión de clasificación (accuracy), compresión sobre las lecturas de las

32

Page 38: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

series de tiempo (número de cadenas de caracteres) y reducción de dimen-sionalidad, cada uno de dichos elementos son ponderados por un coeficiente.

La representación del individuo que ocupa PEVOMO está constituida poruna sección de números enteros para la sección del tamaño de la palabra yuna sección de números reales para la sección del alfabeto. Inicia con unapoblación de tamaño n, evalúa dicha población, y mantiene sólo la mitadde los individuos para que posteriormente todos los individuos sean seleccio-nados como padres y cada uno produzca exactamente un nuevo individuo(hijo), a través de la mutación. El único operador que ocupa precisamente esel de mutación, el número de cambios que tendrá una solución es determinadomediante un valor aleatorio entre 1 y 4. Su selección de sobrevivientes se basaen elegir el 50% de individuos más aptos de toda la población [35].

33

Page 39: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

Capítulo 4

Clasificación

En el aprendizaje automático se desarrollan algoritmos y técnicas que per-mitan a las computadoras aprender [8]. Algunos ejemplos de las aplicacionesde clasificación son las tendencias de los mercados financieros (Apte y Hong1996), o identificar de manera automatizada objetos de interés en las basesde datos de imágenes de gran tamaño (Fayyad, Djorgovski, y Weir, 1996),así como permitir en un banco decidir si los solicitantes de prestamos, en elfuturo serán candidatos a otro préstamo o no Fayyad.

La clasificación es una de las tareas que se puede realizar con el aprendizajeautomático, en la cual los datos son objetos caracterizados por atributos quepertenecen a diferentes clases (etiquetas discretas), la meta es inducir unmodelo para poder predecir una clase dado los valores de los atributos [22].

Clasificación es la tarea de aprender una función objetivo f que designacada conjunto de atributos x a una de las etiquetas de la clase predefiniday. La función objetivo es también conocida informalmente como modelo declasificación [1], véase la Figura 4.1.

34

Page 40: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

Modelo de Clasificación

ENTRADA SALIDA

Conjunto de atributos (x)

Conjunto de clases (y)

Figura 4.1: Modelo de clasificación

Un modelo de clasificación es útil para distinguir entre objetos de diferentesclases (modelo descriptivo) y para predecir las etiquetas de clase de registrosno conocidos (modelo predictivo) [1].

Un clasificador, es un enfoque sistemático para construir modelos de clasi-ficación desde un conjunto de datos de entrada. Algunos ejemplos son clasi-ficadores de arboles de decisión, clasificadores basados en reglas, redes neu-ronales, soporte de máquinas vectoriales y clasificadores Naïve Bayes. Cadatécnica emplea un algoritmo de aprendizaje para identificar un mode-lo que mejor relacione entre conjunto de atributos y etiquetas de clase delos datos de entrada. El objetivo clave del algoritmo de aprendizaje esconstruir modelos con buena capacidad de generalización [1].

El conjunto de entrenamiento consiste de registros cuyas etiquetas de clasesconocidas deben de ser proporcionadas. Este es usado para construir un mo-delo de clasificación, el cual es subsecuentemente aplicado a el conjunto deprueba, que tiene registros con etiquetas de clase desconocidas [1].

Una métrica utilizada para evaluar el desempeño del modelo es la pre-cisión, la cual se define en la siguiente formula.

Precision =Numero de predicciones correctas

total de predicciones(4.1)

Equivalentemente, el desempeño de un modelo puede ser expresado entérminos de su tasa de error, la cual es obtenida de la siguiente ecuación:

Tasa de error =Numero de predicciones erroneas

total de predicciones(4.2)

35

Page 41: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

4.1. Clasificadores con aprendizaje supervisado

4.1.1. k-vecinos más cercano KNN

El conjunto de entrenamiento está descrito por un espacio de atributos den-dimensiones. Cada ejemplo representa un punto en dicho espacio. Todoslos ejemplos de entrenamiento son almacenados en un espacio de patrón den-dimensiones. Cuando llega un ejemplo desconocido es asignado a la clase, elclasificador busca en el espacio de patrón los k ejemplos de entrenamiento quesean más cercanos al ejemplo desconocido. El ejemplo desconocido es asig-nado a la clase mas común entre sus k vecinos más cercanos. Cuando k =1,el ejemplo desconocido es asignado a la clase del ejemplo de entrenamientoque tiene más cerca en el espacio patrón [22].

4.1.2. Árbol de decisión ID3

El árbol ID3, es un árbol de decisión que utiliza inducción top-down, fuedesarrollado por J. Ross Quinlan en 1983. El árbol de decisión tiene tres tiposde nodos:

Nodo raíz, que no tiene aristas entrantes y cero o más aristas de salida.

Nodo interno, cada uno de los cuales tiene exactamente una aristaentrante y dos o más aristas de salida.

Hoja o nodo terminal, cada uno de los cuales tienen exactamente unade las aristas de entrada y no tiene aristas de salida.

En un árbol de decisión, cada nodo hoja es asignado a una etiqueta declase. El nodo no-terminal, el cual incluye la raíz y otro nodo intermedio,contienen el atributo condiciones de prueba para separar los registros quetienen características diferentes [1].

Algunos árboles de decisión son más exactos que otros y encontrar unoóptimo es computacionalmente inviable debido al tamaño exponencial debúsqueda. Sin embargo, algoritmos eficientes han sido desarrollados para in-ducir la precisión razonablemente, aunque usualmente emplean una estrate-gia ambiciosa [1].

36

Page 42: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

Los árboles de decisión son algoritmos supervisados. ID3 mide cuanto in-formativo es un atributo empleando entropía. La entropía de Shannon midela incertidumbre de una variable aleatoria para un determinado resultado.

4.2. Medida de distancia EuclidianaLa estrategia mas común consiste en medir la equivalencia en términos de

la distancia entre los pares de objetos. Los objetos con distancias reducidasentre ellos son más parecidos entre sí, que aquellos que tienen distanciasmayores [1].

La medida que se utiliza con mayor frecuencia es la distancia Euclidiana.Está medida es la raíz cuadrada de la suma de las diferencias cuadradas enlos objetos para cada variable. Definida como: Dado dos objetos Q y C de nvariables.

D(Q,C) =

√√√√ n∑i=1

(qi − ci)2 (4.3)

Distancia Euclidiana

Donde Q = (q1, q2, ...qn) y C = (c1, c2, ...cn) son objetos en el espacio de ndimensiones o variables.

4.3. Evaluación del desempeño de un clasifi-cador

Un inductor o algoritmo de inducción, construye un clasificador a partirde un conjunto de datos. La precisión de un clasificador C es la probabilidadde clasificar correctamente un ejemplo seleccionado aleatoriamente. Para es-timar la precisión de un clasificador se utilizan métodos estadísticos comoholdout, k-fold cross-validation, leave-one-out cross validation, etc. [22]. Laprecisión o tasa de error obtenida del conjunto de prueba también puede serutilizada para comparar el desempeño de diferentes clasificadores en el mismodominio.

37

Page 43: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

Método holdout. Los datos originales con ejemplos etiquetados son par-ticionados en dos subconjuntos, llamado conjunto de entrenamiento y con-junto de prueba, respectivamente. La proporción de datos reservados paraentrenamiento y para prueba es normalmente a discreción del análisis (porejemplo 50-50 o dos terceras partes para entrenamiento y una tercera partepara prueba) [1].

Método cross-validation. Cada registro es usado el mismo número deveces para entrenamiento y exactamente una para prueba. El método k-foldcross-validation segmenta los datos en k conjuntos aproximadamente de igualtamaño, durante cada ejecución una de las particiones es elegida para probar,mientras el resto de las particiones son usadas para probar.

Método leave-one-out. Es un caso especial de utilizar el métodok-foldcross-validation donde k=N, k es igual al número de ejemplos del conjunto dedatos. Este enfoque tienen la ventaja de utilizar para el entrenamiento tantodatos como sea posible. En otras palabras, se toma en cuenta un ejemplo delconjunto de datos para prueba y n-1 ejemplos para entrenamiento. Además,los conjuntos de prueba son mutuamente excluyentes y cubren eficientementetodo el conjunto de datos [1].

38

Page 44: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

Capítulo 5

Algoritmo genético y herencia deaptitud

5.1. Algoritmo genéticoEl algoritmo genético es una técnica de optimización de propósito general,

basada en los principios de la evolución natural, usada para encontrar lasolución optima (o casi óptima) [12].

Un algoritmo genético, es un algoritmo altamente paralelo que transfor-ma un conjunto de objetos matemáticos individuales con respecto al tiempo,usando operaciones modeladas de acuerdo al principio Darwiniano de repro-ducción y supervivencia del más apto, y tras haberse presentado de formanatural una serie de operaciones genéticas de entre las que destaca la recom-binación sexual. Cada uno de estos objetos suele ser una cadena de caracteres(letras o números) de longitud fija que se ajusta al modelo de las cadenas decromosomas, y se les asocia con una cierta función matemática que refleja suaptitud [27].

Características

Basados en poblaciones.

Utilizan combinación de soluciones para generar nuevas soluciones.

Son estocásticos.

39

Page 45: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

5.1.1. Aplicaciones de Algoritmos genéticos:

A continuación se muestran las aplicaciones más generales de un AlgoritmoGenético (AG) [31].

Optimización: Los AGs han sido usados en una amplia variedadde tareas de optimización, incluyendo optimización numérica y deoptimización combinatoria como el diseño de circuitos.

Programación automática. Los AGs se han utilizado para desarrollarprogramas de computadoras para tareas específicas y para diseñarotras estructuras computacionales, tales como autómatas celulares yredes de ordenación.

Aprendizaje automático. Los AGs han sido utilizados por muchasaplicaciones de aprendizaje automático, incluyendo tareas de clasi-ficación y predicción, como la predicción del estado del tiempo o laestructura de proteínas. También se han utilizado para desarrollaraspectos particulares de aprendizaje automático, tales como pesospara redes neuronales, reglas para el aprendizaje para los sistemas declasificación y sensores para robots.

Economía. Los AGs han sido usados en modelos de procesos deinnovación, el desarrollo de estrategias de ofertas, y la emergencia demercados económicos.

Sistemas inmunes. Los AGs han sido usados para modelar variosaspectos de sistemas inmunes naturales, incluyendo mutación somáticadurante la vida de un individuo y el descubrimiento de familiasmulti-genes durante el tiempo evolutivo.

Ecología. Los AGs han sido usados para modelar fenómenos ecológicoscomo la coevolución de parásitos, simbiosis y el flujo de recursos.

40

Page 46: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

Sistemas sociales. Los AGs han sido usados para estudiar aspectos desistemas sociales, tales como la evolución del comportamiento social decolonias de insectos y más generalmente, la evolución de cooperación ycomunicación en sistemas multi-agentes.

La aplicación más común de los algoritmo genéticos ha sido la soluciónde problemas de optimización, en donde han mostrado ser muy eficientes yconfiables.

5.1.2. Elementos de un algoritmo genético

A continuación se muestra la Figura 5.1 la cual esquematiza el proceso deun algoritmo genético simple, así como los elementos más representativos quese detallan más adelante.

Población

Padres

Hijos

InicioSelección de padres

Cruza

Mutación

Selección de sobrevivientesFin

Figura 5.1: Proceso de un algoritmo genético simple

Representación de un individuo. La representación puede ser por es-pacio genotípico o por espacio fenotípico. Por espacio genotípico es la repre-sentación del individuo, la cual se encuentra codificada. Por espacio fenotípicoes la decodificación del genotipo que representa un valor dentro del problemaa resolver. La representación de un individuo puede ser binaria, entera, realo por permutaciones.

Función de aptitud. La función de aptitud es la función objetivo delproblema de optimización que representa el problema a resolverse y el am-biente en el que se mueven los individuos. Debe de ser capaz de "castigar"

41

Page 47: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

a las malas soluciones, y de "premiar" a las buenas de manera que estasúltimas se propaguen con mayor rapidez [7].

Población inicial. La población inicial está constituida por un conjuntode cromosomas, soluciones o genotipos. A cada uno de los cromosomas se leaplicará la función de aptitud con el objetivo de identificar que tan buena esla solución propuesta.

Selección de padres. Después de conocer la aptitud de cada cromosoma,se procede a la selección de los cromosomas que se cruzarán en la siguientegeneración. El objetivo es distinguir entre individuos considerando su mejorvalor de aptitud. Un individuo se considera padre si ha sido seleccionado paraaplicársele un operador de variación con la intención de generar descendencia.Los métodos más comunes son: ruleta y torneo.

Ruleta. Técnica propuesta por DeJong (1975), fue el método más común-mente usado en los orígenes de los algoritmos genéticos. Consiste en crear unaruleta en la que cada cromosoma tiene asignada una fracción proporcional asu aptitud.

Torneo. Técnica propuesta por Wetzel y estudiada en la tesis doctoralde Brindle (1981). Se baraja la población y después se hace competir a loscromosomas que la integran en grupos de tamaño predefinido, resultaránganadores aquéllos que tengan valores de aptitud más altos. Si se efectúa untorneo binario el mejor individuo será seleccionado 2 veces.

Operador de recombinación o cruza. Combina información o materialcromosómico de 2 o más soluciones en un descendiente común, es estocástica.Mientras que el operador de mutación actúa como un operador de reintro-ducir "genes perdidos", el operador de cruza se considera como el operador debúsqueda más importante de un AG [30]. La idea de introducir un operadorde cruza es que los segmentos útiles de diferentes padres puedan ser combina-dos para producir un nuevo individuo que se beneficie de ambos padres [28].Las formas más comunes de reproducción sexual son cruza de 1 y 2 puntos.

42

Page 48: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

Cruza de un punto. El punto se elige de manera aleatoria sobre la longi-tud de la cadena que representa el cromosoma, a partir de él se realiza elintercambio de material cromosómico de los dos individuos (ver Figura 5.2).

Figura 5.2: Cruza de un punto

Cruza de 2 puntos. El procedimiento es similar a la cruza de un punto.Se establece dos puntos de cruza para los dos individuos y en el intercam-bio de material cromosómico se mantienen los genes de los extremos y seintercambian los del centro (ver Figura 5.3).

Figura 5.3: Cruza de dos puntos

Operador de Mutación. El operador de mutación fue introducido porHolland como un "operador background" que ocasionalmente cambia bitsde un individuo. En analogía con el modelo natural, la probabilidad de mu-tación por bit es pequeña en los AGs [28]. Ésta se aplica a un genotipo paraobtener una versión ligeramente modificada, de tal manera que realiza un

43

Page 49: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

cambio a uno de los genes del cromosoma elegido aleatoriamente. Es unariay estocástica (ver Figura 5.4).

Figura 5.4: Operador de mutación

Reemplazo. Se busca distinguir entre los individuos con base en su calidado edad para mantener el tamaño de la población fijo, el reemplazo típicamentees generacional, en donde, todos los padres mueren y los hijos formarán lapoblación para la siguiente generación. Puede utilizarse el elitismo, es decir,conservar la mejor solución y pasarla intacta a la siguiente generación, estogarantiza la convergencia en tiempo infinito de un AG [7].

5.1.3. Pseudocódigo de un algoritmo genético

1. Inicia con una población generada aleatoriamente de x cromosomas(soluciones candidatas al problema).

2. Calcula el valor de aptitud f(x) de cada cromosoma x en la población

3. Repite los siguientes pasos hasta que la población pob haya sido creada.

a) Selecciona un par de cromosomas padres de la población actual,la probabilidad de selección es una función creciente de la aptitud.

b) De acuerdo al valor de cruza, cruza el par de padres en un puntoelegido aleatoriamente para formar dos hijos. Si la cruza no se llevaa cabo, se forman dos copias exactas de los respectivos padres.

c) Muta los dos hijos de acuerdo al valor de probabilidad de mutacióny colócalos en la nueva población.

4. Reemplaza la población actual con la nueva población

5. Regresa al paso 2.

44

Page 50: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

Cada iteración de este proceso es llamada generación. El conjunto degeneraciones es denominado corrida. Dado que el azar juega un papel im-portante en cada corrida, dos corridas con diferentes semillas por lo generalproducen distintos comportamientos. Los reportes estadísticos de investiga-ciones con AGs a menudo informan (como su mejor valor de aptitud encon-trado) el valor medio de muchas corridas ejecutadas [31].

5.2. Herencia de aptitudCuando los algoritmos evolutivos se implementan para resolver problemas

de optimización costosos o los experimentos para la estimación de aptitud sonprohibitivamente costosos es recomendable utilizar algún tipo de "Surrogate-assisted" (sustituto asistido), como ha sucedido en problemas de optimizacióndel diseño aerodinámico donde simulaciones computacionalmente complejasson involucradas [33].

Los AGs han demostrado su eficacia en una amplia gama de problemas,sin embargo cuando la evaluación del valor de aptitud de cada individuode la población resulta computacionalmente costosa, la perspectiva de laevaluación de toda una población puede prohibir el uso de un AG [29].

La herencia de aptitud es un tipo de "Surrogate-assisted", es una técnicaen perfeccionamiento, en la cual el valor de aptitud de un nuevo descendientees obtenido del valor de aptitud de los padres que lo generaron. El uso deherencia de aptitud para mejorar el rendimiento de los algoritmos genéticosfue propuesto originalmente por Smith et al. [29], en donde los experimen-tos presentados indican que la herencia puede permitir la evaluación de lapoblación con un costo computacional menor y por lo tanto se puede mejorarsustancialmente la aplicabilidad de los AGs.

La herencia consiste en guardar temporalmente en una población auxiliartodos los padres que intervinieron en la creación del nuevo hijo, después semide la distancia entre el hijo y cada uno de los padres, utilizando la distanciade Manhattan (véase la Figura 5.5).

45

Page 51: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

Población

Padres

Hijos

InicioSelección de padres

Cruza

Mutación

Fin

Hijos con Herencia de AptitudSelección de sobrevivientes

Herencia de Aptitud

Figura 5.5: Proceso de un algoritmo genético con herencia de aptitud

La distancia de Manhattan o de Calles Urbanas entre dos objetos es lasuma de los valores absolutos de la diferencia entre observaciones para cadavariable. La motivación principal para utilizar la distancia de Manhattan esque tiene un costo computacional mucho menor en comparación con otrasmedidas de distancia [32].

n∑i=1

| Xpi −Xhi | (5.1)

Distancia de Manhattan

Donde Xp es el individuo padre, Xh es el individuo hijo y n es el númerode variables del problema.

Posteriormente el hijo toma todas las características del individuo quetenga la menor distancia con respecto a él (valores de la función objetivo).

46

Page 52: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

Capítulo 6

Propuesta

En el presente capítulo se describe el algoritmo genético utilizado con susrespectivos operadores y el modelo de aproximación para optimizar el costocomputacional, es decir la herencia de aptitud.

El algoritmo fue probado sobre un conjunto de base de datos [34] paracalibrar su funcionamiento (véase la Tabla 6.1). Este conjunto consta de 20diferentes bases de datos con distintos orígenes o naturaleza, de las cuales,cada base datos se encuentra separada en conjunto de entrenamiento y con-junto de prueba. De esta manera nos aseguramos que la propuesta de nuestroalgoritmo sea viable para cualquier problema de discretización de series detiempo. El algoritmo DDISIGA fue programado con la herramienta de MAT-LAB 7.9.0 (r2009b) y ejecutado en un equipo de escritorio con las siguientescaracterísticas:

Equipo Dell Vostro 220, procesador Intel(R)CoreTM 2 Duo E7400/2.8Ghz, 320 GB H.D., 2.96 GB RAM.

47

Page 53: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

Conjunto deDatos

Númerode

Clases

Tamaño deConjuntode Entre-namiento

Tamaño deConjunto de

Prueba

Longitud deSerie deTiempo

CBF 3 30 900 128FaceFour 4 24 88 350Coffee 2 28 28 286Gun_Point 2 50 150 150Beef 5 30 30 470ECG200 2 100 100 96OliveOil 4 30 30 570Lighting7 7 70 73 319Trace 4 100 100 275Lighting2 2 60 61 637Adiac 37 390 391 176Synthetic_control 6 300 300 60OSULeaf 6 200 242 427Fish 77 175 175 46350words 50 450 455 270Yoga 2 300 3000 426SwedishLeaf 15 500 625 128FaceAll 14 560 1690 131Wafer 2 1000 6164 152Two_Patterns 4 1000 4000 128

Tabla 6.1: Tabla de características del Conjunto de 20 bases de datos. [34].

El algoritmo genético busca encontrar valores mínimos de tasa de error,cercanos o igual a cero, por lo tanto se trata de un problema de minimizacióncuyo gráfico de convergencia deberá mostrar una función decreciente. Elnúmero de corridas realizadas para probar la ejecución del algoritmo genéti-co fue de 5. Se eligió este valor con el fin de ejecutar el mismo número decorridas realizadas por [35]

48

Page 54: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

6.1. Etapas del algoritmo genético

6.1.1. Representación entera y real de individuos.

Al generar un individuo se toma en cuenta la longitud ( tamp Algoritmo1) de la serie de tiempo a representar. El individuo que se va a generar sedivide en dos secciones, sección longitud de palabra y sección del alfabeto,como ya se explicó en la Sección 1.1, véase la Figura 6.1.

5 22 1 90 1 128 -.25 .86 1.01

Longitud de la palabra Alfabeto

Figura 6.1: Representación entera y real de un individuo

En la sección de longitud de palabra, se generan ( tamp Algoritmo 1)números aleatorios enteros entre 1 y tamp.

En la sección del alfabeto, se generan 12 (tama Algoritmo 1) númerosreales aleatorios (parámetro fijo), sus valores se generan entre el valor míni-mo y máximo que existan en el conjunto de datos de entrenamiento (BEn-trenamiento Algoritmo 1). Se decidió mantener un tamaño 12 del alfabeto yaque de acuerdo a los resultados reportados en [22], se obtuvieron altos por-centajes de precisión con valores de tamaño de alfabeto que se encuentranentre los rangos 2 a 29 y se eligió de manera aleatoria el número 12.

6.1.2. Población inicial

El valor del tamaño de la población (pob Algoritmo 1) fue de 20 indivi-duos, este valor fue elegido a prueba y error buscando realizar 6360 evalua-ciones que realiza el algoritmo propuesto en [35] en una corrida. Por lo tanto

49

Page 55: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

el número de generaciones (NG Algoritmo 1) realizadas en una corrida fuede 318. El comportamiento observado con el conjunto de datos [34] fue quea menor tamaño de población y mayor número de generaciones, el algoritmogenético encontraba mejores (menores tasas de error) valores de aptitud.

6.1.3. Selección de padres por torneo binario determi-nista

Los individuos mejores adaptados a su ambiente son elegidos para lareproducción y tienen altas probabilidades de sobrevivir para la siguientegeneración. El torneo binario determinista (FuncionTorneo() Algoritmo 1)implementado consiste en barajar la población 2 veces con el fin de seleccio-nar pob parejas de individuos de manera aleatoria que competirán para serpadres, de los cuales serán escogidos sólo pob individuos, aquellos cuyo valorde aptitud será el mejor (menor tasa de error).

6.1.4. Función de aptitud o calidad (Evaluación)

El valor de aptitud en este trabajo es la tasa de error del clasificadorvecino más cercano con k=1 (1-NN). Se definió este valor para optimizar eltiempo debido al volumen de datos [34]. Para obtener la tasa de error, cadaindividuo de la población debe ser evaluado y almacenar su valor de aptitud.La medida de distancia utilizada fue distancia Euclidiana.

Para realizar la evaluación en primer lugar se ordenan los valores de ca-da sección del individuo, posteriormente se eliminan los valores repetidos,después se reduce de dimensionalidad la base de datos, se discretizan los val-ores resultantes de la reducción de dimensionalidad para finalmente poderimplementar el clasificador 1-NN. Cada uno de los procesos mencionados sedetallan a continuación.

Ordenamiento y eliminación de valores repetidos

Inicialmente los valores de cada sección están desordenados y con proba-bilidad de repetición de valores. Se busca reducir el tamaño del individuo, porello se ordenan (FuncionOrdenar() Algoritmo 2) y eliminan (FuncionElimi-nar() Algoritmo 2) los valores repetidos de cada sección. Cada valor de los

50

Page 56: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

genes del individuo marcarán los límites de los rangos en los que se podrá re-ducir el conjunto de entrenamiento. La sección del conjunto de tamaño de lapalabra tiene mayor probabilidad de repetir valores ya que su representaciónes entera a diferencia de la sección del alfabeto cuya representación es real(Véanse las Figuras 6.1 y 6.2).

1 5 22 90 128 -.25 .86 1.01

Longitud de la palabra Alfabeto

Figura 6.2: Ordenamiento y eliminación de valores repetidos

Reducción de dimensionalidad

Una vez obtenido el conjunto de esquemas de discretización es necesarioreducir (FuncionReduccion() Algoritmo2) la dimensionalidad de los datos.Para ello se ocupó la la Formula 3.1 propuesta en PAA (véase la Sección3.5.1). De esta manera se obtiene una versión más corta de un modelo queexplica los datos continuos antes de discretizarlos.

Discretización

Después de generar la matriz con los valores medios de los rangos estable-cidos por el esquema de un individuo, se discretiza cada rango, asignando unvalor ASCII correspondiente a las letras A-L (12 valores categóricos estable-cidos) en la sección del alfabeto del individuo, según corresponda. Es decirde acuerdo al valor medio que se tenga, se categorizará asignando un símbolo(letras) correspondiente a los valores ordenados del alfabeto establecidos enun individuo (FuncionDiscretizacion() Algoritmo2).

51

Page 57: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

Clasificación

El proceso de clasificación (FuncionClasificacion() Algoritmo2 se realizaposteriormente de obtener la versión discreta y simbólica del conjunto deentrenamiento y de prueba. El conjunto de entrenamiento tiene por cada seriede tiempo una etiqueta que indica la clase a la que pertenece. El conjunto deprueba no tiene la etiqueta de clase, por lo que el clasificador K-NN deberádeducir en base al conjunto de entrenamiento por distancia Euclidiana a queclase pertenece.

El clasificador da como resultado el individuo del conjunto de entrenamien-to más cercano con respecto a su valor de distancia Euclidiana de cada unode los individuos del conjunto de prueba, de esta manera se busca el valorcorrespondiente de etiqueta de clase del individuo más cercano y se asigna alindividuo que se está evaluando.

Finalmente, después de obtener el conjunto de clases que ha deducido elK-NN para el conjunto de prueba, será evaluado de acuerdo a un conjuntode clases de cotejo. Se obtiene el valor de tasa de error y se almacena porcada esquema de un individuo.

6.1.5. Cruza de 2 puntos

Después de haber obtenido el valor de aptitud a través del clasificadorde cada uno de los competidores elegidos en el torneo binario determinista,se eligen sólo a pob (tamaño de la población) individuos cuyos valores deaptitud son los mejores (menor tasa de error). Esta población seleccionadaserán los padres que pasarán al proceso de cruza para generar la poblaciónde hijos FuncionCruza2Puntos(vectorpadres,matrizx) Algoritmo 1.

El valor de probabilidad del parámetro de cruza fue de 0.8, se eligió estevalor mediante un proceso de prueba y error, y buscando mantener un valoralto de cruza de acuerdo a la literatura especializada [40] . Inicialmente sevalida el valor del parámetro para determinar si una pareja de individuospadres se cruzan o no, si no se cruzan la pareja pasa intacta a la poblaciónde individuos hijos, de lo contrario se utiliza cruza de 2 puntos por cadasección del individuo (tamaño de la palabra y alfabeto). Se establecen 4puntos de cruza en total de manera aleatoria, de tal manera que se tienen

52

Page 58: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

dos puntos establecidos para cada pareja de padres que darán origen a 2 hijosen la siguiente generación. Los individuos hijos mantendrán los genes de losextremos de un padre y los genes del centro de otro padre de cada sección delindividuo respectivamente (véase la Figura 6.3). Con este tipo de operador decruza de 2 puntos se busca obtener los mejores segmentos de los individuospadres tanto del tamaño de la palabra como del alfabeto y así incrementarla diversidad de la población [40].

1 5 22 90 128 -.25 .86 1.01

8 48 84 91 187 -.3 .01 1.5

Primer punto Segundo punto Primer punto Segundo punto

Padres

8 91 187

1 90 128

5 22

48 84

Hijos

-.25 1.01

-.3 1.5.86

.01

Figura 6.3: Cruza de 2 puntos

6.1.6. Mutación uniforme

El valor de probabilidad del parámetro de mutación fue de 0.6, se eligióeste valor mediante un proceso de prueba y error, y buscando mantener unvalor más bajo de mutación que de cruza de acuerdo a la literatura especiali-zada [40]. Después de obtener la población resultante de la cruza, se validancada uno de los individuos hijos y cada uno de los genes de acuerdo al valorde probabilidad de mutación. Por cada gen del individuo se valida si muta ono, de ser así, el gen toma un nuevo valor aleatorio ya sea entero o real, segúncorresponda en cada sección del individuo FuncionMutacionUniforme() Al-goritmo 1.

53

Page 59: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

Para continuar con el proceso del algoritmo genético, la población de indi-viduos hijos se evalúa para obtener el valor de aptitud de cada uno de ellosy así poder pasar al proceso del reemplazo.

6.1.7. Reemplazo

En el reemplazo (FuncionReemplazo(vectorfitness;matrizx) Algoritmo 1)la población de hijos sustituye a la población de padres por generación yse aplica elitismo. Al usar elitismo se asegura que la aptitud máxima dela población nunca se vea reducida de una generación a otra. Para aplicarelitismo en el algoritmo genético, se elige al individuo con mejor valor deaptitud (menor tasa de error) de la población actual y reemplaza al individuocon peor valor de aptitud de la población de hijos. De esta manera se estágarantizando que la mejor solución mantenga o mejore su valor de aptituda través de las generaciones y con ello el algoritmo genético converja enprobabilidad al óptimo.

A continuación en el Algoritmo 1 se muestra el pseudocódigo del algorit-mo genético utilizando la base de datos CBF, antes de aplicar herencia deaptitud.

54

Page 60: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

Algorithm 1 Algoritmo genético simpleRequire: pob = 20, cont = 0, NG = 318, tamp = 128, tama = 12,

bandera = 01: for i = 1 hasta i = pop do2: for jp = 1 hasta jp = tamp do3: x(i, jp) = fix((FAleatorio ∗ (tamp− 1 + 1)) + 1)4: end for5: for ja = tamp+ 1 hasta ja = tamp+ tama do6: x(i, ja) = fix((FAleatorio ∗ (max(BEntrenamiento) −

min(BEntrenamiento))) +min(BEntrenamiento))7: end for8: FuncionEvaluacion(x).9: return aptitud

10: vectorfitness(i) = aptitud11: end for12: while (bandera == 0) do13: FuncionTorneo(vectorfitness).14: return vectorpadres15: for i = 1 hasta i = pop do16: if FLIP then17: FuncionCruza2Puntos(vectorpadres,matrizx).18: return matrizx19: end if20: if FLIP then21: FuncionMutacionUniforme(matrizx(pop/2 : pop, :)).22: return matrizx23: end if24: FuncionEvaluacion(matrizx(i, 1 : tamp)).25: return aptitud26: vectorfitness(i) = aptitud27: end for28: FuncionReemplazo(vectorfitness,matrizx).29: return vectorfitness,matrizx30: cont = cont+ 131: if ((cont == NG)||(aptitud == 0)) then32: bandera = 133: end if34: end while

55

Page 61: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

En el siguiente Algoritmo 2 se muestran las funciones que componen lafunción de evaluación.

Algorithm 2 Función de EvaluaciónRequire: xEnsure: aptitud

FuncionOrdenar(x).2: return xFuncionEliminar(x).

4: return xFuncionReduccion(x).

6: return x,matrizRFuncionDiscretizacion(matrizR).

8: return matrizDFuncionC lasificacion(matrizD).

10: return aptitud

6.2. Algoritmo genético con Herencia de Apti-tud

El valor de herencia de aptitud se definió como un parámetro más que elusuario tiene que especificar en el algoritmo. Este proceso sucede después delde mutación, debido a que se requiere evaluar la población de los individuoshijos. Éste consiste en validar individuo por individuo si hereda o no. En casode heredar se calcula la distancia de Manhattan entre el individuo hijo quese está evaluando y cada uno de los individuos padres, heredando el valorde aptitud del individuo padre que resulte ser más parecido (en términos dedistancia de Manhattan) al individuo hijo. Si no hereda, entonces se ejecu-ta la evaluación del individuo como venía realizando al no ocupar herencia((FuncionEvaluacion(matrizx(i,1:tamp)) que está formada de las funcionesde ordenar, eliminar, reduccin, discretizacinyclasificacin).

Es necesario comentar que aplicar herencia de aptitud hereda además delvalor de aptitud, un margen de error a través de las generaciones debido a

56

Page 62: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

la inexactitud de dicho valor. Para registrar el mejor valor de aptitud dadopor el algoritmo DDISIGA en la última generación de una corrida, no seimplementó herencia de aptitud y se evaluaron con el clasificador 1-NN todoslos individuos hijos.

A continuación en el Algoritmo 3 se muestra el pseudocódigo del algoritmogenético con herencia de aptitud.

57

Page 63: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

Algorithm 3 Algoritmo genético con herencia de aptitudRequire: pob = 20, cont = 0, NG = 318, tamp = 128, tama = 12,

bandera = 01: for i = 1 hasta i = pop do2: for jp = 1 hasta jp = tamp do3: x(i, jp) = fix((FAleatorio ∗ (tamp− 1 + 1)) + 1)4: end for5: for ja = tamp+ 1 hasta ja = tamp+ tama do6: x(i, ja) = fix((FAleatorio ∗ (max(BEntrenamiento) −

min(BEntrenamiento))) +min(BEntrenamiento))7: end for8: .9: return aptitud

10: vectorfitness(i) = aptitud11: end for12: while (bandera == 0) do13: FuncionTorneo(vectorfitness).14: return vectorpadres15: for i = 1 hasta i = pop do16: if FLIP then17: FuncionCruza2Puntos(vectorpadres,matrizx).18: return matrizx19: end if20: if FLIP then21: FuncionMutacionUniforme(matrizx(pop/2 : pop, :)).22: return matrizx23: end if24: if FLIP then25: CalcularHerencia(matrizx(pop/2 : pop, 1 : length(matrizx))).26: vectorfitness(i + pop) = DistanciaManhattan(matrizx(1 :

pop, 1 : length(matrizx)).27: return matrizx, vectorfitness28: else29: FuncionEvaluacion(matrizx(i, 1 : tamp)).30: return aptitud31: vectorfitness(i) = aptitud32: end if33: end for34: FuncionReemplazo(vectorfitness,matrizx).35: return vectorfitness,matrizx36: cont = cont+ 137: if ((cont == NG)||(aptitud == 0)) then38: bandera = 139: end if40: end while

58

Page 64: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

Capítulo 7

Metodología, resultados ydiscusión

7.1. Diseño experimental sobre el conjunto de20 bases de datos

El diseño de los algoritmos para el conjunto de 20 bases de datos consistióen:

Algoritmo 1. Obtener los valores estadísticos de las 5 corridas del algo-ritmo genético sin ocupar herencia de aptitud.

Algoritmo 2 (DDISIGA). Aplicar 0.5 de herencia en el algoritmo genéti-co sobre los mismos parámetros que ocupa el algoritmo genético sinherencia, con el fin de validar si se puede mantener la misma tasa deerror que proporciona el algoritmo genético sin herencia pero en apro-ximadamente la mitad del tiempo de ejecución.

Algoritmo 3. Aplicar 0 de herencia pero con la mitad de generaciones(160 generaciones) para validar si el Algoritmo 2 y éste son equivalentes.

De acuerdo a [33] se utilizó la prueba estadística no paramétrica U-Mann-Whitney bajo la herramienta SigmaStat 3.5 para el análisis estadístico,Stadistica para la generación de gráficos de boxplot y Matlab 9 para la ge-neración de gráficos de multcompare.

59

Page 65: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

En los apéndices A-D se muestran gráficos de box plot y de multcom-pare para tasas de error y de tiempos de ejecución, los cuales se describen acontinuación.

Gráfico de Box Plot. Los gráficos de cajas y alambres ayudaron a com-prender la robustez del algoritmo ejecutado, así como el comportamiento desu mediana, desviación estándar y rara vez se mostraron valores atípicos.

Gráfico de múltiple de comparación de medias. Este tipo de gráficos per-miten visualizar si hay diferencia significativa entre las medias o medianasde un conjunto de experimentos.

7.1.1. Análisis de resultados de los algoritmos sobre elconjunto de 20 bases de datos

Observe la tabla de resultados estadísticos de la aplicación de los Algo-ritmos 1, 2 y 3 sobre el conjunto de bases de datos 7.1, pero antes véase ladescripción de las abreviaturas utilizadas en la misma:

A. Se refiere a la abreviación de la palabra algoritmo.

Me. Abreviación de mediana.

S. Abreviación de desviación estándar.

60

Page 66: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

Tasadeerror

Tiempo

Diferen

ciaSignificativa

Mejor(m

enor)

Diferen

ciaSignificativa

Mejor(m

enor)

BasedeDatos

A.1y2

A.1y3

A.2y3

Me

SA.1y2

A.1y3

A.2y3

Me

S

CBF

1y3

2√

√2

3Fa

ceFo

ur

√1y3

2√

√3

3Coff

ee√

√1y3

2y3

32

Gun_Point

1,2y3

3√

√2

3Beef

13

√√

√3

3ECG200

1,2y3

1y2

√√

23

OliveOil

1,2y3

1,2y3

√√

33

Lighting7

√1

2√

√√

23

Trace

√√

1y3

1y3

√√

33

Lighting2

1y3

3√

√3

3Adiac

√1

2√

√√

23

Syn

thetic_control

11

√√

√3

3OSULeaf

√√

12

√√

33

Fish

21

√√

33

50words

12

√√

23

Yoga

1y3

1√

√3

2Swed

ishLeaf

1y3

2√

√√

32

FaceAll

12

√√

√3

2Wafer

1y3

1√

√√

32

Two_

Patterns

√1

1√

√√

22

Total

71

219

819

198

00

411

76

116

1314

Tabla 7.1: Prueba estadística U-Mann-Whitney de los Algoritmos 1, 2 y 3sobre el conjunto de base de datos

61

Page 67: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

Resultados de los Algoritmos 1, 2 y 3 con respecto al mejor valor deaptitud (menor tasa de error) :

En 7 bases de datos existe diferencia significativa, el Algoritmo 1 tienemenor tasa de error que el Algoritmo 2.

En 1 base de datos existe diferencia significativa, el Algoritmo 1 tienemenor tasa de error que el Algoritmo 3.

En 2 bases de datos existe diferencia significativa, el Algoritmo 3 tienemenor tasa de error que el Algoritmo 2.

Resultados de los Algoritmos 1, 2 y 3 con respecto al mejor valor de tiempo(menor tiempo de ejecución) :

En 19 bases de datos existe diferencia significativa, el Algoritmo 2 tienemenor tiempo de ejecución que el Algoritmo 1.

En 19 bases de datos existe diferencia significativa, el Algoritmo 3 tienemenor tiempo de ejecución que el Algoritmo 1.

En 3 bases de datos existe diferencia significativa, el Algoritmo 2 tienemenor tiempo de ejecución que el Algoritmo 3.

En 5 bases de datos existe diferencia significativa, el Algoritmo 3 tienemenor tiempo de ejecución que el Algoritmo 2.

Con respecto al estudio realizado a los tiempos de ejecución, se puedeapreciar claramente que cualquiera de las dos propuestas, el Algoritmo 2 oel Algoritmo 3, son buenos algoritmos ya que reducen aproximadamente lamitad de tiempo de ejecución del Algoritmo 1.

Concluyendo con este análisis se puede observar en la Tabla 7.1 que en 13de 20 bases de datos no hay diferencias significativas entre la ejecución decualquiera de los tres algoritmos, por lo que ésto, es un punto a favor delalgoritmo con herencia (DDISIGA) que tarda menos en tiempo de ejecucióny da buenas (menores) tasas de error.

62

Page 68: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

Al concluir que nuestra propuesta del Algoritmo DDISIGA que se refiere aun algoritmo genético que ocupa herencia de aptitud con 0.5 de porcentaje,es un algoritmo robusto y competente, se procedió a tabular y a graficar losmenores valores de error que resultan de su aplicación en comparación conlos reportados en los algoritmos PEVOMO, GENEBLA, SAX (PEVOMO)y SAX (GENEBLA) y se reportaron 19 valores de 20 con valor de tasa deerror menores a los de los algoritmos referenciados (Véase en la Tabla 7.2 yla Gráfica 7.1).

63

Page 69: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

CBF

FaceFour

Coffee

Gun_Point

Beef

ECG200

OliveOil

Lighting7

Trace

Lighting2

Adiac

Synthetic_control

OSULeaf

Fish

50words

Yoga

SwedishLeaf

FaceAll

Wafer

Two_Patterns

Genét

icoC_

H0.0

100

0.113

60.0

357

0.013

30.3

333

0.050

00.0

333

0.260

30.0

500

0.131

10.4

118

0.026

70.4

256

0.160

00.2

945

0.154

30.2

176

0.272

20.0

019

0.091

8PE

VOMO

0.078

90.1

818

0.250

00.1

533

0.466

70.1

200

0.100

00.3

973

0.080

00.2

131

0.511

50.0

867

0.545

50.3

029

0.454

90.2

227

0.323

20.3

941

0.004

20.1

215

GENE

BLA

0.11

0.20.4

30.1

90.5

0.20.3

70.4

80.1

70.2

10.4

80.3

20.5

20.3

20.4

40.1

90.4

10.3

30.0

10.2

7SA

X(PE

VOMO

)0.2

611

0.465

90.4

643

0.313

30.4

333

0.230

00.6

333

0.369

90.5

200

0.213

10.5

524

0.320

00.5

041

0.400

00.3

473

0.207

00.2

816

0.382

20.0

075

0.202

0SA

X(GE

NEBL

A)0.1

30.3

40.4

60.2

90.4

0.13

0.83

0.40.3

70.1

80.7

0.06

0.50.4

60.3

60.2

10.5

30.3

40

0.3

Tabla 7.2: Tasa de error del algoritmo DDISIGA frente a otros algoritmos

64

Page 70: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

CBF

FaceFour

Coffee

Gun_Point

Beef

ECG200

OliveOil

Lighting7

Trace

Lighting2

Adiac

Synthetic_control

OSULeaf

Fish

50words

Yoga

SwedishLeaf

FaceAll

Wafer

Two_Patterns

Porcentaje de Tasa de Error

Bas

e d

e D

ato

s

DD

ISIG

A

PEV

OM

O

GEN

EBLA

SA

X(P

EVO

MO

) SA

X(G

ENEB

LA)

Figura 7.1: Tasa de error del algoritmo DDISIGA frente a otros algoritmos65

Page 71: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

De acuerdo a los valores reportados en la Tabla 7.2 se realizó la pruebaestadística U-Mann-Whitney para identificar si existe diferencia significativaentre dichos valores. Se realizó la prueba únicamente con los datos reportadosen la tabla referenciada debido a que no se cuenta con los valores de las corri-das de cada uno de los algoritmos PEVOMO, GENEBLA, SAX (PEVOMO)y SAX (GENEBLA). Así mismo se muestra en la Figura 7.3 el diagramade cajas referente a la Figura 7.1, donde se puede apreciar que el algoritmoDDISIGA tiene un valor de mediana menor a las demás medianas, la dis-tribución es asimétrica, acercándose al valor cero, así como una desviaciónestándar más pequeña que los demás algoritmos.

Figura 7.2: Prueba estadística U-Mann-Whitney del algoritmo DDISIGAfrente a otros algoritmos

Figura 7.3: Gráfico de box plot de algoritmos

66

Page 72: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

Finalmente se tomaron como base las características del conjunto de 20bases de datos en los que se probaron los algoritmos representados en laSección 6.2 y se realizó un análisis de correlación entre las características delas bases de datos y los valores de tasa de error y tiempo de ejecución delalgoritmo genético DDISIGA. Los resultados se muestran en las Figuras 7.4a la 7.7, donde el valor del eje de las x y y varían de acuerdo al valor decorrelación a medir.

Los resultados fueron:

Existe una correlación positiva fuerte entre el tiempo de ejecucióny el tamaño del conjunto de entrenamiento. Coeficiente de correla-ción=0.707373, (Figura 7.4).

0

200

400

600

800

1000

1200

0 200000 400000 600000 800000 1000000 1200000 1400000 1600000

Tam

año

de

co

nju

nto

de

en

tre

nam

ien

to

Tiempo en segundos

Figura 7.4: Gráfico de Correlación entre tiempo y tamaño del conjunto deentrenamiento

Existe una correlación positiva fuerte entre el tiempo de ejecución y eltamaño del conjunto de prueba. Coeficiente de correlación=0.95115747(Figura 7.5).

67

Page 73: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

0

1000

2000

3000

4000

5000

6000

7000

0 200000 400000 600000 800000 1000000 1200000 1400000 1600000

Tam

año

de

co

nju

nto

de

pru

eb

a

Tiempo en segundos

Figura 7.5: Gráfico de correlación entre tiempo y tamaño del conjunto deprueba

Existe una correlación positiva débil entre la tasa de error y el númerode clases. Coeficiente de correlación=0.374285431 (Figura 7.6).

68

Page 74: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

0

10

20

30

40

50

60

70

80

90

0.0000 0.0500 0.1000 0.1500 0.2000 0.2500 0.3000 0.3500 0.4000 0.4500

me

ro d

e c

lase

s

Tasa de Error

Figura 7.6: Gráfico de correlación entre tasa de error y el número de clases

Existe una correlación positiva débil entre la tasa de error y la longitudde la serie de tiempo. Coeficiente de correlación=0.23107486, (Figura7.7).

69

Page 75: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

0

100

200

300

400

500

600

700

0.0000 0.0500 0.1000 0.1500 0.2000 0.2500 0.3000 0.3500 0.4000 0.4500

Lon

gitu

d d

e s

eri

e d

e t

iem

po

Tasa de Error

Figura 7.7: Gráfico de correlación entre tasa de error y longitud de serie detiempo

7.2. Diseño experimental sobre datos col-poscópicos

El diseño de experimentos para la base de datos colposcópicos consistió en:

Algoritmo 1. Aplicación del algoritmo DDISIGA para datos colposcópi-cos con 0.25 de herencia de aptitud con 100 generaciones.

Algoritmo 2. Aplicación del algoritmo DDISIGA para datos colposcópi-cos con 0.50 de herencia de aptitud con 100 generaciones.

Algoritmo 3. Aplicación del algoritmo DDISIGA para datos colposcópi-cos con 0.75 de herencia de aptitud con 100 generaciones.

70

Page 76: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

7.2.1. Aplicación del algoritmo DDISIGA sobre seriesde datos colposcópicos

En el capítulo 2 se describió la relevancia del problema de cáncer cérvico-uterino, que atañe a nuestra propuesta de solución con un eficiente esque-ma de discretización. Para la aplicación de nuestra propuesta del algoritmoDDISIGA sobre las series de datos colposcópicos se busca obtener los siguien-tes valores; tasa de error (ver capítulo 4 y ecuación 4.2), tasa de precisión (vercapítulo 4 y ecuación 4.1), tasa de sensibilidad y tasa de especificidad, queservirán como parámetros de referencia de comparación con otros algoritmos.

Tasa de sensibilidad. Es la probabilidad de clasificar correctamente aun individuo enfermo, es decir, la probabilidad de que para un sujetoenfermo se obtenga en la prueba un resultado positivo (VP). La sensi-bilidad es la capacidad de prueba de detectar la enfermedad y puedeser calculada como la proporción de pacientes enfermos que obtuvieronun resultado positivo en la prueba diagnóstica. Aquellos individuos en-fermos que se clasifican como sanos forman el grupo los falsos negativos(FN) [22](ver ecuación 6.1).

Sensibilidad =V P

V P + FN(7.1)

Tasa de especificidad. Es la probabilidad de clasificar correctamente aun individuo sano (VN), es decir, la probabilidad de que para un sujetosano se obtenga un resultado negativo. Aquellos individuos que dan ensu prueba negativo forman el grupo de falsos positivos (FP) [22].

Especificidad =V N

V N + FP(7.2)

7.2.2. Descripción de datos colposcópicos

Para evaluar el desempeño de nuestra propuesta del algoritmo DDISIGAsobre datos colposcópicos se utilizó una base de datos binarizada y balancea-da de 38 pacientes. Binarizada porque las etiquetas de clases tienen valoresbinarios de 1 y 0: tejido sano y tejido maligno. Balanceada debido a que elmismo número de ejemplos de clases 1 existen con clases 0, esto permite quelas pruebas de sensibilidad y especificidad sean evaluadas objetivamente.

71

Page 77: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

Para la ejecución del algoritmo DDISIGA se realizaron las siguientes mo-dificaciones:

Originalmente en [34] los conjuntos de entrenamiento y de prueba seencuentran separados, pero para el conjunto de datos colposcópicosse ocupó el método holdout para la estimación de precisión de clasifi-cación, para todas las evaluaciones se particionó de manera aleatoriaconservando un tamaño de 70% para entrenamiento y de 30% paraprueba.

Después de haber obtenido el mejor esquema de discretización de unacorrida se evaluó nuevamente la base de datos colposcópicos pero conel método de leave-one cross-validation utilizando el valor de k = n,donde n = número de pacientes.

7.2.3. Análisis de resultados del algoritmo DDISIGA so-bre datos colposcópicos

Como se puede apreciar en los valores que muestra la Tabla 7.3 y la Figura7.8, los valores de tasa de error, de precisión, de sensibilidad y de especificidadno muestran mayores diferencias entre ocupar el Algoritmo 1, 2 o 3. No sepuede aplicar una prueba estadística debido al tiempo excesivo de ejecución,por lo tanto sólo se puede concluir que el utilizar una tasa 0.25, 0.50 de 0.75de herencia sobre datos colposcópicos, da valores de estimación de tasas declasificación similares entre ellas.

Algoritmo 1 Algoritmo 2 Algoritmo 3Tasa de Error 34.32% 35.24% 35.50%Tasa de Precisión 65.68% 64.76% 64.50%Tasa de Sensibilidad 15.85% 17.96% 14.57%Tasa de Especificidad 94.44% 86.52% 88.80%Tiempo en Segundos 26671.9687 17940.8254 9952.1209

Tabla 7.3: Tabla de resultados de Algoritmo 1, 2 y 3 con series de datoscolposcópicos.

72

Page 78: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

0%

20%

40%

60%

80%

100%

Experimento 1 Experimento 2 Experimento3

0.158529521 0.179641061 0.14568694

0.3432 0.3524 0.355

0.6568 0.6476 0.645

0.944404037 0.865248647 0.888013784

Po

rce

nta

je d

e t

asa

Tasa de Sensibilidad Tasa de Error Tasa de Precision Tasa de Especificidad

Algoritmo 1 Algoritmo 2 Algoritmo 3

Figura 7.8: Resultados de tasa de error, de precisión, sensibilidad y de es-pecificidad de datos colposcópicos.

Con respecto a los tiempo de ejecución de los tres Algoritmos, tampocose realizó una prueba estadística (véase Figura7.9) por el motivo antes ex-puesto, pero si se puede apreciar a través del gráfico de barras, que existeuna diferencia de 4 horas con 39 minutos de tiempo de ejecución entre elAlgoritmo 1 y 3, favoreciendo al Algoritmo 3 que ocupa un valor de 0.75 deherencia de aptitud.

73

Page 79: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

26671.9687

17940.8254

9952.1209

0

5000

10000

15000

20000

25000

30000

1 2 3

Tie

mp

o e

n s

egu

nd

os

Algoritmos

Figura 7.9: Resultados de tiempos de ejecución de algoritmo genético conherencia sobre datos colposcópicos

7.3. Discusión

7.3.1. Algoritmo genético DDISIGA sobre el conjuntode bases de datos

El algoritmo 2 (DDISIGA) que ocupa herencia de 0.5, resulta ademásde ser competente en cuanto a tasas de error en relación con los algoritmosPEVOMO, GENEBLA, SAX(PEVOMO) y SAX(GENEBLA), brinda unadisminución aproximadamente de la mitad tiempo de ejecución, valor signi-ficativo de acuerdo a la prueba U-Mann-Whitney en relación al Algoritmo 1.Además de ello se puede agregar que el Algoritmo 2 resulta ser un algoritmomuy robusto por su distribución pequeña de los valores de tasa de error quemuestra, dando pie a ejecutarlo sólo una o dos veces con un alto grado deconfianza de que el valor obtenido es el correcto sin requerir más ejecuciones.

74

Page 80: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

7.3.2. Algoritmo genético DDISIGA sobre datos col-poscópicos

Teniendo en consideración que no existen registros de los valores de tasade error de las corridas realizadas en los algoritmos PEVOMO, GENEBLA,SAX(PEVOMO), SAX(GENEBLA), no se puede realizar un análisis estadís-tico para establecer una discusión al respecto. Sin embargo se puede observarque la ejecución del algoritmo DDISIGA reporta tasas de error y de sensi-bilidad bajas, y una tasa muy elevada de especificidad. Se resume que apro-ximadamente de 10 casos, 3 de ellos pueden dar un diagnostico erróneo, ydonde existe una probabilidad baja de diagnosticar a un paciente enfermocomo tal y una muy alta de diagnosticar correctamente a un paciente sano.

75

Page 81: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

Capítulo 8

Conclusiones y trabajo futuro

8.1. Conclusiones de la aplicación del algoritmogenético y el algoritmo DDISIGA sobre elconjunto de bases de datos

En esta tesis se presentó un algoritmo genético para encontrar una esque-ma de discretización cuyo valor de aptitud (tasa de error) sea el mínimo.

El algoritmo fue evaluado en 20 conjuntos de bases de datos de series detiempo con 5 ejecuciones independientes para cada base de datos. Se obtu-vieron resultados de tres variaciones de éste; algoritmo genético sin herenciade aptitud (Algoritmo 1), algoritmo genético con herencia de aptitud de 0.5(Algoritmo 2, DDISIGA) y algoritmo genético sin herencia de aptitud perocon la mitad de evaluaciones que el Algoritmo 1 (Algoritmo 3). La segun-da implementación es la contribución principal de nuestro algoritmo, ya quebusca reducir los tiempos en un 50% menos al algoritmo genético sin heren-cia de aptitud (Algoritmo 1). Con ello enfrentamos el costo de aumentar latasa de error, pero de acuerdo a las pruebas estadísticas utilizadas U-Mann-Whitney en 13 de 20 bases de datos no existe diferencia significativa en lastasas de error obtenidas entre el algoritmo genético (Algoritmo 1) y el al-goritmo genético con herencia de aptitud (Algoritmo 2, DDISIGA), siendoque en 7 bases de datos si existen diferencias significativas, favoreciendo alalgoritmo genético sin herencia (Algoritmo 1).

76

Page 82: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

De tal forma que podemos concluir lo siguiente:

Con respecto a los algoritmos PEVOMO, GENEBLA, SAX(PEVOMO)y SAX(GENEBLA) tanto el algoritmo genético como el algoritmoDDISIGA resultan ser mejores en 19 de 20 bases de datos con respectoa su valor de tasa de error. No fue posible realizar una prueba estadísti-ca para confirmar esta aseveración debido a que no existen registros delos valores obtenidos en las ejecuciones de cada uno de los algoritmosPEVOMO, GENEBLA, SAX(PEVOMO) y SAX(GENEBLA).

La propuesta de algoritmo DDISIGA demuestra ser estadísticamentebueno en tiempos de ejecución, valores de tasa de error y además graciasa los gráficos box plot se observa que es un algoritmo muy robusto porsu pequeña desviación estándar que demuestra en 11 de 20 bases dedatos, convirtiéndose está propiedad en una ventaja sobre la aplicacióndebido a la naturaleza de la problemática cuya aplicación es médica ydonde el tiempo es un factor importante.

8.2. Conclusiones de aplicación algoritmoDDISIGA sobre datos colposcópicos

En el algoritmo genético DDISIGA los valores de aptitud de 0.25, 0.5, y0.75 muestran resultados de tasa de error entre el 34.32% y 35.50%. Losresultados de precisión oscilan entre el 64.50% y 65.68%. Los resultadosde tasa de sensibilidad oscilan entre el 14.57% y 17.96%. Los resulta-dos de especificidad oscilan entre el 86.52% y el 94.4%. De acuerdo aestas tasas reportadas no se logra apreciar diferencia en los resultadosal ocupar alguna tasa de herencia especifica. Al carecer de datos dereferencia de alguna otra técnica de I.A. implementada sobre la mismabase de datos, no se puede realizar un análisis estadístico.

Se puede observar que el tiempo es un factor importante en este tipode aplicaciones médicas, se puede notar que utilizando valores altos deherencias como 0.70 disminuye considerablemente el tiempo de ejecu-ción.

Finalmente se puede concluir que la propuesta del algoritmo DDISIGA,es eficiente y competente sobre series de tiempo de datos colposcópicos.

77

Page 83: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

8.3. Trabajo futuroA continuación se señalan los trabajos donde se espera mejorar la pro-

puesta del algoritmo genético con herencia de aptitud, presentada en estedocumento.

1. Calibración fina de parámetros del algoritmo genético con herencia.Donde se busque optimizar el tiempo de ejecución realizando sólo lasevaluaciones señaladas en los parámetros calibrados ya sea en tiempode ejecución o previamente [40].

2. Uso de otra medida de distancia entre la población de padres e hijosen el algoritmo con herencia de aptitud. Realizar un comparativo paravalidar diferencias significativas entre utilizar una medida de distanciau otra.

3. Comparativo de diferentes clasificadores para el algoritmo DDISIGA.Implementar diferentes clasificadores de aprendizaje automático y com-parar los resultados de tasas de error para establecer si existen diferen-cias significativas entre el uso de un clasificador u otro.

4. Análisis cualitativo de las características del conjunto de bases de datos,para validar exactamente las que influyen en la obtención de buenosvalores de tasa de error.

78

Page 84: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

Apéndice A

Gráfico de Box Plot de Tasa deError

79

Page 85: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

80

Page 86: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

81

Page 87: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

82

Page 88: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

83

Page 89: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

84

Page 90: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

Apéndice B

Gráfico de Box Plot de Tiempode ejecución

85

Page 91: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

86

Page 92: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

87

Page 93: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

88

Page 94: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

89

Page 95: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

90

Page 96: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

Apéndice C

Gráfico de Comparación múltiplede Tasa de Error

91

Page 97: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

92

Page 98: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

93

Page 99: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

94

Page 100: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

95

Page 101: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

Apéndice D

Gráfico de Comparación múltiplede Tiempo de Ejecución

96

Page 102: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

97

Page 103: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

98

Page 104: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

99

Page 105: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

100

Page 106: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

101

Page 107: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

102

Page 108: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

103

Page 109: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

104

Page 110: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

105

Page 111: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

106

Page 112: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

Referencias

[1] Pang-Ning Tan, Michael Steinbach, and V. Kumar, " Introduction to DataMining." Addison-Wesley Publishing Co, 2006.

[2] Han, J., M. Kamber,"Data Mining: Concepts and Techniques." MorganKaufmann, (2001).

[3] Sotiris Kotsiantis., Dimitris Kanellopoulos., Discretization Techniques:Arecent survey,Educational Software Development Laboratory Departa-ment of Mathematics, University of Patras, Greece, pp 1-12

[4] Watkins MM, Gabali C., Barriers to Cervical Cancer Screening in RuralMexico, Standford University School of Medicine. Standford, California,USA, pp. 1-3.

[5] Coiera, E., "Guide to Medical Informatics, the Internet andTelemedicine." Chapman and Hall, 1997.

[6] Erich Burghardt, H.P., Frank Girardi, "Primary care Colposcopy", ed.Thieme. 2004 New Year.167.

[7] Coello Coello, Carlos A. " Introducción a los Algoritmos Genéticos", Solu-ciones Avanzadas. Tecnologías de Información y Estrategias de Negocios,Año 3, No. 17, Enero de 1995, pp 5-11.

[8] Acosta Mesa Héctor G., Zitová Barbara, Ríos Figueroa Homero V.,Cruz Ramírez Nicandro, Cervical Cancer Detection Using Colpo-

107

Page 113: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

scopic Images: a Temporal Approach, IEEE Procedings of the sixthmexican international conference on computer science (ENC’05), pp 1 - 3.

[9] José-Luis Llaguno-Roque, Héctor-Gabriel Acosta-Mesa, Nican-dro Cruz-Ramírez, Rodolfo Hernández-Jimenez, Bertha Cocotle-Ronzón."Clasificación de patrones temporales para caracterizar lesionescervico uterinas en imagenes colposcópicas".

[10] Keogh Eamon,Pazzani Michael, "An enhanced representation of time se-ries which allows fast and accurate classification, clustering and relevancefeedback",University of California.

[11] Fayyad Usama, Piatetsky-Shapiro Gregory , and Smyth Padhraic, FromData Mining to Knowledge Discovery in Databases, American Associationfor Artificial Intelligence, 1996, pp 39.

[12] Holland, J. H. (1975). Adaptation in natural and artificial systems. AnnArbor, Mich: University of Michigan Press.

[13] F. Hussain., H. Liu., C.L. Tan., M. Dash, Discretization: An EnablingTechnique, School of Computing, National University of Singapore,Singapore, pp 1-24.

[14] [Minería de Datos], [en línea], 2010,"www.dcyc.ipn.mx/dcyc/glosario/M.aspx", [Internet; consultado 13-Junio-2011]

[15] Pang-Ning Tan, Michael Steinbach, and V. Kumar, " Introduction toData Mining." Addison-Wesley Publishing Co, 2006.

[16] Microsoft, [Minería de Datos], [en línea], 2011,http://technet.microsoft.com/es-es/library/ms175382.aspx, [Internet;consultado 13-Mayo-2011].

[17] Last M., A. Kandel, H. Bunke: Data mining in time series databases,World Scientific Pub. Co. Inc., Singapore (2004).

108

Page 114: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

[18] Keogh, E. & Kasetty, S. (2002). On the Need for Time Series Data Min-ing Benchmarks: A Survey and Empirical Demonstration. "In proceedingsof the 8th ACM SIGKDD International Conference on Knowledge Discov-ery and Data Mining". July 23 - 26, 2002. Edmonton, Alberta, Canada.pp 102-111.

[19] Dimitrova, E.S., McGee, J., Laubenbacher, E.: "Discretization of TimeSeries Data",(2005) eprint arXiv:q-bio/0505028.

[20] Keogh, E., Chakrabarti, K., Pazzani, M., Mehrotra, S.:" Locally Adap-tive Dimensionality Reduction for Indexing Large Time Series Databas-es". ACM Trans. Database Syst, (2002).

[21] Acosta Mesa, H.G., Nicandro, C.R., Daniel-Alejandro, G.-L.:" EntropyBased Linear Approximation Algorithm for Time Series Discretization".In: Advances in Artificial Intelligence and Applications, vol. 32, pp. 214- 224. Research in Computers Science.

[22] García López Daniel Alejandro." Algoritmo de Discretización de Seriesde Tiempo Basado en Entropía y su Aplicación en Datos Colposcópi-cos".Tesis de Maestría, Universidad Veracruzana, 2007.

[23] Alejandro, G.-L.D.:"Algoritmo de Discretización de Series de TiempoBasado en Entropía y su Aplicación en Datos Colposcópicos". Universi-dad Veracruzana (2007)

[24] Kurgan, L., Cios, K.:"CAIM Discretization Algorithm". IEEE Transac-tions On Knowledge And Data Engineering (2004).

[25] Chaochang Chiu, Nanh S.C.:An adapted covering algorithm approachfor modeling airplanes landing gravities. Department of Information Man-agement, Yuan Ze University, 135 Far East Rd., Chung-Li 320, Taiwan,ROC. Expert Systems with Aplications 26(2004) 443-450. ELSEVIER.

[26] Dougherty, J., Kohavi, R., Sahami, M. (1995). Supervised and unsu-pervised discretization of continuous features. In Machine learning: pro-ceedings of the twelfth international conference. Los Altos, CA: MorganKaufmann.

[27] Koza, John R. " Genetic Programming. On the Programming of Com-puters by Means of Natural Selection", TheMIT Press, 1992, p 819.

109

Page 115: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

[28] J.H. Holland. " Adaptation in natural and artificial systems. The Uni-versity of Michigan Press, Ann Arbor, MI, 1975.

[29] Smith R., Dike B., and Stegmann S. Fitness inheritance in genetic algo-rithms. In Proceedings of ACM Symposiums on Applied Computing, pp.345-350. ACM, 1995.

[30] Back Thomas." Evolutionary Algorithms in Theory and Practice", Ox-ford University Press, 1996, pp.106-123.

[31] Mitchell Melanie. "An Introduction to Genetic Algorithms", Mas-sachusetts Institute of Technology, 1996, pp.8-15.

[32] Muñoz Lucía, "Uso de herencia para optimización evolutiva con restric-ciones", Tesis de Maestría, Instituto Tecnológico de Apizaco, 2006.

[33] Yaochu Jin. "Surrogate-assisted evolutionary computation: Recent ad-vances and future challenges", 2011, Swarm and Evolutionary Computa-tion 1,pp. 61-70.

[34] Keogh E., Xi C., Wei L., y Ratanamabatana C.A.:The UCR Time Series Classification/Clustering Homepage:http://www.cs.ucr.edu/eamonn/time_ series_ data/ (2003 2008)

[35] Rechy Fernando." Discretización de series de tiempo usando progra-mación evolutiva con función multiobjetivo", Tesis de Maestría, Univer-sidad Veracruzana, 2010.

[36] Battuguldur Lkhagva,Yu Suzuki,Kyoji Kawagoe." Extended SAX: Ex-tension of Symbolic Aggregate Approximation for Financial Time SeriesData Representation".

[37] García-López Daniel-Alejandro, Acosta-Mesa Héctor-Gabriel andCortés-Pérez Ernesto. Discretization of Time Series Dataset with GeneticSearch. Proceeding MICAI ’09 Proceedings of the 8th Mexican Interna-tional Conference on Articial Intelligence 2009.

[38] Phillipe Schmid-Saugeon, J.D.P., Howard B. Kaufman, Alex Zelenchuk,Dian M. Harper, Time-Resolved Imaging of Cervical Acetowhitening.DRAFT, 2004.

110

Page 116: LaboratorioNacionaldeInformáticaAvanzada ...emezura/util/files/Tesis-Azucena.pdf · Resumen Enlaactualidadendiversossectorescomolamedicina,laindustria,finan-zas y el sector empresarial

[39] Acosta-Mesa H., et al., Cervical Cancer Detection Using colposcopic Im-ages: a Temporal Approach. Proceeding of the Sixth International Con-ference on Computer Science (IEEE Computer Society Press), 2005: p.158-164.

[40] Eiben A.E. , Smith J.E. "Introduction to Evolutionary Computing" Nat-ural Computing Series, Springer-Verlag Germany, 2003.

[41] ING. ANGEL SERGIO DÍAZ SÁNCHEZ, [Salud y Epidemiología] [enlínea], 2011,"http://www.dgepi.salud.gob.mx/anuario/html/anuarios.html",[Internet; consultado 5-Septiembre-2011]

[42] National Cancer Institute, [Cáncer Cérvico uterino] [en línea], 2011,"http://www.cancer.gov", [Internet; consultado 4-Marzo-2011]

[43] GlaxoSmithKline México S.A. de C.V., [Cáncer Cérvico Uterino causamiles de muertes al año en México ], [en línea], 2010, "http://www.gsk-cancercervicouterino.com.mx/introduccion.htm", [Internet; consultado8-Octubre-2011]

[44] GeoSalud, [colposcopia], [en línea], 2011,"http://www.geosalud.com/VPH/colposcopia.htm", [Internet; con-sultado 24-Agosto-2011]

111