detecci on de melanomas a partir de im agenes dermatosc...

Deteccion de melanomas a partir deimagenes dermatoscopicas

Marıa Fernanda Vargas Martınez

Marıa Fernanda Cruz Mahecha

Universidad Distrital Francisco Jose de Caldas

Facultad de ingenierıa

Bogota, Colombia

2018

Deteccion de melanomas a partir deimagenes dermatoscopicas

Marıa Fernanda Vargas Martınez

Marıa Fernanda Cruz Mahecha

Tesis o trabajo de grado presentada(o) como requisito parcial para optar al tıtulo de:

Ingeniero electronico

Director(a):

MsC, Luz Helena Camargo Casallas

Lınea de Investigacion:

Bioingenierıa

Grupo de Investigacion:

INVID

Universidad Distrital Francisco Jose de Caldas

Facultad de ingenierıa

Bogota, Colombia

2018

A nuestras familias.

A nuestros amigos y companeros en la

universidad.

Agradecimientos

A nuestras familias por el apoyo, la comprension y colaboracion que nos brindaron a traves

de todo este proceso

A nuestra tutora Luz Helena Camargo Casallas, quien nos oriento pacientemente en cada

etapa, ademas de proporcionarnos los recursos para desarrollar este proyecto.

A David Carmona y a Sebastian Romero por apoyarnos y confiar en nosotras.

A todas las personas que contribuyeron directa o indirectamente con el desarrollo y culmi-

nacion de este proyecto.

Resumen

La posibilidad de sobrevivir al cancer de piel tipo melanoma es mayor si se detecta y diagnos-

tica en etapas tempranas. Por ello, este proyecto presenta la elaboracion de una herramienta

basada en el procesamiento de imagenes, capaz de clasificar las lesiones a partir de imagenes

dermatoscopicas. El proyecto se dividio en tres etapas: segmentacion, obtencion de carac-

terısticas y clasificacion. Para la segmentacion se implementaron el metodo de Otsu, la

segmentacion semantica y operadores morfologicos para determinar el area correspondiente

a la lesion. A partir de las imagenes segmentadas, se obtuvo un histograma de 250 palabras

visuales de las imagenes mas representativas de cada clase utilizando descriptores de color

y forma; por ultimo, se entreno un clasificador SVM con el cual se obtuvo una precision

maxima del 78 %, siendo los mejores resultados correspondientes al uso del espacio de color

HSV e implementando un clasificador con kernel Gaussiano.

Palabras clave: Dermatoscopıa, Cancer de piel, Aprendizaje profundo, Vocabulario

visual, SVM.

Abstract

The possibility of surviving melanoma skin cancer is greater if it is detected and diagnosed

early. Therefore, this project presents the development of a tool based on image processing,

capable of classifying lesions from dermoscopic images. The project was divided into three

stages: segmentation, feature extraction and classification. At segmentation stage the Otsu

and semantic segmentation methods were implemented with morphological operators as a

post-processing stage to enhance the results. From the segmented images, a histogram of 250

visual words was obtained from the most representative images of each class using descrip-

tors of color and shape. Finally, an SVM classifier with a maximum precision of 78 % was

obtained using the HSV color space and a Gaussian kernel.

Key Words: Dermoscopy, Skin cancer, Deep learning, Bag of words, SVM .

Contenido

Resumen IX

Contenido XIII

Lista de Figuras 1

Lista de Tablas 1

1 Introduccion 2

1.1 Justificacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2 Objetivos 4

2.1 Objetivo general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2.2 Objetivos especıficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

3 Marco teorico 5

3.1 Cancer de piel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

3.2 Dermatoscopia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

3.3 Algoritmos de diagnostico dermatoscopico . . . . . . . . . . . . . . . . . . . 6

3.3.1 Analisis de patrones . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

3.3.2 Regla de ABCD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

3.3.3 Lista de verificion de los 3 puntos . . . . . . . . . . . . . . . . . . . . 10

3.3.4 Lista de verificacion de los 7 puntos . . . . . . . . . . . . . . . . . . . 10

3.3.5 Metodo de Menzies . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

3.4 Tecnicas de procesamiento de imagen . . . . . . . . . . . . . . . . . . . . . . 12

3.4.1 Representacion del color . . . . . . . . . . . . . . . . . . . . . . . . . 13

3.4.2 Operaciones morfologicas . . . . . . . . . . . . . . . . . . . . . . . . . 14

3.5 Segmentacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

3.5.1 Segmentacion basada en discontinuidades . . . . . . . . . . . . . . . . 16

3.5.2 Segmentacion basada en similitud . . . . . . . . . . . . . . . . . . . . 17

3.6 Clasificacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.6.1 Extraccion de Caracterısticas . . . . . . . . . . . . . . . . . . . . . . 18

3.6.2 Clasificacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

3.6.3 Medidas de desempeno . . . . . . . . . . . . . . . . . . . . . . . . . . 24

Contenido xi

4 Metodologıa 25

4.1 Segmentacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

4.1.1 Metodo de Otsu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

4.1.2 Segmentacion semantica . . . . . . . . . . . . . . . . . . . . . . . . . 30

4.2 Extraccion de caracterısticas . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

4.3 Clasificacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

5 Resultados 41

5.1 Segmentacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

5.1.1 Metodo de Otsu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

5.1.2 Segmentacion semantica . . . . . . . . . . . . . . . . . . . . . . . . . 43

5.1.3 Comparacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

5.2 Extraccion de caracterısticas . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

5.3 Clasificacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

6 Conclusiones y recomendaciones 59

6.1 Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

6.2 Recomendaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

Bibliografıa 61

Lista de Figuras

3-1 Dermatoscopia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

3-2 Red Pigmentada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

3-3 Puntos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

3-4 Globulos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

3-5 Canales RGB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

3-6 Representacion espacial del modelo CIELAB . . . . . . . . . . . . . . . . . . 14

3-7 Mascara general 3x3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

3-8 Piramide de imagenes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3-9 Comparacion entre pıxeles . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

4-1 Diagrama de Bloques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

4-2 Diagrama de Bloques para el metodo de Otsu . . . . . . . . . . . . . . . . . 28

4-3 Matriz de intensidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

4-4 Diagrama de Bloques para el Deep Learning . . . . . . . . . . . . . . . . . . 30

4-5 Arquitectura de una red de segmentacion semantica . . . . . . . . . . . . . . 31

4-6 RGB vs L*a*b . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

4-7 Bag of Words . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

4-8 k-means . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

4-9 SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

5-1 Operaciones morfologicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

5-2 Entrenamiento segmentacion semantica sin balanceo de pesos . . . . . . . . . 45

5-3 Sistema desbalanceado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

5-4 Entrenamiento segmentacion semantica . . . . . . . . . . . . . . . . . . . . . 46


5-6 Segmentacion carcinoma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

5-7 Segmentacion melanoma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

5-8 Segmentacion Nevus melanocıtico . . . . . . . . . . . . . . . . . . . . . . . . 49

5-9 BoW Carcinoma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

5-10 BoW Melanoma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

5-11 BoW Nevus Melanocıtico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

5-12 Visualizacion de los resultados . . . . . . . . . . . . . . . . . . . . . . . . . . 54

5-13 Matriz de confusion HSV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

5-14 Matriz de confusion Lab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

xiv Lista de Figuras

5-15 Matriz de confusion NTSC . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

5-16 Matriz de confusion para XYZ . . . . . . . . . . . . . . . . . . . . . . . . . . 56

5-17 Matriz de confusion YCBCR . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

5-18 Matriz de confusion RGB . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

5-19 Matriz de confusion Opponent Space . . . . . . . . . . . . . . . . . . . . . . 58

Lista de Tablas

3-1 Analisis de patrones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

3-2 Regla del ABCD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

3-3 Criterios para la lista de verificacion de los tres puntos[31] . . . . . . . . . . 10

3-4 Lista de verificacion de los 7 puntos, criterios mayores y menores[31] . . . . . 11

3-5 Interpretacion metodo de Menzies.[31] . . . . . . . . . . . . . . . . . . . . . 12

3-6 Comparacion de los metodos de diagnostico segun su sensibilidad y Especifidad 12

4-1 DownSampling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

4-2 UpSampling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

4-3 Red de segmentacion semanticas . . . . . . . . . . . . . . . . . . . . . . . . . 34

4-4 Opciones de entrenamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

4-5 Recuento de pıxeles para la segmentacion semantica . . . . . . . . . . . . . . 36

5-1 Umbral optimo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44


5-3 Resultados Clasificador SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

1 Introduccion

El dano en la piel es acumulativo y las enfermedades de la dermis afectan con mayor fre-

cuencia a los adultos mayores, quienes han estado expuestos a diferentes factores como la

radiacion solar. La exposicion a la radiacion utravioleta (UV) es uno de los agentes de riesgo

principales del cancer de piel, cuando este dano afecta el ADN de los genes que controlan el

crecimiento de las celulas de la piel, aparece el cancer. En Colombia, cada ano mil personas

podrıan desarrollar esta enfermedad, de las cuales el 25 % podrıa morir por esta causa[4].

El cancer de piel es un problema de salud publica y existen varios tipos, pero el tipo Me-

lanoma tiene la mayor tasa de mortalidad. En 2015, la incidencia global de melanomas fue

estimada sobre 350 mil casos, con casi 60 mil muertes. A pesar de que la mortalidad es signi-

ficativa, cuando es detectado en una etapa temprana, la tasa de supervivencia del melanoma

aumenta considerablemente superando el 95 % de los casos [15].

La dermatoscopia es una tecnica de fotografıa reciente que amplifica la imagen de la piel y

elimina la reflexion de la superficie, las investigaciones demuestran que con el entrenamiento

apropiado, la precision del diagnostico puede variar entre un 75 % a 84 %. Existen diversos

algoritmos para analizar imagenes dermatoscopicas como la lista de los 3 puntos, la regla del

ABCD, el metodo de Menzies y la lista de los 7 puntos; estos algoritmos sirven como punto

de partida para evaluar una lesion y clasificarla de acuerdo a caracterısticas puntuales, sin

embargo, muchos medicos ignoran estos metodos y se basan en su experiencia personal para

diagnosticar la enfermedad[6].

La dermatoscopia permite implementar herramientas de deteccion automatica basada en el

analisis y procesamiento de imagenes; hoy en dıa, con el acceso a camaras de alta resolucion,

los algoritmos pueden mejorar de forma significativa nuestra habilidad para ver y detectar le-

siones problematicas. Por esta razon, muchas instituciones estan invirtiendo en investigacion

sobre analisis automatico[15].

The International Skin Imaging Collaboration1, ISIC, por sus siglas en ingles, ha puesto a

disposicion una gran base de datos de imagenes dermatoscopicas, con mas de 20mil imagenes

provenientes de los principales centros clınicos a nivel internacional. ISIC promueve la in-

vestigacion colaborativa a traves de retos para desarrolladores y su objetivo es brindar a los

participantes una base de datos confiable para desarrollar una herramienta de clasificacion

de enfermedades de la piel[3].

Existen cientos de aplicaciones para dispositivos moviles que se comercializan como dispo-

sitivos educativos o de asistencia para la deteccion temprana de melanomas, sin embargo,

1Colaboracion internacional de imagenes de la piel

1.1 Justificacion 3

aun falta encontrar modelos precisos que brinden seguridad y que sean aceptados por la

comunidad medica[3].

1.1. Justificacion

En Colombia, como en el resto del mundo, el cancer de piel se ha convertido en una preo-

cupacion habitual, se estima que en el paıs se detectan 1213 casos nuevos cada ano, de los

cuales 226 resultan en la muerte [22]; aunque las lesiones cutaneas son visibles a simple vista,

es difıcil distinguir entre una lesion benigna y un melanoma en su etapa inicial, dando lugar

a biopsias innecesarias para hacer el diagnostico[8]. La deteccion temprana juega un papel

clave en el tratamiento del cancer de piel, por esta razon, este proyecto tiene como objetivo

aportar una herramienta de analisis no invasivo, que a partir de imagenes dermatoscopicas

sea capaz de detectar, extraer caracterısticas y clasificar lesiones pigmentadas, para apoyar

el diagnostico medico. Con esta herramienta se busca dar un paso en el analisis de imagenes

dermatoscopicas, con el fin de apoyar a estudiantes y medicos especialistas en dermatologıa.

A partir de la base de datos, se segmentaron las imagenes para aislar la lesion pigmentada de

la piel, se utilizo el metodo de Otsu y la segmentacion semantica complementados con ope-

raciones morfologicas. A continuacion, se realizo la extraccion de caracterısticas locales de la

imagen segmentada a traves de bag of words ; para esto, se tuvieron en cuenta los descriptores

de color y forma, ya que se consideraron caracterısticas relevantes para el vocabulario del

bag of words. Finalmente, se obtuvo el histograma de caracterısticas para cada imagen y se

entreno el clasificador por medio de SVM (Support Vector Machine2).

2Maquinas de vectores de soporte

2 Objetivos

2.1. Objetivo general

Identificar lesiones pigmentadas en la piel tipo melanoma usando imagenes dermatoscopicas,

a traves de tecnicas de inteligencia artificial y procesamiento de imagenes para apoyar el

diagnostico medico.

2.2. Objetivos especıficos

Segmentar las imagenes dermatoscopicas con el fin de generar una mascara binaria que

indique las partes de la imagen que corresponden a la lesion pigmentada.

Extraer las caracterısticas principales de la lesion usando procesamiento digital de

imagenes.

Clasificar las lesiones a traves de una red neuronal entrenada con aprendizaje supervi-

sado.

3 Marco teorico

3.1. Cancer de piel

La piel es el organo mas extenso del cuerpo humano, lo protege y es por ello que puede

ser afectada por un gran numero de patologıas, entre ellas el cancer; este puede definirse

como la multiplicacion rapida, desordenada y agresiva de celulas anormales, principalmente

de la capa mas superficial de la piel, la dermis. El cancer de piel se revela generalmente

con la generacion de un tumor y segun sea su crecimiento, hacia el interior o el exterior de

la dermis, representa un grado diferente de amenaza. El melanoma, el mas letal de todos

los canceres de piel, se origina en los melanocitos, las celulas que dan el color a la piel. Al

igual que todos los tipos de cancer de piel, se caracteriza por ser una enfermedad silenciosa,

usualmente indolora que puede originarse en piel sana o a partir de un lunar u otra lesion

ya existente que va cambiando su forma, tamano, color o textura[20].

La incidencia del cancer de piel ha aumentado a nivel mundial desde 1979, sobre todo el de

tipo melanoma. La exposicion prolongada a la radiacion solar y a su componente ultravioleta

sin ninguna precaucion es un factor de gran influencia en la mayorıa de los casos[13], incluso

se ha visto un incremento de incidencias en personas jovenes debido al uso de dispositivos

de bronceado artificial y a la falta de proteccion al exponerse al sol.

El melanoma puede ser diagnosticado tempranamente a traves de una simple inspeccion vi-

sual, sı se detecta mientras aun esta confinado a las capas externas de la piel es curable y la

tasa de supervivencia relativa a 5 anos es aproximadamente del 98 %. Desafortunadamente,

muchos pacientes continuan siendo diagnosticados con una enfermedad mas avanzada. Co-

mo resultado, de los mas de 13 millones de casos diagnosticados de cancer de piel a nivel

mundial, mas de 65,000 personas mueren de melanoma cada ano. En Colombia, segun re-

portes de la Secretarıa Distrital de Salud, se diagnostican alrededor de 6.500 casos al dıa y

aproximadamente 250 personas mueren al ano por causa de la enfermedad[13].

3.2. Dermatoscopia

A pesar de que las lesiones en la piel son visibles directamente, existen muchas estructuras

de la misma que no lo son. Con el avance de la tecnologıa y su aplicacion en la medicina, hoy

en dıa se hace uso del dermatoscopio para observar con mas detalle la lesion pigmentada.

La dermatoscopia o Microscopıa de Epiluminiscencia (ELM), es una tecnica que mediante

6 3 Marco teorico

Figura 3-1: La dermatoscopia digital detecta tumores de piel, como el melanoma, en sus

etapas iniciales, tomando imagenes de los lunares con una camara digital, que

aumenta su tamano para que el dermatologo los estudie[7].

un sistema de amplificacion e iluminacion permite eliminar el reflejo y la reflexion de la

superficie de la piel, permitiendo una mejor visualizacion en vivo de la estructura y subes-

tructura de las lesiones pigmentadas, cuando se usa por dermatologos expertos, permite

reconocer caracterısticas morfologicas que no son visibles a simple vista. Estudios indican

que la dermatoscopia logra una mejorıa del 20-25 % en la precision diagnostica del melano-

ma, implicando ası, una reduccion de biopsias innecesarias y una mejor oportunidad para el

seguimiento y documentacion de las lesiones existentes[31].

Los instrumentos actualmente usados para la realizacion de una exploracion dermatoscopica

son el dermatoscopio manual, el estereomicroscopio quirurgico binocular y portatil, el video-

dermatoscopio y los equipos de dermatoscopia digital. El dermatoscopio usualmente utilizado

tiene un aumento de 10x que es suficiente para una evaluacion de las lesiones pigmentadas

de la piel en la rutina diaria.

3.3. Algoritmos de diagnostico dermatoscopico

El diagnostico por dermatoscopia se divide en dos etapas: la primera, consiste en determinar

si la lesion es de tipo melanocıtica o no, para posteriormente distinguir la naturaleza benigna

o maligna de la lesion. Para discernir la naturaleza de la lesion, se debe ser capaz de recono-

cer una serie de estructuras dermatoscopicas asociados al melanoma; ahora bien, desde un

punto de vista clınico, el medico puede usar distintos criterios o parametros dermatoscopicos

para evaluar si la lesion es de tipo melanoma (maligna).

3.3 Algoritmos de diagnostico dermatoscopico 7

Patrones globales Caracterısticas locales

especıficas

Caracterısticas locales

adicionales

Caracterısticas de

Confusion

Multiples componen-

tes, reticular, globular,

cresta paralela, ines-

pecıfico

Red de pigmentos

atıpicos, puntos /

globulos irregulares,

vetas irregulares, velo

azul-blanquecino, pig-

mentacion irregular,

estructuras de regre-

sion, vasos irregulares

punteados o lineales

Areas hipopigmenta-

das, vasos en horquilla,

globulos rojos

Patron homogeneo o

estrellado; red tıpica

de pigmentos, puntos /

globulos regulares, ve-

tas regulares, quistes

tipo milia.

Tabla 3-1: Caracterısticas presentes en una lesion tipo melanoma[14]

Uno de los metodos ampliamente utilizados para el diagnostico de melanoma es el analisis

de patrones. Este metodo se basa en una evaluacion crıtica y simultanea de criterios derma-

toscopicos individuales, lo cual requiere de un gran conocimiento y experticia del examinador

para lograr un diagnostico con suficiente seguridad; este metodo presenta graves desventajas

en cuanto a que es difıcil reproducirlo ya que depende, en gran medida, del examinador. Por

ello se han introducido metodos semicuantitativos de diagnostico adicionales con el objetivo

de aumentar la sensibilidad en la deteccion del melanoma y evitar al maximo la influencia del

conocimiento y experiencia del examinador, facilitando ası, el diagnostico a los dermatologos

menos experimentados en la tecnica, ademas, las tecnicas semicuantitativas permiten una

posible implementacion a traves de algoritmos computacionales.

Algunos de los metodos para distinguir los parametros y patrones asociados al melanoma

son la regla ABCD, la lista de control de 7 puntos y el metodo de Menzies. A continuacion

se dara una breve explicacion de los metodos mencionados [14].

3.3.1. Analisis de patrones

Esta es la tecnica mas usada por los medicos con mas experiencia y conocimiento, tam-

bien es la que brinda mejores resultados para el diagnostico. Las lesiones melanocıticas se

caracterizan por tener unos pocos patrones globales que cubren la mayor parte de la le-

sion, permitiendo una categorizacion preliminar rapida, y unos patrones locales, estructuras

individuales presentes en distintas regiones de la lesion; sin embargo, se pueden observar

caracterısticas locales adicionales que representan pistas de diagnostico utiles. Ademas, se

pueden presentar caracterısticas de confusion, es decir, criterios dermoscopicos que con poca

frecuencia estan presentes dentro de una categorıa de diagnostico dando lugar a una clasifi-

cacion equivocada[14]. En la tabla 3-1 se listan los criterios que clasificarıan una lesion.

8 3 Marco teorico

3.3.2. Regla de ABCD

Este es un metodo semicuantitativo alternativo al analisis de patrones y para usarlo es

necesario que la lesion pigmentada sea melanocıtica; la nemotecnia surge de los cinco criterios

en los que se basa:

Asimetrıa: Se divide la lesion pigmentada en dos ejes de 90 %, de manera que se

consiga la mayor simetrıa posible, y se valora la asimetrıa con respecto el color, la

forma y estructuras en ambos lados del eje. Se otorga una puntuacion de 0 si no existe

asimetrıa en ningun eje; de 1, si existe asimetrıa en un eje y de 2, si la presenta en

ambos ejes. De esta manera se tiene una puntuacion de 0 a 2.

Borde: La lesion es dividida en 8 segmentos y se puntua con 1 cada porcion que

presente una finalizacion abrupta o brusca del borde. Por el contrario, un corte gradual

e indistinto de la porcion obtendra un puntaje de 0. De tal manera que la puntuacion

mınima que se puede obtener es 0 y la maxima 8.

Color: Se valora la presencia de 6 colores: blanco, marron claro, marron oscuro, azul-

gris, rojo y negro. El blanco tan solo puntuara si es mas claro que la piel adyacente,

por lo que la puntuacion maxima sera de 6 y la mınima de 1.

Estructuras dermatoscopicas: Se consideran 5 estructuras cada una de las cuales

puntua con un punto, por lo que la puntuacion maxima sera de 5 y la mınima de 1.

Las estructuras dermatoscopicas son:

• Red pigmentada(Figura 3-2), Consiste en una conexion de lıneas entrecruzadas

que provocan la generacion de huecos, regulares o irregulares. Las lıneas indican

mayor cantidad de melanina en esa region.

• Areas desestructuradas, que deben comprender mas del 10 % de la superficie de

la lesion.

• Puntos(Figura 3-3), que deben ser mas de dos.

• Globulos(Figura 3-4), que deben ser al menos dos.

• Ramificaciones lineales, que al igual que los puntos deben ser mas de dos.

Cada uno de los puntajes alcanzados por los criterios anteriores, deben ser multiplicados por

un peso ponderado para calcular el valor del ındice dermatoscopico total (TDS):

TDS = 1, 3A+ 0, 1B + 0, 5C + 0, 5D (3-1)

El significado del valor del TDS se interpreta segun la tabla 3-2


(a) Red pigmentada tıpica

(b) Red pigmentada atıpica

Figura 3-2: La red pigmentada consiste en una rejilla de ”lıneas”pigmentadas que se cruzan

formando un patron de panal[23].

Figura 3-3: Puntos

Los puntos son pequenas y redondas estructuras de menos de 0.1mm en diametro que

tienen un color rojo correspondiente a los vasos sanguıneos; sin embargo, cuando

interactuan con melanina, su rango de colores varıa desde negro, cafe, hasta azul grisaceo

dependiendo de la profundidad y la concentracion de la melanina en la piel[23].

10 3 Marco teorico

Figura 3-4: Globulos

Los globulos son estructuras simetricas, circulares o ovales, bien demarcadas con un

diametro mayor que 0.1mm[23].

Tabla 3-2: Interpretacion del indice dermatoscopico total para la regla del ABCD[31]

.

TDS Diagnostico

Menor a 4.75 Benigno

Entre 4.75 y 5.45 Sospechoso

Mayor a 5.45 Maligno

3.3.3. Lista de verificion de los 3 puntos

Este es uno de los algoritmos visuales mas sencillos, depende de la distincion de tres patrones

como lo son: la asimetrıa, el patron reticular atıpico y las estructuras blanco-azuladas, estos

patrones son relevantes en el diagnostico del melanoma y la presencia de al menos dos de

ellos, indica una alta probabilidad de melanoma (Tabla 3-3).

Tabla 3-3: Criterios para la lista de verificacion de los tres puntos[31]

.Criterio Definicion

Asimetria Asimetrıa del color y/o estructura en uno o dos ejes perpendiculares

Patron reticular atıpico Retıculo pigmentado con distribucion irregular y lıneas gruesas

Estructuras blanco-azuladas Cualquier tipo de coloracion azulada, blanquecina o ambas en la lesion

3.3.4. Lista de verificacion de los 7 puntos

Este es un metodo de diagnostico ideado para ayudar a la clasificacion de melanomas por

examinadores menos experimentados, requiere la identificacion de siete criterios dermatologi-

cos jerarquizados. A las caracterısticas mas frecuentemente relacionadas con el melanoma,

llamadas criterios mayores, se les asigna un puntaje de 2, por otro lado, a las caracterısticas

menos asociadas al melanoma, llamadas criterios menores, se les asigna un puntaje de 1.

Mediante la simple adicion de las puntuaciones individuales, una puntuacion total de 3 o


mas permite la clasificacion de melanoma con una sensibilidad del 95 % y una especificidad

del 75 %.

Tabla 3-4: Lista de verificacion de los 7 puntos, criterios mayores y menores[31]

.

Criterio dermatoscopico Puntuacion Maxima

CRITERIOS MAYORES

Retıculo pigmentado atıpico 2

Velo azul-Blanquecino 2

Patron vascular atıpico 2

CRITERIOS MENORES

Proyecciones irregulares 1

Puntos/Globulos irregulares 1

Manchas de pigmento irregulares 1

Estructuras asociadas a la regresion 1

PUNTUACION TOTAL

Menor a 3 Benigna

Mayor o igual a 3 Maligna

3.3.5. Metodo de Menzies

Se basa en la valoracion de 11 criterios dermatoscopicos divididos en criterios negativos,

que no deben estar presentes para el diagnostico de melanoma, y criterios positivos, alguno

de ellos debe cumplirse para considerar maligna la lesion pigmentada. Para diagnosticar el

melanoma, no se deben presentar ninguno de los dos criterios negativos y se debe tener al

menos, uno de los nueve criterios positivos (Tabla 3-5).

El estudio hecho por la CNMD1, en el que se evaluaron los diferentes metodos de diagnostico

segun su reproducibilidad2, comparando la sensibilidad3 y la especifidad4 de cada uno, se

puede observar en la tabla3-6.

1Consenso de Netmeeting en Dermoscopia2Capacidad del test para ofrecer los mismos resultados cuando se repite su aplicacion en circunstancias

similares. La variabilidad biologica del hecho observado, la introducida por el propio observador y la

derivada del propio test, determinan su reproductividad[9].3Es la probabilidad de clasificar correctamente a un individuo enfermo, es decir, la probabilidad de que

para un sujeto enfermo se obtenga en la prueba un resultado positivo. La sensibilidad es, por lo tanto, la

capacidad del test para detectar la enfermedad[9].4Es la probabilidad de clasificar correctamente a un individuo sano, es decir, la probabilidad de que para

un sujeto sano se obtenga un resultado negativo[9].

12 3 Marco teorico

Tabla 3-5: Interpretacion metodo de Menzies.[31]

CRITERIOS

Negativos Simetria

No estan presentes en un melanoma Monocromıa

Velo azul-Blanquecino

Despigmentacion tipo cicatriz

Multiples colores

Retıculo pigmentado prominente

Positivos Pseudopodos

Al menos uno debe estar presente Proyecciones radiales

Multiples puntos marrones

Puntos/Globulos negros perifericos

Multiples puntos azul-gris

Tabla 3-6: Comparacion de los metodos de diagnostico segun su sensibilidad y Especifidad

Algoritmo de DiagnosticoDesempeno

Sensibilidad % Especifidad %

Analisis de patrones 83.7 83.4

Regla de ABCD 82.6 70

Lista de los 7 puntos 83.6 71.1

Metodo de Menzies 85.7 71.1

Lista de los 3 puntos 91 71.9

3.4. Tecnicas de procesamiento de imagen

Para el desarrollo de este proyecto se hizo uso de varios conceptos y herramientas del pro-

cesamiento digital de imagenes. Con la intencion de contextualizar al lector, a continuacion

se describen algunos de ellos.

Nos referimos por imagen a una funcion de intensidad de luz bidimensional f(x, y), donde

x e y indican las coordenadas espaciales y el valor de f en cualquier punto (x, y) es propor-

cional a la luminosidad (o nivel de gris) de la imagen en dicho punto. Una imagen digital es

una imagen (funcion) f(x, y) que ha sido discretizada tanto en coordenadas espaciales como

en luminosidad. En otras palabras, una imagen digital tiene un numero finito de elementos,

cada uno de los cuales tiene una ubicacion y un valor particular. Los elementos de estos

arreglos digitales son llamados elementos de imagen o pıxeles[12].

Teniendo en cuenta lo anterior, un pıxel tiene vecinos tanto verticales como horizontales a

una unidad de distancia, cuyas coordenadas estarıan dadas por:

(x+ 1, y), (x− 1, y), (x, y + 1), (x, y − 1) (3-2)

3.4 Tecnicas de procesamiento de imagen 13

(a) Canal Rojo (b) Canal Verde (c) Canal Azul

Figura 3-5: Canales RGB

En la Figura(a). se puede visualizar el canal rojo, en la Figura(b). se puede visualizar el

canal Verde y en la Figura(c). se puede visualizar el canal Azul del Modelo RGB.

Y los cuatro vecinos diagonales estan dados por

(x+ 1, y + 1), (x+ 1, y − 1), (x− 1, y + 1), (x− 1, y − 1) (3-3)

3.4.1. Representacion del color

Para representar el color de una imagen existen diferentes modelos que proporcionan metodos

para la manipulacion de estos, ordenandolos y especificandolos, ofreciendo distintas carac-

terısticas y ventajas. En la actualidad existen varias de estas representaciones como RGB,

HSV, CIELAB, Opponent Space.

RGB

El espacio RGB representa el color como la mezcla aditiva de las matrices que describen y

comprenden los tres colores primarios rojo (R), verde (G) y azul (B), con diferentes valores

de luminosidad (ver Figura 3-5). Este es el espacio de color mas utilizado y extendido ya que

proporciona informacion sobre cada color primario por separado, aunque su representacion

depende de como este definido cada color primario en el dispositivo de visualizacion[25].

El uso del espacio RGB permite evitar la alteracion de las propiedades del color durante

el proceso de segmentacion y conseguir una mayor velocidad de segmentacion al evadir

operaciones de conversion y redondeo.

HSV

El modelo HSV representa el color como una combinacion de tonalidad (H), saturacion (S)

e intensidad (V). Este modelo tiene algunas ventajas como independizar la informacion de

tonalidad y la del brillo, pudiendo modificaras de forma independiente.

14 3 Marco teorico

Figura 3-6: Representacion espacial del modelo CIELAB

CIELAB

El espacio CIELAB es un espacio estandarizado que pretende lograr una representacion del

color perceptualmente uniforme. Este modelo se basa en la teorıa de los colores opuestos,

la variable L representa luminancia, A magenta-verde y B amarillo-cyan. Un valor negativo

de A define un color mas verde que magenta, mientras que un valor positivo de B define un

color mas amarillo que cyan, ver imagen 3-6.

Opponent Space

Este modelo esta basado en el sistema de visualizacion humano y el modelo de colores

opuestos. Tiene dos componentes cromaticos y uno monocromatico:

O1 representa el canal verde-rojo (GR)

O1 = G−R (3-4)

O1 representa el canal azul-amarillo (BY)

O2 = B − Y = B − (R +G) (3-5)

O3 es la componente de luminancia

Para esta aplicacion y considerando la naturaleza de las imagenes se realizan diferentes

pruebas para definir cual de los anteriores ofrece mayor cantidad de informacion.

3.4.2. Operaciones morfologicas

La morfologıa matematica es una tecnica de procesamiento de imagen cuyo proposito es

analizar la forma de los objetos. Las dos principales operaciones de la morfologıa son la

dilatacion y erosion, la combinacion de las anteriores da como resultado las operaciones de

3.4 Tecnicas de procesamiento de imagen 15

apertura y cierre. Las operaciones morfologicas se realizan utilizando elementos estructura-

les, que son matrices de unos y ceros cuya forma y tamano se adaptan a las propiedades

geometricas de la imagen a procesar[26][2].

Si se tiene que Ay B son conjuntos en R2 y Ø el conjunto vacıo, entonces:

La traslacion de A por x = (x1 + x2)

(A)x = [c|c = a+ x, paraa ∈ A] (3-6)

La reflexion de A

A = [x|x = −a, paraa ∈ A] (3-7)

Complemento de A

Ac = [x|x /∈ A] (3-8)

Erosion: la erosion es el resultado de comprobar si el elemento estructural B esta

completamente incluido dentro del conjunto A. En la practica, el resultado de la erosion

es el conjunto de posiciones x para los cuales el elemento estructural B reflejado y

desplazado esta contenido en A.

AB = [x|Bx ⊆ X] (3-9)

Dilatacion: el resultado de la dilatacion es el conjunto de elementos tal que al menos

algun elemento estructural B esta contenido en el conjunto A, cuando B se desplaza

sobre el conjunto A. En la practica, se refleja y traslada el elemento estructural B

por la imagen y se ponen a 1 los pıxeles de A en aquellas posiciones x en las que la

interseccion de A y B reflejada y desplazada no es nula.

A⊕B = [x|(B)x ∩ A 6= Ø] (3-10)

Apertura: elimina todos los objetos que no estan completamente contenidos en el

elemento estructural sin disminuir el tamano a los objetos que superen la erosion.

Consiste en erosionar A por B, y a continuacion dilatar el resultado por B. Se consigue

un efecto de suavizado del contorno de los objetos, eliminando ruido.

A ◦B = (AB)⊕B (3-11)

Cierre: al contrario que la apertura, realiza en primer lugar una dilatacion y a conti-

nuacion una erosion. Esto permite fusionar objetos muy cercanos o eliminar pequenas

fisuras.

A ·B = (A⊕B)B (3-12)

A partir de estas cuatro operaciones se desarrollan algoritmos morfologicos que desempenan

otro tipo de funciones.

16 3 Marco teorico

Figura 3-7: Mascara general 3x3

[12].

3.5. Segmentacion

Para el diagnostico automatico del cancer de piel es necesario discernir que seccion de la piel

es de interes, por esta razon, es de vital importancia realizar un proceso de segmentacion

que permita aislar la lesion del resto de la piel.

En el campo de procesamiento de imagenes se tiene que la segmentacion es el proceso que

divide una imagen en regiones con el fin de facilitar su procesamiento. El nivel al cual la

division es llevada a cabo depende en el problema que se desea solucionar, es decir, se deberıa

detener un proceso de segmentacion una vez se tenga el objeto de interes aislado[12].

En la practica, el resultado de la segmentacion es la asignacion de etiquetas a pıxeles que

por sus caracterısticas se consideran parte de un objeto determinado. Los algoritmos de

segmentacion usualmente estan basados en dos de las propiedades basicas de la matiz de

intensidades: discontinuidad y similitud.

El primero de ellos se basa en los cambios abruptos de intensidad como lo son los bordes en

una imagen. Por otro lado la segunda se basa en la deteccion de regiones que son similares

de acuerdo con un conjunto de criterios predefinidos. La deteccion de bordes ha sido uno de

los algoritmos mas utilizados y estudiados[11].

3.5.1. Segmentacion basada en discontinuidades

Los algoritmos basados en discontinuidades detectan los cambios bruscos en la intensidad de

una imagen. La forma mas comun de hacer esto es pasar una mascara a traves de esta, con la

forma general mostrada en la fig 3-7), para despues compararlo con un umbral y seleccionar

ası los cambios mas bruscos.

Este procedimiento envuelve conocer la respuesta de la mascara en cualquier punto de la

imagen, la cual esta dada por:

R =9∑

i=1

WiZi = W1Z1 +W2Z2 + ...+W9Z9 (3-13)

Donde Zi es el nivel de gris del pıxel asociado con el coeficiente de la mascara Wi. R (valor

asignado al pıxel central) es basicamente las diferencias de intensidad ponderadas entre el

punto central y sus vecinos. La idea es que un punto aislado cuyo nivel de gris es significa-

tivamente diferente al del fondo, sera facilmente detectado por este tipo de mascara. Para

3.6 Clasificacion 17

determinar si el nivel de gris es significativo o no, el metodo sugerido es utilizar un umbral.

Ahora bien si se define T como un valor umbral no negativo tendrıamos que:

f(x) =

{1 si |R| > T

0 si |R| ≤ T(3-14)

Utilizando esta misma tecnica, es posible disenar mascaras para detectar todo tipo de dis-

continuidades como lıneas, puntos y bordes.

3.5.2. Segmentacion basada en similitud

Este metodo de segmentacion se basa en la agrupacion de regiones de la imagen cuyos pıxeles

compartan un conjunto de caracterısticas semejantes, como el color o la intensidad. Dentro

de estos metodos, cabe destacar la umbralizacion.

Umbralizacion

Debido a sus propiedades intuitivas y la simplicidad de implementacion la umbralizacion

es uno de los metodos mas empleados e importantes en la segmentacion de imagenes [24].

Consiste en asignar un valor o etiqueta a cada pıxel en funcion de un umbral no negativo T,

generalmente basado en la informacion suministrada por el histograma de escala de grises.

Entonces, cualquier punto(x, y) en la mascara g(x, y) que supere el umbral sera un punto de

objeto (valor de 1), de otro modo sera un punto de fondo (valor 0).

g(x, y) =

{1 si f(x, y) > T

0 si f(x, y) ≤ T(3-15)

En imagenes donde los niveles predominantes de intensidad esten bien definidos, es posible

aplicar una umbralizacion multinivel. Esto es, a partir de varios umbrales, clasificar un

punto(x, y) como perteneciente a uno de dos o mas objetos diferentes. En general, la dificultad

para seleccionar dichos umbrales hace que, en muchas ocasiones, un umbral unico proporcione

segmentaciones mas precisas[11].

3.6. Clasificacion

El proceso de clasificacion por parte de sistemas automaticos consiste en asignar a cada

elemento de un conjunto una clase determinada. Las clases identifican elementos que com-

parten una serie de caracterısticas similares. Ahora bien, se define caracterıstica como todas

aquellas propiedades de un elemento que pueden ser de alguna forma cuantificadas.

Pese a que un objeto puede poseer un numero infinito de caracterısticas, es necesario resaltar

que no todas son relevantes a la hora de distinguirlo de otro objeto. Algunas caracterısticas

18 3 Marco teorico

pueden estar relacionadas entre sı, tener un caracter aleatorio o no relacionarse con el resto

de propiedades del objeto. Por esto es necesario identificar y seleccionar las caracterısti-

cas segun la aplicacion, ya que la eficiencia de un sistema automatico de clasificacion recae

fuertemente en la precision y relevancia de las caracterısticas cuantificadas.

3.6.1. Extraccion de Caracterısticas

Es necesario representar y describir los pıxeles resultantes de la segmentacion de forma que

sea posible su procesamiento; la descripcion de una region se realiza con base en sus carac-

terısticas internas, externas o ambas. La extraccion de caracterısticas consiste basicamente

en la tarea de localizar puntos de interes en una imagen dada, los cuales, contienen una alta

cantidad de informacion relevante sobre su entorno y son invariables ante las perturbaciones

que puede sufrir una imagen, es decir, son reproducibles.

Para lograr clasificar correctamente las imagenes dermatoscopicas se debe asegurar que la

representacion de las imagenes de una misma clase sea lo mas similar posible. En otras pa-

labras, en la representacion por puntos de interes se debe lograr que en imagenes diferentes

de la misma clase se detecten los mismos puntos de interes, en las mismas zonas y que estas

zonas sean las mas representativas de la imagen.

SIFT

Muchos algoritmos son invariantes ante las rotaciones pero esto no necesariamente aplica

cuando la imagen presenta un escalamiento. Scale Invariant Feature Transform, SIFT, es un

algoritmo de deteccion de puntos de interes que es invariante ante rotaciones y escalamientos.

SIFT consiste en aplicar sobre la imagen una secuencia de diferencias gaussianas centradas

en cada uno de los pıxeles de la imagen en una escala σ determinada (de la piramide de

imagenes5) 3-8, esto produce un efecto de suavizado y perdida del detalle de la imagen ori-

ginal a medida que los pixeles vecinos van perdiendo influencia una vez se van alejando del

pıxel principal. La diferencia de gaussianas actua como detector de contornos o areas con

intensidad homogenea (BLOBS) rodeadas de zonas oscuras o claras.

Con lo anterior, podemos encontrar los maximos locales a traves de la escala y el espacio, lo

que nos da una lista de valores (x, y, σ) indicando que hay un punto de interes potencial en

(x, y) a escala σ. En otras palabras, un pıxel es comparado con sus 8 vecinos mas cercanos

en la misma escala, como tambien se compara con los 9 puntos vecinos en las escala anterior

y posterior3-9. Esto significa que un punto de interes esta mejor representado en esa escala.

Una vez localizados todos los puntos de interes, estos deben refinarse para obtener resultados

mas precisos. Se eliminan todos los puntos con contraste bajo (bajo valor en la diferencia de

5Conjunto de imagenes con tamano decreciente o creciente, usada para detectar caracterısticas de diferentes

tamanos


Figura 3-8: Piramide de imagenes

[18].

gaussianas) ademas de puntos localizados en los bordes ya que pueden introducir ruido en

la imagen.

Ahora una orientacion es asignada a cada punto de interes, ya que la descripcion de estos

se representara a traves de un vector numerico que representa la informacion que se tiene

de la imagen en una zona que se define alrededor del punto de interes. El descriptor se basa

en el concepto de gradiente y se define como el cambio de intensidad de la imagen en una

direccion determinada. La diferencia de intensidad se mide en las coordenadas x e y, estas

se pueden ubicar en un plano describiendo un vector con su respectiva magnitud y angulo

de direccion.

Se crea un histograma de orientacion dividiendo los 360 grados en 36 intervalos, que provee

informacion sobre la distribucion de las orientaciones del gradiente en una determinada

region ademas de, la orientacion dominante en la region. Los pıxeles centrales deben tener

una mayor importancia y por ello se pondera la magnitud del gradiente con una funcion

gaussiana de σ igual a 1,5 veces la escala del punto de interes. Para calcular la orientacion

se toma el pico mas alto en el histograma y picos superiores al 80 %, creando puntos de

interes con la misma ubicacion y escala, pero con diferentes direcciones, contribuyendo a la

estabilidad de la coincidencia.

A continuacion se crea el descriptor del punto de interes. Se toma un area de 16x16 alrededor

del punto de interes y se divide en 16 subbloques de tamano 4x4. Para cada subbloque, se

crea un histograma de orientacion de 8 divisiones, de modo que hay un total de 128 valores

de division disponibles. Ademas de esto, se toman varias medidas para lograr robustez contra

20 3 Marco teorico

Figura 3-9: Comparacion entre pıxeles

[18].

cambios de iluminacion (normalizar el descriptor), rotacion, etc.

SURF

Speeded-Up Robust Features, SURF, es la version mejorada de SIFT. Este algoritmo aproxima

el Laplaciano de Gaussianas(LoG) mediante filtros cuadrados, lo cual implica mayor rapidez

debido a que su convolucion puede ser calculada mediante el uso de imagenes integrales.

SURF tambien usa el determinante de la matriz Hessiana para hallar BLOBS en lugares

donde este es maximo y seleccionar la escala.

Para la asignacion de orientacion al igual que para la descripcion de los puntos de interes,

SURF usa respuestas wavelet en direccion horizontal y vertical para un vecindario de tamano

determinado. En el primer caso, se toma un vecindario circular de radio 6s, siendo s la escala

del punto de interes, y al igual que en SIFT se ponderan con pesos Guassianos adecuados.

La orientacion dominante se estima sumando todas las respuestas dentro de una ventana

de orientacion deslizante con angulo de 60 grados. La respuesta wavelet se puede encontrar

usando de nuevo imagenes integrales en cualquier escala.

En la descripcion de los puntos de interes, se toma un vecindario cuadrado de tamano 20sx20s

alrededor del punto central, el cual se divide en 4x4 subregiones. Para cada subregion, se

toman las respuestas wavelets horizontales y verticales, suavizando los resultados mediante

un filtro Gaussiano (ofrece mayor robustez ante el ruido, errores y deformaciones geometricas

o fotometricas) y obteniendo ası dx y dy. A continuacion se suman los resultados dx, dy y

el valor absoluto |dx|, |dy|. De esta manera, cada subregion proporciona un vector v, que

estara compuesto por:

v = (∑

dx,∑

dy,∑|dx|,

∑|dy|) (3-16)

El descriptor del SURF se obtiene mediante la union de los vectores de las subregiones[18].


3.6.2. Clasificacion

Una vez se obtienen las caracterısticas de los objetos a clasificar, hay dos criterios que se

pueden aplicar para la determinacion de las clases en un algoritmo de clasificacion, la clasi-

ficacion supervisada y no supervisada. La clasificacion supervisada parte de un conjunto de

clases conocido a priori (datos de entrenamiento), que serviran para generar una signatura

caracterıstica para cada clase a traves de la extraccion de caracterısticas[1]. Existen nume-

rosos algoritmos de este tipo, como son las redes neuronales artificiales, SVM, arboles de

decision, Naıve Bayes, Random Forests, etc.

En la clasificacion no supervisada es necesario establec er el numero de clases en las cuales

se quiere clasificar los objetos, ya que se emplea para procesar datos de los cuales no se

tenıa conocimiento a priori. Aquı los elementos mas similares se van agrupando formando

clases hasta llegar al numero definido inicialmente. Dentro de esta categorıa se incluyen las

tecnicas de clustering o agrupamiento y el algoritmo k-means. Con cualquiera de los dos

criterios se puede disenar un sistema que sera capaz de asignarle a muestras futuras una

clase determinada.

Redes Neuronales

Las redes neuronales artificiales son modelos matematicos inspirados en nuestra comprension

de los sistemas nerviosos biologicos. Por tanto una red neuronal es una coleccion de neuronas

artificiales, las cuales son unidades elementales para el procesamiento de la informacion. El

modelo matematico de una neurona artificial se basa en las siguiente proposiciones:

Las neuronas son las unidades elementales en un sistema nervioso en el que se produce

el procesamiento de la informacion.

Las entradas estan dadas en forma de senales que se transmiten entre las neuronas a

traves conexiones.

Cada conexion tiene un peso que multiplica la senal transmitida.

Cada neurona tiene una accion interna, segun el umbral de disparo, lo que resulta en

una funcion de activacion aplicada a la suma ponderada de las senales de entrada para

producir una senal de salida.

SMV

Las maquinas de vectores soporte (SVM, del ingles Support Vector Machines) pertene-

cen a la categorıa de los clasificadores lineales, puesto que inducen separadores lineales

N-dimensionales o hiperplanos en la dimension correspondiente para lograr una separacion

optima. Para la introduccion de dichos hiperplanos en problemas no lineales, se transforma

el problema original en su forma dual equivalente (plano de caracterısticas) y se resuelve este

22 3 Marco teorico

ultimo mediante el uso de funciones kernel. La idea principal es obtener el margen maximo

equidistante entre el hiperplano y aquellas muestras de cada clase que se encuentran mas

cercanas a la frontera entre clases (vectores soporte),

En SVM existen kernels lineales y no lineales, los primeros dan peores resultados ya que

muchos problemas no son linealmente separables, sin embargo el costo computacional y de

entrenamiento es muy bajo. La ecuacion de prediccion para una nueva entrada esta dada

por el producto punto entre la entrada (X) y cada vector soporte Xi. Los kernels no lineales

tienen un costo computacional mayor (tiempo y memoria) en las etapas de aprendizaje y

clasificacion (es necesario guardar todos los vectores de soporte).

Es necesario validar el parametro C que es el factor de regularizacion de impacto del com-

promiso entre el grado de sobreajuste del clasificador final y la proporcion del numero de

ejemplos mal clasificados; en la actualidad no existe una forma teorica de encontrar el valor

del parametro, sin embargo, se utiliza un valor tendiente al infinito.

K-MEANS

El parametro de entrada en este tipo de algoritmos es el numero final de conjuntos (k),

utilizado para obtener un representante para cada cluster. Los clusters son definidos por la

distancia al representante mas cercano, el algoritmo es iterativo y su objetivo es encontrar

la agrupacion que minimice la distancia de las muestras al representante de cada cluster. El

funcionamiento del algoritmo serıa el siguiente:

Inicializar los representantes de cada cluster de forma aleatoria con una muestra cual-

quiera del conjunto de entrenamiento.

Se calcula la distancia de las muestras a los diferentes clusters inicializados aleatoria-

mente y se asigna al cluster que muestre la distancia mas pequena.

Se modifica el representante de cada clase recalculando la media de todas las muestras

asignadas al cluster.

Se modifican las fronteras de los clusters y se repiten los pasos 2 y 3 hasta que no

hayan cambios en la asignacion.

El resultado depende de la inicializacion, a veces es necesario repetir el proceso con diferentes

inicializaciones y escoger la solucion que tenga la menor suma total de cada una de las

distancias de las muestras a los representantes de cada cluster.

C = argmin

k∑j=1

∑xi∈Cj

d(xi, Cj) (3-17)


Bag of Words

El metodo de bag of words (BOW) considera la imagen como un conjunto de caracterısticas

locales, comunes y relevantes que son utilizadas para reconocer y clasificar las imagenes por

metodos estadısticos. A estas caracterısticas se les llamara palabras visuales.

La estructura general del algoritmo consiste en primer lugar agrupar las caracterısticas me-

diante el uso del algoritmo de agrupamiento K-means y de allı obtener el vocabulario visual.

Los centros de agrupamiento son considerados como palabras visuales que componen el vo-

cabulario visual. Luego se hace uso del histograma descrito por la frecuencia de aparicion

de las palabras visuales para representar el contenido de la imagen; como resultado, una

imagen se ve como una bolsa llena de palabras visuales. Como ultimo paso, se toma el histo-

grama formado por palabras visuales de cada imagen como caracterısticas, luego se obtiene

el modelo de clasificacion por entrenamiento SVM. En este metodo no se tiene en cuenta la

localizacion de las caracterısticas locales de la imagen, lo cual puede ayudar a clasificar una

imagen independientemente de donde se encuentre el objeto[10].

Como ya se ha mencionado anteriormente, K-Means permite construir el vocabulario a traves

de un conjunto de imagenes suficientemente caracterısticas de cada clase, el resultado sera un

conjunto de puntos de interes los cuales son agrupados mediante clustering. La idea basica

para representar una imagen a traves de BOW se basa en asignar cada caracterıstica local a

la palabra visual mas cercana, se selecciona la palabra visual que tenga la menor distancia al

punto de referencia. La representacion final corresponde a un histograma de palabras donde

cada componente indica cuantas caracterısticas han quedado asociadas a una palabra.

Existe la necesidad de comparar cada caracterıstica con todas las palabras, lo que puede

generar un costo computacional elevado por ello, se definen diferentes pesos para las ca-

racterısticas. Las palabras que sean comunes y aparezcan frecuentemente en las imagenes

brindan en su mayorıa poca informacion y se le asigna un peso menor, en cambio, una carac-

terıstica poco comun puede brindar mas informacion en la representacion de la imagen. El

valor asociado a cada palabra va dado por el term frecuency, el primer termino en la formula

3-17, este cuenta la frecuencia de cada palabra en la imagen, normalizado por el numero

total de caracterısticas o de palabras que se tienen en la imagen.

El valor anterior se pondera con otro factor que tiene en cuenta la relevancia o capacidad de

discriminacion de la palabra (IDF), este se obtiene dividiendo el numero total de imagenes

que hemos utilizado para construir el vocabulario, por el numero de imagenes donde aparece

una determinada palabra. De esta forma, si una palabra aparece en todas las imagenes, este

cociente va a ser igual a 1 y al tomar el logaritmo, su peso va a ser de 0. Por lo contrario,

si una palabra aparece en muy pocas imagenes, el valor de este cociente va a ser elevado y,

por lo tanto, su ponderacion va a ser elevada. En este metodo es importante normalizar para

evitar dependencia del numero total de palabras en la imagen.

24 3 Marco teorico

3.6.3. Medidas de desempeno

A la hora de evaluar un clasificador, se emplean los siguientes parametros:

Sensibilidad: se define como la probabilidad de clasificar como enfermos los casos real-

mente enfermos. La sensibilidad es del 100 % cuando no se ha producido ningun falso

negativo.

Sensibilidad =TP

TP + FN(3-18)

Especificidad: probabilidad de clasificar como sanos los casos realmente sanos. La es-

pecificidad es del 100 % cuando no se ha producido ningun falso positivo.

Especificidad =TN

TN + FP(3-19)

Precision: es el porcentaje global de acierto de este. Evidentemente, la precision es del

100 % cuando no se producen ni falsos positivos ni falsos negativos.

Precision =TN + TP

TN + TP + FN + FP(3-20)

Donde:

TP: Verdadero positivo, porcentaje de muestras positivas clasificadas correctamente

como positivas.

TN: Verdadero negativo, porcentaje de muestras negativas clasificadas correctamente

como negativas.

FP: Falso positivo, porcentaje de muestras negativas clasificadas incorrectamente como

positivas.

FN: Falso negativo, porcentaje de muestras positivas clasificadas incorrectamente como

negativas.

Resulta evidente que un buen clasificador debera presentar elevadas tasas de TP y TN frente

a FP y FN.

4 Metodologıa

El proyecto fue dividido en tres secciones, como lo son: segmentacion, extraccion de carac-

terısticas y clasificacion. Cada etapa fue desarrolla por separado utilizando diferentes tecnicas

para comparar resultados (ver Figura. 4-1, pag. 26).

El sistema fue entrenado con imagenes dermatoscopicas de lesiones pigmentadas en formato

JPEG, las cuales poseen un tamano normalizado de 450x600px y fueron adquiridas con dife-

rentes tipos de dermatoscopia, en diversos lugares del cuerpo (excluyendo mucosas y unas),

ademas, fueron proveıdas por diferentes instituciones especializadas en el estudio de la piel.

Cada imagen contiene una lesion primaria y algunas pueden contener rayas con marcador,

pequenas lesiones secundarias y otras regiones pigmentadas que deben ser ignoradas.[21, 28]

El conjunto de imagenes esta compuesto en su mayorıa por lesiones benignas, esta serıa

una representacion del ”mundo real”, donde por falta de certeza en el diagnostico visual, se

realizan biopsias innecesarias a individuos sanos.

4.1. Segmentacion

Para el diagnostico de lesiones pigmentadas de la piel es necesario discernir que seccion de

la imagen es de interes, por esta razon, se considera de gran importancia realizar un proceso

de segmentacion que permita aislar las lesiones pigmentadas de la piel del resto de objetos

(pelos, burbujas, etc).

El problema de la segmentacion fue abordado utilizando dos procedimientos, el metodo de

otsu y la segmentacion semantica a partir de aprendizaje profundo, estos fueron evaluados y

comparados segun sus similitud con respecto a las imagenes de entrenamiento segmentadas

manualmente por especialistas en el tema. A continuacion se describen los metodos utilizados

para abordar esta etapa del proyecto:

4.1.1. Metodo de Otsu

Para aplicar el metodo de Otsu, se comienza por la obtencion de la matriz de intensidades

y la binarizacion de la imagen. El metodo de Otsu (Figura. 4-2, pag 28) se emplea cuando

hay una gran diferencia entre el objeto de analisis, en este caso la lesion pigmentada, y el

fondo de la imagen evaluando la intensidad de los pıxeles para establecer un umbral optimo

que permita una mayor separacion entre el objeto de analisis y el fondo. Para obtener la

26 4 Metodologıa

Figura 4-1: Diagrama de bloques para la clasificacion de lesiones pigmentadas de la piel

4.1 Segmentacion 27

mascara binaria, se comparan las intensidades de los pıxeles con el umbral seleccionado, si

la intensidad del pıxel es menor que la del umbral, se asigna un ’uno’, de lo contrario, se

asigna un ’cero’.

En la seleccion del umbral para una imagen dermatoscopica pueden presentarse problemas

como: sombras generadas por el dermatoscopio, ruido en la imagen (bordes negros, vellos,

burbujas de aire) y eliminacion de areas por zonas de baja iluminacion. Todos estos pro-

blemas pueden generar cambios en el area de interes o ROI1, que afecten la extraccion de

caracterısticas y por ende, decrementen la precision del sistema de clasificacion final.

El metodo de segmentacion de Otsu, utiliza tecnicas estadısticas sobre los niveles de gris.

Su objetivo es calcular el valor umbral de forma que la dispersion dentro de cada clase sea

lo mas pequena, pero que al mismo tiempo la dispersion entre clases diferentes sea lo mas

alta posible[17]. En este caso, los pıxeles en la imagen dermatoscopica se dividen en dos

clases, la clase ’Lesion’ y ’Fondo’, a partir del histograma de intensidades, el metodo busca

encontrar el umbral que separe de manera mas efectiva las 2 clases de pıxeles tomando como

caracterıstica principal su intensidad.

Obtencion de la matriz de intensidades

Para calcular el umbral de Otsu es necesario obtener la matriz de intensidades de la imagen

RGB, que corresponde a la luminancia de cada pıxel[16]; esta se calculo utilizando la formula

de la Ecuacion.4-1

Luminancia = 0,299 ·R + 0,587 ·G+ 0,114 ·B (4-1)

Al aplicar la ecuacion 4-1 sobre una imagen de 3 canales RGB, se obtiene una nueva imagen

de solo 2 dimensiones, alto y ancho, que corresponde al equivalente en blanco y negro de la

imagen original, como se muestra en la figura 4-3

Deteccion automatica de umbrales mediante el metodo Otsu

El algoritmo esta basado en la agrupacion de pıxeles, busca automaticamente un umbral

global, recorriendo todo el rango de niveles de gris y seleccionando el umbral que genere la

menor varianza ponderada.[5]

En una imagen de escala de grises, donde el nivel de gris de los N pıxeles se encuentra entre

1 y L, el numero de pıxeles con nivel de gris i se denota como fi (Frecuencia de pıxeles con

nivel de gris i) y la probabilidad de ocurrencia del nivel de gris i en la imagen, esta dada por

1Region Of Interest

28 4 Metodologıa

Figura 4-2: Procedimiento para la segmentacion de lesiones pigmentadas de la piel

4.1 Segmentacion 29

Figura 4-3: Matriz de intensidades para una imagen dermatoscopica

la ecuacion. 4-2

Pi =fiN

(4-2)

En el caso de la binarizacion, los pıxeles son divididos en dos clases: C1 con niveles de

gris [1, ..., t] y C2 con niveles de gris [t + 1, ...,L], cuyas distribuciones de probabilidad se

describen en la Ecuacion. 4-3

C1 :P1

ω1(t), ...,

Pt

ω1(t)

C2 :Pt+1

ω2(t),Pt+2

ω2(t), ...,

PL

ω2(t)

(4-3)

Donde el momento acumulado, la probabilidad de que el pıxel se encuentre dentro de cual-

quiera de las dos clases, se encuentra determinada por la Ecuacion.4-4

ω1(t) =t∑

i=1

Pi ω2(t) =L∑

i=t+1

Pi (4-4)

La intensidad media para la clase C1, la clase C2 y la intensidad media total µT ,estan

definidas en la siguiente Ecuacion. 4-5

µ1 =t∑

i=1

i · Pi

ω1(t)µ2 =

L∑i=t+1

i · Pi

ω2(t)

µT = ω1 · µ1 + ω2 · µ2 ω1 + ω2 = 1

(4-5)

Usando el analisis discriminante, Otsu define la varianza entre clases de una imagen umbra-

lizada como sigue en la Ecuacion.4-6[27]

σ2B = ω1 · (µ1 − µT )2 + ω2 · (µ2 − µT )2 (4-6)

30 4 Metodologıa

Para una umbralizacion de dos niveles, el umbral optimo t∗ se elige de asegurando una

varianza maxima. Ecuacion. 4-7

t∗ = t→Maxt{σ2B(t)

}1 ≤ t ≤ L (4-7)

Al aplicar un umbral, t, la imagen en escala de grises, f(x,y), quedara binarizada; etiquetando

con ‘1’ los pıxeles correspondientes al objeto y con ‘0’ aquellos que son del fondo. En la

ecuacion.4-8, g(x, y) es una imagen binaria, f(x, y) es una imagen en escala de grises, t

es el umbral de segmentacion y (x, y) son las coordenadas de los pıxeles que componen la

imagen.[27]

g(x,y)=

{0⇔ f(x, y) > t

1⇔ f(x, y) ≤ t(4-8)

El umbral puede depender de la imagen, f(x, y) de alguna propiedad local del pıxel, p(x, y),

y hasta de su propia posicion.[27] Ecuacion.4-9

t = t(f(x, y), p(x, y), x, y) (4-9)

4.1.2. Segmentacion semantica

El Deep Learning (Figura. 4-4) es una tecnica de Machine Learning en la que el modelo

aprende a realizar tareas de clasificacion directamente de las imagenes. El Deep Learning

implementa una arquitectura de redes neuronales, donde el termino ”Deep”se refiere a el

numero de capas en la red (entre mas capas, mas profunda la red). La cantidad de datos

que se necesitan para entrenar una red de este tipo es muy grande, desde mil imagenes en

adelante, y el entrenamiento puede tardar desde dıas e incluso semanas, si se empieza desde

cero.[19]

Figura 4-4: Diagrama de bloques para el Deep Learning

La segmentacion semantica es el proceso por el que se etiquetan las imagenes a nivel de

pıxel, no solo se detectan los objetos de interes en una imagen, si no que define que pıxeles

corresponden al objeto.

4.1 Segmentacion 31

Para entrenar la red de segmentacion semantica se utilizo una coleccion de imagenes y su

correspondiente imagen etiquetada, donde el valor de cada pıxel representaba la categorıa

del pıxel.

En la red de de segmentacion semantica (Figura. 4-5) se baja la resolucion de la imagen a

traves de las capas de convolucion y relu, para luego recuperar su dimension inicial a traves

de las siguientes capas y ası hacer coincidir el tamano de la salida con el tamano de la imagen

de entrada. La imagen pasa a traves de diferentes filtros no lineales distribuidos a traves de

las capas, cuyos pesos se van configurando a medida que se va entrenando la red.

Figura 4-5: Arquitectura de una red de segmentacion semantica

Configuracion de las capas de la red

Capa de entrada

Para crear la red de segmentacion semantica, se establecio una capa de entrada, donde se

definio el tamano de imagen que la red debe procesar. Aquı, un tamano de [192 192 3] fue

usado para procesar imagenes RGB de 192x192 pıxeles.

Downsampling

Para la red de Downsampling, o reduccion de resolucion, se usaron capas de convolucion,

ReLU y Pooling. Los parametros de la capa de convolucion se definieron de tal manera que

la imagen de salida tuviera el mismo tamano de la imagen de entrada. Los tamanos de las

imagenes de salida en una capa de convolucion se definen en la ecuacion 4-10

Outputsize =Inputsize − F + 2 · P

S+ 1 (4-10)

Donde:

F corresponde al tamano del filtro.

32 4 Metodologıa

P corresponde al ”Zero Padding”, el cual sirve para agregar columnas o filas de ceros

adicionales a los bordes de la imagen.

S corresponde al Stride, este parametro define el tamano del paso del filtro al moverse

a traves de la imagen.

Isize Tamano de entrada o Input Size.

Osize Tamano de salida o Output Size.

Para las capas de convolucion se establecio un tamano de filtro de 21, un Zero Padding de

10 y un Stride de 1, teniendo en cuenta que la entrada tiene un tamano de 192, se obtuvo

una salida de tamano 192. Como las imagenes son cuadradas, el calculo del tamano de salida

es el mismo para las 2 dimensiones.

Outputsize =192− 21 + 2 · 10

1+ 1 = 192

Para las capas de Pooling se configuraron los parametros de tal manera que el tamano de

salida fuera la mitad del tamano de entrada y se eligio el operador maximo. Se eligio un

tamano de filtro de 2, un Zero Padding de 0 y un Stride de 2.

Outputsize =192− 2 + 2 · 0

1+ 1 = 96

Outputsize =96− 2 + 2 · 0

1+ 1 = 48

El tamano de salida para la capa de Pooling se calcula de la misma forma que para la capa

de convolucion, hay que recordar que las capas ReLU no anaden complejidad a la red y no

cambian el tamano de la imagen. Al final la red de DownSampling fue configurada de la

siguiente forma (tabla.4-1)

Tabla 4-1: DownSampling

Configuracion de parametros para la capa de DownSamplingCapa F P S Isize Osize

Convolucion 21 10 1 192 192

ReLU - - - 192 192

MaxPooling 2 0 2 192 96

Convolucion 21 10 1 96 96

ReLU - - - 96 96

MaxPolling 2 0 2 96 48

4.1 Segmentacion 33

Tabla 4-2: Red de UpSampling

Capa S F Cropping Isize Osize

Convolucion transpuesta 2 4 1 48 96

ReLU - - - 96 96

Convolucion transpuesta 2 4 1 96 192

ReLU - - - 192 192

UpSampling

Para el UpSampling se uso una capa de convolucion transpuesta, la cual hace la tarea

de aumento de resolucion y filtro al mismo tiempo; el tamano de la salida de la capa de

convolucion compuesta se calcula como se muestra en la ecuacion 4-11.

Osize = S · (Isize − 1) + F − 2 · Cropping (4-11)

Los parametros de la capa de convolucion transpuesta se establecieron para que el tamano

de salida fuera del doble del de entrada. El Crooping permite reducir el tamano de la salida,

segun sea necesario, recortando los bordes de la imagen. El Stride para esta capa se configuro

de 2, se uso un tamano de filtro de 4 y un Crooping de 1.

Outputsize = 2 · (48− 1) + 4− 2 · 1 = 96

Outputsize = 2 · (96− 1) + 4− 2 · 1 = 192

Intercaladas con las capas de convolucion transpuesta, se colocaron capas ReLU, al pasar la

imagen de 48x48px a traves de la red de UpSampling, esta vuelve a recuperar su dimension

original de 192x192px. La red de UpSampling se configuro como se muestra en la tabla 4-2

Capas Finales

Las capas finales son las responsables de hacer la clasificacion de pıxeles. Estas capas procesan

una entrada que tiene las mismas dimensiones espaciales (altura y ancho) que la imagen de

entrada. Sin embargo, el numero de canales es mas grande que el numero de clases a clasificar

y es igual al numero de filtros de la capa de convolucion transpueta. Esta tercera dimension

necesita ser reducida al numero de clases que deseamos segmentar, en este caso solo 2, como

el tamano de la tercera dimension equivale al numero de filtros una capa de convolucion, se

coloco una capa de convolucion 1x1 en la cual el numero de filtros es igual a 2.

La capa de convolucion usada para reducir el numero de canales se configuro con un filtro

de tamano 1, un Stride de 1 y un Zero Padding de 0, esta combinacion de parametros da

una salida de dimencion [192x192x3].

Outputsize =192− 1 + 2 · 0

1+ 1 = 192

34 4 Metodologıa

Tabla 4-3: El sistema esta compuesto por 14 capas.

Seccion Capa Obsevacion

Entrada Input Recibe una imagen de 192x192x3

DownSampling Convolucion Mantiene la resolucion en 192

DownSampling ReLU No aplica complejidad a la red y

elimina las componentes negati-

vas

DownSampling Pooling Reduce la resolucion de 192 a 96

DownSampling Convolucion Mantiene la resolucion en 96

DownSampling ReLU No aplica complejidad a la red y


vas.

DownSampling Pooling Reduce la resolucion de 96 a 48

UpSampling Convolucion transpuesta Aumenta la resolucion de 48 a 96

UpSampling ReLU No aplica complejidad a la red y


vas.

UpSampling Convolucion transpuesta Aumenta la resulucion de 96 a 192

UpSampling ReLU No aplica complejidad a la red y


vas.

Capas Finales Convolucion 1x1 Iguala la tercera dimension de la

imagen al numero de clases

Capas Finales Softmax Asigna al pıxel una probabilidad

de pertenecer a una clase

Capas Finales Clasificacion de pıxel Asigna una categorıa al pıxel

Seguida a esta capa de convolucion esta la capa de Softmax y la capa de clasificacion de

pıxeles. Estas dos capas combinadas permiten predecir a que clase pertenece cada uno de

los pıxeles de la imagen.

La capa Softmax convierte los valores sin procesar para las n clases en probabilidades nor-

malizadas, es decir le asigna a los pıxeles una probabilidad de pertenecer a una clase u otra.

La capa de clasificacion final se encarga de interpretar estas probabilidades y asignar una

categorıa a cada pıxel de la imagen.

Finalmente se obtienen 14 capas para la red de segmentacion semantica (tabla 4-3), el

sistema recibe una imagen RGB de [192x192] y como salida se obtiene una imagen de iguales

dimensiones donde el valor de cada pıxel describe a que clase pertenece, en este caso ’Lesion’

y ’BackGround’.

4.1 Segmentacion 35

Tabla 4-4: Parametros usados para establecer las opciones de entrenamiento

Solver SGDM

Momentum 0.9

Tasa de aprendizaje inicial 10e-3

Factor de caıda 0.7

Periodo de caıda 5

MiniBatchSize 32

Data Augmentation Reflexion en x

Reflexion en y

Entrenamiento de la red

El ISIC, International Skin Imaging Colaboration, puso a disposicion del publico una base

de datos de imagenes dermatoscopicas con mas de 2.000 imagenes provenientes de recono-

cidos centros clınicos[21, 28]. Para entrenar la red se usaron 2.594 imagenes adquiridas con

diferentes tipos de dermatoscopıa, las cuales fueron revisadas y aprobadas por dermatologos

expertos.

Se uso el Gradiente Estocastico Descendiente con Momento, SGDM por sus siglas en ingles,

este metodo ayuda a direccionar al gradiente en la direccion correcta y encontrar la solucion

mas rapidamente y es uno de los algoritmos de optimizacion mas populares. El momento

ayuda al algoritmo a a acelerar las gradientes en direccion correcta evitando mınimos locales

que no permitan llegar a la solucion mas optima. [30]

Para el entrenamiento se uso el algorito SGDM con un Momentum de 0.9, la tasa inicial

de aprendizaje se fijo en 0.01, una taza grande que permitio acelerar la busqueda de la

solucion en las primeras etapas del entrenamiento, la taza de aprendizaje se veıa disminuıda

en un 30 % cada 5 epocas con el fin de aumentar la estabilidad al algoritmo. Se establecio

un MiniBatchSize de 32, este parametro establece cuantas imagenes son cargadas al mismo

tiempo, entre mas grande sea su valor, menos tiempo toma el entrenamiento pero se requiere

de mas memoria.

Ademas se usaron tecnicas de Data Augmentation para aplicar cambios sobre las imagenes

ya existentes (Reflexion sobre el eje x e y) y generar nuevas imagenes para la fase de entre-

namiento. Los sistemas entrenados con Deep Learning no sufren de Overfitting, al contrario,

entre mas imagenes de muestra se tengan para el entrenamiento, mejores seran los resultados

del clasificador final.

Como el numero de pıxeles correspondientes a la clase ’Lesion’ es diferente al numero de

pıxeles de la clase ’BackGround’, el sistema se encuentra desbalanceado y el el clasificador

tendera a clasificar los pıxeles en favor de la clase dominante. Para mejorar los resultados se

cambiaron los pesos de las clases y ası balancear el sistema.

En las imagenes, la cantidad de pıxeles correspondientes a las diferentes clases, se ve re-

36 4 Metodologıa

lacionada en la tabla 4-5, donde se puede ver que de los 1,7499 · 1010 pıxeles totales, solo

3,927 · 109 pertenecen a la clase ’Lesion’; es decir, solo un 22.44 % de los pıxeles totales co-

rresponden a la lesion pigmentada, dejando un sistema desbalanceado que necesita ajustes

adicionales para aprender a clasificar correctamente las dos clases. De lo contrario, el sistema

solo .aprenderıa.a clasificar los pıxeles correspondientes al fondo.

Tabla 4-5: Recuento de pıxeles para la segmentacion semantica

Relacion de pıxeles correspondientes a las lesiones pigmentadas de la piel o psl, y pıxeles

correspondientes al fondo de la imagen.Label PixelCount ImagePixelCount

backGround 1.3572e10 1.7499e10

Lesion 3.927e9 1.7499e10

Se uso el metodo de la ponderacion de frecuencia inversa (inverse frequency weighting),

donde las pesos de las clases se cambian por la inversa de las frecuencias incrementando los

pesos de las clases menos representadas en la imagen. La frecuencia de una clase se define

como la razon de los pıxeles correspondientes a la clase y los el numero total de pıxeles. La

frecuencia de ambas clases se calculo usando la ecuacion.4-12

FrecuencyClass =NPixelesClase

Pixelestotal(4-12)

Con lo anterior, la frecuencia de la clase ’BackGround’ es de 0.7756 y la frecuencia de la

clase ’Lesion’ es de 0.2244. Se calculo el peso que se le debe asignar a cada clase por medio

del calculo de la frecuencia inversa, para la clase ’BackGround’ se definio un peso de 1.2893

y para la clase ’Lesion’ se definio un peso de 4.4562.

4.2. Extraccion de caracterısticas

Para clasificar una imagen es necesario obtener una representacion matematica, que nos

brinde informacion asociada a las lesiones pigmentadas de la piel a partir de su forma,

textura o color. La representacion matematica de un conjunto de imagenes permitira al

algoritmo de clasificacion encontrar la frontera mas adecuada para separar las clases.

Para extraer los puntos de interes de las imagenes dermatoscopicas se uso la tecnica de

Bag of Words, esta permite obtener una representacion robusta e invariante ante traslacion,

rotacion y escalado, es decir, no importa si el objeto cambia de posicion, rota una determinada

cantidad de grados o si cambia su tamano, esta tecnica sera capaz de detectarlo.

Se creo un vocabulario de palabras visuales extrayendo los descriptores de caracterısticas

de las imagenes mas representativas de cada categorıa. Para extraer las caracterısticas se

uso un descriptor de forma tipo SURF, concatenado con el descriptor de color en diferentes

4.2 Extraccion de caracterısticas 37

espacios de color, para la imagenes dermatoscopicas es de gran importancia el color ya que

algunas lesiones presentan estructuras caracterısticas como velo azul-blanquecino.

La extraccion de caracterısticas se realizo sobre 1050 imagenes correspondientes al 70 % del

conjunto total, cada imagen fue convertida a diferentes espacios de color (L*a*b, NTSC,

Opponent Spece, XYZ, YCBCR, HSV), los cuales generaban tres nuevos canales para inter-

pretar la imagen a traves de un modelo matematico diferente. Un cambio en el espacio de

color puede brindar un punto de vista diferente y dar al modelo nuevos puntos de interes.

Figura 4-6: Transformacion de una imagen RGB a L*a*b

Para la extraccion de caracterısticas se transformaron las imagenes dermatoscopicas a dife-

rentes espacios de Color y se aplico el descriptor de forma tipo SURF para hallar y describir

los puntos de interes sobre cada uno de los 3 canales en las diferentes representaciones de

color. Cada punto de interes es descrito a traves de SURF como un vector de 64 posiciones,

el cual es concatenado con el vector de 3 posiciones que describe el color en ese punto de

interes; la combinacion de la informacion de forma y color permitira incrementar la capa-

38 4 Metodologıa

cidad representativa del descriptor, ademas de mejorar el desempeno del clasificador. Las

caracterısticas obtenidas de cada imagen de entrenamiento y sus descripciones se guardaron

en vectores, para luego ser agrupadas en 250 conjuntos utilizando el algoritmo de aprendizaje

no supervisado knn (Kluster by Nearest neighbor). Cada conjunto representa una palabra

visual y la frecuencia de aparicion de estas palabras en la imagen permitira construir un

vocabulario visual que servira para representarla.

El vocabulario visual o bag of words (figura 4-7) esta basado en las caracterısticas locales

de la imagen y corresponde a una representacion compacta y eficiente en forma de vector

numerico.[29]

Figura 4-7: Histograma Bag of Words

Para agrupar las caracterısticas similares se uso k-means(Figura 4-8), esta tecnica permite

encontrar grupos de caracterısticas similares a partir de las imagenes mas representativas de

cada clase.

Figura 4-8: Agrupacion de caracterısticas por vecino cercano, k-means

Para el agrupamiento por k-means se elige aleatoriamente un representante de cada grupo,


el algoritmo es iterativo y su objetivo es encontrar la agrupacion que minimice la distancia

de las muestras al representante de cada cluster. El resultado depende de la inicializacion y

a veces es necesario repetir el proceso con diferentes inicializaciones.

Con la tecnica de k-means se utilizo el aprendizaje no supervisado para determinar las

palabras que describen las imagenes, cada caracterıstica local se asigna a la palabra visual

mas cercana, la que tenga la menor distancia al punto de referencia. La representacion

final corresponde a un histograma de ”palabras”donde cada componente indica cuantas

caracterısticas quedaron asociadas a una ”palabra”.

4.3. Clasificacion

El metodo de maquinas de vectores de soporte, en ingles Support Vector Machines, es el tipo

de clasificador que se usa normalmente en los sistemas de clasificacion en bag of words, en

su formulacion corresponde a un clasificador binario y lineal. (Figura .4-9)

Figura 4-9: Hiperplano solucion para SVM, el objetivo es maximizar el margen entre el

hiperplano y los vectores de soporte

Para este problema se necesita un clasificador multiclase y las clases no se pueden separar

de forma perfecta con una frontera lineal, por esto se uso una modificacion de la formulacion

basica de support vector machines.

En el entrenamiento se tomaron 1050 imagenes, 350 para cada clase, de tal manera que el

numero de imagenes fuera igual para cada clase y el clasificador este balanceado; con esto se

asegura que el clasificador aprenda a clasificar de igual manera todas las clases. El histograma

de caracterısticas hallado con bag of words constituye la base para entrenar al clasificador,

la solucion de este es un hiperplano que divide el espacio en dos regiones y cuyo objetivo es

hallar el margen maximo a partir de los vectores de soporte, un pequeno subconjunto de las

observaciones de entrenamiento que se utilizan como soporte para la ubicacion optima de la

superficie decision.

40 4 Metodologıa

Debido a que las clases no son linealmente separables, se uso la funcion gaussiana como

kernel no lineal; esto aumenta el costo computacional a la hora de entrenar el sistema, pero

mejora considerablemente los resultados.

La exactitud o accuracy, en ingles, fue tomada como medida de desempeno para comparar la

eficiencia de los clasificadores. La exactitud es un valor que permite cuantificar la proximidad

entre el resultado del clasificador y la clasificacion exacta, este se calcula a partir de la matriz

de confusion, sumando los valores de la diagonal y dividiendo este valor entre el total de

muestras.

Finalmente, para probar el clasificador, se uso el conjunto de evaluacion, el cual corresponde

al 30 % de las imagenes, el objetivo de este conjunto es evaluar la respuesta del clasificador a

imagenes desconocidas. Los resultados se pueden visualizar y cuantificar a traves de la matriz

de confusion y la curva ROC. El primero permite ver como se desempena el clasificador en

cada clase, El segundo, Reciever Operating Characteristic por sus siglas en ingles, muestra

la proporcion de falsos y verdaderos positivos para cada clase.

5 Resultados

5.1. Segmentacion

Para ambos metodos de segmentacion se utilizo un proceso de post-procesamiento de la ima-

gen, aplicando operaciones morfologicas para eliminar elementos indeseados como los vellos.

Ademas, teniendo en cuenta que la mayorıa de las lesiones de una u otra forma tienden a

tener una forma circular, se utilizo un detector de cırculos con parametros establecidos por

prueba y error, que se encarga de detectar en la mayorıa de los casos donde se encuentra

la lesion pigmentada de la piel y permite reconstruir la imagen segmentada a partir de los

cırculos detectados, esto con el fin de descartar elementos con formas diferentes al cırculo,

como los vellos, que poseen estructuras elongadas.

Operaciones morfologicas

Para pulir los resultados de la segmentacion, se aplicaron operaciones morfologicas de aper-

tura, cierre y llenado de huecos, para las dos primeras operaciones se utilizo un elemento

estrutural con forma de disco plano de radio 4 pıxeles en la apertura y con radio de 6 pıxeles.

Con la operacion de apertura se pretende unir las areas de una misma lesion que quedaron

separadas en el proceso de segmentacion, como el elemento estrutural es un cırculo y este

no puede estar contenido en regiones con forma elongada como los vellos, estas no se ven

afectadas por la operacion morfologica de apertura.

En la operacion de Cierre, se descartaron aquellas regiones que no puenden contener el ele-

mento estructural y por ultimo, se utilizo el detector de cırculos y la mascara binaria solo

podıa tener en cuenta aquellas regiones que coincidieran con la localizacion del cırculo.

En la figura 5-1 se pueden observar los cambios que atraviesa una imagen binaria cuando se

implementan las operaciones morfologicas.

42 5 Resultados

Imagen dermatoscopica a segmentar, los ve-

llos son se deben descartarSegmentacion usando Otsu

Apertura con disco plano de radio 4 px Cierre con disco plano de radio 6 px

Imagen binaria reconstruida a partir del circulo detectado

Figura 5-1: Aplicacion de las operaciones morfologicas de apertura y cierre sobre una ima-

gen binaria para pulir el resultado de la segmentacion

5.1 Segmentacion 43

5.1.1. Metodo de Otsu

Para el metodo de otsu se calculo el umbral optimo para la matriz de intensidades obtenida

a partir del espacio de color RGB por medio de aproximaciones estadısticas, una vez deter-

minado el umbral, se binarizo la imagen fijando en ’1’ los pıxeles cuyo valor de luminancia

era menor al del umbral y en ’0’ aquellos en los que la luminancia era mayor al del um-

bral. Los pıxeles con valor ’1’ corresponderan a la clase ’Lesion’ y se visualizaran de color

blanco, mientras que los pıxeles con valor ’0’ corresponderan a la clase ’BackGround’ y se

visualizaran en negro.

En la Tabla 5-1, pagina 44, se muestra el umbral optimo calculado para cuatro imagenes

dermatoscopicas, junto con la Desviacion Maxima, el Momento Acumulado y la In-

tensidad Media de cada una de sus clases.

5.1.2. Segmentacion semantica

Para obtener la red de segmentacion semantica se entrenaron y evaluaron diferentes configu-

raciones de sistemas de Deep Learning aplicados en la segmentacion, a traves de maquinas

virtuales disponibles a las pruebas gratuitas ofrecidas por Google y Microsoft. Ambas maqui-

nas virtuales se ejecutaban bajo el sistema operativo Windows Server 2012, la maquina de

Google contaba con un procesador de 8 nucleos, tenıa una capacidad de 100GB en almace-

namiento y un total de 16GB de memoria RAM disponible; la maquina virtual de Microsoft

azure contaba con un procesador de Cuatro nucleos, fue configurada con 50GB de disco duro

y con disponibilidad de 8GB de memoria Ram.

Para evaluar el progreso del entrenamiento, se tuvieron en cuenta las siguientes metricas:

Precision de entrenamiento- Precision de la clasificacion sobre cada mini-batch, el

numero de imagenes que se evalua al mismo tiempo, en este caso 32.

Precision de validacion- Precision de la clasificacion sobre todo el conjunto de valida-

cion.

Perdida de entrenamiento y validacion- mide la distancia entre el valor calculado por

la capa softmax y el valor del label.

En la figura 5-2 se observa el progreso del entrenamiento para el primer experimento, en

este, los datos que se usaron para entrenar el sistema se encontraban desbalanceados con

solo un 22.4 % de los pıxeles totales correspondientes a la clase ’Lesion’. La precision alcanzo

un valor de 80 % en la primera epoca y se mantuvo oscilando al rededor de esa solucion. Sin

embargo, la perdida solo bajo al 45 % indicando que los valores de probabilidad dados por la

capa softmax no eran lo suficientemente discriminativos, es decir, la probabilidad de que un

44 5 Resultados

Tabla 5-1: Calculo del umbral optimo utilizando el metodo de Otsu

Imagen Momento Intensidad Umbral optimo

Desviacion Maxima Acumulado Media (Histograma)

ω1 = 0,4005 µ1 = 69,8436

ω2 = 0,5995 µ2 = 196,8953

σ2 = 3875,7 Umbral=133

ω1 = 0,0672 µ1 = 58,2453

ω2 = 0,9328 µ2 = 1713822

σ2 = 802,0114 Umbral=114

ω1 = 0,4125 µ1 = 105,4571

ω2 = 0,5875 µ2 = 174,0561

σ2 = 1140,4 Umbral=139

ω1 = 0,3065 µ1 = 98,8882

ω2 = 0,6935 µ2 = 215,5449

σ2 = 2892,7 Umbral=157

5.1 Segmentacion 45

pıxel correspondiera a una u otra clase, era muy parecida para ambas clases y la clasificacion

del pıxel como ’Lesion’ o ’BackGround’ era incierta.

Figura 5-2: Resultado del entrenamiento para la segmentacion semantica para un sistema

desbalanceado, el numero de pıxeles correspondientes al ’backGround’ cuadri-

plica a los pıxeles correspondientes a la clase ’Lesion’

46 5 Resultados

En la figura 5-3 se puede observar la segmentacion de una imagen dermatoscopica usando

la red obtenida despues de entrenar un sistema desbalanceado.

Figura 5-3: Segmentacion de lesion pigmentada a partir de sistema desbalanceado

Para mejorar el desempeno del sistema, se cambiaron los pesos de las clases a clasificar

usando el metodo de la frecuencia inversa, de esta manera el peso de la clase ’Lesion’ fue

establecido con un valor de 0.7756 y el de la clase ’backGround’ con un valor de 0.2244.

El entrenamiento de la nueva red semantica tomo 189.82 horas, un total de 7 dıas y 21

horas, alcanzando una precision del 90 %. En la figura 5-4 se puede apreciar el progreso del

entrenamiento, tanto el aumento de la precision, como la disminucion del error despues de

cada iteracion.

Figura 5-4: Resultado del entrenamiento para la segmentacion semantica

5.1 Segmentacion 47

Se eligio una tasa de aprendizaje de 0.01 al inicio del problema para optimizar el entrena-

miento en las primeras fases, luego esta tasa se fue reduciendo para estabilizar el sistema y

llegar a la solucion. En la tabla 5-2 se puede ver con mas detalle el progreso del entrenador,

la precision varıa desde un 24.37 %, hasta 89.95 %; y la perdida del clasificador baja de 0.679

hasta 0.2587.

Tabla 5-2: Resultado del entrenamiento para la segmentacion semantica

En la figura 5-5 se puede observar la mejora de la segmetacion con respecto a la figura 5-3,

con el ajuste de pesos, el clasificador fue capaz de clasificar correctamente la mayorıa de las

muestras de la clase ’Lesion’.

48 5 Resultados

Figura 5-5: Resultado del entrenamiento para la segmentacion semantica

5.1.3. Comparacion

En las figuras 5-6, 5-7, 5-8 , se puede observar el resultado de la segmentacion sobre 2

imagenes aleatorias de cada clase. El tiempo que toma la segmentacion semantica es de en

promedio 106.8 segundos, mientras que la segmentacion usando el umbral de Otsu tarda 6.14

segundos.

Segmentacion semantica Otsu


(a) Carcinoma

Figura 5-6: Segmentacion usando redes neuronales convolucionales y el metodo de otsu

5.1 Segmentacion 49



(a) Melanoma




(a) Nevus


Aunque los resultados de ambos metodos son similares, el resultado de la segmentacion

semantica permite apreciar un poco mas el detalle de la lesion; para este proyecto se uso la

50 5 Resultados

segmentacion por el metodo de Otsu para obtener una rapida segmentacion de la base de

datos que servirıa como conjunto de entrenamiento para el clasificador, sin embargo, para

las evaluaciones individuales del clasificador se usara la segmentacion semantica ya que el

resultado

5.2. Extraccion de caracterısticas

Para la extraccion de caracterısticas se transformaron las imagenes dermatoscopicas a dife-

rentes espacios de Color y se aplico el descriptor de forma tipo SURF para hallar y describir

los puntos de interes sobre cada uno de los 3 canales en las diferentes representaciones de

color. Cada punto de interes es descrito a traves de SURF como un vector de 64 posiciones,

el cual es concatenado con el vector de 3 posiciones que describe el color en ese punto de

interes; la combinacion de la informacion de forma y color permitira incrementar la capa-

cidad representativa del descriptor, ademas de mejorar el desempeno del clasificador. Las

caracterısticas obtenidas de cada imagen de entrenamiento y sus descripciones se guardaron

en vectores, para luego ser agrupadas en 250 conjuntos utilizando el algoritmo de aprendizaje

no supervisado knn (Kluster by Nearest neighbor). Cada conjunto representa una palabra

visual y la frecuencia de aparicion de estas palabras en la imagen permitira construir un

vocabulario visual que servira para representarla.

A continuacion se muestran los histogramas de caracterısticas para una imagen elegida arbi-

trariamente de cada clase. El histograma tiene un total de 250 caracterısticas y la frecuencia

en estas ayudara al clasificador a encontrar una barrera optima entre clases. (figuras 5-9,5-

10,5-11)

Usando la frecuencia de cada palabra en el histograma de caracterısticas, el clasificador

Figura 5-9: Histograma de caracterısticas para el carcinoma

sera capaz de agrupar y elegir la clase mas apropiada para una imagen.


Figura 5-10: Histograma de caracterısticas para el Melanoma

Figura 5-11: Histograma de caracterısticas para el nevus melanocıtico

Se uso el bag of words sobre imagenes segmentadas, para eliminar la influencia de elementos

no deseados como vellos, que pudieran interferir en el entrenamiento del clasificador.

5.3. Clasificacion

Se realizaron varias pruebas con diferentes clasificadores, entre ellos arboles de decisiones,

k-means y SVM; a partir de la precision se determino que el mejor clasificador para este

problema fue el SVM.

El entrenamiento del SVM tomo 48.633 segundos y se obtuvo una precision de 78 %, en la

matriz de confusion (figura 5-13, pagina 55) se puede observar el desempeno del clasificador

para cada clase.

52 5 Resultados

Para las pruebas se utilizo la representacion en Bag of Words de imagenes segmentadas

transformadas a diferentes espacios de color para extraer las caracterısticas, en la tabla 5-

3se puede ver la precision obtenida para cada espacio de color.

Tabla 5-3: Resultados del clasificador SVM para diferentes espacios de color

Espacio de Color Precision SVM

CIELAB 65 %

NTSC 68 %

Opponent Space 70 %

XYZ 70 %

YCBCR 55 %

HSV 78 %

En la tabla 5-3 se observa que el espacio de color que brinda mas informacion y permite

encontrar una representacion en bag of words mas significativa es el HSV, seguido del Op-

ponent Space y el XYZ. A partir de los resultados mostrados en la tabla 5-3, es posible

observar que las caracterısticas obtenidas a partir de los espacios HSV y RGB son mas re-

presentativas que las de otros espacios de color. La extraccion de caracterısticas se realizo

a partir de la aplicacion del operador SURF sobre los diferentes canales de la imagen en

los distintos canales de color, en las imagenes dermatoscopicas, el color brinda informacion

importante y no es suficiente la informacion de luminancia.

Al mismo tiempo es importante la informacion de la forma y la descripcion de los puntos de

interes, al realizar la representacion en bag of words sobre los histogramas de cada imagen,

la informacion de la forma se perdıa y la exactitud del clasificador no superaba el umbral

del 50 %, dejando como resultado mas de la mitad de las muestras de prueba clasificadas de

manera erronea.

En las figuras 5-13 a 5-19 se muestran las matrices de confusion para cada espacio de color,


el sistema fue probado con un total de 300 imagenes, 100 en cada clase y en la diagonal

se puede observar el numero de aciertos para cada clase. Teniendo en cuenta el sistema

con mejor desempeno, se realizaron pruebas individuales en 10 imagenes para visualizar

los resultados del entrenamiento, en la figura 5-12 se muestran los resultados obtenidos

para cada prueba, de las 10 pruebas realizadas, 9 acertaron en la clasificacion y 1 fallo, la

evaluacion del clasificador en el total de la base de test se puede observar a traves de la

matriz de confusion.

54 5 Resultados

Figura 5-12: Visualizacion de los resultados para el sistema con mejor desempeno, se to-

maron 10 imagenes al azar y se clasificaron para verificar el funcionamiento

del clasificador, de las 10 imagenes, una fue clasificada erroneamente


Figura 5-13: Matriz de confusion para espacio de color HSV, con una precision de 78.3 %

Figura 5-14: Matriz de confusion para espacio de color L*a*b, con una precision de 65 %

56 5 Resultados

Figura 5-15: Matriz de confusion para espacio de color NTSC, con una precision de 68 %

Figura 5-16: Matriz de confusion para espacio de color XYZ, con una precision de 70 %


Figura 5-17: Matriz de confusion para espacio de color YCBCR, con una precision de 55 %

Figura 5-18: Matriz de confusion para espacio de color RGB, con una precision del 73 %

58 5 Resultados

Figura 5-19: Matriz de confusion para espacio de color Opponent Space, con una precision

de 70 %

6 Conclusiones y recomendaciones

6.1. Conclusiones

En este trabajo se presento un modelo basado en la segmentacion semantica capaz

de alcanzar la precision de un dermatologo experto en un 92.96 % pero que tarda

en promedio 416.5 segundos en ejecutarse, en comparacion, se presento un modelo

basado en la segmentacion por umbral optimo capaz de alcanzar una precision del

90.63 % de un dermatologo experto y cuyo tiempo de ejecucion se reduce a 28.98

segundos. Ademas, se comprobo que tener en cuenta la morfologıa casi circular de

las lesiones pigmentadas, mejora considerablemente la segmentacion, lo cual, junto con

otras operaciones morfologicas elimina elementos que no aportan informacion relevante

para la clasificacion. Las pruebas se realizaron sobre una computadora con sistema

operativo Windows 10, 16Gb de memoria RAM y 2Tb de disco duro.

El modelo Bag Of Words permite cuantificar cada punto de interes en una palabra

visual y luego representar cada imagen a traves de un histograma de palabras visuales.

En este trabajo los puntos de interes contenıan informacion tanto de color como de

forma, caracterısticas representativas para la clasificacion de lesiones pigmentadas en

la piel. Los resultados mostraron que el espacio de color mas representativo para este

tipo de imagenes es el HSV, con el cual se obtuvo un clasificador con una precision del

78.3 %.

Para clasificar los histogramas de palabras visuales, obtenidos a partir de las imagenes

segmentadas, se entreno un sistema basado en Support Vector Machine (SVM). Los

mejores resultados se obtuvieron utilizando un kernel Gaussiano y un factor de regu-

lacion bajo que permitiera aumentar la tolerancia a errores; se alcanzo una precision

maxima del 78.3 % y aunque este porcentaje no es suficiente para una aplicacion medi-

ca, es un buen resultado como primer paso en la deteccion y clasificacion automatica

de cancer en la piel.

6.2. Recomendaciones

Concluido este proyecto, se considera que los siguientes aspectos se pueden trabajar para

mejorar el desempeno del clasificador:

60 6 Conclusiones y recomendaciones

Evaluar las diferentes tecnicas de segmentacion en otros espacios de color para obte-

ner resultados diferentes y que permitan aislar de manera rapida y efectiva la lesion

pigmentada de la piel.

Extender los estudios sobre extraccion de caracterısticas en imagenes dematoscopicas,

con el fin identificar que descriptores representan mejor las imagenes y la diferencia

entre clases.

Entrenar e implementar un sistema basado en Deep Learning que sea capaz de aprender

las caracterısticas de la imagen dermatoscopica y clasificarla de manera eficaz.

Estudiar y aplicar las estrategias de fusion dentro del esquema de BagOfWords para

mejorar el rendimiento del algoritmo y potenciar la capacidad de representacion y

discriminacion de los descriptores de la imagen.

Bibliografıa

[1] Clasificacion. Universidad de Murcia. – Informe de Investigacion. – 18 p.

[2] Procesamiento morfologico. Universidad Politectica de Madrid, Kapitel 6

[3] dermoscopedia – Allan Halpern: Computer Assisted Diagnosis — dermoscopedia.

2018. – Online; accessed 9-May-2018

[4] ABC Medicus. 250 personas mueren al ano por cancer de piel en Colombia. 2013

[5] Arroyave-Giraldo, Maribel ; Restrepo-Martınez, Alejandro ; Vargas-

Bonilla, Francisco. Incidencia de la Segmentacion en la Obtencion de Region de

Interes en Imagenes de Palma de la Mano. 2011

[6] Codella, Noel C F. ; Gutman, David ; Celebi, M E. ; Helba, Brian ; Marchetti,

Michael A. ; Dusza, Stephen W. ; Kalloo, Aadi ; Liopyris, Konstantinos ; Jan,

C V. ; Watson, I B M T J. ; Heights, Yorktown: No Title. (2017), p. 1–5

[7] Corralo, David S. Dermatoscopia digital. 2015

[8] community of dermatologists, International. ISIC Project. 2018

[9] Fernandez, Pita ; Dıaz, Pertegas ; Unidad de Epidemiologıa Clınica y Bioes-

tadıstica. ; Complexo Hospitalario Universitario de A Coruna. (Espana):

Pruebas diagnosticas: Sensibilidad y especifidad. Espana, 2010, p. 120–124

[10] Gao, Huilin ; Dou, Lihua ; Chen, Wenjie ; Sun, Jian: Image classification with

Bag-of-Words model based on improved SIFT algorithm. En: 2013 9th Asian Control

Conference, ASCC 2013 (2013), Nr. 60925011, p. 2–7. ISBN 9781467357692

[11] Gil, Pablo ; Torres, Fernando ; Ortiz Zamora, Francisco G. Deteccion de objetos

por segmentacion multinivel combinada de espacios de color. 2004

[12] Gonzalez, Rc (University of T. ; Woods, Re (MedData I.: Digital image processing.

third Edit. Pearson Prentice Hall, 2002. – 190 p.. – ISBN 0201180758

[13] INC: Analisis de la Situacion del Cancer en Colombia 2015. 2017. – 336 p.. – ISBN

2539–4517

62 Bibliografıa

[14] Instituto Mexicano del Seguro Social: Abordaje Diagnostico de Melanoma

Maligno. Mexico, 2010

[15] International Skin Imaging Collaboration. ISIC 2018: Skin Lesion Analysis

Towards Melanoma Detection. 2018

[16] International Telecommunication Union: Studio encoding parameters of digital

television for standard 4:3 and wide-screen 16:9 aspect ratios (ITU-R BT.601-7). En:

Recommendation ITU-R BT.601-7 7 (2011), p. 19

[17] Jimenez Rodrıguez, Ma Jose. Apuntes de catedra: Procesamiento de Imagenes Digi-

tales. 2017

[18] K, Alexander Mordvintsev & A. Open Source Computer Vision. 2013

[19] MathWorks: Introducing Deep Learning with MATLAB. 2018. – 15 p.

[20] Ministerio de Salud y Proteccion Social, ESE, Instituto Nacional de C. Ma-

nual para la deteccion temprana del cancer de piel y recomendaciones para la disminu-

cion de exposicion a radiacion ultravioleta

[21] Noel C. F. Codella, David Gutman, M. Emre Celebi, Brian Helba, Mi-

chael A. Marchetti, Stephen W. Dusza, Aadi Kalloo, Konstantinos

Liopyris, Nabin Mishra, Harald Kittler, Allan H. Skin Lesion Analysis Toward

Melanoma Detection: A Challenge at the 2017 International Symposium on Biomedical

Imaging (ISBI), Hosted by the International Skin Imaging Collaboration (ISIC). 2017

[22] Pardo, Constanza ; Cendales, Ricardo: Incidencia, mortalidad y prevalencia de

Cancer en Colombia 2007-2011. Vol. 1. 2015. – 148 p.. – ISBN 9789585883253

[23] Ralph Braun ; Kerl, Katrin. Histopathologic correlation of dermoscopic structures.

2018

[24] Segmentacion, Practicas De: Practicas de Robotica y Vision Artificial. Universidad

de Murcia, Kapitel 9

[25] Smith, S.: Digital Signal Processing: A Practical Guide for Engineers and Scien-

tists. Elsevier Science, 2013 (Demystifying technology series). – 373–390 p.. – ISBN

9780080477329

[26] Soille, P.: Morphological Image Analysis: Principles and Applications. Springer Berlin

Heidelberg, 2013. – ISBN 9783662050880

[27] Trabocchi, Osvaldo ; Sanfilippo, Fabian. Segmentacion por Umbralizacion – Metodo

de Otsu. 2005

Bibliografıa 63

[28] Tschandl, Philipp ; Rosendahl, Cliff ; Kittler, Harald: The HAM10000 dataset, a

large collection of multi-source dermatoscopic images of common pigmented skin lesions.

En: Scientific Data 5 (2018), aug, p. 180161. – ISSN 2052–4463

[29] Venegas-Barrera, Crystian S. ; Manjarrez, Javier: Visual Categorization with

Bags of Keypoints. En: Revista Mexicana de Biodiversidad 82 (2011), Nr. 1, p. 179–

191. – ISBN 9780335226375

[30] Vitaly Bushaev. Stochastic Gradient Descent with momentum. 2017

[31] Zaballos Diego, Pedro ; Carrera, Cristina ; Puig, Susana ; Malvehy, Josep:

Criterios dermatoscopicos para el diagnostico del melanoma. En: Medicina Cutanea

Ibero-Latino-Americana 32 (2004), Nr. 1, p. 3–17. – ISSN 02105187

detecci on de melanomas a partir de im agenes dermatosc...

Documents