detecci on de melanomas a partir de im agenes dermatosc...
TRANSCRIPT
Deteccion de melanomas a partir deimagenes dermatoscopicas
Marıa Fernanda Vargas Martınez
Marıa Fernanda Cruz Mahecha
Universidad Distrital Francisco Jose de Caldas
Facultad de ingenierıa
Bogota, Colombia
2018
Deteccion de melanomas a partir deimagenes dermatoscopicas
Marıa Fernanda Vargas Martınez
Marıa Fernanda Cruz Mahecha
Tesis o trabajo de grado presentada(o) como requisito parcial para optar al tıtulo de:
Ingeniero electronico
Director(a):
MsC, Luz Helena Camargo Casallas
Lınea de Investigacion:
Bioingenierıa
Grupo de Investigacion:
INVID
Universidad Distrital Francisco Jose de Caldas
Facultad de ingenierıa
Bogota, Colombia
2018
A nuestras familias.
A nuestros amigos y companeros en la
universidad.
Agradecimientos
A nuestras familias por el apoyo, la comprension y colaboracion que nos brindaron a traves
de todo este proceso
A nuestra tutora Luz Helena Camargo Casallas, quien nos oriento pacientemente en cada
etapa, ademas de proporcionarnos los recursos para desarrollar este proyecto.
A David Carmona y a Sebastian Romero por apoyarnos y confiar en nosotras.
A todas las personas que contribuyeron directa o indirectamente con el desarrollo y culmi-
nacion de este proyecto.
Resumen
La posibilidad de sobrevivir al cancer de piel tipo melanoma es mayor si se detecta y diagnos-
tica en etapas tempranas. Por ello, este proyecto presenta la elaboracion de una herramienta
basada en el procesamiento de imagenes, capaz de clasificar las lesiones a partir de imagenes
dermatoscopicas. El proyecto se dividio en tres etapas: segmentacion, obtencion de carac-
terısticas y clasificacion. Para la segmentacion se implementaron el metodo de Otsu, la
segmentacion semantica y operadores morfologicos para determinar el area correspondiente
a la lesion. A partir de las imagenes segmentadas, se obtuvo un histograma de 250 palabras
visuales de las imagenes mas representativas de cada clase utilizando descriptores de color
y forma; por ultimo, se entreno un clasificador SVM con el cual se obtuvo una precision
maxima del 78 %, siendo los mejores resultados correspondientes al uso del espacio de color
HSV e implementando un clasificador con kernel Gaussiano.
Palabras clave: Dermatoscopıa, Cancer de piel, Aprendizaje profundo, Vocabulario
visual, SVM.
Abstract
The possibility of surviving melanoma skin cancer is greater if it is detected and diagnosed
early. Therefore, this project presents the development of a tool based on image processing,
capable of classifying lesions from dermoscopic images. The project was divided into three
stages: segmentation, feature extraction and classification. At segmentation stage the Otsu
and semantic segmentation methods were implemented with morphological operators as a
post-processing stage to enhance the results. From the segmented images, a histogram of 250
visual words was obtained from the most representative images of each class using descrip-
tors of color and shape. Finally, an SVM classifier with a maximum precision of 78 % was
obtained using the HSV color space and a Gaussian kernel.
Key Words: Dermoscopy, Skin cancer, Deep learning, Bag of words, SVM .
Contenido
Resumen IX
Contenido XIII
Lista de Figuras 1
Lista de Tablas 1
1 Introduccion 2
1.1 Justificacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2 Objetivos 4
2.1 Objetivo general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2 Objetivos especıficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
3 Marco teorico 5
3.1 Cancer de piel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3.2 Dermatoscopia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3.3 Algoritmos de diagnostico dermatoscopico . . . . . . . . . . . . . . . . . . . 6
3.3.1 Analisis de patrones . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.3.2 Regla de ABCD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3.3.3 Lista de verificion de los 3 puntos . . . . . . . . . . . . . . . . . . . . 10
3.3.4 Lista de verificacion de los 7 puntos . . . . . . . . . . . . . . . . . . . 10
3.3.5 Metodo de Menzies . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.4 Tecnicas de procesamiento de imagen . . . . . . . . . . . . . . . . . . . . . . 12
3.4.1 Representacion del color . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.4.2 Operaciones morfologicas . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.5 Segmentacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.5.1 Segmentacion basada en discontinuidades . . . . . . . . . . . . . . . . 16
3.5.2 Segmentacion basada en similitud . . . . . . . . . . . . . . . . . . . . 17
3.6 Clasificacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.6.1 Extraccion de Caracterısticas . . . . . . . . . . . . . . . . . . . . . . 18
3.6.2 Clasificacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.6.3 Medidas de desempeno . . . . . . . . . . . . . . . . . . . . . . . . . . 24
Contenido xi
4 Metodologıa 25
4.1 Segmentacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.1.1 Metodo de Otsu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.1.2 Segmentacion semantica . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.2 Extraccion de caracterısticas . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.3 Clasificacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5 Resultados 41
5.1 Segmentacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
5.1.1 Metodo de Otsu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
5.1.2 Segmentacion semantica . . . . . . . . . . . . . . . . . . . . . . . . . 43
5.1.3 Comparacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.2 Extraccion de caracterısticas . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
5.3 Clasificacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
6 Conclusiones y recomendaciones 59
6.1 Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
6.2 Recomendaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
Bibliografıa 61
Lista de Figuras
3-1 Dermatoscopia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3-2 Red Pigmentada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3-3 Puntos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3-4 Globulos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3-5 Canales RGB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3-6 Representacion espacial del modelo CIELAB . . . . . . . . . . . . . . . . . . 14
3-7 Mascara general 3x3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3-8 Piramide de imagenes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3-9 Comparacion entre pıxeles . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
4-1 Diagrama de Bloques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
4-2 Diagrama de Bloques para el metodo de Otsu . . . . . . . . . . . . . . . . . 28
4-3 Matriz de intensidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4-4 Diagrama de Bloques para el Deep Learning . . . . . . . . . . . . . . . . . . 30
4-5 Arquitectura de una red de segmentacion semantica . . . . . . . . . . . . . . 31
4-6 RGB vs L*a*b . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4-7 Bag of Words . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4-8 k-means . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4-9 SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
5-1 Operaciones morfologicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5-2 Entrenamiento segmentacion semantica sin balanceo de pesos . . . . . . . . . 45
5-3 Sistema desbalanceado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5-4 Entrenamiento segmentacion semantica . . . . . . . . . . . . . . . . . . . . . 46
5-5 Entrenamiento segmentacion semantica . . . . . . . . . . . . . . . . . . . . . 48
5-6 Segmentacion carcinoma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5-7 Segmentacion melanoma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5-8 Segmentacion Nevus melanocıtico . . . . . . . . . . . . . . . . . . . . . . . . 49
5-9 BoW Carcinoma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
5-10 BoW Melanoma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5-11 BoW Nevus Melanocıtico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5-12 Visualizacion de los resultados . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5-13 Matriz de confusion HSV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5-14 Matriz de confusion Lab . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
xiv Lista de Figuras
5-15 Matriz de confusion NTSC . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5-16 Matriz de confusion para XYZ . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5-17 Matriz de confusion YCBCR . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5-18 Matriz de confusion RGB . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5-19 Matriz de confusion Opponent Space . . . . . . . . . . . . . . . . . . . . . . 58
Lista de Tablas
3-1 Analisis de patrones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3-2 Regla del ABCD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3-3 Criterios para la lista de verificacion de los tres puntos[31] . . . . . . . . . . 10
3-4 Lista de verificacion de los 7 puntos, criterios mayores y menores[31] . . . . . 11
3-5 Interpretacion metodo de Menzies.[31] . . . . . . . . . . . . . . . . . . . . . 12
3-6 Comparacion de los metodos de diagnostico segun su sensibilidad y Especifidad 12
4-1 DownSampling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4-2 UpSampling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4-3 Red de segmentacion semanticas . . . . . . . . . . . . . . . . . . . . . . . . . 34
4-4 Opciones de entrenamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4-5 Recuento de pıxeles para la segmentacion semantica . . . . . . . . . . . . . . 36
5-1 Umbral optimo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5-2 Entrenamiento segmentacion semantica . . . . . . . . . . . . . . . . . . . . . 47
5-3 Resultados Clasificador SVM . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
1 Introduccion
El dano en la piel es acumulativo y las enfermedades de la dermis afectan con mayor fre-
cuencia a los adultos mayores, quienes han estado expuestos a diferentes factores como la
radiacion solar. La exposicion a la radiacion utravioleta (UV) es uno de los agentes de riesgo
principales del cancer de piel, cuando este dano afecta el ADN de los genes que controlan el
crecimiento de las celulas de la piel, aparece el cancer. En Colombia, cada ano mil personas
podrıan desarrollar esta enfermedad, de las cuales el 25 % podrıa morir por esta causa[4].
El cancer de piel es un problema de salud publica y existen varios tipos, pero el tipo Me-
lanoma tiene la mayor tasa de mortalidad. En 2015, la incidencia global de melanomas fue
estimada sobre 350 mil casos, con casi 60 mil muertes. A pesar de que la mortalidad es signi-
ficativa, cuando es detectado en una etapa temprana, la tasa de supervivencia del melanoma
aumenta considerablemente superando el 95 % de los casos [15].
La dermatoscopia es una tecnica de fotografıa reciente que amplifica la imagen de la piel y
elimina la reflexion de la superficie, las investigaciones demuestran que con el entrenamiento
apropiado, la precision del diagnostico puede variar entre un 75 % a 84 %. Existen diversos
algoritmos para analizar imagenes dermatoscopicas como la lista de los 3 puntos, la regla del
ABCD, el metodo de Menzies y la lista de los 7 puntos; estos algoritmos sirven como punto
de partida para evaluar una lesion y clasificarla de acuerdo a caracterısticas puntuales, sin
embargo, muchos medicos ignoran estos metodos y se basan en su experiencia personal para
diagnosticar la enfermedad[6].
La dermatoscopia permite implementar herramientas de deteccion automatica basada en el
analisis y procesamiento de imagenes; hoy en dıa, con el acceso a camaras de alta resolucion,
los algoritmos pueden mejorar de forma significativa nuestra habilidad para ver y detectar le-
siones problematicas. Por esta razon, muchas instituciones estan invirtiendo en investigacion
sobre analisis automatico[15].
The International Skin Imaging Collaboration1, ISIC, por sus siglas en ingles, ha puesto a
disposicion una gran base de datos de imagenes dermatoscopicas, con mas de 20mil imagenes
provenientes de los principales centros clınicos a nivel internacional. ISIC promueve la in-
vestigacion colaborativa a traves de retos para desarrolladores y su objetivo es brindar a los
participantes una base de datos confiable para desarrollar una herramienta de clasificacion
de enfermedades de la piel[3].
Existen cientos de aplicaciones para dispositivos moviles que se comercializan como dispo-
sitivos educativos o de asistencia para la deteccion temprana de melanomas, sin embargo,
1Colaboracion internacional de imagenes de la piel
1.1 Justificacion 3
aun falta encontrar modelos precisos que brinden seguridad y que sean aceptados por la
comunidad medica[3].
1.1. Justificacion
En Colombia, como en el resto del mundo, el cancer de piel se ha convertido en una preo-
cupacion habitual, se estima que en el paıs se detectan 1213 casos nuevos cada ano, de los
cuales 226 resultan en la muerte [22]; aunque las lesiones cutaneas son visibles a simple vista,
es difıcil distinguir entre una lesion benigna y un melanoma en su etapa inicial, dando lugar
a biopsias innecesarias para hacer el diagnostico[8]. La deteccion temprana juega un papel
clave en el tratamiento del cancer de piel, por esta razon, este proyecto tiene como objetivo
aportar una herramienta de analisis no invasivo, que a partir de imagenes dermatoscopicas
sea capaz de detectar, extraer caracterısticas y clasificar lesiones pigmentadas, para apoyar
el diagnostico medico. Con esta herramienta se busca dar un paso en el analisis de imagenes
dermatoscopicas, con el fin de apoyar a estudiantes y medicos especialistas en dermatologıa.
A partir de la base de datos, se segmentaron las imagenes para aislar la lesion pigmentada de
la piel, se utilizo el metodo de Otsu y la segmentacion semantica complementados con ope-
raciones morfologicas. A continuacion, se realizo la extraccion de caracterısticas locales de la
imagen segmentada a traves de bag of words ; para esto, se tuvieron en cuenta los descriptores
de color y forma, ya que se consideraron caracterısticas relevantes para el vocabulario del
bag of words. Finalmente, se obtuvo el histograma de caracterısticas para cada imagen y se
entreno el clasificador por medio de SVM (Support Vector Machine2).
2Maquinas de vectores de soporte
2 Objetivos
2.1. Objetivo general
Identificar lesiones pigmentadas en la piel tipo melanoma usando imagenes dermatoscopicas,
a traves de tecnicas de inteligencia artificial y procesamiento de imagenes para apoyar el
diagnostico medico.
2.2. Objetivos especıficos
Segmentar las imagenes dermatoscopicas con el fin de generar una mascara binaria que
indique las partes de la imagen que corresponden a la lesion pigmentada.
Extraer las caracterısticas principales de la lesion usando procesamiento digital de
imagenes.
Clasificar las lesiones a traves de una red neuronal entrenada con aprendizaje supervi-
sado.
3 Marco teorico
3.1. Cancer de piel
La piel es el organo mas extenso del cuerpo humano, lo protege y es por ello que puede
ser afectada por un gran numero de patologıas, entre ellas el cancer; este puede definirse
como la multiplicacion rapida, desordenada y agresiva de celulas anormales, principalmente
de la capa mas superficial de la piel, la dermis. El cancer de piel se revela generalmente
con la generacion de un tumor y segun sea su crecimiento, hacia el interior o el exterior de
la dermis, representa un grado diferente de amenaza. El melanoma, el mas letal de todos
los canceres de piel, se origina en los melanocitos, las celulas que dan el color a la piel. Al
igual que todos los tipos de cancer de piel, se caracteriza por ser una enfermedad silenciosa,
usualmente indolora que puede originarse en piel sana o a partir de un lunar u otra lesion
ya existente que va cambiando su forma, tamano, color o textura[20].
La incidencia del cancer de piel ha aumentado a nivel mundial desde 1979, sobre todo el de
tipo melanoma. La exposicion prolongada a la radiacion solar y a su componente ultravioleta
sin ninguna precaucion es un factor de gran influencia en la mayorıa de los casos[13], incluso
se ha visto un incremento de incidencias en personas jovenes debido al uso de dispositivos
de bronceado artificial y a la falta de proteccion al exponerse al sol.
El melanoma puede ser diagnosticado tempranamente a traves de una simple inspeccion vi-
sual, sı se detecta mientras aun esta confinado a las capas externas de la piel es curable y la
tasa de supervivencia relativa a 5 anos es aproximadamente del 98 %. Desafortunadamente,
muchos pacientes continuan siendo diagnosticados con una enfermedad mas avanzada. Co-
mo resultado, de los mas de 13 millones de casos diagnosticados de cancer de piel a nivel
mundial, mas de 65,000 personas mueren de melanoma cada ano. En Colombia, segun re-
portes de la Secretarıa Distrital de Salud, se diagnostican alrededor de 6.500 casos al dıa y
aproximadamente 250 personas mueren al ano por causa de la enfermedad[13].
3.2. Dermatoscopia
A pesar de que las lesiones en la piel son visibles directamente, existen muchas estructuras
de la misma que no lo son. Con el avance de la tecnologıa y su aplicacion en la medicina, hoy
en dıa se hace uso del dermatoscopio para observar con mas detalle la lesion pigmentada.
La dermatoscopia o Microscopıa de Epiluminiscencia (ELM), es una tecnica que mediante
6 3 Marco teorico
Figura 3-1: La dermatoscopia digital detecta tumores de piel, como el melanoma, en sus
etapas iniciales, tomando imagenes de los lunares con una camara digital, que
aumenta su tamano para que el dermatologo los estudie[7].
un sistema de amplificacion e iluminacion permite eliminar el reflejo y la reflexion de la
superficie de la piel, permitiendo una mejor visualizacion en vivo de la estructura y subes-
tructura de las lesiones pigmentadas, cuando se usa por dermatologos expertos, permite
reconocer caracterısticas morfologicas que no son visibles a simple vista. Estudios indican
que la dermatoscopia logra una mejorıa del 20-25 % en la precision diagnostica del melano-
ma, implicando ası, una reduccion de biopsias innecesarias y una mejor oportunidad para el
seguimiento y documentacion de las lesiones existentes[31].
Los instrumentos actualmente usados para la realizacion de una exploracion dermatoscopica
son el dermatoscopio manual, el estereomicroscopio quirurgico binocular y portatil, el video-
dermatoscopio y los equipos de dermatoscopia digital. El dermatoscopio usualmente utilizado
tiene un aumento de 10x que es suficiente para una evaluacion de las lesiones pigmentadas
de la piel en la rutina diaria.
3.3. Algoritmos de diagnostico dermatoscopico
El diagnostico por dermatoscopia se divide en dos etapas: la primera, consiste en determinar
si la lesion es de tipo melanocıtica o no, para posteriormente distinguir la naturaleza benigna
o maligna de la lesion. Para discernir la naturaleza de la lesion, se debe ser capaz de recono-
cer una serie de estructuras dermatoscopicas asociados al melanoma; ahora bien, desde un
punto de vista clınico, el medico puede usar distintos criterios o parametros dermatoscopicos
para evaluar si la lesion es de tipo melanoma (maligna).
3.3 Algoritmos de diagnostico dermatoscopico 7
Patrones globales Caracterısticas locales
especıficas
Caracterısticas locales
adicionales
Caracterısticas de
Confusion
Multiples componen-
tes, reticular, globular,
cresta paralela, ines-
pecıfico
Red de pigmentos
atıpicos, puntos /
globulos irregulares,
vetas irregulares, velo
azul-blanquecino, pig-
mentacion irregular,
estructuras de regre-
sion, vasos irregulares
punteados o lineales
Areas hipopigmenta-
das, vasos en horquilla,
globulos rojos
Patron homogeneo o
estrellado; red tıpica
de pigmentos, puntos /
globulos regulares, ve-
tas regulares, quistes
tipo milia.
Tabla 3-1: Caracterısticas presentes en una lesion tipo melanoma[14]
Uno de los metodos ampliamente utilizados para el diagnostico de melanoma es el analisis
de patrones. Este metodo se basa en una evaluacion crıtica y simultanea de criterios derma-
toscopicos individuales, lo cual requiere de un gran conocimiento y experticia del examinador
para lograr un diagnostico con suficiente seguridad; este metodo presenta graves desventajas
en cuanto a que es difıcil reproducirlo ya que depende, en gran medida, del examinador. Por
ello se han introducido metodos semicuantitativos de diagnostico adicionales con el objetivo
de aumentar la sensibilidad en la deteccion del melanoma y evitar al maximo la influencia del
conocimiento y experiencia del examinador, facilitando ası, el diagnostico a los dermatologos
menos experimentados en la tecnica, ademas, las tecnicas semicuantitativas permiten una
posible implementacion a traves de algoritmos computacionales.
Algunos de los metodos para distinguir los parametros y patrones asociados al melanoma
son la regla ABCD, la lista de control de 7 puntos y el metodo de Menzies. A continuacion
se dara una breve explicacion de los metodos mencionados [14].
3.3.1. Analisis de patrones
Esta es la tecnica mas usada por los medicos con mas experiencia y conocimiento, tam-
bien es la que brinda mejores resultados para el diagnostico. Las lesiones melanocıticas se
caracterizan por tener unos pocos patrones globales que cubren la mayor parte de la le-
sion, permitiendo una categorizacion preliminar rapida, y unos patrones locales, estructuras
individuales presentes en distintas regiones de la lesion; sin embargo, se pueden observar
caracterısticas locales adicionales que representan pistas de diagnostico utiles. Ademas, se
pueden presentar caracterısticas de confusion, es decir, criterios dermoscopicos que con poca
frecuencia estan presentes dentro de una categorıa de diagnostico dando lugar a una clasifi-
cacion equivocada[14]. En la tabla 3-1 se listan los criterios que clasificarıan una lesion.
8 3 Marco teorico
3.3.2. Regla de ABCD
Este es un metodo semicuantitativo alternativo al analisis de patrones y para usarlo es
necesario que la lesion pigmentada sea melanocıtica; la nemotecnia surge de los cinco criterios
en los que se basa:
Asimetrıa: Se divide la lesion pigmentada en dos ejes de 90 %, de manera que se
consiga la mayor simetrıa posible, y se valora la asimetrıa con respecto el color, la
forma y estructuras en ambos lados del eje. Se otorga una puntuacion de 0 si no existe
asimetrıa en ningun eje; de 1, si existe asimetrıa en un eje y de 2, si la presenta en
ambos ejes. De esta manera se tiene una puntuacion de 0 a 2.
Borde: La lesion es dividida en 8 segmentos y se puntua con 1 cada porcion que
presente una finalizacion abrupta o brusca del borde. Por el contrario, un corte gradual
e indistinto de la porcion obtendra un puntaje de 0. De tal manera que la puntuacion
mınima que se puede obtener es 0 y la maxima 8.
Color: Se valora la presencia de 6 colores: blanco, marron claro, marron oscuro, azul-
gris, rojo y negro. El blanco tan solo puntuara si es mas claro que la piel adyacente,
por lo que la puntuacion maxima sera de 6 y la mınima de 1.
Estructuras dermatoscopicas: Se consideran 5 estructuras cada una de las cuales
puntua con un punto, por lo que la puntuacion maxima sera de 5 y la mınima de 1.
Las estructuras dermatoscopicas son:
• Red pigmentada(Figura 3-2), Consiste en una conexion de lıneas entrecruzadas
que provocan la generacion de huecos, regulares o irregulares. Las lıneas indican
mayor cantidad de melanina en esa region.
• Areas desestructuradas, que deben comprender mas del 10 % de la superficie de
la lesion.
• Puntos(Figura 3-3), que deben ser mas de dos.
• Globulos(Figura 3-4), que deben ser al menos dos.
• Ramificaciones lineales, que al igual que los puntos deben ser mas de dos.
Cada uno de los puntajes alcanzados por los criterios anteriores, deben ser multiplicados por
un peso ponderado para calcular el valor del ındice dermatoscopico total (TDS):
TDS = 1, 3A+ 0, 1B + 0, 5C + 0, 5D (3-1)
El significado del valor del TDS se interpreta segun la tabla 3-2
3.3 Algoritmos de diagnostico dermatoscopico 9
(a) Red pigmentada tıpica
(b) Red pigmentada atıpica
Figura 3-2: La red pigmentada consiste en una rejilla de ”lıneas”pigmentadas que se cruzan
formando un patron de panal[23].
Figura 3-3: Puntos
Los puntos son pequenas y redondas estructuras de menos de 0.1mm en diametro que
tienen un color rojo correspondiente a los vasos sanguıneos; sin embargo, cuando
interactuan con melanina, su rango de colores varıa desde negro, cafe, hasta azul grisaceo
dependiendo de la profundidad y la concentracion de la melanina en la piel[23].
10 3 Marco teorico
Figura 3-4: Globulos
Los globulos son estructuras simetricas, circulares o ovales, bien demarcadas con un
diametro mayor que 0.1mm[23].
Tabla 3-2: Interpretacion del indice dermatoscopico total para la regla del ABCD[31]
.
TDS Diagnostico
Menor a 4.75 Benigno
Entre 4.75 y 5.45 Sospechoso
Mayor a 5.45 Maligno
3.3.3. Lista de verificion de los 3 puntos
Este es uno de los algoritmos visuales mas sencillos, depende de la distincion de tres patrones
como lo son: la asimetrıa, el patron reticular atıpico y las estructuras blanco-azuladas, estos
patrones son relevantes en el diagnostico del melanoma y la presencia de al menos dos de
ellos, indica una alta probabilidad de melanoma (Tabla 3-3).
Tabla 3-3: Criterios para la lista de verificacion de los tres puntos[31]
.Criterio Definicion
Asimetria Asimetrıa del color y/o estructura en uno o dos ejes perpendiculares
Patron reticular atıpico Retıculo pigmentado con distribucion irregular y lıneas gruesas
Estructuras blanco-azuladas Cualquier tipo de coloracion azulada, blanquecina o ambas en la lesion
3.3.4. Lista de verificacion de los 7 puntos
Este es un metodo de diagnostico ideado para ayudar a la clasificacion de melanomas por
examinadores menos experimentados, requiere la identificacion de siete criterios dermatologi-
cos jerarquizados. A las caracterısticas mas frecuentemente relacionadas con el melanoma,
llamadas criterios mayores, se les asigna un puntaje de 2, por otro lado, a las caracterısticas
menos asociadas al melanoma, llamadas criterios menores, se les asigna un puntaje de 1.
Mediante la simple adicion de las puntuaciones individuales, una puntuacion total de 3 o
3.3 Algoritmos de diagnostico dermatoscopico 11
mas permite la clasificacion de melanoma con una sensibilidad del 95 % y una especificidad
del 75 %.
Tabla 3-4: Lista de verificacion de los 7 puntos, criterios mayores y menores[31]
.
Criterio dermatoscopico Puntuacion Maxima
CRITERIOS MAYORES
Retıculo pigmentado atıpico 2
Velo azul-Blanquecino 2
Patron vascular atıpico 2
CRITERIOS MENORES
Proyecciones irregulares 1
Puntos/Globulos irregulares 1
Manchas de pigmento irregulares 1
Estructuras asociadas a la regresion 1
PUNTUACION TOTAL
Menor a 3 Benigna
Mayor o igual a 3 Maligna
3.3.5. Metodo de Menzies
Se basa en la valoracion de 11 criterios dermatoscopicos divididos en criterios negativos,
que no deben estar presentes para el diagnostico de melanoma, y criterios positivos, alguno
de ellos debe cumplirse para considerar maligna la lesion pigmentada. Para diagnosticar el
melanoma, no se deben presentar ninguno de los dos criterios negativos y se debe tener al
menos, uno de los nueve criterios positivos (Tabla 3-5).
El estudio hecho por la CNMD1, en el que se evaluaron los diferentes metodos de diagnostico
segun su reproducibilidad2, comparando la sensibilidad3 y la especifidad4 de cada uno, se
puede observar en la tabla3-6.
1Consenso de Netmeeting en Dermoscopia2Capacidad del test para ofrecer los mismos resultados cuando se repite su aplicacion en circunstancias
similares. La variabilidad biologica del hecho observado, la introducida por el propio observador y la
derivada del propio test, determinan su reproductividad[9].3Es la probabilidad de clasificar correctamente a un individuo enfermo, es decir, la probabilidad de que
para un sujeto enfermo se obtenga en la prueba un resultado positivo. La sensibilidad es, por lo tanto, la
capacidad del test para detectar la enfermedad[9].4Es la probabilidad de clasificar correctamente a un individuo sano, es decir, la probabilidad de que para
un sujeto sano se obtenga un resultado negativo[9].
12 3 Marco teorico
Tabla 3-5: Interpretacion metodo de Menzies.[31]
CRITERIOS
Negativos Simetria
No estan presentes en un melanoma Monocromıa
Velo azul-Blanquecino
Despigmentacion tipo cicatriz
Multiples colores
Retıculo pigmentado prominente
Positivos Pseudopodos
Al menos uno debe estar presente Proyecciones radiales
Multiples puntos marrones
Puntos/Globulos negros perifericos
Multiples puntos azul-gris
Tabla 3-6: Comparacion de los metodos de diagnostico segun su sensibilidad y Especifidad
Algoritmo de DiagnosticoDesempeno
Sensibilidad % Especifidad %
Analisis de patrones 83.7 83.4
Regla de ABCD 82.6 70
Lista de los 7 puntos 83.6 71.1
Metodo de Menzies 85.7 71.1
Lista de los 3 puntos 91 71.9
3.4. Tecnicas de procesamiento de imagen
Para el desarrollo de este proyecto se hizo uso de varios conceptos y herramientas del pro-
cesamiento digital de imagenes. Con la intencion de contextualizar al lector, a continuacion
se describen algunos de ellos.
Nos referimos por imagen a una funcion de intensidad de luz bidimensional f(x, y), donde
x e y indican las coordenadas espaciales y el valor de f en cualquier punto (x, y) es propor-
cional a la luminosidad (o nivel de gris) de la imagen en dicho punto. Una imagen digital es
una imagen (funcion) f(x, y) que ha sido discretizada tanto en coordenadas espaciales como
en luminosidad. En otras palabras, una imagen digital tiene un numero finito de elementos,
cada uno de los cuales tiene una ubicacion y un valor particular. Los elementos de estos
arreglos digitales son llamados elementos de imagen o pıxeles[12].
Teniendo en cuenta lo anterior, un pıxel tiene vecinos tanto verticales como horizontales a
una unidad de distancia, cuyas coordenadas estarıan dadas por:
(x+ 1, y), (x− 1, y), (x, y + 1), (x, y − 1) (3-2)
3.4 Tecnicas de procesamiento de imagen 13
(a) Canal Rojo (b) Canal Verde (c) Canal Azul
Figura 3-5: Canales RGB
En la Figura(a). se puede visualizar el canal rojo, en la Figura(b). se puede visualizar el
canal Verde y en la Figura(c). se puede visualizar el canal Azul del Modelo RGB.
Y los cuatro vecinos diagonales estan dados por
(x+ 1, y + 1), (x+ 1, y − 1), (x− 1, y + 1), (x− 1, y − 1) (3-3)
3.4.1. Representacion del color
Para representar el color de una imagen existen diferentes modelos que proporcionan metodos
para la manipulacion de estos, ordenandolos y especificandolos, ofreciendo distintas carac-
terısticas y ventajas. En la actualidad existen varias de estas representaciones como RGB,
HSV, CIELAB, Opponent Space.
RGB
El espacio RGB representa el color como la mezcla aditiva de las matrices que describen y
comprenden los tres colores primarios rojo (R), verde (G) y azul (B), con diferentes valores
de luminosidad (ver Figura 3-5). Este es el espacio de color mas utilizado y extendido ya que
proporciona informacion sobre cada color primario por separado, aunque su representacion
depende de como este definido cada color primario en el dispositivo de visualizacion[25].
El uso del espacio RGB permite evitar la alteracion de las propiedades del color durante
el proceso de segmentacion y conseguir una mayor velocidad de segmentacion al evadir
operaciones de conversion y redondeo.
HSV
El modelo HSV representa el color como una combinacion de tonalidad (H), saturacion (S)
e intensidad (V). Este modelo tiene algunas ventajas como independizar la informacion de
tonalidad y la del brillo, pudiendo modificaras de forma independiente.
14 3 Marco teorico
Figura 3-6: Representacion espacial del modelo CIELAB
CIELAB
El espacio CIELAB es un espacio estandarizado que pretende lograr una representacion del
color perceptualmente uniforme. Este modelo se basa en la teorıa de los colores opuestos,
la variable L representa luminancia, A magenta-verde y B amarillo-cyan. Un valor negativo
de A define un color mas verde que magenta, mientras que un valor positivo de B define un
color mas amarillo que cyan, ver imagen 3-6.
Opponent Space
Este modelo esta basado en el sistema de visualizacion humano y el modelo de colores
opuestos. Tiene dos componentes cromaticos y uno monocromatico:
O1 representa el canal verde-rojo (GR)
O1 = G−R (3-4)
O1 representa el canal azul-amarillo (BY)
O2 = B − Y = B − (R +G) (3-5)
O3 es la componente de luminancia
Para esta aplicacion y considerando la naturaleza de las imagenes se realizan diferentes
pruebas para definir cual de los anteriores ofrece mayor cantidad de informacion.
3.4.2. Operaciones morfologicas
La morfologıa matematica es una tecnica de procesamiento de imagen cuyo proposito es
analizar la forma de los objetos. Las dos principales operaciones de la morfologıa son la
dilatacion y erosion, la combinacion de las anteriores da como resultado las operaciones de
3.4 Tecnicas de procesamiento de imagen 15
apertura y cierre. Las operaciones morfologicas se realizan utilizando elementos estructura-
les, que son matrices de unos y ceros cuya forma y tamano se adaptan a las propiedades
geometricas de la imagen a procesar[26][2].
Si se tiene que Ay B son conjuntos en R2 y Ø el conjunto vacıo, entonces:
La traslacion de A por x = (x1 + x2)
(A)x = [c|c = a+ x, paraa ∈ A] (3-6)
La reflexion de A
A = [x|x = −a, paraa ∈ A] (3-7)
Complemento de A
Ac = [x|x /∈ A] (3-8)
Erosion: la erosion es el resultado de comprobar si el elemento estructural B esta
completamente incluido dentro del conjunto A. En la practica, el resultado de la erosion
es el conjunto de posiciones x para los cuales el elemento estructural B reflejado y
desplazado esta contenido en A.
AB = [x|Bx ⊆ X] (3-9)
Dilatacion: el resultado de la dilatacion es el conjunto de elementos tal que al menos
algun elemento estructural B esta contenido en el conjunto A, cuando B se desplaza
sobre el conjunto A. En la practica, se refleja y traslada el elemento estructural B
por la imagen y se ponen a 1 los pıxeles de A en aquellas posiciones x en las que la
interseccion de A y B reflejada y desplazada no es nula.
A⊕B = [x|(B)x ∩ A 6= Ø] (3-10)
Apertura: elimina todos los objetos que no estan completamente contenidos en el
elemento estructural sin disminuir el tamano a los objetos que superen la erosion.
Consiste en erosionar A por B, y a continuacion dilatar el resultado por B. Se consigue
un efecto de suavizado del contorno de los objetos, eliminando ruido.
A ◦B = (AB)⊕B (3-11)
Cierre: al contrario que la apertura, realiza en primer lugar una dilatacion y a conti-
nuacion una erosion. Esto permite fusionar objetos muy cercanos o eliminar pequenas
fisuras.
A ·B = (A⊕B)B (3-12)
A partir de estas cuatro operaciones se desarrollan algoritmos morfologicos que desempenan
otro tipo de funciones.
16 3 Marco teorico
Figura 3-7: Mascara general 3x3
[12].
3.5. Segmentacion
Para el diagnostico automatico del cancer de piel es necesario discernir que seccion de la piel
es de interes, por esta razon, es de vital importancia realizar un proceso de segmentacion
que permita aislar la lesion del resto de la piel.
En el campo de procesamiento de imagenes se tiene que la segmentacion es el proceso que
divide una imagen en regiones con el fin de facilitar su procesamiento. El nivel al cual la
division es llevada a cabo depende en el problema que se desea solucionar, es decir, se deberıa
detener un proceso de segmentacion una vez se tenga el objeto de interes aislado[12].
En la practica, el resultado de la segmentacion es la asignacion de etiquetas a pıxeles que
por sus caracterısticas se consideran parte de un objeto determinado. Los algoritmos de
segmentacion usualmente estan basados en dos de las propiedades basicas de la matiz de
intensidades: discontinuidad y similitud.
El primero de ellos se basa en los cambios abruptos de intensidad como lo son los bordes en
una imagen. Por otro lado la segunda se basa en la deteccion de regiones que son similares
de acuerdo con un conjunto de criterios predefinidos. La deteccion de bordes ha sido uno de
los algoritmos mas utilizados y estudiados[11].
3.5.1. Segmentacion basada en discontinuidades
Los algoritmos basados en discontinuidades detectan los cambios bruscos en la intensidad de
una imagen. La forma mas comun de hacer esto es pasar una mascara a traves de esta, con la
forma general mostrada en la fig 3-7), para despues compararlo con un umbral y seleccionar
ası los cambios mas bruscos.
Este procedimiento envuelve conocer la respuesta de la mascara en cualquier punto de la
imagen, la cual esta dada por:
R =9∑
i=1
WiZi = W1Z1 +W2Z2 + ...+W9Z9 (3-13)
Donde Zi es el nivel de gris del pıxel asociado con el coeficiente de la mascara Wi. R (valor
asignado al pıxel central) es basicamente las diferencias de intensidad ponderadas entre el
punto central y sus vecinos. La idea es que un punto aislado cuyo nivel de gris es significa-
tivamente diferente al del fondo, sera facilmente detectado por este tipo de mascara. Para
3.6 Clasificacion 17
determinar si el nivel de gris es significativo o no, el metodo sugerido es utilizar un umbral.
Ahora bien si se define T como un valor umbral no negativo tendrıamos que:
f(x) =
{1 si |R| > T
0 si |R| ≤ T(3-14)
Utilizando esta misma tecnica, es posible disenar mascaras para detectar todo tipo de dis-
continuidades como lıneas, puntos y bordes.
3.5.2. Segmentacion basada en similitud
Este metodo de segmentacion se basa en la agrupacion de regiones de la imagen cuyos pıxeles
compartan un conjunto de caracterısticas semejantes, como el color o la intensidad. Dentro
de estos metodos, cabe destacar la umbralizacion.
Umbralizacion
Debido a sus propiedades intuitivas y la simplicidad de implementacion la umbralizacion
es uno de los metodos mas empleados e importantes en la segmentacion de imagenes [24].
Consiste en asignar un valor o etiqueta a cada pıxel en funcion de un umbral no negativo T,
generalmente basado en la informacion suministrada por el histograma de escala de grises.
Entonces, cualquier punto(x, y) en la mascara g(x, y) que supere el umbral sera un punto de
objeto (valor de 1), de otro modo sera un punto de fondo (valor 0).
g(x, y) =
{1 si f(x, y) > T
0 si f(x, y) ≤ T(3-15)
En imagenes donde los niveles predominantes de intensidad esten bien definidos, es posible
aplicar una umbralizacion multinivel. Esto es, a partir de varios umbrales, clasificar un
punto(x, y) como perteneciente a uno de dos o mas objetos diferentes. En general, la dificultad
para seleccionar dichos umbrales hace que, en muchas ocasiones, un umbral unico proporcione
segmentaciones mas precisas[11].
3.6. Clasificacion
El proceso de clasificacion por parte de sistemas automaticos consiste en asignar a cada
elemento de un conjunto una clase determinada. Las clases identifican elementos que com-
parten una serie de caracterısticas similares. Ahora bien, se define caracterıstica como todas
aquellas propiedades de un elemento que pueden ser de alguna forma cuantificadas.
Pese a que un objeto puede poseer un numero infinito de caracterısticas, es necesario resaltar
que no todas son relevantes a la hora de distinguirlo de otro objeto. Algunas caracterısticas
18 3 Marco teorico
pueden estar relacionadas entre sı, tener un caracter aleatorio o no relacionarse con el resto
de propiedades del objeto. Por esto es necesario identificar y seleccionar las caracterısti-
cas segun la aplicacion, ya que la eficiencia de un sistema automatico de clasificacion recae
fuertemente en la precision y relevancia de las caracterısticas cuantificadas.
3.6.1. Extraccion de Caracterısticas
Es necesario representar y describir los pıxeles resultantes de la segmentacion de forma que
sea posible su procesamiento; la descripcion de una region se realiza con base en sus carac-
terısticas internas, externas o ambas. La extraccion de caracterısticas consiste basicamente
en la tarea de localizar puntos de interes en una imagen dada, los cuales, contienen una alta
cantidad de informacion relevante sobre su entorno y son invariables ante las perturbaciones
que puede sufrir una imagen, es decir, son reproducibles.
Para lograr clasificar correctamente las imagenes dermatoscopicas se debe asegurar que la
representacion de las imagenes de una misma clase sea lo mas similar posible. En otras pa-
labras, en la representacion por puntos de interes se debe lograr que en imagenes diferentes
de la misma clase se detecten los mismos puntos de interes, en las mismas zonas y que estas
zonas sean las mas representativas de la imagen.
SIFT
Muchos algoritmos son invariantes ante las rotaciones pero esto no necesariamente aplica
cuando la imagen presenta un escalamiento. Scale Invariant Feature Transform, SIFT, es un
algoritmo de deteccion de puntos de interes que es invariante ante rotaciones y escalamientos.
SIFT consiste en aplicar sobre la imagen una secuencia de diferencias gaussianas centradas
en cada uno de los pıxeles de la imagen en una escala σ determinada (de la piramide de
imagenes5) 3-8, esto produce un efecto de suavizado y perdida del detalle de la imagen ori-
ginal a medida que los pixeles vecinos van perdiendo influencia una vez se van alejando del
pıxel principal. La diferencia de gaussianas actua como detector de contornos o areas con
intensidad homogenea (BLOBS) rodeadas de zonas oscuras o claras.
Con lo anterior, podemos encontrar los maximos locales a traves de la escala y el espacio, lo
que nos da una lista de valores (x, y, σ) indicando que hay un punto de interes potencial en
(x, y) a escala σ. En otras palabras, un pıxel es comparado con sus 8 vecinos mas cercanos
en la misma escala, como tambien se compara con los 9 puntos vecinos en las escala anterior
y posterior3-9. Esto significa que un punto de interes esta mejor representado en esa escala.
Una vez localizados todos los puntos de interes, estos deben refinarse para obtener resultados
mas precisos. Se eliminan todos los puntos con contraste bajo (bajo valor en la diferencia de
5Conjunto de imagenes con tamano decreciente o creciente, usada para detectar caracterısticas de diferentes
tamanos
3.6 Clasificacion 19
Figura 3-8: Piramide de imagenes
[18].
gaussianas) ademas de puntos localizados en los bordes ya que pueden introducir ruido en
la imagen.
Ahora una orientacion es asignada a cada punto de interes, ya que la descripcion de estos
se representara a traves de un vector numerico que representa la informacion que se tiene
de la imagen en una zona que se define alrededor del punto de interes. El descriptor se basa
en el concepto de gradiente y se define como el cambio de intensidad de la imagen en una
direccion determinada. La diferencia de intensidad se mide en las coordenadas x e y, estas
se pueden ubicar en un plano describiendo un vector con su respectiva magnitud y angulo
de direccion.
Se crea un histograma de orientacion dividiendo los 360 grados en 36 intervalos, que provee
informacion sobre la distribucion de las orientaciones del gradiente en una determinada
region ademas de, la orientacion dominante en la region. Los pıxeles centrales deben tener
una mayor importancia y por ello se pondera la magnitud del gradiente con una funcion
gaussiana de σ igual a 1,5 veces la escala del punto de interes. Para calcular la orientacion
se toma el pico mas alto en el histograma y picos superiores al 80 %, creando puntos de
interes con la misma ubicacion y escala, pero con diferentes direcciones, contribuyendo a la
estabilidad de la coincidencia.
A continuacion se crea el descriptor del punto de interes. Se toma un area de 16x16 alrededor
del punto de interes y se divide en 16 subbloques de tamano 4x4. Para cada subbloque, se
crea un histograma de orientacion de 8 divisiones, de modo que hay un total de 128 valores
de division disponibles. Ademas de esto, se toman varias medidas para lograr robustez contra
20 3 Marco teorico
Figura 3-9: Comparacion entre pıxeles
[18].
cambios de iluminacion (normalizar el descriptor), rotacion, etc.
SURF
Speeded-Up Robust Features, SURF, es la version mejorada de SIFT. Este algoritmo aproxima
el Laplaciano de Gaussianas(LoG) mediante filtros cuadrados, lo cual implica mayor rapidez
debido a que su convolucion puede ser calculada mediante el uso de imagenes integrales.
SURF tambien usa el determinante de la matriz Hessiana para hallar BLOBS en lugares
donde este es maximo y seleccionar la escala.
Para la asignacion de orientacion al igual que para la descripcion de los puntos de interes,
SURF usa respuestas wavelet en direccion horizontal y vertical para un vecindario de tamano
determinado. En el primer caso, se toma un vecindario circular de radio 6s, siendo s la escala
del punto de interes, y al igual que en SIFT se ponderan con pesos Guassianos adecuados.
La orientacion dominante se estima sumando todas las respuestas dentro de una ventana
de orientacion deslizante con angulo de 60 grados. La respuesta wavelet se puede encontrar
usando de nuevo imagenes integrales en cualquier escala.
En la descripcion de los puntos de interes, se toma un vecindario cuadrado de tamano 20sx20s
alrededor del punto central, el cual se divide en 4x4 subregiones. Para cada subregion, se
toman las respuestas wavelets horizontales y verticales, suavizando los resultados mediante
un filtro Gaussiano (ofrece mayor robustez ante el ruido, errores y deformaciones geometricas
o fotometricas) y obteniendo ası dx y dy. A continuacion se suman los resultados dx, dy y
el valor absoluto |dx|, |dy|. De esta manera, cada subregion proporciona un vector v, que
estara compuesto por:
v = (∑
dx,∑
dy,∑|dx|,
∑|dy|) (3-16)
El descriptor del SURF se obtiene mediante la union de los vectores de las subregiones[18].
3.6 Clasificacion 21
3.6.2. Clasificacion
Una vez se obtienen las caracterısticas de los objetos a clasificar, hay dos criterios que se
pueden aplicar para la determinacion de las clases en un algoritmo de clasificacion, la clasi-
ficacion supervisada y no supervisada. La clasificacion supervisada parte de un conjunto de
clases conocido a priori (datos de entrenamiento), que serviran para generar una signatura
caracterıstica para cada clase a traves de la extraccion de caracterısticas[1]. Existen nume-
rosos algoritmos de este tipo, como son las redes neuronales artificiales, SVM, arboles de
decision, Naıve Bayes, Random Forests, etc.
En la clasificacion no supervisada es necesario establec er el numero de clases en las cuales
se quiere clasificar los objetos, ya que se emplea para procesar datos de los cuales no se
tenıa conocimiento a priori. Aquı los elementos mas similares se van agrupando formando
clases hasta llegar al numero definido inicialmente. Dentro de esta categorıa se incluyen las
tecnicas de clustering o agrupamiento y el algoritmo k-means. Con cualquiera de los dos
criterios se puede disenar un sistema que sera capaz de asignarle a muestras futuras una
clase determinada.
Redes Neuronales
Las redes neuronales artificiales son modelos matematicos inspirados en nuestra comprension
de los sistemas nerviosos biologicos. Por tanto una red neuronal es una coleccion de neuronas
artificiales, las cuales son unidades elementales para el procesamiento de la informacion. El
modelo matematico de una neurona artificial se basa en las siguiente proposiciones:
Las neuronas son las unidades elementales en un sistema nervioso en el que se produce
el procesamiento de la informacion.
Las entradas estan dadas en forma de senales que se transmiten entre las neuronas a
traves conexiones.
Cada conexion tiene un peso que multiplica la senal transmitida.
Cada neurona tiene una accion interna, segun el umbral de disparo, lo que resulta en
una funcion de activacion aplicada a la suma ponderada de las senales de entrada para
producir una senal de salida.
SMV
Las maquinas de vectores soporte (SVM, del ingles Support Vector Machines) pertene-
cen a la categorıa de los clasificadores lineales, puesto que inducen separadores lineales
N-dimensionales o hiperplanos en la dimension correspondiente para lograr una separacion
optima. Para la introduccion de dichos hiperplanos en problemas no lineales, se transforma
el problema original en su forma dual equivalente (plano de caracterısticas) y se resuelve este
22 3 Marco teorico
ultimo mediante el uso de funciones kernel. La idea principal es obtener el margen maximo
equidistante entre el hiperplano y aquellas muestras de cada clase que se encuentran mas
cercanas a la frontera entre clases (vectores soporte),
En SVM existen kernels lineales y no lineales, los primeros dan peores resultados ya que
muchos problemas no son linealmente separables, sin embargo el costo computacional y de
entrenamiento es muy bajo. La ecuacion de prediccion para una nueva entrada esta dada
por el producto punto entre la entrada (X) y cada vector soporte Xi. Los kernels no lineales
tienen un costo computacional mayor (tiempo y memoria) en las etapas de aprendizaje y
clasificacion (es necesario guardar todos los vectores de soporte).
Es necesario validar el parametro C que es el factor de regularizacion de impacto del com-
promiso entre el grado de sobreajuste del clasificador final y la proporcion del numero de
ejemplos mal clasificados; en la actualidad no existe una forma teorica de encontrar el valor
del parametro, sin embargo, se utiliza un valor tendiente al infinito.
K-MEANS
El parametro de entrada en este tipo de algoritmos es el numero final de conjuntos (k),
utilizado para obtener un representante para cada cluster. Los clusters son definidos por la
distancia al representante mas cercano, el algoritmo es iterativo y su objetivo es encontrar
la agrupacion que minimice la distancia de las muestras al representante de cada cluster. El
funcionamiento del algoritmo serıa el siguiente:
Inicializar los representantes de cada cluster de forma aleatoria con una muestra cual-
quiera del conjunto de entrenamiento.
Se calcula la distancia de las muestras a los diferentes clusters inicializados aleatoria-
mente y se asigna al cluster que muestre la distancia mas pequena.
Se modifica el representante de cada clase recalculando la media de todas las muestras
asignadas al cluster.
Se modifican las fronteras de los clusters y se repiten los pasos 2 y 3 hasta que no
hayan cambios en la asignacion.
El resultado depende de la inicializacion, a veces es necesario repetir el proceso con diferentes
inicializaciones y escoger la solucion que tenga la menor suma total de cada una de las
distancias de las muestras a los representantes de cada cluster.
C = argmin
k∑j=1
∑xi∈Cj
d(xi, Cj) (3-17)
3.6 Clasificacion 23
Bag of Words
El metodo de bag of words (BOW) considera la imagen como un conjunto de caracterısticas
locales, comunes y relevantes que son utilizadas para reconocer y clasificar las imagenes por
metodos estadısticos. A estas caracterısticas se les llamara palabras visuales.
La estructura general del algoritmo consiste en primer lugar agrupar las caracterısticas me-
diante el uso del algoritmo de agrupamiento K-means y de allı obtener el vocabulario visual.
Los centros de agrupamiento son considerados como palabras visuales que componen el vo-
cabulario visual. Luego se hace uso del histograma descrito por la frecuencia de aparicion
de las palabras visuales para representar el contenido de la imagen; como resultado, una
imagen se ve como una bolsa llena de palabras visuales. Como ultimo paso, se toma el histo-
grama formado por palabras visuales de cada imagen como caracterısticas, luego se obtiene
el modelo de clasificacion por entrenamiento SVM. En este metodo no se tiene en cuenta la
localizacion de las caracterısticas locales de la imagen, lo cual puede ayudar a clasificar una
imagen independientemente de donde se encuentre el objeto[10].
Como ya se ha mencionado anteriormente, K-Means permite construir el vocabulario a traves
de un conjunto de imagenes suficientemente caracterısticas de cada clase, el resultado sera un
conjunto de puntos de interes los cuales son agrupados mediante clustering. La idea basica
para representar una imagen a traves de BOW se basa en asignar cada caracterıstica local a
la palabra visual mas cercana, se selecciona la palabra visual que tenga la menor distancia al
punto de referencia. La representacion final corresponde a un histograma de palabras donde
cada componente indica cuantas caracterısticas han quedado asociadas a una palabra.
Existe la necesidad de comparar cada caracterıstica con todas las palabras, lo que puede
generar un costo computacional elevado por ello, se definen diferentes pesos para las ca-
racterısticas. Las palabras que sean comunes y aparezcan frecuentemente en las imagenes
brindan en su mayorıa poca informacion y se le asigna un peso menor, en cambio, una carac-
terıstica poco comun puede brindar mas informacion en la representacion de la imagen. El
valor asociado a cada palabra va dado por el term frecuency, el primer termino en la formula
3-17, este cuenta la frecuencia de cada palabra en la imagen, normalizado por el numero
total de caracterısticas o de palabras que se tienen en la imagen.
El valor anterior se pondera con otro factor que tiene en cuenta la relevancia o capacidad de
discriminacion de la palabra (IDF), este se obtiene dividiendo el numero total de imagenes
que hemos utilizado para construir el vocabulario, por el numero de imagenes donde aparece
una determinada palabra. De esta forma, si una palabra aparece en todas las imagenes, este
cociente va a ser igual a 1 y al tomar el logaritmo, su peso va a ser de 0. Por lo contrario,
si una palabra aparece en muy pocas imagenes, el valor de este cociente va a ser elevado y,
por lo tanto, su ponderacion va a ser elevada. En este metodo es importante normalizar para
evitar dependencia del numero total de palabras en la imagen.
24 3 Marco teorico
3.6.3. Medidas de desempeno
A la hora de evaluar un clasificador, se emplean los siguientes parametros:
Sensibilidad: se define como la probabilidad de clasificar como enfermos los casos real-
mente enfermos. La sensibilidad es del 100 % cuando no se ha producido ningun falso
negativo.
Sensibilidad =TP
TP + FN(3-18)
Especificidad: probabilidad de clasificar como sanos los casos realmente sanos. La es-
pecificidad es del 100 % cuando no se ha producido ningun falso positivo.
Especificidad =TN
TN + FP(3-19)
Precision: es el porcentaje global de acierto de este. Evidentemente, la precision es del
100 % cuando no se producen ni falsos positivos ni falsos negativos.
Precision =TN + TP
TN + TP + FN + FP(3-20)
Donde:
TP: Verdadero positivo, porcentaje de muestras positivas clasificadas correctamente
como positivas.
TN: Verdadero negativo, porcentaje de muestras negativas clasificadas correctamente
como negativas.
FP: Falso positivo, porcentaje de muestras negativas clasificadas incorrectamente como
positivas.
FN: Falso negativo, porcentaje de muestras positivas clasificadas incorrectamente como
negativas.
Resulta evidente que un buen clasificador debera presentar elevadas tasas de TP y TN frente
a FP y FN.
4 Metodologıa
El proyecto fue dividido en tres secciones, como lo son: segmentacion, extraccion de carac-
terısticas y clasificacion. Cada etapa fue desarrolla por separado utilizando diferentes tecnicas
para comparar resultados (ver Figura. 4-1, pag. 26).
El sistema fue entrenado con imagenes dermatoscopicas de lesiones pigmentadas en formato
JPEG, las cuales poseen un tamano normalizado de 450x600px y fueron adquiridas con dife-
rentes tipos de dermatoscopia, en diversos lugares del cuerpo (excluyendo mucosas y unas),
ademas, fueron proveıdas por diferentes instituciones especializadas en el estudio de la piel.
Cada imagen contiene una lesion primaria y algunas pueden contener rayas con marcador,
pequenas lesiones secundarias y otras regiones pigmentadas que deben ser ignoradas.[21, 28]
El conjunto de imagenes esta compuesto en su mayorıa por lesiones benignas, esta serıa
una representacion del ”mundo real”, donde por falta de certeza en el diagnostico visual, se
realizan biopsias innecesarias a individuos sanos.
4.1. Segmentacion
Para el diagnostico de lesiones pigmentadas de la piel es necesario discernir que seccion de
la imagen es de interes, por esta razon, se considera de gran importancia realizar un proceso
de segmentacion que permita aislar las lesiones pigmentadas de la piel del resto de objetos
(pelos, burbujas, etc).
El problema de la segmentacion fue abordado utilizando dos procedimientos, el metodo de
otsu y la segmentacion semantica a partir de aprendizaje profundo, estos fueron evaluados y
comparados segun sus similitud con respecto a las imagenes de entrenamiento segmentadas
manualmente por especialistas en el tema. A continuacion se describen los metodos utilizados
para abordar esta etapa del proyecto:
4.1.1. Metodo de Otsu
Para aplicar el metodo de Otsu, se comienza por la obtencion de la matriz de intensidades
y la binarizacion de la imagen. El metodo de Otsu (Figura. 4-2, pag 28) se emplea cuando
hay una gran diferencia entre el objeto de analisis, en este caso la lesion pigmentada, y el
fondo de la imagen evaluando la intensidad de los pıxeles para establecer un umbral optimo
que permita una mayor separacion entre el objeto de analisis y el fondo. Para obtener la
26 4 Metodologıa
Figura 4-1: Diagrama de bloques para la clasificacion de lesiones pigmentadas de la piel
4.1 Segmentacion 27
mascara binaria, se comparan las intensidades de los pıxeles con el umbral seleccionado, si
la intensidad del pıxel es menor que la del umbral, se asigna un ’uno’, de lo contrario, se
asigna un ’cero’.
En la seleccion del umbral para una imagen dermatoscopica pueden presentarse problemas
como: sombras generadas por el dermatoscopio, ruido en la imagen (bordes negros, vellos,
burbujas de aire) y eliminacion de areas por zonas de baja iluminacion. Todos estos pro-
blemas pueden generar cambios en el area de interes o ROI1, que afecten la extraccion de
caracterısticas y por ende, decrementen la precision del sistema de clasificacion final.
El metodo de segmentacion de Otsu, utiliza tecnicas estadısticas sobre los niveles de gris.
Su objetivo es calcular el valor umbral de forma que la dispersion dentro de cada clase sea
lo mas pequena, pero que al mismo tiempo la dispersion entre clases diferentes sea lo mas
alta posible[17]. En este caso, los pıxeles en la imagen dermatoscopica se dividen en dos
clases, la clase ’Lesion’ y ’Fondo’, a partir del histograma de intensidades, el metodo busca
encontrar el umbral que separe de manera mas efectiva las 2 clases de pıxeles tomando como
caracterıstica principal su intensidad.
Obtencion de la matriz de intensidades
Para calcular el umbral de Otsu es necesario obtener la matriz de intensidades de la imagen
RGB, que corresponde a la luminancia de cada pıxel[16]; esta se calculo utilizando la formula
de la Ecuacion.4-1
Luminancia = 0,299 ·R + 0,587 ·G+ 0,114 ·B (4-1)
Al aplicar la ecuacion 4-1 sobre una imagen de 3 canales RGB, se obtiene una nueva imagen
de solo 2 dimensiones, alto y ancho, que corresponde al equivalente en blanco y negro de la
imagen original, como se muestra en la figura 4-3
Deteccion automatica de umbrales mediante el metodo Otsu
El algoritmo esta basado en la agrupacion de pıxeles, busca automaticamente un umbral
global, recorriendo todo el rango de niveles de gris y seleccionando el umbral que genere la
menor varianza ponderada.[5]
En una imagen de escala de grises, donde el nivel de gris de los N pıxeles se encuentra entre
1 y L, el numero de pıxeles con nivel de gris i se denota como fi (Frecuencia de pıxeles con
nivel de gris i) y la probabilidad de ocurrencia del nivel de gris i en la imagen, esta dada por
1Region Of Interest
28 4 Metodologıa
Figura 4-2: Procedimiento para la segmentacion de lesiones pigmentadas de la piel
4.1 Segmentacion 29
Figura 4-3: Matriz de intensidades para una imagen dermatoscopica
la ecuacion. 4-2
Pi =fiN
(4-2)
En el caso de la binarizacion, los pıxeles son divididos en dos clases: C1 con niveles de
gris [1, ..., t] y C2 con niveles de gris [t + 1, ...,L], cuyas distribuciones de probabilidad se
describen en la Ecuacion. 4-3
C1 :P1
ω1(t), ...,
Pt
ω1(t)
C2 :Pt+1
ω2(t),Pt+2
ω2(t), ...,
PL
ω2(t)
(4-3)
Donde el momento acumulado, la probabilidad de que el pıxel se encuentre dentro de cual-
quiera de las dos clases, se encuentra determinada por la Ecuacion.4-4
ω1(t) =t∑
i=1
Pi ω2(t) =L∑
i=t+1
Pi (4-4)
La intensidad media para la clase C1, la clase C2 y la intensidad media total µT ,estan
definidas en la siguiente Ecuacion. 4-5
µ1 =t∑
i=1
i · Pi
ω1(t)µ2 =
L∑i=t+1
i · Pi
ω2(t)
µT = ω1 · µ1 + ω2 · µ2 ω1 + ω2 = 1
(4-5)
Usando el analisis discriminante, Otsu define la varianza entre clases de una imagen umbra-
lizada como sigue en la Ecuacion.4-6[27]
σ2B = ω1 · (µ1 − µT )2 + ω2 · (µ2 − µT )2 (4-6)
30 4 Metodologıa
Para una umbralizacion de dos niveles, el umbral optimo t∗ se elige de asegurando una
varianza maxima. Ecuacion. 4-7
t∗ = t→Maxt{σ2B(t)
}1 ≤ t ≤ L (4-7)
Al aplicar un umbral, t, la imagen en escala de grises, f(x,y), quedara binarizada; etiquetando
con ‘1’ los pıxeles correspondientes al objeto y con ‘0’ aquellos que son del fondo. En la
ecuacion.4-8, g(x, y) es una imagen binaria, f(x, y) es una imagen en escala de grises, t
es el umbral de segmentacion y (x, y) son las coordenadas de los pıxeles que componen la
imagen.[27]
g(x,y)=
{0⇔ f(x, y) > t
1⇔ f(x, y) ≤ t(4-8)
El umbral puede depender de la imagen, f(x, y) de alguna propiedad local del pıxel, p(x, y),
y hasta de su propia posicion.[27] Ecuacion.4-9
t = t(f(x, y), p(x, y), x, y) (4-9)
4.1.2. Segmentacion semantica
El Deep Learning (Figura. 4-4) es una tecnica de Machine Learning en la que el modelo
aprende a realizar tareas de clasificacion directamente de las imagenes. El Deep Learning
implementa una arquitectura de redes neuronales, donde el termino ”Deep”se refiere a el
numero de capas en la red (entre mas capas, mas profunda la red). La cantidad de datos
que se necesitan para entrenar una red de este tipo es muy grande, desde mil imagenes en
adelante, y el entrenamiento puede tardar desde dıas e incluso semanas, si se empieza desde
cero.[19]
Figura 4-4: Diagrama de bloques para el Deep Learning
La segmentacion semantica es el proceso por el que se etiquetan las imagenes a nivel de
pıxel, no solo se detectan los objetos de interes en una imagen, si no que define que pıxeles
corresponden al objeto.
4.1 Segmentacion 31
Para entrenar la red de segmentacion semantica se utilizo una coleccion de imagenes y su
correspondiente imagen etiquetada, donde el valor de cada pıxel representaba la categorıa
del pıxel.
En la red de de segmentacion semantica (Figura. 4-5) se baja la resolucion de la imagen a
traves de las capas de convolucion y relu, para luego recuperar su dimension inicial a traves
de las siguientes capas y ası hacer coincidir el tamano de la salida con el tamano de la imagen
de entrada. La imagen pasa a traves de diferentes filtros no lineales distribuidos a traves de
las capas, cuyos pesos se van configurando a medida que se va entrenando la red.
Figura 4-5: Arquitectura de una red de segmentacion semantica
Configuracion de las capas de la red
Capa de entrada
Para crear la red de segmentacion semantica, se establecio una capa de entrada, donde se
definio el tamano de imagen que la red debe procesar. Aquı, un tamano de [192 192 3] fue
usado para procesar imagenes RGB de 192x192 pıxeles.
Downsampling
Para la red de Downsampling, o reduccion de resolucion, se usaron capas de convolucion,
ReLU y Pooling. Los parametros de la capa de convolucion se definieron de tal manera que
la imagen de salida tuviera el mismo tamano de la imagen de entrada. Los tamanos de las
imagenes de salida en una capa de convolucion se definen en la ecuacion 4-10
Outputsize =Inputsize − F + 2 · P
S+ 1 (4-10)
Donde:
F corresponde al tamano del filtro.
32 4 Metodologıa
P corresponde al ”Zero Padding”, el cual sirve para agregar columnas o filas de ceros
adicionales a los bordes de la imagen.
S corresponde al Stride, este parametro define el tamano del paso del filtro al moverse
a traves de la imagen.
Isize Tamano de entrada o Input Size.
Osize Tamano de salida o Output Size.
Para las capas de convolucion se establecio un tamano de filtro de 21, un Zero Padding de
10 y un Stride de 1, teniendo en cuenta que la entrada tiene un tamano de 192, se obtuvo
una salida de tamano 192. Como las imagenes son cuadradas, el calculo del tamano de salida
es el mismo para las 2 dimensiones.
Outputsize =192− 21 + 2 · 10
1+ 1 = 192
Para las capas de Pooling se configuraron los parametros de tal manera que el tamano de
salida fuera la mitad del tamano de entrada y se eligio el operador maximo. Se eligio un
tamano de filtro de 2, un Zero Padding de 0 y un Stride de 2.
Outputsize =192− 2 + 2 · 0
1+ 1 = 96
Outputsize =96− 2 + 2 · 0
1+ 1 = 48
El tamano de salida para la capa de Pooling se calcula de la misma forma que para la capa
de convolucion, hay que recordar que las capas ReLU no anaden complejidad a la red y no
cambian el tamano de la imagen. Al final la red de DownSampling fue configurada de la
siguiente forma (tabla.4-1)
Tabla 4-1: DownSampling
Configuracion de parametros para la capa de DownSamplingCapa F P S Isize Osize
Convolucion 21 10 1 192 192
ReLU - - - 192 192
MaxPooling 2 0 2 192 96
Convolucion 21 10 1 96 96
ReLU - - - 96 96
MaxPolling 2 0 2 96 48
4.1 Segmentacion 33
Tabla 4-2: Red de UpSampling
Capa S F Cropping Isize Osize
Convolucion transpuesta 2 4 1 48 96
ReLU - - - 96 96
Convolucion transpuesta 2 4 1 96 192
ReLU - - - 192 192
UpSampling
Para el UpSampling se uso una capa de convolucion transpuesta, la cual hace la tarea
de aumento de resolucion y filtro al mismo tiempo; el tamano de la salida de la capa de
convolucion compuesta se calcula como se muestra en la ecuacion 4-11.
Osize = S · (Isize − 1) + F − 2 · Cropping (4-11)
Los parametros de la capa de convolucion transpuesta se establecieron para que el tamano
de salida fuera del doble del de entrada. El Crooping permite reducir el tamano de la salida,
segun sea necesario, recortando los bordes de la imagen. El Stride para esta capa se configuro
de 2, se uso un tamano de filtro de 4 y un Crooping de 1.
Outputsize = 2 · (48− 1) + 4− 2 · 1 = 96
Outputsize = 2 · (96− 1) + 4− 2 · 1 = 192
Intercaladas con las capas de convolucion transpuesta, se colocaron capas ReLU, al pasar la
imagen de 48x48px a traves de la red de UpSampling, esta vuelve a recuperar su dimension
original de 192x192px. La red de UpSampling se configuro como se muestra en la tabla 4-2
Capas Finales
Las capas finales son las responsables de hacer la clasificacion de pıxeles. Estas capas procesan
una entrada que tiene las mismas dimensiones espaciales (altura y ancho) que la imagen de
entrada. Sin embargo, el numero de canales es mas grande que el numero de clases a clasificar
y es igual al numero de filtros de la capa de convolucion transpueta. Esta tercera dimension
necesita ser reducida al numero de clases que deseamos segmentar, en este caso solo 2, como
el tamano de la tercera dimension equivale al numero de filtros una capa de convolucion, se
coloco una capa de convolucion 1x1 en la cual el numero de filtros es igual a 2.
La capa de convolucion usada para reducir el numero de canales se configuro con un filtro
de tamano 1, un Stride de 1 y un Zero Padding de 0, esta combinacion de parametros da
una salida de dimencion [192x192x3].
Outputsize =192− 1 + 2 · 0
1+ 1 = 192
34 4 Metodologıa
Tabla 4-3: El sistema esta compuesto por 14 capas.
Seccion Capa Obsevacion
Entrada Input Recibe una imagen de 192x192x3
DownSampling Convolucion Mantiene la resolucion en 192
DownSampling ReLU No aplica complejidad a la red y
elimina las componentes negati-
vas
DownSampling Pooling Reduce la resolucion de 192 a 96
DownSampling Convolucion Mantiene la resolucion en 96
DownSampling ReLU No aplica complejidad a la red y
elimina las componentes negati-
vas.
DownSampling Pooling Reduce la resolucion de 96 a 48
UpSampling Convolucion transpuesta Aumenta la resolucion de 48 a 96
UpSampling ReLU No aplica complejidad a la red y
elimina las componentes negati-
vas.
UpSampling Convolucion transpuesta Aumenta la resulucion de 96 a 192
UpSampling ReLU No aplica complejidad a la red y
elimina las componentes negati-
vas.
Capas Finales Convolucion 1x1 Iguala la tercera dimension de la
imagen al numero de clases
Capas Finales Softmax Asigna al pıxel una probabilidad
de pertenecer a una clase
Capas Finales Clasificacion de pıxel Asigna una categorıa al pıxel
Seguida a esta capa de convolucion esta la capa de Softmax y la capa de clasificacion de
pıxeles. Estas dos capas combinadas permiten predecir a que clase pertenece cada uno de
los pıxeles de la imagen.
La capa Softmax convierte los valores sin procesar para las n clases en probabilidades nor-
malizadas, es decir le asigna a los pıxeles una probabilidad de pertenecer a una clase u otra.
La capa de clasificacion final se encarga de interpretar estas probabilidades y asignar una
categorıa a cada pıxel de la imagen.
Finalmente se obtienen 14 capas para la red de segmentacion semantica (tabla 4-3), el
sistema recibe una imagen RGB de [192x192] y como salida se obtiene una imagen de iguales
dimensiones donde el valor de cada pıxel describe a que clase pertenece, en este caso ’Lesion’
y ’BackGround’.
4.1 Segmentacion 35
Tabla 4-4: Parametros usados para establecer las opciones de entrenamiento
Solver SGDM
Momentum 0.9
Tasa de aprendizaje inicial 10e-3
Factor de caıda 0.7
Periodo de caıda 5
MiniBatchSize 32
Data Augmentation Reflexion en x
Reflexion en y
Entrenamiento de la red
El ISIC, International Skin Imaging Colaboration, puso a disposicion del publico una base
de datos de imagenes dermatoscopicas con mas de 2.000 imagenes provenientes de recono-
cidos centros clınicos[21, 28]. Para entrenar la red se usaron 2.594 imagenes adquiridas con
diferentes tipos de dermatoscopıa, las cuales fueron revisadas y aprobadas por dermatologos
expertos.
Se uso el Gradiente Estocastico Descendiente con Momento, SGDM por sus siglas en ingles,
este metodo ayuda a direccionar al gradiente en la direccion correcta y encontrar la solucion
mas rapidamente y es uno de los algoritmos de optimizacion mas populares. El momento
ayuda al algoritmo a a acelerar las gradientes en direccion correcta evitando mınimos locales
que no permitan llegar a la solucion mas optima. [30]
Para el entrenamiento se uso el algorito SGDM con un Momentum de 0.9, la tasa inicial
de aprendizaje se fijo en 0.01, una taza grande que permitio acelerar la busqueda de la
solucion en las primeras etapas del entrenamiento, la taza de aprendizaje se veıa disminuıda
en un 30 % cada 5 epocas con el fin de aumentar la estabilidad al algoritmo. Se establecio
un MiniBatchSize de 32, este parametro establece cuantas imagenes son cargadas al mismo
tiempo, entre mas grande sea su valor, menos tiempo toma el entrenamiento pero se requiere
de mas memoria.
Ademas se usaron tecnicas de Data Augmentation para aplicar cambios sobre las imagenes
ya existentes (Reflexion sobre el eje x e y) y generar nuevas imagenes para la fase de entre-
namiento. Los sistemas entrenados con Deep Learning no sufren de Overfitting, al contrario,
entre mas imagenes de muestra se tengan para el entrenamiento, mejores seran los resultados
del clasificador final.
Como el numero de pıxeles correspondientes a la clase ’Lesion’ es diferente al numero de
pıxeles de la clase ’BackGround’, el sistema se encuentra desbalanceado y el el clasificador
tendera a clasificar los pıxeles en favor de la clase dominante. Para mejorar los resultados se
cambiaron los pesos de las clases y ası balancear el sistema.
En las imagenes, la cantidad de pıxeles correspondientes a las diferentes clases, se ve re-
36 4 Metodologıa
lacionada en la tabla 4-5, donde se puede ver que de los 1,7499 · 1010 pıxeles totales, solo
3,927 · 109 pertenecen a la clase ’Lesion’; es decir, solo un 22.44 % de los pıxeles totales co-
rresponden a la lesion pigmentada, dejando un sistema desbalanceado que necesita ajustes
adicionales para aprender a clasificar correctamente las dos clases. De lo contrario, el sistema
solo .aprenderıa.a clasificar los pıxeles correspondientes al fondo.
Tabla 4-5: Recuento de pıxeles para la segmentacion semantica
Relacion de pıxeles correspondientes a las lesiones pigmentadas de la piel o psl, y pıxeles
correspondientes al fondo de la imagen.Label PixelCount ImagePixelCount
backGround 1.3572e10 1.7499e10
Lesion 3.927e9 1.7499e10
Se uso el metodo de la ponderacion de frecuencia inversa (inverse frequency weighting),
donde las pesos de las clases se cambian por la inversa de las frecuencias incrementando los
pesos de las clases menos representadas en la imagen. La frecuencia de una clase se define
como la razon de los pıxeles correspondientes a la clase y los el numero total de pıxeles. La
frecuencia de ambas clases se calculo usando la ecuacion.4-12
FrecuencyClass =NPixelesClase
Pixelestotal(4-12)
Con lo anterior, la frecuencia de la clase ’BackGround’ es de 0.7756 y la frecuencia de la
clase ’Lesion’ es de 0.2244. Se calculo el peso que se le debe asignar a cada clase por medio
del calculo de la frecuencia inversa, para la clase ’BackGround’ se definio un peso de 1.2893
y para la clase ’Lesion’ se definio un peso de 4.4562.
4.2. Extraccion de caracterısticas
Para clasificar una imagen es necesario obtener una representacion matematica, que nos
brinde informacion asociada a las lesiones pigmentadas de la piel a partir de su forma,
textura o color. La representacion matematica de un conjunto de imagenes permitira al
algoritmo de clasificacion encontrar la frontera mas adecuada para separar las clases.
Para extraer los puntos de interes de las imagenes dermatoscopicas se uso la tecnica de
Bag of Words, esta permite obtener una representacion robusta e invariante ante traslacion,
rotacion y escalado, es decir, no importa si el objeto cambia de posicion, rota una determinada
cantidad de grados o si cambia su tamano, esta tecnica sera capaz de detectarlo.
Se creo un vocabulario de palabras visuales extrayendo los descriptores de caracterısticas
de las imagenes mas representativas de cada categorıa. Para extraer las caracterısticas se
uso un descriptor de forma tipo SURF, concatenado con el descriptor de color en diferentes
4.2 Extraccion de caracterısticas 37
espacios de color, para la imagenes dermatoscopicas es de gran importancia el color ya que
algunas lesiones presentan estructuras caracterısticas como velo azul-blanquecino.
La extraccion de caracterısticas se realizo sobre 1050 imagenes correspondientes al 70 % del
conjunto total, cada imagen fue convertida a diferentes espacios de color (L*a*b, NTSC,
Opponent Spece, XYZ, YCBCR, HSV), los cuales generaban tres nuevos canales para inter-
pretar la imagen a traves de un modelo matematico diferente. Un cambio en el espacio de
color puede brindar un punto de vista diferente y dar al modelo nuevos puntos de interes.
Figura 4-6: Transformacion de una imagen RGB a L*a*b
Para la extraccion de caracterısticas se transformaron las imagenes dermatoscopicas a dife-
rentes espacios de Color y se aplico el descriptor de forma tipo SURF para hallar y describir
los puntos de interes sobre cada uno de los 3 canales en las diferentes representaciones de
color. Cada punto de interes es descrito a traves de SURF como un vector de 64 posiciones,
el cual es concatenado con el vector de 3 posiciones que describe el color en ese punto de
interes; la combinacion de la informacion de forma y color permitira incrementar la capa-
38 4 Metodologıa
cidad representativa del descriptor, ademas de mejorar el desempeno del clasificador. Las
caracterısticas obtenidas de cada imagen de entrenamiento y sus descripciones se guardaron
en vectores, para luego ser agrupadas en 250 conjuntos utilizando el algoritmo de aprendizaje
no supervisado knn (Kluster by Nearest neighbor). Cada conjunto representa una palabra
visual y la frecuencia de aparicion de estas palabras en la imagen permitira construir un
vocabulario visual que servira para representarla.
El vocabulario visual o bag of words (figura 4-7) esta basado en las caracterısticas locales
de la imagen y corresponde a una representacion compacta y eficiente en forma de vector
numerico.[29]
Figura 4-7: Histograma Bag of Words
Para agrupar las caracterısticas similares se uso k-means(Figura 4-8), esta tecnica permite
encontrar grupos de caracterısticas similares a partir de las imagenes mas representativas de
cada clase.
Figura 4-8: Agrupacion de caracterısticas por vecino cercano, k-means
Para el agrupamiento por k-means se elige aleatoriamente un representante de cada grupo,
4.3 Clasificacion 39
el algoritmo es iterativo y su objetivo es encontrar la agrupacion que minimice la distancia
de las muestras al representante de cada cluster. El resultado depende de la inicializacion y
a veces es necesario repetir el proceso con diferentes inicializaciones.
Con la tecnica de k-means se utilizo el aprendizaje no supervisado para determinar las
palabras que describen las imagenes, cada caracterıstica local se asigna a la palabra visual
mas cercana, la que tenga la menor distancia al punto de referencia. La representacion
final corresponde a un histograma de ”palabras”donde cada componente indica cuantas
caracterısticas quedaron asociadas a una ”palabra”.
4.3. Clasificacion
El metodo de maquinas de vectores de soporte, en ingles Support Vector Machines, es el tipo
de clasificador que se usa normalmente en los sistemas de clasificacion en bag of words, en
su formulacion corresponde a un clasificador binario y lineal. (Figura .4-9)
Figura 4-9: Hiperplano solucion para SVM, el objetivo es maximizar el margen entre el
hiperplano y los vectores de soporte
Para este problema se necesita un clasificador multiclase y las clases no se pueden separar
de forma perfecta con una frontera lineal, por esto se uso una modificacion de la formulacion
basica de support vector machines.
En el entrenamiento se tomaron 1050 imagenes, 350 para cada clase, de tal manera que el
numero de imagenes fuera igual para cada clase y el clasificador este balanceado; con esto se
asegura que el clasificador aprenda a clasificar de igual manera todas las clases. El histograma
de caracterısticas hallado con bag of words constituye la base para entrenar al clasificador,
la solucion de este es un hiperplano que divide el espacio en dos regiones y cuyo objetivo es
hallar el margen maximo a partir de los vectores de soporte, un pequeno subconjunto de las
observaciones de entrenamiento que se utilizan como soporte para la ubicacion optima de la
superficie decision.
40 4 Metodologıa
Debido a que las clases no son linealmente separables, se uso la funcion gaussiana como
kernel no lineal; esto aumenta el costo computacional a la hora de entrenar el sistema, pero
mejora considerablemente los resultados.
La exactitud o accuracy, en ingles, fue tomada como medida de desempeno para comparar la
eficiencia de los clasificadores. La exactitud es un valor que permite cuantificar la proximidad
entre el resultado del clasificador y la clasificacion exacta, este se calcula a partir de la matriz
de confusion, sumando los valores de la diagonal y dividiendo este valor entre el total de
muestras.
Finalmente, para probar el clasificador, se uso el conjunto de evaluacion, el cual corresponde
al 30 % de las imagenes, el objetivo de este conjunto es evaluar la respuesta del clasificador a
imagenes desconocidas. Los resultados se pueden visualizar y cuantificar a traves de la matriz
de confusion y la curva ROC. El primero permite ver como se desempena el clasificador en
cada clase, El segundo, Reciever Operating Characteristic por sus siglas en ingles, muestra
la proporcion de falsos y verdaderos positivos para cada clase.
5 Resultados
5.1. Segmentacion
Para ambos metodos de segmentacion se utilizo un proceso de post-procesamiento de la ima-
gen, aplicando operaciones morfologicas para eliminar elementos indeseados como los vellos.
Ademas, teniendo en cuenta que la mayorıa de las lesiones de una u otra forma tienden a
tener una forma circular, se utilizo un detector de cırculos con parametros establecidos por
prueba y error, que se encarga de detectar en la mayorıa de los casos donde se encuentra
la lesion pigmentada de la piel y permite reconstruir la imagen segmentada a partir de los
cırculos detectados, esto con el fin de descartar elementos con formas diferentes al cırculo,
como los vellos, que poseen estructuras elongadas.
Operaciones morfologicas
Para pulir los resultados de la segmentacion, se aplicaron operaciones morfologicas de aper-
tura, cierre y llenado de huecos, para las dos primeras operaciones se utilizo un elemento
estrutural con forma de disco plano de radio 4 pıxeles en la apertura y con radio de 6 pıxeles.
Con la operacion de apertura se pretende unir las areas de una misma lesion que quedaron
separadas en el proceso de segmentacion, como el elemento estrutural es un cırculo y este
no puede estar contenido en regiones con forma elongada como los vellos, estas no se ven
afectadas por la operacion morfologica de apertura.
En la operacion de Cierre, se descartaron aquellas regiones que no puenden contener el ele-
mento estructural y por ultimo, se utilizo el detector de cırculos y la mascara binaria solo
podıa tener en cuenta aquellas regiones que coincidieran con la localizacion del cırculo.
En la figura 5-1 se pueden observar los cambios que atraviesa una imagen binaria cuando se
implementan las operaciones morfologicas.
42 5 Resultados
Imagen dermatoscopica a segmentar, los ve-
llos son se deben descartarSegmentacion usando Otsu
Apertura con disco plano de radio 4 px Cierre con disco plano de radio 6 px
Imagen binaria reconstruida a partir del circulo detectado
Figura 5-1: Aplicacion de las operaciones morfologicas de apertura y cierre sobre una ima-
gen binaria para pulir el resultado de la segmentacion
5.1 Segmentacion 43
5.1.1. Metodo de Otsu
Para el metodo de otsu se calculo el umbral optimo para la matriz de intensidades obtenida
a partir del espacio de color RGB por medio de aproximaciones estadısticas, una vez deter-
minado el umbral, se binarizo la imagen fijando en ’1’ los pıxeles cuyo valor de luminancia
era menor al del umbral y en ’0’ aquellos en los que la luminancia era mayor al del um-
bral. Los pıxeles con valor ’1’ corresponderan a la clase ’Lesion’ y se visualizaran de color
blanco, mientras que los pıxeles con valor ’0’ corresponderan a la clase ’BackGround’ y se
visualizaran en negro.
En la Tabla 5-1, pagina 44, se muestra el umbral optimo calculado para cuatro imagenes
dermatoscopicas, junto con la Desviacion Maxima, el Momento Acumulado y la In-
tensidad Media de cada una de sus clases.
5.1.2. Segmentacion semantica
Para obtener la red de segmentacion semantica se entrenaron y evaluaron diferentes configu-
raciones de sistemas de Deep Learning aplicados en la segmentacion, a traves de maquinas
virtuales disponibles a las pruebas gratuitas ofrecidas por Google y Microsoft. Ambas maqui-
nas virtuales se ejecutaban bajo el sistema operativo Windows Server 2012, la maquina de
Google contaba con un procesador de 8 nucleos, tenıa una capacidad de 100GB en almace-
namiento y un total de 16GB de memoria RAM disponible; la maquina virtual de Microsoft
azure contaba con un procesador de Cuatro nucleos, fue configurada con 50GB de disco duro
y con disponibilidad de 8GB de memoria Ram.
Para evaluar el progreso del entrenamiento, se tuvieron en cuenta las siguientes metricas:
Precision de entrenamiento- Precision de la clasificacion sobre cada mini-batch, el
numero de imagenes que se evalua al mismo tiempo, en este caso 32.
Precision de validacion- Precision de la clasificacion sobre todo el conjunto de valida-
cion.
Perdida de entrenamiento y validacion- mide la distancia entre el valor calculado por
la capa softmax y el valor del label.
En la figura 5-2 se observa el progreso del entrenamiento para el primer experimento, en
este, los datos que se usaron para entrenar el sistema se encontraban desbalanceados con
solo un 22.4 % de los pıxeles totales correspondientes a la clase ’Lesion’. La precision alcanzo
un valor de 80 % en la primera epoca y se mantuvo oscilando al rededor de esa solucion. Sin
embargo, la perdida solo bajo al 45 % indicando que los valores de probabilidad dados por la
capa softmax no eran lo suficientemente discriminativos, es decir, la probabilidad de que un
44 5 Resultados
Tabla 5-1: Calculo del umbral optimo utilizando el metodo de Otsu
Imagen Momento Intensidad Umbral optimo
Desviacion Maxima Acumulado Media (Histograma)
ω1 = 0,4005 µ1 = 69,8436
ω2 = 0,5995 µ2 = 196,8953
σ2 = 3875,7 Umbral=133
ω1 = 0,0672 µ1 = 58,2453
ω2 = 0,9328 µ2 = 1713822
σ2 = 802,0114 Umbral=114
ω1 = 0,4125 µ1 = 105,4571
ω2 = 0,5875 µ2 = 174,0561
σ2 = 1140,4 Umbral=139
ω1 = 0,3065 µ1 = 98,8882
ω2 = 0,6935 µ2 = 215,5449
σ2 = 2892,7 Umbral=157
5.1 Segmentacion 45
pıxel correspondiera a una u otra clase, era muy parecida para ambas clases y la clasificacion
del pıxel como ’Lesion’ o ’BackGround’ era incierta.
Figura 5-2: Resultado del entrenamiento para la segmentacion semantica para un sistema
desbalanceado, el numero de pıxeles correspondientes al ’backGround’ cuadri-
plica a los pıxeles correspondientes a la clase ’Lesion’
46 5 Resultados
En la figura 5-3 se puede observar la segmentacion de una imagen dermatoscopica usando
la red obtenida despues de entrenar un sistema desbalanceado.
Figura 5-3: Segmentacion de lesion pigmentada a partir de sistema desbalanceado
Para mejorar el desempeno del sistema, se cambiaron los pesos de las clases a clasificar
usando el metodo de la frecuencia inversa, de esta manera el peso de la clase ’Lesion’ fue
establecido con un valor de 0.7756 y el de la clase ’backGround’ con un valor de 0.2244.
El entrenamiento de la nueva red semantica tomo 189.82 horas, un total de 7 dıas y 21
horas, alcanzando una precision del 90 %. En la figura 5-4 se puede apreciar el progreso del
entrenamiento, tanto el aumento de la precision, como la disminucion del error despues de
cada iteracion.
Figura 5-4: Resultado del entrenamiento para la segmentacion semantica
5.1 Segmentacion 47
Se eligio una tasa de aprendizaje de 0.01 al inicio del problema para optimizar el entrena-
miento en las primeras fases, luego esta tasa se fue reduciendo para estabilizar el sistema y
llegar a la solucion. En la tabla 5-2 se puede ver con mas detalle el progreso del entrenador,
la precision varıa desde un 24.37 %, hasta 89.95 %; y la perdida del clasificador baja de 0.679
hasta 0.2587.
Tabla 5-2: Resultado del entrenamiento para la segmentacion semantica
En la figura 5-5 se puede observar la mejora de la segmetacion con respecto a la figura 5-3,
con el ajuste de pesos, el clasificador fue capaz de clasificar correctamente la mayorıa de las
muestras de la clase ’Lesion’.
48 5 Resultados
Figura 5-5: Resultado del entrenamiento para la segmentacion semantica
5.1.3. Comparacion
En las figuras 5-6, 5-7, 5-8 , se puede observar el resultado de la segmentacion sobre 2
imagenes aleatorias de cada clase. El tiempo que toma la segmentacion semantica es de en
promedio 106.8 segundos, mientras que la segmentacion usando el umbral de Otsu tarda 6.14
segundos.
Segmentacion semantica Otsu
Segmentacion semantica Otsu
(a) Carcinoma
Figura 5-6: Segmentacion usando redes neuronales convolucionales y el metodo de otsu
5.1 Segmentacion 49
Segmentacion semantica Otsu
Segmentacion semantica Otsu
(a) Melanoma
Figura 5-7: Segmentacion usando redes neuronales convolucionales y el metodo de otsu
Segmentacion semantica Otsu
Segmentacion semantica Otsu
(a) Nevus
Figura 5-8: Segmentacion usando redes neuronales convolucionales y el metodo de otsu
Aunque los resultados de ambos metodos son similares, el resultado de la segmentacion
semantica permite apreciar un poco mas el detalle de la lesion; para este proyecto se uso la
50 5 Resultados
segmentacion por el metodo de Otsu para obtener una rapida segmentacion de la base de
datos que servirıa como conjunto de entrenamiento para el clasificador, sin embargo, para
las evaluaciones individuales del clasificador se usara la segmentacion semantica ya que el
resultado
5.2. Extraccion de caracterısticas
Para la extraccion de caracterısticas se transformaron las imagenes dermatoscopicas a dife-
rentes espacios de Color y se aplico el descriptor de forma tipo SURF para hallar y describir
los puntos de interes sobre cada uno de los 3 canales en las diferentes representaciones de
color. Cada punto de interes es descrito a traves de SURF como un vector de 64 posiciones,
el cual es concatenado con el vector de 3 posiciones que describe el color en ese punto de
interes; la combinacion de la informacion de forma y color permitira incrementar la capa-
cidad representativa del descriptor, ademas de mejorar el desempeno del clasificador. Las
caracterısticas obtenidas de cada imagen de entrenamiento y sus descripciones se guardaron
en vectores, para luego ser agrupadas en 250 conjuntos utilizando el algoritmo de aprendizaje
no supervisado knn (Kluster by Nearest neighbor). Cada conjunto representa una palabra
visual y la frecuencia de aparicion de estas palabras en la imagen permitira construir un
vocabulario visual que servira para representarla.
A continuacion se muestran los histogramas de caracterısticas para una imagen elegida arbi-
trariamente de cada clase. El histograma tiene un total de 250 caracterısticas y la frecuencia
en estas ayudara al clasificador a encontrar una barrera optima entre clases. (figuras 5-9,5-
10,5-11)
Usando la frecuencia de cada palabra en el histograma de caracterısticas, el clasificador
Figura 5-9: Histograma de caracterısticas para el carcinoma
sera capaz de agrupar y elegir la clase mas apropiada para una imagen.
5.3 Clasificacion 51
Figura 5-10: Histograma de caracterısticas para el Melanoma
Figura 5-11: Histograma de caracterısticas para el nevus melanocıtico
Se uso el bag of words sobre imagenes segmentadas, para eliminar la influencia de elementos
no deseados como vellos, que pudieran interferir en el entrenamiento del clasificador.
5.3. Clasificacion
Se realizaron varias pruebas con diferentes clasificadores, entre ellos arboles de decisiones,
k-means y SVM; a partir de la precision se determino que el mejor clasificador para este
problema fue el SVM.
El entrenamiento del SVM tomo 48.633 segundos y se obtuvo una precision de 78 %, en la
matriz de confusion (figura 5-13, pagina 55) se puede observar el desempeno del clasificador
para cada clase.
52 5 Resultados
Para las pruebas se utilizo la representacion en Bag of Words de imagenes segmentadas
transformadas a diferentes espacios de color para extraer las caracterısticas, en la tabla 5-
3se puede ver la precision obtenida para cada espacio de color.
Tabla 5-3: Resultados del clasificador SVM para diferentes espacios de color
Espacio de Color Precision SVM
CIELAB 65 %
NTSC 68 %
Opponent Space 70 %
XYZ 70 %
YCBCR 55 %
HSV 78 %
En la tabla 5-3 se observa que el espacio de color que brinda mas informacion y permite
encontrar una representacion en bag of words mas significativa es el HSV, seguido del Op-
ponent Space y el XYZ. A partir de los resultados mostrados en la tabla 5-3, es posible
observar que las caracterısticas obtenidas a partir de los espacios HSV y RGB son mas re-
presentativas que las de otros espacios de color. La extraccion de caracterısticas se realizo
a partir de la aplicacion del operador SURF sobre los diferentes canales de la imagen en
los distintos canales de color, en las imagenes dermatoscopicas, el color brinda informacion
importante y no es suficiente la informacion de luminancia.
Al mismo tiempo es importante la informacion de la forma y la descripcion de los puntos de
interes, al realizar la representacion en bag of words sobre los histogramas de cada imagen,
la informacion de la forma se perdıa y la exactitud del clasificador no superaba el umbral
del 50 %, dejando como resultado mas de la mitad de las muestras de prueba clasificadas de
manera erronea.
En las figuras 5-13 a 5-19 se muestran las matrices de confusion para cada espacio de color,
5.3 Clasificacion 53
el sistema fue probado con un total de 300 imagenes, 100 en cada clase y en la diagonal
se puede observar el numero de aciertos para cada clase. Teniendo en cuenta el sistema
con mejor desempeno, se realizaron pruebas individuales en 10 imagenes para visualizar
los resultados del entrenamiento, en la figura 5-12 se muestran los resultados obtenidos
para cada prueba, de las 10 pruebas realizadas, 9 acertaron en la clasificacion y 1 fallo, la
evaluacion del clasificador en el total de la base de test se puede observar a traves de la
matriz de confusion.
54 5 Resultados
Figura 5-12: Visualizacion de los resultados para el sistema con mejor desempeno, se to-
maron 10 imagenes al azar y se clasificaron para verificar el funcionamiento
del clasificador, de las 10 imagenes, una fue clasificada erroneamente
5.3 Clasificacion 55
Figura 5-13: Matriz de confusion para espacio de color HSV, con una precision de 78.3 %
Figura 5-14: Matriz de confusion para espacio de color L*a*b, con una precision de 65 %
56 5 Resultados
Figura 5-15: Matriz de confusion para espacio de color NTSC, con una precision de 68 %
Figura 5-16: Matriz de confusion para espacio de color XYZ, con una precision de 70 %
5.3 Clasificacion 57
Figura 5-17: Matriz de confusion para espacio de color YCBCR, con una precision de 55 %
Figura 5-18: Matriz de confusion para espacio de color RGB, con una precision del 73 %
58 5 Resultados
Figura 5-19: Matriz de confusion para espacio de color Opponent Space, con una precision
de 70 %
6 Conclusiones y recomendaciones
6.1. Conclusiones
En este trabajo se presento un modelo basado en la segmentacion semantica capaz
de alcanzar la precision de un dermatologo experto en un 92.96 % pero que tarda
en promedio 416.5 segundos en ejecutarse, en comparacion, se presento un modelo
basado en la segmentacion por umbral optimo capaz de alcanzar una precision del
90.63 % de un dermatologo experto y cuyo tiempo de ejecucion se reduce a 28.98
segundos. Ademas, se comprobo que tener en cuenta la morfologıa casi circular de
las lesiones pigmentadas, mejora considerablemente la segmentacion, lo cual, junto con
otras operaciones morfologicas elimina elementos que no aportan informacion relevante
para la clasificacion. Las pruebas se realizaron sobre una computadora con sistema
operativo Windows 10, 16Gb de memoria RAM y 2Tb de disco duro.
El modelo Bag Of Words permite cuantificar cada punto de interes en una palabra
visual y luego representar cada imagen a traves de un histograma de palabras visuales.
En este trabajo los puntos de interes contenıan informacion tanto de color como de
forma, caracterısticas representativas para la clasificacion de lesiones pigmentadas en
la piel. Los resultados mostraron que el espacio de color mas representativo para este
tipo de imagenes es el HSV, con el cual se obtuvo un clasificador con una precision del
78.3 %.
Para clasificar los histogramas de palabras visuales, obtenidos a partir de las imagenes
segmentadas, se entreno un sistema basado en Support Vector Machine (SVM). Los
mejores resultados se obtuvieron utilizando un kernel Gaussiano y un factor de regu-
lacion bajo que permitiera aumentar la tolerancia a errores; se alcanzo una precision
maxima del 78.3 % y aunque este porcentaje no es suficiente para una aplicacion medi-
ca, es un buen resultado como primer paso en la deteccion y clasificacion automatica
de cancer en la piel.
6.2. Recomendaciones
Concluido este proyecto, se considera que los siguientes aspectos se pueden trabajar para
mejorar el desempeno del clasificador:
60 6 Conclusiones y recomendaciones
Evaluar las diferentes tecnicas de segmentacion en otros espacios de color para obte-
ner resultados diferentes y que permitan aislar de manera rapida y efectiva la lesion
pigmentada de la piel.
Extender los estudios sobre extraccion de caracterısticas en imagenes dematoscopicas,
con el fin identificar que descriptores representan mejor las imagenes y la diferencia
entre clases.
Entrenar e implementar un sistema basado en Deep Learning que sea capaz de aprender
las caracterısticas de la imagen dermatoscopica y clasificarla de manera eficaz.
Estudiar y aplicar las estrategias de fusion dentro del esquema de BagOfWords para
mejorar el rendimiento del algoritmo y potenciar la capacidad de representacion y
discriminacion de los descriptores de la imagen.
Bibliografıa
[1] Clasificacion. Universidad de Murcia. – Informe de Investigacion. – 18 p.
[2] Procesamiento morfologico. Universidad Politectica de Madrid, Kapitel 6
[3] dermoscopedia – Allan Halpern: Computer Assisted Diagnosis — dermoscopedia.
2018. – Online; accessed 9-May-2018
[4] ABC Medicus. 250 personas mueren al ano por cancer de piel en Colombia. 2013
[5] Arroyave-Giraldo, Maribel ; Restrepo-Martınez, Alejandro ; Vargas-
Bonilla, Francisco. Incidencia de la Segmentacion en la Obtencion de Region de
Interes en Imagenes de Palma de la Mano. 2011
[6] Codella, Noel C F. ; Gutman, David ; Celebi, M E. ; Helba, Brian ; Marchetti,
Michael A. ; Dusza, Stephen W. ; Kalloo, Aadi ; Liopyris, Konstantinos ; Jan,
C V. ; Watson, I B M T J. ; Heights, Yorktown: No Title. (2017), p. 1–5
[7] Corralo, David S. Dermatoscopia digital. 2015
[8] community of dermatologists, International. ISIC Project. 2018
[9] Fernandez, Pita ; Dıaz, Pertegas ; Unidad de Epidemiologıa Clınica y Bioes-
tadıstica. ; Complexo Hospitalario Universitario de A Coruna. (Espana):
Pruebas diagnosticas: Sensibilidad y especifidad. Espana, 2010, p. 120–124
[10] Gao, Huilin ; Dou, Lihua ; Chen, Wenjie ; Sun, Jian: Image classification with
Bag-of-Words model based on improved SIFT algorithm. En: 2013 9th Asian Control
Conference, ASCC 2013 (2013), Nr. 60925011, p. 2–7. ISBN 9781467357692
[11] Gil, Pablo ; Torres, Fernando ; Ortiz Zamora, Francisco G. Deteccion de objetos
por segmentacion multinivel combinada de espacios de color. 2004
[12] Gonzalez, Rc (University of T. ; Woods, Re (MedData I.: Digital image processing.
third Edit. Pearson Prentice Hall, 2002. – 190 p.. – ISBN 0201180758
[13] INC: Analisis de la Situacion del Cancer en Colombia 2015. 2017. – 336 p.. – ISBN
2539–4517
62 Bibliografıa
[14] Instituto Mexicano del Seguro Social: Abordaje Diagnostico de Melanoma
Maligno. Mexico, 2010
[15] International Skin Imaging Collaboration. ISIC 2018: Skin Lesion Analysis
Towards Melanoma Detection. 2018
[16] International Telecommunication Union: Studio encoding parameters of digital
television for standard 4:3 and wide-screen 16:9 aspect ratios (ITU-R BT.601-7). En:
Recommendation ITU-R BT.601-7 7 (2011), p. 19
[17] Jimenez Rodrıguez, Ma Jose. Apuntes de catedra: Procesamiento de Imagenes Digi-
tales. 2017
[18] K, Alexander Mordvintsev & A. Open Source Computer Vision. 2013
[19] MathWorks: Introducing Deep Learning with MATLAB. 2018. – 15 p.
[20] Ministerio de Salud y Proteccion Social, ESE, Instituto Nacional de C. Ma-
nual para la deteccion temprana del cancer de piel y recomendaciones para la disminu-
cion de exposicion a radiacion ultravioleta
[21] Noel C. F. Codella, David Gutman, M. Emre Celebi, Brian Helba, Mi-
chael A. Marchetti, Stephen W. Dusza, Aadi Kalloo, Konstantinos
Liopyris, Nabin Mishra, Harald Kittler, Allan H. Skin Lesion Analysis Toward
Melanoma Detection: A Challenge at the 2017 International Symposium on Biomedical
Imaging (ISBI), Hosted by the International Skin Imaging Collaboration (ISIC). 2017
[22] Pardo, Constanza ; Cendales, Ricardo: Incidencia, mortalidad y prevalencia de
Cancer en Colombia 2007-2011. Vol. 1. 2015. – 148 p.. – ISBN 9789585883253
[23] Ralph Braun ; Kerl, Katrin. Histopathologic correlation of dermoscopic structures.
2018
[24] Segmentacion, Practicas De: Practicas de Robotica y Vision Artificial. Universidad
de Murcia, Kapitel 9
[25] Smith, S.: Digital Signal Processing: A Practical Guide for Engineers and Scien-
tists. Elsevier Science, 2013 (Demystifying technology series). – 373–390 p.. – ISBN
9780080477329
[26] Soille, P.: Morphological Image Analysis: Principles and Applications. Springer Berlin
Heidelberg, 2013. – ISBN 9783662050880
[27] Trabocchi, Osvaldo ; Sanfilippo, Fabian. Segmentacion por Umbralizacion – Metodo
de Otsu. 2005
Bibliografıa 63
[28] Tschandl, Philipp ; Rosendahl, Cliff ; Kittler, Harald: The HAM10000 dataset, a
large collection of multi-source dermatoscopic images of common pigmented skin lesions.
En: Scientific Data 5 (2018), aug, p. 180161. – ISSN 2052–4463
[29] Venegas-Barrera, Crystian S. ; Manjarrez, Javier: Visual Categorization with
Bags of Keypoints. En: Revista Mexicana de Biodiversidad 82 (2011), Nr. 1, p. 179–
191. – ISBN 9780335226375
[30] Vitaly Bushaev. Stochastic Gradient Descent with momentum. 2017
[31] Zaballos Diego, Pedro ; Carrera, Cristina ; Puig, Susana ; Malvehy, Josep:
Criterios dermatoscopicos para el diagnostico del melanoma. En: Medicina Cutanea
Ibero-Latino-Americana 32 (2004), Nr. 1, p. 3–17. – ISSN 02105187