curso doctorado version buena - uniovi.esisa.uniovi.es/doctorado/control_avanzado/5-curso... ·...

1

Índice ÍNDICE...................................................................................................................1

1 INTRODUCCIÓN .......................................................................................3

1.1 INTRODUCCIÓN A LAS REDES NEURONALES...............................................5

2 METODOLOGÍA DE LA MINERÍA DE DATOS................. ..................7

2.1 DOMINIO DE CONOCIMIENTO......................................................................7 2.2 COMPRENSIÓN DE LOS DATOS....................................................................8 2.3 PREPARACIÓN DE LOS DATOS...................................................................10

2.3.1 Eliminación de datos erróneos ......................................................11 2.3.2 Variables nuevas............................................................................11 2.3.3 Transformaciones ..........................................................................12 2.3.4 Formato definitivo .........................................................................13

2.4 MODELADO..............................................................................................14 2.4.1 Herramientas de modelado............................................................14 2.4.2 Validación del modelo ...................................................................14

2.5 EVALUACIÓN ...........................................................................................14 2.6 DESARROLLO...........................................................................................15

3 ALGORITMOS DE CLUSTERING........................................................16

3.1 CLASIFICACIÓN DE OBJETOS....................................................................16 3.1.1 Introducción...................................................................................16 3.1.2 Clasificación de objetos.................................................................16 3.1.3 Metodología general......................................................................17 3.1.4 Representación vectorial ...............................................................18 3.1.5 Tipos de variables..........................................................................18

3.1.5.1 Tipos de variables según el dominio de valores .................................. 18 3.1.5.2 Tipos de variables según la escala de medida...................................... 18

3.1.6 Definición del “centroide” de un grupo........................................19 3.1.7 Medidas de semejanza o índices de proximidad............................19

3.1.7.1 Medidas de semejanza de variables de intervalo o cuantitativas ......... 20 3.1.7.2 Medidas de semejanza de variables categóricas .................................. 20

3.1.7.2.1 Medidas de semejanza de variables binarias ............................... 20 3.1.7.2.2 Medidas de semejanza de variables categóricas no binarias........ 22 3.1.7.2.3 Medidas de semejanza de variables ordinales ............................. 24

3.1.8 Características de agrupamiento óptimo.......................................25 3.1.9 Métodos para categorizar muestras ..............................................26 3.1.10 Métodos Jerárquicos .....................................................................28

3.1.10.1 Enlace simple (“single link”)............................................................. 30 3.1.10.2 Enlace completo (“complete link”) ................................................... 31 3.1.10.3 Enlace promedio (“average link”) ..................................................... 31 3.1.10.4 Descripción del algoritmo jerárquico ................................................ 32 3.1.10.5 Método de Ward................................................................................ 35 3.1.10.6 Resumen de características................................................................ 36

3.1.11 Métodos particionales ...................................................................36 3.1.11.1 Selección inicial de los representantes............................................... 37 3.1.11.2 Criterios de optimización .................................................................. 38

3.1.11.2.1 Criterios internos....................................................................... 38 3.1.11.2.2 Criterios externos ...................................................................... 39 3.1.11.2.3 Evaluación de los criterios ........................................................ 40

3.1.11.3 Algoritmos de optimización .............................................................. 40 3.1.11.3.1 Algoritmo “K-means” ............................................................... 40 3.1.11.3.2 Otros algoritmos particionales................................................... 44

3.1.11.4 Resumen de características................................................................ 47 3.1.12 Otras técnicas de agrupamiento....................................................48

2

3.1.12.1 Algoritmos de densidad .....................................................................48 3.1.12.2 Algoritmos de rejilla ..........................................................................48 3.1.12.3 Algoritmos de modelo........................................................................48 3.1.12.4 Algoritmos categóricos ......................................................................48

3.1.13 Índices de validación usados en agrupamiento exclusivo............. 48 3.1.13.1 Estadística de Hubert modificada.......................................................49 3.1.13.2 Índices Dunn y casi-Dunn..................................................................50 3.1.13.3 Índice Davies-Bouldin (DB) ..............................................................51

4 EL ALGORITMO SOM ........................................................................... 53

4.1.1 Introducción al SOM..................................................................... 53 4.1.2 El algoritmo batch......................................................................... 55 4.1.3 Medidas, topología y validación del modelo................................. 56

4.1.3.1 Errores topográficos.............................................................................56 4.1.3.1.1 Error topográfico de Kiviluoto.....................................................56 4.1.3.1.2 Producto topográfico ...................................................................57 4.1.3.1.3 Error topográfico Bezdek-Pal ......................................................57 4.1.3.1.4 Índice de Zrehen ..........................................................................57

4.1.3.2 Error de cuantificación.........................................................................58 4.1.3.3 Error de cuantización topológico .........................................................58 4.1.3.4 Similaridad entre mapas.......................................................................59 4.1.3.5 Análisis de sensibilidad........................................................................60

4.1.4 Propiedades del SOM.................................................................... 60 4.1.4.1 Ordenación topológica .........................................................................60 4.1.4.2 Representatividad del espacio de datos de entrada...............................61 4.1.4.3 Reducción de la dimensionalidad.........................................................62 4.1.4.4 Aproximación de los datos de entrada .................................................62

5 METODOLOGÍA Y DESARROLLO DE LAS TÉCNICAS ........... ..... 63

5.1 MÉTODO GENERAL DE ANÁLISIS DEL SOM.............................................. 63 5.2 TÉCNICAS PARA OBTENER LA MEJOR CLUSTERIZACIÓN........................... 64 5.3 MAPAS DE CERTEZA................................................................................. 70

6 NUEVOS ENFOQUES DEL SOM........................................................... 70

6.1 PROPUESTA DE ÍNDICE DE PRESERVACIÓN TOPOLÓGICA.......................... 70 6.2 MEJORA DEL ERROR DE CUANTIFICACIÓN................................................ 72 6.3 CLUSTERING DEL SOM............................................................................ 73

7 EJEMPLO 1. APLICACIÓN A UNA PLANTA DE TRATAMIENTO77

7.1 PLANTA DE TRATAMIENTO DE AGUAS RESIDUALES.................................. 77 7.1.1 Descripción de la planta e instrumentación elegida ..................... 77

7.2 VALIDACIÓN DEL MODELO ...................................................................... 79 7.2.1 Metodología de la validación SOM............................................... 80

7.3 DESCRIPCIÓN DE LA APLICACIÓN............................................................. 81 7.3.1 Aspectos claves de la aplicación KNOWATER II.......................... 88

7.4 EVALUACIÓN DEL BENEFICIO EN EL FUNCIONAMIENTO DE LA CWTP...... 89

8 EJEMPLO 2. ANÁLISIS DEL MODELO ASM .................................... 93

9 REFERENCIAS....................................................................................... 101

3

1 Introducción Las redes neuronales son una herramienta muy utilizada por

las técnicas de Inteligencia Artificial (IA). La IA es la disciplina científica y técnica que se ocupa del estudio de las ideas que permiten ser inteligentes a los ordenadores. Se encarga de crear hardware y software con comportamiento inteligente, estudiando todo tipo de algoritmos capaces de percibir, razonar y actuar pretendiendo que la máquina realice tareas que, por el momento, son realizadas mejor por los seres humanos.

El objetivo final de la IA sería dotar de una auténtica inteligencia a las máquinas, lo cual está muy lejos de ser logrado. Sin embargo, la ciencia IA ha generado muchas herramientas útiles, entre las que se encuentran las redes neuronales. Las redes neuronales son modelos matemáticos simples que intentan imitar a las redes neuronales cerebrales. Al igual que éstas, intentan aprender de los datos que se le suministran. Las redes neuronales artificiales, como la gente, aprenden con ejemplos.

Las computadoras permiten implementar fácilmente algoritmos para resolver multitud de problemas que antes resultaban tediosos de resolver. Aún así, se observa una limitación importante: ¿qué ocurre cuando el problema que se quiere resolver no admite un tratamiento algorítmico específico?, ¿cómo resolver un problema en el que se pretende extraer un conocimiento no inmediato a través de unos datos? La solución, al menos por lo que se cree hasta el momento, es buscar modelos que intenten imitar las diversas facultades humanas como percepción, abstracción de ideas, etc. La IA intenta que las máquinas imiten aspectos humanos inteligentes.

Se puede decir con rotundidad que el crecimiento del conocimiento humano se basa en la experiencia. Pues bien, ¿cómo imitan las redes neuronales al comportamiento humano? Las redes neuronales se nutren de vectores de datos generalmente numéricos para aprender ciertas propiedades residentes en esos datos llevando a cabo finalmente tareas de estimación y/o clasificación. Además, reciben el nombre de redes neuronales ya que intentan imitar la célula básica del procesamiento nervioso humano: la neurona.

Algunas aplicaciones de las técnicas de IA están en tareas de la vida cotidiana: percepción (visión y habla), lenguaje natural (comprensión, generación, traducción), sentido común, control de un robot; así como en tareas formales y de mayor especialidad: juegos (ajedrez, damas), Matemáticas (geometría, lógica, cálculo, demostración de propiedades), Ingeniería (diseño, detección de

4

fallos, planificación de producción), análisis científico, diagnosis médica y análisis financiero.

El uso de técnicas de IA presenta numerosas ventajas como la aportación de una mayor robustez frente a perturbaciones de los datos, la comprensión del conocimiento generado por el programa es fácil y el uso de generalizaciones dota de una gran capacidad de extensión a diferentes disciplinas. Sin embargo, la solución en detalle es más compleja y hay que añadir los problemas derivados del uso de conocimientos en forma de datos (gran tamaño, variabilidad y adecuación del formato a la técnica específica a usar).

La Minería de Datos o Data Mining es considerado como un sucesor de la Estadística clásica. Ambos buscan poner de manifiesto conclusiones que se puedan obtener a través de los datos disponibles pero la diferencia entre ambos reside en que el Data Mining construye modelos de forma automática mientras que las técnicas clásicas de Estadística deben ser usadas por expertos o estadísticos. Por tanto, el uso de estas técnicas de Data Mining puede ser llevado a cabo por personal mínimamente preparado. Además, las técnicas estadísticas se centran generalmente en técnicas confirmatorias, mientras que las técnicas de Data Mining son generalmente exploratorias. Las principales ventajas del Data Mining son la rapidez y sencillez. La Minería de Datos podría considerarse una especialidad dentro de la IA buscando extraer información de bases de datos. Un sistema Data Mining consiste en una aplicación capaz de extraer conocimiento útil a partir de las bases de datos.

Los sistemas Data Mining utilizan muchas técnicas de IA y por ello se puede considerar como una especialidad dentro de la IA. Las técnicas que utilizan son muy variadas tales como redes neuronales artificiales, árboles de decisión, algoritmos genéticos, métodos de agrupamiento (clustering), reglas de inducción, etc. Las herramientas de Minería de Datos exploran las bases de datos en busca de patrones ocultos prediciendo futuras tendencias y comportamientos. Los resultados se presentan en tablas, gráficos, texto, etc. Estas técnicas pueden ser integradas en plataformas ya existentes de software y hardware para trabajar en tiempo real con el proceso a estudiar. Por tanto, se puede obtener una predicción automatizada de tendencias y descubrir de forma simple modelos previamente desconocidos.

Gracias a la gran velocidad de cálculo se posibilita el análisis de inmensas cantidades de datos. A su vez, el aumento de la cantidad de datos caracteriza mejor el problema produciendo mejores resultados.

5

Existen varias razones para usar estas técnicas de Minería de Datos. El uso de Data Mining proporciona al usuario capacidades de decisión sobre el problema a tratar. Además, genera modelos descriptivos que permiten visualizar y comprender los datos e identificar patrones, relaciones y dependencias. Asimismo, se pueden crear modelos de predicción de parámetros críticos a partir de datos disponibles.

1.1 Introducción a las redes neuronales

Inicialmente McCullough y Pitts en 1943 establecieron un algoritmo y modelo neuronal.

Diez años más tarde, Minsky construye la primera neurocomputadora que pretende imitar a redes neuronales biológicas.

En 1959, Frank Rosenblatt (Rosenblatt, 1959) establece el perceptrón, una estructura neuronal muy simplificada, capaz de discriminar únicamente entre dos estados.

Unos años más tarde, Minsky y Papert publicaron un artículo (Minsky y Papert, 1969) en el que se ponían de manifiesto las limitaciones del perceptrón como unidad computacional. Como consecuencia se produce un retroceso en la investigación hasta finales de los setenta, en que el estudio de nuevas arquitecturas de redes y la mayor potencia de los computadores permiten el diseño de redes muy eficientes en tareas en las que otros procedimientos encuentran dificultades.

En 1977 Kohonen publica un libro (Kohonen, 1977) que serviría de preámbulo a las redes neuronales auto-organizadas. En 1982, Hopfield (Hopfield, 1982) describe las “redes de Hopfield” en las que se utilizan funciones de energía para entender las redes dinámicas. Se produce un resurgimiento en la investigación persuadiendo a muchos físicos y matemáticos de todo el mundo a unirse a la nueva investigación de redes neuronales. En 1986 Rumelhart, Hinton y Williams (Rumelhart et al., 1986) redescubren el algoritmo backpropagation, desarrollado en 1974 por Paul Werbor, para el aprendizaje de redes neuronales. Por estas fechas y gracias a las nuevas tecnologías de fabricación de microchips, comienzan a construirse redes neuronales implementadas en silicio, mucho más rápidas que las de software. En 1987, se realizó la primera gran conferencia abierta sobre redes neuronales del IEEE con 1700 participantes en San Diego, y la Sociedad Internacional de Redes Neuronales fue formada en 1988 siendo seguida por la Computación Neuronal en 1989 y el IEEE. A principios de 1987, muchas

6

universidades anunciaron la formación de institutos de investigación y programas de educación acerca de la neurocomputación. Alrededor de la neurocomputación se hace una interesante historia, pero se puede decir que se encuentra aún al final del inicio.

Actualmente, el uso de redes neuronales se ha extendido bastante en el mercado de software dejando de estar restringidas a los entornos de investigación y a las grandes empresas. Se pueden encontrar modelos de redes neuronales en programas de reconocimiento de voz, en juegos de ordenador, programas de contabilidad, tutores, y muchos otros.

7

2 Metodología de la Minería de Datos Las técnicas de exploración de bases de datos pueden

resumirse de forma genérica en una metodología compuesta de diferentes fases indicadas en la figura 2.1 y explicadas a continuación (Vesanto, 2000).

Figura 2.1. Metodología de la Minería de Datos

2.1 Dominio de conocimiento

Los conjuntos de datos adquiridos por los sensores o captadores de la planta de estudio es, sin duda alguna, el factor más importante del proceso de Minería de Datos. Es deseable tener un conjunto de datos lo más completo posible, el cual permita definir exactamente las señales o variables claves del proceso y también todos los estados posibles de la planta a estudiar. Para ello, sería importante obtener muestras para el máximo número de variables, al menos a priori, registrando los valores con un periodo de muestreo lo suficientemente bajo para respetar la dinámica del proceso y de los captadores.

Sin embargo, además de disponer e implementar un buen sistema de adquisición de datos es necesario un conocimiento del problema a resolver. El dominio de conocimiento (“business understanding”) sirve para englobar todos los conjuntos de datos

Dominio de conocimiento

Comprensión de los datos

Preparación de los datos

Modelado Evaluación

Desarrollo

8

disponibles, diferenciando los directamente relacionados con el problema a tratar de los que no lo están y, en definitiva, esclareciendo el proceso de Minería de Datos.

Tener un dominio de conocimiento del problema lo más amplio posible es vital no sólo en las fases iniciales, sino también en todos los pasos restantes. El diseñador o experto en Minería de Datos normalmente dispone de cantidades ingentes de datos (gráficas, parámetros estadísticos, etc) y debe tomar decisiones importantes como fijar las variables del sistema e ignorar otras, otorgar importancia a ciertas señales que deben ser obtenidas por métodos indirectos y determinar cómo obtenerlas. Todo ello es imposible si no se dispone de un conocimiento del proceso a estudiar. Este dominio de conocimiento se ve reflejado en tres tareas u objetivos:

• Es necesario el intercambio de conocimiento del problema a tratar entre sus expertos (cliente, operarios de la planta, etc.) y los expertos en Minería de Datos.

• Definir el problema en concreto a solucionar tomándose como objetivo del proceso “Data Mining”. La solución debe ser útil y realista. Debe ser realista puesto que los datos disponibles deben ser capaces de resolver el problema planteado. Debe evitarse buscar una solución imposible con los datos disponibles o quizás debido a una incorrecta decisión del experto de Minería de Datos.

• Definir la forma de presentación de la solución. Puede ser un algoritmo de estimación, uno de clasificación, un modelo matemático para los ingenieros de proceso o una aplicación informática para usada en tiempo real de proceso. Además, la solución debe ser evaluada y desarrollada.

Aparte de la solución buscada y tomada como objetivo, la investigación arroja nuevas ideas. También por ello es necesaria la interacción entre los expertos de Minería de Datos y los del proceso o problema a estudiar.

2.2 Comprensión de los datos

En esta fase, tras el estudio del problema a tratar, se procede a la recolección de datos. Se deben tener en cuenta las siguientes cuestiones:

• Se debe averiguar si existen relaciones jerárquicas en el conjunto de datos, si existen varios conjuntos de datos se deben establecer sus relaciones de dependencia.

9

• Es necesaria conocer la fiabilidad de todas las medidas registradas. Las medidas sospechosas de tener una gran probabilidad de ser incorrectas deberían ser eliminadas de la colección de datos.

• Puede ocurrir que en el proceso a estudiar se produzca un cambio drástico en el funcionamiento de tal forma que los datos adquiridos antes y después de él sean incomparables. En este caso, se deben separar en conjuntos de datos diferentes. Por ejemplo, en un reactor discontinuo (SBR) se deben separar los conjuntos de datos pertenecientes a la fase aeróbica de los de la fase anóxica.

• También es importante estudiar la posibilidad de obtener nuevas variables a través de la combinación de muestras de una o más variables iniciales. Por ejemplo, obtener valores medios como en el caso de la salida del controlador PID del oxígeno disuelto en el reactor SBR en el que se procede a realizar el valor medio de las muestras tomadas en los últimos minutos, dándose al posibilidad de ajustar este tiempo al usuario, para obtener una señal más suavizada y poder obtener los perfiles de consumo de oxígeno.

La pregunta clave en esta fase del proceso “Data Mining” es si con los datos disponibles es posible llegar a la solución deseada del problema. El estudio de los datos en la fase de comprensión de los datos debería proporcionar ya una respuesta a esa pregunta y además conseguir formar la estructura de datos apropiada para obtener un modelo fiable. Sería necesario conocer:

• ¿Qué valores pueden tomar las diferentes variables y que distribución siguen? ¿Qué valores son típicos y cuáles son erróneos?

• ¿Qué valores suelen aparecer al mismo tiempo? ¿Hay correlaciones evidentes? A menudo estas respuestas pueden obtenerse mediante una simple inspección visual de las series temporales representadas en gráficas. El ojo humano es una herramienta muy potente para el reconocimiento de patrones. Es evidente que este proceso de refinamiento de los datos nunca concluye.

• Además de estudiar la forma de presentación de los datos es necesario, al igual que se hacía en la fase inicial de dominio del conocimiento, entrevistar al personal experto en el problema y obtener su documentación para determinar los aspectos más importantes que se pueden encontrar en los datos, descartar lo que no es importante y establecer la solución más útil que se

10

desea (se estaría redefiniendo la solución tomada en la fase inicial).

• Si es posible a priori se debería establecer una primera selección de variables, si bien es cierto que es menos peligroso partir con un elevado número de variables, para sucesivamente ir desestimando aquellas que sean irrelevantes, que comenzar con un número reducido de variables en los cuales se corre el peligro de descartar inicialmente importantes relaciones. El número de variables no ha de ser excesivamente elevado para que se permita su tratamiento computacional. Por último, se debe tener en cuenta que el conjunto de datos puede ser insuficiente siendo necesario la incorporación de nuevas variables.

2.3 Preparación de los datos

Esta etapa persigue la preparación de los datos en el formato requerido por el software utilizado para la obtención posterior de un modelo, por lo que depende de la aplicación a utilizar y solamente pueden definirse unas ideas generales.

El objetivo fundamental es preparar los datos de la forma más simple y eficaz para obtener modelos lo más fiables posibles. Una de las tareas más importantes del experto en Minería de Datos es la extracción del conocimiento del problema a tratar para implementar procedimientos específicos de preparación de los datos de tal forma que la información más esencial sea tratada fácilmente para la obtención del modelo buscado. En ese sentido se pueden construir modelos fiables y sencillos que necesiten menos cantidad de datos.

La preparación de los datos debe llevar a cabo las siguientes tareas:

• Seleccionar tanto los conjuntos de datos más representativos como las variables más importantes del proceso para la elaboración posterior de los modelos.

• Eliminar las muestras que tengan valores erróneos o, también, no interesantes para la caracterización del problema a resolver.

• Generar nuevas variables que caractericen mejor el proceso en concreto a estudiar. Para ello pueden realizarse combinaciones y transformaciones en las variables originales.

• Transformar los datos en el formato requerido por la herramienta software que obtendrá el modelo.

11

• Por último es necesario definir e implementar un entorno consigo y a poder ser automático para preparar los datos de forma cómoda y repetitiva.

2.3.1 Eliminación de datos erróneos

La presencia de errores en las medidas registradas en los datos es muy común. Algunos algoritmos usados para construir modelos son más robustos que otros ante este problema pero en todos ellos su rendimiento se ve afectado. Por tanto, es necesario eliminar los errores de medida.

En las variables numéricas los valores erróneos difieren con mucho del resto y su efecto a la hora de obtener el modelo es muy acusado e indeseable. Estos valores suelen denominarse “outliers” y su detección a lo largo del conjunto de datos es fácil debido a su valor completamente diferente. En variables categóricas se detectan fácilmente las muestras erróneas por su escasez en el número de instancias, en comparación con las correctas.

Existen dos caminos posibles a seguir en la eliminación de errores. El primero consistiría en eliminar totalmente la muestra en la que se encuentra el valor erróneo. El inconveniente es que se prescinde del resto de los valores correctos de la muestra con lo que hay una pérdida de información. El segundo método sería sustituir el valor erróneo por otro valor de estimación o por un valor de error estándar previamente definido. Aquí el inconveniente reside en que muchos modelos no pueden trabajar con datos parciales.

Además, hay que tener en cuenta que los valores erróneos no tienen porque aparecer siempre de forma aleatoria sino que pueden ser debidos a determinadas condiciones de otras variables. De esta forma, los “outliers” podrían arrojar nuevos conocimientos en el análisis de los datos.

Otro contratiempo a tener en cuenta es el ruido que surge inevitablemente tanto en la medida como el que se suma en la transmisión de la señal eléctrica desde el sensor al sistema registrador. Una posible solución sería realizar varias medidas redundantes y obtener su valor medio. Por último, la construcción de muestras a partir de medidas no obtenidas simultáneamente en el tiempo es muy problemática.

2.3.2 Variables nuevas

A menudo ocurre que la medida de algunas variables importantes no puede llevarse a cabo. Una solución a este problema

12

es obtener la información solicitada mediante el uso de otras variables disponibles o, incluso, a través de transformaciones de una única variable. Por ejemplo, el consumo de oxígeno se realiza mediante el valor medio en un periodo, determinado por el usuario, del oxígeno disuelto en el reactor SBR.

La principal variable nueva obtenida en un proceso de análisis de Minería de Datos es la salida proporcionada por el modelo obtenido a través de los datos disponibles. Sin lugar a dudas una de las tareas más importantes es la selección de las variables más relevantes del proceso y, además, la selección de sus muestras más significativas para que las características más destacadas del problema a solucionar sean capturadas. Se trata, por tanto, de preparar el conjunto de datos que, siendo lo más reducido posible en número de variables y muestras, defina completamente el sistema a modelar. Aquí aparece de nuevo la tarea inicial de adquisición del conocimiento del proceso a modelar. Por medio de informes técnicos, artículos científicos, asesoramiento de los expertos en el proceso, etc. se debe obtener este conocimiento. A todo esto se debe añadir que la obtención de las señales o variables más interesantes debe hacerse a menudo mediante transformaciones lineales y no lineales, filtrado de señales, diferenciación, etc.

2.3.3 Transformaciones

Las transformaciones de los valores de las variables son necesarias para que el modelo pueda ser optimizado. Al modelo se le debe entregar la información lo más “masticada” posible, no sólo para que el modelo pueda ser implementado, sino también para aumentar su fiabilidad. Por ejemplo, si se disponen de variables categóricas es muy posible que deban ser transformadas a numéricas ya que muchos algoritmos utilizan variables numéricas y la mayoría de ellos utilizan un espacio de datos de entrada Euclidiano. Pero, aunque se disponga inicialmente de un conjunto de variables numéricas, será muy probable que deban ser transformadas para la optimización del modelo. Por ejemplo, es muy frecuente realizar una normalización de los datos transformando todos los rangos o intervalos de variación de las variables que generalmente son diferentes a un único intervalo de variación o rango para todas las variables de tal forma que el modelo pueda tratar a todas las variables por igual otorgándoles la misma importancia.

Ejemplos de transformaciones son:

• Transformaciones lineales. Cambio de escala o de rango de variación.

13

• Transformaciones no lineales. Mediante escalas logarítmicas, exponencial, etc.

• Agrupamiento o clasificación en clusters de los datos siguiendo un determinado criterio.

• Transformación de variables categóricas a numéricas.

• Transformación de variables numéricas a categóricas. La fuzzificación sería lo mismo pero otorgando grados de pertenencia. Por ejemplo, se procede a clasificar el consumo de oxígeno en función de la temperatura y concentración de oxígeno disuelto en la zona de HIGH COD o LOW COD para estimar la finalización de la principal actividad aeróbica en el tratamiento del agua residual.

• Transformaciones estadísticas tales como valores medios, varianzas, histogramas, etc.

2.3.4 Formato definitivo

El formato final definido para los datos, que será presentado a la herramienta software encargada de conseguir el modelo, debe ser fácilmente obtenido en ocasiones futuras en las que se disponga de nuevos conjuntos de datos. Por tanto, todas las tareas anteriormente descritas deben ser implementadas para obtener de forma automática el conjunto de datos en su formato definitivo. Surge claramente la necesidad de describir completamente todos los pasos realizados en la preparación de los datos que han sido llevados por el experto en Minería de Datos. En caso contrario, la tarea final de desarrollo de la aplicación resultará imposible y el resultado final del proceso “Data Mining” será infructuoso.

Además, el algoritmo de preparación de los datos puede descartar datos erróneos gracias a la definición previa de los rangos de variables.

Por último, se debe tener en cuenta que el formato presentado al modelo no está expresado en los rangos originales y, por tanto, en las medidas originales. Por ello, el modelo (una vez obtenida la variable de salida) debe interpretar el resultado en sus unidades originales, con lo que se debe llevar a cabo una transformación inversa a la normalización de variables: denormalización.

14

2.4 Modelado

La fase de modelado es la más importante, desde el punto de vista que es en la cual se lleva a cabo la solución del problema a tratar y, además, todas las tareas anteriores están encaminadas a la preparación de los datos idóneos a aplicar a la herramienta software que obtendrá el modelo. Las tareas posteriores se encargan de la realización práctica, pero es justo en este momento clave cuando se debe definir totalmente la solución a adoptar.

2.4.1 Herramientas de modelado

Existen diversos algoritmos para desarrollar un modelo tales como regresiones polinómicas y lineales, redes neuronales de perceptrón multicapa y de base radial, sistema de lógica borrosa, algoritmos de clasificación, etc. La elección de uno de ellos estará basada en el objetivo perseguido y de los tipos de datos y base de conocimiento sobre el proceso.

2.4.2 Validación del modelo

Se debe determinar primeramente el tipo de error a utilizar para la validación del modelo, ya que muchos modelos tienen tipos de errores específicos. Para la validación del modelo se suele reservar uno o más conjuntos de datos que sirvan de test para el modelo a validar. Se pretende que el modelo tenga la capacidad de generalización, es decir, de capturar todas las características significativas de los datos disponibles. Por ello, el conjunto de datos para test no debe tener características no presentadas previamente en el entrenamiento ya que, en ese caso, el modelo no las habrá aprendido.

Además, se persigue obtener un modelo sencillo y fiable. Modelos complejos con excesivo número de parámetros a ajustar presentan inconvenientes tales como un alto coste computacional y riesgo de sobreentrenamiento en los cuales el modelo puede llegar a aprender características no relevantes o incluso erróneas como el ruido inherente en los datos medidos por los sensores de la planta.

2.5 Evaluación

Después de obtener el modelo validado, se debe poner a prueba continuamente con nuevos datos procedentes del proceso. Si la solución es realmente la deseada y el modelo resulta ser fiable se puede pasar a la última etapa para su implementación práctica. En caso contrario, se debería averiguar la causa de esa solución incorrecta para volver a etapas anteriores y corregir esa situación.

15

Puede ser necesario obtener mejores modelos, adquirir nuevos datos o incluso redefinir el problema. Un inconveniente muy frecuente es que el proceso este pobremente definido y falten datos sobre variables importantes.

Pero además del éxito o fracaso del modelo, existe una aportación muy enriquecedora del método de Minería de Datos al proceso objeto de estudio. Nuevas ideas probablemente hayan surgido tales como correlaciones entre variables, mejoras del sistema de adquisición de datos, monitorización, análisis estadísticos, etc.

2.6 Desarrollo

La última etapa sería la implementación práctica del trabajo realizado en las anteriores tareas una vez haya sido demostrado con éxito la solución adoptada. Generalmente se tratará de desarrollar una aplicación informática capaz de integrar todos los análisis principales de la forma más flexible y sencilla posible.

Para llevar a cabo esta tarea es necesario establecer las herramientas software necesarias. Los algoritmos pueden ser programados de nuevo con el consiguiente inconveniente de tratar una laboriosa tarea, pero pueden ser compilados y/o también estar disponibles en librerías.

La adquisición de datos respecto a los protocolos usados será también objeto de estudio. Asimismo se debe tener en cuenta la preparación de los datos en su formato específico a ser tratado por el modelo y si alguna transformación debe ser aplicada.

Un aspecto importante es la validez temporal del modelo utilizado. Aunque se obtengan modelos de forma automática es posible que aparezcan importantes cambios en la planta en el futuro. De ser así, debe contemplarse la posibilidad que el usuario detecte fácilmente estos cambios que invaliden la solución adoptada. Además sería un gran logro diseñar un sistema tan flexible que el usuario pueda reconfigurar el reentrenamiento del modelo de una forma sencilla, cambiando totalmente la naturaleza del modelo e incluyendo nuevas señales.

16

3 Algoritmos de clustering

3.1 Clasificación de objetos

3.1.1 Introducción

Las técnicas que se ocupan de los problemas de clasificación de objetos provienen del campo de la Minería de Datos. Los algoritmos utilizados para la clasificación automática de las muestras o vectores de un conjunto de datos son adaptaciones que se ocupan de resolver el problema general de clasificar objetos de cualquier tipo.

3.1.2 Clasificación de objetos

La clasificación de muestras es un tipo de problema perteneciente a la familia de problemas asociados a encontrar agrupamientos entre objetos de cualquier tipo. Si bien la clasificación de muestras tiene características particulares que surgen de las propiedades de las muestras como objetos a agrupar, los principios generales coinciden con los que se aplican para clasificar cualquier otro tipo de elementos. Los algoritmos para la clasificación automática de muestras son los mismos que se utilizan para agrupar otros tipos de objetos.

Existen diferentes definiciones de clustering. Jain y Dubes (Jain y Dubes, 1988) proponen que “el clustering es un análisis que organiza los datos abstrayendo la estructura subyacente bien por grupos de muestras o bien por jerarquía de grupos. Esta estructura organizada puede ser entonces investigada para considerar los grupos de los datos según ideas preconcebidas o para sugerir nuevos experimentos”.

Una definición del problema del agrupamiento de muestras (que es aplicable al agrupamiento de cualquier tipo de elementos), puede enunciarse de la siguiente manera (Zhao y Karypis, 2001): Dado un conjunto S, de N muestras, se quiere encontrar la partición S1, S2, ..., Sk, tal que cada uno de las N muestras se encuentre sólamente en un grupo Si, y que cada muestra sea más similar a los muestras de su mismo grupo que a las muestras asignadas a los otros grupos. Se deduce de esta definición que los algoritmos de agrupamiento (Hartigan, 1975; Haralick y Shapiro, 1985; Pal y Pal, 1993) intentan organizar datos de propiedades no conocidas a priori en “grupos naturales” o clusters de tal forma que las muestras pertenecientes a un mismo cluster son más similares entre sí que respecto a otras muestras pertenecientes a otras clusters diferentes.

17

Los algoritmos de agrupamiento son útiles cuando la categorización de los conjuntos de datos requiere experiencia humana la cual suele ser costosa. El análisis mediante clustering es una herramienta útil que tiene muchas aplicaciones tales como Data Mining (Judd et al., 1998), extracción de información (Bhatia y Deogun, 1998), segmentación de imagen (Frigui y Krishnapuram, 1999), compresión y codificación de señales (Abbas y Fahmy, 1994), reconocimiento de voz (Kido et al., 1978; Morgan y Franco, 1997; Radota Psutka, 1997), clasificación de caracteres escritos a mano (Navarro y Allen, 1997; Kato y Nemoto, 1996), detección de fallos (Le et al., 1997), y diagnostico médico (Ashtari et al., 1990; Buchbinder et al., 1991; Jack et al., 1990; Jackson et al., 1993).

3.1.3 Metodología general

El proceso de agrupamiento debe realizarse en varias fases. Jain y Dubes (Jain y Dubes, 1988) enumeraron los pasos a seguir:

1. Adquisición de datos. En esta primera fase se recogen los datos del conjunto de variables de proceso consideradas. Cada muestra es un vector de datos en el que cada componente es el valor medido de la muestra correspondiente a una determinada variable.

2. Comprobación de valores. Una vez recogidos los datos se deben comprobar los valores de cada muestra con el fin de retirar aquellos valores medidos de forma incorrecta o “outliers”. Se suele denominar esta fase como Data Clearing (Jarke et al., 1999).

3. Representación. Los datos se deben configurar de la forma determinada por el algoritmo de clustering que se vaya a utilizar. En esta fase se elige la medida de semejanza además de examinar las características y dimensiones de los datos.

4. Tendencia de clustering. El objetivo en este paso es comprobar si el conjunto de datos tiene una tendencia natural para ser clusterizado. Esta fase no suele realizarse en conjuntos de datos de gran tamaño.

5. Estrategia de clustering. Se elige el algoritmo de clustering y los parámetros iniciales.

6. Validación. Tras la aplicación del algoritmo es necesario validar la estructura de grupos obtenida. Para ello se pueden examinar los resultados manualmente o mediante técnicás de visualización, aunque según aumenta la dimensionalidad de los conjuntos de datos se recurre a índices de validación.

18

7. Interpretación. La última etapa es el estudio de los resultados del clustering comparando con otros métodos de análisis de datos para realizar una clasificación de los datos obteniendo relaciones entre las variables del proceso y/ó sugiriendo posteriores análisis.

3.1.4 Representación vectorial

Para poder definir medidas de semejanza entre los objetos a agrupar, éstos se representan mediante vectores v = (a1 , a2 , ... , am), donde cada componente del vector es el valor de un atributo del objeto. En este caso objeto de estudio, cada objeto es un vector de datos que es una muestra de las señales o variables que definen un proceso industrial. Por tanto, ese atributo es una variable de proceso. De esta forma, cada uno de los objetos a agrupar es un

punto en un Espacio Euclidiano de m dimensiones mℜ .

3.1.5 Tipos de variables

3.1.5.1 Tipos de variables según el dominio de valo res

La variable es continua si su dominio es infinito, es decir, entre dos valores cualesquiera existen infinitos valores. Ejemplo de variable continua es la temperatura.

Una variable es discreta si su dominio es finito y, por tanto, su conjunto de posibles valores tiene una correspondencia unívoca con un subconjunto de números enteros. Las variables binarias pertenecen a este grupo de variables y son aquellas cuyo dominio contiene solamente dos valores discretos, por ejemplo, la apertura o cierre de un contactor.

3.1.5.2 Tipos de variables según la escala de medid a

Una variable de escala nominal tiene un dominio de valores de tipo discreto, de tal forma que la comparación de su correspondiente componente entre distintas muestras sólo puede dar lugar a la verificación de igualdad xi = yi o desigualdad xi ≠ yi entre ambas. Pero además se cumple que los valores no pueden ser ordenados. Un ejemplo sería el conjunto de razas humanas que existen en todo el mundo.

Las variables de escala ordinal tienen el mismo dominio discreto que las nominales pero se diferencian respecto a éstas en el sentido que sus valores pueden ser ordenados completamente. De esta forma además de comprobar la identidad de los valores (¿xi ≠ yi? o ¿xi = yi?) se puede hacer lo mismo con el orden (¿xi > yi? o ¿xi < yi?). Sin embargo, las diferencias entre valores de componentes de

19

distintas variables no puede ser cuantificado. Un ejemplo son las medallas de las olimpiadas.

La variable discreta, ordinal y que además la diferencia del componente de esa variable entre dos muestras diferentes puede ser cuantificado recibe el nombre de variable de intervalo. Por tanto, se puede afirmar que la variable de intervalo x difiere |xi − yi| unidades respecto a la variable de intervalo y. Un ejemplo de variable de intervalo serían los números de ticket en una cola de espera.

Las variables nominales y ordinales pertenecen a las variables categóricas o cualitativas, mientras que las variables de intervalo también se denominan cuantitativas.

3.1.6 Definición del “centroide” de un grupo

La definición de “centroide” de un grupo de elementos representados vectorialmente es utilizada en el ámbito de los algoritmos de agrupamiento. Dado un grupo de elementos X, que contiene N elementos xi, se define a su centroide Cx como el promedio de los vectores que componen el grupo:

N

x

C

N

1ii

x

∑==

(3.34)

Cada componente del vector centroide es el promedio del valor de esa componente para los miembros del grupo (Steinbach et al., 2000; Zhao et al., 2001); su propiedad más importante es que la distancia promedio desde un punto cualquiera del espacio hasta cada elemento del grupo es igual a la distancia entre ese punto y el centroide del grupo.

3.1.7 Medidas de semejanza o índices de proximidad

En la definición del problema de agrupamiento, se dijo (Zhao y Karypis, 2001): “...que cada muestra sea más similar a los muestras de su mismo grupo, que a los muestras asignados a los otros grupos...” (los términos “similar”, “semejante” y “cercano” se utilizan indistintamente para referirse a este concepto). Para poder evaluar esta condición, es necesario definir una medida cuantitativa de la similitud existente entre dos muestras. Las medidas más utilizadas son para variables cuantitativas o para variables categóricas.

20

3.1.7.1 Medidas de semejanza de variables de interv alo o cuantitativas

Las medidas de semejanza de variables de intervalo o cuantitativas que se usan son:

• Distancia Euclidiana:

( ) 2jnin

22j2i

21j1i xx...xxxxj,id −++−+−=

(3.1)

• Distancia Manhattan:

( ) jnin2j2i1j1i xx...xxxxj,id −++−+−= (3.2)

• Distancia Minkowski:

( ) q1

qjnin

q2j2i

q1j1i xx...xxxxj,id

−++−+−= (3.3)

Si q=1 es Manhattan y si q=2 es Euclidiana.

• Distancia Pesada (e.g., Euclidiana):

( ) 2jninn

22j2i2

21j1i1 xxw...xxwxxwj,id −++−+−=

(3.4)

Además este tipo de variables satisface las siguientes propiedades. Dados tres puntos del espacio de datos x, y y z, una distancia métrica d satisface (Han y Kamber, 2001):

• d(x,y) ≥ 0. La distancia no puede ser negativa.

• d(x,y) = 0 si y solo si x=y. La distancia de un punto del espacio de entrada al mismo punto es cero.

• Simetría: d(x,y) = d(y,x)

• Desigualdad triangular: d(x,z) ≤ d(x,y)+ d(y,z)

3.1.7.2 Medidas de semejanza de variables categóric as

3.1.7.2.1 Medidas de semejanza de variables binaria s

Antes de introducir las medidas de semejanza para variables binarias, es necesario introducir el concepto de tablas de

21

contingencia (Han y Kamber, 2001). Una tabla de ese tipo aparece en la tabla 3.1.

y=1 y=0 x=1 α β α+β x=0 γ δ γ+δ

α+γ β+δ τ

Tabla 3.1. Tabla de contigencia para dos variables binarias

α es el número de “unos” en ambas variables.

β es el número de valores iguales a 1 en x y a 0 en y.

γ es el número de valores iguales a 0 en x y a 1 en y.

δ es el número de “ceros” en ambas muestras.

Una vez definida la tabla, las medidas de semejanza son:

• Coeficiente de emparejamiento simple (Simple Matching), definido como:

τδα +=)y,x(d

(3.5)

si ambos valores de x e y pueden tomar igual peso, i.e., x e y son simétricos.

• Coeficiente de Jaccard, definido como:

γβαα

++=)y,x(d

(3.6)

Obsérvese que este coeficiente desestima el número de emparejamientos 0-0. Por tanto, se utiliza principalmente para los casos donde uno de los posibles estados (descrito como “1”) tiene mayor peso que el otro, es decir, las variables binarias son asimétricas.

El significado de existencia cuando se trabaja con variables binarias es clave. Si está claro que uno de los valores de la variable denota presencia y la otra ausencia, entonces es útil hablar en términos de existencia. Por ejemplo, es el caso de una variable que denota la presencia de niños en la base de datos de los empleados. Por otra parte, si la variable binaria define una dicotomía, solo se puede formular emparejamientos 0-0, 1-1, 1-0 y 0-1.

22

3.1.7.2.2 Medidas de semejanza de variables categór icas no binarias

La desemejanza entre dos muestras x e y se define por:

p

mp)y,x(d

−= (3.7)

donde m es el número de casos coincidentes y p es el número total de variables.

En el modelo de representación más sencillo, en el que los atributos del vector son valores binarios, y definiendo | v | como la cantidad de atributos de v que toman el valor 1, las medidas más comunes son:

• Coeficiente de Jaccard:

21

21

dd

dd

∪∩

(3.8)

• Coeficiente del coseno:

21

21

dd

dd

∗

∩

(3.9)

Ambas medidas definen el concepto de semejanza de los objetos por la cantidad de atributos en común que contienen en relación al tamaño de los objetos. En el modelo de representación más utilizado (Qin He, 1996; Maarek et al., 2000; Steinbach et al., 2000), en el cual se calculan los vectores de frecuencia o de frecuencia inversa, y siendo ||v|| la longitud (norma) del vector v, las medidas más comunes son (Cole, 1998; Strehl et al., 2000; Zhao et al., 2001):

• Coeficiente del coseno extendido:

( )21

2121 dd

ddd,dcos

∗•

= (3.10)

Es una extensión del correspondiente del modelo binario para el caso de atributos con valores reales. Esta medida tiene la propiedad de no depender del tamaño de las muestras, ya que cos(d1,d2) = cos(a*d1,d2) para a > 0. Sin embargo, las muestras se normalizan para que tengan longitud unitaria, ya que entonces:

23

( ) 2121 ddd,dcos •= (3.11)

y la semejanza entre los muestras se puede calcular como el producto vectorial entre ellos.

La similitud queda comprendida en el intervalo [0,1]. Para una muestra cualquiera, el vector que lo representa es un punto en el espacio. Si se traza la recta definida por ese punto y el eje de coordenadas, toda muestra que se encuentre sobre la recta tiene similitud 1 con la muestra que la define. Si se trazan hiperconos concéntricos cuyo eje sea esa recta, la semejanza irá decreciendo a medida que se agranda el ángulo del hipercono, y todas las muestras situadas en la pared de cada hipercono tienen la misma similitud con la muestra que define el eje. La semejanza igual a cero se alcanza cuando el hipercono se convierte en el hiperplano perpendicular al eje que define la muestra (Strehl et al., 2000).

• Coeficiente de Jaccard extendido:

( )( )21

22

21

2121

dddd

ddd,djac

•−+

•=

(3.12)

Es una extensión del coeficiente de Jaccard del modelo binario para el caso de atributos con valores reales. Los valores posibles de similitud se encuentran en el rango [0,1]. Esta medida tiene propiedades intermedias entre el coeficiente del coseno extendido y la distancia Euclidiana, que se detalla a continuación.

• Distancia Euclidiana:

( ) 2121 ddd,deuc_dist −= (3.13)

es la fórmula tradicional para calcular el tamaño del segmento que une dos puntos. La semejanza de dos muestras queda definida en forma inversa, ya que las muestras más similares serán los que estén a menor distancia. La fórmula comúnmente utilizada es:

( )21

21 dd1

1d,deuc

−−=

(3.14)

Los posibles valores de similitud están en el rango [0,1], pero una muestra tiene semejanza igual a 1 solamente consigo mismo. Para una muestra cualquiera, el vector que la representa es un punto en el espacio. Si se trazan hiperesferas concéntricas alrededor del punto, todas las muestras ubicadas en la superficie de una

24

hiperesfera tienen el mismo valor de similitud con el muestra que define el centro. La semejanza decrece a medida que aumenta el radio de las hiperesferas.

Se ha realizado (Strehl et al., 2000) un análisis completo de las medidas expuestas anteriormente, comparando el rendimiento de distintos algoritmos de agrupamiento utilizando cada una de las medidas de similitud, llegando a la conclusión de que los coeficientes del coseno y Jaccard extendidos son más apropiados que la distancia euclidiana para espacios de gran dimensionalidad y con datos dispersos.

3.1.7.2.3 Medidas de semejanza de variables ordinal es

Se tratan de manera parecida a las de intervalo o cuantitativas. Supóngase una variable i con Mi estados (tamaño del dominio de la variable). Los pasos seguidos son (Han y Kamber, 2001):

1. Al ser ordenados los Mi estados, [1… Mi], se puede reemplazar cada valor por su correspondiente valor numérico ri є {1 … Mi}

2. Es necesario asignar a cada estado un valor numérico en el intervalo [0.0, 1.0] pues cada variable ordinal puede tener un tamaño de dominio diferente. Esto se consigue haciendo:

1M

1rz

i

ijij −

−=

(3.15)

para 1 ≤ j ≤ m siendo m el número de muestras del conjunto de datos.

3. La desemejanza puede ser computada mediante cualquier medida utilizada para las variables de intervalo utilizando las zij.

En la tabla 3.2 se resumen los tipos de variables en función de la escala de medida, el dominio y la métrica correspondiente a usar.

DOMINIO DE VALORES ESCALA DE MEDIDA CONTINUA DISCRETA BINARIA

MÉTRICA

NOMINAL No existen Colores, equipos favoritos

SI/NO, TODO/NADA, ON/ OFF, etc

Coeficiente de emparejamiento

simple, coeficiente de

Jaccard

ORDINAL

Intensidad de color,

intensidad de sonido

Clases de medallas

olímpicas, tallas de ropa

Alto/bajo, grande/pequeño

Después de representar los valores en su

escala se tratan

25

Tabla 3.2. Escalas de medida, dominios de valores y métricas usadas

3.1.8 Características de agrupamiento óptimo

Un algoritmo de agrupamiento puede funcionar correctamente con un determinado conjunto de datos pero de forma pobre con otro distinto, dependiendo de su tamaño y dimensionalidad así como de la función objetivo y las estructuras buscadas. Se suelen fijar como características de agrupamiento óptimo las siguientes (Han y Kamber, 2001):

• Escalabilidad. El algoritmo debe ser capaz de trabajar con grandes conjuntos de datos y analizar todo tipo de variables. Pueden surgir problemas derivados de grandes dimensiones de datos. A mayor dimensión del conjunto de datos, mayor cantidad de memoria es necesaria para ejecutar el algoritmo. Además, la distancia desde un punto del espacio de entrada a su punto más cercano y la distancia al siguiente punto más próximo es prácticamente la misma para una gran variedad de distribuciones y funciones de distancia. Por tanto, el tiempo requerido para procesar los datos se ve incrementado y los resultados del algoritmo pueden ser muy pobres.

• Forma de los clusters buscados. Un importante aspecto a la hora de elegir un método de clustering es la forma de cluster que se pretende encontrar. Cada método de agrupamiento busca una estructura o forma diferente. La tarea de conocer a priori la forma de cluster que se pretende encontrar en el conjunto de datos es muy difícil, sobre todo, si existen variables cualitativas.

• El número de parámetros que inicialmente debe ajustar el programador para llevar a cabo el algoritmo, debe ser lo más reducido posible para intentar llegar a una solución óptima y general. Algunos algoritmos necesitan, por ejemplo, conocer el número de clusters del conjunto de datos a analizar.

• Eliminación de ruido. El algoritmo debe ser capaz de identificar muestras que se desvíen de forma abrupta de las normas generales de comportamiento que definan a las muestras del espacio de entrada. Por tanto, ha de ser capaz de detectar “outliers” y desestimarlos para el cómputo.

como las de intervalo

INTERVALO Temperatura Números de serie de una publicación

No existen Euclidiana, Manhattan

26

• Insensibilidad al orden de entrada del conjunto de datos. El orden en el que se presentan los datos al algoritmo puede conducir, a veces, a diferentes soluciones según el orden establecido sobre todo en algoritmos que buscan soluciones óptimas locales en cada iteración. El algoritmo debe ser independiente del orden de entrada de los datos.

• Interpretación y utilidad. Es de esperar que los resultados del agrupamiento proporcionen resultados interpretables y útiles. Es necesario comparar los resultados con el conocimiento apriorístico del proceso industrial.

3.1.9 Métodos para categorizar muestras

Las formas de clasificación de objetos, tales como asignar clases predeterminadas a cada elemento o agruparlos en forma significativa, son susceptibles de dividirse según el esquema de la figura 3.1 (Qin He, 1996):

Figura 3.1. Tipos de algoritmos de agrupamiento

• Algoritmos de agrupamiento no exclusivos : Un mismo objeto puede pertenecer a varias categorías, clases o grupos. Sería una distribución borrosa, más conocida como “fuzzy clustering” en el que cada muestra tiene un grado de pertenencia variable a todos los clusters.

Tipos de algoritmos de agrupamiento (clustering)

No exclusivos Exclusivos

Supervisados No supervisados

Jerárquicos Particionales

27

• Algoritmos de agrupamiento exclusivos : Cada objeto pertenece solamente a una categoría, clase o grupo (crisp clustering).

• Algoritmos de agrupamiento supervisados : Las clases a las que pertenecen los objetos están predefinidas, y se conocen ejemplos de cada una, o algunos de los objetos ya están clasificados y son utilizados por el algoritmo para aprender a clasificar a los demás.

• Algoritmos de agrupamiento no supervisados : La clasificación se realiza en base a las características propias de los objetos, sin conocimiento previo sobre las clases a las que pertenecen. En los algoritmos de agrupamiento, es muy frecuente que ni exista ninguna información sobre la estructura de datos subyacente ni tampoco exista una única medida de semejanza que permita diferenciar todos los clusters. Dentro del tipo no supervisado están los jerárquicos y particionales. Existen muchos algoritmos diferentes de agrupamiento y continuamente aparecen nuevas formulaciones. Sin embargo, la mayoría se basan en dos técnicas de clustering bien conocidas: algoritmos de agrupamiento particional que iteran usando error cuadrático y los algoritmos de agrupamiento jerárquico. Por ello en la literatura es frecuente crear dos grandes troncos de los cuales surgen la mayoría de los algoritmos: agrupamiento jerárquico y agrupamiento particional.

• Algoritmos de agrupamiento jerárquicos : Los métodos jerárquicos consiguen la clasificación final mediante la separación (métodos divisivos) o la unión (métodos aglomerativos) de grupos de muestras. Así, estos métodos generan una estructura en forma de árbol en la que cada nivel representa una posible clasificación de las muestras (Willet, 1998).

• Algoritmos de agrupamiento particionales : Los métodos no jerárquicos, también llamados particionales, o de optimización llegan a una única clasificación que optimiza un criterio predefinido o función objetivo, sin producir una serie de grupos anidados (Everitt, 1993).

La clasificación automática de muestras se encuentra en la categoría no supervisada, ya que los criterios de agrupamiento se basan en la información contenida en los mismos para determinar sus similitudes.

28

3.1.10 Métodos Jerárquicos

Los algoritmos jerárquicos crean una descomposición jerárquica del conjunto de datos representado como un dendrograma, el cual es un árbol que representa la secuencia jerárquica de estructuras de agrupamiento obtenidas (Dubes y Jain, 1976; Hubert, 1974; Friedman y Robin, 1967; Johnson, 1967; Zahn, 1971).

Cada vértice (nodo) del árbol es un grupo de elementos. La raíz del árbol (primer nivel) se compone de un sólo grupo que contiene todos los elementos. Cada hoja del último nivel del árbol es un grupo compuesto por un sólo elemento (hay tantas hojas como objetos tenga la colección). En los niveles intermedios, cada nodo del nivel n es dividido para formar sus hijos del nivel n + 1. La figura 3.3 ilustra estos conceptos para el conjunto de datos de la figura 3.2 que sirve de ejemplo. Los algoritmos de agrupamiento jerárquicos fueron uno de los primeros enfoques para los problemas de clasificación de muestras, y todavía se siguen utilizando debido a la forma simple e intuitiva en la que trabajan (Dash y Liu, 2001). De acuerdo a la metodología que aplican para obtener el dendograma, los algoritmos jerárquicos pueden dividirse en aglomerativos y divisivos (Han et al., 2001).

Los algoritmos aglomerativos comienzan considerando que cada muestra forma un cluster por sí misma para que a continuación se unan para formar grupos de mayor número de vectores de datos de acuerdo a una métrica. El algoritmo finaliza cuando todas las muestras se encuentren unidas formando un único cluster o también se puede detener en cualquier punto anterior deseado.

29

Figura 3.2. Vectores de datos en un espacio bidimensional

Los algoritmos divisivos siguen una estrategia contraria a los aglomerativos, es decir, comienzan considerando un único cluster que contenga la totalidad de vectores del conjunto de datos para ir sucesivamente fragmentando en grupos más pequeños hasta que cada muestra forme un cluster por sí misma o también se puede detener en cualquier otro punto.

Figura 3.3. Posible dendrograma para el conjunto de datos de la figura 3.2

Como se ha dicho anteriormente, los métodos aglomerativos parten de las hojas del árbol, ubicando a cada elemento en su propio grupo, y en cada paso buscan los dos grupos más cercanos para juntarlos. Los divisivos, por su parte, hacen el camino inverso. Comenzando en la raíz, en cada paso seleccionan un grupo para dividirlo en dos, buscando que el agrupamiento resultante sea el mejor de acuerdo a un criterio predeterminado. El análisis necesario para pasar de un nivel a otro (decidir qué grupo dividir o cuales juntar) es más sencillo para los métodos aglomerativos (Dash y Liu, 2001), y esto hace que éstos sean más utilizados que los divisivos (Fasulo, 1999; Steinbach et al., 2000).

Las distintas variantes de algoritmos jerárquicos aglomerativos difieren únicamente en la manera de determinar la semejanza entre los grupos al seleccionar los dos grupos más

30

cercanos (Qin He, 1996; Willet, 1998; Cole, 1998; Jain et al., 1999; Fasulo, 1999). La similitud de dos grupos se calcula en base a los valores de semejanza existentes entre sus muestras, pero la forma de hacer este cálculo no es única. Dada una medida de semejanza entre muestras, que puede considerarse la misma para todos, los distintos algoritmos jerárquicos aglomerativos se distinguen por la medida de semejanza entre grupos que utiliza cada uno.

La figura 3.4 presenta un espacio bidimensional en el cual se han colocado 4 grupos de objetos. Los objetos de un mismo grupo se han representado mediante el mismo símbolo (círculos vacíos y llenos, cuadrados vacíos y llenos).

Figura 3.4. Ejemplo de conjunto de 4 clusters o grupos

La figura 3.5 y la figura 3.6 muestran cómo los métodos pueden diferir entre ellos al seleccionar cuáles son los grupos más semejantes. En las figuras se utiliza la distancia Euclidiana como medida de semejanza entre las muestras.

3.1.10.1 Enlace simple (“single link”)

El método de enlace simple, también llamado “del vecino cercano” (en inglés “nearest neighbour”), calcula la semejanza entre dos grupos como la semejanza entre los dos elementos más cercanos de ambos (ver figura 3.5). Este método es eficaz cuando los grupos tienen formas irregulares, pero es muy sensible a la existencia de elementos dispersos que no forman parte de ningún grupo definido, llevando a la creación de grupos alargados,

31

compuestos de objetos disímiles (Cole, 1998; Karypis et al., 1999). Éste efecto recibe el nombre de “encadenamiento”.

Figura 3.5. Distancias entre todos los grupos mediante enlace simple

3.1.10.2 Enlace completo (“complete link”)

En el extremo opuesto del método de enlace simple se encuentra el método de enlace completo, que calcula la semejanza entre dos grupos usando la semejanza de los dos elementos más lejanos (ver figura 3.6). De esta manera, el método no sufre del efecto de “encadenamiento”, y encuentra con eficacia grupos pequeños y compactos. Sin embargo, cuando los grupos no están bien definidos, puede llevar a la creación de grupos sin significado.

3.1.10.3 Enlace promedio (“average link”)

A mitad de camino entre los dos métodos anteriores, el algoritmo de enlace promedio define a la semejanza entre dos grupos como el promedio de las semejanzas de cada miembro de uno con cada miembro del otro. Al tomar propiedades de los métodos de enlace simple y completo, éste algoritmo obtiene resultados aceptables en una escala de situaciones más amplia (Cole, 1998).

32

Figura 3.6. Distancias entre todos los grupos mediante enlace completo

3.1.10.4 Descripción del algoritmo jerárquico

Supóngase que existen n objetos como conjunto de datos a clasificar tal como se indica en la figura 3.7.

1. Empezar con n grupos de un solo elemento y una matriz D = d(i, j) de similitud.

2. Determinar la distancia d(U, V) entre los grupos más similares.

3. Unir los grupos U y V en un nuevo grupo UV y actualizar la matriz de similitud remplazando las filas y columnas de U y V por una fila y columna UV.

4. Repetir 2 y 3 n – 1 veces, anotando el nivel y los grupos que se han unido en cada paso.

33

Figura 3.7. Datos a usar por el algoritmo jerárquico

Usando el método de enlace simple se obtienen las siguientes matrices de distancia y el dendograma de la figura 3.8.

S1 S2 S3 S4 S5

S1 0 3,5 5,5 8,5 8 S2 3,5 0 2 5 6,5 S3 5,5 2 0 3 5 S4 8,5 5 3 0 4 S5 8 6,5 5 4 0

S2 S3 S1 S4 S5

S2 S3 0 3,5 3 5 S1 3,5 0 8,5 8 S4 3 8,5 0 4 S5 5 8 4 0

S2 S3 S4 S1 S5

S2 S3 S4 0 3,5 4 S1 3,5 0 8 S5 4 8 0

S2 S3 S4 S1 S5

S2 S3 S4 S1 0 4

34

S5 4 0

Figura 3.8. Dendograma obtenido mediante enlace simple

Por otra parte, mediante el método de enlace completo se han obtenido las siguientes matrices de distancia y el dendograma de la figura 3.9.

S1 S2 S3 S4 S5

S1 0 3,5 5,5 8,5 8 S2 3,5 0 2 5 6,5 S3 5,5 2 0 3 5 S4 8,5 5 3 0 4 S5 8 6,5 5 4 0

S2 S3 S1 S4 S5 S2 S3 0 5,5 5 6,5

S1 5,5 0 8,5 8 S4 5 8,5 0 4 S5 6,5 8 4 0

S2 S3 S4 S5 S1 S2 S3 0 6,5 5,5

35

S4 S5 6,5 0 8,5 S1 5,5 8,5 0

S2 S3 S1 S4 S5 S2 S3 S1 0 8,5

S4 S5 8,5 0

Figura 3.9. Dendograma obtenido mediante enlace completo

3.1.10.5 Método de Ward

Este método define la “suma de errores cuadrados” como la suma del cuadrado de la distancia de cada objeto al centroide de su grupo. Así, para un grupo de elementos X, compuesto por N elementos xi y cuyo centroide es CX:

∑=

−=N

1i

2Xix CxW

(3.16)

Y, para un agrupamiento de k grupos:

∑=

=k

1iix WW (3.17)

36

Al comenzar el algoritmo, la suma de errores cuadrados vale cero, ya que cada elemento forma su propio grupo y coincide con el centroide. En cada paso, el método evalúa cada una de las posibles uniones y elige aquella que produce el menor incremento del error. Este método tiende a producir grupos de tamaños iguales, y su rendimiento es comparable al del método de enlace promedio (Cole, 1998).

3.1.10.6 Resumen de características

Entre las características de estos métodos pueden destacarse las siguientes:

• Su forma de trabajo es simple e intuitiva. El enfoque utilizado por estos métodos es semejante al que utilizaría una persona para realizar la tarea del agrupamiento, especialmente los aglomerativos (comenzar juntando las muestras más similares entre sí, y luego buscar similitudes entre los grupos).

• Su resultado es una serie de agrupamientos anidados. Esto facilita la revisión de los resultados por parte del usuario, que puede recorrer la estructura de árbol para ver agrupamientos con diferentes niveles de detalle (Maarek et al., 2000).

• Son deterministas. Al aplicar dos veces un algoritmo jerárquico a un conjunto de datos, las dos veces seguirá el mismo camino hacia la solución. Hay algunos agrupamientos que el algoritmo nunca considerará, sin importar la cantidad de veces que se lo ejecute (Steinbach et al., 2000).

• No revisan las decisiones que toman en los pasos anteriores. Una vez que dos muestras se han asignado al mismo grupo (o se han colocado en distintos grupos, en los divisivos), ningún paso posterior los volverá a separar (o juntar), por lo que una mala asignación en los primeros pasos no puede corregirse (Cole, 1998).

• Requieren grandes tiempos de cómputo. La forma de buscar en cada paso los grupos a unir (o dividir, en los divisivos), hacen que las implementaciones conocidas de estos algoritmos tengan tiempos de ejecución del orden de n2 (enlace simple) o n3 (enlace completo) (Zamir et al., 1998).

3.1.11 Métodos particionales

Los métodos particionales, a diferencia de los jerárquicos, no van generando distintos niveles de agrupamiento de los objetos, sino que trabajan en un sólo nivel, en el que se refina (optimiza) un

37

agrupamiento (Everitt, 1993). Si bien los distintos niveles de agrupamiento generados por los algoritmos jerárquicos son más apropiados para la presentación de los resultados al usuario, las técnicas de optimización se están comenzando a utilizar con más frecuencia en aplicaciones de clasificación automática de muestras debido a requieren considerablemente menos recursos (Zhao et al., 2001).

Los algoritmos particionales difieren de los jerárquicos en el sentido que admiten reubicaciones de los vectores de datos en la estructura de pertenencia a los clusters y, de esta forma, es posible que aunque se produzca en el peor de los casos una partición inicial defectuosa puede corregirse mediante iteraciones posteriores. Las posibles soluciones de estos algoritmos no forman dependencias jerárquicas entre sí, limitándose únicamente a buscar una partición mediante una función de medida que sirva como criterio de optimización. La diferencia interna en la clase de los particionales es la forma de elegir la partición inicial y la función criterio a optimizar. Además los métodos iterativos realizar más de una pasada sobre todo el conjunto de datos para intentar refinar la estructura obtenida corrigiendo de esta forma una de las mayores deficiencias que presentan los jerárquicos.

Los métodos particionales asumen que el valor de k (la cantidad de grupos), está definida de antemano (Qin He, 1996).

La estructura general de estos métodos se compone de los siguientes pasos (Han et al., 2001):

1) Seleccionar k puntos representantes (cada punto representa un grupo de la solución).

2) Asignar cada elemento al grupo del representante más cercano, de forma de optimizar un determinado criterio.

3) Actualizar los k puntos representantes de acuerdo a la composición de cada grupo.

4) Volver al punto 2)

Este ciclo se repite hasta que no sea posible mejorar el criterio de optimización.

3.1.11.1 Selección inicial de los representantes

El método más frecuentemente utilizado para obtener los k puntos representantes iniciales es seleccionarlos al azar (Bradley, 1998). Esta técnica es la más rápida y simple, pero también la más

38

arriesgada, ya que los puntos elegidos pueden ser una mala representación de la colección de objetos. Cuando se utiliza esta técnica, se ejecuta varias veces el algoritmo de agrupamiento para distintas selecciones aleatorias, tomando el mejor resultado y descartando el resto (Steinbach et al., 2000).

El resto de las técnicas para la selección inicial utilizan algún algoritmo de agrupamiento (generalmente jerárquico) para obtener la selección inicial (Bradley, 1998). Lógicamente, no se realiza un agrupamiento de todos los objetos de la colección ya que el objetivo no es llegar a la solución mediante un algoritmo jerárquico, sino solamente obtener los puntos iniciales para luego usar un algoritmo de optimización (más rápido); las técnicas “Buckshot” y “Fractionation” (Cutting et al., 1992) son un ejemplo de esto último.

3.1.11.2 Criterios de optimización

Los algoritmos particionales buscan optimizar el valor de un criterio de optimización. Estos criterios deben ser funciones que den una medida cuantitativa de la calidad de un agrupamiento. En (Zhao et al., 2001) se analizan los criterios de optimización más frecuentemente utilizados en la clasificación automática de muestras, que se detallan a continuación.

3.1.11.2.1 Criterios internos

Los criterios internos dan una medida de la cohesión interna de los grupos. Para cada grupo se calcula un valor en base a los objetos que lo componen (sin tener en cuenta elementos de otros grupos), y luego se suman los valores de cohesión de cada uno.

• Maximización de la suma de similitudes promedio

Para cada grupo se calcula el promedio de las similitudes que existen entre cada par de muestras que lo componen. Suponiendo que existen k clusters o grupos compuestos cada uno de ellos por ni elementos pertenecientes a un cluster Xi:

( )∑ ∑=

∈∈

=k

1iXxXx

lji

ilij

x,xsimn

1similitud

(3.18)

39

El valor total para el criterio se obtiene sumando las similitudes promedio de cada grupo multiplicadas por su cantidad de elementos. Este criterio toma valores más altos cuando los elementos de cada grupo son más similares entre sí.

• Maximización de la suma de las similitudes con el centroide

Para cada grupo se calcula la suma de las similitudes que existen entre cada elemento y el centroide. Existen k clusters compuestos cada uno de ellos por xj elementos pertenecientes a un cluster Xi cuyo centroide es CXi.

( )∑ ∑= ∈

=k

1i XxXj

iji

C,xsimcentroide_similitud

(3.19)

El valor total para el criterio se obtiene sumando las similitudes promedio de cada grupo. Los valores más altos se alcanzan cuando cada objeto se encuentra cerca del centro de su grupo.

• Minimización de la suma de errores cuadrados

Este criterio es el mismo que utiliza el método de Ward.

3.1.11.2.2 Criterios externos

Los criterios externos tienen en cuenta la separación que existe entre los distintos grupos. Se considera que un agrupamiento es mejor que otro cuando sus grupos están más separados del centro de la colección.

• Minimización de la similitud de los centroides con centroide de la colección

Este criterio calcula la similitud existente entre el centroide de cada grupo y el centro de la colección, y luego suma los valores multiplicados por el tamaño de cada grupo.

( )∑=

=k

1ii C,Csimexterna_similitud

(3.20)

• Maximización de la distancia de los centroides al centroide de la colección

En lugar de minimizar las similitudes, este criterio intenta maximizar las distancias.

40

∑=

−=k

1ii CCexterna_ciatandis

(3.21)

3.1.11.2.3 Evaluación de los criterios

En (Zhao et al., 2001) se evalúan cada uno de los criterios detallados, aplicados al agrupamiento de colecciones de muestras. El criterio interno de maximización de la suma de similitudes con el centroide (que es el que se utiliza más comúnmente en la bibliografía), obtiene los mejores resultados al aplicar cada uno de los criterios en forma individual. El trabajo propone una combinación de éste con el criterio externo de minimización de la similitud de los centroides con el centro de la colección, que mejora el rendimiento del algoritmo de agrupamiento, produciendo grupos de tamaños más equilibrados.

3.1.11.3 Algoritmos de optimización

Existen variantes de algoritmos de optimización en la literatura (Rasmussen, 1992; Qin He, 1996; Jain et al., 1999; Han et al., 2001) que implementan la estructura básica de cuatro pasos descripta anteriormente. Estos algoritmos son similares entre sí, por lo que se describirá únicamente el algoritmo “k-means”, que, además de ser el referente más típico en la bibliografía, es el que más frecuentemente se encuentra aplicado al campo de clasificación automática de muestras (Steinbach et al., 2000).

3.1.11.3.1 Algoritmo “K-means”

Como se ha dicho anteriormente los algoritmos de agrupamiento particional dividen el conjunto de datos en un número de clusters mediante la minimización de alguna función de error. El número de clusters generalmente debe ser predefinido, pero puede formar también parte de la función de error.

La mayoría de los algoritmos particionales utilizan como criterio de optimización el error cuadrático. El objetivo general es obtener la estructura de un número predefinido de grupos de vectores de datos que minimice el error cuadrático. K-means es un método particional muy utilizado, que usa el criterio del error cuadrático minimizando la función de error:

∑ ∑= ∈

−=C

k Qx

2k

k

cxE1 (3.22)

41

donde C es el número de clusters, ck es el centro del cluster k y x es un vector de datos que pertenece al cluster Qk.

Establecimientodel número de

clusters

Inicialización

de los centros

de los clusters

Cálculode la particiónpara los datos

Actualizaciónde los centrosde los clusters

¿ La particiónno

varía ?FIN

SÍ

NO

Figura 3.10. Algoritmo K-means.

El método K-means minimiza la suma de las distancias cuadráticas que existen entre todos los puntos de un cluster y su centroide. El algoritmo está descrito en la figura 3.10. Este algoritmo, presentado originalmente por McQueen (McQueen, 1967), utiliza a los centroides de cada grupo como sus puntos representantes. Partiendo de una selección inicial de k centroides (que pueden ser k elementos de la colección seleccionados al azar o los que se obtengan mediante la aplicación de alguna técnica de inicialización), cada uno de los elementos de la colección se asigna al grupo con el centroide más cercano. A continuación, se calcula el centroide de cada uno de los grupos resultantes. En los primeros pasos se obtienen las mayores diferencias entre los centroides originales y los calculados luego de las reasignaciones. Los puntos de la colección vuelven a asignarse al grupo del centroide más cercano, y estos pasos se repiten hasta que los k centroides no cambian luego de una iteración (ésto es equivalente a decir que el valor de la función utilizada como criterio de optimización no varía). El algoritmo “K-means” encuentra una clasificación que representa un óptimo local del criterio elegido (Bradley et al., 1998). Este procedimiento puede resumirse en los siguientes pasos:

1. Establecer una partición inicial con K clusters y sus centroides z1(1), z2(1),..., zK(1).

2. En la iteración k-ésima, asignar los vectores de datos x a los correspondientes K clusters usando la expresión (3.23),

)k(x-z)k(x-z)k(Cx ijj <∈ si (3.23)

42

para todo i = 1, 2, …, K; i ≠ j; donde Cj(k) es el conjunto de muestras cuyo centroide es zj(k).

3. Calcular (3.24) los nuevos centroides zj(k+1), j = 1, 2, ..., K tal que la suma de las distancias cuadráticas desde todos los puntos en Cj(k) al nuevo centroide sea mínima. La medida que cumple esto es simplemente la mediana de las muestras de Cj(k). Por tanto, el nuevo centroide quedaría ubicado por las Nj muestras en Cj(k).

∑∈

=+)k(Cxj

jj

xN

1)1k(z

(3.24)

4. Si zj(k+1) = zj(k) para j = 1, 2, …, K o si se ha llegado a un valor óptimo de la función de error entonces se considera que el algoritmo ha convergido y el proceso se da por finalizado. En caso contrario, se salta para proseguir en el paso 2.

De la descripción del algoritmo se deduce que la estructura final depende de la posición inicial de los centroides y del valor K de clusters considerados. Esto último es realmente problemático, ya que requiere conocimiento apriorístico del número de grupos naturales presentes en los datos, lo cual es en la práctica muy improbable de obtener.

Desde la figura 3.11 a la figura 3.14 se ilustra el funcionamiento del algoritmo. En dichas figuras puede verse cómo una iteración del algoritmo refina el agrupamiento. Los objetos de la colección están representados mediante círculos vacíos y los centroides de cada grupo con círculos llenos. En la figura 3.11 se muestran los objetos de la colección y los centroides que el algoritmo ha encontrado hasta la iteración enésima. En la figura 3.12, cada objeto de la colección se ha asignado al grupo con el centroide más cercano. Los nuevos centroides, calculados a partir de la composición de los grupos, se muestran en la figura 3.13. En la figura 3.14 puede verse la situación inicial para la iteración siguiente. En este paso, el algoritmo encontrará los 4 grupos claramente definidos que existen en la colección. La disposición de los objetos se ha elegido especialmente para que la mejora en el agrupamiento sea evidente.

El algoritmo de agrupamiento particional K-means es eficiente de forma computacional y proporciona buenos resultados si los clusters son compactos, hiperesféricos y distanciados entre ellos en el hiperespacio. El algoritmo es capaz de detectar grupos de forma hiperelipsoidal. El algoritmo K-means ha sido mejorado mediante la incorporación de una función de criterio borroso (Bezdek, 1981)

43

resultando el algoritmo fuzzy K-means. Sin embargo estas mejoras tiene un alto coste computacional y la metodología aún no está del todo definida. Además, diferentes concepciones de los algoritmos particionales conducen esencialmente al mismo algoritmo.

Figura 3.11. Conjunto de datos bidimensionales y sus tres centroides en la iteración N

Figura 3.12. Las muestras se asignan al grupo del centroide más cercano

44

Figura 3.13. Se calculan los centroides para la iteración N+1

Figura 3.14. Situación inicial para la iteración N+1

3.1.11.3.2 Otros algoritmos particionales

El algoritmo PAM (Partitioning Around Medoids), (Kaufman y Rousseeuw, 1990), es una extensión a K-means con el objetivo de tratar eficientemente los outliers. En lugar de centros de clusters, el algoritmo escoge para representar a cada cluster su medoid correspondiente. Un medoid es el objeto más localizado centralmente dentro de un cluster. Como consecuencia, los medoid están menos influenciados por valores extremos, la media de un número de objetos tiende a estos valores extremos mientras que un medoid no lo hace. Por tanto, los centros de clusters calculados

45

como el valor medio de las muestras del cluster están más influenciados por el ruido que los medoid.

El algoritmo elige K medoides iniciales y recoloca los restantes objetos en clusters cuyo medoid se encuentra más cercano a ellos mientras que intercambia medoides con no medoides si la calidad de los resultados de agrupamiento mejora. La calidad de los resultados se mide también mediante el error cuadrático entre objetos dentro de un cluster y su medoid.

La complejidad computacional del algoritmo PAM es Φ(I k(n-k)2) siendo I el número de iteraciones, n el número de muestras y k el número de clusters, haciéndose muy costosa para grandes valores de n y k.

Una solución a este problema sería el algoritmo CLARA, por Kaufman y Rousseeuw (Kaufman y Rousseeuw, 1990). El algoritmo divide la base de datos de n muestras en subconjuntos de s muestras y aplica el algoritmo PAM a cada subconjunto. El resultado depende de las s muestras escogidas y es el mejor resultado generado por el PAM para estas muestras. La complejidad computacional es Φ(k(40+k)2+(k(n-k)). Con este algoritmo surge el problema de que el resultado puede no representar el conjunto de datos original sino simplemente ser una solución óptima local. El inconveniente es que si los medoides óptimos del conjunto de datos original no están contenidos en el subconjunto entonces el resultado probablemente no será óptimo.

El algoritmo CLARANS (Ng y Han, 1994) utiliza PAM también, asimilando el conjunto a un grafo de nodos en el que cada nodo es un medoid. La aplicación se desarrolla en los siguientes pasos:

1. Elegir aleatoriamente k medoides.

2. Escoger aleatoriamente un medoid e intercambiarlo por un no medoid.

3. Si el coste de la nueva configuración es menor, repetir el paso 2 con esta nueva configuración.

4. Si el coste de la nueva configuración es mayor, repetir el paso 2 intercambiando el medoid con otro no medoid diferente al menos que se alcance un límite de intentos preestablecido.

5. Comparar las soluciones y quedarse con la mejor.

46

6. Repetir el paso 1 al menos que se alcance un valor máximo de intentos.

CLARANS compara una muestra con todas las demás en el peor de los casos. Su complejidad computacional es Φ(kn2) lo que no lo hace adecuado para grandes conjuntos de datos.

Figura 3.15. Resultados de K-means en diversos conjuntos

La figura 3.15 representa la aplicación del algoritmo K-means en tres tipos de conjuntos de datos. El algoritmo funciona bien cuando las muestras se encuentran distribuidas en grupos separados y, a poder ser, de forma esférica (figura 3.15a).

a)

b)

c)

47

Para el segundo conjunto de datos los dos grupos se encuentran muy cercanos y algunas muestras podrían clasificarse en cualquiera de los dos grupos (figura 3.15b).

En tercer caso, K-means no funciona bien en grupos concavos debido a la utilización de la distancia Euclídea. PAM funcionaría mejor pues se ve menos afectado por los outliers como se ha comentado antes (figura 3.15c).

Los algoritmos particionales se restringen a datos numéricos de baja dimensionalidad con grupos de alta densidad inherentemente distribuidos de forma alejada entre ellos.

3.1.11.4 Resumen de características

Entre las características de estos métodos pueden destacarse las siguientes:

• Pueden ser no deterministas. Partiendo del mismo agrupamiento inicial, los métodos llegarán siempre a la misma solución. Sin embargo, los métodos para la selección inicial son no deterministas. El algoritmo evaluará diferentes agrupamientos cada vez que se lo ejecute, y (si los grupos no están claramente separados) podrá llegar a soluciones distintas (Steinbach et al., 2000).

• Pueden corregir errores cometidos en pasos anteriores. En cada paso del algoritmo los objetos de la colección se asignan al grupo más apropiado según el criterio de optimización. De esta manera, el algoritmo va refinando el agrupamiento en cada iteración (Qin He, 1996).

• Pueden implementarse en forma eficiente. Las restricciones de recursos son la causa principal por la que se utilizan este tipo de métodos. Estos algoritmos pueden implementarse de forma que sus tiempos de ejecución sean del orden de n (Han et al., 2001).

En resumen, los algoritmos jerárquicos son más eficientes que los particionales para el tratamiento de señales con mucho ruido o con presencia de “outliers”. Sin embargo, tienen la desventaja que no pueden ser refinados en pasos posteriores ya que las estructuras obtenidas tienen una dependencia jerárquica. Los métodos jerárquicos y particionales pueden ser integrados para intentar aprovechar los beneficios de cada clase. Esto supondría que un método jerárquico puede ser mejorado mediante el uso de un particional que refine la estructura de grupos.

48

Otras clases de algoritmos de agrupamiento, aparte de las jerárquicas y particionales, son descritas en la siguiente sección.

3.1.12 Otras técnicas de agrupamiento

Aparte de las dos principales categorías de algoritmos de agrupamiento (particionales y jerárquicos) han aparecido numerosos métodos orientados a la resolución de problemas específicos o determinados tipos de conjuntos de datos.

3.1.12.1 Algoritmos de densidad

Estos algoritmos agrupan los objetos según la función de densidad establecida. La densidad será el número de objetos que se encuentran en una región del espacio de datos. El algoritmo incrementará el tamaño del cluster mientras se cumpla que el número de objetos encontrados en la región vecina del cluster exceda un parámetro objetivo. Nótese la diferencia respecto a los algoritmos de partición en los que se recalculan las posiciones de los centroides de un número prefijado de grupos.

3.1.12.2 Algoritmos de rejilla

Se aplican principalmente a conjuntos de datos espaciales, es decir, conjuntos que definen la estructura geométrica de objetos situados en el espacio. Los algoritmos de rejilla hacen una cuantificación del conjunto de datos en una serie de celdas para facilitar el trabajo con las muestras pertenecientes a cada celda. Se parecen a los algoritmos jerárquicos, pero el criterio para unir rejillas no es la distancia sino otro parámetro predefinido.

3.1.12.3 Algoritmos de modelo

Intentan ajustar los parámetros de un modelo que represente un conjunto de datos. Pueden ser jerárquicos o particionales. Se parecen también a los de densidad.

3.1.12.4 Algoritmos categóricos

Se aplican a conjuntos de datos en los que no se puede aplicar la distancia como función objetivo. A su vez, pueden ser jerárquicos o particionales.

3.1.13 Índices de validación usados en agrupamiento exclusivo

Algunas deficiencias comúnmente reconocidas en los algoritmos de agrupamiento son (Leung et al., 2000):

49

• Los resultados de la estructura obtenida tras aplicar un algoritmo de agrupamiento, especialmente de partición, son sensibles a la inicialización. Así, diferentes configuraciones iniciales pueden conducir a diferentes particiones dependiendo de la función de coste.

• No se puede garantizar la obtención de un resultado óptimo ya que, por ejemplo, pueden darse problemas de mínimos locales al igual que ocurre con las redes neuronales.

• Además, los algoritmos de agrupamiento no responden a preguntas tan importantes como: ¿Cuántos agrupamientos pueden realizarse con el conjunto de datos?, ¿cuáles de estos agrupamientos son realmente válidos?

Los índices de validación usados para algoritmos exclusivos son descritos a continuación y persiguen cuantificar la idoneidad de la partición obtenida tras la aplicación del algoritmo.

3.1.13.1 Estadística de Hubert modificada

La definición de la estadística de Hubert modificada viene dada por la ecuación (3.25).

)j,i(Q)j,i(P)M/1(1N

1i

N

1ij∑ ∑−

= +=⋅=Γ

(3.25)

donde M=N(N-1)/2, P es la matriz de proximidad o de distancias entre los N elementos del conjunto de datos y Q es una matriz NxN cuyo elemento (i, j) es igual a la distancia entre los centroides (zi, zj) de los grupos a los que pertenecen las muestras xi y xj.

De forma similar, se define la estadística de Hubert normalizada. Si d(zi, zj) es aproximadamente igual a d(xi, xj) para i, j =1, 2,..,N, P y Q serán casi idénticas y los valores de Γ y Γn (Γ normalizada) serán elevados. Valores altos de Γn delatan la existencia de grupos compactos en la gráfica de normalizado versus número de grupos. Así pues se estima que el número de clusters válido corresponde al valor más alto.

Para nc = 1 y nc = N el índice no está definido, donde nc es el número de grupos.

50

3.1.13.2 Índices Dunn y casi-Dunn

Estos índices (Dunn, 1974) intentan encontrar grupos compactos suficientemente separados entre sí. El índice queda definido por la ecuación (3.60) para un número específico de clusters.

=

=+== )c(diam

)c,c(dD

kn,...,1k

ji

n,...,1ijn,...,1inc

ccc max

minmin

(3.26)

donde d(ci, cj) es la función de disimilaridad entre dos clusters ci y cj definida como

)y,x(d)c,c(dji cy,cx

ji∈∈

= min

(3.27)

en el que diam(C) es el diámetro de un cluster C y puede considerarse como una medida de dispersión de los grupos. El diámetro de un cluster C se formula:

)y,x(d)C(diamCy,x ∈

= max (3.28)

Es obvio que si el conjunto de datos contiene grupos suficientemente alejados entre sí y compactos, la distancia entre grupos será grande y el diámetro de los grupos pequeños. Así valores elevados del índice indican la presencia de grupos compactos y distantes entre sí.

El índice Dnc no presenta correlación con el número de grupos, por lo que el máximo valor de Dnc versus el número de clusters puede considerarse como una buena indicación del número de clusters presentes en los datos. Sin embargo, el índice Dunn presenta inconvenientes tales como la considerable cantidad de tiempo necesaria para su computación y la sensibilidad que presenta ante el ruido, ya que éste produce un aumento del diámetro de los grupos.

Pal y Biswas (1997) propusieron tres índices que son más robustos a la presencia de ruido y son conocidos como índices casi-Dunn ya que están basados en el índice Dunn. Además, los índices usan conceptos como “minimum spanning tree” (MST), “relative neighborhood graph” (RNG) y “Gabriel graph” (GG) respectivamente (Theodoridis y Koutroubas, 1999).

51

3.1.13.3 Índice Davies-Bouldin (DB)

Este índice introduce una medida de semejanza Rij entre los clusters Ci y Cj basada en una medida de dispersión en un grupo si y la medida de disimilaridad entre dos grupos dij. Se define Rij para satisfacer las condiciones siguientes (Davies y Bouldin, 1979):

• Rij ≥ 0

• Rij = Rji

• Si si = 0 y sj = 0 entonces, Rij = 0

• Si sj > sk y dij = dik entonces, Rij > Rik

• Si sj = sk y dij < dik entonces, Rij > Rik

Estas condiciones aseguran que Rij sea no negativa y simétrica. Rij queda definida de la siguiente forma para satisfacer las anteriores condiciones (Davies y Bouldin, 1979):

{ }∑ ∈ −=iCx i

ii zx

C

1s

(3.29)

jiij zzd −= (3.30)

( )ij

jiij d

ssR

+=

(3.31)

Finalmente el índice DB se define como

∑=

=cn

1ii

cnc R

n

1DB

(3.32)

ijji,n,...,1i

i RRc ≠=

= max (3.33)

Es obvio que DBnc es el promedio de semejanza entre cada grupo ci, i=1,…, nc y su grupo más similar. Se busca que los diferentes grupos de la partición tengan la mínima semejanza entre sí por lo que se buscan particiones que produzcan un mínimo índice DB. El índice DBnc no presenta correlación con el número de grupos considerados y puede estimarse el número de clusters óptimo como el correspondiente al valor mínimo de DBnc.

52

Davies y Bouldin (1979) presentaron algunas alternativas para las medidas de disimilaridad entre clusters y de dispersión dentro de un cluster.

Además, Pal y Biswas (1997) propusieron tres índices que son una variante del índice DBnc basadas en conceptos MST, RNG y GG de forma similar a los índices casi-Dunn.

Finalmente, se han propuesto otros índices de validación para agrupamiento exclusivo (Milligan et al., 1983). La implementación de la mayoría de estos índices es costosa en su forma computacional, especialmente cuando el número de muestras y clusters es elevado. Milligan y Cooper (1985) realizan un estudio de treinta índices de validación situando Caliski y Harabasz (Caliski y Harabasz, 1974), Je(2)/Je(1) (Duda y Hart, 1973), C-index (Hubert y Schultz, 1976) y Gamma (Hays, 1973) entre los mejores índices. A pesar de los buenos resultados se debe tener en cuenta que estos índices son dependientes de los datos proporcionados al algoritmo por lo que el comportamiento de los índices podría cambiar si se utilizan distintos conjuntos de datos.

53

4 El algoritmo SOM 4.1.1 Introducción al SOM

Self-Organizing Map (SOM) visualiza la morfología de los datos en un espacio bidimensional en lo relativo a su comportamiento. SOM (Kohonen, 1982, 1990, 1995; Kohonen et al., 1996) es un algoritmo de red neuronal que se basa en un aprendizaje no supervisado. El algoritmo más básico del SOM consiste en una red, normalmente de una o dos dimensiones, sobre la que se sitúan un número definido M de neuronas o unidades del mapa. Las neuronas antes del entrenamiento están distribuidas de forma equidistante entre ellas, formando una retícula regular. Es posible utilizar retículas de más de dos dimensiones, pero no se suelen emplear debido a la compleja visualización de los resultados. La retícula puede ser hexagonal o rectangular.

En el entrenamiento de la red SOM se asocia a cada neurona i un vector de pesos mi=[m i1,mi2,…,mid] donde d es la dimensionalidad de los datos de entrada, es decir el número de variables. Por tanto, en la mayoría de casos ocurre que la dimensionalidad de la retícula es menor que la de los datos de entrada d, de manera que el SOM es una técnica de reducción de dimensionalidad. Los vectores de pesos suelen denominarse vectores prototipo. Así, cada unidad o neurona está representada por un vector prototipo y se establece una correspondencia entre las coordenadas de cada unidad en el espacio de entrada (vectores prototipo) y sus coordenadas en la retícula o espacio de salida. El objetivo es encontrar un conjunto óptimo de vectores prototipo que forme un modelo de aproximación de la distribución de los datos de entrada y, por consiguiente, esa aproximación se proyecte en el espacio de salida para una mejor comprensión de la visualización.

El algoritmo es iterativo. A cada neurona i le corresponde un vector prototipo mi. En cada iteración se elige un vector x del conjunto de datos de entrenamiento de manera aleatoria y se computan las distancias entre este vector x y los vectores prototipo mi de todas las neuronas. La neurona ganadora b será aquella cuyo vector prototipo mb tenga una distancia menor a x según (4.1).

{ }ii

b mxmx −=− min (4.1)

54

Figura 4.1. El vector prototipo mi de la neurona i se asemeja al vector de datos x cuando se ejecuta el algoritmo.

A continuación se actualizan los vectores prototipo. El vector prototipo de la neurona ganadora mb y sus vectores prototipos de las neuronas vecinas tienden a acercarse al vector x en el espacio de entrada, como muestra la figura 4.1. La regla para la asignación del vector prototipo de la neurona i es:

[ ])t(mx)t(h)t()t(m)1t(m ibiii −⋅⋅+=+ α (4.2)

donde t es el tiempo, )t(α es la velocidad de aprendizaje y hbi(t) es una función de vecindad entre cada neurona i respecto a la neurona ganadora b.

)t(2

rr

bi2

2ib

)t(h σ⋅

−−

= e (4.3)

La función hbi(t) se suele tomar como una gaussiana (4.3) siendo rb y ri las posiciones de las neuronas b e i en la retícula 2D o espacio de salida y )t(σ es el radio de vecindad o también la desviación típica de la gaussiana. Tanto la velocidad de aprendizaje

)t(α como el radio de vecindad )t(σ son funciones monótonas decrecientes con el tiempo, de esta forma las actualizaciones en neuronas alejadas de la ganadora van cobrando menor importancia según avanza el entrenamiento (Mulier y Cherkassky, 1994).

xρ

( )tmi

ρ( )1tmi +

ρ

( ) ( ) ( )[ ]tmxtht ibi

ρρ−⋅⋅α

55

Figura 4.2. Radio de vecindad

Durante el entrenamiento, el SOM se comporta como una red elástica que envuelve a la “nube” formada por los datos de entrada. Una importante propiedad del SOM, que será explicada más adelante, es que las neuronas están conectadas a sus adyacentes respetando una relación de vecindad tanto en el espacio de entrada como en el de salida (Kohonen, 1982, 1995). Así, vectores de datos próximos son proyectados en el espacio de salida en neuronas vecinas. Esto es muy importante, ya que hace que el SOM preserve la topología del espacio de entrada.

Se ha demostrado que el SOM es una técnica IA muy útil y hay numerosas aplicaciones en Data Mining (Himberg, 1998; Deboeck and Kohonen, 1998; Lagus et al., 1996) y aplicaciones en ingeniería tales como reconocimiento de patrones, análisis de imagen, monitorización de procesos y detección de fallos (Alhoniemi et al., 1999; Kohonen et al., 1996; Simula and Kangas, 1995; Simula et al., 1999; Tryba and Goser, 1991).

4.1.2 El algoritmo batch

En el algoritmo batch la velocidad de aprendizaje )t(α no se utiliza para el cómputo de los nuevos pesos. Este algoritmo es iterativo como el básico del SOM pero en lugar de presentar un único vector del conjunto de datos en una sola vez lo que se hace es presentar todo el conjunto de datos de entrenamiento antes de que se realice la asignación de valores a los vectores prototipo. Por está razón, recibe el nombre de batch (lote).

56

∑

∑

=

= ⋅=+

N1j bi

N1j jbi

i)t(h

x)t(h)1t(m (4.4)

donde b es la neurona ganadora del vector de datos xj. El vector prototipo ya actualizado es una media del conjunto de datos ponderada por el valor de la función de vecindad hbi(t) en su neurona ganadora b.

4.1.3 Medidas, topología y validación del modelo

La validación del modelo de red neuronal auto-organizativa se basa en el criterio de la resolución y del ajuste de la red a la topología del conjunto de datos de entrenamiento como medida de calidad de representación de los datos (Vesanto, 1997; Díaz, 2000). Otra medida de calidad sería la derivabilidad de los planos de componentes o la suavidad de su superficie.

La conservación de la topología del conjunto de datos por parte del SOM es una característica importante que debe ser tenida en cuenta y se debe cumplir en el modelo obtenido. Un mapa con una gran resolución puede llegar a tener problemas de plegamiento sobre sí mismo incumpliendo el requisito de preservar la topología de los datos. Dos tipos diferentes de plegamiento pueden darse caso.

1. El primero sería aquel en el que dos vectores prototipo muy diferentes entre sí y, por tanto, muy alejados entre sí en el espacio de entrada sean mapeados como neuronas muy cercanas en el espacio de salida. Esto se distingue fácilmente en la matriz de distancias, u-matrix, y podrían corresponder a neuronas que marcan el contorno de un cluster tomando colores correspondientes a distancias alejadas.

2. El segundo caso sería cuando dos vectores prototipo muy semejantes y, por tanto, muy cercanos en el espacio de entrada correspondan a neuronas muy alejadas en la red. Esta situación puede delatarse cuando las dos neuronas más cercanas a un vector de datos dado (es decir, la ganadora y la segunda ganadora) sean unidades del mapa no adyacentes. Este tipo de plegamiento es indeseado y se suelen tomar como una medida para el error topográfico.

4.1.3.1 Errores topográficos

4.1.3.1.1 Error topográfico de Kiviluoto

57

La proporción de muestras o vectores de datos para los cuáles las dos principales neuronas ganadoras no son adyacentes, es el error topográfico (Kiviluoto, 1995) expresado en tanto por uno:

∑=

=N

1kkt )x(u

N

1e (4.5)

donde N es el número de muestras y xk es la muestra k-ésima del conjunto de datos. Para u(xk) se asigna un valor binario en función de la posición relativa entre las dos principales neuronas ganadoras de la muestra xk en el espacio de salida.

1. Si las dos principales neuronas ganadoras no son adyacentes → u(xk) = 1

2. Si las dos principales neuronas ganadoras sí son adyacentes → u(xk) = 0

El resultado es fácilmente interpretable y esta medida sirve tanto para comparar diferentes mapas como para diferentes conjuntos de datos.

4.1.3.1.2 Producto topográfico

Otra medida es el producto topográfico (Bauer y Pawelzik, 1992) en el que se establecen dos secuencias de índices de neuronas. Una secuencia se obtendría según la vecindad de las neuronas en la retícula del mapa de salida. La otra secuencia sería según la vecindad en el espacio de datos de entrada que correspondería a las neuronas. El resultado final se calcularía para todas las secuencias correspondientes a cada neurona del mapa.

4.1.3.1.3 Error topográfico Bezdek-Pal

Existe otro índice (Bezdek y Pal, 1993, 1995) que realiza una estimación de la preservación de la topología basándose en el “ranking” y la correspondencia existentes entre todos los pares de distancias entre neuronas y pesos en los espacios de salida y entrada, respectivamente. El índice se calcula mediante la correlación de los rankings (Kendall y Gibbons, 1990).

En ambos índices se intenta englobar la continuidad e isometría de la proyección de los datos de entrenamiento sobre el mapa. El concepto de continuidad se refiere aquí a la preservación de la vecindad, mientras que la isometría consistiría en preservar además las distancias.

4.1.3.1.4 Índice de Zrehen

58

El índice de Zrehen (Zrehen, 1993) se basa en el hecho de que dentro de la esfera formada dos vectores prototipo correspondientes a dos neuronas vecinas no puede contener ningún otro vector prototipo. Se calcula mediante el conteo del número.

Figura 4.3. Interpretación geométrica del índice Zrehen

4.1.3.2 Error de cuantificación

Para la medida de la resolución o el grado de aproximación mediante los vectores prototipo al conjunto de datos se suele tomar el error medio de cuantificación a lo largo de todo el conjunto de datos. N es el número de muestras del conjunto de datos, xi es el vector de datos i-ésimo y mb es el vector prototipo de la neurona ganadora para xi.

∑=

−=N

1ibiq mx

N

1e (4.6)

4.1.3.3 Error de cuantización topológico

Una medida que es combinación del error topográfico y del error medio de cuantización es el error de cuantización topológico etq (Kaski y Lagus, 1996). Este error combina lo anteriormente expuesto para medir las discontinuidades en la representación del conjunto de datos. Se calcula para ello el camino más corto en el espacio de entrada desde el vector de datos x pasando por el vector prototipo de su neurona ganadora mi hasta el vector prototipo de su segunda neurona ganadora mj, como muestra la figura 4.4.

∑ ∑=

=

=∈

−+−=N

1i

jk

ikkN'kiitq mmminmx

N

1e

1,k (4.7)

iw

jw

2

ww ji −

59

Figura 4.4. Cálculo del error de cuantización topológico

4.1.3.4 Similaridad entre mapas

Los modelos SOM pueden diferir bastante entre sí, aunque su error medio de cuantización y/o su error topológico sean idénticos. Por tanto, es necesario un método que permita comparar estos modelos entrenados. Podría compararse la localización de las neuronas ganadoras de los vectores de datos en los dos mapas pero esto dependería de las dimensiones de los mapas así como de la orientación del mapa.

Kaski y Lagus propusieron un método (Kaski y Lagus, 1996) que es una extensión del error de cuantización topológico. Para ello en ambos mapas, M1 y M2, se mide el camino más corto entre cada par de vectores de datos xi y xj pasando por los vectores prototipo de sus neuronas ganadoras mi y mj, respectivamente.

jj

jk

ikN'kkii1ji mxmmminmx)M;x,x(d

1,k−+

−+−= ∑=

=∈ (4.8)

La disparidad de los mapas se mide como el valor medio de la relación diferencial de estas distancias.

( )

+−

=)M;x,x(d)M;x,x(d

)M;x,x(d)M;x,x(dEM,MD

2ji1ji

2ji1ji21 (4.9)

mj mi

x

60

4.1.3.5 Análisis de sensibilidad

Una vez entrenada, la red SOM adquiere la geometría de los datos de entrenamiento y puede ser interpretada como un modelo que representa al conjunto de datos. Al ser un modelo, es interesante poder realizar un análisis de sensibilidad (Hollmén y Simula, 1996). Sea mk el vector prototipo de la neurona ganadora del vector y. Si se varía una componente i del vector y mediante i∂ :

iinyy~ ∂⋅+= (4.10)

donde ni es el vector unitario de la dimensión i-ésima, el vector prototipo que corresponderá a y~ será ml. La diferencia mk - ml da la respuesta del modelo al cambio introducido. La cuantización del error ║ y~ - ml║ se puede utilizar para estimar la fiabilidad del resultado.

Existe un método para aumentar la precisión del modelo. Sea i la neurona ganadora del vector de datos y. Primero, de entre las neuronas vecinas Ni,1 de la unidad i, se encuentra la neurona ganadora j para, finalmente, encontrar la neurona ganadora k en el conjunto Ni,1 ∩ Nj,1. Los vectores prototipo de estas tres neuronas adyacentes definen un plano en el espacio de entrada. Calculando la proyección y del vector de datos y en este plano, se puede obtener una mejor aproximación que mediante el vector prototipo mi de la neurona ganadora.

[ ] n)ym(nyy iT ⋅−⋅+= (4.11)

donde n es el vector unitario normal al plano. La proyección y debe estar contenida dentro del triángulo definido por mi, mj y mk.

4.1.4 Propiedades del SOM

4.1.4.1 Ordenación topológica

Cuando se definió el algoritmo SOM con la ecuación (4.2) se definió el núcleo (4.3) como una función gausiana centrada en la neurona ganadora y creándose de esta forma un radio de vecindad que afecta en mayor medida a neuronas próximas a la neurona ganadora que a neuronas más alejadas a la hora de realizar la actualización de los vectores prototipo cuando se presenta el vector de datos en el entrenamiento. Este núcleo (4.3) es el responsable de la propiedad de ordenación topológica del SOM por la cual los vectores prototipo vecinos en el espacio de entrada corresponden a neuronas vecinas del mapa SOM o espacio de salida. Por tanto, tras

61

la convergencia del proceso de entrenamiento, los vectores prototipo deben distribuirse de una forma adecuada a lo largo del espacio de entrada en el sentido que las relaciones de vecindad se deben respetar en la correspondencia entre neuronas de la retícula SOM y vectores prototipo en el espacio de entrada.

Se puede interpretar esto como una red que intenta ajustar a los datos de entrenamiento pero intentando no realizar excesivos plegamientos que conllevarían a una violación de la propiedad descrita.

Esta propiedad además implica una importante relación existente a la hora de proyectar los valores actuales de las variables de proceso con el objeto de asignarles la neurona ganadora. De esta forma, se obtiene la proyección del estado del proceso. Pues bien, a partir de la propiedad de ordenación topológica resulta que, para valores similares de las variables de proceso, corresponden neuronas ganadoras vecinas entre sí. Por lo tanto, se deduce que, mientras el estado del proceso no varíe bruscamente, tampoco lo hará la proyección en el mapa SOM. Regiones del SOM pueden identificarse con diferentes zonas de funcionamiento del proceso. En definitiva, se deduce que esta importante propiedad hace del SOM una potente herramienta de supervisión de procesos con numerosas variables que lo definen.

Si no se respetase esta propiedad en el entrenamiento resultaría que la activación de las neuronas ganadoras o, lo que es lo mismo, la proyección del estado del proceso en el mapa SOM seguiría una trayectoria totalmente aleatoria y caótica, imposibilitando la monitorización del proceso.

Aquí surge la necesidad de utilizar un criterio de validación del modelo en su ordenación topológica: el error topográfico.

4.1.4.2 Representatividad del espacio de datos de e ntrada

Los vectores prototipo se distribuyen en mayor número en las regiones del espacio de entrada donde existe una mayor densidad de muestras del conjunto de datos de entrenamiento (Kohonen, 1995). Debido a la correspondencia existente entre cada vector prototipo y su neurona situada en el espacio de salida, se deduce fácilmente que el SOM emplea más neuronas para representar las regiones en donde existe mayor densidad de muestras. Teniendo en cuenta la propiedad de ordenación topológica del SOM, por la cual los vectores prototipo que son vecinos en el espacio de entrada corresponden a neuronas vecinas en el espacio de salida, se comprende que las regiones del espacio de entrada con mayor densidad de muestras se proyectan sobre un mayor número de

62

neuronas y, por tanto, sobre zonas más extensas del espacio de salida.

4.1.4.3 Reducción de la dimensionalidad

Esta propiedad proviene de la correspondencia existente entre los vectores prototipo del espacio de entrada y las neuronas del mapa SOM o espacio de salida. Debido a que la dimensión del espacio de salida es menor que la dimensión del espacio de entrada, se produce pues una reducción de la dimensionalidad del conjunto de datos de entrada.

Asimismo, esta reducción o proyección sobre una dimensión más reducida se hace de forma no lineal por lo cual se puede aplicar, además de a sistemas lineales, a sistemas no lineales.

4.1.4.4 Aproximación de los datos de entrada

Esta propiedad es debida a la representatividad de los vectores prototipo del espacio de datos de entrada. Se pretende, por tanto, sustituir cada vector de datos por su vector prototipo más próximo. Surge de esta manera una aproximación que debe ser medida mediante el error de cuantificación. Se produce una cuantificación del espacio de entrada o conjunto de datos, dividiéndose en regiones de Voronoi en las que a cada región pertenecerían los vectores de datos más próximos a un vector prototipo. Todos estos vectores de datos se proyectarían sobre la misma neurona en el espacio de salida. Además el error de cuantificación es una función de criterio de validación muy interesante ya que mide el error de aproximación o de representatividad del vector prototipo respecto al vector de datos presentado al modelo. Debe tenerse en cuenta que, tras el entrenamiento, los vectores prototipo habrán intentado ajustarse a los vectores de datos presentados durante el entrenamiento y, si en la prueba de test del modelo se obtienen errores de cuantificación altos, quiere decir que los nuevos vectores de datos presentados difieren sensiblemente de los de entrenamiento. Esto, a su vez, significaría que se están presentando condiciones de funcionamiento nuevas no contempladas durante el entrenamiento y que deben ser tenidas en cuenta para formar nuevos modelos.

63

5 Metodología y desarrollo de las técnicas

5.1 Método general de análisis del SOM

La toolbox del SOM versión 2.0 beta (10/10/00) desarrollada en el HUT (Helsinki University of Technology) es útil para el estudio del SOM (Vesanto et al., 1999). Los pasos llevados a cabo para analizar los datos están descritos a continuación:

1. En primer lugar se debe seleccionar las variables más importantes del sistema a analizar. Con este fin, se debe realizar un estudio lo más minucioso posible del proceso seleccionando las variables que tengan influencia en el sistema a tratar.

2. En una segunda etapa, los datos son normalizados a una media igual a cero y una varianza unitaria. Esto permite que todas las variables evolucionen dentro del mismo intervalo y sean tratadas por el algoritmo con la misma importancia.

3. Después del proceso de normalización la red neuronal es entrenada utilizando un algoritmo tipo “batch”.

4. Una vez que el algoritmo del SOM ha convergido, la red ha quedado entrenada almacenando cada neurona las coordenadas más representativas del espacio de entrada en unos vectores denominados “codebook”. Así, la información más relevante del proceso queda almacenada.

5. El último paso sería la visualización del espacio de salida. En este proceso se pueden deducir la importancia de las variables y también la influencia que se ejercen entre sí visualizando posibles correlaciones. También se pueden observar diferentes estados de funcionamiento del proceso, haciendo posible una supervisión del sistema. Existen diferentes herramientas para visualizar el espacio de salida:

a) Matriz de distancias interneuronales (U-matrix). Este método (Ultsch y Siemon, 1990) permite identificar los clusters más importantes formados por los datos del proceso. El SOM tiene la propiedad de que neuronas cuya posición en el espacio de entrada es muy cercana corresponden a regiones donde la densidad de muestras, cuyas variables tienen valores parecidos, es alta. Estas regiones serían los clusters. En caso

64

contrario, neuronas distanciadas en el espacio de entrada corresponden a zonas del espacio de entrada con baja densidad de muestras. Estas zonas formarían las fronteras entre clusters. De esta forma, la matriz de distancias permite representar la estructura de clusters en su equivalente retícula 2D mostrando como tonos grises o en color la distancia de cada neurona a sus vecinas en el espacio de entrada, así como la media de estas distancias.

b) Los planos de componentes. Los planos de componentes (Iivarinen et al., 1994) permiten representar el comportamiento de una variable de entrada proyectándolo sobre el espacio de salida. Los planos se dibujan usando una escala de grises o de color para mostrar los valores de una determinada variable de entrada para cada unidad del SOM en la retícula 2D. Este plano es muy adecuado para ser comparado con los planos de otras variables del proceso y detectar correlaciones o relaciones de dependencia entre las variables del proceso. Un gradiente paralelo o antiparalelo del plano de componente de cada variable indica una correlación entre dichas variables.

c) Optimización del clusterizado. Este método obtiene una estructura óptima de clusterizado de los datos en la misma retícula 2D o espacio de salida. De esta forma, las principales zonas de funcionamiento del proceso pueden ser visualizadas. El proceso de clusterización se describe en la siguiente sección 5.2.

d) Los mapas de certeza. Los mapas de certeza permiten visualizar las regiones que una variable cumple bajo ciertas condiciones en el espacio de salida (Pedrycz y Card, 1992; Cuadrado, 2002; Díaz et al., 2002; Cuadrado, 2003). Estas condiciones serán requisitos específicos de la planta. Esta técnica es muy útil para supervisar las condiciones más relevantes de la planta, las cuales no es posible hacer patente mediante las técnicas expuestas anteriormente.

5.2 Técnicas para obtener la mejor clusterización

Clusterizar, significa dividir un conjunto de datos en un conjunto de clusters, cada muestra de datos corresponde, exactamente, a un cluster. La clusterización fuzzy es la

65

generalización de un clusterizado preciso, teniendo cada muestra un grado de variación en todos los clusters.

Una definición muy extendida del clusterizado óptimo es la siguiente: la partición que minimiza distancias en el interior y las maximiza entre clusters. De todas formas, esas distancias, se pueden definir de muchas formas y la distancia normal � . �, es la Euclídea porque es ampliamente utilizada con el SOM y en el algoritmo K-means. Así, se debe de definir la distancia dentro de un cluster de acuerdo con la ecuación (5.1)

k

i kiC N

cxS

∑ −= (5.1)

y la distancia entre clusters, según la ecuación (5.2):

lkce ccd −= (5.2)

donde:

• xi ∈ Qk

• ck y cl son los centros de los clusters k y l.

• Nk es el número de muestras en el cluster Qk

Los algoritmos partitivos de clusterización dividen al conjunto de datos en un número de clusters, normalmente, intentando minimizar alguna función de criterio o de error. En la figura 3.10 se describe el algoritmo.

K-means se utiliza, comúnmente, como un algoritmo partitivo que minimiza el error de la función (5.3). En dicha ecuación, C es el número de clusters y ck el centro del cluster k. Por ser un método partitivo, se asume implícitamente la forma de los clusters y se intentan encontrar clusters esféricos.

∑ ∑= ∈

−=C

1k Qx

2k

k

cxE (5.3)

La selección del mejor, entre diferentes clusterizados, se puede llevar a cabo utilizando algún tipo de índice de validez. Se ha utilizado el índice de Davies-Bouldin, que usa la ecuación (5.1) para las distancias dentro de los clusters y la ecuación (5.2) para las distancias entre clusters. De acuerdo con la validación del índice de David-Bouldin, el mejor clusterizado minimiza la ecuación (5.7), en la que C es el número de clusters. El índice de Davies-Bouldin es

66

adecuado para la partición del K-means, ya que da valores bajos, que indican buenos resultados de clusterización para los clusters esféricos.

∑= ≠

+C

1k lkce

lCkC

kl )Q,Q(d

)Q(S)Q(Smax

C

1 (5.4)

Nivel deabstración 1

Nivel deabstración 2

N muestras M prototipos C clusters

Figura 5.1. Agrupamiento óptimo obtenido en dos fases

En nuestro caso, el proceso de clusterización, consiste en un procedimiento en dos fases (Vesanto y Alhoniemi, 2000), que viene ilustrado en la figura 5.1. Primeramente, utilizando el SOM obtenido en el apartado 5.1 y los vectores prototipo y, a continuación, clusterizándolos para formar los cluster actuales. El primer beneficio de la aproximación en dos niveles, es la reducción del coste computacional. El segundo beneficio, es la presentación visual e interpretación de los clusters en una red bidimensional.

Figura 5.2. Técnica para obtener un agrupamiento óptimo

La figura 5.2 ilustra la técnica seguida para obtener la estructura de clusters óptima realizando las dos fases anteriomente citadas. La primera consiste en entrenar una red SOM mientras que en la segunda se aplica un algoritmo clustering de partición, en este

Conjunto de datos de la

planta

Diferentes estructuras de agrupamiento

Vectores prototipo del

SOM

Estructura de mejor

clusterizado

Índice Davies-Bouldin

K-means

Entrenamiento SOM

67

caso K-means, para obtener diferentes conjuntos de agrupamiento ya que a priori se desconoce el número de clusters óptimo que deberá ser seleccionado al final mediante el índice de Davies-Bouldin.

En la figura 5.3 se representa el índice de Davies-Bouldin después de que se aplique a una planta de tratamiento de aguas crómicas cuyo esquema aparece en la figura 5.4 y de la cual se obtuvieron datos sobre sus principales variables, que fueron aplicados para el entrenamiento de una red SOM (López et al., 2003; López y Machón, 2004c). Los resultados de este entrenamiento se muestran en la figura 5.6. Debido a que el algoritmo K-means es sensible a la inicialización, se ejecuta varias veces (en nuestro caso cinco) para cada k y se elige la mejor en base a la minimización de la ecuación (5.3). Finalmente, el índice Davies-Bouldin se calcula para cada cluster. Se observa que el mejor clusterizado corresponde a un número de cinco clusters.

1 2 3 4 5 6 7 8 9 101

1.1

1.2

1.3

1.4

1.5

1.6

1.7

1.8

Índice de Davies-Bouldin

Número de clusters Figura 5.3. Índice de Davies-Bouldin desde 2 a 10 clusters

Una vez seleccionado el mejor clusterizado, debemos de visualizar su estructura para marcar los datos de entrada en el espacio bidimensional. Esto permite la visualización de diferentes características del proceso. Se ha proyectado el mejor clusterizado sobre el SOM y se ha obtenido un plano de componente nuevo (figura 5.7).

68

Figura 5.4. Planta de tratamiento de aguas crómicas

Figura 5.5. Matriz U (distancias interneuronales)

69

Figura 5.6. Resultados del SOM para la planta de tratamiento de aguas crómicas

Figura 5.7. Agrupamiento óptimo para la planta de tratamiento de aguas crómicas

Relacionando las estructuras de los clusters de la figura 5.7, con los planos de componentes de la figura 5.6, se deduce que el cluster 3, como se ve a primera vista, corresponde a caudal cero. El cluster 1 muestra la zona de peor funcionamiento con un pH muy ácido (probablemente debido al nivel bajo en el depósito de lechada de cal que corresponde a la variable LT11). Se puede observar que a menor pH mayor potencial redox, como se esperaba. Desde el

70

punto de vista del funcionamiento de la planta, aparecen dos clusters diferentes. El cluster 4 corresponde al potencial redox más alto y el 5 al mayor pH. Esto significa, que es imposible aumentar al máximo el potencial redox y disminuir al mínimo el pH al mismo tiempo. De todas formas, no se desea el pH alto.

5.3 Mapas de certeza

La figura 5.8 (mapas de certeza), muestra el espacio de salida bajo distintas condiciones. Podemos ver en qué lugares el potencial redox puede alcanzar los valores máximos y dónde el pH o NE-006 tiene su valor más alto.

De acuerdo con los requerimientos de la planta de tratamiento de aguas crómicas, el valor de pH de salida (NE-006), debe de estar comprendido entre 5,5 y 8,5. El valor del pH en el primer tanque (NE-004) debe de estar entre 2 y 4. Bajo estas condiciones, se pueden obtener las regiones del SOM que las cumplen. Son las que están pintadas de color claro.

Figura 5.8. Mapas de certeza

La mayoría de las unidades del mapa del espacio de entrada, en el primer tanque, se encuentran en el rango de pH adecuado. Sin embargo, el pH de salida (en el tanque de los efluentes) no está dentro de los límites deseados para la mayoría de las muestras obtenidas.

6 Nuevos enfoques del SOM

6.1 Propuesta de índice de preservación topológica Se pueden extraer ideas interesantes basadas en la

propiedad de preservación de la topología de los datos de entrada. Como se ha visto, las relaciones de vecindad deben ser similares entre los vectores prototipo en el espacio de entrada y las neuronas

71

de la retícula del espacio de salida. La propiedad de conservación topológica implica una importante relación cuando se asigna la neurona ganadora a los valores actuales de las variables de un sistema físico. De esta forma, se obtiene la proyección del estado del proceso. Basándose en la continuidad proporcionada por esa propiedad topológica, se deduce que valores similares de las variables del sistema corresponde a neuronas ganadoras vecinas o muy próximas entre sí. Por consiguiente, mientras el estado del proceso no varíe bruscamente, su proyección sobre el mapa de salida tampoco evolucionará bruscamente. Así, regiones del espacio de salida pueden ser identificadas como diferentes zonas de funcionamiento del proceso desde un punto de vista operativo. De hecho, esta importante propiedad hace del SOM una potente herramienta para la supervisión de procesos multivariables (López y Machón, 2004b; Machón y López, 2004; Machón et al., 2005). Si esta propiedad no fuese respetada, la proyección del estado del proceso en el mapa seguiría una trayectoria aleatoria y caótica que imposibilitaría la monitorización del proceso.

El índice que se propone se basa en la interpretación geométrica de las trayectorias de la proyección del estado de proceso sobre el espacio de salida. Al variar los valores de una variable de proceso, un mapa óptimo describirá una trayectoria suave sin cambios bruscos de la neurona ganadora.

Se propone calcular el índice mediante la trayectoria descrita por las neuronas ganadoras sobre el espacio de salida correspondiente a la variación de una variable del sistema sobre todo su rango cuando se mantienen constantes el resto de las variables del conjunto de datos. Para ello se debe tener en cuenta:

• El número de nodos a lo largo de la trayectoria, es decir, el número de neuronas ganadoras. Este número de nodos debe ser maximizado para aumentar la resolución del mapa. Se podría normalizar respecto al número de incrementos considerados en la variación de la variable de proceso.

• El número de direcciones que se toman a lo largo de la trayectoria desde un nodo a otro nodo (Norte, Sur, Este, Oeste, Noroeste, Noreste, Suroeste y Sureste). Las direcciones tomadas que sean opuestas entre sí deben ser penalizadas (N vs. S, E vs. O, SO vs. NE y SE vs. NO). El número máximo de movimientos opuestos sería igual a la mitad de los nodos de la trayectoria.

• El número de direcciones diferentes tomadas deben minimizarse. El valor de este factor oscila entre 1 y 8.

• La distancia media a lo largo de la trayectoria desde un nodo a otro usando métrica Euclídea. Esta medida debe ser minimizada para evitar saltos bruscos. El valor máximo correspondería a la longitud de la diagonal del mapa.

72

Se propone obtener diversos mapas entrenados usando una inicialización aleatoria de los pesos. Formular el índice propuesto y aplicarlo a cada uno de los mapas obtenidos comparando los resultados con el resto de los índices comentados.

Algunos trabajos (Cottrell et al., 2001) basados en simulaciones Monte-Carlo parecen mostrar una alta insensibilidad del SOM a los valores iniciales de los pesos. Varios experimentos obtienen resultados del error de cuantificación no dependientes de la inicialización de los pesos. Sin embargo, el error topográfico sí parece depender de esa inicialización. Ésta es otra razón más para usar un índice de preservación topológica que valide el modelo.

La idea, en resumen, consiste en obtener una trayectoria para cada mapa entrenado mediante la variación de una variable del sistema sobre todo su rango. El índice propuesto se aplicará a cada una de estas trayectorias. Cuanto menor sea este índice, menor será la probabilidad de obtener una trayectoria aleatoria y anárquica en la monitorización del proceso, obteniéndose trayectorias suaves y optimizando la continuidad e isometría del modelo SOM.

Una ventaja es el coste computacional. La mayoría de los índices existentes tienen una buena estimación pero un gran coste computacional. En muchos de ellos es una seria desventaja cuando se aumenta el tamaño del conjunto de datos ya que las secuencias de vecindad aumentan drásticamente.

6.2 Mejora del error de cuantificación El algoritmo SOM contiene una función núcleo que suele

tomarse como gaussiana centrada en la neurona ganadora. Se crea de esta forma un radio de vecindad que afecta en mayor medida a neuronas próximas a la neurona ganadora que a neuronas más alejadas a la hora de realizar la actualización de los vectores prototipo cuando se presenta el vector de datos en el entrenamiento. Este núcleo es el responsable de la propiedad de ordenación topológica. Sin embargo, se puede actuar sobre esta función núcleo para mejorar el error de cuantificación.

Una posible formulación de los núcleos neuronales del mapa SOM (Van Hulle, 2002) se basa en la maximización de la información mutua entre entrada y salida de la neurona. Esta maximización puede lograrse cuando la entropía diferencial de la salida es máxima (Bell y Sejnowski, 1995) y tendrá lugar cuando la distribución de la salida sea uniforme. A su vez, la transformación no lineal que hace una distribución uniforme de la salida corresponde a

73

la integración de la función de densidad de datos de entrada (función de repartición). Por tanto, se trata de lograr una formulación del núcleo igual a la función de repartición de su densidad de entrada.

Se formula la distribución de las distancias euclídeas cuadráticas de los vectores de entrada a la media del núcleo gausiano. Por su parte, la salida se define de acuerdo la función de repartición según una distribución gamma. A partir de la entropía de la salida del núcleo se obtiene, por diferenciación respecto a los vectores prototipo y a los radios de los núcleos neuronales, el algoritmo de entrenamiento para obtener los valores de los pesos y radios del núcleo respectivamente.

Finalmente, se añade un término que permite un aprendizaje cooperativo. La neurona ganadora y sus vecinas determinan la adaptación de los valores durante el entrenamiento suministrando la necesaria información topológica durante el proceso de entrenamiento. Además, se logra que los valores de los radios de los núcleos sean diferentes y no los mismos para cada una de las neuronas lo que implicaría una dependencia estadística entre las salidas de las neuronas.

Otro algoritmo bien conocido (Graepel, 1997) para la formulación de los núcleos neuronales sería el STVQ (Soft Topographic Vector Quantization) en el que los datos de entrenamiento son asignados según una distribución borrosa a cada uno de los vectores prototipo que actuarían como clusters. Sin embargo, no se tiene en cuenta la formulación del núcleo según la función de repartición. Los radios no son adaptados de forma individual, teniéndose en cuenta para su definición la influencia sobre la asignación borrosa de los datos de entrada.

6.3 Clustering del SOM El uso del SOM para tareas de clasificación constituye un

importante aspecto a la hora de identificar los grupos o clusters del espacio de datos, sus relaciones entre sí y con las variables del sistema.

“Clustering” significa dividir un conjunto de datos en un conjunto de clusters, donde cada muestra de datos corresponde, exactamente, a un cluster. La clusterización fuzzy es la generalización de un clusterizado preciso (crisp clustering), teniendo cada muestra un grado de variación en todos los clusters. Una definición muy extendida del clusterizado óptimo sería la partición que minimiza distancias en el interior y las maximiza entre clusters.

Un clásico método de clasificación consiste en llevar a cabo un proceso posterior al entrenamiento mediante la asignación de cada vector prototipo a un determinado cluster obteniéndose un nuevo plano de componentes (Hecht-Nielsen, 1988; Kohonen, 1995; López y Machón, 2004a).

74

En este caso, el proceso de clustering, consiste en un procedimiento en dos fases (Vesanto y Alhoniemi, 2000). La primera fase consiste en entrenar una red SOM mientras que en la segunda se aplica un algoritmo clustering de partición, por ejemplo K-means (McQueen, 1967), para obtener diferentes conjuntos de agrupamiento ya que a priori se desconoce el número de clusters óptimo que deberá ser seleccionado al final mediante un índice de validación de agrupamiento.

Los algoritmos partitivos de agrupamiento dividen al conjunto de datos en un número de clusters, normalmente, intentando minimizar alguna función de criterio o de error. K-means se utiliza, comúnmente, como un algoritmo partitivo que minimiza las distancias en el interior de los clusters. Hay que tener en cuenta que es sensible a la inicialización.

La selección del mejor, entre diferentes agrupamientos, se puede llevar a cabo utilizando algún tipo de índice de validez. El índice de Davies-Bouldin (Davies y Bouldin, 1979) usa el cociente que divide las distancias dentro de los clusters entre las distancias entre clusters. De acuerdo con la validación del índice de Davies-Bouldin, el mejor agrupamiento minimiza ese cociente.

El primer beneficio de la aproximación en dos niveles, es la reducción del coste computacional. El segundo beneficio, es la presentación visual e interpretación de los clusters en una red bidimensional.

Este procedimiento es útil cuando tanto el numero de clusters como la clasificación borrosa o precisa de cada vector de datos no son conocidas de antemano (López et al., 2003; López y Machón, 2004a).

Sin embargo, estos métodos tienen la desventaja de no influir sobre el entrenamiento ya que son posteriores a él y no modifican los valores de los vectores prototipos.

Esto puede corregirse mediante el uso de FLSOM (Fuzzy Labeled Self-Organizing Map) (Villmann et al., 2006). En este tipo de red los valores de los vectores prototipo están influenciados por la tarea de clasificación, teniendo lugar ambas tareas a la misma vez durante el entrenamiento. El algoritmo de entrenamiento deriva en principio de una función de energía del SOM (Heskes, 1999). Cada vector de datos está asignado de forma borrosa según un vector de pertenencia probabilística a las diferentes clases o clusters del conjunto de datos. Ésta sería la etapa más crítica en la formación del proceso de datos, aunque el algoritmo lógicamente también es aplicable a distribuciones precisas o no borrosas (crisp clustering). Se añade un término a la función de coste que represente el error de “etiquetado” o clasificación de los vectores prototipo del mapa de clasificación respecto a los vectores probabilísticos proporcionados por los datos de entrenamiento. Dentro de este término se incluye un núcleo gausiano en el espacio de datos de entrada de tal forma que

75

en la tarea de clasificación se busca dotar de más importancia a los vectores prototipo más cercanos a los vectores de datos.

Aparecen, por tanto, dos errores. El primero está referido a los vectores prototipo de las variables numéricas y el otro a los de clasificación. Ambos errores pueden ser ponderados según un parámetro de la función de coste. Derivando sobre los vectores prototipo numéricos y de clasificación se obtienen las reglas de adaptación del algoritmo.

Se ha modificado la toolbox del SOM (Vesanto et al., 1999) acorde al algoritmo FLSOM usando los datos del “UCI repository of machina learning databases” (Newman et al., 1998) para el entrenamiento. Se obtienen dos mapas SOM con la aplicación de este algoritmo. En uno se encuentran los planos de componentes correspondientes a las variables numéricas del sistema (figura 6.2). El otro mapa SOM representa los planos de componentes de los grupos o clusters previamente definidos en el conjunto de datos (figura 6.1). Mediante su aplicación se obtienen diversas ventajas. La visualización de las diferentes clases mejora la comprensión de los datos. Asimismo, al ser un algoritmo con conjuntos borrosos constituye un clasificador robusto que permite incluso el uso de datos parcialmente contradictorios.

Figura 6.1. Mapa de clusters o clases

76

Figura 6.2. Mapa de vectores prototipo

77

7 Ejemplo 1. Aplicación a una planta de tratamiento

7.1 Planta de tratamiento de aguas residuales

7.1.1 Descripción de la planta e instrumentación elegida

La planta de tratamiento de aguas residuales de coquería (CWTP) fue objeto de estudio por parte del proyecto KNOWATER II denominado “Implementation of a Knowledge Based System for Control of Steelworks Waste Water Treatment Plant”, financiado por la Comunidad Europea del Carbón y del Acero cuyo número de registro es 7210-PR-234. Los participantes en este proyecto europeo son Centro Sviluppo Materiali S.p.A., Corus RT&D, BFI/Betriebsforschungsinstitut y Universidad de Oviedo.

La CWTP es representada en la figura 7.1 y puede dividirse en tres zonas: las torres de eliminación de amoniaco, el tanque de homogenización y el reactor biológico. La arquitectura del sistema de control, adquisición de datos y estación PC en la que correrá la aplicación queda representada con el diagrama de bloques de la figura 7.2. Como se aprecia, fue diseñada para controlar algunas variables claves del proceso (pHs y concentración de oxígeno disuelto) y para llevar a cabo la monitorización por medio de la aplicación KNOWATER II y su técnica IA incorporada.

En la primera etapa de la planta se tratan los influentes con vapor de agua, previa adición de sosa cáustica, con el fin de eliminar el amonio en las torres. Se instaló un pHmetro o medidor de pH como sensor de la variable a controlar por un PID. Este controlador actúa sobre la bomba dosificadora de sosa cáustica para regular el pH. La consigna de este lazo de regulación se fija en 12. La segunda fase del tratamiento consiste en homogeneizar las aguas residuales que deberán ser tratadas en el reactor biológico. Se pretende obtener una distribución homogénea de las concentraciones de sustancias en todo el volumen de agua residual. En esta zona, se instala un segundo medidor de pH con el propósito de establecer un lazo de control utilizando un controlador PID con una consigna igual a 7. Este controlador regula una válvula de ácido sulfúrico para neutralizar el pH. Finalmente, las aguas residuales son tratadas biológicamente en un reactor discontinuo o por etapas (SBR). La concentración de oxígeno disuelto en el reactor es controlada por un lazo de control con regulador PID, que actúa sobre una válvula de

78

inyección de aire al interior del reactor. La consigna se situará entre 5 y 6 mg/l.

Figura 7.1. Planta de tratamiento de aguas residuales de coquería

La aplicación KNOWATER II (figura 7.2) se ejecuta en la estación PC que está conectada al interfase de adquisición de datos (vídeo-registrador) por medio de conexión Ethernet y protocolo TCP/IP (concretamente utiliza un protocolo MODBUS). Las técnicas de IA propuestas fueron integradas en esta aplicación para lograr la monitorización del proceso y la estimación del estado del proceso.

Como se ha explicado anteriormente, un controlador PID controla cada medida (pH en el tanque de alimentación de las torres de eliminación de amonio, pH en el tanque de homogenización y concentración de oxígeno disuelto en el reactor SBR). Por tanto, quedan configurados los tres lazos cerrados de control que pueden observarse claramente en la figura 7.2.

79

Figura 7.2. Arquitectura del sistema

Se instaló la instrumentación de acuerdo con lo expuesto anteriormente, en la planta de tratamiento de aguas residuales de coquería (CWTP), por lo que tres tipos de datos fueron medidos y registrados:

• Temperatura (ºC). Se mide la temperatura en las tres zonas de tratamiento de la CWTP pero únicamente se registran las medidas en el tanque de alimentación de las torres de eliminación de amonio y en el reactor biológico.

• Concentración de oxígeno disuelto en el reactor biológico SBR (mg/O2l)

• pH en el tanque de alimentación de las torres de eliminación de amonio y en el tanque de homogenización.

7.2 Validación del modelo

La red neuronal SOM entrenada debe preservar la propiedad de ordenación topológica. Por tanto, las relaciones de vecindad en el mapa y en el espacio de entrada deben ser similares. Si dos vectores prototipo están muy próximos entre sí en el espacio de entrada, corresponden a neuronas muy alejadas mutuamente en el

80

espacio de salida o mapa SOM. Esto puede ser revelado cuando las dos neuronas ganadoras para un vector de datos son neuronas no adyacentes. Este tipo de plegamientos son considerados como una indicación del error topográfico en el mapa SOM.

El error topográfico puede ser calculado (Kiviluoto, 1995) como la proporción de vectores de datos para los cuales las dos neuronas ganadoras no son unidades adyacentes. Los resultados de este error son muy fáciles de interpretar y directamente comparables entre diferentes modelos (incluso entre diferentes conjuntos de datos).

Además, los vectores prototipo intentan aproximar el conjunto de datos. Una consecuencia de esta aproximación es el error de resolución o cuantificación. Para medir la resolución de esta aproximación se utiliza el valor medio del error de cuantificación evaluado sobre todo el conjunto de datos.

El número de neuronas del mapa SOM determina la exactitud y capacidad de generalización del SOM y se puede calcular por la formula heurística (6.3) (Vesanto et al., 1999) donde M es el número de neuronas del mapa y N es el número de muestras de los datos de entrenamiento.

N5M ⋅= (6.3)

Las dimensiones del mapa SOM o espacio de salida se calculan en función del número de muestras del conjunto de entrenamiento y de los valores propios de la matriz de datos.

El siguiente paso consiste en determinar la relación entre el número de filas de neuronas n1 y el número de columnas de neuronas n2. La relación entre las dimensiones del mapa es la raíz cuadrada de la relación entre los dos valores propios de mayor valor de los datos de entrenamiento (6.4). El mayor valor propio es e1 y el segundo mayor es e2.

2

1

e

e

2n

1n = (6.4)

7.2.1 Metodología de la validación SOM

El objetivo es descubrir el modelo que minimiza los errores de cuantificación y topográfico a partir de diferentes modelos de redes SOM las cuales han sido entrenadas utilizando cada uno conjuntos de datos o patrones, al mismo tiempo, para diferentes dimensiones del mapa SOM.

81

El método de validación puede resumirse en los siguientes pasos (Machón y López, 2004):

1. Se elige un conjunto de datos o patrón pi para el entrenamiento de la red neuronal SOM. Los datos son normalizados a una distribución de media cero y varianza unitaria.

2. Se lleva a cabo un entrenamiento tipo “batch” o “por lotes” en el mapa SOM cuyas dimensiones son calculadas a partir de las ecuaciones (6.3) y (6.4).

3. Tras el entrenamiento se obtiene el modelo. Para el resto de patrones pj que no han sido usados durante el entrenamiento se calculan los errores topográfico y de cuantificación. Estos patrones deben ser también previamente normalizados.

4. El tamaño del mapa entrenado se expande y reduce respetando la proporcionalidad de sus dimensiones (ancho y alto). Una vez que el tamaño se ha modificado, se entrena la red neuronal SOM utilizando el patrón pi.

5. El paso tercero y cuarto son repetidos para los diferentes tamaños de mapa.

6. Los pasos 1 a 5 son repetidos para los restantes patrones pj.

De esta forma se obtienen diferentes tamaños de mapas y modelos utilizando los patrones disponibles para el entrenamiento. A mayor tamaño del mapa SOM menor error de cuantificación pero, por el contrario, el error topográfico aumenta al aumentar las dimensiones del mapa. Esto es debido al plegamiento de la retícula SOM para intentar disminuir el error de cuantificación. Además, cuanto mayor sea el tamaño del mapa mayor será el coste computacional. Por tanto, existe un compromiso entre el incremento del error topográfico y la reducción del error de cuantificación para determinar el tamaño de mapa óptimo.

7.3 Descripción de la aplicación

La figura 7.3 muestra la ventana principal de la aplicación KNOWATER II. Puede dividirse en cuatro regiones bien diferenciadas. Una de ellas sería el conjunto de botones situado en la parte superior izquierda de la ventana. Actuando sobre el primer botón de la izquierda el programa preguntaría por la dirección IP a conectarse que sería la dirección IP asignada en la configuración del vídeo-registrador en la pantalla táctil. El segundo botón activa el

82

sistema de adquisición de datos, (a partir de ese instante se comenzaría a recibir datos de la CWTP y las gráficas de tendencia comenzarían a dibujarse). Los dos botones que muestran un mapa SOM tienen la posibilidad de visualizar la última red SOM que ha sido entrenada con los datos de la última etapa aeróbica de la planta. El botón con el mapa SOM y la flecha muestra la proyección del estado de funcionamiento actual sobre la red SOM y sirve para poner de manifiesto la alta o baja actividad biológica en el reactor SBR.

Los otros dos botones fueron implementados para representar el valor medio de la salida del controlador. De esta manera, la finalización de la actividad biológica aeróbica puede ser visualizada “on-line”, como se muestra en la figura 7.4. De esta manera se puede lograr un gran conocimiento on-line sobre el estado del tratamiento biológico con el fin de mejorar el funcionamiento de la planta. La simulación se ha ejecutado a una velocidad 5 veces superior a la real.

El estado del programa se representa en una ventana de edición de texto en la parte superior derecha de la ventana principal (figura 7.3). Esta ventana informa sobre el proceso de entrenamiento, la conexión del sistema de adquisición de datos a la CWTP y la configuración de las opciones de programa.

La parte más amplia de la ventana principal corresponde a las tendencias de las seis señales de los sensores instalados en la CWTP (el pH del influente de las torres de eliminación de amonio, el pH en el tanque de homogenización, la concentración de oxígeno disuelto en el reactor SBR, la salida del controlador del lazo cerrado de control del oxígeno disuelto en el reactor SBR, la temperatura de eliminación de amonio y la temperatura en el reactor SBR). Cada una de estas señales son capturadas y representadas en esos gráficos. El día de mes, la hora, minuto y segundo son representados en el eje horizontal del gráfico.

Los valores actuales de los sensores de la CWTP sensores pueden observarse en la parte superior izquierda de la ventana principal.

83

Figura 7.3. Ventana principal de la aplicación KNOWATER II

Figura 7.4. Consumo de oxígeno

84

El índice de Davies-Bouldin (figura 7.5) es usado como índice de validación para obtener el número de clusters correspondiente a la estructura de mejor clusterizado. La aplicación muestra en una ventana este índice para diversos números de clusters considerados. Usando los datos correspondientes a la etapa aeróbica resulta que la estructura de mejor clusterizado corresponde a un número de dos clusters. Un cluster corresponde al elevado consumo de oxígeno que tiene lugar durante las primeras horas del tratamiento aeróbico. El otro cluster corresponde al bajo consumo de oxígeno después de la ingente actividad biológica.

Los mapas de certeza (figura 7.6) muestran los planos de componentes bajo diversas condiciones. En este caso, aparece el mapa de certeza correspondiente a la salida del controlador pudiéndose visualizar las neuronas que son mayores de un cierto valor.

En la figura 7.7 aparecen los resultados del entrenamiento SOM generados por la aplicación KNOWATER II y que corresponden a la última red neuronal SOM entrenada utilizando el ultimo ciclo aeróbico de la CWTP. Los resultados del entrenamiento SOM están compuestos por:

• La matriz de distancias interneuronales (U-matrix).

• Los planos de componentes o mapas SOM de las diversas variables del proceso aeróbico (la concentración de oxígeno disuelto (mgO2/l), la salida del controlador del lazo cerrado de control del oxígeno disuelto (0-100%) y la temperatura en el reactor SBR).

• La estructura de mejor clusterizado.

El método general de análisis presentado en la sección 5.2 fue implementado en la aplicación KNOWATER II con relevantes resultados. La matriz de distancias interneuronales (U-matrix) revela la existencia de dos clusters en los datos de entrenamiento. Los planos de components representan el comportamiento de las variables de proceso y reflejan las correlaciones entre ellas. La temperatura del reactor SBR está correlacionada con la salida del controlador debido a que la concentración de oxígeno disuelto depende de la temperatura.

La aplicación está complementada por la inclusión de la proyección del estado de proceso sobre la red neuronal SOM. El estado del proceso se proyecta sobre el espacio de salida, tanto sobre los planos de componentes como sobre la estructura de mejor clusterizado, con el fin de obtener la región de la estructura de

85

clusterizado que represente el estado actual del tratamiento aeróbico en el reactor SBR. La proyección consiste en encontrar la neurona cuyo vector prototipo tenga la menor distancia posible a los valores actuales de la CWTP o vector de datos actual, es decir, encontrar la neurona ganadora en ese instante. Así, aparecen dos clusters muy importantes desde el punto de vista del funcionamiento de la planta.

El primer cluster corresponde a los datos obtenidos durante las primeras horas del tratamiento aeróbico en los cuales tiene lugar altos valores de respiración celular o, lo que es lo mismo, altos consumos de oxígeno. El segundo cluster representa al conjunto de muestras obtenido tras el descenso de la respiración celular y, por tanto, de la actividad biológica.

Figura 7.5. Índice de Davies – Bouldin

86

Figura 7.6. Mapa de certeza

La aplicación KNOWATER II nombra a los dos clusters de la estructura de mejor clusterizado HIGH COD (figura 7.8) y LOW COD, respectivamente (López y Machón, 2004a; Machón y López, 2004). De esta manera, se obtiene un importante conocimiento en tiempo real de la planta de tratamiento de aguas residuales de coquería. Esta técnica permite identificar el final de la principal actividad biológica.

87

Figura 7.7. Resultados del entrenamiento SOM

Figura 7.8. Estimación del estado del proceso.

88

7.3.1 Aspectos claves de la aplicación KNOWATER II

Los aspectos claves de la aplicación KNOWATER II pueden ser resumidos viendo el menú de opciones en la figura 7.9. Un importante aspecto de la técnica de IA utilizada por la aplicación es determinar el conjunto de datos de entrenamiento para la red neuronal SOM. Las variables de entrenamiento usando las señales provenientes de los sensores instalados para la supervisión de la etapa aeróbica son:

1. La salida del controlador del lazo cerrado para el control de la concentración de oxígeno disuelto en el reactor SBR.

2. La concentración de oxígeno disuelto en el reactor SBR.

3. La temperatura en el reactor SBR.

Sin embargo, ¿cómo se puede determinar el conjunto de datos de entrenamiento? Los datos de entrenamiento deben ser únicamente muestras pertenecientes a la etapa aeróbica. El valor medio de la salida del controlador fue usado para obtener estas muestras. Se puede considerar el inicio de la etapa aeróbica cuando el valor medio de la salida del controlador desciende por debajo de un valor prefijado. Por otra parte, cuando el valor medio de la salida del controlador es mayor que otro valor prefijado, la etapa aeróbica se considera finalizada. Estos valores prefijados son configurados por el usuario en el menú de opciones. Los usuarios pueden modificar el periodo para calcular el valor medio de la salida del controlador para obtener unos perfiles más suaves del consumo de oxígeno. El tiempo de muestreo también puede ser modificado.

89

Figura 7.9. Opciones de la aplicación KNOWATER II

7.4 Evaluación del beneficio en el funcionamiento de la CWTP

La aplicación KNOWATER II fue el software desarrollado durante el proyecto KNOWATER II. Se instaló para ejecutarse con datos reales obtenidos en tiempo real de la planta de tratamiento de aguas residuales de coquería (CWTP). Las imágenes de la figura 7.10 son generadas por la aplicación KNOWATER II. La imagen representa el valor medio de la salida del controlador del lazo cerrado de control de la concentración de oxígeno disuelto en el reactor SBR, la cual es proporcional al valor medio del consumo de oxígeno en el reactor biológico, es decir, a la respiración celular. La respiración celular es uno de los parámetros más importantes en los tratamientos biológicos de aguas residuales y es la demanda de oxígeno que es necesaria para la oxidación de la materia orgánica por medio de la biomasa heterótrofa. Por tanto, el programa KNOWATER II estima esta variable en tiempo real. Los ciclos del tratamiento biológico en el reactor SBR puede observarse claramente en la figura 7.10. La duración del ciclo fue aproximadamente de 48 horas en el año 2002 y ha sido reducido hasta 24 horas un año más tarde en la finalización del proyecto KNOWATER II. De esta manera la capacidad operativa de la planta ha sido incrementada. Además, algunos estados de la planta pueden deducirse de un simple vistazo. Los valores más altos en la gráfica corresponden a la etapa anóxica del reactor SBR cuando la salida del controlador está saturada e igual a 100%. El resto de los datos corresponden a la etapa aeróbica (incluida sedimentación).

90

La etapa aeróbica está representada con mayor detalle en la parte inferior de la figura 7.10. Aparece un importante aspecto del tratamiento biológico aeróbico: el punto final de la reacción aeróbica. Por ejemplo, en el 1 de mayo de 2003 el consumo de oxígeno desciende drásticamente a las 22:00 horas según se ve en el zoom de la imagen. La detección de este punto final de reacción puede ser usada para finalizar la etapa aeróbica y, de esta manera, la duración del ciclo es más corta haciendo que la capacidad operativa de la planta sea incrementada. Además, el consumo de oxígeno disuelto está muy influenciado por la temperatura en el reactor como cabía de esperar y puede observarse en la figura 7.11.

La técnica de IA propuesta, es decir, el algoritmo Self-Organizing Map (SOM) fue implementado en el programa KNOWARTER II. La aplicación genera los planos SOM, la estructura de mejor clusterizado y los mapas de certeza del último ciclo aeróbico del tratamiento. Así, las relaciones entre las variables de proceso son visualizadas. Las correlaciones entre la salida del controlador, la concentración de oxígeno y la temperatura pueden observarse en estos planos SOM. Los valores críticos de algunas variables pueden ser comprobados mediante los mapas de certeza.

Además, se estima el estado del proceso proyectando los valores actuales sobre una red SOM. Esta red SOM es usada como patrón siendo almacenada previamente. La proyección se ha realizado sobre los planos de componentes y la estructura de mejor clusterizado. Esta última está compuesta de dos clusters. El primero de ellos corresponde a las primeras horas de tratamiento. Durante esta fase ocurren altos valores de respiración celular y la actividad aeróbica del proceso biológico es ingente. El segundo cluster representa las muestras obtenidas después de que la actividad biológica ha decaído. La aplicación implementada los nombra como HIGH COD y LOW COD, respectivamente. Por ejemplo, la figura 7.12 fue generada por el programa KNOWATER II a las 16:13 horas cuando la actividad biológica es alta. Así, se obtiene un importante conocimiento en tiempo real del final del principal tratamiento. Por supuesto, es posible desarrollar otras técnicas alternativas (Villar et al., 2004).

91

Figura 7.10. Consumo de oxígeno en las etapas aeróbicas en la CWTP

92

1 2 3 4 5 6 70

10

20

30

40

50

60

70

80

90

100

time (days)

controller output (%)temperature (ºC)oxygen (mgO2/l)

Figura 7.11. Variables del entrenamiento SOM

Figura 7.12. Estimación del estado del proceso

93

8 Ejemplo 2. Análisis del modelo ASM El conjunto de datos, obtenido con el modelo simplificado del

ASM Nº1 y que fue aplicado a la simulación de un reactor continuo de fangos, fue utilizado para entrenar una red neuronal tipo SOM (Self Organizing Map) (López y Machón, 2004b). Las principales características del reactor aparecen descritas en la tabla 8.1, mientras que las variables de entrenamiento están indicadas en la tabla 8.2.

Volumen aeróbico del reactor V 12.5 litros Caudal influente Q_in 0.3 litro/hora

Relación de recirculación r 100% (de Q_in) Tabla 8.1. Configuración de la planta

Nombre de variable

Descripción

Ss_in Substrato fácilmente biodegradable influente Soref Consigna de concentración de oxígeno disuelto

Snh_in Amonio influente Q_in Caudal influente Ss Substrato fácilmente biodegradable So Concentración de oxígeno disuelto

Degree_nitrif Grado de nitrificación Tabla 8.2. Concentraciones de los influentes

Los resultados gráficos obtenidos después del entrenamiento son los mostrados en la figura 8.1, pudiéndose ver la matriz-U, los planos de componentes de las diferentes variables de entrenamiento y la estructura de mejor clusterizado en la figura 8.2.

94

Figura 8.1. Resultados del SOM del modelo simplificado ASM

95

A continuación, se describen las relaciones entre los diferentes planos de componentes de las variables de entrenamiento, extrayendo las relaciones más importantes entre las variables de estado del modelo implementado y describiendo los diferentes clusters formados.

Figura 8.2. Agrupamiento óptimo para el modelo simplificado ASM

El cluster C1 (en la parte izquierda superior) representa el conjunto de datos obtenido por medio de la variación del caudal influente (Q_in) por encima de su valor nominal (0.3 litros/hora). En este cluster, la concentración de amonio influente (Snh_in) es alta por encima de 900 mg/l. La concentración de substrato fácilmente biodegradable (Ss_in) fue constante (600 mg/l). Según estas condiciones de influentes, la concentración de oxígeno disuelto en el reactor fue más baja (0.8 mg/l) que la pedida en la consigna (2 mg/l), el grado de nitrificación también fue bajo y la concentración de substrato fácilmente biodegradable (Ss) es alta.

En la figura 8.3 se muestra la dinámica del oxígeno disuelto en función del caudal influente.

96

0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6

Q_in

0.8

1

1.2

1.4

1.6

1.8

2

So 2.2

Figura 8.3. Concentración de oxígeno disuelto en función del caudal influente.

0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.5 0.55 0.6

Q_in

50

55

60

65

70

75

80

85

90

95

%Nitrification 100

Figura 8.4. Grado de nitrificación en función del caudal influente

La solubilidad del oxígeno en el agua depende de una serie de factores tales como temperatura, presión y tipo de agua (cada tipo de agua tiene un máximo de oxígeno disuelto). En el modelo se ha considerado un valor de saturación de 9.5 mg/l. Para valores de Q_in entre 0.15 y 0.28 litros/hora la concentración de oxígeno disuelto puede seguir la consigna (2 mg/l) por medio de la acción del controlador PI. En estas condiciones, existe un medio oxidante y el nitrato es la forma estable del nitrógeno. Por esa razón, la concentración de amonio Snh y el grado de nitrificación son constantes (figura 8.4).

97

Sin embargo, el oxígeno disuelto es consumido por el efecto del caudal influente como consecuencia de la oxidación del substrato orgánico por parte de las bacterias de los fangos activos, hasta estabilizarse en torno a un valor mínimo de So (0.8 mg/l) bajo las condiciones aeróbicas y biológicas existentes. Esto puede ser observado en C1, C2 y C3.

El cluster C2 corresponde a una gran concentración de amonio influente (Snh_in) y el cluster C3 (en la parte superior derecha) representa las muestras del modelo obtenidas mediante la variación del influente del substrato fácilmente biodegradable (Ss_in) por encima de 600 mg/l. El caudal influente tiene el valor nominal y la concentración de amonio influente (Snh_in) es alta (1100 mg/l). Bajo estas condiciones, se obtiene en el reactor una concentración de substrato fácilmente biodegradable alta. El resto de variables pueden considerarse constantes.

Estos tres clusters (C1, C2 y C3) pueden considerarse como las peores zonas de funcionamiento donde la actividad biológica está saturada por las condiciones extremas de los influentes. La concentración de oxígeno disuelto es baja y no puede ser corregida por el controlador PI debido a la gran demanda química de oxígeno.

El cluster C4 corresponde al conjunto de datos que fueron obtenidos asignando un valor alto al amonio influente (Snh_in > 1100) mientras que el caudal influente se mantuvo en su valor nominal. Se obtuvo una concentración alta de substrato fácilmente biodegradable y una concentración baja de oxígeno disuelto (0.8 mg/l), siendo la consigna de 2 mg/l. Por otra parte, en el cluster C5 la concentración de amonio influente es menor que en C4, siendo Q_in y Ss_in el mismo que en C4, resultando una concentración de substrato fácilmente biodegrable más baja y una concentración de oxígeno disuelto igual a su consigna.

En el cluster C6 el amonio influente fue bajo, el caudal influente fue igual o menor que el valor nominal (0.3 l/h) y Ss_in fue constante (600 mg/l). La concentración de oxígeno disuelto puede alcanzar la consigna y el grado de nitrificación es alto.

Los clusters C7 y C8 representan el conjunto de datos obtenido mediante la variación de la consigna de oxígeno disuelto y la concentración de amonio influente. Ss_in y Q_in fueron se mantuvieron constantes. Los resultados obtenidos muestran que la concentración de oxígeno disuelto en el reactor es capaz de seguir la consigna hasta un cierto límite cuyo valor está impuesto por la concentración de amonio influente (a mayor concentración de amonio influente, menor concentración de oxígeno disuelto), véase

98

la figura 8.5 y la figura 8.6. La diferencia entre ambos clusters es que la concentración de oxígeno disuelto sigue a su consigna dentro del cluster C8 mientras que no puede seguir la referencia en el cluster 7. El cluster C8 corresponde al mejor funcionamiento de la planta, con altos grados de nitrificación (alto rendimiento en la eliminación de amonio) y gran eliminación de materia orgánica (baja concentración de Ss).

1 2 3 4 5 6 7 8 9 10

Soref1

1.2

1.4

1.6

1.8

2

2.2

2.4

2.6

2.8

So 3

Snh_in = 700 mg/l

Figura 8.5. Influencia del amonio influente

1 2 3 4 5 6 7 8 9 10

Soref0.5

1

1.5

2

2.5

3

3.5

4

4.5

So 5

Snh_in = 500 mg/l

Figura 8.6. Influencia del amonio influente (II)

Puede observarse una fuerte correlación entre el substrato fácilmente biodegradable (Ss) y la concentración de oxígeno disuelto (So) en el reactor biológico. Cuanto mayor valor de Ss menor valor de So (recuérdese que la concentración de oxígeno disuelto evoluciona de forma contraria al consumo de oxígeno), como puede

99

ser observado en la figura 8.7. Una parte del substrato fácilmente biodegradable es oxidado para la síntesis celular, dando lugar a una demanda de oxígeno. Este proceso de crecimiento aeróbico heterótrofo, explica que Ss y Xbh sean directamente proporcionales (figura 8.8).

º

0 200 400 600 800 1000 1200 1400 1600 1800 2000

Ss

0.8

0.9

1

1.1

1.2

1.3

1.4

1.5

1.6

1.7

So 1.8

Figura 8.7. Influencia del substrato orgánico fácilmente biodegradable

0 200 400 600 800 1000 1200 1400 1600 1800 2000

Ss

0

100

200

300

400

500

600

700

800

Xbh 900

Figura 8.8. Crecimiento aeróbico heterótrofo

También puede verse que el amonio influente y el grado de nitrificación tienen una gran correlación como era de esperar de acuerdo al proceso de nitrificación.

Es deseable que So y su consigna (Soref) estén correlacionadas, ocurriendo esto siempre que la concentración de amonio influente no sea alta.

100

El substrato fácilmente biodegradable influente (Ss_in) no parece ser una variable significativa observando su pobre influencia en las variables de estado probablemente debido a que la cinética considera de Monod no refleja la inhibición relacionada al aumento de substrato influente. El caudal influente Q_in tampoco parece ser una variable significativa al menos en el intervalo de variación considerado.

101

9 Referencias Abbas, H.M., and Fahmy, M.M., 1994. Neural Networks for Maximum Likelihood Clustering.

Signal Processing, vol. 36, no. 1, pages 111-126.

Alhoniemi, E., Hollmén, J., Simula, O., and Vesanto, J., 1994. Process Monitoring and Modelling Using the Self-Organizing Map. Integrated Computer-Aided Engineering, 6(1):3-14.

Ashtari, M., Zito, J.L., Gold, B.I., Lieberman, J.A., Borenstein, M.T., and Herman, P.G., 1990. Computerized Volume Measurement of Brain Structure. Invest Radiology, vol. 25, pp. 798-805.

Bauer, H.-U., and Pawelzik, K. 1992. Quantifying the neighbourhood preservation of selforganizing feature maps. IEEE Transactions on Neural Networks, vol 3 (4), 570–579.

Bell, A. J., and Sejnowski, T. J. 1995. An information-maximization approach to blind separation and blind deconvolution. Neural Computation, vol. 7, 1129-1159.

Bezdek, J.C., 1981. Pattern Recognition with Fuzzy Objective Function Algorithms. New York: Plenum.

Bezdek, J. C., and Pal, N. R. 1993. An index of topological preservation and its application to self-organizing feature maps. Proc. of the IJCNN 1993, International Joint Conference on Neural Networks, vol 3. Piscataway, NJ: IEEE Service Center, pp. 2435–2440.

Bezdek, J. C., and Pal, N. R. 1995. An index of topology preservation for feature extraction. Pattern Recognition, vol. 28, pp. 381–391.

Bhatia, S.K. and Deogun, J.S., 1998. Conceptual Clustering in Information Retrieval. IEE Trans. Systems, Man, and Cybernetics, vol. 28, no. 3, pages 427-436.

Bradley, P.S. and Fayyad, U.M., 1998. Refining initial points for k-means clustering. In J. Shavlik, editor, Proceedings of the Fifteenth International Conference on Machine Learning (ICML '98), pages 91-99, San Francisco, CA, Morgan Kaufmann

Buchbinder, B.R., Belliveau, J.W., McKinstry, R.C., Aronen, H.J., and Kennedy, M.S., 1991. Functional MR Imaging of Primary Brain Tumors with PET Correlation. Soc. Magnetic Resonance in Medicine, vol. 1.

Calinski, T. and Harabasz, J., 1974. A dendrite method for cluster analysis. Communications in Statistics. Theory and Methods A, 3, 1-27

Cole, R.M., 1998. Clustering with Genetic Algorithms. Thesis for the degree of Master of Science, Department of Computer Science, University of Western Australia.

Cottrell, M., de Bodt, E., and Verleysen,M. 2001. A statistical tool to assess the reliability of self-organizing maps. In N. Allinson, H. Yin, L. Allinson, & J. Slack (Eds.), Advances in self-organising maps, pp. 7–14. Berlin: Springer.

Cuadrado, A.A., 2003. Supervisión de Procesos Complejos mediante Técnicas de Data Mining con Incorporación de Conocimiento Previo. Universidad de Oviedo. Departamento de Ingeniería Eléctrica, Electrónica, de Computadores y Sistemas. Tesis Doctoral.

Cuadrado, A.A., Díaz, I., Díez, A.B., González, J.A. and Obeso, F., 2002. Visual Data Mining And Monitoring in Steel Processes. IEEE Industry Applications Society 37th Annual IAS Meeting. Pittsburg, PA, USA.

Cutting, D.R., Karger, D.R., Pedersen, J.O. and Tukey, J.W., 1992. Scatter/Gather: A cluster-based approach to browsing large document collections. Proceedings of the 15th International ACM SIGIR Conference on Research and Development in Information Retrieval, pp 318-29.

Dash, M., and Liu, H., 2001. Efficient Hierarchical Clustering Algorithms Using Partially Overlapping Partitions. Pacific-Asia Conference on Knowledge Discovery and Data Mining, páginas 495-506.

102

Davies, D.L. and Bouldin, D.W., 1979. A Cluster Separation Measure. IEEE Transactions on Pattern Analysis and Machine Intelligence, vol 1, no. 2, pages 224-227.

Deboek, G. and Kohonen, T., 1998. Visual explorations in Finance using Self-Organizing Maps. Springer-Verlag, London.

Díaz, I., 2000. Detección e Identificación de fallos en procesos industriales mediante técnicas de procesamiento digital de señal y redes neuronales. Aplicación al mantenimiento predicitivo de accionamientos eléctricos. Universidad de Oviedo. Departamento de Ingeniería Eléctrica, Electrónica, de Computadores y Sistemas. Tesis Doctoral.

Díaz, I., Díez, A.B., Cuadrado, A.A. and Domínguez, M., 2002. Prior Knowledge Integration in Self Organizing Maps for Complex Process Supervisión. International Federation of Automatic Control 15th IFAC World Congress. Barcelona, Spain.

Dubes, R., and Jain, A.K., 1976. Clustering Techniques: The User's Dilemma. Pattern Recognition, vol. 8, pp. 247-260.

Duda, R.O., and Hart, P.E., 1973. Pattern Classification and Scene Analysis. John Wiley & Sons.

Dunn, J.C., 1974. Well separated clusters and optimal fuzzy partitions. J. Cybern. Vol.4, pp. 95-104.

Everitt, B.S., 1993. Cluster analysis. Halsted Press.

Fasulo, D., 1999. An analysis of recent work on clustering algorithms. Technical Report No 01-03-12, Dept. of Computer Science & Engineering, University of Washington.

Friedman, H.P., and Robin, J., 1967. On Some Invariant Criteria for Grouping Data. J. Am. Statistical Assoc., vol. 62, p. 1,159.

Frigui, H., and Krishnapuram, R., 1999. A Robust Competitive Clustering Algorithm with Applications in Computer Vision, IEEE Trans Pattern Análisis and Machina Intelligence, vol. 21, no. 5, pages 450-465.

Graepel, T., Burger, M., and Obermayer, K. 1997. Phase transitions in stochastic self-organizing maps. Physical Review E, 56(4), 3876-3890.

Haldane, J.B.S., 1930. Enzymes. Longmans, Green, London.

Han, J. and Kamber, M., 2001. Data Mining: Concepts and Techniques. Morgan Kaufmann.

Han, J., Kamber, M. and Tung, A.K.H., 2001. Spatial clustering methods in Data Mining: A survey. Geographic Data Mining and Knowledge Discovery, H. Millar and J. Han, editors, Taylor and Francis.

Haralick, R.M., and Shapiro, L.G., 1985. Image Segmentation Techniques. Computer Vision, Graphics, and Image Processing, vol. 29, pages 100-132.

Hartigan, J., 1975. Clustering Algorithms. New York. Wiley.

Hays, W.L., 1973. Statistics for the Social Sciences, 2nd edition. New York: Holt, Rinehart and Winston, Inc.

Hecht-Nielsen, R. 1988. Applications of counter propagation networks. Neural networks, 1(2):131-139, 1988.

Henze, M., Grady, C.P.L.Jr., Gujer, W., Marais, G.v.R., and Matsuo, T., 1987. Activated Sludge Model No 1. IAWQ Scientific and Technical Report No 1. London, UK.

Heskes, T. Energy functions for self-organizing maps. In E. Oja and S. Kaski, editors, Kohonen Maps, pages 303-316. Elsevier, Amsterdam, 1999.

Himberg, J. 1998. Enhancing SOM-based data visualization by linking different data projections. Intelligent Data Engineering and Learning (IDEAL´98), pages 427-434. Springer.

Hollmén, J. and Simula, O., 1996. Prediction models and sensitivity analysis of industrial production process parameters by using the self-organizing map. Proceedings of NORSIG’96, pp 79-82.

103

Hopfield, J.J., 1982. Neural networks and physical systems with emergent collective computational abilities. Proceedings of the National Academy of Sciences, 79, 2554-2558

Hubert, L., 1974. Approximate Evaluation Technique for the Single-Link and Complete-Link Hierarchical Clustering Procedure. J. Am. Statistical Assoc., vol. 69, p. 968.

Hubert, L. and Schultz, J., 1976. Quadratic assignment as a general data-analysis strategy. British Journal of Mathematical and Statistical Psychologie, Vol. 29, pp. 190-241.

Iivarinen, J., Kohonen, T., Kangas, J. and Kaski, S., 1994. Visualizing the clusters on the self-organizing map. Conference of Finnish Artificial Intelligence Society, pp. 122-126, Helsinki, Finland.

Jack, C.R., Bentley, M.D., Twomey, C.K., and Zinsmeister, A.R., 1990. MR Imaging-Based Volume Measurement of the Hippocampal Formation and Anterior Temporal Lobe. Radiology, vol. 176, pp. 205-209.

Jackson, E.F., Narayana, P.A., Wolinksy, J.S., and Doyle, T.J., 1993. Accuracy and Reproducibility in Volumetric Analysis of Multiple Sclerosis Lesions. J. Computer Assisted Tomogrophy, vol. 17, pp. 200-205.

Jain, A.K., and Dubes, R.C., 1988. Algorithms for Clustering Data. Englewood Cliffs, N.J.: Prentice Hall.

Jain, A.K., Murty, M.N. and Flinn, P.J. (1999). Data Clustering: A review. ACM Computing Surveys, Vol. 31, No 3.

Jarve, M., Lenzerini, M., Vassiliou, Y. and Vassiliadis, P., 1999. Fundamentals of Data Warehouses. Springer.

Johnson, S.C., 1967. Hierarchical Clustering Scheme Psychometrika, vol. 32, p. 241.

Judd, D., McKinley, P.K. and Jain, A.K., 1998. Large-Scale Parallel Data Clustering. IEEE Trans. Pattern Analysis and Machine Intelligence, Vol. 20, No. 8. pages 871-876.

Karipys, G., Han, E.H., and Kumar, V., 1999. CHAMELEON: A hierarchical clustering algorithm using dynamic modeling. IEEE Computer: Special Issue on Data Analysis and Mining, 32(8), 68-75.

Kaski, S. and Lagus, K., 1996. Comparing self-organizing maps. Proceedings of ICANN’96, pp 809-814.

Kato, N., and Nemoto, Y., 1996. Large Scale Hand-Written Character Recognition System Using Subspace Method. Proc. IEEE Int’l Conf. Systems, Man and Cybernetics, vol. 1, pp. 432-437.

Kaufman, L. and Rousseeuw, P.J., 1990. Finding Groups in Data: An Introduction to Cluster Analysis. John Wiley & Sons.

Kendall M. and J. D. Gibbons, 1990. Rank Correlation Methods, Oxford University Press, New York.

Kido, K., Miwa, J., Makino, S., and Niitsu, Y., 1978. Spoken Word Recognition System for Unlimited Speakers. IEEE Int’l Conf. Acoust Speech Signal Process, pp. 735- 738.

Kiviluoto, K., 1996. Topology preservation in self-organizing maps. Proceedings of the IEEE International Conference on Neural Networks, 249-299.

Kohonen, T., 1977. Associative Memory: A System-Theoretical Approach. Spring-Verlag.

Kohonen, T., 1982. Self-organized formation of topologically correct feature maps. Biological Cybernetics, 43, 59–63.

Kohonen, T., 1990. The self-organizing map. Proceedings of the IEEE, 78, 1464–1480.

Kohonen, T., 1995. Self-organizing maps. Berlin: Springer, 3rd extended ed 2001.

Kohonen, T., Oja, E., Simula, O., Visa, A., and Kangas, J., 1996. Engineering applications of the self-organizing map. Proceedings of the IEEE, 84, 1358–1384.

104

Lagus, K., Honkela, T., Kaski S. and Kohonen, T., 1996. Self-Organizing maps of document collections: A new approach to interactive exploration. Proceedings of the Second International Conference on Knowledge Discovery and Data Mining, pages 238-243. AAAI Press, Menlo Park, California.

Leung, Y., Zhang, J. and Xu, Z., 2000. Clustering by Scale-Space Filtering. IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 22, no. 12, pages 1396-1410.

López, H., Gonzalez, R.C., Machón, I., Ojea, G., Peregrina, S., González, J.A., and de Abajo, N., 2001. Identification of melting and brightening section of a tinplate facility by means of neural networks. IFAC European Control Conference, Oporto.

López, H., Machón, I., and Roces, S., 2003. Waste Treatment Monitoring using Self-Organizing Map and Condition Achievement Maps. IFAC 5th Symposium on Intelligent Components and Instruments for Control Applications, Aveiro.

López, H. and Machón, I., 2004c. Biological wastewater treatment analysis using som and clustering algorithms. 12th Mediterranean Conference on Control and Automation, Kusadasi.

López, H. and Machón, I., 2004b. An introduction to biological wastewater treatment explained by som and clustering algorithms. IEEE International Symposium on Industrial Electronics, Ajaccio.

López, H. and Machón, I., 2004a. Self-organizing map and clustering for wastewater treatment monitoring. Engineering Applications of Artificial Intelligence 17(3), 215-225.

López, H., Marañón, E., Roces, S., Machón, I., Rodríguez, J. and Vázquez, I., 2004. Modelling of an activated sludge plant using simulink. 16th International Congress of Chemical and Process Engineering, Praga.

Machón, I., and López, H., 2004. An application for on-line control of a sequencing batch reactor. Modeling and Control for Participatory Planning and Managing Water Systems, Venecia.

Machón, I., 2005. Control y Tratamiento de Aguas Residuales por medio de Algoritmos SOM y Clustering. Universidad de Oviedo. Departamento de Ingeniería Eléctrica, Electrónica, de Computadores y Sistemas. Tesis Doctoral.

Machón I., H. López H. and A. Robles. 2005. Treatment Stage Estimation in a Sequencing Batch Reactor. WSEAS Transactions on Computers, vol 4, no. 8., pp 951-959.

Machón, I., and López, H., 2006. End-point detection of the aerobic phase in a biological reactor using SOM and clustering algorithms. Engineering Applications of Artificial Intelligence 19(1), 19-28.

Maarek, Y.S., Fagin, R., Ben-Shaul, I.Z. and Pelleg, D., 2000. Ephemeral Document Clustering for Web Applications. IBM Research Report RJ 10186.

McClelland, J.L., and Rumelhart, D.E., 1986. Parallel Distributed Processing: Explorations in the Microstructure of Cognition. The MIT Press.

McKinney, R.E. and Ooten, R.J., 1969. Concepts of Complete Mixing Activated Sludge. Trans. 19th San. Eng. Conf., University of Kansas, Kansas, USA, pp 32-59.

McQueen, J., 1967. Some methods for classification and analysis of multivariate observations. 5-th Berkeley Symposium on mathematics, Statistics and Probability, 1, S. 281-298.

Minsky, M., and Papert, S., 1969. Perceptrons: An Introduction to Computational Geometry. The MIT Press.

Milligan, G. W., Soon, S.C., and Sokol, L. M., 1983. The effect of cluster size, dimensionality and the number of clusters on recovery of true cluster structure. IEEE Trans. Pattern Analysis and Machine Intelligence, Vol. 5, pp. 40-47, 1983.

Milligan, G.W., and Cooper, M.C. 1985. An Examination of Procedures for Determining the Number of Clusters in a Data Set. Psychometrika, 50, 159-179.

105

Morgan, N., and Franco, H., 1997. Applications of Neural Networks to Speech Recognition. IEEE Signal Processing Magazine, vol. 14, no. 6, pp. 46-47.

Mulier, F. and Cherkassky, V., 1994. Learning rate schedules for self-organizing maps. 12th Internation Conference on Pattern Recognition, pp. 224-228.

Navarro, A., and Allen, C.R., 1997. Adaptive Classifier Based on KMeans Clustering and Dynamic Programing. Proc. Int’l Soc. for Optical Eng., vol. 3027, pp. 31-38.

Newman, D.J., Hettich, S., Blake, C.L., Merz, C.J. 1998. UCI repository of machine learning databases. http://www.ics.uci.edu/~mlearn/MLRepository.html

Ng, R. and Han, J, 1994. Efficient and effective clustering method for spatial data mining. In Proc. 1994 Int. Conf. Very Large Data Bases, pp. 144-155, Santiago, Chile.

Pal N.R., and Biswas, J., 1997. Cluster Validation using graph theoretic concepts. Pattern Recognition, Vol. 30(6).

Pal, N.R., and Pal, S.K., 1993. A Review on Image Segmentation Techniques. Pattern Recognition, vol. 26, no. 9, pages 1277-1294.

Pedrycz, W. and Card, H.C., 1992. Linguistic interpretation of self-organizing maps. International Conference on Fuzzy Systems.

Qin He, 1996. A review of clustering algorithms as applied in IR, UIUCLIS-1996/6+IGR, University of Illinois at Urbana-Champaign.

Radota, V. and Psutka, V., 1997. Approach to Speaker Identification Using Multiple Classifiers. Speech Processing ICASSP, IEEE Int’l Conf. Acoustics, Speech and Signal Processing, vol. 2, pp. 1135-1138.

Rasmussen, E., 1992. Clustering Algorithms. W. B. Frakes and R. Baeza-Yates, editors, Information Retrieval, pp 419-442. Prentice Hall, Eaglewood Cliffs, N. J.

Rosenblatt, F., 1959. Principles of Neurodynamics. New York: Spartan Books.

Rumelhart, D.E., Hinton, G.E., and Williams, R.J., 1986. Learning representations by back-propagating errors. Nature, 323, 533-536.

Simula, O., and Kangas, J., 1995. Neural Networks for Chemical Engineers. Volume 6 of Computer-Aided Chemical Engineering, chapter 14, Process monitoring and visualization using self-organizing maps. Elsevier, Amsterdam.

Simula, O., Vesanto, J., Alhoniemi, E., and Hollmén, J., 1999. Neuro-Fuzzy Techniques for Intelligent Information Systems, chapter 1: Analysis and Modeling of Complex Systems Using the Self-Organizing Map. Springer.

Steinbach, M., Karypis, G., and Kumar, V., 2000. A comparison of Document Clustering Techniques. Technical Report No00-034. University of Minnesota. In KDD Workshop on Text Mining.

Strehl, A., Ghosh, J. and Mooney, R., 2000. Impact of Similarity Measures on Web-page Clustering. AAAI-2000: Workshop of Artificial Inteligence for Web Search.

Theodoridis, S., and Koutroubas, K., 1999. Pattern recognition. Academic Press.

Tou, J.T., and Gonzalez, R.C., 1974. Pattern Recognition Principles. Addison-Wesley, Massachusetts.

Tryba, V., and Goser, K., 1991. Self-Organizing Feature Maps for process control in chemistry. Proceedings of International Conference on Artificial Neural Networks (ICANN’91), pages 847-852, Amsterdam, Netherlands.

Ultsch, A. and Siemon, H.P., 1990. Kohonen’s self organizing feature maps for exploratory data analysis. Int. Neural Network Conference, pp. 305-308, Dordrecht, Netherlands, 1990. Kluwer.

Van Hulle, M., 2002. Kernel-based topographic map formation achieved with an information-theoretic approach. Neural Networks, vol. 15, pp 1029-1039.

106

Vanrolleghem, P.A., 1994. On-Line Modelling of Activated Sludge Processes: Development of an Adaptive Sensor. Ph.D. dissertation, Laboratory of Microbial Ecology, University of Gent, Gent, Belgium.

Vanrolleghem, P.A., Spanjers, H., Petersen, B., Ginestet, P., and Takacs, I., 1999. Estimating (Combinations of) Activated Sludge Model No 1 parameters and components by respirometry. Water Science and Technology, vol.39, No 1, pp. 195-214.

Vesanto, J., 1997. Data Mining Techniques Based on the Self-Organizing Map. Master’s thesis. Helsinki University of Technology. Laboratory of Computer and Information Science.

Vesanto, J., 2000. Using SOM in Data Mining. Licentiate’s thesis. Helsinki University of Technology. Laboratory of Computer and Information Science.

Vesanto, J. and E. Alhoniemi, 2000. Clustering of the Self-Organizing Map. IEEE Transactions Transactions on Neural Networks, Volume 11, Issue 3, pages 586-600.

Vesanto, J., Alhoniemi, E., Himberg, J., Kiviluoto, K., and Parviainen, J., 1999. Self-Organizing Map for Data Mining in MATLAB: the SOM Toolbox. Simulation News Europe, pages 25-54. http://www.cis.hut.fi/projects/somtoolbox/

Villar, J.R., Blanco, R., López, H., Machón, I. and A. Robles 2004. Fuzzy logic for monitoring the cycle of a biological waste treatment plant. International Conference on Modelling and Simulation, Valladolid.

Villmann, T., Seiffert, U., Schleif, F.-M., Brüss, C., Geweniger, T., and Hammer, B. 2006. Fuzzy Labeled Self-Organizing Map with Label-Ajusted Prototypes. Artificial neural Networks in Pattern Recognition, Volume 4087, pp 46-56.

Widrow, B., and Hoff, M.E., 1960. Adaptive switching circuits. In 1960 IRE WESCON Convention Record, pp. 96-104. DUNNO.

Willet, P., 1998. Recent trends in hierarchical document clustering: a critical review. Information Processing and Management. 24:577-97.

Zahn, C.T., 1971. Graphic-Theoretic Methods for Detecting and Describing Gestalt Clusters. IEEE Trans. Computers, vol. 20, pp. 68-86.

Zamir, O., and Etzioni, O., 1999. Grouper: A Dynamic Clustering Interface to Web Search Results. Proceedings of the Eighth International World Wide Web Conference, Computer Networks and ISDN Systems.

Zhao, Y. and Karypis, G., 2001. Criterion Functions for Document Clustering. Technical Report No1-40, Department of Computer Science, University of Minnesota.

Zrehen, S. 1993. Analyzing Kohonen maps with geometry. In St. Gielen & B. Kappen, Proceedings of the International Conference on Artificial Neural Networks, London: Springer.

curso doctorado version buena - uniovi.esisa.uniovi.es/doctorado/control_avanzado/5-curso... ·...

Documents