an hmm-based threshold model approach for gesture recognition hyeon-kyu lee and jin h. kim ieee...
TRANSCRIPT
An HMM-Based Threshold Model Approach for Gesture RecognitionHyeon-Kyu Lee and Jin H. KimIEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL. 21, NO. 10, OCTOBER 1999 961
introduccion
• Gesto: parte del movimiento de la mano que tiene un significado
• Ambigüedad de segmentación: determinar cuando comienza y cuando termina el gesto dentro de una trayectoria. Como se componen gestos en secuencia.
• Variabilidad espacio-temporal: el mismo gesto varia en amplitud y velocidad cada vez que se ejecuta.
• Se utilizan Hidden Markov models por su capacidad de modelar la variabilidad espacio-temporal
• El modelado de los “no-gestos” obliga la introducción de un modelo umbral que es capaz de reconocer todos los gestos.
• La complejidad del modelo-umbral es proporcional al numero de gestos.
• Proponen la mezcla de estados basada en la entropía cruzada, para reducir la complejidad del modelo-umbral.
• Utilizan HMM discretos con Baum-Welch reestimación.
Planteamiento del problema
• Localizar un gesto predefinido en las trayectorias en el plano 2D descritas por la mano, una vez segmentada…
• Un gesto es una secuencia espacio-temporal de vectores de características.
Un gesto y los representantes obtenidos mediante cuantización vectorial.
Lenguaje de gestos definido cuya semántica son los comandos de PowerPoint
Confusiones entre gestos debidas a movimientos imprevistos y a la similitud entre los gestos.
Estructura generica de los HMM utilizados para representar gestos.
Hidden markov models
• HMM es una colección de estados conectados por transiciones probabilisticas.
• Cada transición tiene asociadas dos probabilidades– La probabilidad de pasar de estado– La probabilidad de emitir un vector de
caracteristicas
Conjunto de estados
Alfabeto observable
Matriz de probabilidades de transición entre estados
Matriz de probabilidades de emisión del output
Distribución inicial de los estados
HMM
El modelo-umbral contiene todos los modelos de gestos. Proporciona el nivel de confianza para decidir si el reconocimiento dado por el modelo con mayor verosimilitud es aceptable.
Todos los estados están conectados
• Mantiene las probabilidades output de cada estado y sus auto-transiciones.
• Los estados representan los subpatrones posibles
• La conectividad completa permite que se reconozcan los patrones y subpatrones en cualquier orden
• La verosimilitud del reconocimiento por el modelo-umbral es el base-line para los demas modelos.
Gesture spotter
• Identifica el comienzo y final de los gestos.
• Utiliza un algoritmo de ViterbiObtener la secuencia óptima de estados
Dadas las observaciones
Secuencia máximo verosimil hasta el instante t
Transiciones nulas
Información para el backtracking, estado previo maxverosimil
Secuencia óptima
Un gesto debe de producir mayor verosimilitud en un modelo de gesto que en el modelo umbral.Un modelo que no es un gesto debe producir la mayro verosimilitud en el modelo umbral.
• El instante de tiempo en que se cumplen las condiciones es el candidate end point
• el CEP se determina por backtracking
• Existen muchos CEP, el problema es determinar los mas apropiados
Reduccion dela complejidad
• Es preciso reducir la complejidad del modelo umbral.
• Proponen el uso de la entropía relativa
Entropia relativa o distancia de Kullback-Leiber
Introduce simetría.
Complejidad del sistema de localización de los gestos