object search and localization for an indoor mobile robotmdprl/documentos/javier_sjo_2009.pdf ·...
TRANSCRIPT
Object Search and Localization for an Indoor Mobile Robot
Kristoffer Sjö, Dorian Gálvez López, Chandana Paul, Patric Jensfelt and Danica Kragic
Artículo presentado por : Javier Cabanillas
Lugar : Laboratorio de Robótica
Fecha : Feb 18, 2010
Page 3
RESUMEN
Búsqueda y localización de objetos con una cámara monocular con capacidades de zoom.
[Mecanismo de atención + zooming] → reconocimiento(imágenes de baja resolución)
Mecanismo de atención → RFCH
Reconocimiento → SIFT
Métodos de estimación de distancia (2).
INAOE
Page 4
INTRODUCCIÓN I
Las aplicaciones futuras de agentes autónomos requiren la habilidad de detectar y reconocer objetos e interactuar con ellos.
Ciego o diseñado para funcionar en un entorno fijo.
SRVC
http://www.semantic-robot-vision-challenge.org/
Contribución al campo: lidia con el problema de búsqueda y detección de objetos en ambientes interiores realistas y pretende reducir limitaciones.
INAOE
Page 5
INTRODUCCIÓN II
Distancia a los objetos
Detección/Reconocimiento confiable
Precondición:
El robot se mueva cerca del objeto o haga zoom en éste.
INAOE
Page 6
INTRODUCCIÓN III
Métodos para determinar el área de interés de una imagen
– Basados en el sistema cognitivo humano.
– Uso de información contextual.
• Mecanismo de atención: RFCH, el cual provee diferentes hipótesis para cualquier ocurrencia de cada objeto en la imagen. [Zooming + Control de los ángulos pan-tilt] se usa para proveer una vista cercana de los objetos para la última fase de reconocimiento (SIFT).
INAOE
Page 7
INTRODUCCIÓN IV
Cuándo y de dónde adquirir imágenes del ambiente (View Planning).
– Esfera de visibilidad, es decir, todos los ángulos que pueden ser vistos desde un punto fijo en el espacio, dada una distribución de probabilidad para la presencia del objeto.
– Problema de la galería de arte
– Problema del vigilante, calcula la mínima ruta que un vigilante debe tomar para que todo el ambiente pueda ser visto (la longitud de la ruta es crucial)
INAOE
Page 8
CONTRIBUCIONES
[View Planning + Búsqueda Visual]
Zooming compartido.
View Planning.
Con base en las ideas presentadas en :
Object detection and mapping for service robot tasks. S. Ekvall, D. Kragic, and P. Jensfelt. Robótica: International Journal of Information, Education and Research in Robotics and Artificial Intelligence, 2007.
INAOE
Page 9
HARDWARE
PeopleBot equipado con un sensor SICK laser, posicionado a 30 cm del piso, y una videocámara Canon VC-C4R (a 1 m del piso), capaz de adquirir imágenes de baja resolución (320x240 pixeles) con pan/tilt y hasta 13x de amplificación.
INAOE
Page 10
NAVEGACIÓN
Mapa métrico generado a priori utilizando el laser y métodos de SLAM.
La búsqueda inicia con un paso de planeación en el que se determina una política de movimiento eficiente para explorar mapa.
El plan de navegación se define de forma que en todas las partes de la habitación se buscan todos los objetos, mientras mantiene el número de nodos visitados y búsquedas visuales tan bajo como sea posible.
Adicionalmente, se deben tomar en cuenta las restricciones de los objetos.
INAOE
Page 11
View Planning basado en Rejilla I
Rejilla de Ocupación
– Es usada como la base del View Planning.
– Marcando cada celda como ocupada si ésta contiene una característica.
– El tamaño de la celda es un parámetro variable. En el sistema actual se usan celdas de 0.5m.
Vistas
– Usando la rejilla, las vistas pueden ser calculadas.
– (N,D,L)
N → nodo del mapa al cuál el robot tiene que viajar
D → dirección que este debe apuntar su cámara
L → lista de objetos a ser buscados en la imagen resultante.
– Las celdas son consideradas visibles en una vista si sus centros están en el campo de visibilidad del robot.
INAOE
Page 12
View Planning basado en Rejilla II
Restricciones de Objetos
El TAMAÑO afecta la distancia a la cual un objeto puede ser detectado/reconocido.
Por cada objeto se define un intervalo de distancia máxima y mínima, dentro del cuál el robot intentará encontrarlo.
RECONOCIMIENTO
– Dist. Mín → rango en el cual el objeto llenaría una imagen entera con el zoom por defecto
– Dist. Máx → rango en el cuál el objeto llenaría una imagen entera con el máximo zoom.
DETECCIÓN
Dist. Mín → es dada por los parámetros del algoritmo de detección
INAOE
Page 14
Estrategia de Planeación
Objetivo : Asegurar que cualquier posible combinación objeto-celda debe ser cubierto por alguna vista.
Después de generar la rejilla, la vista que cubra la mayor cantidad de pares objeto-celda es elegida iterativamente hasta que no quedan pares que hayan sido cubiertos por alguna vista, o no quedan vistas que cubran más pares.
El plan es ejecutado visitando el nodo de navegación del grafo más cercano que tiene una vista formando parte de la lista, realizando búsqueda de objetos para todas las vistas, luego se mueve al siguiente vecino más cercano y así sucesivamente.
El algoritmo propuesto es voraz en función de los nodos y las celdas del mapa.
Aunque no asegura una solución óptima, permite obtener un bajo número de vistas en tiempo polinomial.
INAOE
Page 15
Selección del Ángulo de Inclinación
No hay información directa que pueda ayudar a utilizar el ángulo de inclinación de la cámara.
Las celdas que están más cerca de una vista dada asociada a un nodo dado un umbral (2m), generan nuevas vistas que cubren la extensión vertical de las posibles localizaciones de los objetos.
INAOE
Page 17
Algoritmo de Búsqueda de Objetos
INAOE
Inicial: No se usa ampliación. Después de la estimación de distancia y zooming, se procede al paso medio.
Medio: Ampliación dada por la salida de la unión de ventanas de zoom. Si la nueva distancia indica que la ampliación actual es demasiado pequeña, este paso se repite. De otra forma, salta directamente al reconocimiento. En otro caso, se mueve al paso final sin zooming.
Final: ampliación de acuerdo a Eq1.Se realiza el reconocimiento.
Page 18
Detección de Objeto I
Se toma una imagen con la cámara y se divide en celdas.
Para cada celda, RFCHs son calculados usando clusters aprendidos de cada objeto respectivo en la fase de entrenamiento. (se obtiene un valor por cada celda y objeto)
El conjunto de valores de celdas es llamado la matriz de votación del objeto. Altos valores de celdas denotan un mayor grado de correspondencia entre la imagen de prueba y la de entrenamiento.
INAOE
Page 19
Detección de Objeto II
Luego, las hipótesis de los objetos son generadas. Una celda es una hipótesis si su valor es más alto que sus vecinas 8-conectadas, así como más alto que un umbral dependiente del objeto.
INAOE
Page 20
Estimación de distancia
Si la distancia estimada es incorrecta…
Aún si el objeto es reconocido, su posición estimada puede ser inexacta.
INAOE
Page 21
Usando la Matriz de Votación (RFCH)
Consiste en medir cuántas celdas son parte del objeto y tratar el área que éstas ocupan en la imagen como una aproximación del tamaño del objeto.
Las celdas son consideradas para ser asociadas con una hipótesis si su grado de correspondencia está por encima del umbral.
Sólo las hipótesis más fuertes y sus celdas 8-conectadas son tomadas en cuenta.
Dado el tamaño actual del objeto almacenado en la BD de entrenamiento, la distancia es calculada como:
INAOE
Wreal → ancho real del objeto (mts)
Wim → ancho en pixeles de la imagen de la cámara
Dvote → ancho en pixeles de la caja de límites de las celdas asociadas con una hipótesis
α → ángulo de observación horizontal
Page 22
Usando SIFT
SIFT produce un parámetro de escala por cada punto clave extraído. Para cada correspondencia (im. Entrenamiento – im. Reconocimiento), el cociente da un estimado de su tamaño relativo y su distancia, de acuerdo a:
Estimación adecuada: 10 o más correspondencias SIFT.
Una desventaja es que extraer SIFT es costoso y usarlo para guiar el proceso de zooming puede tardar demasiado. Otra es el número de características SIFT requeridas para obtener una estimación robusta.
INAOE
Str → escala del punto extraído de la imagen de entrenamiento
Sreal → escala del punto extraído de la imagen de reconocimiento
Wtr→ el ancho en pixeles del objeto en la imagen de entrenamiento
Page 23
Cálculo del Zoom
Dada una imagen de entrenamiento, su tamaño, la distancia al objeto y el campo de visión de la cámara, queremos calcular la ampliación necesaria para hacer que llene la imagen tanto como sea posible. El tamaño del objeto es aproximadamente el tamaño de su caja de límites.
INAOE
Page 24
AGRUPAMIENTO Y REDUCCIÓN DE HIPÓTESIS
Las hipótesis son agrupadas en ventanas de zoom, las cuales son regiones de la imagen a ser ampliadas y procesadas.
Tamaño: ampliación recomendada por la distancia estimada de la hipótesis más fuerte.
Posición: la que abarca el máximo número de hipótesis
Se tiene un 2do paso de eliminación de ventanas.
INAOE
Page 25
Agrupamiento de Ventanas de Zoom I
INAOE
Cuando se buscan varios objetos, el conjunto de ventanas de zoom obtenidas por cada objeto es calculado por separado. El conjunto de todas necesita ser juntado para reducir redundancia.
Un intervalo de ampliación máxima y mínima es definido para el nivel medio del paso de detección. Es más importante tener el mínimo zoom correcto.
Page 26
Agrupamiento de Ventanas de Zoom II
ALGORITMO
Todas las ventanas de enfoque son encogidas a su tamaño mínimo.
Cada ventana de enfoque asociada c/un objeto A es comparada con las de un objeto B. Si las hipótesis contenidas por una de las ventanas B pueden ser contenidas por A – expandiendo la última si es necesario – entonces la ventana B es removida y el objeto B es agregado a la lista de ventanas A de objetos candidatos a observar en el próximo paso.
Este procedimiento es repetido para cada par de objetos.
INAOE
Page 27
Reconocimiento de Objeto
El reconocimiento final del objeto es hecho una vez que éste ocupa toda la imagen o una gran porción ésta (SIFT).
Al menos 5% de correspondencia de características SIFT
Una vez que el objeto es reconocido, su posición en el ambiente es calculada de los ángulos pan-tilt de la cámara, la posición estimada del objeto en la imagen y la distancia calculada por el sistema.
Paso EXTRA: RFCH (sobre la imagen con todo el zoom) antes de SIFT
INAOE
Page 28
Evaluación Experimental
Objetos de prueba:
Libro de Borland
caja de cereal
mouse pad impreso
copa impresa
caja para trackball
Robot
El tamaño de los objetos varía desde 14x10cm para la copa hasta 63x55cm para el robot.
INAOE
Page 29
Detección de Objetos utilizando RFCH I
Se utilizaron 5 objetos, menos el robot
8 distancias diferentes (de 0 a 4m) de la cámara del robot
2 diferentes fondos (blanco y de oficina)
Se obtuvieron 5 imágenes por posición
RFCH fue usado para calcular la similaridad para cada celda de votación y ésta fue acotada de acuerdo a un umbral dependiente del objeto. Las celdas de votación que estaban por encima del umbral fueron segmentadas en regiones 8-conectadas y el máximo local de estas regiones fue extraído como hipótesis.
Rango de detección:
– 65% a distancias cortas
– 35% a distancias largas
INAOE
Page 34
Rendimiento
La estimación de distancia es la que toma más tiempo porque es una tarea computacionalmente compleja que es realizada a cada paso de la búsqueda visual, una vez por cada imagen adquirida por objeto.
Ventajas del método:
– La habilidad de buscar simultáneamente múltiples objetos de diferentes tamaños.
– Cubre el ambiente para todos los objetos con un número limitado de vistas.
INAOE
Discusión
Page 35
Mecanismos de atención
RFCH es un método comparativamente nuevo y puede ser mejorado de varias formas.
Los umbrales de los objetos y el tamaño de las celdas de votación son establecidos manualmente.
La sensibilidad del método al ruido significa que éste genera falsos positivos, reduciendo eficiencia.
No es altamente escalable en términos del número de objetos a ser buscados al mismo tiempo. Es bueno para un objeto en específico.
Soluciones:
– Información semántica
– Categorización: por tamaño
INAOE
Escalabilidad
Page 36
Complejidad del Mapa 2D es en cierta medida problemático, dado que no cubre enteramente oclusiones, ni la probabilidad de
ocurrencia de objetos.
El algoritmo de view planning no toma en cuenta que los objetos pueden ser difíciles o imposibles de detectar/identificar cuando son vistos desde algunos ángulos.
Asume distribución de probabilidad uniforme.
Soluciones:
– Pesar localizaciones de los objetos
– Integrar detección y mapeo simultáneos
– Aprendizaje en línea y métodos jerárquicos para detección
INAOE
Ángulos de visión
Conocimiento a Priori
Page 37
Conclusión
Se incorporan planeación para selección de vistas eficiente y búsqueda visual usando una combinación de RFCH y SIFT, y un método de estimación visual de distancia para el propósito de cálculo de nivel de zoom y posición del objeto en el mapa.
Mediante experimentación, se evaluaron la confiabilidad de la detección de objetos con base en RFCH, la exactitud de los métodos de estimación de distancia, la operación de la técnica de view planning y la búsqueda visual y localización de objetos.
Los resultados indican que el sistema presenta un método viable para búsqueda y localización de objetos en ambientes interiores.
INAOE
Page 38
COMENTARIOS
Las imágenes de la página 72 no son de 320 x 240, son de más alta resolución.
¿Basta el 5% de correspondencia entre características SIFT para decir que un objeto está dentro de una imagen dada?
¿Es suficiente SIFT para solventar las condiciones variantes de iluminación, escala, rotación, traslación que mencionan?
El por qué de las fórmulas de estimación de distancia.
INAOE