object search and localization for an indoor mobile robotmdprl/documentos/javier_sjo_2009.pdf ·...

Object Search and Localization for an Indoor Mobile Robot

Kristoffer Sjö, Dorian Gálvez López, Chandana Paul, Patric Jensfelt and Danica Kragic

Artículo presentado por : Javier Cabanillas

Lugar : Laboratorio de Robótica

Fecha : Feb 18, 2010

TABLA DE CONTENIDOS

Resumen

Introducción

Visión

Evaluación Experimental

Discusión

Conclusión

RESUMEN

Búsqueda y localización de objetos con una cámara monocular con capacidades de zoom.

[Mecanismo de atención + zooming] → reconocimiento(imágenes de baja resolución)

Mecanismo de atención → RFCH

Reconocimiento → SIFT

Métodos de estimación de distancia (2).

INAOE

INTRODUCCIÓN I

Las aplicaciones futuras de agentes autónomos requiren la habilidad de detectar y reconocer objetos e interactuar con ellos.

Ciego o diseñado para funcionar en un entorno fijo.

SRVC

http://www.semantic-robot-vision-challenge.org/

Contribución al campo: lidia con el problema de búsqueda y detección de objetos en ambientes interiores realistas y pretende reducir limitaciones.

INAOE

INTRODUCCIÓN II

Distancia a los objetos

Detección/Reconocimiento confiable

Precondición:

El robot se mueva cerca del objeto o haga zoom en éste.

INAOE

INTRODUCCIÓN III

Métodos para determinar el área de interés de una imagen

– Basados en el sistema cognitivo humano.

– Uso de información contextual.

• Mecanismo de atención: RFCH, el cual provee diferentes hipótesis para cualquier ocurrencia de cada objeto en la imagen. [Zooming + Control de los ángulos pan-tilt] se usa para proveer una vista cercana de los objetos para la última fase de reconocimiento (SIFT).

INAOE

INTRODUCCIÓN IV

Cuándo y de dónde adquirir imágenes del ambiente (View Planning).

– Esfera de visibilidad, es decir, todos los ángulos que pueden ser vistos desde un punto fijo en el espacio, dada una distribución de probabilidad para la presencia del objeto.

– Problema de la galería de arte

– Problema del vigilante, calcula la mínima ruta que un vigilante debe tomar para que todo el ambiente pueda ser visto (la longitud de la ruta es crucial)

INAOE

CONTRIBUCIONES

[View Planning + Búsqueda Visual]

Zooming compartido.

View Planning.

Con base en las ideas presentadas en :

Object detection and mapping for service robot tasks. S. Ekvall, D. Kragic, and P. Jensfelt. Robótica: International Journal of Information, Education and Research in Robotics and Artificial Intelligence, 2007.

INAOE

HARDWARE

PeopleBot equipado con un sensor SICK laser, posicionado a 30 cm del piso, y una videocámara Canon VC-C4R (a 1 m del piso), capaz de adquirir imágenes de baja resolución (320x240 pixeles) con pan/tilt y hasta 13x de amplificación.

INAOE

NAVEGACIÓN

Mapa métrico generado a priori utilizando el laser y métodos de SLAM.

La búsqueda inicia con un paso de planeación en el que se determina una política de movimiento eficiente para explorar mapa.

El plan de navegación se define de forma que en todas las partes de la habitación se buscan todos los objetos, mientras mantiene el número de nodos visitados y búsquedas visuales tan bajo como sea posible.

Adicionalmente, se deben tomar en cuenta las restricciones de los objetos.

INAOE

View Planning basado en Rejilla I

Rejilla de Ocupación

– Es usada como la base del View Planning.

– Marcando cada celda como ocupada si ésta contiene una característica.

– El tamaño de la celda es un parámetro variable. En el sistema actual se usan celdas de 0.5m.

Vistas

– Usando la rejilla, las vistas pueden ser calculadas.

– (N,D,L)

N → nodo del mapa al cuál el robot tiene que viajar

D → dirección que este debe apuntar su cámara

L → lista de objetos a ser buscados en la imagen resultante.

– Las celdas son consideradas visibles en una vista si sus centros están en el campo de visibilidad del robot.

INAOE

View Planning basado en Rejilla II

Restricciones de Objetos

El TAMAÑO afecta la distancia a la cual un objeto puede ser detectado/reconocido.

Por cada objeto se define un intervalo de distancia máxima y mínima, dentro del cuál el robot intentará encontrarlo.

RECONOCIMIENTO

– Dist. Mín → rango en el cual el objeto llenaría una imagen entera con el zoom por defecto

– Dist. Máx → rango en el cuál el objeto llenaría una imagen entera con el máximo zoom.

DETECCIÓN

Dist. Mín → es dada por los parámetros del algoritmo de detección

INAOE

View Planning basado en Rejilla III

INAOE

Estrategia de Planeación

Objetivo : Asegurar que cualquier posible combinación objeto-celda debe ser cubierto por alguna vista.

Después de generar la rejilla, la vista que cubra la mayor cantidad de pares objeto-celda es elegida iterativamente hasta que no quedan pares que hayan sido cubiertos por alguna vista, o no quedan vistas que cubran más pares.

El plan es ejecutado visitando el nodo de navegación del grafo más cercano que tiene una vista formando parte de la lista, realizando búsqueda de objetos para todas las vistas, luego se mueve al siguiente vecino más cercano y así sucesivamente.

El algoritmo propuesto es voraz en función de los nodos y las celdas del mapa.

Aunque no asegura una solución óptima, permite obtener un bajo número de vistas en tiempo polinomial.

INAOE

Selección del Ángulo de Inclinación

No hay información directa que pueda ayudar a utilizar el ángulo de inclinación de la cámara.

Las celdas que están más cerca de una vista dada asociada a un nodo dado un umbral (2m), generan nuevas vistas que cubren la extensión vertical de las posibles localizaciones de los objetos.

INAOE

Visión

INAOE

Algoritmo de Búsqueda de Objetos

INAOE

Inicial: No se usa ampliación. Después de la estimación de distancia y zooming, se procede al paso medio.

Medio: Ampliación dada por la salida de la unión de ventanas de zoom. Si la nueva distancia indica que la ampliación actual es demasiado pequeña, este paso se repite. De otra forma, salta directamente al reconocimiento. En otro caso, se mueve al paso final sin zooming.

Final: ampliación de acuerdo a Eq1.Se realiza el reconocimiento.

Detección de Objeto I

Se toma una imagen con la cámara y se divide en celdas.

Para cada celda, RFCHs son calculados usando clusters aprendidos de cada objeto respectivo en la fase de entrenamiento. (se obtiene un valor por cada celda y objeto)

El conjunto de valores de celdas es llamado la matriz de votación del objeto. Altos valores de celdas denotan un mayor grado de correspondencia entre la imagen de prueba y la de entrenamiento.

INAOE

Detección de Objeto II

Luego, las hipótesis de los objetos son generadas. Una celda es una hipótesis si su valor es más alto que sus vecinas 8-conectadas, así como más alto que un umbral dependiente del objeto.

INAOE

Estimación de distancia

Si la distancia estimada es incorrecta…

Aún si el objeto es reconocido, su posición estimada puede ser inexacta.

INAOE

Usando la Matriz de Votación (RFCH)

Consiste en medir cuántas celdas son parte del objeto y tratar el área que éstas ocupan en la imagen como una aproximación del tamaño del objeto.

Las celdas son consideradas para ser asociadas con una hipótesis si su grado de correspondencia está por encima del umbral.

Sólo las hipótesis más fuertes y sus celdas 8-conectadas son tomadas en cuenta.

Dado el tamaño actual del objeto almacenado en la BD de entrenamiento, la distancia es calculada como:

INAOE

Wreal → ancho real del objeto (mts)

Wim → ancho en pixeles de la imagen de la cámara

Dvote → ancho en pixeles de la caja de límites de las celdas asociadas con una hipótesis

α → ángulo de observación horizontal

Usando SIFT

SIFT produce un parámetro de escala por cada punto clave extraído. Para cada correspondencia (im. Entrenamiento – im. Reconocimiento), el cociente da un estimado de su tamaño relativo y su distancia, de acuerdo a:

Estimación adecuada: 10 o más correspondencias SIFT.

Una desventaja es que extraer SIFT es costoso y usarlo para guiar el proceso de zooming puede tardar demasiado. Otra es el número de características SIFT requeridas para obtener una estimación robusta.

INAOE

Str → escala del punto extraído de la imagen de entrenamiento

Sreal → escala del punto extraído de la imagen de reconocimiento

Wtr→ el ancho en pixeles del objeto en la imagen de entrenamiento

Cálculo del Zoom

Dada una imagen de entrenamiento, su tamaño, la distancia al objeto y el campo de visión de la cámara, queremos calcular la ampliación necesaria para hacer que llene la imagen tanto como sea posible. El tamaño del objeto es aproximadamente el tamaño de su caja de límites.

INAOE

AGRUPAMIENTO Y REDUCCIÓN DE HIPÓTESIS

Las hipótesis son agrupadas en ventanas de zoom, las cuales son regiones de la imagen a ser ampliadas y procesadas.

Tamaño: ampliación recomendada por la distancia estimada de la hipótesis más fuerte.

Posición: la que abarca el máximo número de hipótesis

Se tiene un 2do paso de eliminación de ventanas.

INAOE

Agrupamiento de Ventanas de Zoom I

INAOE

Cuando se buscan varios objetos, el conjunto de ventanas de zoom obtenidas por cada objeto es calculado por separado. El conjunto de todas necesita ser juntado para reducir redundancia.

Un intervalo de ampliación máxima y mínima es definido para el nivel medio del paso de detección. Es más importante tener el mínimo zoom correcto.

Agrupamiento de Ventanas de Zoom II

ALGORITMO

Todas las ventanas de enfoque son encogidas a su tamaño mínimo.

Cada ventana de enfoque asociada c/un objeto A es comparada con las de un objeto B. Si las hipótesis contenidas por una de las ventanas B pueden ser contenidas por A – expandiendo la última si es necesario – entonces la ventana B es removida y el objeto B es agregado a la lista de ventanas A de objetos candidatos a observar en el próximo paso.

Este procedimiento es repetido para cada par de objetos.

INAOE

Reconocimiento de Objeto

El reconocimiento final del objeto es hecho una vez que éste ocupa toda la imagen o una gran porción ésta (SIFT).

Al menos 5% de correspondencia de características SIFT

Una vez que el objeto es reconocido, su posición en el ambiente es calculada de los ángulos pan-tilt de la cámara, la posición estimada del objeto en la imagen y la distancia calculada por el sistema.

Paso EXTRA: RFCH (sobre la imagen con todo el zoom) antes de SIFT

INAOE

Evaluación Experimental

Objetos de prueba:

Libro de Borland

caja de cereal

mouse pad impreso

copa impresa

caja para trackball

Robot

El tamaño de los objetos varía desde 14x10cm para la copa hasta 63x55cm para el robot.

INAOE

Detección de Objetos utilizando RFCH I

Se utilizaron 5 objetos, menos el robot

8 distancias diferentes (de 0 a 4m) de la cámara del robot

2 diferentes fondos (blanco y de oficina)

Se obtuvieron 5 imágenes por posición

RFCH fue usado para calcular la similaridad para cada celda de votación y ésta fue acotada de acuerdo a un umbral dependiente del objeto. Las celdas de votación que estaban por encima del umbral fueron segmentadas en regiones 8-conectadas y el máximo local de estas regiones fue extraído como hipótesis.

Rango de detección:

– 65% a distancias cortas

– 35% a distancias largas

INAOE

Detección de Objetos utilizando RFCH II

INAOE

Estimación de distancia inicial I

INAOE

View Planning

INAOE

Búsqueda de Objetos

INAOE

Rendimiento

La estimación de distancia es la que toma más tiempo porque es una tarea computacionalmente compleja que es realizada a cada paso de la búsqueda visual, una vez por cada imagen adquirida por objeto.

Ventajas del método:

– La habilidad de buscar simultáneamente múltiples objetos de diferentes tamaños.

– Cubre el ambiente para todos los objetos con un número limitado de vistas.

INAOE

Discusión

Mecanismos de atención

RFCH es un método comparativamente nuevo y puede ser mejorado de varias formas.

Los umbrales de los objetos y el tamaño de las celdas de votación son establecidos manualmente.

La sensibilidad del método al ruido significa que éste genera falsos positivos, reduciendo eficiencia.

No es altamente escalable en términos del número de objetos a ser buscados al mismo tiempo. Es bueno para un objeto en específico.

Soluciones:

– Información semántica

– Categorización: por tamaño

INAOE

Escalabilidad

Complejidad del Mapa 2D es en cierta medida problemático, dado que no cubre enteramente oclusiones, ni la probabilidad de

ocurrencia de objetos.

El algoritmo de view planning no toma en cuenta que los objetos pueden ser difíciles o imposibles de detectar/identificar cuando son vistos desde algunos ángulos.

Asume distribución de probabilidad uniforme.

Soluciones:

– Pesar localizaciones de los objetos

– Integrar detección y mapeo simultáneos

– Aprendizaje en línea y métodos jerárquicos para detección

INAOE

Ángulos de visión

Conocimiento a Priori

Conclusión

Se incorporan planeación para selección de vistas eficiente y búsqueda visual usando una combinación de RFCH y SIFT, y un método de estimación visual de distancia para el propósito de cálculo de nivel de zoom y posición del objeto en el mapa.

Mediante experimentación, se evaluaron la confiabilidad de la detección de objetos con base en RFCH, la exactitud de los métodos de estimación de distancia, la operación de la técnica de view planning y la búsqueda visual y localización de objetos.

Los resultados indican que el sistema presenta un método viable para búsqueda y localización de objetos en ambientes interiores.

INAOE

COMENTARIOS

Las imágenes de la página 72 no son de 320 x 240, son de más alta resolución.

¿Basta el 5% de correspondencia entre características SIFT para decir que un objeto está dentro de una imagen dada?

¿Es suficiente SIFT para solventar las condiciones variantes de iluminación, escala, rotación, traslación que mencionan?

El por qué de las fórmulas de estimación de distancia.

INAOE

object search and localization for an indoor mobile robotmdprl/documentos/javier_sjo_2009.pdf ·...

Documents