A stereo vision system based on soft computing techniques for human robot interaction

PAUL MIRANDA DE OLIVEIRA, Rui Filipe

A stereo vision system based on soft computing techniques for human robot interaction

PAUL MIRANDA DE OLIVEIRA, Rui Filipe

Dirigida por:

Eugenio Aguirre Molina Director/a
Rafael Muñoz Salinas Director/a
Miguel García Silvente Director/a

Universidad de defensa: Universidad de Granada

Fecha de defensa: 30 de septiembre de 2013

Tribunal:

Antonio González Muñoz Presidente/a
Jesús Chamorro Secretario/a
Miguel Cazorla Quevedo Vocal
Alexandre Bernardino Costa Vocal
Vicente Matellán Olivera Vocal

Tipo: Tesis

Teseo: 349631 DIALNET DIGIBUG editor

Resumen

Introducción El objetivo principal del trabajo presentado en esta tesis es el desarrollo de técnicas visuales que resulten útiles para el establecimiento de una interacción natural entre seres humanos y robots. En este contexto, ¿natural¿ significa que es similar a las interacciones existentes entre los humanos. En este sentido, nuestros esfuerzos se han centrado en hacer posible que un robot, equipado con una cámara estéreo, sea capaz de analizar y estudiar el comportamiento de las personas que se encuentran a su alrededor. La motivación subyacente a este objetivo es proporcionar a los robots la posibilidad de comportarse como lo haría un ser humano, eligiendo entre diferentes acciones de la misma manera como lo haría una persona. Esto pasa por ejecutar distintas tareas tales como: ser capaz de detectar y seguir personas en su entorno, detectar cual o cuales de entre estas personas están interesadas en las acciones propuestas por el robot, y además están respondiendo a esas mismas acciones. Por otra parte, los robots pueden utilizar sus recursos de una manera más apropiada y mejorar sus métodos de comunicación alcanzando un comportamiento más cercano al comportamiento humano. Desarrollo Para alcanzar este tipo de Interacción Humano-Robot consideramos diferentes técnicas. Estas técnicas contribuyen a resolver varios problemas existentes en esta área. En particular, las técnicas de ¿Soft Computing¿ son utilizadas para tratar la incertidumbre e imprecisión, así como para representar las variables y las reglas de una manera más comprensible por el ser humano. Son utilizadas también diferentes técnicas de análisis de imágenes para extraer la información relevante del entorno del robot. Todas estas técnicas permiten una mejora en la socialización de los robots. El objetivo de este trabajo puede dividirse en dos. El primero es la detección y el seguimiento de las personas que se encuentran en el entorno del robot. El segundo es la detección del interés de cada persona en interaccionar con el robot, la detección de la demanda de atención al robot y la detección de la respuesta a sus acciones. Esto se realiza en base al análisis de algunos de los elementos que caracterizan una situación de interacción típica entre humanos tales como: la distancia entre los diferentes interlocutores, la orientación de la cabeza, el movimiento de brazos, el movimiento de concordancia y discordancia entre la cabeza y la expresión de la boca (sonrisa). Para alcanzar el primer objetivo se consideran dos métodos: el primero basado en un enfoque probabilístico y el segundo basado en un enfoque ¿posibilístico¿. El método probabilístico muestra un nuevo enfoque para el seguimiento de personas que combina profundidad, color e información de gradiente y está basado en visión estéreo. El grado de confianza asignado a la información de profundidad en el proceso de seguimiento varía de acuerdo con la cantidad de información estéreo disponible en el mapa de disparidad. Se ha definido una nueva medida de confianza para alcanzar este objetivo y el seguimiento se hace utilizando filtros de partículas. El segundo método, basado en un enfoque ¿posibilístico¿, se utiliza para añadir más información basada en conocimiento experto que se usa a la hora de evaluar las partículas. Este enfoque tiene las restricciones derivadas de las condiciones de un modelo probabilístico. En este caso se utiliza la lógica difusa para manejar la información estéreo y así poder detectar y seguir a las nuevas personas. Más concretamente, en la fase de detección de personas, se utilizan dos sistemas difusos para filtrar los falsos positivos del detector de caras. A continuación, en la fase de seguimiento, se propone un nuevo Filtro de Partículas basado en Lógica Difusa para fusionar la información estéreo y la información de color, asignando diferentes niveles de confianza a cada una de estas fuentes de información. De esta manera, el sistema es capaz de seguir a las personas, en la imagen de referencia de la cámara, aun cuando una de las fuentes de información utilizada (estéreo o color) sea confusa o imprecisa. Considerando que un robot es un sistema inteligente, la detección de determinadas situaciones de interacción es una habilidad que resulta interesante. Por consiguiente, para alcanzar el segundo objetivo, se presenta un método basado en diferentes características, como el ángulo y la distancia entre las personas y el robot, así como la dirección de la cabeza de cada persona. La estimación de la dirección de la cabeza en tiempo real se hace utilizando una técnica basada en ¿Support Vector Machines¿ mientras que se utiliza un sistema difuso para calcular el valor de interés final a partir de las tres variables que se acaban de mencionar. Siempre que el grado de interés alcanza un valor alto, la persona se analiza con más en detalle para detectar su posición y un determinado tipo de movimiento de sus brazos y cabeza (concordancia y discordancia). Esta información se gestiona por otro sistema difuso que debe calcular si la persona está llamando la atención del robot o si está diciendo SI / NO con su cabeza. En el último trabajo presentado en esta tesis, algunas de estas fuentes de información se usan de forma conjunta con una técnica de detección de sonrisa, para construir un sistema basado también en lógica difusa, que tiene la capacidad de medir ciertos tipos de respuesta humana. Como la fiabilidad de la información visual captada por la cámara estéreo depende bastante de la distancia de cada persona con respecto a la cámara, las diferentes características visuales se priorizan de acuerdo con la distancia de la persona al robot. La respuesta humana se calcula a partir de un sistema difuso jerárquico que es capaz de tratar la incertidumbre y la imprecisión existentes en dichas medidas, según la distancia a la que se encuentra la persona con respecto al robot. Esta medición de la respuesta humana se utiliza para detectar la persona o las personas que están respondiendo mejor a la interacción social propuesta por el robot. Dicha medición puede servir también para mejorar y ajustar las habilidades de interacción social del robot en el futuro. Conclusiones Esta tesis presenta diferentes trabajos llevados a cabo en los últimos años y que están relacionados con diferentes áreas de las Ciencias de la Computación como la Inteligencia Artificial, la Interacción entre Robots y Humanos y la Visión por Computador. En particular, nuestros esfuerzos se han enfocado en la problemática de la detección y seguimiento de personas que consideramos un tema primordial y que debe ser resuelto antes de investigar en técnicas de Interacción entre Robots y Humanos. A continuación, hemos desarrollado algunas técnicas para la detección de diferentes tipos de respuesta humana. Así se puede concluir que esta tesis contribuye con 4 aportaciones principales: - El desarrollo de un algoritmo de seguimiento estéreo que utiliza una medida de confianza. La medida de confianza se utiliza para modificar la distribución de probabilidad de los pesos de las partículas en el algoritmo de filtro de partículas. Esta propuesta es rápida, robusta y además permite manejar la incertidumbre asociada a la información de disparidad. - El desarrollo de un algoritmo difuso de seguimiento estéreo. En esta propuesta no solo se trata la incertidumbre asociada a la disparidad sino que también se considera la del resto de fuentes de información. - Un nuevo sistema difuso que permite la detección visual de demandas de interacción. Se calcula un nivel de interés en tiempo real usando un enfoque basado en imágenes y Maquinas de soporte vectorial. - La propuesta de un sistema difuso jerárquico para medir la respuesta humana usando visión estéreo. El sistema difuso jerárquico es capaz de tratar con la incertidumbre e imprecisión de las medidas en función de la distancia a la que se encuentra la persona.