Selection of relevant information to improve image classification using Bag of Visual Words

  1. Fidalgo Fernández, Eduardo
Dirigida por:
  1. Enrique Alegre Gutiérrez Director
  2. Víctor González Castro Codirector

Universidad de defensa: Universidad de León

Fecha de defensa: 09 de diciembre de 2015

Tribunal:
  1. José María Sebastián Zúñiga Presidente/a
  2. Manuel Castejón Limas Secretario
  3. David Martín Gómez Vocal

Tipo: Tesis

Resumen

En esta tesis hemos propuesto varias soluciones para mejorar la extracción de información de objetos de interés presentes en una imagen con la intención de mejorar su clasificación utilizando el método Bag of Words. Una de las características más usadas en este contexto es SIFT y es muy frecuente combinarlo con otras características que permiten mejorar la clasificación. Un ejemplo de ello es Edge-SIFT, que se obtiene extrayendo los descriptores SIFT de una imagen de bordes obtenida con el operador compass calculado con un radio determinado. En esta tesis evaluamos cómo afecta al cálculo de los descriptores Edge- SIFT la modificación del radio del operador compass, demostrando que el radio sugerido por la literatura no es el más adecuado en muchas situaciones a la hora de clasificar imágenes. También demostramos que si seleccionamos dicho radio para cada imagen la precisión aumenta. Finalmente proponemos un método para estimar el radio que deberíamos aplicar a un conjunto de imágenes. Este radio garantizará una tasa de acierto superior a la obtenida al utilizar el radio recomendado en la literatura. La segunda línea de investigación en esta tesis ha tratado sobre la eliminación – o filtrado – de información innecesaria usando diferentes estrategias basadas en máscaras obtenidas de un mapa de atención. Cuando los descriptores SIFT son extraídos densamente de toda la imagen, contienen información del fondo que dificulta la clasificación del objeto de interés. Por ello presentamos varias estrategias de filtrado basadas en mapas de atención y en los diferentes diccionarios que se pueden crear usando características de interés – las que están contenidas en el mapa de atención – y de fondo – el resto. La primera propuesta elimina puntos clave basándose en estos diccionarios de interés y fondo. Las otras dos estrategias filtran lo que hemos denominado regiones de atención, una de ellas basándose en la intersección de regiones del mapa de atención y la otra en una votación de puntos de interés usando los diccionarios de atención y fondo. En el capítulo correspondiente se podrá ver cómo todas ellas producen muy buenos resultados. Nuestra última línea de investigación lleva la propuesta anterior un paso más allá. En ella exploramos cómo se pueden usar y combinar más de un mapa de atención, y diferentes niveles de información contenidos dentro del mismo, para mejorar la clasificación de imágenes. Un mapa de atención se puede considerar como una superficie topográfica que muestra un nivel de atención visual. La cantidad de información que aparece a diferentes alturas de este nivel no tiene la misma importancia para la clasificación de imágenes. Hemos demostrado que la información que se extrae a diferentes alturas de un mapa de atención afecta a dicha clasificación, llamando a estos niveles “rebanadas de información”. Después de obtener la precisión global para cada una de ellas usando BoW en la clasificación de varios conjuntos de imágenes, hemos comprobado cómo la combinación de dichas rebanadas produce una mejor precisión que utilizando las características extraídas de cada rebanada por separado. Pero también hemos constatado que el aumento de rebanadas de información en el anterior proceso no implica mayor precisión y que si combinamos las rebanadas de diferentes mapas se obtienen valores intermedios a los que se obtendrían para esas rebanadas si se usan por separado. Pensamos que todas nuestras contribuciones para mejorar la selección de características aportarán a la comunidad investigadora alternativas para superar los problemas típicos que aparecen en el proceso inicial de la clasificación de imágenes. Esperamos también que las futuras líneas de trabajo alienten o sean motivo de investigaciones adicionales.