Image feature representation using deep learning for instance search and scene recognition
- Enrique Alegre Gutiérrez Zuzendaria
- Laura Fernández Robles Zuzendaria
Defentsa unibertsitatea: Universidad de León
Fecha de defensa: 2021(e)ko azaroa-(a)k 26
- Arturo de la Escalera Hueso Presidentea
- Víctor González Castro Idazkaria
- Nicola Strisciuglio Kidea
Mota: Tesia
Laburpena
Esta tesis investiga la creacion de algoritmos novedosos para representar ´ imagenes con el fin de abordar dos ´ areas importantes en el campo de la visi ´ on por ´ ordenador: la recuperacion de im ´ agenes basada en el contenido (CBIR, del ingl ´ es´ content-based image retrieval) y el reconocimiento de escenas. Los sistemas CBIR se pueden clasificar en dos tipos, recuperacion a nivel de instancia y recuperaci ´ on a ´ nivel de categor´ıa, y en esta tesis abordamos la primera. Motivados por nuestro trabajo conjunto con INCIBE, construimos sistemas basados en el aprendizaje profundo que pueden ayudar a las Fuerzas de Seguridad a cotejar las evidencias en las investigaciones de la escena del crimen, ademas de a una amplia gama de otras ´ aplicaciones. En particular, proponemos dos algoritmos para la CBIR, uno basado en la descripcion del color de los objetos y otro en la descripci ´ on de la textura de ´ parches en imagenes. Adem ´ as, proponemos un m ´ etodo adicional, que permite pre- ´ decir y recuperar escenas, basandose en la combinaci ´ on del contenido local y global ´ de la escena. Los sistemas CBIR para la recuperacion a nivel de instancia tienen como objet- ´ ivo recuperar imagenes de una base de datos de im ´ agenes o v ´ ´ıdeos que contengan el mismo objeto o escena que el representado en una imagen de consulta. Introducimos dos algoritmos para abordar esta tarea con el fin de ganar robustez frente a las variaciones de color y textura, respectivamente. Por un lado, proponemos descriptores neuronales de color que se componen de caracter´ısticas de redes neuronales convolucionales (CNN, del ingles´ convolutional neural networks) obtenidas mediante la combinacion de diferentes espacios de color y canales de color. A difer- ´ encia de los trabajos anteriores, que se basan en el ajuste fino de las redes preentrenadas, nosotros calculamos los descriptores propuestos basandonos en las acti- ´ vaciones generadas a partir de una CNN preentrenada sin ajuste fino. Ademas, ´ aprovechamos un detector de objetos para optimizar la arquitectura de recuperacion de instancias propuesta para generar caracter ´ ´ısticas tanto a escala local como global. Adicionalmente, introducimos una tecnica de expansi ´ on de consultas basada ´ en zancadas (strides en ingles) para recuperar objetos de conjuntos de datos multiv- ´ ista. Finalmente, demostramos experimentalmente que los descriptores neuronales de color propuestos obtienen resultados superiores al estado del arte en los conjuntos de datos Paris 6K, Revisiting-Paris 6k, INSTRE-M y COIL-100, con una precision´ media de 81, 70%, 82, 02%, 78, 8% y 97, 9%, respectivamente. Posteriormente, nos centramos en describir y utilizar las propiedades de textura de las imagenes. En las investigaciones de escenas de un crimen, algunas ´ pistas pueden provenir de parches de textura de las imagenes que no contienen ´ mucha informacion sobre el contorno del objeto, como puede ser una camiseta ´ tirada en el suelo. Para definir las caracter´ısticas de dichas imagenes, los patrones ´ de textura conforman los principales indicios para obtener una descripcion visual. ´ Proponemos un nuevo descriptor de caracter´ısticas de textura que se basa en la combinacion de las im ´ agenes espaciales y sus mapas de transformada discreta de ´ Fourier. Ademas, presentamos un nuevo y eficiente modelo de recuperaci ´ on de ´ imagenes basado en la textura, que se apoya en una red de propuesta de regiones, ´ autocodificadores convolucionales y aprendizaje por transferencia. Extraemos las caracter´ısticas de la capa de espacio latente del codificador como descriptores de textura compactos. Realizamos experimentos para validar la eficacia del metodo ´ propuesto y obtuvimos tasas de recuperacion medias de ´ 80, 36%, 90, 25% y 81, 02% en los conjuntos de datos Outex, USPtex y Stex. Ademas, tambi ´ en experimentamos ´ con el conjunto de datos TextileTube, que consiste en imagenes en un escenario real ´ de interior. En este caso, calculamos las medias aritmeticas de la precisi ´ on@ ´ k para tres intervalos diferentes, en los que k tomar´ıa valores en los intervalos [1, 10], [1, 20] y [1, 30], siendo los resultados obtenidos de 99, 2%, 93, 2% y 67, 9%, respectivamente. Ademas, el rendimiento obtenido en estos cuatro conjuntos de datos super ´ o los res- ´ ultados del estado del arte recogidos en la literatura. La segunda area de investigaci ´ on se refiere al reconocimiento de escenas en in- ´ teriores, que es una tarea desafiante y en expansion en el campo de la visi ´ on por ´ ordenador. Aunque las CNN pueden obtener resultados extraordinarios en el reconocimiento de escenas en exteriores, su rendimiento carece de la misma solidez en el reconocimiento de escenas en interiores. Esto se debe a la alta variabilidad espacial de las claves semanticas (por ejemplo, los objetos) y a la presencia de objetos ´ similares en diferentes categor´ıas de escenas. Para superar estos problemas, proponemos DeepScenePip (DSP), un pipeline con tres modulos: ´ object-centric y objectsto-scene, y scene-centric, que se centran independientemente en el contenido local y global de la escena, respectivamente. El proceso propuesto tiene tres componentes novedosos. En primer lugar, produce una descripcion de la imagen a partir de ´ las etiquetas de los objetos reconocidos para predecir las escenas mediante un enfoque de procesamiento del lenguaje natural. En segundo lugar, utiliza una funcion´ de peso que combina la informacion sobre el objeto y la escena para realizar una ´ prediccion global de la misma. En tercer lugar, incluye una t ´ ecnica de expansi ´ on´ de consultas que resulta muy beneficiosa para la recuperacion de escenas. Hemos ´ evaluado nuestro enfoque para el reconocimiento y la recuperacion de escenas en in- ´ teriores en tres conjuntos de datos publicos: MIT-67 Indoor, NYU-v2 y Hotels-50k. ´ La precision alcanzada (MIT-67 Indoor = ´ 94, 5%, NYU-v2 = 74, 5% y la precision´ top-1 10, 1% sin oclusion y 7,8% con oclusi ´ on media en el Hotels-50k) demostr ´ o la ´ eficacia del metodo propuesto, que tambi ´ en supera significativamente los enfoques ´ del estado del arte existentes. Esta tesis contribuye al desarrollo de métodos para crear descriptores robustos a ´ los cambios de color, textura y punto de vista y presenta marcos para utilizarlos en sistemas CBIR y de reconocimiento de escenas.