Deep learning applied to speech processingdevelopment of novel models and techniques

  1. Carofilis Vasco, Roberto Andrés
Dirigida por:
  1. Enrique Alegre Gutiérrez Director
  2. Laura Fernández Robles Directora

Universidad de defensa: Universidad de León

Fecha de defensa: 20 de diciembre de 2023

Tribunal:
  1. Luis Fernando d'Haro Enríquez Presidente/a
  2. Víctor González Castro Secretario
  3. Kenneth Camilleri Vocal

Tipo: Tesis

Resumen

Esta tesis propone y evalúa nuevas técnicas y modelos de aprendizaje automático en diferentes tareas dentro del campo del procesamiento del habla. Aborda principalmente la identificación de hablantes, idiomas y acentos, utilizando varias propuestas de descriptores basados en diversas representaciones del sonido. Además, presenta una nueva técnica de aprendizaje por transferencia basada en un nuevo descriptor, y dos nuevas arquitecturas para modelos de aprendizaje profundo basadas en representaciones de audio complementarias. La nueva técnica de aprendizaje por transferencia se basa en un descriptor al que hemos denominado Grad-Transfer y que está basado en el método de interpretabilidad de modelosGradient-weighted Class ActivationMapping (Grad-CAM).Grad-CAMgenera un mapa de calor de las zonasmás relevantes en los datos de entrada, según su influencia en una determinada predicción de un modelo. Para el desarrollo de Grad-Transfer demostramos experimentalmente, mediante los algoritmos de clustering Birch y k-means, que los mapas de calor generados por el método Grad-CAM son capaces de almacenar parte del conocimiento adquirido por un modelo de aprendizaje profundo de procesamiento del habla alimentado por espectrogramas, durante su proceso de entrenamiento. Aprovechamos esta capacidad de Grad-CAM para desarrollar una nueva técnica que transfiere conocimiento de un modelo preentrenado a uno sin entrenar, a través del descriptor Grad-Transfer encargado de resumir y reutilizar dicho conocimiento. Se evaluaron diversosmodelos basados en Grad-Transfer para la tarea de identificación de acentos, usando el conjunto de datos Voice Cloning Toolkit. Entre estos modelos se encuentran los Gaussian Naive Bayes, Support VectorMachines, y clasificadores Passive Aggressive. Los resultados experimentales muestran un incremento de hasta el 23,58% en el rendimiento en los modelos alimentados por descriptores Grad-Transfer y espectrogramas, en comparación de los modelos alimentados únicamente por espectrogramas. Esto demuestra que Grad-Transfer es capaz de mejorar el rendimiento de los modelos de procesamiento de voz y abre la puerta a nuevas implementaciones en tareas similares. Por otra parte, se evaluaron nuevas aproximaciones de aprendizaje por transferencia basadas en modelos de generación de embeddings. Los embeddings son creados mediante modelos de aprendizaje automático entrenados en una tarea específica con grandes conjuntos de datos. Aprovechando los conocimientos ya adquiridos, estos modelos pueden reutilizarse en nuevas tareas en las que la cantidad de datos disponibles es reducida. Esta tesis propone una nueva arquitectura para modelos de aprendizaje profundo, denominada Mel and Wave Embeddings for Human Voice Tasks (MeWEHV), capaz de generar embeddings robustos para el procesamiento del habla. MeWEHV combina los embeddings generados por un modelo wave encoder, preentrenado, alimentado por audio en bruto y características profundas extraídas de los Mel Frequency Cepstral Coefficients (MFCCs) mediante redes neuronales convolucionales. Su objetivo es demostrar experimentalmente la complementariedad entre ambas representaciones, y aprovecharla mediante capas neuronales específicamente diseñadas para su combinación. Evaluamos el rendimiento de MeWEHV en tres tareas: identificación de idiomas, identificación de acentos, e identificación de hablantes. Para la primera, utilizamos los conjuntos de datos VoxForge y Common Language. Para evaluar la tarea de identificación de acentos utilizamos los conjuntos de datos Latin American Spanish Corpora y Common Voice. Por último, para la tarea de identificación de hablantes utilizamos el conjunto de datos VoxCeleb1 y presentamos YouSpeakers204, un nuevo conjunto de datos puesto a disponibilidad del público para la identificación de hablantes de inglés. YouSpeakers204 contiene 19607 clips de audio de 204 personas que hablan con seis acentos diferentes, lo que permite a otros investigadores trabajar con un conjunto de datos altamente balanceado y crear nuevos modelos que sean robustos a múltiples acentos. Nuestro enfoque permite aumentar significativamente el rendimiento de los modelos más avanzados del estado del arte, en todos los conjuntos de datos evaluados, consiguiendo una mejora de hasta el 88,27% en identificación de hablantes, 14,86% en identificación de idiomas, y 20,38% en identificación de acentos. Necesitando para ello un bajo coste computacional adicional, al tener únicamente 1,04M parámetros adicionales, lo que representa entre un 0,33% y 1,09% más parámetros que los modelos preentrenados usados como baseline. Adicionalmente, se propone una segunda arquitectura basada en modelos de generación de embeddings, llamada Squeeze-and-excitation for Embeddings Network (SaEENet). SaEENet emplea capas 1D depthwise separable convolutions, capas GRU, e introduce, por primera vez, el uso de bloques squeeze-and-excitation para la ponderación de embedddings de audio. El uso de squeeze-and-excitation permite al modelo asignar una relevancia mayor o menor a cada embedding generado a partir de pequeños segmentos de audio y descartar así la información generada a partir de segmentos sin voz o segmentos con información no relevante. Además, para esta misma arquitectura, presentamos resultados experimentales utilizando tres variaciones distintas de bloques squeeze-andexcitation, identificando, de esta forma, las más útiles para las tareas evaluadas. SaEENet supera aMeWEHV y a modelos similares del estado del arte en las tareas de identificación de idiomas, identificación de acentos e identificación de hablantes, logrando una mejora de hasta el 0,90%, 1,41% y 4,01%, respectivamente, con un 31,73% menos de parámetros entrenables que MEWHEV. En conjunto, esta tesis presenta varios avances en las áreas de identificación de hablantes, idiomas y acentos, y propone nuevas técnicas y modelos que utilizan el aprendizaje por transferencia para mejorar el rendimiento de los modelos del estado del arte evaluados.