Deep learning methods for extractive text summarization

Joshi, Akanksha

Deep learning methods for extractive text summarization

Joshi, Akanksha

Dirigida por:

Enrique Alegre Gutiérrez Director
Eduardo Fidalgo Fernández Director

Universidad de defensa: Universidad de León

Fecha de defensa: 14 de diciembre de 2021

Tribunal:

Ana M. García Serrano Presidente/a
Víctor González Castro Secretario
Luis Fernando d'Haro Enríquez Vocal

Tipo: Tesis

Teseo: 770273 DIALNET BULERIA editor

Resumen

Esta tesis presenta nuevos algoritmos, métodos y conjuntos de datos para realizar resúmenes de texto extractivos en documentos individuales utilizando métodos de aprendizaje profundo y enfoques basados en la fusión de puntuaciones. Nuestra primera contribución es SummCoder, un método no supervisado que, por ese motivo, no se ve afectado por la carencia de grandes conjuntos de datos etiquetados, para el entrenamiento de modelos de resúmenes de texto extractivos. SummCoder genera un resumen de texto utilizando tres métricas de selección de oraciones: relevancia del contenido, novedad y relevancia de la posición. La relevancia del contenido de una frase se mide utilizando una red profunda de codificación automática. La métrica de novedad se calcula midiendo la similitud entre oraciones, previamente codificadas como incrustaciones en un espacio semántico distribuido. Por último, la métrica de relevancia de la posición de una frase se basa en una función diseñada que asigna más peso a las primeras oraciones a través de una función de cálculo de peso dinámico regulada por la longitud del documento. Se propone generar el resumen de texto final fusionando las tres métricas anteriores y ordenando dichas frases dentro del resumen final en base a la puntuación obtenida. Además, presentamos TIDSumm, un conjunto de datos que contiene resúmenes extractivos de 100 dominios recuperados de la red Tor (del inglés, The Onion Router). El objetivo de este dataset es comprobar la efectividad de los métodos de resumen de texto extractivos para dar un posible soporte a Fuerzas y Cuerpos de Seguridad del Estado. Para mejorar aún más la precisión de los resúmenes de texto extractivos, proponemos DeepSumm, un método para generar resúmenes que utiliza la información de los tópicos de los documentos junto con redes profundas de secuencia a secuencia. Los vectores de los tópicos pueden capturar información semántica en el documento. Cada oración se codifica a través de dos redes neuronales recurrentes diferentes basadas en distribuciones de tópicos probabilísticos e incrustaciones de palabras, y luego aplicar una red de secuencia-a-secuencia a la codificación de cada oración. Las salidas de dicha red se combinan tras ser ponderadas utilizando un mecanismo de atención, convirtiéndose en una puntuación a través de una red neuronal de perceptrones de múltiples capas. Las puntuaciones de las oraciones basadas en el tema, la inserción de palabras, la posición y la novedad de cada oración finalmente se fusionan para generar una puntuación para cada oración que indica su importancia dentro del resumen final. Los resultados de la experimentación demostraron que DeepSumm captura tanto la información semántica global como local del documento, y obtiene mejores resultados que los métodos del estado del arte a la hora de obtener resúmenes de texto extractivos en los conjuntos de datos DUC 2002 y CNN / DailyMail. Finalmente, hemos abordado nuevamente la generación de resúmenes de texto extractivos sin necesidad de un proceso supervisado. En este caso, hemos propuesto RankSum, un enfoque basado en la fusión de características multidimensionales de las oraciones en el documento, como son la información del tópico, el contenido semántico, las palabras clave significativas y la posición de las oraciones, para clasificarlas según su significado. Para determinar la clasificación de los tópicos, utilizamos modelos probabilísticos, mientras que la información semántica se captura utilizando frases incrustadas. Para clasificar utilizando incrustaciones de oraciones, utilizamos redes siamesas que permiten producir una representación de oraciones abstractas y luego formulamos una nueva estrategia para ordenarlas en base a su importancia. Se aplica una estrategia basada en grafos para encontrar las palabras clave significativas y las clasificaciones de oraciones relacionadas en el documento. También formulamos una medida de novedad de oraciones basada en bigramas, trigramas e incrustaciones de oraciones para eliminar las oraciones redundantes del resumen. Calculamos el rango de todas las oraciones en el documento usando cada una de estas características. Los rangos de todas las oraciones finalmente se fusionan para obtener la puntuación final de cada oración en el documento. Los resultados experimentales muestran que nuestro enfoque obtiene resultados comparables con otros métodos existentes del estado del arte