Analysis and classification of spam email using artificial intelligence to identify cyberthreats

Jáñez Martino, Francisco

Analysis and classification of spam email using artificial intelligence to identify cyberthreats

Jáñez Martino, Francisco

Dirigida por:

Universidad de defensa: Universidad de León

Fecha de defensa: 21 de diciembre de 2023

Tribunal:

Arturo Montejo Ráez Presidente/a
Laura Fernández Robles Secretaria
Petr Motlicek Vocal

Tipo: Tesis

Teseo: 831387 DIALNET BULERIA editor

Resumen

En esta Tesis, proponemos nuevos modelos, metodologías, enfoques y conjuntos de datos para analizar e identificar las crecientes ciberamenazas en los correos electrónicos no deseados, conocidos como correos spam. Motivados por nuestra colaboración con el Instituto Nacional de Ciberseguridad (INCIBE), concentramos nuestros esfuerzos en desarrollar aplicaciones y llevar a cabo estudios para mejorar la pronta detección de estos peligrosos correos electrónicos. Varias contribuciones entre las presentadas en esta Tesis están preparadas para una futura incorporación en las herramientadas desarrolladas por INCIBE a la hora de lanzar avisos más detallados y rápidos a organizaciones y ciudadados sobre el potencial riesgo de un correo spam. Nuestros enfoques se basan sobre todo en la aplicación de técnicas del Procesamiento del Lenguaje Natural, así como de Aprendizaje Automático y Profundo centrado principalmente en modelos de aprendizaje supervisado. Primero, nuestro objetivo fue emplear métodos de clasificación de texto para clasificar los correos spam de acuerdo a su temática de ciberseguridad por primera vez en la literatura. Nuestros enfoques supervisados nos han dirigido a la creación de nuevos y personalizados conjuntos de datos para cada contribución. En este caso, hemos creado SPam EMail Classification dataset (SPEMC), un novedoso conjunto de datos que incluye once clases de correo spam correspondientes a temas de ciberseguridad. SPEMC está compuesto de dos subconjuntos, SPEMC-E-15K y SPEMC-S-15K, que contienen emails escritos en inglés y en español, respectivamente. Usando SPEMC, evaluamos la combinación de cuatro descriptores de texto junto con cuatro modelos de Aprendizaje Automático. La combinación de TF-IDF y Regresión Logística alcanzó el mejor valor deMacro F1-score (0.953). Por otro lado, la combinación de TF-IDF con Naïve Bayes logró 0.945 en el conjunto de datos en español. En ambos idiomas, TF-IDF con Regresión Logística fue la combinación más rápida con 2.0 y 2.2 ms por email, en inglés y en español, respectivamente. Después, buscamos comprender el rol de la persuasión en los correos spam para luchar contra las amenazas de cibersecuridad más eficientemente. Desarrollamos sistemas inteligentes para detectar la persuasión y sus técnicas usadas mediante Procesamiento del Lenguaje Natural en tres niveles de granularidad: correo completo, oraciones y fragmentos específicos de texto (una o más palabras siempre menores a una oración). Replicamos el clasificador Proppy (Barrón-Cedeño et al., 2019) para detectar la persuasión en el correo completo y construimos un modelo binario y otro multietiqueta basado en Ro- BERTa (Liu et al., 2019) para la clasificación a nivel de oración y fragmento (basado específicamente en Chernyavskiy et al. (2020)). Creamos un nuevo conjunto de datos llamado Persuasive Sentences in Spam Emails (PerSentSE), que contiene oraciones etiquetadas de manera binaria, es decir, si contiene persuasión o no, y multietiqueta. Para este último enfoque, consideramos ocho técnicas de persuasión: Apelar a la Autoridad, Apelar al miedo/prejuicio, Duda, Exageración o minimización, Patriotismo, Lenguaje Cargado, Descalificación o Etiquetado y Repetición. Por último, nuestro objetivo fue desarrollar un sistema inteligente capaz de detectar los correos potencialmente peligrosos para los individuos y las organizaciones. Construimos un novedoso conjunto de datos llamado Spam Email Risk Classification (SERC-4K) que incluye correos spam divididos en dos clases basadas en un potencial riesgo para los usuarios debido a su contenido, bajo o alto riesgo, así como una valoración del riesgo de 1 a 10. El corpus está compuesto de dos conjuntos, uno con correos spam compartidos por INCIBE (SERC-I) y otro recolectado del repositorio público de Bruce Guenter, Spam Archive (SERC-BG). SERC-I contiene correos tanto en inglés como en español,mientras que en SERC-BG casi todos están escritos en inglés. Primero, nuestro enfoque busca extraer 56 características de las cabeceras, texto, adjuntos, URLs y protocolos de los correos spam. Después, los conjuntos de características junto con tres populares modelos de Aprendizaje Automático fueron evaluados, dando como resultado que Random Forest obtuvo el F1-score más alto (0.914). En cuanto al enfoque de regresión, el estimador Random Forest Regressor consiguió el MSE más bajo (0.579). Nuestro trabajo también incluye una evaluación de las características para determinar la importancia de cada una individualmente y de los grupos de características. Nuestras metodologías consideran la influencia del cambio en el conjunto de datos y el entorno contra un adversario (la persona que crea y envía correos spam, llamado spammer) para sus diseños. Nuestro procesamiento del correo electrónico buscó superar algunas estrategias creadas por spammers, por ejemplo correos con mensaje spam en las imágenes o texto oculto.