Identificación de "malware" perteneciente a ataques APT mediante la selección de características altamente discriminatorias usando técnicas de "Machine Learning"

Martín Liras, Luis Francisco

Identificación de "malware" perteneciente a ataques APT mediante la selección de características altamente discriminatorias usando técnicas de "Machine Learning"

Martín Liras, Luis Francisco

Supervised by:

Miguel Ángel Prada Medrano Director
Adolfo Rodríguez de Soto Director

Defence university: Universidad de León

Fecha de defensa: 03 February 2023

Committee:

Luis Magdalena Layos Chair
Vicente Matellán Olivera Secretary
Alejandro de la Calle Negro Committee member

Type: Thesis

Teseo: 786533 DIALNET BULERIA editor

Abstract

Esta tesis persigue realizar una aportación a la detección de los ataques de ciberseguridad denominados “amenazas persistentes avanzadas (APT)”. Estos ataques se caracterizan por la dificultad que presentan a la hora de ser detectados, por su gravedad y por estar dirigidos principalmente a corporaciones tales como empresas u organismos gubernamentales. Las aplicaciones antimalware no son siempre capaces de identificar este tipo de malware puesto que a menudo se esconden como software benigno o como malware genérico (el enviado, a diario, a millones de personas) y requieren de expertos para su detección. La línea de investigación realizada en este trabajo construye una solución para la identificación de APTs a través de la detección del malware usado en el ataque. Diversas técnicas de aprendizaje automático han permitido clasificar el malware según su uso probable en un ataque de este tipo. Tras el capítulo 1 de introducción, la presente memoria contiene un análisis del estado del arte, en el capítulo 2, describiendo a continuación en el capítulo 3 la metodología usada a lo largo del trabajo. El capítulo 4 está dedicado a la descripción del primer corpus de datos generado, un conjunto de 19.457muestras de malware con 1.941 características binarias y numéricas diferentes. Hasta donde el autor conoce, se trata del repositorio más completo publicado hasta la fecha con el objetivo de identificación de malware perteneciente a ataques APT. El análisis realizado sobre el conjunto de datos muestra que existe una relación entre las muestras de malware pertenecientes a APT. En el capítulo 5, se detalla la selección de las 238 características más discriminativas para la identificación de malware de ataques APT entre un conjunto de muestras de malware genérico. La selección automática de características aportó información sobre el malware de los ataques APT, mostrando la importancia de la funciones importadas por las muestras de malware y de las APIs utilizadas durante su ejecución para identificar que una muestra de malware podría pertenecer a una APT. Los experimentos de clasificación realizados sobre esta preselección de características aportaron muy buenos resultados, permitiendo detectar como malware de APT más del 97% de las muestras que realmente lo eran. Tres años después de la obtención del conjunto de datos inicial, se generó un segundo conjunto de datos, más reducido, aunque similar en su estructura al original, con muestras de malware y de APTs de esta nueva época. En el capítulo 7 se describen los experimentos de validación realizados usando este segundo conjunto de datos, obtenido independientemente del primero. Los experimentos de clasificación con el modelo original entrenado con el primer conjunto de datos continuaron siendo adecuados para la detección de malware perteneciente a APTs sobre el segundo conjunto de datos. Los clasificadores siguieron aportando una exactitud superior al 90%. También se calculó de nuevo el conjunto de las características más discriminativas de este nuevo corpus de datos, usando las mismas técnicas que con el primero. El nuevo conjunto de características obtenido resultó diferente al primero, lo que indicaría que las muestras de malware evolucionan con el tiempo. Todo lo anterior parece indicar que un sistema de identificación de malware perteneciente a ataques APT debería recalcular periódicamente este conjunto de características. No obstante, el trabajo realizado permite sostener que el conjunto de características propuestas inicialmente es suficientemente discriminativo, incluso pasado un largo periodo de tiempo. Además, queda demostrado que no se puede presuponer una perspectiva fija del malware, considerando que ni éste ni sus características evolucionan. Todo lo contrario, el entorno no es estacionario debido a naturaleza conflictiva del malware. Las características de las nuevas muestras de malware relacionadas con campañas APT experimentan algunos cambios (por ejemplo, los packers utilizados o las diferentes características más importantes en el nuevo conjunto de datos) porque necesitan evolucionar como respuesta a los avances en la detección de malware. Por esta razón parece que las precisiones de clasificación puedan ser extrapoladas claramente a nuevo futuro malware. Por último, la valoración sobre un conjunto de datos completamente nuevo permitió conocer nuevas tendencias en el desarrollo de malware que podrían ser investigadas en futuros trabajos.