Detección de amenazas persistentes avanzadas en redes de comunicaciones a partir de datos de flujo

Adrián Campazas Vega

Detección de amenazas persistentes avanzadas en redes de comunicaciones a partir de datos de flujo

Adrián Campazas Vega

Supervised by:

Vicente Matellán Olivera Director
Ángel Manuel Guerrero Higueras Director

Defence university: Universidad de León

Fecha de defensa: 12 July 2023

Committee:

José María de Fuentes García-Romero de Tejada Chair
Francisco Javier Rodríguez Lera Secretary
Sonsoles López Pernas Committee member

Type: Thesis

Teseo: 819109 DIALNET

Abstract

Las Advanced Persistent Threats (APTs) son una de las amenazas más preocupantes para gobiernos, organizaciones y empresas. Una de las principales características de una APT es la generación de tráfico malicioso en diversas etapas de su ciclo de vida. Se ha demostrado en la literatura que es posible detectar tráfico malicioso utilizando modelos de aprendizaje automático previamente entrenados con paquetes de red. Los paquetes de red contienen toda la información que se intercambia en una comunicación de red, incluyendo la carga útil. Existen redes que manejan una cantidad tan elevada de tráfico que no es posible analizar todos los paquetes que los enrutadores gestionan. Este tipo de infraestructuras se ven obligadas a utilizar protocolos basados en flujos para poder analizar lo que está sucediendo en la red. Un flujo se compone de un conjunto de paquetes IP que pasan por un punto de observación en la red durante cierto intervalo de tiempo. Todos los paquetes que pertenecen al mismo flujo tienen en común ciertas características, como las direcciones IP y los puertos, tanto de origen como de destino. Los flujos de red no almacenan la carga útil del paquete, lo que reduce la carga computacional en los enrutadores, pero al mismo tiempo se pierde gran parte de la información contenida en estos paquetes. Aun utilizando protocolos basados en flujos de red, hay redes que manejan tal cantidad de tráfico que para reducir la carga computacional de sus dispositivos, necesitan seleccionar un paquete de cada X a la hora de generar los flujos de red. Este proceso se conoce como muestreo. Este trabajo tiene como objetivo detectar tráfico de red malicioso, como el que puede ser generado por una APT, en este tipo de infraestructuras, aumentando la seguridad de empresas, organizaciones y usuarios. Para ello, se han analizado diferentes técnicas basadas en aprendizaje automático. Para entrenar modelos de aprendizaje automático, es necesario disponer de conjuntos de datos correctamente etiquetados. Con el fin de generar conjuntos de datos que contengan flujos de red recopilados aplicando diferentes umbrales de muestreo, se ha desarrollado y validado la herramienta Docker-based framework for gathering netflow data (DOROTHEA) como implementación de un marco propuesto previamente. DOROTHEA es una herramienta flexible y escalable que permite generar tráfico aislado, ya sea malicioso o benigno, permitiendo etiquetar inequívocamente los flujos de red generados. Para comprobar si es posible detectar tráfico malicioso en redes que utilizan protocolos basados en flujos con muestreo de paquetes, se han aplicado dos enfoques diferentes. Por un lado, se han entrenado algoritmos basados en aprendizaje supervisado. En este primer enfoque también se pretende analizar cómo afecta el umbral de muestreo a la detección de tráfico malicioso. En un segundo enfoque, se han utilizado modelos basados en la detección de anomalías. En la primera aproximación con modelos supervisados, se generaron conjuntos de datos recopilados con diferentes umbrales de muestreo que contenían ataques de escaneo de puertos, concretamente se utilizaron los siguientes umbrales: 1/250, 1/500, 1/1.000 y 10.000. Estos conjuntos de datos recopilados con DOROTHEA se utilizaron para entrenar y evaluar los modelos K-Nearest Neighbors (KNN), Logistic Regression (LR), Linear Support Vector Classification (LSVC), LSVC+Stochastic Gradient Descent (SGD), Multilayer Perceptron (MLP), y Random Forest (RF). Para comprobar su capacidad de generalización, se evaluaron estos modelos con flujos de red recopilados en los enrutadores en producción de RedCAYLE, la red académica regional de Castilla y León, y con el conjunto de datos público BoT-IoT. Ambos conjuntos de datos contenían flujos de red recopilados con un muestreo de 1 paquete de cada 1000. Los resultados obtenidos demostraron que es posible detectar tráfico malicioso en flujos de red muestreados utilizando modelos de detección basados en aprendizaje automático. Sin embargo, los resultados cambian significativamente en función de la frecuencia de muestreo. A medida que aumenta el umbral de muestreo, algunos modelos pierden su capacidad de detección. Sin embargo, se ha demostrado que los modelos KNN, MLP y RF mantienen su capacidad de detección en todos los umbrales estudiados, siendo el modelo KNN el que muestra mejores resultados. Posteriormente, se han generado modelos basados en la detección de anomalías. Estos modelos no están entrenados para detectar un tipo específico de ataque, sino para identificar el tráfico legítimo y considerar anómalo cualquier tráfico que se desvíe del patrón aprendido. Para comprobar si es posible detectar tráfico malicioso en redes que manejan una gran cantidad de tráfico, se han evaluado los modelos One-class Support Vector Machine (OC-SVM), e Isolation Forest (iForest) utilizando datos de flujo muestreados sintéticos y datos de flujo muestreados reales recopilados en RedCAYLE. Los conjuntos de datos de entrenamiento contenían únicamente tráfico benigno. Los conjuntos de datos de evaluación contenían ataques de escaneo de puertos. Además, el conjunto de datos sintético también contenía ataques de inyección SQL. El objetivo de incluir este tipo de ataque fue comprobar que este tipo de modelos tienen la capacidad de detectar ataques de red muy diferentes entre si. Los resultados demostraron que el modelo OC-SVM, obtuvo buenos resultados en la detección de ataques de red como anomalías tanto en tráfico sintético como en los flujos recopilados en los enrutadores de RedCAYLE. Estos resultados sugieren que este tipo de modelos basados en la detección de anomalías pueden ser capaces de detectar ataques desconocidos o incluso de día 0. A partir de los experimentos realizados, se puede concluir que es posible detectar tráfico malicioso en redes que manejan una gran cantidad de tráfico, aumentando la seguridad de la red. Esta tesis doctoral abre una serie de posibilidades para el futuro en relación a la detección de tráfico malicioso en grandes redes de comunicaciones, siendo el punto de partida para futuras investigaciones que mejoren la capacidad de detección de ataques en este tipo de redes.