Botnet activity spotting with artificial intelligenceefficient bot malware detection and social bot identification

  1. Velasco Mata, Javier
Dirigida por:
  1. Enrique Alegre Gutiérrez Director
  2. Víctor González Castro Director

Universidad de defensa: Universidad de León

Fecha de defensa: 21 de diciembre de 2023

Tribunal:
  1. Ricardo Julio Rodríguez Fernández Presidente/a
  2. Laura Fernández Robles Secretaria
  3. Alberto Barrón Cedeño Vocal

Tipo: Tesis

Resumen

En el ámbito de la ciberdelincuencia, las botnets son redes de bots, autómatas que siguen las instrucciones de un ciberdelincuente. La capacidad de estas redes para operar en masa las han convertido en una de las herramientas más populares para llevar a cabo actividadesmaliciosas, desde la distribución de spam hasta ataques de denegación de servicio distribuido (DDoS, por su nombre en inglés). Esto ha hecho de las botnets una de las amenazas con mayor presencia en Internet, causando pérdidas multimillonarias a la economía mundial. La motivación de esta Tesis Doctoral es investigar y proponer técnicas de detección de bots. En concreto, esta Tesis se centra en dos tipos de bots: los bots malware, como virus informáticos que pueden instalarse en los dispositivos de las víctimas sin que éstas sean conscientes de ello; y los bots sociales, entendidos como cuentas falsas en redes sociales que intentan hacerse pasar por humanos reales para engañar a los usuarios normales. El primer trabajo de investigación está dedicado a la detección del tráfico de red producido por bots. En particular, se pretende mejorar el rendimiento de la clasificación del tráfico de botnets mediante aprendizaje automático seleccionando aquellas características que mejoren la tasa de detección. Para ello, se emplearon dos técnicas de selección de características, la Ganancia de Información y la Importancia de Gini, cuyo uso condujo a tres subconjuntos candidatos de cinco, seis y siete características. A continuación, se evaluaron estos tres subconjuntos de características y tres modelos de clasificación (Árbol de Decisión, Bosque Aleatorio y k-Vecinos más Cercanos). Para comparar su rendimiento, se generaron dos conjuntos de datos basados en el conjunto de datos CTU-13, y que se llamaron QB-CTU13 y EQB-CTU13. Por último, se midió el rendimiento como la relación entre el macropromedio del valor F1 sobre el tiempo computacional medio necesario para clasificar una muestra. Los resultados muestran que el mayor rendimiento fue obtenido por un Árbol deDecisión utilizando el conjunto de cinco características, que consiguió un valor F1 medio de 0,850 clasificando cada muestra en un tiempo medio de 0,78 microsegundos. Hoy en día existen redes de gran ancho de banda donde se generan grandes cantidades de tráfico por segundo, y es difícil analizar toda esa información en busca de amenazas, especialmente antes de que produzcan un gran daño. Por ello, el segundo trabajo se enfoca en la detección en tiempo real del tráfico de botnets incluso en redes con un gran ancho de banda. Como solución, se propone un enfoque capaz de llevar a cabo un análisis ultrarrápido de la red (en ventanas temporales de un segundo), sin una pérdida significativa en el valor F1 en la detección de botnets. Se comparó el modelo con otras tres propuestas de la literatura, logrando el mejor rendimiento: un valor F1 de 0,926 con un tiempo de procesamiento de 0,007 ms por muestra. También se evaluó la robustez del modelo en redes saturadas y con grandes anchos de banda. En concreto, el modelo propuesto es capaz de funcionar en redes con una saturación del 10% de pérdida de paquetes, y los resultados sugieren que, usando núcleos CPU comerciales de 2,4 GHz, el modelo solo necesitaría cuatro núcleos para anchos de banda de 100 Mbps y 1 Gbps, y 19 núcleos en redes de 10 Gbps. Los trabajos tercero y cuarto cambian su enfoque hacia los bots sociales – cuentas falsas en las redes sociales –, que, dada promoción de contenidos fraudulentos e ideologías divisivas, son objeto de una creciente preocupación. El daño causado por los bots en las redes sociales va desde estafas a individuos, hasta afectar a toda la sociedad, ya que pueden ser utilizados para contaminar el debate público con noticias falsas, y por lo tanto también pueden influir en la esfera política. En el tercer trabajo, para la detección automática de bots en Twitter se aprovecha la estructura de grafo de la red social. En particular, se propone un nuevo enfoque basado en un pipeline para utilzar el modelo de red convolucional de grafos de Kipf y Welling, resolviendo sus limitaciones cuando se utiliza en grafos no conectados con los datos de entrenamiento. Se obtuvo un valor F1 de 0,784 en el conjunto de datos Cresci-rtbust utilizando una versión de la propuesta entrenada en siete conjuntos de datos completamente independientes, lo que supuso una mejora del 24% con respecto modelo de referencia. Además, se presenta un novedoso algoritmo basado en semillas para generar particiones del conjunto de datos y usarlos en validación cruzada, que minimiza la pérdida de enlaces entre nodos dentro de cada partición, a la vez quemantiene el balance en número de tipos de nodos. Los nuevos métodos de pipeline y validación cruzada pueden aplicarse a cualquier otro problema que implique datos estructurados en grafos. La tercera línea de investigación dio indicios de la facilidad con la que una cuenta falsa puede hacerse pasar por humana con metadatos convincentes como el nombre de usuario, la descripción de la cuenta, la ubicación y otra información publica y rellenable. También es fácil para los bots seguirse unos a otros imitando el comportamiento humano, lo que dificulta su detección. Por ello, en el cuarto trabajo se enfoca en construir un detector de bots de Twitter basado en la actividad de publicación de las cuentas. Para este propósito, se creó un novedoso conjunto de datos de usuarios de Twitter que incluye 17,945 muestras etiquetadas manualmente como bots o humanos. Además, este nuevo conjunto de datos incluye los metadatos públicos de los usuarios, sus relaciones quiénsigue- a-quién dentro del conjunto de datos – garantizando una conexión densa entre los usuarios –, y la actividad de publicación más reciente de los usuarios muestreados. Hasta donde sabemos, el nuevo conjunto de datos es el mayor en términos de completitud y de número de muestras. La propuesta de detector de bots sociales aprovecha BERTopic, un predictor de temas basado en BERT, para clasificar los tuits de los usuarios en 102 categorías. La información resultante se divide en ventanas de tiempo de 15 minutos para caracterizar la actividad de los usuarios y se utiliza para predecir si son bots o humanos mediante el clasificador propuesto: un ensamblado de siete redes neuronales basadas en LSTM. Este sistema obtuvo una precisión de 0,755 y un valor F1 de 0,777% en el nuevo conjunto de datos.