Evaluación del rendimiento de metodologías univariantes, multivariantes y de aprendizaje automático en el análisis de variaciones genómicas

  1. Díez Díaz, Fidel
Supervised by:
  1. Vicente Martín Sánchez Director
  2. Fernando Sánchez Lasheras Director

Defence university: Universidad de León

Fecha de defensa: 21 July 2023

Committee:
  1. Adonina Tardón García Chair
  2. Tania Fernández Villa Secretary
  3. José Pedro Fernández Vázquez Committee member
Department:
  1. CIENCIAS BIOMÉDICAS

Type: Thesis

Abstract

La asociación genética se puede definir como la ocurrencia simultánea de herencias o de características con una probabilidad superior a la que sería esperable por azar. El estudio de la asociación genética trata de identificar esas relaciones con el propósito de establecer un vínculo con un fenotipo observable, como, por ejemplo, una enfermedad, que puede aportar información acerca del mecanismo que lleva a la aparición de cierto rasgo. Además debe tenerse en cuenta que puede existir una asociación entre polimorfismo genéticos (existencia de dos o más variantes) bien por su proximidad física (ligadura genética) o debido al desequilibrio de ligamiento. En este proyecto de investigación se ha presentado y validado una nueva metodología que no solo sirven para la selección de los SNPs más relevantes dentro de cierto pathway previamente definido para la detección del rasgo objeto de interés, en este caso el cáncer colorrectal, sino que también podría emplearse como un método preliminar para la reducción dimensional del pathway analizado. Desde el punto de vista del autor, esta aplicación también podría ser de interés en un futuro. Los resultados obtenidos demuestran que es posible la construcción de nuevos algoritmos de análisis de pathways basado en técnicas de aprendizaje automático que consideren relaciones multivariadas entre todos los SNPs. En este proyecto de investigación se ha presentado una nueva metodología basada en técnicas de machine learning que no solo sirven para la selección de los SNPs más relevantes dentro de cierto pathway previamente definido para la detección del cáncer colorrectal, sino que se trata de una metodología que, por una parte, también podría emplearse como un método preliminar para la reducción dimensional del pathway analizado. Desde el punto de vista del autor, esta aplicación también podría ser de interés en un futuro. Tal y como se ha venido indicando a lo largo de todo el presente proyecto de investigación, aunque el algoritmo desarrollado se ha aplicado a una base de datos con casos y controles provenientes de un estudio de cáncer colorrectal, dicho algoritmo sería de aplicación a cualquier otro tipo de cáncer o rasgo que fuera de interés. Aunque desde un punto de vista biológico, en la actualidad resulta bastante difícil encontrar una relación directa entre parte de los SNPs seleccionados por los algoritmos propuestos con el cáncer, en nuestro entendimiento es de interés la colaboración de equipos interdisciplinares que puedan abordar este tipo de problemas desde diferentes puntos de vista, fundamentalmente desde la genética y aprendizaje automático. Así pues, aunque los algoritmos presentados superan a métodos anteriores con los que se comparan, también tiene algunas limitaciones, fundamentalmente relacionadas con la consideración del fenómeno de la epítasis que no ha sido tenido en cuenta, pues aumentaba de forma exponencial la complejidad del problema. Actualmente, los autores continúan desarrollando algoritmos híbridos que mejorarían los resultados de los algoritmos existentes de aplicación a los estudios de genoma amplio.