Caracterización de enfermedades basada en su información fenotípica recuperada mediante la extracción de conocimiento biomédico de fuentes de información públicas

LAGUNES GARCÍA, GERARDO

Caracterización de enfermedades basada en su información fenotípica recuperada mediante la extracción de conocimiento biomédico de fuentes de información públicas

LAGUNES GARCÍA, GERARDO

Dirigida per:

Alejandro Rodríguez González Director/a

Universitat de defensa: Universidad Politécnica de Madrid

Fecha de defensa: 09 de d’octubre de 2020

Tribunal:

Ernestina Menasalvas President/a
Javier Rodríguez Vidal Secretari/ària
Jose M. Juarez Vocal
José Alberto Benítez Andrades Vocal
José María Álvarez Rodríguez Vocal

Tipus: Tesi

Teseo: 628195 DIALNET Archivo Digital UPM editor

Resum

El conocimiento diagnóstico es el primer elemento básico que se utiliza para descartar o identificar una enfermedad. Y estudiar enfermedades es una tarea compleja pero que es necesaria para mejorar la salud de la población mundial. Y para ello es importante tener información diagnóstica de calidad al alcance. La pandemia del Coronavirus entre finales de 2019 y principios de 2020 es un claro ejemplo del problema que supone a la humanidad no tener conocimientos sólidos sobre una enfermedad. El presente trabajo hace uso de diferentes análisis y experimentos para demostrar que la caracterización y definición de las enfermedades en base a sus elementos de conocimiento diagnóstico (DKE, por sus siglas en inglés) permite identificar parejas de enfermedad – enfermedad que pueden ser usadas para mejorar el conocimiento que tenemos de las enfermedades. En este trabajo se realiza por lo tanto una revisión de la literatura de los trabajos más relevantes relativos a bases de datos biomédicas, enfoques de extracción y generación de conocimiento biomédico, enfoques novedosos de análisis de enfermedades como las redes de enfermedades y enfoques de similitud entre enfermedades. Además de este profundo análisis del estado del arte, se plantearon las hipótesis a verificar, que se han permitido enfocar los esfuerzos en preparar un conjunto de datos médico para caracterizar sus enfermedades usando el tiempo como un aspecto relevante para observar como el contenido médico diagnóstico ha ido cambiando. El método que ha generado el conocimiento diagnóstico y que ha permitido caracterizar las enfermedades es capaz de ejecutarse periódicamente según defina el usuario para hacer capturas de las fuentes de información relevantes para esta tesis: Wikipedia, PubMed y Mayo Clinic. En el contexto de extracción de datos necesarios para el desarrollo de la tesis, esta periodicidad se estableció en 2 veces por mes para la fuente Wikipedia, pues es la fuente más susceptible de cambios de interés dado que puede ser modificada por cualquier usuario y puede presentar cambios incrementales (añadir contenido en artículos existentes y añadir nuevos artículos), decrementales (borrar contenido de artículos existentes y borrar artículos) y pseudoestacionarios (modificación de contenido existente, sin alterar significamente en términos de incremento o decremento), mientras que la fuente de la clínica Mayo depende de la propia clínica y es altamente estática, y PubMed solo representaría cambios incrementales. Después, a través de herramientas de NLP MetaMap, que es ejecutada sobre los textos se obtiene la lista de conceptos médicos que posteriormente se procesará para obtener una mayor calidad de los datos. El resultado es un conjunto de datos médicos (enfermedad – DKE), por el cual se ha desarrollado también un proceso de validación para verificar la precisión con la que el sistema obtiene los DKE y cuyo resultado se considera adecuado. En esta tesis también presenta el sistema web que es capaz de integrar información de diversas fuentes médicas que permitirá aumentar el grueso de datos del conjunto postulado en este documento y así compartir cada dato generado para poder crear redes de enfermedades diversas y por consiguiente abordar el complejo estudio las relaciones entre enfermedades. En esta tesis también postula una serie de experimentos y análisis que han permitido caracterizar y definir las enfermedades del conjunto de datos médicos ya validado. En primera lugar, se desarrollo un análisis descriptivo que ha servido para observar y comprender como esta compuesto el nuevo conocimiento generado: cantidad de enfermedades, cantidad de DKE, textos recuperados, códigos recuperado, las fuentes de conocimiento de donde provienen los códigos, entre otros elementos. Esto ha permitido definir las enfermedades según los DKE obtenido, así como también mostrar las distribuciones de los DKE según diferentes aspectos como, secciones, enfermedades, fuentes, snapshots y otros más. Se desarrollo un análisis evolutivo sobre Wikipedia (fuente, que habilitada para este tipo de estudio) que ha permitido observar el estado del conocimiento a lo largo de dos años de capturar conocimiento. La observación sobre la evolución sugiere que tanto los artículos de enfermedad de Wikipedia como su contenido aumenta con el tiempo y se va mejorando. Así se ha observado como el tiempo ha caracterizado y definido las enfermedades en Wikipedia. En mismo contexto de la evolución se presenta otro análisis evolutivo pero ahora enfocado en como ha ido cambiando el contenido de los artículos de enfermedad. Esta evolución del contenido ha caracterizado las enfermedades mediante la observación del comportamiento del conocimiento médico en Wikipedia según, el tamaño total de caracteres del documento de enfermedad, la cantidad de referencias científicas PubMed y la cantidad de DKE. Algunos hallazgos muestran una relación fuerte entre la cantidad de texto y la de DKE, pero no así con las referencias. Finalmente, se desarrollaron los cálculos de tres diferentes coeficientes de similitud con los que se han caracterizado las enfermedades en base a los DKE en común. Este análisis muestra el potencial del conjunto de datos para encontrar parejas enfermedad – enfermedad. Relaciones altamente interesantes porque sugieren que las enfermedades esas enfermedades pueden compartir no solo DKE sino genes, o alguna otra característia biológica. Este el primer paso del proyecto DISNET para conseguir apoyar el reposicionamiento de fármacos.