Modelo de descubrimiento de patrones en series temporales simbólicas

  1. Molina Bustamante, Marco Eduardo
Dirigida por:
  1. Aurora Pérez Pérez Director/a
  2. Juan Pedro Caraça-Valente Hernández Codirector/a

Universidad de defensa: Universidad Politécnica de Madrid

Fecha de defensa: 05 de julio de 2017

Tribunal:
  1. Francisco Javier Segovia Pérez Presidente/a
  2. Ernestina Menasalvas Secretario/a
  3. María Araceli Sanchís de Miguel Vocal
  4. Ángela Ribeiro Seijas Vocal
  5. Camino Fernández Llamas Vocal

Tipo: Tesis

Resumen

La clasificación de series temporales numéricas es una tarea de data mining indispensable en casi todos los dominios, incluyendo algunas ramas de la medicina. Los métodos de clasificación conocidos se ejecutan usando procedimientos que toman en cuenta los valores numéricos de las series sin prestar atención al contexto, la forma y el significado que esos valores pudieran tener dentro de la serie. Pocos estudios enfocan la abstracción del contenido de la serie para descubrir conocimiento compatible con la problemática propia del dominio y en términos inteligibles para los expertos del dominio. El propósito de la presente tesis es obtener un método para clasificar series temporales, sobre la base del descubrimiento de patrones frecuentes encontrados en conjuntos de secuencias simbólicas. Las secuencias simbólicas, por su parte, serán generadas a partir de series temporales numéricas por medio de un proceso de abstracción temporal que tome en cuenta el conocimiento experto del dominio. Para lograr el propósito, se ejecutan tres pasos que consisten en: • En primer lugar, se transforman las series temporales numéricas en secuencias temporales simbólicas, en las que los símbolos tienen como objetivo representar los conceptos relevantes del dominio. Esos símbolos pueden ser definidos usando conocimiento, tanto experto como público, sobre el dominio; • A continuación se aplica una técnica de descubrimiento de patrones simbólicos sobre las secuencias simbólicas obtenidas. Esta técnica identifica las subsecuencias encontradas frecuentemente en el grupo de población y se denominan patrones frecuentes que son representativos de los grupos de población; • Finalmente, se emplea una técnica de clasificación basada en los patrones identificados, a fin de clasificar nuevos individuos. Gracias a la inclusión de conocimiento del dominio, los resultados de la clasificación pueden ser explicados usando la terminología del dominio. Esto hace que los resultados sean más fáciles de interpretar para los especialistas del dominio. Este método ha sido aplicado a las series temporales generadas por las pruebas médicas de Potenciales Evocados Auditivos de Tronco Cerebral (PEATCs). Preliminarmente, se realizaron experimentos para analizar varios aspectos del método, incluyendo la mejor configuración de los parámetros de la técnica para el descubrimiento de patrones. Luego se aplicó el método a las respuestas auditivas del tronco cerebral (ABRs, siglas de la expresión en inglés Auditory Brainstem Responses) de 83 individuos pertenecientes a cuatro clases (sanos, con pérdida conductiva de audición, con schwannoma vestibular – implicación del tronco cerebral y con schwannoma vestibular - implicación del 8º-nervio). De acuerdo con los resultados de la validación cruzada, la exactitud global del clasificador fue del 99.4%, la sensibilidad fue de 97.6% y la especificidad fue del 100% (sin falsos positivos). El método propuesto reduce la dimensionalidad del problema de forma efectiva. Adicionalmente, si la transformación simbólica incluye el conocimiento correcto del dominio, podría decirse que el método produce una representación de datos que denota los conceptos relevantes del dominio con mayor claridad. Durante la experimentación aplicando el método, se encontraron patrones en series temporales de ABRs y se alcanzó un alto grado de precisión al predecir correctamente cuándo un paciente tiene un desorden auditivo o no.