Predicción de rendimiento académico en aprendizaje combinado mediante datos multimodales y tecnicas de fusión y minería de datos

CHANGO SAILEMA, WILSON GUSTAVO

Predicción de rendimiento académico en aprendizaje combinado mediante datos multimodales y tecnicas de fusión y minería de datos

CHANGO SAILEMA, WILSON GUSTAVO

Dirigida por:

Rebeca Cerezo Menéndez Director/a
Cristóbal Romero Morales Director/a

Universidad de defensa: Universidad de Córdoba (ESP)

Fecha de defensa: 07 de julio de 2022

Tribunal:

Sebastián Ventura Soto Presidente/a
Miguel Ángel Conde González Secretario
Juan Manuel Dodero Beardo Vocal

Tipo: Tesis

Teseo: 734853 DIALNET Helvia editor

Resumen

1. introducción o motivación de la tesis La presente memoria de tesis se estructura de modo que, a continuación, se ofrece una breve introducción sobre el estado actual y la pertinencia del problema de estudio, para, a continuación, formular los objetivos del trabajo. Objetivos que se acometen a través de tres estudios publicados en sendas revistas de impacto, los cuales se incluyen al final de esta memoria. Se termina con un apartado de conclusión y discusión conjunta de los resultados de sendos trabajos. Uno de los temas que mayor interés suscitan en Minería de Datos Educativos (en adelante EDM), y que aun implica desafíos presentes y futuros, es la predicción del rendimiento académico. Uno de esos retos pasa por predecir los resultados de aprendizaje a través de técnicas de fusión de datos multimodales, también conocidas como Data Fusión y Multimodal Learning Analytics. Sin embargo, debemos remontarnos varias décadas atrás, cuando, ya con el objetivo de mejorar el proceso de aprendizaje y ayudar a resolver problemas educativos, surgieron diferentes aproximaciones automáticas que utilizan el análisis y la explotación de grandes cantidades de datos generadas durante dicho proceso y que son difíciles de analizar de forma manual. De entre las diferentes aproximaciones, han adquirido especial relevancia, de un lado, el EDM, que consiste en la aplicación de técnicas de minería de datos para analizar los datos generados en el ámbito educativo, con sus particularidades y desafíos. Y de otro lado, el Learning Analytics (en adelante LA), que abarca un espectro más amplio de tareas como la recopilación de los datos educativos, el propio análisis de los mismos y las acciones derivadas de los resultados obtenidos tras el citado análisis (Monés et al., 2020; Romero y Ventura, 2020). En su concepción inicial, los enfoques de análisis de datos educativos se basaban en la explotación de una fuente de datos concreta. Sin embargo, ese enfoque tiene la limitación propia de la fuente de datos empleada, que refleja una porción incompleta de la realidad del proceso educativo. En este sentido, los modelos de educación a distancia están evolucionando cada vez más y la investigación acerca del aprendizaje en Computer Based Learning Environments (en adelante CBLEs), es un tópico que cuenta con un importantísimo corpus teórico. Sin embargo, lejos de agotarse, el campo de estudio se amplía dadas las características propias del objeto de investigación; los CBLEs cambian, avanzan día a día, lo cual supone nuevas implicaciones para el proceso de Enseñanza- Aprendizaje (E-A), y nuevos retos para investigadores, alumnos, profesores e instituciones. El e-learning, b-learning, los entornos hipermedia, campus virtuales, Smart Learning Environments (SLEs), etc., ya son agentes determinantes del proceso de E-A de la Educación Superior en todo mundo, sobre manera tras la situación desatada por la pandemia. La pandemia de COVID-19 ha influido en los sistemas educativos de todo el mundo, provocando el cierre temporal de escuelas y universidades. Hasta agosto de 2020, aproximadamente 1600 millones de estudiantes se vieron afectados por el cierre de escuelas y educación superior en respuesta a la pandemia (Naciones Unidas, 2020). Para superar este problema, la UNESCO recomendó el uso de entornos de aprendizaje a distancia (UNESCO, 2020). Por lo tanto, la pandemia de COVID-19, constituyó un gran desafío para los educadores, pero también para muchas áreas de investigación implicadas en el proceso E-A (Salta et al., 2022). Como consecuencia de este fenómeno, y del avance intrínseco de la tecnología, cada vez son más, y más complejos, los entornos de aprendizaje, dando lugar a entornos presenciales y virtuales enriquecidos capaces de generar una enorme cantidad de datos de diferentes modalidades que, combinadas, pueden ofrecer un mejor conocimiento del proceso educativo (Chen et al., 2021; Tabuenca et al., 2021). Esta idea de explotación combinada de fuentes de datos ha dado lugar al Multimodal Learning Analytics (MMLA), enfoque que se basa en la captura, integración y análisis de diferentes fuentes de datos educativos que, de forma conjunta, aportan una comprensión holística del proceso de aprendizaje (Sharma y Giannakos, 2020). La combinación de las técnicas de tratamiento de datos multimodales en su intersección con las áreas de EDM y LA ha demostrado ser una línea fructífera en los últimos años (Budaher et al., 2020). Sin embargo, a pesar de las innumerables ventajas que proporciona, el uso combinado de datos no es un aspecto fácil de abordar ya que se encuentra con importantes desafíos, como la diferente granularidad o la necesidad de alineamiento temporal de los datos recogidos en las diferentes fuentes. En este sentido, el uso de técnicas de Data Fusion resulta necesario y prometedor en el campo de la Educación en general (Sultana et al., 2020) y, particularmente en el campo de EDM/LA (Mu et al., 2020), tal como demuestran trabajos recientes en este sentido (Kaur y Kautish, 2019; Lahat et al., 2015; Poria et al., 2017; Wang et al., 2018). La fusión de datos es un proceso de múltiples niveles que se ocupa de la asociación, correlación, y combinación de datos de múltiples fuentes para realizar estimaciones y evaluaciones mejoradas respecto a otras técnicas (Castanedo, 2013). En resumen, el proceso de combinar eficientemente datos de diferentes fuentes, de forma que la explotación combinada de esos datos permite obtener un conocimiento de más alto nivel que el proporcionado por cada una de las fuentes por separado. En el ámbito de los CBLEs, esta idea se ha utilizado para intentar explotar datos multimodales de forma conjunta y lograr así un mejor conocimiento del proceso educativo. Según el ámbito de aplicación, las técnicas de fusión de datos se pueden categorizar de diferentes modos. La clasificación más extendida se basa en considerar el periodo o momento en el que se realiza la fusión, dando lugar a los tres tipos de fusión (Ding et al., 2019). Feature-level o early fusion: enfoque de fusión consistente en concatenar las diferentes features obtenidas de los datos de las diferentes fuentes en un único vector de elementos heterogéneos; Decision-level or later fusion: enfoque de fusión que consiste en crear, en primer lugar, un clasificador con cada una de las fuentes de datos por separado para, posteriormente, fusionar la predicción ofrecida por los diferentes clasificadores; Hybrid fusion: enfoque de fusión que emplea los dos enfoques anteriores en un mismo proceso de fusión. Pero la fusión de datos comporta sus propios desafíos y es ahí donde se hacen necesario plantearse los objetivos de esta tesis doctoral. Durante el desarrollo de la tesis, hemos llevado a cabo, precisamente, varios experimentos para testar éstas y otras aproximaciones, y concluir cuál de ellas ofrece mejores resultados para conocer el proceso E-A en general, y la predicción del rendimiento académico en particular. En estos experimentos se fusionan datos, a priori, tan alejados, como la asistencia la clase, la toma de apuntes, los logs de interacción aprendiz-entorno de aprendizaje, las fijaciones de la mirada, las expresiones del rostro, las emociones, etc. A partir de esos estudios, además, conoceremos de cerca MetaTutorES, una metodología de evaluación multimodal del proceso de aprendizaje que proporciona una gran cantidad de datos con un enorme potencial para su posterior análisis, y con el fin de comprender y optimizar el aprendizaje y los entornos en los que se produce. 2. contenido de la investigación El objetivo principal de esta investigación es predecir el rendimiento académico de estudiantes de educación superior utilizando datos multimodales con técnicas de Minería de Datos, y en concreto, técnicas de fusión de datos. Para cumplir con este objetivo principal, se definen 3 subjetivos: • O1: Realizar una revisión teórica de la literatura existente sobre fusión de datos multimodales para detectar los avances actuales y retos futuros del área de estudio. • O2. Evaluar qué enfoque de fusión de datos y algoritmos de clasificación producen los mejores resultados para predecir el rendimiento en diferentes conjuntos de datos. • O3. Contrastar cómo de útiles son los modelos de predicción que producimos para ayudar a los profesores a detectar a los estudiantes que están en riesgo de fracaso académico. 3. Discusión y conclusiones En el objetivo 1, creímos necesario y pertinente realizar una revisión teórica de la literatura existente sobre fusión de datos multimodales para detectar el estado actual y los retos futuros del área de estudio. Esta revisión arrojó luz ante los enfoques más utilizados en fusión de datos educativo, las técnicas, el tipo de datos y el objetivo de la fusión. En relación al tipo y la fuente de los datos fusionados, se ha apreciado, en primer lugar, que existe un uso bastante equilibrado en los diferentes entornos educativos, ya que la fusión de datos se ha encontrado en 11 artículos centrados en aprendizaje presencial, 8 en aprendizaje online y 7 en entornos híbridos. También se detectó que la gran mayoría de datos fusionados incluyen algún aspecto concreto relacionado con los aprendices, habiendo una minoría de trabajos centrados en datos del profesor. En este sentido, sería interesante combinar en una misma investigación datos de profesor y de estudiantes para determinar si el comportamiento de los estudiantes puede estar influenciado por las características del profesor, o si, en el otro sentido, el profesor adapta su metodología en función del tipo de estudiante al que enseña, enmarcándolo, por ejemplo, en las clásicas teorías de Biggs (1987). En cuanto a las fuentes de datos fusionadas presentan gran variedad, habiéndose encontrado principalmente en grabaciones de los estudiantes, mediciones sensoriales de aspectos diversos, y datos numéricos que reflejan alguna magnitud generalmente relacionada con el rendimiento académico. Casi todos los datos encontrados son de naturaleza física o digital, con algunos de tipo fisiológico en menor medida. Cabe reseñar que no se ha encontrado ninguna fusión de datos de tipo psicométrico/ambiental en los procesos de fusión analizados. Sería interesante utilizarlas para, por ejemplo, poder determinar si los procesos psicológicos de los estudiantes, se ven afectados de algún modo por las características ambientales (temperatura, humedad, iluminación, etc.) en las que se desempeña su aprendizaje. En cuanto a los objetivos de EDM/LA mejorados gracias a la fusión, destacan por número aquellos que persiguen la gestión de las emociones en los estudiantes, los que analizan el comportamiento de los estudiantes y los que predicen, tanto el desempeño académico como el interés o el engagement. Por otra parte, en relación con el enfoque de fusión empleado, una importante mayoría de trabajos realizan fusión de features en etapa temprana (early fusión), existiendo también un número importante, pero menor, que realizan fusión de las decisiones obtenidas por los diferentes clasificadores en una etapa posterior (late fusión). Sin embargo, muy pocos trabajos realizan enfoques híbridos de las dos anteriores y menos aún se salen de este marco de referencia en el área (early-late- hybrid). Analizando la técnica de fusión empleada, y en consecuencia con lo anterior, hemos llegado a la conclusión de que la agregación de features es el enfoque predominante, seguido de otros basados en el uso de operadores estadísticos y ensembles. Y son precisamente estos resultados los que nos conducen a las conclusiones de los objetivos 2 y 3. En el objetivo número 2 nos planteamos estudiar qué enfoque de fusión de datos y algoritmos de clasificación producen los mejores resultados para predecir el rendimiento en diferentes conjuntos de datos. Para ello llevamos a cabo los dos estudios empíricos de la tesis, con dos conjuntos de datos diferentes, procedentes de dos experiecnias educativas completamente diferentes, también. En sendos estudios se pusieron a prueba 4 enfoques de fusión diferentes, dos tempranos y dos tardíos (early fusión vs late fusión). Para la fusión temprana se realizaron cuatro experimentos en total, dos en cada conjunto de datos, empleando la fusión de todos los atributos y la selección de atributos (Chango et al., 2021a, 2021b). Para la fusión tardía se realizaron tres experimentos, dos en Chango et al., 2021a y uno en Chango et al. 2021b, donde se usó la técnica de ensembles aisladamente, pero también combinada con la selección de atributos. Usando como criterio los índices de precisión y el AUC (Area under the ROC curve area) de los algoritmos de clasificación, podemos concluir que los mejores resultados se obtienen usando el enfoque combinado de fusión tardía, que combinaba la técnica de ensembles con la de selección de atributos. Aun siendo unos resultados prometedores, las técnicas de fusión empleadas han sido eminentemente básicas (agregación, ensembles y operadores estadísticos). Cabe señalar que la disciplina de data fusión trabaja en enfoques mucho más avanzados que permiten mejorar la fusión realizada en diferentes ámbitos, ganando en versatilidad. El uso de técnicas basadas en filtros, enfoques probabilísticos, o el uso de la teoría de la evidencia de Dempster- Shafer se antojan útiles para tal fin aunque no hayan sido empleados para fusionar datos educativos. Del mismo modo, los experimentos han seguido los esquemas de fusión early-late-hybrid, pudiendo plantearse en un futuro el uso de otros tipos de esquemas más flexibles que han dado buenos resultados en ciertas investigaciones como Li et al. (2020), Qu et al. (2021) y Worsley (2014). En otro plano, bien es cierto que no hemos podido concluir que algoritmo de clasificación es el que nos arrojaba mejores resultados, aunque este desenlace podría entrar dentro de la normalidad si tenemos en cuenta el teorema No-Free-Lunch (Wolpert, 2002), en el que se asume que ningún algoritmo de aprendizaje supervisado puede superar a otro algoritmo en todos los posibles problemas de aprendizaje o en diferentes conjuntos de datos. En el último de los objetivos, el número 3, aquel que tiene unas mayores implicaciones prácticas, nos propusimos contrastar cómo de útiles son los modelos de predicción que producimos a partir de la fusión de datos para ayudar a los profesores a detectar a los estudiantes que están en riesgo de fracaso académico. En este sentido, los modelos de caja blanca que se obtuvieron aportan a los profesores explicaciones comprensibles (reglas IF-THEN) sobre cómo clasificaron a los alumnos en base a su rendimiento. Asimismo, en Chango et al 2021a, observamos que los atributos que mejor discriminan en estas reglas fueron los procedentes del comportamiento de los estudiantes en Moodle, y en especial, el nivel de actividad en el foro de Moodle, resultados en consonancia con la literatura previa de Cerezo et al., 2016, y Romero et. al, 2009. Y en Chango et al., 2021b, los atributos que más aparecían en estas reglas eran los registros obtenidos a partir de logs de interacción que denotaban el uso de estrategias de resumen, la coordinación de fuentes de información obtenida a partir de datos de seguimiento ocular, y la sorpresa, de entre todas las 6 emociones básicas medidas en el estudio a través de reconocimienot facial automático. Sobre este particular, resultaría especialmente interesante repetir estos experimentos usando otro tipo de medidas que se encuentran en la literatura y que podrían enriquecer en gran medida estos modelos de predicción destinados a los educadores, como la respuesta psicogalvánica, los autoinformes (Azevedo et al., 2010; 2017; Cerezo et al., 2020), y la tasa cardiaca (Huber y Bannert, 2022). En la misma línea, en la mayoría de entornos de aprendizaje existen numerosas y prolijas fuentes de datos textuales acerca del aprendizaje de los estudiantes, tales como informes, anotaciones, transcripciones, etc. Sin embargo, muy pocos trabajos hacen uso de este tipo de datos textuales. Es cierto que el análisis de texto es complejo y requiere de enfoques específicos, pero el uso de técnicas de inteligencia artificial para el procesamiento de dichos textos puede antojarse una línea interesante en el futuro, para medir si esos datos textuales fusionados con otros más comunes (video, audio, calificaciones, etc.), mejora de algún modo el análisis llevado a cabo. Teniendo en cuenta las conclusiones de este trabajo, la discusión de sus resultados y el actual y más que probable escenario post-pandémico, que urge entornos de aprendizaje híbridos que puedan responder a circunstancias muy cambiantes, las técnicas de Data Fusion pueden ser la herramienta adecuada para fusionar datos procedentes de entornos y situaciones de aprendizaje multimodales que nos permitan conocer las peculiaridades del proceso de E-A que tiene lugar en estos entornos. 4. bibliografía Azevedo, R., Johnson, A., Chauncey, A., y Burkett, C. (2010). Self-regulated learning with MetaTutor: Advancing the science of learning with MetaCognitive tools. In M. Khine & I. Saleh (Eds.), New science of learning (pp. 225-247). Springer. Azevedo, R., Taub, M., y Mudrick, N. V. (2017). Understanding and reasoning about real- time cognitive, affective, and metacognitive processes to foster self-regulation with advanced learning technologies. In P. A. Alexander, D. H. Schunk , J. A. Greene (Eds.), Handbook of Self-Regulation of Learning and Performance. Routledge. Castanedo, F. (2013). A review of data fusion techniques. The scientific world journal, 2013, Article 704504, 1-19. https://doi.org/10.1155/2013/704504 Chango, W., Cerezo, R., y Romero, C. (2021a). Multi-source and multimodal data fusion for predicting academic performance in blended learning university courses. Computers and Electrical Engineering, 89, Article 106908. https://doi.org/10.1016/j.compeleceng.2020.106908 Chango, W., Cerezo, R., Sanchez-Santillan, M., Azevedo, R., y Romero, C. (2021b). Improving prediction of students’ performance in intelligent tutoring systems using attribute selection and ensembles of different multimodal data sources. Journal of Computing in Higher Education, 33(3), 614–634. https://doi.org/10.1007/s12528-021- 09298-8 Chango, W., Lara, J. A., Cerezo, R., y Romero, C. (2022). A Review on Data Fusion in Multimodal Learning Analytics. WIREs Data Mining and Knowledge Discovery. Advance online publication. https://doi.org/10.1002/widm.1458 Biggs, J. (1987). Student approaches to learning and studying. Australian Council for Educational Research Budaher, J., Brun, A., y Boyer, A. (2020). Multi-source Data Mining for e-Learning. arXiv preprint arXiv:2009.08791. Cerezo, R., Sánchez-Santillán, M., Paule-Ruiz, M. P., y Núñez, J. C. (2016). Students' LMS interaction patterns and their relationship with achievement: A case study in higher education. Computers & Education, 96, 42-54. Cerezo, R., Fernández, E., Gómez, C., Sánchez-Santillán, M., Taub, M., y Azevedo, R. (2020). Multimodal protocol for assessing metacognition and self-regulation in adults with learning difficulties. JoVE (Journal of Visualized Experiments), 163, e60331. Chen, X., Zou, D., Xie, H., y Wang, F. L. (2021). Past, present, and future of smart learning: a topic-based bibliometric analysis. International Journal of Educational Technology in Higher Education, 18(1), 1–29. https://doi.org/10.1186/S41239-020- 00239-6 Ding, W., Jing, X., Yan, Z., y Yang, L. T. (2019). A survey on data fusion in internet of things: Towards secure and privacy-preserving fusion. Information Fusion, 51, 129– 144. https://doi.org/10.1016/J.INFFUS.2018.12.001 Huber, K., y Bannert, M. (2022). What happens to your body during learning with computer-based environments? Exploring negative academic emotions using psychophysiological measurements. Journal of Computers in Education, 1-27. Kaur, R., y Kautish, S. (2019). Multimodal Sentiment Analysis: A Survey and Comparison. International Journal of Service Science, Management, Engineering, and Technology (IJSSMET), 10(2), 38–58. https://doi.org/10.4018/IJSSMET.2019040103 Li, J., Zhong, J., Yang, J., y Yang, C. (2020). An Incremental Learning Framework to Enhance Teaching by Demonstration Based on Multimodal Sensor Fusion. Frontiers in Neurorobotics, 0, 55. https://doi.org/10.3389/FNBOT.2020.00055 Martínez Monés, A., Dimitriadis Damoulis, I., Acquila Natale, E., Álvarez, A., Caeiro Rodríguez, M., Cobos Pérez, R., ... y Sancho Vinuesa, T. (2020). Achievements and challenges in learning analytics in Spain: The view of SNOLA. RIED. Revista Iberoamericana de Educación a Distancia, 23(2), 187. Mu, S., Cui, M., y Huang, X. (2020). Multimodal Data Fusion in Learning Analytics: A Systematic Review. Sensors, 20(23), 6856. https://doi.org/10.3390/S20236856 Romero, C., y Ventura, S. (2020). Educational data mining and learning analytics: An updated survey. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 10(3), e1355. https://doi.org/10.1002/WIDM.1355 Romero, C., González, P., Ventura, S., del Jesús, M. J., y Herrera, F. (2009). Evolutionary algorithms for subgroup discovery in e-learning: A practical application using Moodle data. Expert Systems with Applications, 36(2), 1632-1644. Poria, S., Cambria, E., Bajpai, R., y Hussain, A. (2017). A review of affective computing: From unimodal analysis to multimodal fusion. Information Fusion, 37, 98–125. https://doi.org/10.1016/J.INFFUS.2017.02.003 Salta, K., Paschalidou, K., Tsetseri, M., y Koulougliotis, D. (2022). Shift from a traditional to a distance learning environment during the COVID-19 pandemic. Science & Education, 31(1), 93-122. https://doi.org/10.1007/s11191-021-00234-x Sharma, K., y Giannakos, M. (2020). Multimodal data capabilities for learning: What can multimodal data tell us about learning? British Journal of Educational Technology, 51(5), 1450–1484. https://doi.org/10.1111/BJET.12993 Sultana, M., Jibon, F. A., y Kashem, A. (2020). An Improved Model of Virtual Classroom using Information Fusion and NS-DBSCAN. Global Journal of Computer Science and Technology, 20(5). https://computerresearch.org/index.php/computer/article/view/1966 Tabuenca, B., Serrano-Iglesias, S., Martin, A. C., Villa-Torrano, C., Dimitriadis, Y., I. Asensio-Perez, J., … Kloos, C. D. (2021). Affordances and Core Functions of Smart Learning Environments: A Systematic Literature Review. IEEE Transactions on Learning Technologies, 14(2), 129–145. https://doi.org/10.1109/TLT.2021.3067946 Qu, J., Liu, A., y Liu, R. (2021). Research on Evaluation and Confirmation of College Students’ Learning Behavior Based on Comprehensive Weighted Fusion Algorithm. 2021 IEEE 6th International Conference on Cloud Computing and Big Data Analytics, ICCCBDA 2021, 121–125. https://doi.org/10.1109/ICCCBDA51879.2021.9442584 United Nations. (2020). Policy brief: Education during COVID-19 and beyond. New York. https://unsdg.un.org/sites/default/files/2020-08/sg_policy_brief_covid- 19_and_education_august_2020.pdf. Accessed 24 April 2021 UNESCO. (2020). Education: From disruption to recovery. https://en.unesco.org/covid19/educationresponse. Accessed 24 April 2021. Wang, R., Ji, W., Liu, M., Wang, X., Weng, J., Deng, S., Gao, S. y Yuan, C. (2018). Review on mining data from multiple data sources. Pattern Recognition Letters, 109, 120– 128. https://doi.org/10.1016/j.patrec.2018.01.013 Worsley, M. (2014). Multimodal learning analytics as a tool for bridging learning theory and complex learning behaviors. MLA 2014 - Proceedings of the 2014 ACM Multimodal Learning Analytics Workshop and Grand Challenge, Co-Located with ICMI 2014, 1–4. https://doi.org/10.1145/2666633.2666634 Wolpert D.H. (2002). The Supervised Learning No-Free-Lunch Theorems. In Roy R., Köppen M., Ovaska S., Furuhashi T., Hoffmann F. (Eds), Soft Computing and Industry. Springer. https://doi.org/10.1007/978-1-4471