Algunos problemas de estadística computacional

MARTÍNEZ PIZARRO, MARIO

Algunos problemas de estadística computacional

MARTÍNEZ PIZARRO, MARIO

Dirigida por:

María Isabel Parra Arévalo Director/a
Eva Teresa López Sanjuán Codirector/a
Jacinto Martín Jiménez Codirector/a

Universidad de defensa: Universidad de Extremadura

Fecha de defensa: 05 de octubre de 2023

Tribunal:

Alfonso Mateos Caballero Presidente/a
Jesús Montanero Fernández Secretario/a
María Eva Vallejo Pascual Vocal

Tipo: Tesis

Teseo: 822720 DIALNET TESEO editor

Resumen

Introducción La Estadística permite resolver problemas de distinta naturaleza utilizando algoritmos computacionales. Uno de ellos se encuentra en la Teoría de Valores Extremos que habitualmente utiliza la información de una parte reducida del conjunto de datos para estimar los parámetros de la distribución límite, cuestión que implica que se produzcan grandes sesgos y errores en las estimaciones. El motivo principal es que emplea dos estrategias diferentes: el método de máximos de bloque y el método de excesos de un umbral, quedándose en ambos casos con pocos datos extremos. Para ambos enfoques, se dispone de sendos teoremas fundamentales que permiten caracterizar las distribuciones límites de valores extremos. El enfoque Bayesiano salva el problema que presentan los métodos de estimación clásicos que requieren de condiciones asintóticas en los parámetros, y además aporta otra ventaja importante al permitir incluir información adicional a través de la distribución a priori elegida. Existen multitud de trabajos sobre estimación Bayesiana para los parámetros de las distribuciones de valores extremos que consideran distribuciones a priori no informativas, y usan solo los datos extremos, desaprovechando la información que pudiera contener el resto de los valores del conjunto de datos. Modificar estas condiciones puede permitirnos plantear nuevas estrategias que minimicen los errores de estimación. Desde un punto de vista más aplicado, la Teoría de Valores Extremos se ha empleado con éxito en problemas de muy distinta naturaleza englobados en disciplinas tan variadas, destacando la climatología, en el estudio de eventos extremos de temperatura, precipitaciones y climatología solar. En esta disciplina es interesante plantear modelos espaciales que caractericen y pronostiquen valores extremos multivariantes. Desde un enfoque Bayesiano, los más utilizados son los modelos Jerárquicos Bayesianos, que permiten estimar los parámetros del modelo dividiendo el proceso en varias etapas. Existen múltiples trabajos que presentan estos modelos para eventos extremos de temperaturas o precipitaciones; sin embargo, en ellos se supone que las observaciones son independientes respecto al espacio, algo que no ocurre en situaciones reales, siendo necesario incluir una nueva herramienta que resuelva este problema. Otro de los problemas abordados es al aplicación de algoritmos genéticos para la búsqueda del modelo matemático más adecuado para representar las relaciones existentes entre las variables de un conjunto de datos. Los algoritmos genéticos son técnicas de optimización basadas en principios evolutivos estocásticos. Estos algoritmos permiten encontrar buenas soluciones para un problema concreto en tiempo razonable, mediante la evolución genética de una población de individuos que representen soluciones candidatas. Desarrollo teórico Para dar respuesta al problema presente en la Teoría de Valores Extremos, se propone emplear distribuciones a priori altamente informativas. Éstas se han construido aprovechando la información disponible en todo el conjunto de observaciones, y no solamente en los valores extremos. En concreto, se han establecido relaciones teóricas y/o empíricas entre los parámetros de la distribución del conjunto total de observaciones y los parámetros de la distribución de valores extremos. En climatología, la multitud de modelos climáticos propuestos consideran la independencia respecto al espacio de las observaciones extremas. Por ello, se plantea un nuevo modelo que introduce el concepto de cópula para modelar la dependencia espacial existente entre las observaciones. Esta herramienta estadística permite construir una distribución multidimensional con las distribuciones marginales que se deseen. En particular, se emplea una cópula Gaussiana cuyas distribuciones marginales son distribuciones de Valores Extremos Generalizadas, puesto que se propone un modelo Jerárquico espacial para modelar temperaturas extremas en una región. Este nuevo modelo con cópula proporciona mejores resultados que el modelo clásico donde se considera que las observaciones son independientes respecto al espacio. Con el objetivo de valorar el comportamiento de los nuevos modelos propuestos frente a los modelos clásicos, se exhaustivos estudios de simulación partiendo de diversos escenarios, variando la distribución de las observaciones de partida según sea el caso, y número de observaciones, el tamaño del bloque o umbral, y número de réplicas. Todos los resultados obtenidos demuestran que las estimaciones proporcionadas por las estrategias de estimación propuestas son más precisas que las obtenidas utilizando las clásicas. El lenguaje de programación R facilita enormemente el trabajo de programación de algoritmos adecuados para poner en práctica las distintas estrategias propuestas. El problema sobre la búsqueda de modelos matemáticos óptimos se ha abordado utilizando la regresión simbólica que se trata de una técnica de optimización poco extendida basada en los algoritmos genéticos. La regresión simbólica permite obtener la estructura de una expresión que puede modelar un conjunto dado de datos, sin necesidad de asumir un formato de correlación específico para ellos. Tanto la forma analítica del modelo como sus coeficientes evolucionan automáticamente. La salida de este tipo de algoritmos proporciona las mejores expresiones matemáticas encontradas, atendiendo a algún criterio prefijado. Esta situación permite analizar posteriormente dichos modelos propuestos, realizando, por ejemplo, un análisis de sensibilidad, e incluso pueden ser una base para generar mejores modelos para los datos. Para mostrar su viabilidad, se ha aplicado a datos de la tensión superficial, resultando fácilmente extrapolable a otras propiedades termodinámicas y a otros problemas de muy distinta naturaleza. Conclusiones La Estadística Computacional permite abordar problemas con características muy diversas, debido al uso de algoritmos computacionales. En particular, las nuevas estrategias de inferencia Bayesiana propuestas aportan mejoras acerca del problema de estimación de los parámetros de las distribuciones límite de valores extremos. Las ideas están basadas en el aprovechamiento de la información contenida en el conjunto completo de observaciones para aliviar el problema de la escasez de datos extremos. Esta idea se llevó a cabo construyendo distribuciones a priori altamente informativas aprovechando las relaciones que se puedan establecer entre los parámetros de la distribución de los datos y los parámetros de la distribución de valores extremos correspondiente. Siempre que sea posible, se establecen relaciones analíticas, y solo para aquellos casos en los que no es posible hacerlo, se recurre a simulaciones masivas para encontrarlas empíricamente, dándole un carácter muy general a la estrategia, de modo que puede extrapolarse más allá de las distribuciones y problemas abordados. Con el fin de valorar empíricamente hasta qué punto las nuevas estrategias mejoran la exactitud y precisión de las estimaciones, se han realizado simulaciones masivas considerando distintos tamaños para muestras, bloques y umbrales, así como valores para los parámetros de las distribuciones de los datos. Las mejoras son más acusadas cuanto menor es el tamaño de la muestra considerada y mayor es su variabilidad. En relación con los modelos climáticos, la incorporación de una cópula en modelos jerárquicos bayesianos, para reproducir la dependencia espacial entre datos extremos, presenta la gran ventaja de reducir los errores de estimación obtenidos cuando se considera la independencia de las observaciones respecto al espacio. Respecto al uso de la regresión simbólica para la búsqueda de modelos matemáticos óptimos para variables de interés. Esta técnica permite encontrar expresiones analíticas para modelar relaciones entre variables sin necesidad de conocer su estructura funcional, explorando intensivamente en el conjunto de todas las posibles expresiones en tiempo razonable. Su aplicación a datos experimentales de la tensión superficial de alcoholes proporciona modelos generales muy sencillos con errores mínimos. Bibliografía [1] Gnedenko, B. (1943). Sur la distribution limite du terme máximum d¿une serie aleatorie. Annals of mathematics, 423-453. [2] Fisher, R.A., y Tippett, L.H.C. (1928, April). Limiting forms of the frequency distribution of the largest or smallest member of a sample. In Mathematical proceedings of the Cambridge philosophical society (Vol. 24, No. 2, pp. 180-190). Cambridge University Press. [3] Balkema, A.A., y De Haan, L. (1974). Residual life time at great age. The Annals of probability, 2(5), 792-804. [4] Pickands III, J. (1975). Statistical inference using extreme order statistics. the Annals of Statistics, 119-131. [5] Korkmaz, M.Ç.; Altun, E.; Yousof, H.M.; Afify, A.Z.; Nadarajah, S. The Burr X Pareto Distribution: Properties, Applications and VaR Estimation. J. Risk Financ. Manag. 2018, 11, 1. [6] Sklar, A. Fonctions de répartition à n dimensions et leurs marges. Publ. Inst. Statist. Univ. Paris 1959, 8, 229-231. [7] Renard, B.; Lang, M. Use of a Gaussian copula for multivariate extreme value analysis: Some case studies in hydrology. Adv. Water Resour. 2007, 30, 897-912. [8] Renard, B. A Bayesian hierarchical approach to regional frequency analysis. Water Resour. Res. 2011, 47, 11513. [9] J. Koza, Genetic programming: on the programming of computers by means of natural selection, Vol. 1, MIT press, 1992. [10] D. Goldberg, Genetic algorithms in search, optimization, and machine learning, Addison-Wesley, Massachusetts, 1989.