Estimación espacio-temporal de procesos Hilbert-valuados Aplicación a la estimación y predicción funcional de mapas de riesgo de enfermedades
Metadatos
Mostrar el registro completo del ítemAutor
Torres Signes, AntoniEditorial
Universidad de Granada
Departamento
Universidad de Granada. Programa de Doctorado en Estadística Matemática y AplicadaMateria
Procesos Hilbert-valuados Espacio-tiempo Estimación Mapas Riesgo de enfermedades
Fecha
2021Fecha lectura
2021-05-21Referencia bibliográfica
Torres Signes, Antoni. Estimación espacio-temporal de procesos Hilbert-valuados Aplicación a la estimación y predicción funcional de mapas de riesgo de enfermedades. Granada: Universidad de Granada, 2021. [http://hdl.handle.net/10481/69093]
Patrocinador
Tesis Univ. Granada.Resumen
The application of techniques for the analysis of functional data correlated
in time and/or space is a relatively recent area of research, where a number
of problems have arisen and remain open. In particular, the derivation of probabilistic
(point processes in function spaces) and statistical (functional spatial
and time series) models is required for the analysis of high-dimensional data
that often exhibit complex correlation structures in time and/or space. Point
processes are used to explain the distribution of points generated by random
mechanisms in time and/or space. Such processes allow to model and analyze
the incidence or mortality associated with a disease.
In this thesis, we have considered the context of doubly stochastic counting
processes or Cox processes. In particular, an infinite-dimensional statistical approach,
based on functional linear models, has been adopted for the statistical
description of the random log-intensity.
The spatio-temporal dynamics of these models are analyzed through temporal
or spatial processes with values in an appropriate function space. The
complexity of these models, given the high dimension of the parameter space
(on many occasions we work with infinite-dimensional spaces), makes it essential
to implement appropriate dimension reduction techniques, as well as the
implementation of model selection procedures.
From the theoretical point of view, in the following chapters, new scenarios
are introduced in order to apply different estimation methodologies. On the one
hand, log-Gaussian Cox processes in Hilbert spaces with random intensity given
by an Ornstein-Uhlenbeck process approximated by an autoregressive Hilbertian
process (ARH) are developed. These temporal patterns are analyzed from
a time-correlated functional data perspective. On the other hand, Cox processes
driven by linear infinite-dimensional spatial log-intensities are developed.
In this case, these spatial patterns are analyzed from a spatially correlated fun-ctional data perspective.
Regarding the methodological approaches adopted for the estimation, in the
case of Cox processes driven by an O-U Hilbert-valued log-intensity, approximated
by an ARH(1) process, the method of empirical moments has been used.
In the case of spatial Cox processes driven by an infinite-dimensional spatial
linear random log-intensity, to estimate the parameters modeling the parametric
structure of the spectral density operator, under the condition of spatial
stationarity, functional spectral techniques based on the periodogram operator
extending the Whittle functional have been applied. As a preliminary analysis,
we contribute, in the case of spatially stationary real-valued spatial processes,
to obtaining sufficient conditions that guarantee the consistency and asymptotic
normality of minimum-contrast estimators based on the tapered periodogram.
Specifically, in this thesis, from the perspective of infinite-dimensional Cox
processes, or Cox processes driven by infinite-dimensional linear log-intensities,
not necessarily Gaussian, within the field of functional statistical analysis of
point patterns in time and/or space, the following contributions have been established:
Study of consistency and asymptotic normality of minimum-contrast estimators
in spatial processes.
Introduction of the class of temporal log-Gaussian Cox processes with random
log-intensity defined by an Ornstein-Uhlenbeck Hilbert-valued process.
Approximation of the Ornstein-Uhlenbeck Hilbert-valued processes by
ARH(1) processes, using the estimation from the method of empirical moments
and calculation of the associated plug-in predictor.
Introduction of a new class of Cox processes driven by a linear Hilbertvalued
log-intensity. Here, the log-Gaussian process condition, or Gaussian
log-intensity, is not required. Neither is it required in the introduction,
nor for the consistency result, that the log-intensity is SARH(1). It is
only considered in that way in the simulation and application.
Introduction of new estimation techniques by minimum componentwise
contrast for the previously introduced family of processes (in particular,
with SARH intensity). Development of conditions guaranteeing the strong consistency of the
proposed estimators.
Fitting linear and non-linear trend models in an infinite-dimensional statistical
framework for spatio-temporal log-risk processes of disease incidence
and mortality. Residual linear correlation in an autoregressive Hilbertian
process framework, under a Bayesian approach.
Comparison, via cross-validation and bootstrapping techniques, of the
presented approaches with regression or prediction models based on machine
learning.
Epidemiology and the study in general of the evolution, both spatial and
temporal, of several diseases has been the fundamental framework considered
for the contributions indicated. Specifically, real data have been used for the
estimation and functional prediction in time and space of prostate, breast and
brain cancer, as well as respiratory diseases, in Spanish provinces, from annual
or monthly observations, over periods ranging around thirty years. Furthermore,
by implementing the techniques presented throughout the thesis, an application
to real data has been carried out to analyze the incidence of a disease
in a foreign territory. In particular, the evolution of dengue fever in American
countries in recent years has been modeled. On the other hand, given the social
emergency situation caused by the COVID-19 pandemic in the last stage of
development of the thesis, it has been considered pertinent to include a statistical
study on the estimation of the spatio-temporal evolution of the mortality
risk, as well as of the daily mortality cases caused by this disease in the Autonomous
Communities, which allows reflecting, among other aspects, the effect of
the first state of alarm on the behavior of this evolution. In this way, the daily
mortality due to COVID-19 in the Spanish Communities during the first wave,
specifically from 8 March 2020 to 13 May 2020, has been modeled.
The latter practical applications have been developed, based on the infinitedimensional
statistical techniques proposed in the development of the thesis,
under a classical and Bayesian approach, with modifications in the estimation
methodology. Subsequently, in both cases, an empirical comparison has been
made with other approaches. In the case of the risk of annual incidence of
dengue fever in American countries, a comparison has been made with traditional
spatio-temporal models, including a Leroux model, an Intrinsic Condi-tional Autoregressive model and a Besag, York and Mollie model. In the case
of daily mortality risk by COVID–19 in the Spanish Autonomous Communities,
the proposed approaches have been compared with another methodology based
on the estimation by confidence intervals and probability densities using
bootstrap techniques, as well as with a battery of models in the context of Machine
Learning, including Generalized Regression Neural Networks, Multilayer
Perceptron, Support Vector Regression, Bayesian Neural Networks, Neural Networks
from Radial Function Bases, and Gaussian Processes. In addition, model
selection in the context of parametric non-linear regression is addressed. La aplicación de técnicas de análisis de datos funcionales correlados en el
tiempo y/o espacio constituye un área de investigación relativamente reciente,
donde surgen diversos problemas que aún permanecen abiertos. En particular,
se requiere la deducción de modelos probabilísticos (procesos puntuales en espacios
de funciones) y estadísticos (series espaciales y temporales funcionales),
para el análisis de datos de dimensión elevada que suelen presentar estructuras
complejas de correlación en el tiempo y/o espacio. Los procesos puntuales
se utilizan para explicar la distribución de los puntos generados por mecanismos
aleatorios en el tiempo y/o espacio. Dichos procesos permiten modelizar y
analizar la incidencia o mortalidad asociados a una enfermedad.
En esta tesis, se ha considerado el contexto de los procesos de recuento doblemente
estocásticos o procesos de Cox. En particular, se ha adoptado un enfoque
estadístico infinito-dimensional, basado en modelos lineales funcionales,
para la descripción estadística de la log-intensidad aleatoria.
La dinámica espacio-temporal de estos modelos se analiza mediante procesos
temporales o espaciales, con valores en un espacio de funciones apropiado.
La complejidad de dichos modelos, dada la elevada dimensión del espacio
de parámetros (en bastantes ocasiones se trabaja con espacios infinitodimensionales),
hace imprescindible la implementación de técnicas apropiadas
de reducción de la dimensión, así como la implementación de procedimientos
de selección de modelos.
Desde el punto de vista teórico, en los siguientes capítulos, se introducen
nuevos escenarios para poder aplicar diferentes metodologías de estimación.
Por un lado, se desarrollan los procesos de Cox log-gaussianos en espacios de
Hilbert con intensidad aleatoria dada por un proceso Ornstein-Uhlenbeck que
se aproxima mediante un proceso autorregresivo hilbertiano (ARH). Estos patrones
temporales se analizan desde una perspectiva de datos funcionales co-rrelados en el tiempo. Por otro lado, se desarrollan los procesos de Cox dirigidos
por log-intensidades espaciales infinito-dimensionales lineales, en este caso, estos
patrones espaciales se analizan desde una perspectiva de datos funcionales
correlados en el espacio.
En cuanto a los enfoques metodológicos adoptados para la estimación, en
el ámbito de procesos de Cox dirigidos por una log-intensidad O-U Hilbertvaluada,
aproximada mediante un proceso ARH(1), se ha utilizado el método
de los momentos empíricos. En el caso de procesos de Cox espaciales dirigidos
mediante una log-intensidad aleatoria lineal espacial infinito-dimensional, para
la estimación de los parámetros que modelizan la estructura paramétrica del
operador de densidad espectral, bajo la condición de estacionariedad espacial,
se han aplicado técnicas espectrales funcionales basadas en el operador periodograma
que extienden el funcional de Whittle. Como análisis preliminar, se
contribuye, en el caso de procesos espaciales real-valuados estacionarios en el
espacio, con la obtención de condiciones suficientes que garantizan la consistencia
y normalidad asintótica de estimadores de mínimo contraste, basados en
el periodograma tapered.
De forma concreta, en esta tesis, a partir de una perspectiva de procesos
de Cox infinito-dimensionales, o bien, procesos de Cox dirigidos por logintensidades
lineales infinito-dimensionales, no necesariamente gaussianas, dentro
del ámbito del análisis estadístico funcional de patrones puntuales en el
tiempo y/o espacio, se han establecido las siguientes contribuciones:
Estudio de consistencia y normalidad asintótica de los estimadores de mínimo
contraste para procesos espaciales.
Introducción de la clase de procesos temporales de Cox log-gaussianos
con log-intensidad aleatoria definida por un proceso Ornstein-Uhlenbeck
Hilbert-valuado.
Aproximación de los procesos Ornstein-Uhlenbeck Hilbert-valuados mediante
procesos ARH(1), utilizando la estimación a partir del método de
momentos empíricos y cálculo del predictor plug-in asociado.
Introducción de una nueva clase de procesos de Cox dirigidos mediante
una log-intensidad lineal Hilbert-valuada. Aquí, la condición de proceso
log-gaussiano, o de log-intensidad gaussiana, no es necesaria. Tampoco se requiere en la introducción, ni para el resultado de consistencia, que la
log-intensidad sea SARH(1). Sólo se considera de esta forma en la simulación
y aplicación.
Introducción de nuevas técnicas de estimación por mínimo contraste componente
a componente para la familia de procesos anteriormente introducida
(en particular, con intensidad SARH).
Desarrollo de las condiciones que garantizan la consistencia fuerte de los
estimadores propuestos.
Ajuste de modelos de tendencia lineal y no lineal en un marco estadístico
infinito-dimensional para procesos espacio-temporales de log-riesgo
de incidencia y mortalidad en enfermedades. Análisis de los residuos de
regresión mediante un enfoque autorregresivo hilbertiano en el contexto
bayesiano.
Comparación, mediante validación cruzada y técnicas bootstrap, de los
enfoques presentados con modelos de regresión o predicción basados en
aprendizaje automático.
La epidemiología y el estudio en general de la evolución, tanto espacial
como temporal, de diversas enfermedades ha sido el marco fundamental considerado
para plasmar las contribuciones indicadas. En concreto, se han utilizado
datos reales para la estimación y predicción funcional en el tiempo y en
el espacio del cáncer de próstata, mama y encéfalo, así como enfermedades
respiratorias, en las provincias españolas, a partir de observaciones anuales o
mensuales, en periodos que oscilan en torno a treinta años. Además, mediante
la implementación de técnicas vistas a lo largo de la tesis, se ha llevado
a cabo una aplicación a datos reales, para el análisis de la incidencia de una
enfermedad en territorio extranjero. En particular, se ha modelizado la evolución
de fiebre de dengue en países americanos durante los últimos años. Por
otro lado, dada la situación de emergencia social provocada por la pandemia
de COVID–19 en la última etapa de desarrollo de la tesis, se ha considerado
pertinente incluir un estudio estadístico sobre la estimación de la evolución
espacio-temporal del riesgo de mortalidad, así como de los casos de mortalidad
diaria ocasionados por dicha enfermedad en las comunidades autónomas, que permite reflejar, entre otros aspectos, el efecto del primer estado de alarma sobre
el comportamiento de dicha evolución. De esta manera, se ha modelizado
la mortalidad diaria por COVID–19, en las comunidades españolas, durante la
primera ola, en concreto, desde el 8 de marzo de 2020 hasta el 13 de mayo de
2020.
Estas últimas aplicaciones prácticas se han desarrollado, a partir de las técnicas
estadísticas infinito-dimensionales propuestas en el desarrollo de la tesis,
bajo un enfoque clásico y bayesiano, con modificaciones en la metodología de
estimación. Posteriormente, en ambos casos se ha realizado una comparativa
empírica con otros enfoques. En el caso del riesgo de incidencia anual por fiebre
del dengue en países americanos, se ha realizado una comparativa con modelos
espacio-temporales tradicionales, incluyendo un modelo de Leroux, un
modelo Autorregresivo Condicionado Intrínseco y otro modelo de Besag, York
y Mollie. En el caso del riesgo de mortalidad diario por COVID–19 en las comunidades
autónomas españolas, los enfoques propuestos se han comparado con
otra metodología basada en la estimación por intervalos de confianza y densidades
de probabilidad mediante técnicas bootstrap, así como con una batería de
modelos en el contexto de Machine Learning, incluyendo Redes Neuronales de
Regresión Generalizada, Perceptrón Multicapa, Regresión de Soporte Vectorial,
Redes Neuronales Bayesianas, Redes Neuronales a partir de Bases de Funciones
Radiales, y Procesos Gaussianos. Además se aborda la selección de modelos en
el contexto de la regresión no lineal paramétrica.