Técnicas no paramétricas y semiparamétricas en bases de datos procedentes de estudios multicéntricos: búsqueda de perfiles clínicos en bases de datos de estudios multicéntricos con distintas patologías mediante diferentes técnicas multivariantes
Metadata
Show full item recordAuthor
Boukichou Abdelkader, NisaEditorial
Universidad de Granada
Departamento
Universidad de Granada. Programa de Doctorado en Estadística Matemática y AplicadaMateria
Bases de datos Estudios multicéntricos Perfiles clínicos
Date
2022Fecha lectura
2022-07-19Referencia bibliográfica
Boukichou Abdelkader, Nisa. Técnicas no paramétricas y semiparamétricas en bases de datos procedentes de estudios multicéntricos: búsqueda de perfiles clínicos en bases de datos de estudios multicéntricos con distintas patologías mediante diferentes técnicas multivariantes. Granada: Universidad de Granada, 2022. [http://hdl.handle.net/10481/76792]
Sponsorship
Tesis Univ. Granada.Abstract
En la actualidad, el gran avance tecnológico y la transformación digital originada con el Big Data y la
Inteligencia Artificial (IA), están desarrollando diversos cambios de gestión y de decisión en todos los
ámbitos profesionales, concretamente en el campo de la salud y en la minería de datos, y así mismo en
la sociedad en general, que de alguna manera hay que agradecer a estas transformaciones, puesto que
todo este proceso implica una nueva era de novedosos métodos y algoritmos menos robustos y más
eficaces, capaces de ser perfeccionados para dar diferentes vías de solución a cualquier objetivo
planteado.
En paralelo, estos nuevos mecanismos están experimentando cambios en el área de la estadística
computacional que en tiempos pasados eran impensables por los costes tan inmensos que eso podría
suponer y los procedimientos de cálculos tan arduos que eso implicaba. Por eso, estos desarrollos tan
diversos en los diferentes campos de la informática y en especial para las áreas de investigación y
ciencias de datos están generando técnicas más sofisticadas y adaptables para los distintos casos que se
pueden encontrar en la población de interés, en especial en el ámbito sanitario, creando mejores
modelos y resultados de calidad con el fin de ayudar en la toma de decisiones, y por consiguiente,
proponer mejores procedimientos de diagnósticos y de tratamientos, adaptados al individuo para
intentar paliar las posibles secuelas con la finalidad de mejorar la calidad de vida en el mayor tiempo
posible, cambiando los hábitos saludables mal adquiridos y fortaleciendo los nuevos que se intentan
alcanzar o se desean modificar a los que ya existían en nuestras vidas.
En esta investigación nuestro objetivo ha sido el de explorar las diversas técnicas no paramétricas
existentes para la búsqueda de perfiles clínicos subsanando en paralelo la problemática de la maldición
de la dimensionalidad y el hándicap de los valores faltantes (missing values), mediante algoritmos
supervisados y no supervisados con las capacidades ofrecidas para su aplicación práctica desde
software estadístico R, con el fin de poder dar una vía rápida al objetivo principal de este estudio, que
es la búsqueda de perfiles clínicos en base de datos multicéntricas con diferentes patologías a través de
las diferentes técnicas multivariantes.
En este sentido, se aplicó el método de imputación MICE, aunque existen otros métodos mencionados
para apaliar los datos faltantes, por ser una técnica que utiliza ecuaciones encadenadas en el proceso
de imputación aleatoria de cada variable, y estas están condicionadas a las variables imputadas,
conservando la dependencia en la estructura de correlación del algoritmo y preservando la calidad
relacional del conjunto original, que es uno de los aspectos relevantes para aplicar la técnica del análisis de componentes principales (PCA), puesto que se conoce que la estructura de correlación puede ser
bastante sensible a las distintas técnicas de imputación, siendo estas necesarias de estudiar antes de
aplicarlas según el tipo de variables del conjunto de datos.
Asimismo, se abordó el problema de la dimencionalidad mediante tres técnicas diferentes, como son (i)
análisis de componentes principales (PCA); (ii) métodos Random Forest por Gini Index & Information
Value por aplicación Weight-Of-Evidence (RF&IV) para definir la selección de importancia de variables y
disminuir eficientemente la dimensión espacial; y (iii) análisis paralelo con datos simulados y de
remuestreo (APS-REM) basado en la matriz de correlaciones aleatoria, obteniendo la mejor reducción a
través del análisis PCA con 12 componentes principales siendo las dos primeras las más relevantes.
Finalmente, se aplicaron varias técnicas de clasificación supervisada y no supervisada, donde el
algoritmo Cluster es la base central para el agrupamiento, originando tres grupos óptimos de patrones
clínicos afines a sus propias características, y los otros métodos clasificatorios, como son
Correspondencias (CA), Árbol de Decisión (DT) y Vectores Soporte (SVM), sirviendo de apoyo visual para
detectar posibles grupos y a la vez, como mecanismo exploratorio para confirmar resultados sobre la
información existente, dando un gran valor al resultado final óptimo alcanzado.
En conclusión, se pretende mostrar que el abordaje de estas técnicas pueden servir para distintas
situaciones en lo que se presente un volumen suficientemente grande de datos, donde es casi
necesario una reducción del espacio dimensional a otro de menor dimensión semejante al original,
supliendo los problemas de valores faltantes para un buena calidad de la información, y aplicando
modelos clasificatorios para la búsqueda de patrones de perfiles clínicos con el fin de agrupar a los
pacientes de forma eficiente y precisa y a su vez, poder extrapolar los resultados clínicos en estudios de
investigaciones similares. Además, este planteamiento primario, será muy necesario en poco tiempo
con la nueva iniciativa de la Unión Europea (UE), en el que se ha propuesto la creación del Espacio
Europeo de Datos Sanitarios (EEDS) para todos los países miembros, lo que generara un volumen
inmenso de datos sanitarios que requerirán de técnicas más sofisticadas para destacar la información
relevante e indispensable que puedan ayudar a la toma de decisiones.