Clasificación del Cáncer de Próstata por medio de Inteligencia Artificial Explicable a partir de Datos de Expresión Génica

Ramírez-Mena, Alberto

94921.pdf (10.49Mo)

Identificadores

URI: https://hdl.handle.net/10481/85699

ISBN: 9788411950916

Exportar

Editorial

Universidad de Granada

Director

Martínez González, Luis Javier; Alcalá Fernández, Jesús

Departamento

Universidad de Granada. Programa de Doctorado en Tecnologías de la Información y la Comunicación

Date

2023

Fecha lectura

2023-10-26

Referencia bibliográfica

Ramírez-Mena, Alberto. Clasificación del Cáncer de Próstata por medio de Inteligencia Artificial Explicable a partir de Datos de Expresión Génica. Granada: Universidad de Granada, 2023. [ https://hdl.handle.net/10481/85699]

Patrocinador

Tesis Univ. Granada.; Los fondos FEDER y la Consejería de Transformación Económica, Industria, Conocimiento y Universidades de la Junta de Andalucía, con cargo a la ayuda titulada Explicabilidad de la Inteligencia Arti cial para el Análisis Inteligente de Datos: Aplicaciones en Problemas de BioSalud y del Internet de las Cosas con referencia P18-RT-2248. Una manera de hacer Europa.; La Consejería de Salud y Consumo de la Junta de Andalucía, con cargo a la ayuda titulada Aplicación de datos moleculares para la identi caci ón de biomarcadores asociados a la resistencia a la castración y otros tratamientos en adyuvancia en el tratamiento de cáncer de próstata , con referencia PIP-0043-2022

Résumé

El cáncer de próstata (CP) es una de las formas de cáncer más prevalente entre los hombres de todo el mundo. Actualmente, las estrategias de cribado en el CP se centran habitualmente en la medición de los niveles del antígeno prostático especí co (PSA) en sangre, la combinación de diferentes imágenes obtenidas mediante resonancia magnética y el examen rectal digital. Sin embargo, el nivel de PSA en sangre es especí co de la próstata, pero no necesariamente del cáncer y puede elevarse por diversos motivos, como por ejemplo la hiperplasia prostática benigna. Por otro lado, la precisión de los análisis por imagen están muy condicionados por la pericia y experiencia del radiólogo que los evalúa, lo que limita su uso y hace necesaria la utilización de métodos más objetivos, especí cos y precisos. El diagnóstico del CP se realiza mediante la punción-biopsia transrectal guiada por ultrasonidos (TRUS) o la biopsia fusión, que aúna las imágenes de la resonancia magnética (RMN) prostática y de la ecografía. Sin embargo, aunque las biopsias guiadas por técnicas de imagen incrementan el éxito en el diagnóstico de la enfermedad, causan a menudo molestias severas a los pacientes. Por todo lo expuesto con anterioridad, para comprender la patogénesis y mejorar el diagnóstico de la enfermedad es clave la integración de datos ómicos con datos clínicos, haciendo efectiva la traslación de este conocimiento a a la práctica clínica. Dentro de los datos ómicos, los procedentes del ARN se encuentran entre los más interesantes, ya que es el componente más dinámico entre las ómicas y contiene una gran cantidad de información, que no suele aprovecharse para su uso en el diagnóstico del CP. Sin embargo, el potencial y la capacidad de la transcriptómica para representar el estado siológico de un paciente en un momento dado ya se está utilizando en el diagnóstico de otras enfermedades, por lo que la aplicación de la transcriptómica para la estrati cación de pacientes de CP en entornos clínicos es prometedora. Muchos estudios relacionados con el CP se centran en el análisis de las vesículas extracelulares, miARN libres o, como en el caso de otros tumores, marcadores especí cos de genes como moléculas de ARNm circulantes. Tambi én se han identi cado varios marcadores genéticos de susceptibilidad para el CP utilizando distintos enfoques, sin embargo, debido a la heterogeneidad de esta enfermedad, solo unos pocos de estos marcadores se han asociado de forma sólida con el CP. Además, todos los marcadores genéticos identi cados están implicados en el desarrollo del tumor o son biomarcadores de un mayor riesgo de CP hereditario, pero no se ha descrito ningún gen para el diagnóstico o cribado del CP, por lo que la identi cación de nuevos biomarcadores en fases tempranas de la enfermedad que permitan una mejor detección y clasi cación del CP sigue siendo un reto para los investigadores. Recientemente, las técnicas de Machine Learning (ML) han demostrado su e cacia en la mejora de la predicción y el diagnóstico del CP, debido a su capacidad para proporcionar automáticamente modelos predictivos precisos a partir de grandes cantidades de datos que pueden utilizarse para construir sistemas de ayuda a la toma de decisiones clínicas (CDSS), lo que puede servir de ayuda a los especialistas para diagnosticar o detectar la enfermedad antes y con mayor precisión. Sin embargo, los enormes avances en el campo del ML han provocado una ola de preocupación, ya que en la mayoría de los casos los cientí cos no comprenden cómo los algoritmos aprenden de forma automática a partir de los datos ni cómo toman las decisiones. Por ello, la Comisión Europea ha propuesto un proyecto de ley para la Inteligencia Arti cial (IA) y ha establecido las llamadas Ethics Guidelines for Trustworthy AI para promover el desarrollo de una IA able que sea legal, lícita y robusta, lo que es especialmente importante en ámbitos de especial sensibilidad como la salud y el cáncer, donde las decisiones basadas en este tipo de sistemas pueden tener un impacto signi cativo en la vida de las personas. Debido a ello, el objetivo general de esta tesis consiste en diseñar y desarrollar un CDSS capaz de predecir el CP en base a la expresión de tejido procedente de este órgano a partir de datos de pacientes con CP y controles sanos, para posteriormente desvelar sus mecanismos de predicción con objeto de obtener biomarcadores biológicamente relevantes que puedan estar relacionados con la enfermedad. Para ello, en primer lugar se ha realizado una selección y ltrado de genes de acuerdo a su relevancia biológica en el CP con base en su expresión diferencial, su ontología genética y la información disponible en la literatura cientí ca. Los genes seleccionados fueron utilizados para desarrollar varios CDSSs a partir de la información de expresión génica en 550 muestras incluidas en The Cancer Genome Atlas y haciendo uso de técnicas de la IA explicable, obteniendo modelos fácilmente entendibles por los humanos y/o proporcionando explicaciones de cómo el modelo realiza sus predicciones y de qué características está considerando. Hay que destacar que este enfoque facilita la detección y prevención de posibles sesgos y discriminaciones en los modelos, ya que permite una mayor visibilidad y control sobre cómo se toman las decisiones. Los CDSSs generados obtuvieron un buen comportamiento en diversas métricas de calidad, por lo que el CDSS con mejor comportamiento fue además validado en cuatro poblaciones externas con diversidad de ascendencia étnica, sumando un total de 463 muestras y obteniendo valores medios de sensibilidad y especi cidad de 0,9 y 0,8. Por último, se extrajeron del CDSS con mejor comportamiento un conjunto de explicaciones aditivas de Shapley para ayudar a los profesionales clínicos a comprender las razones subyacentes a cada decisión. Dichas explicaciones permitieron entender cómo el CDSS hace uso de una serie de genes que han sido relacionados en la literatura con el CP, aunque nunca para su cribado, tales como DLX1, MYL9 y FGFR, así como de otros nuevos que no habían sido descritos previamente, como es el caso de CAV2 y MYLK. Al mismo tiempo pudimos detectar el papel fundamental de algunos genes no tan relevantes en términos absolutos pero con cierta in uencia para algunos individuos, genes nunca antes relacionados con el cáncer o la función prostática, tales como RNF112, APOF o MYOCD, entre otros. Las explicaciones extraídas del CDSS propuesto en este trabajo son consistentes entre sí y con la literatura, abriendo un horizonte para su aplicación en la práctica clínica. La Fig. 1 muestra una visión grá ca general del proceso de construcción del CDSS. Con el objetivo de demostrar la viabilidad de la aplicación del CDSS a la práctica clínica, realizamos nalmente un análisis sobre muestras de distinto tipo (biopsia fresca, biopsia para nada y plasma) procedentes de una cohorte de pacientes del Servicio Andaluz de Salud a la que nuestro grupo de investigación hace un seguimiento. Validamos con éxito su rendimiento en muestras locales de biopsia fresca y biopsia para nada, y conseguimos demostrar que los genes DLX1, TDRD1, AMACR, HPN, HOXC6 y OR51E2 tienen una expresión diferencial mayor en tejido con CP respecto al sano. Además, conseguimos demostrar que la expresión del gen AMACR tiene capacidad para predecir la agresividad del CP. En el caso del análisis de expresión en plasma, el comportamiento del modelo se vio afectado debido a que muchos de los genes carecían de expresión cuanti cable en este medio. Aún así, los resultados obtenidos son esperanzadores y abren una linea de trabajo futura muy interesante para adaptar el diseño realizado en esta tesis a este tipo de muestras.

Prostate cancer (PC) is one of the most common cancers in men worldwide. Currently, screening strategies for PC typically focus on the measurement of prostate-speci c antigen (PSA) blood levels, the combination of various anatomical and functional magnetic resonance imaging, and digital rectal examination. However, PSA blood levels are prostate-speci c, not necessarily cancer-speci c, and can be elevated for a variety of reasons, including benign prostatic hyperplasia. On the other hand, the accuracy of imaging tests is highly dependent on the expertise and experience of the radiologist interpreting them, which limits their use and necessitates the use of more objective, speci c and precise methods. The diagnosis of PC is made by transrectal ultrasound-guided transrectal puncture biopsy (TRUS) or fusion biopsy, which combines magnetic resonance imaging (MRI) and ultrasound of the prostate. Although imaging-guided biopsies increase the success rate of diagnosing the disease, they often cause signi cant discomfort to the patient. For all these reasons, the integration of omics data with clinical data is key to understanding the pathogenesis and improving the diagnosis of the disease, and to e ectively translate this knowledge into clinical practice. Among omics data, those from RNA are among the most interesting, as it is the most dynamic component among omics and contains a wealth of information that is not often exploited for use in PC diagnosis. However, the potential and ability of transcriptomics to represent the physiological state of a patient at a given point in time is already used in the diagnosis of other diseases, so the application of transcriptomics for PC patient strati cation in clinical settings is promising. Many studies in PC have focused on the analysis of extracellular vesicles, free miRNA or, as in the case of other tumors, gene-speci c markers such as circulating mRNA molecules. Several genetic susceptibility markers for PC have also been identi ed using di erent approaches, but due to the heterogeneity of this disease, only a few of these markers have been robustly associated with PC. Moreover, all identi ed genetic markers are involved in tumor development or are biomarkers for increased risk of hereditary PC, but no gene has been described for PC diagnosis or screening, so the identi cation of new biomarkers at early stages of the disease that allow better detection and classi cation of PC remains a challenge for researchers. Recently, machine learning (ML) techniques have proven e ective in improving the prediction and diagnosis of PC due to their ability to automatically provide accurate predictive models from large amounts of data that can be used to build clinical decision support systems (CDSS) that can help specialists diagnose or detect the disease earlier and more accurately. However, the huge advances in ML have caused a wave of concern, as in most cases scientists do not understand how algorithms automatically learn from data or how they make decisions. Therefore, the European Commission has proposed a draft law on Arti cial Intelligence (AI) and established the so-called Ethics Guidelines for Trustworthy AI to promote the development of trustworthy AI that is legal, lawful and robust, which is especially important in particularly sensitive areas such as health and cancer, where decisions based on such systems can have a signi cant impact on people's lives. Therefore, the overall objective of this thesis is to design and develop a CDSS capable of predicting PC based on the expression of tissue from this organ using data from PC patients and healthy controls, and then to unravel its predictive mechanisms in order to obtain biologically relevant biomarkers that may be related to the disease. To this end, a selection and ltering of genes was performed according to their biological relevance in PC, based on their di erential expression, their gene ontology and the information available in the scienti c literature. The selected genes were used to develop several CDSSs from the gene expression information in 550 samples included in The Cancer Genome Atlas and using explainable AI techniques, obtaining models that are easily understood by humans and/or providing explanations of how the model makes its predictions and what features it takes into account. It should be noted that this approach facilitates the detection and prevention of possible biases and discriminations in the models, as it provides greater visibility and control over how decisions are made. The generated CDSSs performed well on various quality metrics, so the best performing CDSS was further validated on four external populations of diverse ethnic ancestry, with a total of 463 samples, obtaining mean sensitivity and speci city values of 0.9 and 0.8. Fi nally, a set of Shapley's additive explanations were extracted from the best performing CDSS to help clinicians understand the underlying reasons for each decision. These explanations allowed us to understand how the CDSS uses a number of genes that have been associated with PC in the literature, but never for screening, such as DLX1, MYL9, and FGFR, as well as new genes that have not been previously described, such as CAV2 and MYLK. At the same time, we were able to identify the key role of some genes, not so relevant in absolute terms, but with a certain in uence in some individuals, genes never before associated with cancer or prostate function, such as RNF112, APOF or MYOCD, among others. The explanations extracted from the CDSS proposed in this work are consistent with each other and with the literature, opening a horizon for its application in clinical practice. Fig. 2 shows a graphical overview of the CDSS construction process. To analyze the reliability and feasibility of applying the CDSS in clinical practice, we nally performed an analysis on samples of di erent types (fresh biopsy, para n-embedded biopsy and plasma) from a cohort of patients from the Andalusian Health Service monitored by our research group. We successfully validated its performance in local samples of fresh biopsy and para n-embedded biopsy, and we were able to demonstrate that the genes DLX1, TDRD1, AMACR, HPN, HOXC6 and OR51E2 have a higher di erential expression in tissue with PC compared to healthy tissue. In addition, we were able to demonstrate that the expression of the AMACR gene has the potential to predict the aggressiveness of PC. The analysis of expression in plasma a ected the behavior of the model because many of the genes lacked quanti able expression in this medium. Nevertheless, the results obtained are encouraging and open a very interesting line of future work to adapt the design carried out in this thesis to this type of samples.

Colecciones

Tesis

Excepté là où spécifié autrement, la license de ce document est décrite en tant que Attribution-NonCommercial-NoDerivatives 4.0 Internacional