Clasificación del Cáncer de Próstata por medio de Inteligencia Artificial Explicable a partir de Datos de Expresión Génica
Metadatos
Afficher la notice complèteAuteur
Ramírez-Mena, AlbertoEditorial
Universidad de Granada
Departamento
Universidad de Granada. Programa de Doctorado en Tecnologías de la Información y la ComunicaciónDate
2023Fecha lectura
2023-10-26Referencia bibliográfica
Ramírez-Mena, Alberto. Clasificación del Cáncer de Próstata por medio de Inteligencia Artificial Explicable a partir de Datos de Expresión Génica. Granada: Universidad de Granada, 2023. [ https://hdl.handle.net/10481/85699]
Patrocinador
Tesis Univ. Granada.; Los fondos FEDER y la Consejería de Transformación Económica, Industria, Conocimiento y Universidades de la Junta de Andalucía, con cargo a la ayuda titulada Explicabilidad de la Inteligencia Arti cial para el Análisis Inteligente de Datos: Aplicaciones en Problemas de BioSalud y del Internet de las Cosas con referencia P18-RT-2248. Una manera de hacer Europa.; La Consejería de Salud y Consumo de la Junta de Andalucía, con cargo a la ayuda titulada Aplicación de datos moleculares para la identi caci ón de biomarcadores asociados a la resistencia a la castración y otros tratamientos en adyuvancia en el tratamiento de cáncer de próstata , con referencia PIP-0043-2022Résumé
El cáncer de próstata (CP) es una de las formas de cáncer más prevalente
entre los hombres de todo el mundo. Actualmente, las estrategias de cribado
en el CP se centran habitualmente en la medición de los niveles del antígeno
prostático especí co (PSA) en sangre, la combinación de diferentes imágenes
obtenidas mediante resonancia magnética y el examen rectal digital. Sin
embargo, el nivel de PSA en sangre es especí co de la próstata, pero no
necesariamente del cáncer y puede elevarse por diversos motivos, como por
ejemplo la hiperplasia prostática benigna. Por otro lado, la precisión de los
análisis por imagen están muy condicionados por la pericia y experiencia del
radiólogo que los evalúa, lo que limita su uso y hace necesaria la utilización de
métodos más objetivos, especí cos y precisos. El diagnóstico del CP se realiza
mediante la punción-biopsia transrectal guiada por ultrasonidos (TRUS) o
la biopsia fusión, que aúna las imágenes de la resonancia magnética (RMN)
prostática y de la ecografía. Sin embargo, aunque las biopsias guiadas por
técnicas de imagen incrementan el éxito en el diagnóstico de la enfermedad,
causan a menudo molestias severas a los pacientes.
Por todo lo expuesto con anterioridad, para comprender la patogénesis
y mejorar el diagnóstico de la enfermedad es clave la integración de datos
ómicos con datos clínicos, haciendo efectiva la traslación de este conocimiento
a a la práctica clínica. Dentro de los datos ómicos, los procedentes del ARN se
encuentran entre los más interesantes, ya que es el componente más dinámico
entre las ómicas y contiene una gran cantidad de información, que no suele
aprovecharse para su uso en el diagnóstico del CP. Sin embargo, el potencial
y la capacidad de la transcriptómica para representar el estado siológico de
un paciente en un momento dado ya se está utilizando en el diagnóstico de
otras enfermedades, por lo que la aplicación de la transcriptómica para la
estrati cación de pacientes de CP en entornos clínicos es prometedora.
Muchos estudios relacionados con el CP se centran en el análisis de las
vesículas extracelulares, miARN libres o, como en el caso de otros tumores,
marcadores especí cos de genes como moléculas de ARNm circulantes. Tambi
én se han identi cado varios marcadores genéticos de susceptibilidad para
el CP utilizando distintos enfoques, sin embargo, debido a la heterogeneidad
de esta enfermedad, solo unos pocos de estos marcadores se han asociado de
forma sólida con el CP. Además, todos los marcadores genéticos identi cados
están implicados en el desarrollo del tumor o son biomarcadores de un mayor
riesgo de CP hereditario, pero no se ha descrito ningún gen para el diagnóstico
o cribado del CP, por lo que la identi cación de nuevos biomarcadores
en fases tempranas de la enfermedad que permitan una mejor detección y
clasi cación del CP sigue siendo un reto para los investigadores.
Recientemente, las técnicas de Machine Learning (ML) han demostrado
su e cacia en la mejora de la predicción y el diagnóstico del CP, debido a su
capacidad para proporcionar automáticamente modelos predictivos precisos
a partir de grandes cantidades de datos que pueden utilizarse para construir
sistemas de ayuda a la toma de decisiones clínicas (CDSS), lo que puede servir
de ayuda a los especialistas para diagnosticar o detectar la enfermedad antes
y con mayor precisión. Sin embargo, los enormes avances en el campo del ML
han provocado una ola de preocupación, ya que en la mayoría de los casos los
cientí cos no comprenden cómo los algoritmos aprenden de forma automática
a partir de los datos ni cómo toman las decisiones. Por ello, la Comisión
Europea ha propuesto un proyecto de ley para la Inteligencia Arti cial (IA)
y ha establecido las llamadas Ethics Guidelines for Trustworthy AI para
promover el desarrollo de una IA able que sea legal, lícita y robusta, lo
que es especialmente importante en ámbitos de especial sensibilidad como
la salud y el cáncer, donde las decisiones basadas en este tipo de sistemas
pueden tener un impacto signi cativo en la vida de las personas. Debido
a ello, el objetivo general de esta tesis consiste en diseñar y desarrollar un
CDSS capaz de predecir el CP en base a la expresión de tejido procedente
de este órgano a partir de datos de pacientes con CP y controles sanos, para
posteriormente desvelar sus mecanismos de predicción con objeto de obtener
biomarcadores biológicamente relevantes que puedan estar relacionados con
la enfermedad.
Para ello, en primer lugar se ha realizado una selección y ltrado de genes
de acuerdo a su relevancia biológica en el CP con base en su expresión
diferencial, su ontología genética y la información disponible en la literatura
cientí ca. Los genes seleccionados fueron utilizados para desarrollar varios
CDSSs a partir de la información de expresión génica en 550 muestras incluidas
en The Cancer Genome Atlas y haciendo uso de técnicas de la IA explicable, obteniendo modelos fácilmente entendibles por los humanos y/o
proporcionando explicaciones de cómo el modelo realiza sus predicciones y
de qué características está considerando. Hay que destacar que este enfoque
facilita la detección y prevención de posibles sesgos y discriminaciones en los
modelos, ya que permite una mayor visibilidad y control sobre cómo se toman
las decisiones. Los CDSSs generados obtuvieron un buen comportamiento en
diversas métricas de calidad, por lo que el CDSS con mejor comportamiento
fue además validado en cuatro poblaciones externas con diversidad de ascendencia
étnica, sumando un total de 463 muestras y obteniendo valores
medios de sensibilidad y especi cidad de 0,9 y 0,8. Por último, se extrajeron
del CDSS con mejor comportamiento un conjunto de explicaciones aditivas
de Shapley para ayudar a los profesionales clínicos a comprender las razones
subyacentes a cada decisión. Dichas explicaciones permitieron entender cómo
el CDSS hace uso de una serie de genes que han sido relacionados en la literatura
con el CP, aunque nunca para su cribado, tales como DLX1, MYL9 y
FGFR, así como de otros nuevos que no habían sido descritos previamente,
como es el caso de CAV2 y MYLK. Al mismo tiempo pudimos detectar el
papel fundamental de algunos genes no tan relevantes en términos absolutos
pero con cierta in uencia para algunos individuos, genes nunca antes relacionados
con el cáncer o la función prostática, tales como RNF112, APOF
o MYOCD, entre otros. Las explicaciones extraídas del CDSS propuesto en
este trabajo son consistentes entre sí y con la literatura, abriendo un horizonte
para su aplicación en la práctica clínica. La Fig. 1 muestra una visión
grá ca general del proceso de construcción del CDSS.
Con el objetivo de demostrar la viabilidad de la aplicación del CDSS
a la práctica clínica, realizamos nalmente un análisis sobre muestras de
distinto tipo (biopsia fresca, biopsia para nada y plasma) procedentes de una
cohorte de pacientes del Servicio Andaluz de Salud a la que nuestro grupo
de investigación hace un seguimiento. Validamos con éxito su rendimiento
en muestras locales de biopsia fresca y biopsia para nada, y conseguimos
demostrar que los genes DLX1, TDRD1, AMACR, HPN, HOXC6 y OR51E2
tienen una expresión diferencial mayor en tejido con CP respecto al sano.
Además, conseguimos demostrar que la expresión del gen AMACR tiene
capacidad para predecir la agresividad del CP. En el caso del análisis de
expresión en plasma, el comportamiento del modelo se vio afectado debido
a que muchos de los genes carecían de expresión cuanti cable en este medio.
Aún así, los resultados obtenidos son esperanzadores y abren una linea de
trabajo futura muy interesante para adaptar el diseño realizado en esta tesis
a este tipo de muestras. Prostate cancer (PC) is one of the most common cancers in men worldwide.
Currently, screening strategies for PC typically focus on the measurement
of prostate-speci c antigen (PSA) blood levels, the combination of various
anatomical and functional magnetic resonance imaging, and digital rectal
examination. However, PSA blood levels are prostate-speci c, not necessarily
cancer-speci c, and can be elevated for a variety of reasons, including
benign prostatic hyperplasia. On the other hand, the accuracy of imaging
tests is highly dependent on the expertise and experience of the radiologist
interpreting them, which limits their use and necessitates the use of more
objective, speci c and precise methods. The diagnosis of PC is made by
transrectal ultrasound-guided transrectal puncture biopsy (TRUS) or fusion
biopsy, which combines magnetic resonance imaging (MRI) and ultrasound
of the prostate. Although imaging-guided biopsies increase the success rate
of diagnosing the disease, they often cause signi cant discomfort to the
patient.
For all these reasons, the integration of omics data with clinical data
is key to understanding the pathogenesis and improving the diagnosis of
the disease, and to e ectively translate this knowledge into clinical practice.
Among omics data, those from RNA are among the most interesting, as
it is the most dynamic component among omics and contains a wealth of
information that is not often exploited for use in PC diagnosis. However, the
potential and ability of transcriptomics to represent the physiological state
of a patient at a given point in time is already used in the diagnosis of other
diseases, so the application of transcriptomics for PC patient strati cation
in clinical settings is promising.
Many studies in PC have focused on the analysis of extracellular vesicles,
free miRNA or, as in the case of other tumors, gene-speci c markers
such as circulating mRNA molecules. Several genetic susceptibility markers
for PC have also been identi ed using di erent approaches, but due to the
heterogeneity of this disease, only a few of these markers have been robustly
associated with PC. Moreover, all identi ed genetic markers are involved in
tumor development or are biomarkers for increased risk of hereditary PC,
but no gene has been described for PC diagnosis or screening, so the identi
cation of new biomarkers at early stages of the disease that allow better
detection and classi cation of PC remains a challenge for researchers.
Recently, machine learning (ML) techniques have proven e ective in improving
the prediction and diagnosis of PC due to their ability to automatically
provide accurate predictive models from large amounts of data that can
be used to build clinical decision support systems (CDSS) that can help specialists
diagnose or detect the disease earlier and more accurately. However,
the huge advances in ML have caused a wave of concern, as in most cases
scientists do not understand how algorithms automatically learn from data
or how they make decisions. Therefore, the European Commission has proposed
a draft law on Arti cial Intelligence (AI) and established the so-called
Ethics Guidelines for Trustworthy AI to promote the development of trustworthy
AI that is legal, lawful and robust, which is especially important in
particularly sensitive areas such as health and cancer, where decisions based
on such systems can have a signi cant impact on people's lives. Therefore,
the overall objective of this thesis is to design and develop a CDSS capable of
predicting PC based on the expression of tissue from this organ using data
from PC patients and healthy controls, and then to unravel its predictive
mechanisms in order to obtain biologically relevant biomarkers that may be
related to the disease.
To this end, a selection and ltering of genes was performed according
to their biological relevance in PC, based on their di erential expression,
their gene ontology and the information available in the scienti c literature.
The selected genes were used to develop several CDSSs from the gene expression
information in 550 samples included in The Cancer Genome Atlas
and using explainable AI techniques, obtaining models that are easily understood
by humans and/or providing explanations of how the model makes
its predictions and what features it takes into account. It should be noted
that this approach facilitates the detection and prevention of possible biases
and discriminations in the models, as it provides greater visibility and control
over how decisions are made. The generated CDSSs performed well on
various quality metrics, so the best performing CDSS was further validated
on four external populations of diverse ethnic ancestry, with a total of 463
samples, obtaining mean sensitivity and speci city values of 0.9 and 0.8. Fi
nally, a set of Shapley's additive explanations were extracted from the best
performing CDSS to help clinicians understand the underlying reasons for
each decision. These explanations allowed us to understand how the CDSS
uses a number of genes that have been associated with PC in the literature,
but never for screening, such as DLX1, MYL9, and FGFR, as well as new
genes that have not been previously described, such as CAV2 and MYLK.
At the same time, we were able to identify the key role of some genes, not
so relevant in absolute terms, but with a certain in uence in some individuals,
genes never before associated with cancer or prostate function, such
as RNF112, APOF or MYOCD, among others. The explanations extracted
from the CDSS proposed in this work are consistent with each other and
with the literature, opening a horizon for its application in clinical practice.
Fig. 2 shows a graphical overview of the CDSS construction process.
To analyze the reliability and feasibility of applying the CDSS in clinical
practice, we nally performed an analysis on samples of di erent types
(fresh biopsy, para n-embedded biopsy and plasma) from a cohort of patients
from the Andalusian Health Service monitored by our research group.
We successfully validated its performance in local samples of fresh biopsy and
para n-embedded biopsy, and we were able to demonstrate that the genes
DLX1, TDRD1, AMACR, HPN, HOXC6 and OR51E2 have a higher di erential
expression in tissue with PC compared to healthy tissue. In addition,
we were able to demonstrate that the expression of the AMACR gene has the
potential to predict the aggressiveness of PC. The analysis of expression in
plasma a ected the behavior of the model because many of the genes lacked
quanti able expression in this medium. Nevertheless, the results obtained
are encouraging and open a very interesting line of future work to adapt the
design carried out in this thesis to this type of samples.