Bioinformatics Approaches For Lung Cancer Early Detection And Diagnosis Based On Liquid Biopsy Data
Metadata
Show full item recordEditorial
Universidad de Granada
Departamento
Universidad de Granada. Programa de Doctorado en Biología Fundamental y de SistemasMateria
bioinformatics machine learning lung cancer bioinformática aprendizaje automático cáncer de pulmón
Date
2024Fecha lectura
2024-09-12Referencia bibliográfica
Stavros Panagiotis Giannoukakos. Bioinformatics Approaches For Lung Cancer Early Detection And Diagnosis Based On Liquid Biopsy Data. Granada: Universidad de Granada, 2024. [https://hdl.handle.net/10481/97444]
Sponsorship
Tesis Univ. Granada.; Faculty of Science, Department of Genetics, University of Granada; European Union’s Horizon 2020 research and innovation program under the Marie Skłodowska-Curie grant agreement for the European Liquid Biopsy Academy (ELBA) with Grant No 765492Abstract
Cancer, especially lung cancer—the leading cause of deaths related to this disease—
highlights the limitations of traditional tissue biopsies which are invasive
and cannot continuously monitor tumour evolution. This emphasises the need for
less invasive and more dynamic diagnostic methods. Liquid biopsy, using bodily
fluids to detect molecular changes, offers a less invasive alternative, enabling the
exploration of diverse biosources for early detection, diagnosis, and disease monitoring.
While advances in gene expression technologies like Second and Third
Generation Sequencing and NanoString have enhanced our understanding of tumour
biology, the full potential of liquid biopsy has yet to be realised. Further
development in bioinformatics and machine learning is necessary to harness liquid
biopsy’s capabilities for personalised cancer management, bridging the gap
between innovative gene expression technologies and clinical application.
As part of the European Liquid Biopsy Academy (ELBA) Innovative Training
Network consortium, this thesis contributes to the collective mission of enhancing
cancer diagnostics. Various projects within ELBA employ diverse technologies
with the shared goal of improving cancer diagnosis through liquid or tissue biopsy.
Specifically, this thesis aims to thoroughly address three primary goals: first, developing
a novel method called Ensemble Learning for Liquid Biopsy Analysis
(ELLBA) for analysing liquid biopsy RNA sequencing data; second, using Oxford
Nanopore Technologies’ direct RNA sequencing for tissue biopsy of non-small
cell lung cancer to identify prognostic biomarkers, by means of a new pipeline
named ‘DRseeker’; and third, creating ‘NanoInsights’, a comprehensive solution
for NanoString nCounter technology that integrates advanced bioinformatics and
machine learning to improve data analysis. In pursuit of our first aim to advance liquid biopsy-based transcriptomics, we
introduced a new methodology called Ensemble Learning for Liquid Biopsy Analysis
(ELLBA). Our hypothesis posited that extracting discriminative molecular
features from Second Generation Sequencing liquid biopsy-based RNA-Seq data
could improve cancer predictions. ELLBA integrates six biofeature types—gene
expression, isoform expression, Fraction of Canonical Transcript, gene fusion, RNA
editing, and Single Nucleotide Variants—enabling comprehensive molecular characteristic
capture in cancer diagnostics. Utilising intra-sample CPM normalisation
and standard ensemble classification methods, ELLBA outperforms traditional
gene expression analysis in predictive accuracy. Rigorously assessed across diverse
datasets and biosources, ELLBA consistently showed superior performance
through integrated biofeature data analysis via ensemble classification.
Regarding the second aim, the emergence of Third Generation Sequencing, particularly
Oxford Nanopore Technologies’ direct RNA sequencing (DRS) protocol,
presents notable strides in cancer transcriptomics. DRS facilitates the capture
of complete transcript lengths in their native state, offering insights into various
aspects of the transcriptome. To fully harness the potential of DRS research, a
tailored bioinformatics pipeline named ‘DRseeker’ was created for comprehensive
transcriptomic analysis. In its application to a lung cancer dataset, DRseeker facilitated
the identification of significant shifts in transcript expression, the discovery
of novel transcripts, and the detection of alterations in crucial genes. Moreover,
the examination of polyadenylation variations and epitranscriptomic changes, such
as methylation, illuminated intricate regulatory mechanisms within cancer cells.
Finally, the NanoString nCounter system represents a significant technological
advancement in transcriptomics, particularly useful in translational research and
clinical applications. This system offers numerous advantages and can play an
important role in various applications, including liquid biopsy. However, it introduces
new challenges in data analysis, such as normalisation and interpretation.
To tackle these challenges, the ‘NanoInsights’ web service was developed, integrating
bioinformatics and machine learning to enhance NanoString data analysis.
Featuring a user-friendly interface, extensive quality control, multiple normalisation
methods, gene enrichment analysis, and diverse machine learning approaches,
NanoInsights caters to researchers of all expertise levels, offering a comprehensive
solution for interpreting complex datasets. The integration of liquid biopsy, cutting-edge gene expression technologies, innovative
bioinformatics, and state-of-the-art machine learning algorithms represents
a transformative leap in cancer diagnostics. This convergence not only enriches
our comprehension of cancer’s molecular intricacies but also lays the groundwork
for early detection and diagnosis. Ultimately, it opens new avenues for personalised
medicine and targeted therapies, promising more effective treatments and
improved patient outcomes. El cáncer, especialmente el cáncer de pulmón, que es la principal causa de muertes
relacionadas con esta enfermedad, resalta las limitaciones de las biopsias de tejido
tradicionales, pues resultan invasivas y no pueden monitorear continuamente la
evolución del tumor. Así, es evidente la necesidad de métodos diagnósticos menos
invasivos y más dinámicos. La biopsia líquida, que utiliza fluidos corporales para
detectar cambios moleculares, ofrece una alternativa que incluye las características
anteriores, permitiendo la exploración de diversas fuentes biológicas para la detección
temprana, diagnóstico y seguimiento de la enfermedad. Aunque los avances en
tecnologías de expresión génica, como la Secuenciación de Segunda y Tercera Generación
y NanoString, han mejorado nuestra comprensión de la biología tumoral,
aún no hemos alcanzado el potencial completo de la biopsia líquida. Se requiere
un mayor desarrollo en bioinformática y aprendizaje automático para aprovechar
plenamente las capacidades de la biopsia líquida en la gestión personalizada del
cáncer, cerrando la brecha entre las tecnologías innovadoras de expresión génica y
su aplicación clínica.
Como parte del consorcio de la Academia Europea de Biopsia Líquida (en inglés
European Liquid Biopsy Academy o ELBA), esta tesis contribuye a la misión
colectiva de mejorar el diagnóstico del cáncer. Varios proyectos dentro de ELBA
emplean diversas tecnologías con el objetivo compartido de mejorar el diagnóstico
del cáncer mediante biopsias líquidas o de tejido. Específicamente, esta tesis tiene
como objetivo abordar de manera exhaustiva tres metas principales: primero,
desarrollar un nuevo método llamado Aprendizaje del Conjunto para el Análisis
de Biopsias Líquidas de Biopsias Líquidas para analizar datos de secuenciación de
ARN de biopsias líquidas; segundo, utilizar la secuenciación directa de ARN de
Oxford Nanopore Technologies para la biopsia de tejido del cáncer de pulmón de
células no pequeñas para identificar biomarcadores pronósticos, mediante un nuevo pipeline llamado ’DRseeker’; y tercero, crear ’NanoInsights’, una solución integral
para la tecnología NanoString nCounter que integra bioinformática avanzada y
aprendizaje automático para mejorar el análisis de datos.
En busca de nuestro primer objetivo de avanzar en la transcriptómica basada
en biopsia líquida, introdujimos una nueva metodología denominada Aprendizaje
del Conjunto para el Análisis de Biopsias Líquidas de Biopsia Líquida (Ensemble
Learning for Liquid Biopsy Analysis o ELLBA, por sus siglas en inglés). Nuestra
hipótesis postulaba que la extracción de características moleculares discriminativas
de los datos de RNA-Seq de biopsia líquida de secuenciación de segunda generación
podría mejorar las predicciones de cáncer. ELLBA integra seis tipos de
biomarcadores: expresión génica, expresión de isoformas, Fracción de Transcrito
Canónico, fusión de genes, edición de ARN y Variantes de Nucleótido Único, permitiendo
la captura integral de características moleculares en el diagnóstico del
cáncer. Utilizando la normalización CPM intra-muestra y métodos estándar de
clasificación de conjuntos, ELLBA supera el análisis tradicional de expresión génica
en precisión predictiva. Evaluado rigurosamente en diversos conjuntos de datos
y biofuentes, ELLBA mostró un rendimiento consistentemente superior a través
del análisis integrado de datos de biomarcadores mediante clasificación combinada
(tipo ensemble).
En cuanto al segundo objetivo, la aparición de la secuenciación de tercera generación,
en particular el protocolo de secuenciación directa de ARN (en inglés
direct RNA sequencing o DRS) de Oxford Nanopore Technologies, representa
avances notables en la transcriptómica del cáncer. El DRS facilita la captura de
longitudes completas de transcriptos en su estado nativo, ofreciendo información
sobre diversos aspectos del transcriptoma. Para aprovechar al máximo el potencial
de los avances que permite el uso de DRS, se creó una pipeline bioinformática
específica denominada "DRseeker" para el análisis transcriptómico integral. En su
aplicación a un conjunto de datos de cáncer de pulmón, DRseeker facilitó la identificación
de cambios significativos en la expresión de transcriptos, el descubrimiento
de nuevos transcriptos y la detección de alteraciones en genes cruciales. Además,
el examen de las variaciones de poliadenilación y los cambios eptranscriptómicos,
como la metilación, permitió elucidar mecanismos regulatorios intrincados dentro
de las células cancerosas.
Finalmente, el sistema NanoString nCounter representa un avance tecnológico significativo
en transcriptómica, particularmente útil en la investigación traslacional y las aplicaciones clínicas. Este sistema ofrece numerosas ventajas y puede desempeñar
un papel importante en diversas aplicaciones, incluida la biopsia líquida.
Sin embargo, introduce nuevos desafíos en el análisis de datos, como la normalización
e interpretación. Para abordar estos desafíos, se desarrolló el servicio web
"NanoInsights", que integra bioinformática y aprendizaje automático para mejorar
el análisis de datos de NanoString. Con una interfaz de usuario amigable,
control de calidad exhaustivo, múltiples métodos de normalización, análisis de
enriquecimiento de genes y diversos enfoques de aprendizaje automático, NanoInsights
atiende a investigadores de todos los niveles de experiencia, ofreciendo una
solución integral para interpretar conjuntos de datos complejos.
La integración de la biopsia líquida, las tecnologías de expresión génica de vanguardia,
la bioinformática innovadora y los algoritmos de aprendizaje automático
de última generación representa un salto transformador en el diagnóstico del
cáncer. Esta convergencia no solo enriquece nuestra comprensión de las complejidades
moleculares del cáncer, sino que también sienta las bases para la detección y
el diagnóstico tempranos. En última instancia, abre nuevas vías para la medicina
personalizada y las terapias dirigidas, lo que promete tratamientos más efectivos
y mejores resultados para los pacientes.