Bioinformatics Approaches For Lung Cancer Early Detection And Diagnosis Based On Liquid Biopsy Data Giannoukakos, Stavros Panagiotis Hackenberg, Michael Fernández Hilario, Alberto Luis Universidad de Granada. Programa de Doctorado en Biología Fundamental y de Sistemas bioinformatics machine learning lung cancer bioinformática aprendizaje automático cáncer de pulmón Cancer, especially lung cancer—the leading cause of deaths related to this disease— highlights the limitations of traditional tissue biopsies which are invasive and cannot continuously monitor tumour evolution. This emphasises the need for less invasive and more dynamic diagnostic methods. Liquid biopsy, using bodily fluids to detect molecular changes, offers a less invasive alternative, enabling the exploration of diverse biosources for early detection, diagnosis, and disease monitoring. While advances in gene expression technologies like Second and Third Generation Sequencing and NanoString have enhanced our understanding of tumour biology, the full potential of liquid biopsy has yet to be realised. Further development in bioinformatics and machine learning is necessary to harness liquid biopsy’s capabilities for personalised cancer management, bridging the gap between innovative gene expression technologies and clinical application. As part of the European Liquid Biopsy Academy (ELBA) Innovative Training Network consortium, this thesis contributes to the collective mission of enhancing cancer diagnostics. Various projects within ELBA employ diverse technologies with the shared goal of improving cancer diagnosis through liquid or tissue biopsy. Specifically, this thesis aims to thoroughly address three primary goals: first, developing a novel method called Ensemble Learning for Liquid Biopsy Analysis (ELLBA) for analysing liquid biopsy RNA sequencing data; second, using Oxford Nanopore Technologies’ direct RNA sequencing for tissue biopsy of non-small cell lung cancer to identify prognostic biomarkers, by means of a new pipeline named ‘DRseeker’; and third, creating ‘NanoInsights’, a comprehensive solution for NanoString nCounter technology that integrates advanced bioinformatics and machine learning to improve data analysis. In pursuit of our first aim to advance liquid biopsy-based transcriptomics, we introduced a new methodology called Ensemble Learning for Liquid Biopsy Analysis (ELLBA). Our hypothesis posited that extracting discriminative molecular features from Second Generation Sequencing liquid biopsy-based RNA-Seq data could improve cancer predictions. ELLBA integrates six biofeature types—gene expression, isoform expression, Fraction of Canonical Transcript, gene fusion, RNA editing, and Single Nucleotide Variants—enabling comprehensive molecular characteristic capture in cancer diagnostics. Utilising intra-sample CPM normalisation and standard ensemble classification methods, ELLBA outperforms traditional gene expression analysis in predictive accuracy. Rigorously assessed across diverse datasets and biosources, ELLBA consistently showed superior performance through integrated biofeature data analysis via ensemble classification. Regarding the second aim, the emergence of Third Generation Sequencing, particularly Oxford Nanopore Technologies’ direct RNA sequencing (DRS) protocol, presents notable strides in cancer transcriptomics. DRS facilitates the capture of complete transcript lengths in their native state, offering insights into various aspects of the transcriptome. To fully harness the potential of DRS research, a tailored bioinformatics pipeline named ‘DRseeker’ was created for comprehensive transcriptomic analysis. In its application to a lung cancer dataset, DRseeker facilitated the identification of significant shifts in transcript expression, the discovery of novel transcripts, and the detection of alterations in crucial genes. Moreover, the examination of polyadenylation variations and epitranscriptomic changes, such as methylation, illuminated intricate regulatory mechanisms within cancer cells. Finally, the NanoString nCounter system represents a significant technological advancement in transcriptomics, particularly useful in translational research and clinical applications. This system offers numerous advantages and can play an important role in various applications, including liquid biopsy. However, it introduces new challenges in data analysis, such as normalisation and interpretation. To tackle these challenges, the ‘NanoInsights’ web service was developed, integrating bioinformatics and machine learning to enhance NanoString data analysis. Featuring a user-friendly interface, extensive quality control, multiple normalisation methods, gene enrichment analysis, and diverse machine learning approaches, NanoInsights caters to researchers of all expertise levels, offering a comprehensive solution for interpreting complex datasets. The integration of liquid biopsy, cutting-edge gene expression technologies, innovative bioinformatics, and state-of-the-art machine learning algorithms represents a transformative leap in cancer diagnostics. This convergence not only enriches our comprehension of cancer’s molecular intricacies but also lays the groundwork for early detection and diagnosis. Ultimately, it opens new avenues for personalised medicine and targeted therapies, promising more effective treatments and improved patient outcomes. El cáncer, especialmente el cáncer de pulmón, que es la principal causa de muertes relacionadas con esta enfermedad, resalta las limitaciones de las biopsias de tejido tradicionales, pues resultan invasivas y no pueden monitorear continuamente la evolución del tumor. Así, es evidente la necesidad de métodos diagnósticos menos invasivos y más dinámicos. La biopsia líquida, que utiliza fluidos corporales para detectar cambios moleculares, ofrece una alternativa que incluye las características anteriores, permitiendo la exploración de diversas fuentes biológicas para la detección temprana, diagnóstico y seguimiento de la enfermedad. Aunque los avances en tecnologías de expresión génica, como la Secuenciación de Segunda y Tercera Generación y NanoString, han mejorado nuestra comprensión de la biología tumoral, aún no hemos alcanzado el potencial completo de la biopsia líquida. Se requiere un mayor desarrollo en bioinformática y aprendizaje automático para aprovechar plenamente las capacidades de la biopsia líquida en la gestión personalizada del cáncer, cerrando la brecha entre las tecnologías innovadoras de expresión génica y su aplicación clínica. Como parte del consorcio de la Academia Europea de Biopsia Líquida (en inglés European Liquid Biopsy Academy o ELBA), esta tesis contribuye a la misión colectiva de mejorar el diagnóstico del cáncer. Varios proyectos dentro de ELBA emplean diversas tecnologías con el objetivo compartido de mejorar el diagnóstico del cáncer mediante biopsias líquidas o de tejido. Específicamente, esta tesis tiene como objetivo abordar de manera exhaustiva tres metas principales: primero, desarrollar un nuevo método llamado Aprendizaje del Conjunto para el Análisis de Biopsias Líquidas de Biopsias Líquidas para analizar datos de secuenciación de ARN de biopsias líquidas; segundo, utilizar la secuenciación directa de ARN de Oxford Nanopore Technologies para la biopsia de tejido del cáncer de pulmón de células no pequeñas para identificar biomarcadores pronósticos, mediante un nuevo pipeline llamado ’DRseeker’; y tercero, crear ’NanoInsights’, una solución integral para la tecnología NanoString nCounter que integra bioinformática avanzada y aprendizaje automático para mejorar el análisis de datos. En busca de nuestro primer objetivo de avanzar en la transcriptómica basada en biopsia líquida, introdujimos una nueva metodología denominada Aprendizaje del Conjunto para el Análisis de Biopsias Líquidas de Biopsia Líquida (Ensemble Learning for Liquid Biopsy Analysis o ELLBA, por sus siglas en inglés). Nuestra hipótesis postulaba que la extracción de características moleculares discriminativas de los datos de RNA-Seq de biopsia líquida de secuenciación de segunda generación podría mejorar las predicciones de cáncer. ELLBA integra seis tipos de biomarcadores: expresión génica, expresión de isoformas, Fracción de Transcrito Canónico, fusión de genes, edición de ARN y Variantes de Nucleótido Único, permitiendo la captura integral de características moleculares en el diagnóstico del cáncer. Utilizando la normalización CPM intra-muestra y métodos estándar de clasificación de conjuntos, ELLBA supera el análisis tradicional de expresión génica en precisión predictiva. Evaluado rigurosamente en diversos conjuntos de datos y biofuentes, ELLBA mostró un rendimiento consistentemente superior a través del análisis integrado de datos de biomarcadores mediante clasificación combinada (tipo ensemble). En cuanto al segundo objetivo, la aparición de la secuenciación de tercera generación, en particular el protocolo de secuenciación directa de ARN (en inglés direct RNA sequencing o DRS) de Oxford Nanopore Technologies, representa avances notables en la transcriptómica del cáncer. El DRS facilita la captura de longitudes completas de transcriptos en su estado nativo, ofreciendo información sobre diversos aspectos del transcriptoma. Para aprovechar al máximo el potencial de los avances que permite el uso de DRS, se creó una pipeline bioinformática específica denominada "DRseeker" para el análisis transcriptómico integral. En su aplicación a un conjunto de datos de cáncer de pulmón, DRseeker facilitó la identificación de cambios significativos en la expresión de transcriptos, el descubrimiento de nuevos transcriptos y la detección de alteraciones en genes cruciales. Además, el examen de las variaciones de poliadenilación y los cambios eptranscriptómicos, como la metilación, permitió elucidar mecanismos regulatorios intrincados dentro de las células cancerosas. Finalmente, el sistema NanoString nCounter representa un avance tecnológico significativo en transcriptómica, particularmente útil en la investigación traslacional y las aplicaciones clínicas. Este sistema ofrece numerosas ventajas y puede desempeñar un papel importante en diversas aplicaciones, incluida la biopsia líquida. Sin embargo, introduce nuevos desafíos en el análisis de datos, como la normalización e interpretación. Para abordar estos desafíos, se desarrolló el servicio web "NanoInsights", que integra bioinformática y aprendizaje automático para mejorar el análisis de datos de NanoString. Con una interfaz de usuario amigable, control de calidad exhaustivo, múltiples métodos de normalización, análisis de enriquecimiento de genes y diversos enfoques de aprendizaje automático, NanoInsights atiende a investigadores de todos los niveles de experiencia, ofreciendo una solución integral para interpretar conjuntos de datos complejos. La integración de la biopsia líquida, las tecnologías de expresión génica de vanguardia, la bioinformática innovadora y los algoritmos de aprendizaje automático de última generación representa un salto transformador en el diagnóstico del cáncer. Esta convergencia no solo enriquece nuestra comprensión de las complejidades moleculares del cáncer, sino que también sienta las bases para la detección y el diagnóstico tempranos. En última instancia, abre nuevas vías para la medicina personalizada y las terapias dirigidas, lo que promete tratamientos más efectivos y mejores resultados para los pacientes. 2024-11-27T09:52:32Z 2024-11-27T09:52:32Z 2024 2024-09-12 doctoral thesis Stavros Panagiotis Giannoukakos. Bioinformatics Approaches For Lung Cancer Early Detection And Diagnosis Based On Liquid Biopsy Data. Granada: Universidad de Granada, 2024. [https://hdl.handle.net/10481/97444] 9788411955676 https://hdl.handle.net/10481/97444 eng http://creativecommons.org/licenses/by-nc-nd/4.0/ open access Attribution-NonCommercial-NoDerivatives 4.0 Internacional Universidad de Granada