@misc{10481/82466, year = {2023}, url = {https://hdl.handle.net/10481/82466}, abstract = {Introduction. Cancer is one of the main causes of premature death worldwide. Cancers arise when cell genomes accumulate driver mutations, which are mutations that improve cell fitness. Driver mutations are a minority among the thousands of mutations present in a typical cancer genome. Although major efforts have been made to identify driver mutations in various cancers, most of them have focused on the protein coding genome, which only represents ~1.1% of the human genome. Part of the ~98.9% of the human genome that does not code for protein contains functional elements, such as regulatory DNA elements, intronic splice regions, untranslated regions of protein coding genes, and non-coding RNA genes. Among non-coding RNAs, microRNAs (miRNAs) and long non-coding RNAs (lncRNAs) may participate in the regulation of gene expression and their expression is often altered in cancer. However, efforts to identify non-coding driver mutations have been rare, and sample sizes in lung adenocarcinoma (LUAD) have been low. In addition, the largest mutational study in diffuse large B-cell lymphoma (DLBCL) to date omitted mutations in intronic splice regions. Objectives. We aimed to computationally identify and characterize novel driver mutations in non-coding DNA in in-house and external LUAD cohorts, with special focus on miRNA genes, lncRNA genes, and intronic splice regions. In addition, we aimed to identify and characterize previously missed mutations in intronic splice sites in external DLBCL datasets. Methods. We performed targeted sequencing of genomic DNA in an in-house cohort of 70 LUAD primary tumors, 27 matched normal samples, and 37 LUAD cell lines. Our design included all human miRNA genes (n = 1881), as well as exons of cancer-related lncRNA genes (n = 908) and protein coding genes (n = 1307). We developed computational pipelines to identify highconfidence somatic variants by combining multiple variant calling tools, and we also applied them to external whole-genome sequencing data of LUAD samples from The Cancer Genome Atlas (N = 59 tumor-normal pairs). In addition, we applied state-of-the-art driver discovery tools to find putative drivers in coding sequences, lncRNAs, miRNAs, intronic splice regions, proximal promoters, and untranslated regions. We assessed the functional relevance of the identified candidate drivers using external genomic, gene expression, and clinical data as well as functional impact scores. Furthermore, we developed a novel pipeline to annotate variants in a miRNA-centric manner, identifying variants that affect seeds and those that disrupt or create sequence motifs that mediate the processing of miRNA primary transcripts. Finally, in DLBCL, we reanalyzed external datasets (combined N = 1711) to identify previously missed recurrent mutations at intronic splice sites, we analyzed the impact of the splice site mutations on RNA processing, and we functionally characterized the most recurrent splice site mutation, which affected CD79B. Results. We successfully detected high-confidence somatic variants in all analyzed datasets. However, driver discovery tools did not perform adequately in our targeted sequencing cohorts of limited size, as one based on functional impact predictions lacked sensitivity in non-coding regions whereas one based on mutation clustering had a high false positive rate. Still, we identified three candidate driver lncRNAs that accumulated mutations so that at least one mutation had high predicted functional impact: TUSC7, SOX2-OT, and ZEB2-AS1. However, the affected lncRNAs had very low expression in external LUAD datasets. This, together with their mutational patterns and the genomic characteristics of their loci, argued against an RNA sequencedependent effect of their mutations. In miRNAs, a mutation in the seed of miR-133b was predicted to have high functional impact and to prevent it from targeting the oncogene EGFR. In addition, we identified mutations that disrupted or created processing motifs in miRNA primary transcripts, such as mutations that disrupted mismatched GHG motifs in mir-7-1, mir-7-2, and mir-139. In intronic splice regions, we found mutations that altered RNA splicing in LUAD driver genes such as MET and RBM10. In promoters and untranslated regions, we detected no high-confidence drivers. In DLBCL, intronic splice site mutations recurrently affected cancer driver genes and caused major RNA aberrations in cis. The most recurrent RNA alteration was intron 4 retention in CD79B. The alteration was caused by recurrent mutations at the fourth splice donor site of CD79B, and it was associated with an increase in the number of B cell receptors in the cell surface and a subsequent increase in oncogenic signaling. Conclusions. Non-coding variants with high predicted functional impact were rare in our LUAD datasets. In addition, it was unclear whether the candidate driver non-coding RNAs in LUAD had RNA sequence-dependent functions. Experimental work will be necessary to confirm whether the candidate driver non-coding RNAs have biological activity in LUAD and whether their activity is altered by the observed mutations. In DLBCL, intronic splice site mutations are recurrent and they can cause major cancer-promoting aberrations in driver genes}, abstract = {Introducción. El cáncer es una de las principales causas de muerte prematura mundialmente. El cáncer se origina cuando los genomas celulares acumulan mutaciones conductoras, que son mutaciones que confieren ventaja selectiva a la célula. Las mutaciones conductoras son una minoría entre las miles de mutaciones que contiene un genoma tumoral promedio. Aunque se han llevado a cabo grandes esfuerzos para identificar mutaciones conductoras en una gran variedad de cánceres, la mayoría de los esfuerzos se han centrado en el genoma codificante de proteína, que tan solo supone ~1,1% del genoma humano. Parte del ~98,9% del genoma humano no codificante de proteína contiene elementos funcionales, tales como ADN regulador, regiones intrónicas de corte y empalme, regiones no traducidas de genes codificantes de proteína y genes de ARN no codificante. Entre los ARNs no codificantes, los microARNs (miARNs) y los ARNs largos no codificantes (ARNlncs) pueden participar en la regulación de la expresión génica y su expresión está a menudo alterada en cáncer. Sin embargo, los esfuerzos para identificar mutaciones conductoras en secuencias no codificantes han sido escasos, y los tamaños de muestra para adenocarcinoma de pulmón (ADC) han sido bajos. Además, el mayor estudio hasta la fecha en linfoma difuso de células B grandes (LDCBG) omitió las mutaciones en regiones intrónicas de corte y empalme. Objetivos. Nuestro objetivo principal fue analizar y caracterizar computacionalmente nuevas mutaciones conductoras en secuencias no codificantes en cohortes propias y externas de ADC, con especial interés en miARNs, ARNlncs y regiones intrónicas de corte y empalme. Un objetivo adicional fue identificar y caracterizar mutaciones previamente no descritas en sitios intrónicos de corte y empalme en datos externos de LDCBG. Métodos. Realizamos secuenciación de DNA genómico dirigida a todos los genes de miARNs humanos (n = 1881), así como a exones de genes de ARNlncs relacionados con cáncer (n = 908) y de genes codificantes de proteína relacionados con cáncer (n = 1307) en una cohorte propia de 70 tumores primarios de LUAD, 27 muestras normales pareadas y 37 líneas celulares de LUAD. Desarrollamos métodos computacionales para identificar variantes somáticas con alta confianza mediante la combinación de múltiples herramientas. Además, aplicamos dichos métodos para analizar datos de secuenciación de genoma completo de muestras de ADC de The Cancer Genome Atlas (N = 59 parejas tumor-normal). Asimismo, aplicamos herramientas de descubrimiento de mutaciones conductoras en secuencias codificantes, ARNlncs, miARNs, regiones intrónicas de corte y empalme, promotores proximales y regiones no traducidas. Determinamos la relevancia funcional de los elementos candidatos a conductores utilizando datos externos genómicos, transcriptómicos y clínicos. Además, desarrollamos una nueva metodología para anotar variantes de una forma miARN-céntrica, pudiendo identificar variantes que afectan a secuencias semilla y aquellas que crean o destruyen motivos de secuencia que median el procesamiento de los transcritos primarios de miARNs. Finalmente, en LDCBG, reanalizamos conjuntos de datos externos (N combinada = 1711) para identificar mutaciones recurrentes en sitios intrónicos de corte y empalme no detectadas en estudios anteriores. Analizamos el impacto de las mutaciones halladas en el procesamiento del ARN afectado, y caracterizamos funcionalmente la mutación más recurrente, que afectaba a CD79B. Resultados. Detectamos exitosamente variantes somáticas con alta confianza en todos los conjuntos de datos analizados. Sin embargo, las herramientas de descubrimiento de mutaciones conductoras no tuvieron un rendimiento adecuado en nuestras cohortes de secuenciación dirigida de tamaño limitado: una herramienta basada en predicciones de impacto funcional tuvo baja sensibilidad en regiones no codificantes, mientras que otra basada en el agrupamiento de mutaciones tuvo una tasa elevada de falsos positivos. No obstante, identificamos tres ARNlncs candidatos a conductores que acumulaban mutaciones tal que al menos una de ellas tenía un alto impacto funcional predicho: TUSC7, SOX2-OT y ZEB2-AS1. Sin embargo, los ARNlncs afectados tenían una expresión extremadamente baja en datos externos de ADC. Esto, unido a sus patrones mutacionales y a las características genómicas de sus loci, hizo improbable que el efecto de sus mutaciones fuese dependiente de la secuencia de ARN. En miARNs, una mutación en la semilla de miR-133b tenía un alto impacto funcional predicho, impidiendo la unión de miR-133b al oncogén EGFR. Asimismo, identificamos mutaciones que destruían o creaban motivos de procesamiento en los transcritos primarios de miARNs, destacando las mutaciones que afectaban a motivos GHG desapareados en mir-7-1, mir-7-2 y mir-139. En regiones intrónicas de corte y empalme, hallamos mutaciones que alteraban el corte y empalme de genes conductores de ADC como MET y RBM10. En promotores y en regiones no traducidas, no encontramos ninguna mutación conductora con alto nivel de confianza. En LDCBG, las mutaciones en sitios intrónicos de corte y empalme afectaban recurrentemente a genes conductores de la enfermedad y causaban grandes aberraciones a nivel de ARN en cis. La aberración más recurrente a nivel de ARN fue la retención del intrón 4 de CD79B. La alteración estaba causada por mutaciones recurrentes en el cuarto sitio intrónico donador de corte y empalme de CD79B, y estaba asociada a un incremento en el número de receptores de células B en la superficie celular y un consiguiente aumento en la señalización oncogénica. Conclusiones. Las variantes en ARNs no codificantes con impacto funcional predicho elevado fueron infrecuentes en nuestros conjuntos de datos. Asimismo, no se pudo determinar de manera concluyente que los ARNs no codificantes candidatos a conductores de ADC tuviesen funciones dependientes de la secuencia de ARN. Se requerirá trabajo experimental para confirmar si los ARNs no codificantes candidatos a conductores tienen actividad biológica en ADC y si las mutaciones detectadas en los mismos alteran dicha actividad. En LDCBG, las mutaciones en sitios intrónicos de corte y empalme son recurrentes y pueden causar grandes aberraciones en los principales genes conductores de la enfermedad.}, organization = {Tesis Univ. Granada.}, publisher = {Universidad de Granada}, title = {Bioinformatic approaches for the discovery of non-coding alterations in cancer}, author = {Andrades Delgado, Álvaro}, }