Bioinformatic approaches for the discovery of non-coding alterations in cancer
Metadata
Show full item recordAuthor
Andrades Delgado, ÁlvaroEditorial
Universidad de Granada
Departamento
Universidad de Granada. Programa de Doctorado en Bioquímica y Biología MolecularDate
2023Fecha lectura
2022-09-30Referencia bibliográfica
Andrades Delgado, Álvaro. Bioinformatic approaches for the discovery of non-coding alterations in cancer Granada: Universidad de Granada, 2023. [https://hdl.handle.net/10481/82466]
Sponsorship
Tesis Univ. Granada.Abstract
Introduction. Cancer is one of the main causes of premature death
worldwide. Cancers arise when cell genomes accumulate driver mutations,
which are mutations that improve cell fitness. Driver mutations are a minority
among the thousands of mutations present in a typical cancer genome.
Although major efforts have been made to identify driver mutations in various
cancers, most of them have focused on the protein coding genome, which only
represents ~1.1% of the human genome. Part of the ~98.9% of the human
genome that does not code for protein contains functional elements, such as
regulatory DNA elements, intronic splice regions, untranslated regions of
protein coding genes, and non-coding RNA genes. Among non-coding RNAs,
microRNAs (miRNAs) and long non-coding RNAs (lncRNAs) may
participate in the regulation of gene expression and their expression is often
altered in cancer. However, efforts to identify non-coding driver mutations
have been rare, and sample sizes in lung adenocarcinoma (LUAD) have been
low. In addition, the largest mutational study in diffuse large B-cell lymphoma
(DLBCL) to date omitted mutations in intronic splice regions.
Objectives. We aimed to computationally identify and characterize novel
driver mutations in non-coding DNA in in-house and external LUAD cohorts,
with special focus on miRNA genes, lncRNA genes, and intronic splice
regions. In addition, we aimed to identify and characterize previously missed
mutations in intronic splice sites in external DLBCL datasets.
Methods. We performed targeted sequencing of genomic DNA in an in-house
cohort of 70 LUAD primary tumors, 27 matched normal samples, and 37
LUAD cell lines. Our design included all human miRNA genes (n = 1881), as
well as exons of cancer-related lncRNA genes (n = 908) and protein coding
genes (n = 1307). We developed computational pipelines to identify highconfidence
somatic variants by combining multiple variant calling tools, and
we also applied them to external whole-genome sequencing data of LUAD
samples from The Cancer Genome Atlas (N = 59 tumor-normal pairs). In
addition, we applied state-of-the-art driver discovery tools to find putative
drivers in coding sequences, lncRNAs, miRNAs, intronic splice regions,
proximal promoters, and untranslated regions. We assessed the functional
relevance of the identified candidate drivers using external genomic, gene
expression, and clinical data as well as functional impact scores. Furthermore,
we developed a novel pipeline to annotate variants in a miRNA-centric
manner, identifying variants that affect seeds and those that disrupt or create
sequence motifs that mediate the processing of miRNA primary transcripts.
Finally, in DLBCL, we reanalyzed external datasets (combined N = 1711) to
identify previously missed recurrent mutations at intronic splice sites, we
analyzed the impact of the splice site mutations on RNA processing, and we
functionally characterized the most recurrent splice site mutation, which
affected CD79B.
Results. We successfully detected high-confidence somatic variants in all
analyzed datasets. However, driver discovery tools did not perform adequately
in our targeted sequencing cohorts of limited size, as one based on functional
impact predictions lacked sensitivity in non-coding regions whereas one based
on mutation clustering had a high false positive rate. Still, we identified three
candidate driver lncRNAs that accumulated mutations so that at least one
mutation had high predicted functional impact: TUSC7, SOX2-OT, and
ZEB2-AS1. However, the affected lncRNAs had very low expression in
external LUAD datasets. This, together with their mutational patterns and the
genomic characteristics of their loci, argued against an RNA sequencedependent
effect of their mutations. In miRNAs, a mutation in the seed of
miR-133b was predicted to have high functional impact and to prevent it from
targeting the oncogene EGFR. In addition, we identified mutations that
disrupted or created processing motifs in miRNA primary transcripts, such as
mutations that disrupted mismatched GHG motifs in mir-7-1, mir-7-2, and
mir-139. In intronic splice regions, we found mutations that altered RNA
splicing in LUAD driver genes such as MET and RBM10. In promoters and
untranslated regions, we detected no high-confidence drivers. In DLBCL,
intronic splice site mutations recurrently affected cancer driver genes and
caused major RNA aberrations in cis. The most recurrent RNA alteration was
intron 4 retention in CD79B. The alteration was caused by recurrent
mutations at the fourth splice donor site of CD79B, and it was associated with
an increase in the number of B cell receptors in the cell surface and a
subsequent increase in oncogenic signaling.
Conclusions. Non-coding variants with high predicted functional impact
were rare in our LUAD datasets. In addition, it was unclear whether the
candidate driver non-coding RNAs in LUAD had RNA sequence-dependent
functions. Experimental work will be necessary to confirm whether the
candidate driver non-coding RNAs have biological activity in LUAD and
whether their activity is altered by the observed mutations. In DLBCL, intronic
splice site mutations are recurrent and they can cause major cancer-promoting
aberrations in driver genes Introducción. El cáncer es una de las principales causas de muerte prematura
mundialmente. El cáncer se origina cuando los genomas celulares acumulan
mutaciones conductoras, que son mutaciones que confieren ventaja selectiva
a la célula. Las mutaciones conductoras son una minoría entre las miles de
mutaciones que contiene un genoma tumoral promedio. Aunque se han
llevado a cabo grandes esfuerzos para identificar mutaciones conductoras en
una gran variedad de cánceres, la mayoría de los esfuerzos se han centrado en
el genoma codificante de proteína, que tan solo supone ~1,1% del genoma
humano. Parte del ~98,9% del genoma humano no codificante de proteína
contiene elementos funcionales, tales como ADN regulador, regiones
intrónicas de corte y empalme, regiones no traducidas de genes codificantes
de proteína y genes de ARN no codificante. Entre los ARNs no codificantes,
los microARNs (miARNs) y los ARNs largos no codificantes (ARNlncs)
pueden participar en la regulación de la expresión génica y su expresión está a
menudo alterada en cáncer. Sin embargo, los esfuerzos para identificar
mutaciones conductoras en secuencias no codificantes han sido escasos, y los
tamaños de muestra para adenocarcinoma de pulmón (ADC) han sido bajos.
Además, el mayor estudio hasta la fecha en linfoma difuso de células B grandes
(LDCBG) omitió las mutaciones en regiones intrónicas de corte y empalme.
Objetivos. Nuestro objetivo principal fue analizar y caracterizar
computacionalmente nuevas mutaciones conductoras en secuencias no
codificantes en cohortes propias y externas de ADC, con especial interés en
miARNs, ARNlncs y regiones intrónicas de corte y empalme. Un objetivo
adicional fue identificar y caracterizar mutaciones previamente no descritas
en sitios intrónicos de corte y empalme en datos externos de LDCBG.
Métodos. Realizamos secuenciación de DNA genómico dirigida a todos los
genes de miARNs humanos (n = 1881), así como a exones de genes de
ARNlncs relacionados con cáncer (n = 908) y de genes codificantes de proteína
relacionados con cáncer (n = 1307) en una cohorte propia de 70 tumores
primarios de LUAD, 27 muestras normales pareadas y 37 líneas celulares de
LUAD. Desarrollamos métodos computacionales para identificar variantes
somáticas con alta confianza mediante la combinación de múltiples
herramientas. Además, aplicamos dichos métodos para analizar datos de
secuenciación de genoma completo de muestras de ADC de The Cancer
Genome Atlas (N = 59 parejas tumor-normal). Asimismo, aplicamos
herramientas de descubrimiento de mutaciones conductoras en secuencias
codificantes, ARNlncs, miARNs, regiones intrónicas de corte y empalme,
promotores proximales y regiones no traducidas. Determinamos la relevancia
funcional de los elementos candidatos a conductores utilizando datos externos
genómicos, transcriptómicos y clínicos. Además, desarrollamos una nueva
metodología para anotar variantes de una forma miARN-céntrica, pudiendo
identificar variantes que afectan a secuencias semilla y aquellas que crean o
destruyen motivos de secuencia que median el procesamiento de los
transcritos primarios de miARNs. Finalmente, en LDCBG, reanalizamos
conjuntos de datos externos (N combinada = 1711) para identificar
mutaciones recurrentes en sitios intrónicos de corte y empalme no detectadas
en estudios anteriores. Analizamos el impacto de las mutaciones halladas en
el procesamiento del ARN afectado, y caracterizamos funcionalmente la
mutación más recurrente, que afectaba a CD79B.
Resultados. Detectamos exitosamente variantes somáticas con alta confianza
en todos los conjuntos de datos analizados. Sin embargo, las herramientas de
descubrimiento de mutaciones conductoras no tuvieron un rendimiento
adecuado en nuestras cohortes de secuenciación dirigida de tamaño limitado:
una herramienta basada en predicciones de impacto funcional tuvo baja
sensibilidad en regiones no codificantes, mientras que otra basada en el
agrupamiento de mutaciones tuvo una tasa elevada de falsos positivos. No
obstante, identificamos tres ARNlncs candidatos a conductores que
acumulaban mutaciones tal que al menos una de ellas tenía un alto impacto
funcional predicho: TUSC7, SOX2-OT y ZEB2-AS1. Sin embargo, los ARNlncs
afectados tenían una expresión extremadamente baja en datos externos de
ADC. Esto, unido a sus patrones mutacionales y a las características genómicas
de sus loci, hizo improbable que el efecto de sus mutaciones fuese dependiente
de la secuencia de ARN. En miARNs, una mutación en la semilla de miR-133b
tenía un alto impacto funcional predicho, impidiendo la unión de miR-133b
al oncogén EGFR. Asimismo, identificamos mutaciones que destruían o creaban motivos de procesamiento en los transcritos primarios de miARNs,
destacando las mutaciones que afectaban a motivos GHG desapareados en
mir-7-1, mir-7-2 y mir-139. En regiones intrónicas de corte y empalme,
hallamos mutaciones que alteraban el corte y empalme de genes conductores
de ADC como MET y RBM10. En promotores y en regiones no traducidas, no
encontramos ninguna mutación conductora con alto nivel de confianza. En
LDCBG, las mutaciones en sitios intrónicos de corte y empalme afectaban
recurrentemente a genes conductores de la enfermedad y causaban grandes
aberraciones a nivel de ARN en cis. La aberración más recurrente a nivel de
ARN fue la retención del intrón 4 de CD79B. La alteración estaba causada por
mutaciones recurrentes en el cuarto sitio intrónico donador de corte y
empalme de CD79B, y estaba asociada a un incremento en el número de
receptores de células B en la superficie celular y un consiguiente aumento en
la señalización oncogénica.
Conclusiones. Las variantes en ARNs no codificantes con impacto funcional
predicho elevado fueron infrecuentes en nuestros conjuntos de datos.
Asimismo, no se pudo determinar de manera concluyente que los ARNs no
codificantes candidatos a conductores de ADC tuviesen funciones
dependientes de la secuencia de ARN. Se requerirá trabajo experimental para
confirmar si los ARNs no codificantes candidatos a conductores tienen
actividad biológica en ADC y si las mutaciones detectadas en los mismos
alteran dicha actividad. En LDCBG, las mutaciones en sitios intrónicos de
corte y empalme son recurrentes y pueden causar grandes aberraciones en los
principales genes conductores de la enfermedad.