Analysis of Functional Annotations in Regulatory Elements
Metadata
Show full item recordAuthor
Garcia Moreno, AdriánEditorial
Universidad de Granada
Director
Carmona Sáez, PedroDepartamento
Universidad de Granada. Programa de Doctorado en BiomedicinaDate
2023Fecha lectura
2023-10-06Referencia bibliográfica
Garcia Moreno, Adrián. Analysis of Functional Annotations in Regulatory Elements. Granada: Universidad de Granada, 2023. [https://hdl.handle.net/10481/85099]
Sponsorship
Tesis Univ. Granada.; Scientific Exchange Grant. European Molecular Biology Organization (EMBO).; Proyectos de Investigación Precompetitivos para Jóvenes Investigadores. Proyectos para estudiantes de doctorado. Reference: PPJIB2021-20. Duration 01/01/2022 - 31/12/2022; Ministerio de ciencia e innovación, Proyectos del Plan Nacional 2020. Reference: P20_00335. Duration: 01/09/2021 - 30/11/2024.; Junta de Andalucía, Proyectos I+D+i del Programa Operativo FEDER 2020. Reference: B-CTS-40-UGR20. Duration: 01/07/2021 - 30/06/2023; Consejería de Transformación Economía, Industria, Conocimiento y Universidades, Junta de Andalucía, Proyectos I+D+i 2020. Reference: P20_00335. Duration: 04/10/2021 - 30/06/2023Abstract
The progress in high-throughput techniques, characterised by enhanced measurement
accuracy and affordability, has significantly contributed to our improved comprehension of
biological systems at the molecular level. This development has propelled the advancement of
omics biomedicine research, specially, facing the current challenges that complex diseases
present. However, the high heterogeneity of complex diseases stresses the need of a
personalised medicine and the integration of the different layers that regulate biological
systems. The general purpose of these studies is to identify biomarkers inspecting the
crosstalk between the different molecules that govern the genetic information flow.
Commonly, the results of omics data investigation yield large lists of candidate biomarkers.
Making sense out of these requires bioinformatics methodologies, particularly, the functional
annotations enrichment analysis. It applies a statistical test to evaluate the overrepresentation
of biological annotations within a list of biomarkers in comparison to a reference background.
While it is a well established methodology for genes and proteins there is a notable lack of
tools that enable the exploration of functional implications associated with regulatory
elements. This thesis’s general objective is to address the existing gap contributing to the
biomedical scientific community with a functional enrichment tool to analyse regulatory
elements.
After carefully reviewing the state-of-the-art enrichment methodologies for miRNAs, we
learnt that miRNAs, as well as CpG methylation islands and transcription factors, have a
common method that consists of inferring their functional implications through the
annotations associated with their target genes. This is because the predominant functional
terms databases are dedicated to genes and the annotations of regulatory elements are mainly
describing their natural role and not their downstream functional effect on the target genes. In
the concrete case of analysing the associated genes of CpGs and miRNAs, the traditional
enrichment method which applies a test based on the central hypergeometric distribution over
the associated genes produces biassed results towards specific and related functional terms
mainly related with cell cycle, regulation processes and cancer. Current tools propose
different solutions for the analysis of miRNAs and CpG islands. For instance, to avoid the traditional approach limitations in miRNAs, direct miRNAs set annotations must be tested
which can be obtained either by expert curation or after transforming gene-based annotations
to the miRNAs-level. Conversely, a well-established unbiased alternative for CpGs analysis
employs the Wallenius noncentral hypergeometric test but, surprisingly, no miRNAs literature
hinted about it. Our objective here is focussed on assessing and implementing a novel
adaptation of the Wallenius method for the analysis of miRNAs.
The novel method and the evaluation of other known methods for the unbiased functional
enrichment analysis of regulatory elements has motivated the development of a new
GeneCodis version. To fulfil this objective the new version required a complete reengineering
of the application. As a result, GeneCodis 4 offers the latest required methods to perform
functional enrichment analysis of lists of genes, proteins, CpGs, miRNAs and transcription
factors. The update also provides an improvement of the co-annotation discovery algorithm,
an expansion of the annotations and organisms database and new interactive visualisations. It
is equally accessible for bioinformatics and bench scientists thanks to its implementation as a
webtool with an application programming interface.
Finally, almost no literature studies the enrichment analysis of transcription factors lists. In
this context, the authors of the only tool to perform singular enrichment analysis of
transcription factors, TFTenricher, appear to have overlooked the biassed enrichment analysis
of regulatory elements. This presented an opportunity for us to demonstrate that the varying
number of transcription factors per regulated gene contributes to the constant enrichment of
signalling pathways, transcription regulation, cell cycle and cancer terms. Finally, we
validated the power of the Wallenius approach in the transcription factors context by means of
null simulations and two real cases reanalysis. Los avances en las técnicas de alto rendimiento, caracterizadas por una mayor precisión y
asequibilidad de las mediciones, han contribuido significativamente a mejorar nuestra
comprensión de los sistemas biológicos a nivel molecular. Este desarrollo ha impulsado el
avance de la investigación de las ómicas en biomedicina, especialmente, de cara a los retos
actuales que plantean las enfermedades complejas. Sin embargo, la gran heterogeneidad de las
enfermedades complejas acentúa la necesidad de una medicina personalizada y de la
integración de las diferentes capas que regulan los sistemas biológicos. Estos estudios buscan
identificar biomarcadores a partir de investigar la relación entre las distintas moléculas que
gobiernan el flujo de información genética. Por lo general, los resultados de la investigación
de datos ómicos producen grandes listas de biomarcadores candidatos. Para darles sentido se
requieren metodologías bioinformáticas, en particular, el análisis de enriquecimiento de
anotaciones funcionales. Éste método aplica una prueba estadística para evaluar la
sobrerrepresentación de anotaciones biológicas dentro de una lista de biomarcadores en
comparación con una referencia. Aunque el análisis de enriquecimiento funcional de genes y
proteínas es una metodología establecida, existe una notable carencia de herramientas que
permitan explorar las implicaciones funcionales asociadas a elementos reguladores. El
objetivo general de esta tesis es abordar el vacío existente contribuyendo a la comunidad
científica biomédica con una herramienta de enriquecimiento funcional para analizar listas de
elementos reguladores.
Tras revisar detenidamente el estado del arte de las metodologías de enriquecimiento para
miARNs aprendemos que tanto estos como las islas CpG de metilación y factores de
transcripción, tienen un método común que consiste en inferir sus implicaciones funcionales
mediante las anotaciones asociadas a sus genes diana. Esto se debe a que las bases de datos de
términos funcionales predominantes están dedicadas a los genes y las anotaciones de los
elementos reguladores describen principalmente su papel natural y no su efecto funcional en
los genes diana. En el caso concreto del análisis de los genes asociados a CpGs y miARNs, el
método tradicional de enriquecimiento que aplica un test basado en la distribución
hipergeométrica central sobre los genes asociados produce resultados sesgados hacia términos
funcionales específicos y relacionados principalmente con el ciclo celular, los procesos de
regulación y el cáncer. Las herramientas actuales proponen diferentes soluciones para el
análisis de miARNs e islas CpG. Por ejemplo, para evitar las limitaciones del enfoque
tradicional en miARNs, se deben testar las anotaciones del conjunto de miARNs, que se
pueden obtener mediante la curación directa por expertos o tras transformar las anotaciones
basadas en genes al nivel de miARNs. Por otro lado, una alternativa no sesgada para el
análisis de CpGs emplea la distribución de Wallenius sobre la cual, sorprendentemente,
ningún artículo sobre miARNs lo menciona. Nuestro objetivo aquí se centra en la evaluación
y aplicación de una nueva adaptación del método de Wallenius para el análisis de miARNs.
El nuevo método y la evaluación de otros conocidos para el análisis de enriquecimiento
funcional no sesgado de elementos reguladores ha motivado el desarrollo de una nueva
versión de GeneCodis. Para cumplir este objetivo, la nueva versión ha requerido una
reingeniería completa de la aplicación. Como resultado, GeneCodis 4 ofrece los últimos
métodos necesarios para realizar análisis de enriquecimiento funcional de listas de genes,
proteínas, miARNs, CpGs y factores de transcripción. La actualización también proporciona
una mejora del algoritmo de descubrimiento de co-anotaciones, una ampliación de la base de
datos de anotaciones y organismos y nuevas visualizaciones interactivas. Es igualmente
accesible para bioinformáticos y científicos de laboratorio gracias a su implementación como
herramienta web con una interfaz de programación de aplicaciones.
Por último, casi ninguna literatura estudia el análisis de enriquecimiento de listas de factores
de transcripción. En este contexto, los autores de la única herramienta para realizar análisis de
enriquecimiento singular de factores de transcripción, TFTenricher, parecen haber pasado por
alto el análisis de enriquecimiento sesgado de elementos reguladores. Esto nos brindó la
oportunidad de evaluar y demostrar que el número variable de factores de transcripción por
gen regulado contribuye al enriquecimiento constante de términos de vías de señalización,
regulación de la transcripción, ciclo celular y cáncer. Por último, hemos validado la potencia
del enfoque de Wallenius en el contexto de los factores de transcripción mediante
simulaciones nulas y el reanálisis de dos casos reales.