Automatic identification of the protein fold type using representations from the amino acid sequence and deep learning techniques

Villegas Morcillo, Amelia Otilia

80928(1).pdf (9.879Mb)

Identificadores

URI: https://hdl.handle.net/10481/79636

ISBN: 9788411176491

Exportar

Editorial

Universidad de Granada

Director

Sánchez Calle, Victoria Eugenia; Gómez García, Ángel Manuel

Departamento

Universidad de Granada. Programa de Doctorado en Tecnologías de la Información y la Comunicación

Date

2023

Fecha lectura

2022-11-25

Referencia bibliográfica

Villegas Morcillo, Amelia Otilia. Automatic identification of the protein fold type using representations from the amino acid sequence and deep learning techniques. Granada: Universidad de Granada, 2023. [https://hdl.handle.net/10481/79636]

Sponsorship

Tesis Univ. Granada.

Abstract

Proteins are the building blocks of life as they are present in most of the biological processes of living organisms. The accurate determination of the protein three-dimensional structure is essential for many applications including drug development and protein design. However, the high cost of experimental methods has generated an increasing gap between the number of protein sequences and 3D structures available in public databases. Furthermore, although all the information needed to fold a protein is contained in its amino acid sequence, the computational determination of the protein structure is a challenging problem due to the complexity of the physicochemical interactions that define such structure. One step towards resolving this is the identification of the fold type the protein belongs to by comparing it to solved structures. However, this approach has recently been superseded by several deep learning methods that succeeded in producing highly accurate 3D structures from scratch. Despite this, it remains crucial to develop algorithms that identify sequential and structural similarities between proteins at a low computational cost. Since structures tend to be better conserved than sequences over the course of evolution, protein fold prediction is also a tool to find structurally related proteins that may not be similar in sequence. This could help to annotate rare proteins that are yet to be characterized. The main objective of this Thesis is therefore to advance research on protein fold prediction methods by exploiting the information contained in the amino acid sequences using deep learning algorithms. The results are presented in this dissertation as a compendium of scientific papers that have been published during the doctoral period. The proposed strategies explore different research directions with a common ground: the use of deep learning techniques to learn meaningful embedding representations of protein fold types. First, image representations of the protein have been evaluated for the fold recognition task, including estimated and enhanced contact maps, as well as native contact and categorical distance maps (from the 3D structure). Then, a convolutionalrecurrent neural network architecture has been proposed for fold recognition, which successfully processes arbitrary-length protein sequences using amino acid residue-level features. Subsequently, more discriminative embedding spaces of protein fold classes have been learned by adjusting the training procedure of neural network models, in particular, the loss function and the use of prototype fold class vectors to guide the classification. Finally, the performance of several pre-trained protein language model embeddings has been analyzed for the fold recognition and fold classification tasks, which have shown promise and great potential for the field.

Las proteínas son los componentes básicos de la vida ya que están presentes en la mayoría de procesos biológicos de los seres vivos. La determinación de la estructura tridimensional de la proteína es esencial para muchas aplicaciones incluyendo el desarrollo de fármacos y el diseño de proteínas. Sin embargo, el alto coste de los métodos experimentales ha generado una brecha entre el número de secuencias y estructuras 3D de proteínas disponibles en las bases de datos. Además, a pesar de que toda la información necesaria para plegar una proteína está contenida en su secuencia de aminoácidos, la determinación de la estructura por métodos computacionales es difícil debido a la complejidad de las interacciones físicoquímicas que definen dicha estructura. Un paso hacia su resolución es la identificación del tipo de plegamiento (fold) mediante comparación con estructuras resueltas. Sin embargo, este enfoque ha sido superado recientemente por varios métodos basados en aprendizaje profundo, los cuales han logrado producir estructuras 3D muy precisas desde cero. A pesar de ello, sigue siendo crucial el desarrollo de algoritmos que identifiquen similitudes secuenciales y estructurales entre proteínas a un bajo coste computacional. Dado que las estructuras tienden a conservarse mejor que las secuencias a lo largo de la evolución, la predicción del tipo de plegamiento de la proteína es también una herramienta para encontrar proteínas relacionadas entre sí a nivel estructural sin necesidad de ser similares a nivel de secuencia. Esto podría ayudar en la anotación de proteínas poco comunes que están aún por caracterizar. El objetivo principal de esta Tesis es, por tanto, avanzar en la investigación de los métodos de predicción del plegamiento de proteínas explotando la información contenida en las secuencias de aminoácidos mediante el uso de algoritmos de aprendizaje profundo. Los resultados se presentan en esta memoria como un compendio de artículos científicos que han sido publicados durante el periodo doctoral. Las estrategias propuestas exploran diferentes direcciones de investigación con una base común: el uso de técnicas de aprendizaje profundo para aprender representaciones compactas (embeddings) significativas de los tipos de plegamiento de las proteínas. En primer lugar, se han evaluado representaciones en forma de imagen de la proteína para la tarea de reconocimiento del plegamiento, incluyendo los mapas de contactos estimados y mejorados, así como los mapas de contactos nativos y de distancias categorizadas (a partir de la estructura 3D). Seguidamente, se ha propuesto una arquitectura de red neuronal de tipo convolucional-recurrente para el reconocimiento del plegamiento, la cual procesa con éxito secuencias de proteínas de longitud arbitraria utilizando características a nivel de aminoácido. Posteriormente, se han aprendido espacios de embedding más discriminativos de los plegamientos mediante el ajuste del entrenamiento de las redes neuronales, en particular la función de pérdidas y el uso de vectores prototipo para cada clase con objeto de guiar la clasificación. Por último, se ha analizado el rendimiento de varios embeddings extraídos de modelos de lenguaje de proteínas para las tareas de reconocimiento y clasificación de pliegues, los cuales han demostrado ser prometedores y con gran potencial para el campo.

Collections

Tesis

Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivatives 4.0 Internacional