Automatic identification of the protein fold type using representations from the amino acid sequence and deep learning techniques
Metadata
Show full item recordEditorial
Universidad de Granada
Departamento
Universidad de Granada. Programa de Doctorado en Tecnologías de la Información y la ComunicaciónDate
2023Fecha lectura
2022-11-25Referencia bibliográfica
Villegas Morcillo, Amelia Otilia. Automatic identification of the protein fold type using representations from the amino acid sequence and deep learning techniques. Granada: Universidad de Granada, 2023. [https://hdl.handle.net/10481/79636]
Sponsorship
Tesis Univ. Granada.Abstract
Proteins are the building blocks of life as they are present in most of the biological processes
of living organisms. The accurate determination of the protein three-dimensional structure
is essential for many applications including drug development and protein design. However,
the high cost of experimental methods has generated an increasing gap between the number
of protein sequences and 3D structures available in public databases. Furthermore, although
all the information needed to fold a protein is contained in its amino acid sequence, the
computational determination of the protein structure is a challenging problem due to the
complexity of the physicochemical interactions that define such structure. One step towards
resolving this is the identification of the fold type the protein belongs to by comparing
it to solved structures. However, this approach has recently been superseded by several
deep learning methods that succeeded in producing highly accurate 3D structures from
scratch. Despite this, it remains crucial to develop algorithms that identify sequential and
structural similarities between proteins at a low computational cost. Since structures tend
to be better conserved than sequences over the course of evolution, protein fold prediction
is also a tool to find structurally related proteins that may not be similar in sequence. This
could help to annotate rare proteins that are yet to be characterized.
The main objective of this Thesis is therefore to advance research on protein fold prediction
methods by exploiting the information contained in the amino acid sequences using
deep learning algorithms. The results are presented in this dissertation as a compendium
of scientific papers that have been published during the doctoral period.
The proposed strategies explore different research directions with a common ground:
the use of deep learning techniques to learn meaningful embedding representations of
protein fold types. First, image representations of the protein have been evaluated for the
fold recognition task, including estimated and enhanced contact maps, as well as native
contact and categorical distance maps (from the 3D structure). Then, a convolutionalrecurrent
neural network architecture has been proposed for fold recognition, which
successfully processes arbitrary-length protein sequences using amino acid residue-level
features. Subsequently, more discriminative embedding spaces of protein fold classes have
been learned by adjusting the training procedure of neural network models, in particular,
the loss function and the use of prototype fold class vectors to guide the classification.
Finally, the performance of several pre-trained protein language model embeddings has
been analyzed for the fold recognition and fold classification tasks, which have shown
promise and great potential for the field. Las proteínas son los componentes básicos de la vida ya que están presentes en la mayoría
de procesos biológicos de los seres vivos. La determinación de la estructura tridimensional
de la proteína es esencial para muchas aplicaciones incluyendo el desarrollo de fármacos y
el diseño de proteínas. Sin embargo, el alto coste de los métodos experimentales ha generado
una brecha entre el número de secuencias y estructuras 3D de proteínas disponibles en
las bases de datos. Además, a pesar de que toda la información necesaria para plegar una
proteína está contenida en su secuencia de aminoácidos, la determinación de la estructura
por métodos computacionales es difícil debido a la complejidad de las interacciones físicoquímicas
que definen dicha estructura. Un paso hacia su resolución es la identificación del
tipo de plegamiento (fold) mediante comparación con estructuras resueltas. Sin embargo,
este enfoque ha sido superado recientemente por varios métodos basados en aprendizaje
profundo, los cuales han logrado producir estructuras 3D muy precisas desde cero. A
pesar de ello, sigue siendo crucial el desarrollo de algoritmos que identifiquen similitudes
secuenciales y estructurales entre proteínas a un bajo coste computacional. Dado que las
estructuras tienden a conservarse mejor que las secuencias a lo largo de la evolución,
la predicción del tipo de plegamiento de la proteína es también una herramienta para
encontrar proteínas relacionadas entre sí a nivel estructural sin necesidad de ser similares
a nivel de secuencia. Esto podría ayudar en la anotación de proteínas poco comunes que
están aún por caracterizar.
El objetivo principal de esta Tesis es, por tanto, avanzar en la investigación de los
métodos de predicción del plegamiento de proteínas explotando la información contenida
en las secuencias de aminoácidos mediante el uso de algoritmos de aprendizaje profundo.
Los resultados se presentan en esta memoria como un compendio de artículos científicos
que han sido publicados durante el periodo doctoral.
Las estrategias propuestas exploran diferentes direcciones de investigación con una
base común: el uso de técnicas de aprendizaje profundo para aprender representaciones
compactas (embeddings) significativas de los tipos de plegamiento de las proteínas. En
primer lugar, se han evaluado representaciones en forma de imagen de la proteína para la
tarea de reconocimiento del plegamiento, incluyendo los mapas de contactos estimados y
mejorados, así como los mapas de contactos nativos y de distancias categorizadas (a partir
de la estructura 3D). Seguidamente, se ha propuesto una arquitectura de red neuronal de
tipo convolucional-recurrente para el reconocimiento del plegamiento, la cual procesa con
éxito secuencias de proteínas de longitud arbitraria utilizando características a nivel de aminoácido. Posteriormente, se han aprendido espacios de embedding más discriminativos de
los plegamientos mediante el ajuste del entrenamiento de las redes neuronales, en particular
la función de pérdidas y el uso de vectores prototipo para cada clase con objeto de guiar la
clasificación. Por último, se ha analizado el rendimiento de varios embeddings extraídos
de modelos de lenguaje de proteínas para las tareas de reconocimiento y clasificación de
pliegues, los cuales han demostrado ser prometedores y con gran potencial para el campo.