Evolutionary computation for multitask and meta reinforcement learning: new methods and perspectives towards general -purpose artificial Inteligence
Metadata
Show full item recordEditorial
Universidad de Granada
Departamento
Universidad de Granada. Programa de Doctorado en Tecnologías de la Información y ComunicaciónDate
2023Fecha lectura
2023-04-14Referencia bibliográfica
Martínez quintana, Aritz David. Evolutionary computation for multitask and meta reinforcement learning: new methods and perspectives towards general -purpose artificial Inteligence.Granada: Universidad de Granada, 2023. [https://hdl.handle.net/10481/82008]
Sponsorship
Tesis Univ. Granada.Abstract
En la actualidad, las técnicas de Big Data y aprendizaje profundo (Deep
Learning) están cambiando la forma en la que interactuamos con la tecnología.
Desde recomendadores de contenido hasta tecnologías capaces de crear arte,
la ubucuidad de las redes neuronales es evidente hoy día, y se preveé creciente
en el medio/largo plazo. Por ello, y ante la inmensidad de campos en los que
el Deep Learning es aplicable, resulta interesante extrapolar o “reutilizar”
el conocimiento generado en un problema para resolver otros problemas
relacionados con mayor eficacia y rapidez. Este procedimiento, conocido
como aprendizaje por transferencia (Transfer Learning), es una técnica muy
extendida en Deep Learning. En este sentido, un paradigma del aprendizaje
en el que la transferencia de conocimiento entre problemas ha demostrado
ser muy efectiva es el aprendizaje por refuerzo (Reinforcement Learning), ya
que atiende varias de las debilidades inherentes al proceso de entrenamiento
de un agente: la eficiencia de muestreo en la exploración del espacio de
soluciones, o la posibilidad de que el entrenamiento del agente se estanque en
políticas sub-óptimas. Además de las técnicas tradicionalmente empleadas
para paliar estos inconvenientes, como la utilización de múltiples agentes
o el uso de mecanismos de inducción de curiosidad comportamental, se ha
demostrado que la computación evolutiva puede dar lugar a procedimientos
híbridos de entrenamiento eficientes en tiempo para agentes de aprendizaje
por refuerzo en entornos de aplicación complejos.
En este contexto, la presente tesis doctoral estudia cómo la computación
evolutiva puede ayudar a que los modelos de aprendizaje por refuerzo basados
en Deep Learning sean capaces de adaptarse rápidamente a nuevos escenarios
merced a la reutilización del conocimiento generado en problemas precedentes.
Para ello, la investigación se centrará en el uso de una rama concreta de
reciente aparición en la computación evolutiva, denominados algoritmos
multifactoriales, que permiten resolver varios problemas de optimización de
manera simultánea, aprovechando las posibles sinergias existentes entre sus
espacios de búsqueda y/o soluciones. La tesis parte de la observación de
que el entrenamiento de un modelo de aprendizaje por refuerzo basado en
Deep Learning puede ser formulado como un problema de optimización y por
tanto, abordable mediante computación evolutiva. Esta observación abre la
posibilidad de que, en escenarios de aprendizaje por refuerzo con múltiples
tareas (multitask reinforcement learning), los algoritmos multifactoriales
anteriormente citados puedan ser empleados para automatizar el intercambio
de conocimiento modelado para cada una de las tareas entre los agentes que
atacan cada una de ellas.
Esta primera hipótesis de investigación abordada por la tesis se complementa
con una segunda idea: la generación de conocimiento generalizable a nuevas tareas de aprendizaje por refuerzo a partir del entrenamiento conjunto
de agentes en otras tareas previas. En particular la tesis se centra
en la casuística zero-shot, por la que no es posible conocer a priori nada
de las nuevas tareas, ni actualizar el modelo a posteriori con información
recolectada de dichas tareas. Este escenario, también abordado mediante
computación evolutiva y algoritmos multifactoriales, supone un paso más
allá hacia la capacidad de los modelos de Inteligencia Artificial para generar
conocimiento generalizable que le permita adaptarse autónoma y eficientemente
a nuevas tareas de aprendizaje, avanzando firmemente hacia un nuevo
paradigma del aprendizaje: GPAI (General-Purpose Artificial Intelligence). Currently, Big Data techniques and Deep Learning are changing the
way humankind interacts with technology. From content recommendation
to technologies capable of creating art, the ubiquity of neural networks
is evident today, and is expected to grow in the medium to long term.
Given the diversity of fields where Deep Learning is applied nowadays, it is
interesting to extrapolate or “reuse” the knowledge generated in one problem
to solve other related problems with proficiency, efficiency and speed. This
procedure, known as Transfer Learning, is widely used in modeling tasks
resorting to Deep Learning models. In this sense, a paradigm in which
knowledge transfer between tasks has been shown to be very effective is
Reinforcement Learning. Indeed, Transfer Learning addresses several of
the inherent weaknesses in the learning process of an agent: the sampling
efficiency when exploring the environment to be solved, or the possibility
that the agent’s training may get stuck in sub-optimal policies. Besides
traditionally used techniques to alleviate these drawbacks, such as the use
of multiple agents or mechanisms to induce behavioral curiosity, it has been
shown that evolutionary computation can give rise to efficient hybrid training
procedures for developing reinforcement learning agents suited to deal with
challenging environments.
In this context, this Thesis studies how evolutionary computation can
help Reinforcement Learning models based on Deep Learning to quickly
adapt to new scenarios through the reuse of knowledge generated in previous
modeling problems. For this purpose, the research focus is placed on the
use of a specific branch of recently appeared in evolutionary computation,
known as multi-factorial algorithms. Techniques belonging to this family of
evolutionary optimization methods allow solving several problem instances
simultaneously, taking advantage of possible synergies existing between their
search space and/or solutions. The Thesis departs from the observation
that the training process of a Reinforcement Learning model based on Deep
Learning can be formulated as an optimization problem, and therefore, is
feasible to be tackled by using evolutionary computation. This observation
paves the way towards the possibility that, in multitask Reinforcement
Learning scenarios, the previously mentioned multi-factorial algorithms can
be used to automate the exchange of knowledge modeled for each of the
tasks among the agents addressing each of such tasks.
This first research hypothesis addressed by the Thesis is complemented
by a second idea: the generation of generalizable knowledge to new Reinforcement
Learning tasks from the simultaneous training of agents on
previous Reinforcement Learning tasks. In particular, the Thesis focuses on
the zero-shot assumption, by which it is not possible to know beforehand anything about the new tasks to be addressed, nor to update the model with
information collected from these tasks during inference time. This scenario,
also tackled through evolutionary computation and multi-factorial algorithms,
represents a step forward towards the ability of Artificial Intelligence
models to generate knowledge that allows them to adapt autonomously and
efficiently to new tasks, advancing steadily towards a new paradigm: GPAI
(General-Purpose Artificial Intelligence).