NeuRL - Apprentissage par renforcement neuro-incrémental à partir de préférences humaines
Coordinateur : Riad Akrour, Inria CRIStAL
Équipe : SCOOL du Groupe Thématique : DatInG.
Date : 02/2024 - 02/2028
Résumé :
Dans un avenir proche, les agents intelligents seront omniprésents dans notre vie quotidienne, remplaçant ou assistant les humains dans une variété de tâches. L’apprentissage par renforcement (AR) permet d’apprendre de telles tâches de prise de décision séquentielle à partir de données. L’AR a connu plusieurs succès, notamment dans le domaine des jeux, quand il a été combiné avec des réseaux de neurones profonds. Bien qu’impressionnants, ces résultats ont nécessité de larges équipes de recherche, adaptant les algorithmes d’AR à chaque tâche. Par contraste, nous espérons que l’agent intelligent du futur résoudra ces problèmes de décision à la volée avec, tout au plus, l’aide d’experts de la tâche en question, pas d’experts en AR. Le cas d’utilisation étudié dans cette proposition est celui d’une IA gérant une ferme pendant une saison de récolte, qui s’appuie sur des travaux antérieurs de notre équipe pour développer des environnements d’AR de haute qualité pour l’agriculture. Les méthodes actuelles nécessitent un expert en AR pour définir le problème, notamment la fonction de récompense, et pour surmonter l’instabilité de l’AR. Pour faire face à ces limitations, nous proposons une approche pour combiner les réseaux neuronaux et l’AR qui est nouvelle à la fois dans la morphologie des réseaux utilisés que dans leur fonction, afin de produire des mises à jour plus stables, à forme close. Il en découle aussi un algorithme d’AR basé sur des modèles, essentiel pour éliciter les préférences de l’utilisateur. En effet, l’élicitation de préférences nécessite ici la résolution d’une séquence de problèmes d’AR, ce quoi serait inefficace avec les approches sans modèle. Nos contributions seront validées sur les tâches de gestion agricole susmentionnées qui devront être apprises uniquement à partir de retours humains de haut niveau, sans aucune intervention d’experts en AR.
Abstract :
In the near future, intelligent agents will be ubiquitous in our daily lives, replacing or assisting humans on a variety of tasks. Reinforcement Learning (RL) is a framework for learning such sequential decision making tasks from data. RL has had several achievements, particularly in game domains, obtained by combining RL and deep neural networks. While impressive, these results required large teams of researchers adapting RL algorithms to each task. In contrast, we expect intelligent agents to solve decision problems on the fly with at most the feedback of task experts, not RL experts. A use case studied in this proposal is an AI managing a farm throughout a harvesting season, building upon our team’s prior work to develop high quality RL environments for agriculture. The particularity of our setting is the personalisation of the task to each farmer’s preferences. Current RL methods would require an RL expert both for the definition of the problem, especially the reward function, and to overcome the well documented instability of RL. To tackle these limitations, we propose an approach for combining neural networks and RL that is novel both in the morphology of the networks and their usage, to produce more stable, closed-form updates. Specifically, the networks will grow in size during learning, allowing a closed form entropy-regularised policy update, and will aggregate the state space, instead of directly modelling value functions, allowing a closed form computation of the value function for the resulting abstract Markov decision process model. The model-based nature of our framework is also key for eliciting the user’s preferences as it requires solving a sequence of RL problems, which is sample inefficient with model-free approaches. Our contributions will be validated on the aforementioned farm management tasks that will have to be learned solely from high-level human feedback, without any intervention from an RL expert.