Thèse de Yannis Flet-Berliac

Apprentissage par Renforcement Profond Efficace pour le Contrôle, l’Exploration et la Sûreté

Un des défis majeurs de l’apprentissage par renforcement est d’explorer efficacement un environnement afin d’apprendre une politique optimale par une méthode à base d’essai-erreur. Pour y parvenir, l’agent doit être capable d’apprendre efficacement de ses expériences passées, ce qui lui permet d’estimer la performance de certaines actions par rapport à d’autres. En outre, une problématique évidente mais centrale est que ce qui n’est pas connu doit être exploré, et la nécessité d’explorer d’une manière sûre ajoute un autre niveau de difficulté au problème. Ce sont les principales questions que nous abordons dans cette thèse de doctorat. En déconstruisant la méthode acteur-critique et en développant des formulations alternatives du problème d’optimisation sous-jacent via la notion de variance, nous explorons comment les algorithmes d’apprentissage par renforcement profond peuvent résoudre plus efficacement les problèmes de contrôle continu, les environnements d’exploration difficiles et les tâches exposées au risque. La première partie de la thèse se concentre sur la composante du critique de l’approche acteur-critique, ou fonction de valeur, et sur la façon d’apprendre plus efficacement à contrôler les agents dans les domaines de contrôle continu par des utilisations distinctes de la variance dans les estimations de la fonction de valeur. La deuxième partie de la thèse s’intéresse à la composante acteur de l’approche acteur-critique, aussi appelée politique. Nous proposons l’introduction d’un troisième élément au problème d’optimisation que les agents résolvent, en introduisant un adversaire. L’adversaire est de même nature que l’agent RL mais il est entraîné à suggérer des actions qui imitent celles de l’acteur ou qui vont à l’encontre des contraintes de notre problème. Il est représenté par une distribution de politique moyenne avec laquelle l’acteur doit différencier son comportement, encourageant finalement l’acteur à mieux explorer dans les tâches où une exploration efficace constitue la difficulté majeure, ou à prendre des décisions de façon moins risquée.

Jury

Mme Ann Nowé AI Lab, Vrije, Universiteit Brussel - Rapporteure M. Bruno Scherrer, Inria, Université de Lorraine - Rapporteur Mme Luce Brotcorne, Inria - Présidente M. Anders Jonsson, Universitat Pompeu Fabra - Examinateur Mme Joëlle Pineau McGill, University - Examinatrice M. Adam White, University of Alberta - Examinateur M. Philippe Preux, Inria, Université de Lille - Directeur de Thèse

Thèse de l'équipe SCOOL soutenue le 06/10/2021