January 30, 2026 at 1 PM (INRIA Lille)
L'apprentissage par renforcement (RL) a montré un grand potentiel dans des applications allant des jeux de société à la biologie et au-delà. Cependant, il reste encore à voir le jour dans d'autres domaines difficiles tels que l'agro-écologie, l'inefficacité des algorithmes RL dans de tels domaines essentiellement dus à des distributions de données concrètes compliquées qui ne sont pas conformes aux modèles statistiques standard tels que la famille exponentielle monoparamétrique. Motivée par de tels problèmes du monde réel, cette thèse introduit un nouveau cadre pour RL basé sur les statistiques non paramétriques bayésiennes, en particulier les processus de Dirichlet (DP). La première contribution de la thèse est le Dirichlet Process Posterior Sampling (DPPS), un algorithme non paramétrique bayésien probablement optimal pour les bandits multi-bras basé sur les DP. Essentiellement, DPPS est un algorithme de correspondance de probabilité, et combine la force du bootstrap (bayésien) avec un mécanisme de principe d'incorporation et d'exploitation d'informations antérieures. La thèse propose alors deux nouveaux algorithmes pour l'apprentissage par renforcement dans les processus de décision de Markov. La première est l'apprentissage profond basé sur l'échantillonnage par Thompson, dans lequel, l'exploration est basée sur l'échantillonnage postérieur de fonctions de valeur d'action (représentées par un réseau de neurones profonds). En particulier, l'étape d'échantillonnage postérieure de cet algorithme utilise un nouveau schéma basé sur DP, également introduit dans cette thèse, et qui peut être d'intérêt indépendant pour d'autres applications des réseaux de neurones bayésiens. Le deuxième algorithme est un algorithme RL de distribution qui repose sur une égalité de distribution associée aux DP.
M. Odalric-Ambrym MAILLARD Inria Lille Directeur de thèse, M. Ismael CASTILLO Sorbonne University Examinateur, Mme Audrey DURAND University de Laval Examinatrice, M. Shie MANNOR The Technion – Israel Institute of Technology Rapporteur, M. Pierre ALQUIER ESSEC ASIA-PACIFIC Rapporteur.