L’apprentissage par renforcement traite les problèmes de prise de décision séquentielle dans l’incertain. Il s’est révélé particulièrement pertinent pour des tâches impliquant des dynamiques difficiles à modéliser ou comportant de vastes espaces d’états et d’actions, cas où les approches classiques issues de la programmation dynamique ne passent pas à l’échelle. Un élément clé pour permettre à l’apprentissage par renforcement de traiter de tels problèmes consiste à utiliser des approximateurs de fonction, tels que les réseaux de neurones. Cependant, l’ajout d’approximateurs de fonctions à l’apprentissage par renforcement peut introduire des instabilités dans un processus d’apprentissage déjà complexe, en raison d’erreurs dans l’évaluation ou la mise à jour des politiques. Dans ce manuscrit, nous présentons plusieurs approches exploitant la régularisation entropique afin de lisser les erreurs lors de l’étape d’évaluation des politiques et discutons de leurs propriétés théoriques et empiriques. Comme la régularisation entropique favorise des comportements stochastiques, son utilisation directe pour la collecte de données peut être mal adaptée à certaines applications, comme la robotique. Ainsi, nous concluons le manuscrit par une discussion sur l’exploration épisodique et la recherche Bayésienne de politiques, en proposant des stratégies alternatives de collecte de données qui, dans certains cas, se révèlent plus adaptées aux applications du monde réel.
defended on 17/10/2025