Thèse de Théo Voillemin

Reconnaissance de gestes et d'actions de la main, combinant vision par ordinateur et technologies de réalité augmentée

Les gestes de la main constituent le médium de communication non verbal le plus naturel et intuitif pour utiliser un ordinateur, et les efforts de recherche relatifs en ont récemment stimulé l'intérêt. De surcroît, l'analyse et l'interprétation du comportement humain à partir de signaux visuels est l'un des domaines les plus animés et recherchés de la vision par ordinateur. Afin de contribuer à ce champ de recherche, notre travail s'articule autour de la technologie de l'apprentissage automatique, plus particulièrement autour de l'apprentissage profond. Depuis peu, les réseaux de neurones profonds ont récemment prouvé leur remarquable efficacité dans de nombreux domaines de recherche et ont ainsi permis aux chercheurs de faire de considérables avancées en terme d'efficacité et de robustesse pour résoudre le problème de reconnaissance de gestes et d'actions de la main. Le principal objectif de cette thèse est de proposer un système d'assistance à l'utilisateur durant des activités orientées vers des objectifs précis, par exemple médical avec un assistant d'opérations ou d'auto-rééducation, ou encore dans l'industrie automobile avec un système d'assistance avancée pour la conduite, le tout sous la forme la plus intuitive et discrète possible. Ainsi, ce système observera les mains de l'utilisateur pour générer des commentaires contextuels en rapport avec le système de reconnaissance de gestes intégré. Cette thèse combine donc des techniques des domaines de recherche de la vision par ordinateur, avec la reconnaissance de gestes et les objets manipulés par l'utilisateur, et de réalité augmentée pour proposer un outil d'intervention et de correction. Pour cela, ces travaux explorent la récente architecture de réseau neuronal nommée Capsule Network qui n'a encore jamais été utilisée dans un problème de reconnaissance de gestes malgré la proposition de résultats prometteurs dans d'autres domaines. Une base de donnée extraite à l'aide du casque de réalité augmentée Microsoft HoloLens pour le problème de reconnaissance d'actions orientée vers l'apprentissage du piano et à des fins purement applicatives est aussi proposée, ainsi que des expérimentations pour prouver qu'il est possible d'entraîner une méthode dessus ainsi que pour continuer à démontrer l'efficacité de notre architecture neuronale.

Jury

M. Jean Philippe VANDEBORRE IMT Nord Europe Directeur de Thèse Mme Catherine ACHARD Sorbonne Université Rapporteure M. Hazem WANNOUS IMT Nord Europe Co-directeur de thèse M. Hedi TABIA Paris-Saclay Rapporteur Mme Sylvie GIBET Université Bretagne Sud Examinatrice M. Fabien MOUTARDE Mines ParisTech Examinateur

Thèse de l'équipe MINT soutenue le 29/10/2021