Hdr de Jean Martinet

Caractéristiques avancées pour la représentation d'images : intégration des relations, des poids, de la profondeur et du temps

D'immenses quantités de données visuelles sont générées tous les jours, telles que les images et vidéos produites par les utilisateurs des réseaux sociaux, les archives audiovisuelles, etc. Il est important de pouvoir chercher et retrouver des documents au sein de tels grands volumes de données. Notre travail en vision par ordinateur et recherche d'information multimédia porte sur les caractéristiques visuelles pour la représentation d'images. En particulier, dans la chaîne des traitements allant de l'acquisition des données visuelles via des capteurs jusqu'à l'interface utilisateur qui facilite l'interaction avec le système, notre recherche s'intéresse à la représentation interne des données visuelles sous la forme d'un index qui sert de référence pour le système concernant le contenu des images. Dans le contexte général de la représentation d'images, nous décrivons dans une première partie quelques contributions liées au paradigme populaire des "sacs de mots visuels". Nous discutons également la notion générale de relation, prise à différents niveaux – le bas niveau des mots visuels, le niveau transverse qui vise l'annotation intermodale, et le haut niveau des objets sémantiques. Finalement, nous nous attachons à définir des modèles de pondération, qui servent de pendants visuels des schémas de pondération utilisés pour le texte. En raison de la spécificité des personnes et visages en comparaison aux objets généraux, nous nous intéressons dans une seconde partie aux caractéristiques et méthodes spécifiques pour la reconnaissance de personnes. Deux directions sont développées pour pallier certaines limitations des approches 2D statiques basées sur des images de visages, avec l'objectif d'améliorer la précision et la robustesse des systèmes. L'une des directions intègre la profondeur dans les caractéristiques faciales, et l'autre exploite l'information temporelle dans les flux vidéo. Dans les deux cas, des caractéristiques et stratégies dédiées sont étudiées. Mots-clés : Vision par ordinateur, Recherche d'information multimédia, Représentation d'images, Indexation, Caractéristiques visuelles, Schéma de pondération, Reconnaissance de personnes.

soutenue le 15/12/2016

Hdr de Jean Martinet

Caractéristiques avancées pour la représentation d'images : intégration des relations, des poids, de la profondeur et du temps

D'immenses quantités de données visuelles sont générées tous les jours, telles que les images et vidéos produites par les utilisateurs des réseaux sociaux, les archives audiovisuelles, etc. Il est important de pouvoir chercher et retrouver des documents au sein de tels grands volumes de données. Notre travail en vision par ordinateur et recherche d'information multimédia porte sur les caractéristiques visuelles pour la représentation d'images. En particulier, dans la chaîne des traitements allant de l'acquisition des données visuelles via des capteurs jusqu'à l'interface utilisateur qui facilite l'interaction avec le système, notre recherche s'intéresse à la représentation interne des données visuelles sous la forme d'un index qui sert de référence pour le système concernant le contenu des images. Dans le contexte général de la représentation d'images, nous décrivons dans une première partie quelques contributions liées au paradigme populaire des "sacs de mots visuels". Nous discutons également la notion générale de relation, prise à différents niveaux – le bas niveau des mots visuels, le niveau transverse qui vise l'annotation intermodale, et le haut niveau des objets sémantiques. Finalement, nous nous attachons à définir des modèles de pondération, qui servent de pendants visuels des schémas de pondération utilisés pour le texte. En raison de la spécificité des personnes et visages en comparaison aux objets généraux, nous nous intéressons dans une seconde partie aux caractéristiques et méthodes spécifiques pour la reconnaissance de personnes. Deux directions sont développées pour pallier certaines limitations des approches 2D statiques basées sur des images de visages, avec l'objectif d'améliorer la précision et la robustesse des systèmes. L'une des directions intègre la profondeur dans les caractéristiques faciales, et l'autre exploite l'information temporelle dans les flux vidéo. Dans les deux cas, des caractéristiques et stratégies dédiées sont étudiées. Mots-clés : Vision par ordinateur, Recherche d'information multimédia, Représentation d'images, Indexation, Caractéristiques visuelles, Schéma de pondération, Reconnaissance de personnes.

soutenue le 15/12/2016