4DSHAPE

4DSHAPE - Analyse et Synthèse de la forme Humaine en 4D

Coordinateur : Mohamed Daoudi, IMT CRIStAL

Équipe : 3D-SAM du Groupe Thématique : Image.

Dates : 12/2024 - 12/2027

Résumé :

Ces dernières années, on observe un intérêt croissant pour l’analyse et la génération de la forme et du mouvement des humains en 3D (corps et visage). Les avancées dans les algorithmes d’estimation de la forme humaine en 3D, la technologie de numérisation 3D, les graphiques 3D accélérés par matériel, et les outils connexes, permettent l’accès à des données de forme corporelle humaine en 3D à grande échelle. Ces données se présentent généralement sous la forme de maillages de surface 3D qui, en général, ne correspondent pas à des discrétisations cohérentes, c’est-à-dire que la même surface peut-être représentée par de nombreux maillages triangulaires différents avec une connectivité variable et un nombre variable de sommets. Ainsi, les méthodes conçues pour l’analyse de forme 3D-4D de surfaces paramétrées et l’apprentissage profond rencontrent des limitations lorsqu’elles sont appliquées à de telles données réelles. Notre objectif est de générer un ensemble diversifié de dynamiques plausibles de mouvement du corps humain et du visage en 3D directement à partir de données de numérisation 3D ou même à partir d’un espace d’entrée tel que du texte ou de l’audio. Le résultat attendu de 4DSHAPE est d’identifier, de développer et de perfectionner un cadre naturel où l’on peut à la fois incorporer et générer des surfaces de corps humain et de visages indépendamment de la manière dont elles sont paramétrées/discrétisées, y compris les numérisations brutes, de manière à capturer et reproduire à la fois l’identité du sujet et les mouvements naturels qu’ils peuvent effectuer. Il est articulé autour de 3 objectifs principaux :

Objectif 1 : 3D-vers-3D. Notre premier objectif concerne le développement d’un cadre de recalage et de reconstruction 3D-vers-3D invariante à la discrétisation, adapté aux formes corporelles humaines, basé sur un espace latent commun et un modèle auto-encodeur.
Objectif 2 : 3D-vers-4D. Dans le deuxième objectif, nous prévoyons d’étudier l’extension des données statiques dans le temps (3D) aux données dynamiques dans les temps (4D). L’ingrédient central de cette partie de la recherche sera la construction d’une structure non linéaire sur l’espace latent de la forme humaine, ce qui nous permettra de modéliser avec précision la nature complexe des mouvements et déformations du corps humain dans la vie réelle. Notre approche utilisera une combinaison de méthodes basées sur les données et motivées physiquement, avec des énergies de déformation élastiques.
Objectif 3 : prompt-vers-3D/4D. Dans notre troisième et dernier objectif, nous visons à apprendre une correspondance de plusieurs espaces de prompts vers l’espace des formes humaines ; ici, l’espace de prompt pourrait être simplement un espace d’entrée de texte, mais aussi un espace plus compliqué tel qu’un enregistrement vocal, ou même un croquis humain animé.

Abstract :

In recent years, there has been an increased interest in analyzing and generating the shape and motion of 3D humans (body and face). Advances in 3D human shape estimation algorithms, 3D scanning technology, hardware-accelerated 3D graphics, and related tools, are enabling access to large-scale 3D human body shape data. This data usually comes in the form of 3D surface meshes that, in general, do not correspond to coherent discretizations, i.e., the same surface can be represented by many different triangular meshes with varying connectivity and a varying number of vertices. Thus, methods designed for 3D/4D shape analysis of parameterized surfaces ans deep learning face severe limitations when applied to such real data. Our goal is to generate a diverse set of plausible 3D human body and face motion dynamics directly from 3D scan data or even from a prompt space such as text or audio. The expected outcome of 4DSHAPE is to identify, develop and perfect a natural framework where one can both embed and generate surfaces of human body and faces independently of the way they are parameterized/discretized, including raw scans, in a way that captures and reproduces both the identity of the subject and the natural motions they can make. It is articulated around 3 main objectives :
Objective 1 : 3D-to-3D.
Our first objective concerns the development of a discretization-invariant 3D-to-3D registration and reconstruction framework adapted to human body shapes based on a common latent space and auto-encoder model.
Objective 2 : 3D-to-4D.
In the second objective we plan to investigate the extension of time-static (3D) to time-dynamic (4D) data. The central ingredient in this part of the research will be the construction of a non-linear structure on human shape latent space, which will enable us to accurately model the intricate nature of real life human body motions and deformations. Our approach will use a combination of data driven methods, and physically motivated, elastic deformation energies.
Objective 3 : Prompt-to-3D/4D.
In our third and final object we aim to learn a mapping from several prompt spaces to the space of human shapes ; here the prompt space could be simply a text input space, but also a more complicated space such as voice recording, or even an animated human sketch.