TeHOR: Text-Guided 3D Human and Object Reconstruction with Textures

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous regardez une simple photo d'une personne et d'un objet, par exemple un homme qui saute avec un skateboard. Votre cerveau comprend instantanément l'histoire : il ne voit pas juste un homme et une planche, il voit l'action, l'intention, et même l'ambiance.

Le problème, c'est que les ordinateurs, eux, sont souvent très "bêtes" à ce jeu. Ils essaient de recréer une scène en 3D en se basant uniquement sur le fait que les objets se touchent. C'est comme essayer de comprendre un film en ne regardant que les moments où les personnages se serrent la main. Si personne ne se touche, le ordinateur est perdu.

C'est là qu'intervient TeHOR, une nouvelle invention des chercheurs de l'Université de Séoul. Voici comment cela fonctionne, expliqué simplement :

1. Le Problème : Les aveugles qui touchent

Les anciennes méthodes de reconstruction 3D agissaient comme des aveugles qui devineraient la forme d'un objet en le touchant.

Leur limite : Si un homme pointe du doigt un oiseau sans le toucher, ou s'il regarde un tableau, les anciens systèmes ne savaient pas quoi faire. Ils pensaient : "Pas de contact ? Alors, pas d'interaction !" Résultat : des reconstructions bizarres, où l'homme regarde le sol au lieu du tableau, ou où le skateboard flotte au milieu de nulle part.
Leur autre erreur : Ils se focalisaient trop sur les détails locaux (les doigts qui touchent) et oubliaient le contexte global (la couleur du ciel, la posture du corps, l'ambiance de la pièce).

2. La Solution : Le "Scénariste" IA

TeHOR change la donne en ajoutant un élément magique : le texte.
Imaginez que vous donnez la photo à un scénariste très intelligent (une IA appelée "Vision-Language Model"). Ce scénariste regarde la photo et écrit une petite phrase descriptive, comme : "Un homme saute avec son skateboard en faisant un tour."

Au lieu de seulement "toucher" l'image, TeHOR lit cette description pour reconstruire la scène.

3. Comment ça marche ? (L'analogie du sculpteur et du peintre)

TeHOR utilise deux outils principaux pour sculpter la réalité en 3D :

Le Sculpteur (La Géométrie) : Il crée la forme de base du corps humain et de l'objet.
Le Peintre Magique (La Texture et l'Esprit) : C'est ici que la magie opère. TeHOR utilise un "peintre" très expérimenté (une IA de diffusion, comme celles qui créent des images à partir de texte) qui connaît des millions de scènes.
- Il dit au sculpteur : "Attends, le texte dit qu'il fait un tour. Donc, le skateboard doit être penché d'une certaine façon, et le corps doit être tordu pour l'équilibre."
- Il vérifie aussi la cohérence : "Le texte dit qu'il est dans un parc. Donc, la lumière et les ombres doivent correspondre à un parc, pas à une chambre noire."

4. Pourquoi c'est génial ?

Comprendre l'invisible : Même si l'homme ne touche pas l'objet (comme quand il pointe du doigt), TeHOR comprend l'intention grâce au texte. Il sait que le regard doit suivre la main, même sans contact physique.
Des détails réalistes : Au lieu de simples formes grisâtres, TeHOR reconstruit la texture (les couleurs, les motifs, les vêtements). C'est comme passer d'un croquis au crayon à une peinture à l'huile réaliste.
L'harmonie globale : Au lieu de coller des pièces séparées, TeHOR s'assure que tout l'ensemble (l'homme, l'objet, le fond) forme une histoire cohérente.

En résumé

Avant, reconstruire une scène 3D à partir d'une photo, c'était comme essayer de monter un meuble IKEA sans notice, en devinant où vont les vis. Avec TeHOR, c'est comme si quelqu'un vous donnait la notice complète et vous disait : "Regarde, c'est un homme qui fait du skate, donc il doit être penché en avant, avec le vent dans les cheveux, et le skateboard sous ses pieds."

C'est une avancée majeure pour la réalité virtuelle, les jeux vidéo et la robotique, car cela permet aux ordinateurs de comprendre non seulement où sont les objets, mais pourquoi ils sont là et comment ils interagissent avec les humains.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

La reconstruction conjointe d'humains et d'objets en 3D à partir d'une seule image est un défi majeur pour la robotique, la réalité augmentée/virtuelle (AR/VR) et la création de contenu numérique. Les méthodes existantes souffrent de deux limitations fondamentales :

Dépendance excessive aux contacts physiques : Les approches actuelles reposent principalement sur l'estimation des zones de contact physique (ex: saisir un objet). Elles échouent souvent à modéliser les interactions sans contact physique (ex: regarder un objet, pointer vers lui, attraper un frisbee en l'air), car l'absence de contact ne fournit aucune contrainte géométrique directe.
Négligence du contexte global : Les processus de reconstruction sont souvent pilotés par la proximité géométrique locale, ignorant les indices d'apparence globale (couleurs, ombres, orientation) et le contexte sémantique nécessaires pour comprendre l'intention humaine et la cohérence visuelle de la scène. Cela conduit à des reconstructions physiquement plausibles mais sémantiquement erronées (ex: un objet mal orienté ou un regard incohérent).

2. Méthodologie : TeHOR

TeHOR (Text-guided 3D Human and Object Reconstruction) propose un cadre innovant qui utilise des descriptions textuelles comme guide sémantique fort pour surmonter ces limites. L'architecture se déroule en deux étapes principales :

A. Représentation 3D

Le système représente l'humain et l'objet non pas sous forme de maillages statiques, mais comme des ensembles de Gaussiens 3D ( $\Phi_h$ et $\Phi_o$ ).

Humain : Paramétré par le modèle SMPL-X (pose $\theta$ , forme $\beta$ ) et des attributs de Gaussiens ancrés sur le maillage au repos.
Objet : Paramétré par des attributs de Gaussiens dans un espace canonique, transformés par une affinité (rotation, translation, échelle).
Fond : Un fond 2D est généré pour permettre un rendu réaliste.

B. Pipeline de Reconstruction

Extraction de texte (Captioning) : Un modèle Vision-Language (GPT-4) génère deux types de prompts à partir de l'image d'entrée :
- $P_{holistic}$ : Décrit l'interaction globale et le contexte sémantique (ex: "Un homme saute avec un skateboard").
- $P_{contact}$ : Spécifie les parties du corps en contact physique (ex: "main droite").
Reconstruction initiale :
- L'objet et l'humain sont isolés de l'image (via SmartEraser et SAM).
- Une reconstruction 3D initiale est obtenue (LHM pour l'humain, InstantMesh pour l'objet) et convertie en Gaussiens 3D.
Optimisation guidée par le texte (HOI Optimization) :
C'est le cœur de la méthode. Les Gaussiens 3D sont optimisés conjointement pour minimiser une fonction de perte globale $L$ $L$ :
- Perte de reconstruction ( $L_{recon}$ ) : Assure la fidélité géométrique par rapport à l'image d'entrée (vue frontale).
- Perte d'apparence ( $L_{appr}$ ) : Utilise un réseau de diffusion pré-entraîné (StableDiffusion) conditionné par le prompt $P_{holistic}$ . Via la Score Distillation Sampling (SDS), cette perte aligne les rendus 2D des Gaussiens 3D avec la distribution visuelle décrite par le texte. Cela permet de raisonner sur le contexte global, l'orientation et les interactions sans contact.
- Perte de contact ( $L_{contact}$ ) : Force la proximité géométrique entre les parties du corps spécifiées dans $P_{contact}$ et la surface de l'objet.
- Perte de collision : Empêche l'interpénétration des géométries.

C. Conversion Maillage

Pour la comparaison avec les méthodes existantes, les Gaussiens 3D finaux sont convertis en maillages 3D avec une étape de correction locale pour assurer la cohérence des zones de contact.

3. Contributions Clés

Guidage Sémantique par Texte : TeHOR est le premier cadre à utiliser des descriptions textuelles pour guider la reconstruction conjointe 3D humain-objet, permettant de raisonner au-delà des simples contacts physiques.
Intégration du Contexte Holistique : En supervisant l'apparence via un réseau de diffusion, la méthode capture le contexte global (intention, orientation, environnement), garantissant des reconstructions visuellement plausibles.
Reconstruction Texturée Complète : Le cadre reconstruit non seulement la géométrie mais aussi les textures 3D complètes de l'humain et de l'objet, essentiel pour les applications immersives.
Performance État-de-l'Art : Démonstration d'une supériorité significative sur les scénarios d'interaction généraux et spécifiquement sur les cas sans contact, là où les méthodes précédentes échouent.

4. Résultats Expérimentaux

Les évaluations ont été menées sur les datasets Open3DHOI (en extérieur, open-vocabulary) et BEHAVE (intérieur).

Métriques : Distance de Chamfer (géométrie), Score de contact (F1-score), et Collision.
Comparaison : TeHOR surpasse les méthodes de l'état de l'art (PHOSA, InteractVLM, HOI-Gaussian, etc.).
- Sur Open3DHOI, TeHOR atteint un CD_object de 16.701 cm (contre 19.363 pour HOI-Gaussian) et un score de contact de 0.412.
- Dans les scénarios sans contact, la performance de TeHOR est nettement supérieure, car les autres méthodes perdent leur signal de guidage principal (le contact).
Études d'ablation :
- La suppression du prompt textuel dans la perte d'apparence entraîne une dégradation sévère de la cohérence sémantique (ex: regard mal orienté).
- L'utilisation de Gaussiens 3D plutôt que de maillages améliore la précision de l'alignement avec le texte grâce à une structure plus flexible.
- La perte basée sur la diffusion (SDS) est plus efficace que les pertes basées sur CLIP pour capturer les relations spatiales denses.

5. Signification et Impact

TeHOR représente une avancée significative en modélisant l'interaction humain-objet non plus comme un problème purement géométrique local, mais comme un problème sémantique global.

Robustesse : La capacité à reconstruire des scènes sans contact physique ouvre de nouvelles possibilités pour l'analyse de comportements humains complexes.
Applications : La génération d'actifs 3D texturés et réalistes est directement applicable à la création de contenu pour le métavers, la simulation robotique et les jeux vidéo.
Innovation : L'utilisation de la distillation de score de diffusion pour l'optimisation 3D conjointe humain-objet établit une nouvelle direction pour l'intégration de connaissances sémantiques dans la vision par ordinateur 3D.

En résumé, TeHOR démontre que l'intégration de l'intelligence sémantique via le texte permet de surmonter les limitations physiques des méthodes de reconstruction traditionnelles, produisant des résultats plus précis, cohérents et réalistes.