Each language version is independently generated for its own context, not a direct translation.
Voici un résumé technique détaillé du papier de recherche "Roomify: Spatially-Grounded Style Transformation for Immersive Virtual Environments", présenté à la conférence CHI '26.
1. Problématique
Les systèmes de Réalité Virtuelle (VR) actuels font face à un dilemme fondamental : l'immersion totale isole l'utilisateur de son environnement physique, créant des risques de sécurité et une désorientation spatiale, tandis que les solutions de "passthrough" (transmission vidéo de l'environnement réel) préservent la conscience spatiale mais brisent l'immersion et la présence.
- Le défi : Comment transformer radicalement le style d'une pièce physique (ex: transformer un salon en château de Harry Potter) tout en préservant la structure spatiale, la géométrie fonctionnelle des meubles et la sécurité de l'utilisateur ?
- Limites des approches existantes : Les systèmes de délimitation (Guardian) sont trop simples (2D), le passthrough rompt l'immersion, et les méthodes de substitution d'objets (proxies) manquent souvent de flexibilité stylistique ou de cohérence sémantique.
2. Méthodologie et Pipeline Technique
Roomify propose un système de transformation ancré spatialement ("spatially-grounded") qui traite l'espace physique comme un "conteneur spatial". Le pipeline se déroule en quatre étapes principales :
A. Compréhension Spatiale de la Scène
- Entrée : Une vidéo RGB monoculaire (30-60s) capturée via un casque Meta Quest 3.
- Reconstruction Géométrique : Utilisation de SLAM3R pour générer des nuages de points denses et des poses de caméra.
- Alignement : Utilisation de U-ARE-ME pour estimer les axes Manhattan et la direction de la gravité, assurant la compatibilité avec les modèles d'intérieur structurés.
- Analyse Sémantique : Le modèle SpatialLM analyse le nuage de points pour identifier les éléments architecturaux (murs, portes) et les meubles, produisant une structure JSON avec des boîtes englobantes orientées (OBB) qui servent de "échafaudages" (scaffolds) pour la génération.
B. Extraction et Mappage du Style
- Intention Utilisateur : Traitement multimodal (texte et images de référence) via un agent LLM (o4-mini) pour extraire des mots-clés de style structurés (catégorie, palette de couleurs, matériaux, atmosphère).
- Mappage : Un agent de mappage génère un tableau de transformation qui classe les composants en trois catégories : objets dans la scène, éléments de délimitation (murs/sols) et contexte environnemental (skybox).
- Contraintes : Le système impose quatre objectifs : cohérence fonctionnelle (un siège reste un siège), cohérence stylistique, cohérence environnementale et sécurité d'interaction (détection des risques de collision).
C. Génération de Contenu Multimodal
Le système génère les actifs visuels en parallèle pour réduire la latence perçue :
- Objets (In-Scene) : Une approche guidée par référence en trois étapes :
- Sélection de la "meilleure vue" (best-view frame) depuis la vidéo SLAM.
- Génération d'images stylisées 2D via GPT Image-1 en utilisant la vue sélectionnée comme référence géométrique.
- Conversion en modèles 3D légers via Tripo AI (v2.5).
- Éléments de Délimitation : Génération de textures PBR (RGB, normales, métallicité) pour les murs et sols, assurant un carrelage sans couture.
- Contexte Environnemental : Génération de skyboxes dynamiques (images + séquences vidéo avec audio) via Blockade Labs et Kling-v2-1.
D. Composition de la Scène
- Enregistrement Spatial : Les actifs générés sont alignés sur les échafaudages 3D physiques.
- Ajustement : Mise à l'échelle isotrope, optimisation de l'orientation (maximisation de l'IoU) et alignement sur le plan de sol pour garantir que les objets virtuels respectent les limites physiques.
3. Outil de Création Cross-Réalité
Pour gérer les erreurs de génération et offrir un contrôle fin, Roomify intègre un outil de création hybride :
- Mode MR (Mixed Reality) : L'utilisateur voit l'environnement réel avec des échafaudages filaires colorés superposés. Il peut manipuler les boîtes englobantes (déplacer, tourner, redimensionner), corriger les étiquettes sémantiques et superviser la génération en temps réel.
- Mode VR (Virtual Reality) : L'utilisateur passe en mode immersion totale pour prévisualiser le résultat final.
- Sécurité : Les objets présentant un risque de collision (identifiés lors du mappage) sont signalés en rouge et nécessitent une confirmation utilisateur avant l'entrée en VR.
4. Résultats des Études Utilisateurs
Deux études ont validé l'approche :
Étude 1 : Expérience Utilisateur (18 participants VR)
Comparaison entre Roomify, un mode Passthrough et une Scène Fully Virtual (sans meubles).
- Présence : Roomify a obtenu une amélioration de 63 % par rapport au Passthrough et de 26 % par rapport à la scène entièrement virtuelle.
- Conscience Spatiale : Roomify a maintenu une conscience spatiale significativement meilleure que la scène entièrement virtuelle, permettant une navigation sûre tout en étant immersif.
- Performance : Temps de tâche légèrement inférieur et moins d'incidents de collision que la scène virtuelle pure.
- Préférence : 78 % des participants ont préféré Roomify.
Étude 2 : Prototypage Créatif (8 professionnels du design)
Comparaison avec le Re-texturage IA et la génération Text-to-3D standard.
- Qualité de la Scène : Roomify a obtenu le score le plus élevé (5,95/7), surpassant le Re-texturage (3,41) et le Text-to-3D (4,50).
- Soutien à la Créativité : Score de 6,08/7. Les professionnels ont salué la capacité du système à comprendre la fonction des objets (ex: un frigo devient un tonneau de pirate mais reste un conteneur de stockage) tout en permettant des transformations esthétiques radicales.
- Utilité : Outil validé pour la conception intérieure, la communication client et le storyboarding.
5. Contributions Clés
- Pipeline de génération ancré spatialement : Une méthode qui équilibre flexibilité stylistique et préservation géométrique, utilisant la compréhension spatiale IA pour guider la génération de contenu.
- Outil d'auteur Cross-Réalité : Une interface combinant le ancrage spatial du MR pour l'édition précise et l'immersion du VR pour la prévisualisation, permettant un contrôle itératif.
- Validation Empirique : Preuve que la transformation ancrée spatialement améliore la présence sans sacrifier la sécurité ou la conscience de l'environnement physique, surpassant les approches existantes.
6. Signification et Limites
Signification : Roomify résout le compromis historique entre immersion et sécurité en intégrant l'environnement physique dans l'expérience narrative plutôt que de le masquer ou de le superposer. Cela ouvre la voie à des applications domestiques de VR (divertissement thématique, design d'intérieur) où l'utilisateur reste "dans l'histoire" tout en conservant son intuition spatiale.
Limites et Futur :
- Hallucinations Géométriques : Les modèles de génération actuels peuvent déformer les formes (ex: une table rectangulaire devient ronde), ce qui pose des risques de collision. L'outil de correction MR atténue ce problème, mais des modèles plus récents (comme Gemini 3 Pro Image mentionné dans le papier) montrent déjà une amélioration.
- Environnements Statiques : Le système suppose un mobilier statique et ne gère pas encore les interactions dynamiques complexes (portes, appareils) ou les entités mobiles (personnes, animaux) en temps réel.
- Échelle : Les études ont porté sur des utilisateurs individuels ; les scénarios multi-utilisateurs restent à explorer.
En conclusion, Roomify représente une avancée majeure vers des environnements virtuels qui ne remplacent pas notre réalité, mais qui l'enrichissent tout en préservant notre sécurité et notre ancrage physique.