ProCap: Projection-Aware Captioning for Spatial Augmented Reality

Each language version is independently generated for its own context, not a direct translation.

🎭 Le Grand Tour de Magie : Quand la réalité se mélange à l'illusion

Imaginez que vous êtes dans une pièce avec un tableau en bois. Soudain, un projecteur magique projette une image d'un surfeur sur le mur. Pour un humain, c'est facile à comprendre : « Il y a un mur en bois, et dessus, une image de surfeur. »

Mais pour une intelligence artificielle (une caméra connectée à un cerveau numérique), c'est un cauchemar. Elle voit une seule image confuse. Elle pourrait penser que le surfeur est un vrai dessin peint sur le bois, ou que le bois est une partie du surfeur. C'est ce que les chercheurs appellent l'ambiguïté virtuel-réel.

C'est là qu'intervient ProCap, un nouveau système intelligent conçu pour résoudre ce casse-tête.

🕵️‍♂️ Le Problème : Le Cerveau Confus

Les chercheurs ont remarqué que les intelligences artificielles actuelles (appelées "Modèles de Langage-Vision") sont très fortes pour décrire des photos normales. Mais dès qu'on projette une image sur un objet réel (ce qu'on appelle la Réalité Augmentée Spatiale), elles se trompent lourdement.

Exemple : Si vous projetez une image de vaches sur une table, l'IA pourrait dire : « Il y a des vaches en plastique sur la table » au lieu de dire : « Il y a une table sur laquelle est projetée une image de vaches. »
La conséquence : L'IA hallucine. Elle invente des détails qui n'existent pas ou ne comprend pas la différence entre l'objet physique et l'illusion lumineuse.

🛠️ La Solution : ProCap, le Détective à Deux Yeux

Pour régler ce problème, l'équipe a créé ProCap. Imaginez ProCap comme un détective qui porte deux lunettes différentes pour voir la même scène :

Lunette 1 (La réalité) : Elle regarde uniquement les objets physiques (la table, le mur, la chaise).
Lunette 2 (L'illusion) : Elle regarde uniquement ce qui est projeté par le projecteur (le surfeur, la voiture, l'animal).

Au lieu de tout mélanger dans une seule phrase confuse, ProCap génère deux descriptions séparées :

Description 1 : « C'est une vieille table en bois avec deux vases bleus. »
Description 2 : « On projette une photo d'un homme surfeur sur cette table. »

🧩 Comment ça marche ? (L'Analogie du Chef Cuisinier)

Pour comprendre comment ProCap fait cela, imaginons un chef cuisinier très organisé :

Le Tri (Segmentation) : Le chef reçoit un plateau avec un gâteau (la scène réelle) et de la confiture projetée dessus (l'image virtuelle). Au lieu de tout manger ensemble, il utilise un outil spécial pour découper visuellement le gâteau de la confiture. Il sait exactement où commence et où finit l'image projetée.
Le Mémorisation (Recherche) : Parfois, la confiture projetée est déformée (elle est étirée ou floue à cause de l'angle du projecteur). Le chef ne se fie pas à son œil qui voit flou. Il va consulter un livre de recettes parfait (une base de données) pour se souvenir à quoi ressemble vraiment le surfeur ou la vache, même si l'image projetée est tordue.
Le Service (Double Description) : Enfin, il sert deux plats distincts à la table : un plat pour décrire la table, et un autre pour décrire l'image projetée.

📚 La Grande Bibliothèque : Le Dataset RGBP

Pour entraîner ce "chef cuisinier", les chercheurs ont dû créer une bibliothèque géante appelée RGBP.

C'est la première bibliothèque au monde dédiée à ce type de mélange.
Elle contient 180 000 exemples de projections sur des objets réels (tables, murs, chaises, etc.).
Chaque exemple est étiqueté avec précision : "Voici l'objet réel", "Voici l'image projetée", et "Voici la description parfaite pour chacun".

C'est comme si on avait appris à un enfant à distinguer un vrai chien d'un dessin de chien projeté sur un mur, en lui montrant des milliers d'exemples.

🚀 Pourquoi c'est important ?

Aujourd'hui, la réalité augmentée est souvent utilisée pour des spectacles ou du design. Mais pour le futur, nous voulons des robots intelligents ou des assistants virtuels qui peuvent interagir avec ces environnements.

Sans ProCap : Un robot pourrait essayer de "saisir" un surfeur projeté sur une table, ce qui est impossible.
Avec ProCap : Le robot comprend : « Ah, c'est juste une lumière sur la table. Je peux poser mon café dessus sans renverser le surfeur ! »

En Résumé

ProCap est une nouvelle technologie qui apprend aux ordinateurs à ne plus confondre la réalité et les projections lumineuses. En séparant le "vrai" du "projeté" et en utilisant une bibliothèque de connaissances pour corriger les images floues, elle permet aux machines de comprendre le monde complexe où nous vivrons bientôt : un monde où la lumière et les objets sont intimement mélangés.

C'est un pas de géant pour rendre la réalité augmentée non seulement belle à voir, mais aussi intelligente à comprendre.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

La Réalité Augmentée Spatiale (SAR) superpose du contenu numérique directement sur des scènes physiques via des projecteurs, sans nécessiter de casques. Cependant, pour que les systèmes SAR puissent interagir intelligemment (raisonnement, réponse aux requêtes), ils doivent pouvoir distinguer sémantiquement la scène physique du contenu projeté.

Les modèles Vision-Language (VLM) standards échouent face à ce défi en raison de trois lacunes majeures :

Ambiguïté virtuel-physique : Les VLMs traitent l'image comme une entité unique, confondant souvent les objets projetés avec des objets physiques réels (ex: interpréter un surfeur projeté sur un coussin comme une image imprimée sur le coussin).
Dégradation perceptive : Le contenu projeté subit des distorsions géométriques et photométriques (angles, matériaux, lumière ambiante) qui rendent la reconnaissance par les VLMs standards peu fiable et sujette à des hallucinations.
Absence de benchmark sémantique : Les datasets existants se concentrent sur des tâches de bas niveau (calibration, localisation) et ne possèdent pas d'annotations sémantiques décomposées pour évaluer séparément la scène et la projection.

2. Méthodologie : Le Framework ProCap

ProCap est un cadre novateur conçu pour découpler le contenu projeté de la scène physique. Il repose sur un pipeline en deux étapes et une nouvelle approche d'évaluation.

A. Architecture du modèle

Segmentation Automatique (Isolation des couches) :
- Un module de segmentation automatique utilise un encodeur visuel (ViT-g) pour générer un masque binaire grossier ( $I_m$ ) qui identifie les zones éclairées par le projecteur.
- Cela permet d'isoler la région de projection de la scène physique, éliminant l'ambiguïté spatiale dès le début.
Extraction de Caractéristiques et Pooling de Masque :
- Les caractéristiques visuelles sont extraites et affinées. Un mécanisme de Mask Pooling sépare les caractéristiques de la scène ( $Z_s$ ) de celles de la projection ( $Z_p$ ) en utilisant le masque généré.
Récupération de Contexte Sémantique (Region-Aware Retrieval) :
- Pour contrer les distorsions de la projection, le système utilise une base de connaissances externe (dérivée du dataset LVIS).
- Les caractéristiques de la projection sont utilisées pour récupérer les noms d'objets les plus probables dans cette base de connaissances. Ce contexte sémantique « propre » est fusionné avec les caractéristiques visuelles déformées pour guider le modèle.
Génération de Double Légende (Dual-Captioning) :
- Le modèle utilise des Q-Formers spécialisés (un pour la scène, un pour la projection) et des tokens de tâche spécifiques ([SCENE] et [PROJ]).
- Un décodeur LLM (frozen) génère deux légendes distinctes : une pour la scène physique ( $C_s$ ) et une pour le contenu projeté ( $C_p$ ).

B. Le Dataset RGBP (RGB + Projections)

Pour entraîner et évaluer ce système, les auteurs ont créé le premier dataset à grande échelle dédié à la SAR :

Composition : 65 scènes physiques diverses et plus de 180 000 projections.
Annotations : Chaque image possède un masque de segmentation binaire et deux légendes de référence (Ground Truth) distinctes (une pour la scène, une pour la projection).
Variété : Les données couvrent divers éclairages, géométries de surfaces (planes, courbes) et types de distorsions.

C. Protocole d'Évaluation

Les auteurs proposent un protocole d'évaluation à double légende utilisant des tokens de tâche. Cela permet de mesurer indépendamment la performance du modèle sur la description de la scène physique et sur celle du contenu projeté, évitant ainsi les biais des métriques globales (comme BLEU ou CIDEr standard) qui masquent les erreurs de confusion.

3. Résultats Principaux

Les expériences menées sur le dataset RGBP montrent des performances supérieures par rapport aux VLMs de l'état de l'art (FastVLM, Qwen3-VL) :

Sur les scènes vues (Seen Scenes) :
- Description de scène : ProCap surpasse massivement les bases (ex: CIDEr de 70,27 contre 2,38 pour Qwen3-VL-8B sur COCO), prouvant sa capacité à ignorer le contenu projeté.
- Description de projection : Les modèles standards échouent presque totalement (CIDEr < 12) en raison de l'ambiguïté. ProCap, grâce à la récupération sémantique, atteint des scores bien plus élevés (CIDEr > 78 pour Vicuna-1.5-7B).
Généralisation (Scènes non vues) :
- ProCap démontre une bonne robustesse sur des scènes et des projections jamais vues durant l'entraînement, confirmant l'efficacité du mécanisme de récupération sémantique pour interpréter des contenus dégradés.
Études d'ablation :
- La suppression du module de segmentation ou de la récupération sémantique entraîne une chute drastique des performances, confirmant que ces deux composants sont essentiels pour résoudre l'ambiguïté virtuel-physique.

4. Contributions Clés

Framework ProCap : Une architecture en deux étapes (segmentation + récupération sémantique) qui résout l'ambiguïté virtuel-physique en traitant la SAR comme une composition de couches distinctes.
Dataset RGBP : Le premier benchmark sémantique à grande échelle pour la SAR, fournissant des annotations décomposées (masques + doubles légendes) pour passer de la calibration géométrique à la compréhension sémantique.
Protocole d'évaluation Dual-Captioning : Une nouvelle méthode d'évaluation utilisant des tokens spécifiques pour évaluer séparément la compréhension de la scène et de la projection, comblant le vide des métriques actuelles.

5. Signification et Impact

Ce travail marque une étape cruciale pour l'évolution de la SAR :

Transition vers l'agent autonome : Il permet aux systèmes SAR de passer de simples affichages visuels à des agents intelligents capables de raisonner sur leur environnement mixte (physique + virtuel).
Fondation pour le MoE (Mixture of Experts) : ProCap est conçu pour être intégré comme un module expert dans des architectures de VLM plus larges, permettant de gérer spécifiquement les ambiguïtés de la réalité augmentée sans affecter les capacités générales du modèle.
Synthèse de données : La structure du dataset RGBP ouvre la voie à la génération de données SAR réalistes via des instructions naturelles, facilitant la simulation et le développement d'applications interactives.

En résumé, ProCap établit une base sémantique robuste pour la recherche future en SAR, en résolvant le problème fondamental de la confusion entre le réel et le virtuel dans les images capturées.