ProCap: Projection-Aware Captioning for Spatial Augmented Reality

Each language version is independently generated for its own context, not a direct translation.

ProCap: De slimme vertaler voor gemengde werelden

Stel je voor dat je een projector op een houten tafel richt. Je projecteert een levendige afbeelding van een surfer die een golf rijd. Voor een mens is het duidelijk: "Dat is een houten tafel, en daarop zie ik een projectie van een surfer." Maar voor een standaard kunstmatige intelligentie (een AI) is dit een enorme hoofdpijn. Die AI denkt vaak dat de surfer écht op de tafel staat, of dat de tafel een print heeft. Het kan het echte object niet onderscheiden van het virtuele licht.

Dit is het probleem dat ProCap oplost. Het is een nieuwe slimme tool die ervoor zorgt dat computers precies weten wat "echt" is en wat "projectie" is in Augmented Reality (AR).

Hier is hoe het werkt, vertaald in alledaagse taal:

1. Het Probleem: De "Geest in de Machine"

Stel je voor dat je een foto maakt van een kamer met een projector. De AI kijkt naar de foto en ziet een wirwar van licht en objecten. Omdat AI's getraind zijn op gewone foto's, denken ze dat alles wat ze zien, echt is.

De verwarring: Als er een surfer op een kussen wordt geprojecteerd, denkt de AI misschien: "Oh, er ligt een kussen met een gedrukte foto van een surfer."
Het gevolg: De AI raakt in de war en kan geen goede vragen beantwoorden over de echte wereld, omdat ze de virtuele "geest" voor echt leven aanziet.

2. De Oplossing: ProCap (De Scharnierende Chef)

ProCap is als een zeer ervaren chef-kok die twee verschillende gerechten op één bord ziet, maar ze toch perfect kan scheiden. Het doet dit in twee stappen:

Stap 1: De "Scheidingstafel" (Segmentatie)
Eerst kijkt ProCap naar de foto en zegt: "Stop! Laten we even kijken wat er echt op de tafel ligt en wat er op de tafel wordt geprojecteerd."
Het gebruikt een slimme techniek om een onzichtbare "masker" te tekenen rondom het geprojecteerde licht. Het is alsof je een transparante plastic sheet over de surfer legt en zegt: "Dit is de projectie. Alles daarbuiten is de echte tafel." Hierdoor ziet de AI de twee werelden niet meer als één rommelige brij, maar als twee aparte lagen.

Stap 2: De "Gedachtenkracht" (Zoeken in een bibliotheek)
Geprojecteerde beelden zijn vaak vervormd door de hoek van de projector of de vorm van het object (bijvoorbeeld op een gebogen stoel). De AI ziet dan een vage, vervormde vlek.
ProCap heeft een trucje: het kijkt niet alleen naar de vage vlek, maar gaat direct naar een enorme digitale bibliotheek (een kennisbank) om te zoeken: "Welk object zou dit kunnen zijn?"

Zie je een vage, witte vlek op een stoel? De bibliotheek zegt: "Ah, dat is waarschijnlijk een kat."
Zie je een vage golf? De bibliotheek zegt: "Dat is een surfer."
Door deze "ware naam" op te halen, kan de AI een perfecte beschrijving geven, zelfs als het beeld er vage uitziet.

3. De Nieuwe Test: De Dubbele Rapportkaart

Vroeger kregen AI's één cijfer voor hun beschrijving van een foto. Als ze de tafel goed beschreven maar de surfer verkeerd, kregen ze nog steeds een goed cijfer.
ProCap introduceert een nieuwe manier van testen: De Dubbele Rapportkaart.

Rapport A: Hoe goed beschrijf je de echte tafel?
Rapport B: Hoe goed beschrijf je de projectie?
Zo weten we precies waar de AI goed in is en waar hij nog moet leren.

4. De Grote Bibliotheek (RGBP Dataset)

Om deze AI te trainen, hebben de onderzoekers een gigantische nieuwe verzameling foto's gemaakt, genaamd RGBP.

Stel je voor dat je 65 verschillende kamers hebt (houten tafels, stoelen, muren).
In elke kamer projecteer je duizenden verschillende beelden (surfers, auto's, dieren).
Voor elke foto hebben ze twee beschrijvingen geschreven: één voor de kamer en één voor de projectie.
Dit is de eerste keer dat er zo'n grote "schoolboeken" zijn voor dit specifieke probleem.

Waarom is dit belangrijk?

In de toekomst willen we dat robots en slimme systemen in onze huizen of fabrieken kunnen werken met projecties. Ze moeten kunnen zeggen: "Ik zie dat je een blauwe vaas hebt, en dat je er een projectie van een regenboog op hebt gezet."
Zonder ProCap zou de robot denken dat de regenboog een echte, fysieke regenboog is die uit de vaas komt, en zou hij in de war raken. Met ProCap begrijpt de machine de wereld zoals wij dat doen: met een duidelijke scheiding tussen wat er is en wat er wordt getoond.

Kortom: ProCap is de bril die de computer opzet om te zien wat echt is en wat virtueel, zodat hij niet meer in de war raakt in onze gemengde werelden.

Each language version is independently generated for its own context, not a direct translation.

Titel: ProCap: Projection-Aware Captioning for Spatial Augmented Reality

Conferentie: IEEE VR 2026

1. Het Probleem: Virtueel-Physische Ambiguïteit in SAR

Spatial Augmented Reality (SAR) projecteert digitale content direct op fysieke objecten en omgevingen zonder head-mounted displays. Hoewel dit visueel aantrekkelijk is, ontstaat er een fundamenteel probleem voor kunstmatige intelligentie: virtueel-physische ambiguïteit.

Verwarring door standaard VLM's: Standaard Vision Language Models (VLM's) zijn getraind op natuurlijke afbeeldingen en gaan ervan uit dat elk object in een afbeelding fysiek aanwezig is. In SAR-scenario's zien ze echter een samengestelde afbeelding van een fysieke scène en een projectie. Zonder onderscheidend vermogen genereren deze modellen "gemengde" beschrijvingen (bijv. ze beschrijven een geprojecteerde surfer als een fysieke foto op een muur).
Perceptuele degradatie: Projecties lijden onder geometrische en fotometrische vervormingen door de hoek van de projector, het oppervlak van het object, omgevingslicht en reflecties. Dit maakt de visuele input van de projectie onbetrouwbaar voor standaard VLM's, wat leidt tot hallucinaties.
Gebrek aan benchmarks: Er bestond geen groot, semantisch geannoteerd dataset om modellen te trainen om SAR-scènes te begrijpen. Bestaande datasets (zoals COCO) onderscheiden niet tussen de fysieke achtergrond en de geprojecteerde laag.

2. Methodologie: Het ProCap Framework

ProCap is een nieuw raamwerk dat de fysieke scène en de geprojecteerde laag expliciet ontkoppelt. Het werkt in een tweestaps-pijplijn:

A. Automatische Segmentatie (Fase 1)

Om de twee lagen te scheiden, gebruikt ProCap een segmentatiemodule:

Een bevroren CLIP ViT-g encoder extraheren ruwe features uit de ingangsafbeelding.
Een segmentatiemodule genereert een ruwe binaire masker ( $I_m$ ) dat de geprojecteerde gebieden identificeert van de fysieke achtergrond.
In plaats van te proberen perfecte randen te vinden (wat lastig is bij vervorming), focust het op een stabiele ruimtelijke prior om de projectiezone te isoleren.

B. Region-Aware Retrieval en Dual-Captioning (Fase 2)

Om de vervormde projectie-inhoud correct te benoemen, introduceert ProCap een zoekmechanisme:

Feature Decoupling: De geïsoleerde projectie-features worden verrijkt via een "Mask Pooling" operatie.
Region-Aware Retrieval: Omdat de geprojecteerde afbeelding vervormd is, zoekt het systeem in een externe semantische kennisbank (gebaseerd op het LVIS-dataset) naar de juiste objectnamen. Het vergelijkt de vervormde projectie-features met schone visuele embeddings uit de kennisbank om de meest waarschijnlijke objectnamen te vinden.
Dual-Captioning: Het model genereert twee aparte beschrijvingen:
1. Scene Caption: Beschrijft de fysieke omgeving (meubilair, objecten).
2. Projection Caption: Beschrijft de geprojecteerde content (gebaseerd op de geretrieveerde semantische context).
Task-Specific Tokens: Het model gebruikt speciale tokens (bijv. [SCENE] en [PROJ]) om de taak voor de Large Language Model (LLM) decoder te specificeren.

3. Belangrijkste Bijdragen

Het ProCap Framework: Een innovatieve architectuur die virtuele en fysieke lagen ontkoppelt via automatische segmentatie en gebiedsgerichte semantische zoekopdrachten, waardoor hallucinaties worden voorkomen.
De RGBP Dataset (RGB + Projections): De eerste grote schaal SAR-semantische benchmark.
- Bevat 65 diverse fysieke scènes.
- Omvat meer dan 180.000 projecties.
- Biedt gedecoupeerde ground-truth annotaties: aparte maskers en beschrijvingen voor zowel de scène als de projectie.
Dual-Captioning Evaluatieprotocol: Een nieuwe evaluatiemethode die de prestaties van het model onafhankelijk meet voor de fysieke scène en de projectie. Dit voorkomt dat een hoge score in de ene taak een falen in de andere taak maskeert.

4. Resultaten

De experimenten werden uitgevoerd op de RGBP dataset, waarbij ProCap werd vergeleken met state-of-the-art VLM's (zoals FastVLM en Qwen3-VL).

Prestatieverbetering: ProCap varianten presteerden aanzienlijk beter dan off-the-shelf baselines.
- Voor scène-beschrijving: ProCap TinyLlama-1.1B bereikte een CIDEr-score van 70.27 op de COCO-testset, vergeleken met ~2.38 voor de beste standaard VLM.
- Voor projectie-beschrijving: De prestaties waren nog dramatischer. De fine-tuned Qwen3-VL-8B met RGBP-data bereikte een CIDEr van 127.58, terwijl de basismodellen nauwelijks boven de 11.56 kwamen. Dit toont aan dat standaard modellen de projectie volledig niet begrijpen.
Generalisatie: Het model toonde sterke generalisatie naar onbekende scènes (unseen scenes) en onbekende projectie-inhoud, hoewel er nog een prestatiekloof blijft bestaan bij complexe belichting en materialen.
Ablatie Studies:
- Het verwijderen van de retrieval-module leidde tot een drastische daling in prestaties (CIDEr daalde van 86.26 naar 67.98), wat aantoont dat externe kennis essentieel is om vervormde projecties te interpreteren.
- De dual-captioning strategie bleek superieur aan modellen die alleen op één taak waren getraind, zonder dat dit ten koste ging van de prestaties.

5. Betekenis en Toekomstperspectief

Dit werk is een mijlpaal voor de evolutie van SAR-systemen:

Van Kalibratie naar Semantisch Begrip: Het verlegt de focus van SAR-onderzoek van lage-niveau taken (zoals geometrische kalibratie en compensatie) naar hoge-niveau semantisch redeneren.
Agenten voor SAR: Het biedt de basis voor autonome SAR-agenten die kunnen redeneren over wat er in de ruimte gebeurt en kunnen reageren op gebruikersvragen, waarbij ze weten wat fysiek is en wat virtueel.
Generatieve Toepassingen: De RGBP dataset kan worden gebruikt om generatieve modellen te trainen voor het synthetiseren van realistische SAR-scènes op basis van tekstuele instructies.
MoE Architecturen: ProCap kan fungeren als een gespecialiseerde "expert" binnen Mixture-of-Experts (MoE) systemen, waarbij het routeringssysteem specifieke SAR-taken toewijst aan ProCap om hallucinaties te voorkomen.

Conclusie: ProCap lost het fundamentele probleem van virtueel-physische verwarring op in SAR door een gespecialiseerde architectuur en een nieuw dataset te introduceren, waardoor robuust semantisch begrip van gemengde realiteit mogelijk wordt.