ProCap: Projection-Aware Captioning for Spatial Augmented Reality

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Der verwirrte Fotograf

Stell dir vor, du hast einen sehr schlauen Fotografen (eine künstliche Intelligenz), der alles auf Bildern beschreiben kann. Normalerweise ist er super: Er sieht einen Tisch, eine Vase und ein Bild an der Wand und sagt: „Hier ist ein Tisch mit einer Vase und einem Bild."

Aber jetzt kommt Spatial Augmented Reality (SAR) ins Spiel. Das ist wie ein magischer Projektor, der digitale Bilder direkt auf echte Gegenstände wirft.

Du hast einen echten Holztisch.
Der Projektor wirft ein Bild eines Surfers auf einer Welle direkt auf den Tisch.

Für das menschliche Auge ist das cool: Man sieht den echten Tisch und den Surfer darauf. Aber für den schlauen Fotografen (die KI) ist das eine Katastrophe. Er sieht nur ein einziges, verworrenes Bild. Er denkt vielleicht: „Oh, auf dem Tisch liegt ein echtes, gedrucktes Foto von einem Surfer" oder er verwechselt die Wellen mit dem Holz des Tisches. Er vermischt die echte Welt mit der digitalen Welt und erzählt Unsinn.

Das ist das Problem, das die Forscher lösen wollten: Wie trennt man die echte Welt von der projizierten Welt, damit die KI nicht verrückt wird?

Die Lösung: ProCap – Der „Zwei-Ohren"-Ansatz

Die Forscher haben ein neues System namens ProCap entwickelt. Man kann es sich wie einen Detektiv vorstellen, der zwei verschiedene Ohren hat, um zwei verschiedene Dinge gleichzeitig zu hören.

Hier ist, wie es funktioniert, Schritt für Schritt:

1. Die Trennung (Der Schere-Schnitt)

Zuerst schaut sich ProCap das Bild an und fragt sich: „Was ist hier echt und was ist nur Licht?"
Es nutzt eine Art „digitalen Schere", um das projizierte Bild (den Surfer) vom echten Hintergrund (dem Tisch) zu trennen. Es erstellt eine Maske, die genau markiert, wo das Licht hinfällt.

Analogie: Stell dir vor, du legst eine Schablone über ein Bild. Alles, was durch die Schablone sieht, ist das „Projektions-Bild". Alles drumherum ist die „echte Welt".

2. Die Hilfe von außen (Das Wörterbuch)

Projizierte Bilder sehen oft verzerrt aus (wie wenn man ein Bild auf einen Ball wirft). Die KI ist verwirrt, weil das Bild unscharf oder schief ist.
ProCap holt sich Hilfe von einem riesigen, sauberen Wörterbuch (einer Wissensdatenbank).

Analogie: Stell dir vor, du siehst ein schiefes, verpixeltes Bild von einem Hund. Du bist unsicher. Aber ProCap fragt ein riesiges Lexikon: „Hey, was könnte das sein?" Das Lexikon sagt: „Das ist ein Hund." ProCap nutzt diese klare Information, um das verzerrte Bild im Kopf zu korrigieren. So weiß die KI sicher, dass es ein Hund ist, auch wenn das projizierte Bild krumm aussieht.

3. Die zwei Antworten (Der Doppel-Reporter)

Am Ende gibt ProCap nicht eine Antwort, sondern zwei getrennte Beschreibungen:

Für die echte Welt: „Hier ist ein alter Holztisch mit zwei blauen Vasen." (Völlig ignoriert den Surfer).
Für die Projektion: „Hier ist ein Bild von einem Surfer auf einer Welle." (Völlig ignoriert den Tisch).

Warum ist das wichtig? (Die neue Bibliothek)

Die Forscher haben gemerkt, dass es bisher keine gute „Übungsbibliothek" für solche Szenen gab. Alle KI-Modelle wurden nur mit normalen Fotos trainiert, wo es keine Projektionen gibt.

Deshalb haben sie RGBP erschaffen:

Das ist eine riesige Sammlung von über 180.000 Beispielen.
Sie zeigen echte Objekte (wie Tische, Stühle, Wände) mit verschiedenen digitalen Bildern darauf.
Jedes Bild hat zwei genaue Beschreibungen (eine für das Objekt, eine für das Lichtbild).

Das ist wie ein neues Lehrbuch für KI, das ihr beibringt: „Hey, nicht alles, was du siehst, ist ein physisches Objekt! Manche Dinge sind nur Licht."

Zusammenfassung in einem Satz

ProCap ist wie ein kluger Übersetzer, der gelernt hat, zwischen der echten Welt und dem digitalen Lichtbild zu unterscheiden, damit eine KI nicht mehr verwirrt ist, wenn ein Projektor Dinge auf echte Möbel wirft.

Warum das cool ist:
In Zukunft könnten Roboter oder intelligente Räume so etwas verstehen. Stell dir vor, du sprichst mit einem Roboter in einem Raum, in dem Wände als Bildschirm genutzt werden. Der Roboter könnte dann genau sagen: „Ich sehe den echten Stuhl, aber das Bild des Tigers auf der Wand ist nur eine Projektion." Das macht die Interaktion mit unserer Umgebung viel sicherer und intelligenter.

Each language version is independently generated for its own context, not a direct translation.

Titel: ProCap: Projektionsbewusstes Captioning für Spatial Augmented Reality (SAR)

Veröffentlicht bei: IEEE Conference on Virtual Reality and 3D User Interfaces (VR) 2026

1. Problemstellung

Spatial Augmented Reality (SAR) projiziert digitale Inhalte direkt auf physische Oberflächen, um immersive Erlebnisse ohne Head-Mounted Displays zu schaffen. Für intelligente Interaktionen (z. B. semantisches Verständnis oder Beantwortung von Benutzeranfragen) müssen SAR-Systeme zwischen dem physischen Szeneninhalt und dem projizierten virtuellen Inhalt unterscheiden können.

Herausforderungen für bestehende Vision-Language-Modelle (VLMs) in SAR-Umgebungen:

Virtual-Physical-Ambiguity (Virtuell-Physische Ambiguität): Standard-VLMs gehen davon aus, dass alle Objekte in einem Bild physisch vorhanden sind. Sie vermischen oft projizierte Inhalte (z. B. einen surfernden Mann auf einer Wand) mit der realen Umgebung, was zu Halluzinationen und falschen Beschreibungen führt.
Wahrnehmungsverschlechterung durch Projektion: Durch geometrische Verzerrungen, Beleuchtungsbedingungen, Materialeigenschaften der Oberfläche und komplexe Formen wird die Bildqualität der Projektion beeinträchtigt. Dies führt dazu, dass Standard-VLMs keine zuverlässigen Beschreibungen generieren können.
Fehlende Benchmark-Datensätze: Es existieren keine großen, semantisch annotierten Datensätze für SAR, die eine getrennte Bewertung von physischer Szene und Projektion ermöglichen. Bestehende Metriken (wie BLEU oder CIDEr) bewerten das gesamte Bild als Einheit und können nicht unterscheiden, ob das Modell die Szene oder die Projektion korrekt verstanden hat.

2. Methodik: Das ProCap-Framework

ProCap ist ein neuartiges Framework, das den SAR-Szeneninhalt explizit entkoppelt, indem es eine zweistufige Pipeline verwendet, um virtuelle und physische Schichten zu trennen und präzise Beschreibungen (Captions) für beide zu generieren.

A. RGBP-Datensatz (RGB + Projections)

Als Grundlage dient der erste groß angelegte SAR-Semantik-Datensatz:

Umfang: 65 diverse physische Szenen und über 180.000 Projektionen.
Annotation: Enthält dichte, entkoppelte Ground-Truth-Annotationen, darunter binäre Segmentierungsmasken für Projektionen und zwei separate Captions pro Bild (eine für die physische Szene, eine für den projizierten Inhalt).
Vielfalt: Abdeckung verschiedener Lichtverhältnisse, Geometrien (planar, schwach gekrümmt, stark gekrümmt) und Projektionsverzerrungen.

B. Architektur von ProCap

Das Framework besteht aus drei Hauptkomponenten:

Automatische Segmentierung (Feature Extraction & Segmentation):
- Ein eingefrorener Vision-Encoder (CLIP ViT-g) extrahiert grobe Merkmale aus dem Eingabebild.
- Ein Segmentierungsmodul generiert eine grobe binäre Maske ( $I_m$ ), die die projizierten Bereiche vom physischen Hintergrund trennt. Dies dient als räumlicher Regularisator, um Rauschen an den Rändern zu ignorieren und eine stabile Trennung zu gewährleisten.
Regionsbewusste Suche (Region-Aware Retrieval):
- Um Verzerrungen in der Projektion zu kompensieren, werden die Merkmale der projizierten Bereiche extrahiert.
- Anstatt sich nur auf die verzerrten Pixel zu verlassen, nutzt ProCap eine externe semantische Wissensdatenbank (basierend auf LVIS-Daten).
- Ein Retrieval-Mechanismus sucht nach den ähnlichsten Objektbezeichnungen (semantischer Kontext) für die verzerrten Merkmale. Diese „sauberen" semantischen Signale werden genutzt, um die VLM-Eingabe zu bereinigen und Halluzinationen zu reduzieren.
Dual-Captioning (Entkoppelte Generierung):
- Zwei spezialisierte Q-Former-Module verarbeiten getrennt die Merkmale der physischen Szene und der Projektion.
- Die Merkmale der Projektion werden mit dem extrahierten semantischen Kontext fusioniert.
- Ein eingefrorener LLM-Decoder (z. B. Vicuna, OpenLLaMA) generiert zwei separate Captions, gesteuert durch spezifische Tokens ([SCENE] und [PROJ]), um die Aufgaben strikt zu trennen.

C. Trainingsverlust

Das Modell wird end-to-end mit einem multi-task Verlust trainiert, der die Captioning-Verluste für Szene und Projektion sowie den Segmentierungsverlust (Binary Cross-Entropy) gewichtet minimiert.

3. Schlüsselbeiträge

ProCap-Framework: Ein Zwei-Phasen-Pipeline, die virtuelle-physikalische Ambiguität durch automatische Segmentierung und regionsbewusste semantische Suche löst.
RGBP-Datensatz: Der erste groß angelegte SAR-Semantik-Benchmark mit 180.000+ entkoppelten Annotationen, der den Fokus von niedrigen Kalibrierungsaufgaben auf hohes semantisches Verständnis verschiebt.
Dual-Captioning-Evaluierungsprotokoll: Eine neue Evaluierungsmethode, die die Leistung des Modells bei der Beschreibung der physischen Szene und der Projektion unabhängig voneinander misst, um Kontextverwirrungen zu vermeiden.

4. Ergebnisse

Die Experimente wurden auf dem RGBP-Benchmark durchgeführt und verglichen ProCap mit State-of-the-Art-VLMs (wie FastVLM und Qwen3-VL).

Leistung auf gesehenen Szenen: ProCap-Varianten übertreffen Baseline-Modelle signifikant.
- Bei der Szene-Captioning-Aufgabe erzielte ProCap (z. B. mit TinyLlama-1.1B) CIDEr-Scores von über 70 (auf COCO), während Baselines nur Werte um 2–3 erreichten.
- Bei der Projektions-Captioning-Aufgabe zeigte sich der größte Gewinn: Ein feinabgestimmtes Qwen3-VL-8B mit RGBP-Daten erreichte einen CIDEr-Score von 127,58 (auf COCO), was einer fast 11-fachen Verbesserung gegenüber dem Basis-Modell entspricht.
Generalisierung auf ungesehene Szenen: ProCap zeigt robuste Generalisierungsfähigkeiten, auch bei völlig neuen physischen Umgebungen und Projektionsinhalten. Die regionsbewusste Suche hilft, auch bei unbekannten Projektionen korrekte semantische Begriffe zu finden.
Qualitative Analyse: Während Standard-VLMs oft projizierte Objekte (z. B. einen Surfer auf einer Wand) als physische Objekte missverstehen, identifiziert ProCap diese korrekt als Projektionen und beschreibt die reale Umgebung (z. B. eine Holzplatte) separat.

5. Bedeutung und Ausblick

Semantisches Fundament: ProCap legt den Grundstein für autonome, kontextbewusste SAR-Agenten, die komplexe Umgebungen verstehen und darauf reagieren können.
Architekturelle Integration: Das Framework eignet sich als spezialisierter „Expert"-Modul in Mixture-of-Experts (MoE) Architekturen, um die Halluzinationsrate in SAR-Szenarien zu senken.
Generative Anwendungen: Durch die entkoppelten Annotationen ermöglicht der RGBP-Datensatz das Training von generativen Modellen, die SAR-Szenen basierend auf natürlichen Sprachanweisungen synthetisieren können (z. B. zur Simulation oder zum Design).
Zukunft: Die Arbeit markiert einen Übergang von rein geometrischer Kalibrierung in der SAR hin zu hochrangigem multimodalem Schlussfolgern.

Zusammenfassend adressiert ProCap die kritische Lücke zwischen der visuellen Wahrnehmung von SAR-Systemen und dem semantischen Verständnis durch VLMs, indem es die physikalische und die virtuelle Welt systematisch trennt und für die KI verständlich macht.