Thinking with Spatial Code for Physical-World Video Reasoning

Each language version is independently generated for its own context, not a direct translation.

Denken met een "Ruimtelijke Code": Hoe computers eindelijk de wereld in 3D gaan begrijpen

Stel je voor dat je een video bekijkt van een drukke keuken. Een mens ziet niet alleen een reeks beelden die voorbijkomen; je ziet een samenhangende wereld. Je weet dat de koelkast achter de tafel staat, dat de wasmachine naast de afwasmachine staat, en dat als je je omdraait, de tafel nu aan je linkerkant is. Je hersenen bouwen onbewust een 3D-model van de ruimte op.

Computers, en zelfs de slimste AI's van vandaag, zien dat niet zo. Voor hen is een video vaak gewoon een stroom van platte, 2D-foto's. Ze kunnen beschrijven wat ze zien ("een witte wasmachine"), maar ze worstelen om te begrijpen waar die dingen precies staan, hoe ze georiënteerd zijn, of hoe ver ze van elkaar af zijn. Het is alsof ze een boek lezen in een taal die ze niet helemaal beheersen: ze herkennen de woorden, maar missen de diepte van het verhaal.

De auteurs van dit onderzoek (van o.a. Johns Hopkins en Stanford) hebben een oplossing bedacht die ze "Thinking with Spatial Code" noemen. Laten we dit uitleggen met een paar creatieve vergelijkingen.

1. Het probleem: De "Platte Foto"-valkuil

Stel je voor dat je een kunstwerk bekijkt. Een traditionele AI kijkt er naar en zegt: "Ik zie een blauwe vlek en een rode vlek." Maar als je vraagt: "Is de blauwe vlek links of rechts van de rode?", raakt de AI in de war. Het kijkt naar de pixels, niet naar de ruimte. Het is alsof je iemand vraagt om een route te plannen in een stad, maar je geeft hen alleen maar een lijst met kleuren van de gebouwen, zonder een plattegrond.

Zelfs de duurste en grootste AI-modellen (zoals GPT-5 of Gemini) lopen hier vast. Ze zijn heel goed in taal, maar slecht in het bouwen van een 3D-geheugen van wat ze zien.

2. De oplossing: Van Video naar "Bouwplaat"

De onderzoekers zeggen: "Wacht even, laten we de computer niet dwingen om direct te 'denken' over de video. Laten we eerst de video vertalen naar iets dat de computer wél begrijpt: een 3D-bouwplaat."

Dit is hun nieuwe methode:

Stap 1: De Vertaler (De Ruimtelijke Encoder)
Er is een speciaal onderdeel van het systeem dat de video bekijkt. In plaats van alleen naar kleuren te kijken, kijkt het naar de geometrie. Het haalt uit de video een lijst met objecten en geeft elk object een 3D-bouwkaart.
- Vergelijking: Stel je voor dat je een filmkijker hebt die elke keer dat er een object in beeld komt, een digitale bouwplaat maakt. Voor de tafel zegt hij: "Dit is een tafel, hij staat op coördinaat X, Y, Z, is 1 meter breed en staat schuin."
- Dit resulteert in een "Ruimtelijke Code": een lijst van objecten met hun exacte positie, grootte en draaiing in de ruimte. Het is alsof je de video omzet in een Excel-sheet met meetgegevens, in plaats van een reeks foto's.
Stap 2: De Denker (De Taalmodel)
Nu komt de echte AI (het taalmodel) aan het werk. Maar in plaats van naar de video te kijken, kijkt deze naar die Ruimtelijke Code.
- Vergelijking: Het is alsof je een detective (de AI) een dossier geeft. In plaats van dat de detective zelf naar de plaats delict moet gaan en alles moet raden, krijgt hij een perfect gedetailleerd rapport met alle afstanden en hoeken. De detective kan nu logisch redeneren: "Als de wasmachine op punt A staat en de tafel op punt B, en ik sta bij de afwasmachine... dan is de wasmachine rechts van me."

3. De "Leraar" die niet alleen kijkt naar het antwoord

Om de AI nog slimmer te maken, hebben de onderzoekers een nieuwe manier van leren bedacht met beloningen (Reinforcement Learning).

Stel je voor dat je een kind leert wiskunde. Als het kind het juiste antwoord geeft, maar de weg ernaartoe was raar of fout, geven we het niet direct een A. We kijken naar de reden.

De oude manier: "Antwoord: Ja. Goede score!" (Zelfs als het kind het antwoord had geraden).
De nieuwe manier (Ruimtelijke Rubriek): De AI krijgt punten als het logisch redeneert.
- Punt: "Je hebt de coördinaten van de tafel en de wasmachine correct vergeleken." (+1 punt)
- Minpunt: "Je hebt vergeten om rekening te houden met de kijkrichting van de waarnemer." (-1 punt)

Dit dwingt de AI om echt na te denken over de ruimte, in plaats van te gokken op basis van hoe de objecten eruit zien.

Waarom is dit zo belangrijk?

De resultaten zijn opvallend. Door deze methode te gebruiken, presteert hun model (dat maar 4 miljard parameters heeft, wat klein is in AI-taal) beter dan de grootste, duurste modellen van bedrijven zoals Google en OpenAI.

De grote les: Het gaat niet om hoe groot de hersenen (het model) zijn, maar om hoe goed de bril is die ze dragen.

De grote modellen kijken door een wazige 2D-bril.
Dit nieuwe model kijkt door een kristalheldere 3D-bril (de Ruimtelijke Code).

Samenvatting in één zin

In plaats van te proberen een computer te laten "zien" zoals een mens, vertalen we de video eerst naar een precieze 3D-bouwplaat, zodat de computer kan "rekenen" met de ruimte in plaats van te raden op basis van platte beelden.

Dit is een enorme stap voorwaarts voor robots die in onze huizen moeten werken, zelfrijdende auto's die straten moeten begrijpen, en elke AI die echt moet begrijpen hoe de fysieke wereld in elkaar zit.

Each language version is independently generated for its own context, not a direct translation.

Titel: Thinking with Spatial Code for Physical-World Video Reasoning

Auteurs: Jieneng Chen, Wenxin Ma, Ruisheng Yuan, Yunzhi Zhang, Jiajun Wu, Alan Yuille (Johns Hopkins University & Stanford University).

1. Het Probleem

Bestaande grote multimodale modellen (MLMM's) en Vision-Language Models (VLM's) presteren goed in het beschrijven van visuele inhoud, maar worstelen met ruimtelijk redeneren in fysieke werelden.

Gebrek aan 3D-structuur: Deze modellen vertrouwen voornamelijk op 2D-voorkomen (uiterlijk) en linguïstische patronen in plaats van expliciete 3D-geometrie.
Beperkingen: Ze kunnen moeilijk vragen beantwoorden over de positie, oriëntatie, relatieve afstand of het verdwijnen/herverschijnen van objecten in een video. Ze missen een continu 3D-voorstelling van de wereld.
De Bottleneck: Het paper stelt dat de kwaliteit van de ruimtelijke representatie (perceptie) de kritieke bottleneck is voor ruimtelijk redeneren, niet noodzakelijk de schaal van het taalmodel zelf.

2. Methodologie: Thinking with Spatial Code

Het voorgestelde raamwerk transformeert RGB-video's naar expliciete, temporair coherente 3D-voorstellingen ("Spatial Codes") die door een taalkundig model (LLM) kunnen worden gebruikt voor redeneren. Het proces verloopt in twee hoofdfasen:

A. De Spatial Encoder (Perceptie)

Deze module zet videoframes om in gestructureerde symbolische codes.

Dual-Encoder Architectuur:
- SAM-2 Encoder: Verwerkt object-niveau kenmerken en tracking (gebaseerd op Segment Anything 2).
- Depth Encoder: Verwerkt geometrische kenmerken (gebaseerd op Depth Anything 3) voor dieptebewustzijn.
Fusie en Tracking: Cross-attention fuseert deze kenmerken. Een tracker houdt objectidentiteit vast over tijd.
3D Detectie Head: Voorspelt voor elk object een 6D-bounding box:
- Semantisch label.
- 3D positie ( $x, y, z$ ).
- Grootte ( $w, h, l$ ).
- Oriëntatie (quaternion).
Dense Geometrie Supervisie: Een aparte "Depth Head" voorspelt dichte dieptekaarten en cameraparameters om het model te trainen op robuuste geometrische relaties, zelfs in achtergronden zonder objecten.
Output: Een "Spatial Code" bestaande uit een lijst van objecten met hun exacte 3D-coördinaten en attributen, plus een globale scenescenario.

B. Redeneren met LLM's

In plaats van dat het LLM direct naar de video kijkt, krijgt het de Spatial Code als tekstuele input.

Expliciete Redenering: Het LLM (bijv. Qwen3-4B) voert redeneringen uit op basis van deze expliciete coördinaten (bijv. "Bereken de vector van object A naar object B").
Reinforcement Learning (RL) met Spatial Rubric Reward:
- Om de redeneerkwaliteit te verbeteren, wordt het LLM gefinetuned met Reinforcement Learning (GRPO).
- Nieuwe Reward-functie: Naast de juiste eindantwoord (accuracy), wordt er een Spatial Rubric Reward toegepast. Deze beloont specifieke redeneerstappen zoals:
  - Het correct construeren van een lokaal referentiekader (perspectief-aware).
  - Het vermijden van wereld-coördinaten verwarring.
  - Het consistent houden van richting en oriëntatie.
- Dit straft modellen af die het juiste antwoord "toevallig" raden zonder de juiste ruimtelijke logica te volgen.

3. Belangrijkste Bijdragen

Nieuw Paradigma: Introductie van "Thinking with Spatial Code", waarbij video's eerst worden omgezet in expliciete 3D-symbolische codes voordat er wordt geredeneerd.
Empirische Recipe: Een trainingsmethode die visuele encoding, 6D-object parsing/tracking en geometrische verdichting unificeert om gestructureerde codes te genereren.
RL met Rubric Reward: Een innovatieve beloningssysteem voor RL dat specifiek gericht is op het verbeteren van perspectief-georiënteerd en geometrisch onderbouwd redeneren.
State-of-the-Art Resultaten: Het model overtreft zowel gesloten (proprietary) als open-source modellen op benchmarks voor video-ruimtelijk redeneren.

4. Resultaten

Het model is getest op VSI-Bench (Video Spatial Intelligence Benchmark) en Video-RoboSpatial.

VSI-Bench Performance:
- Het model (gebaseerd op Qwen3-4B) bereikt 60.0% nauwkeurigheid (met 2D-bounding box annotaties), wat significant hoger is dan:
  - GPT-5o (55.0%)
  - Gemini-2.5-Pro (53.5%)
  - Qwen3-VL-8B (55.0%)
- Zelfs zonder RL-training presteert het beter dan de baseline Qwen3-VL-4B.
3D Perceptie:
- De Spatial Encoder bereikt state-of-the-art resultaten op 3D-detectie in video's (F1@0.25 van 0.156 op ARKitScenes en 0.209 op ScanNet), zelfs beter dan methoden die op puur 3D-puntwolk-data werken.
Ablatie Studies:
- Perceptie vs. Taalmodel: Het paper toont aan dat het verhogen van de schaal van het taalmodel (van 4B naar 230B parameters) zonder betere 3D-perceptie leidt tot een plateau in prestaties (~50-55%).
- Kwaliteit van Representatie: Met perfecte (ground-truth) spatial codes bereikt hetzelfde 4B-model 73.2% nauwkeurigheid. Dit bewijst dat de beperking ligt in de perceptie, niet in het redeneervermogen van het taalmodel.

5. Betekenis en Impact

Bottleneck Geïdentificeerd: Het paper levert het empirische bewijs dat perceptiekwaliteit (het kunnen zien van de 3D-wereld) de belangrijkste beperkende factor is voor ruimtelijk redeneren bij AI, niet de grootte van het taalmodel.
Efficiëntie: Het toont aan dat een kleiner taalmodel (4B) dat werkt met hoogwaardige 3D-codes, beter presteert dan enorme modellen (200B+) die direct op ruwe video kijken.
Toekomstige Richting: Door de code, modellen en trainingsrecepten openbaar te maken, faciliteert dit onderzoek verdere studies in fysieke wereld-perceptie en redeneren, wat essentieel is voor robotica en autonome systemen.

Kortom, "Thinking with Spatial Code" lost het probleem van ruimtelijk redeneren op door de "visie" van het model te vertalen naar een wiskundig en symbolisch 3D-voorstelling, waarna het taalmodel deze harde data gebruikt voor logische conclusies in plaats van te gokken op visuele patronen.