On the Generalization Capacities of MLLMs for Spatial Intelligence

Each language version is independently generated for its own context, not a direct translation.

De "Blinde" AI en de Camera: Waarom Robots de Wereld Verkeerd Zien

Stel je voor dat je een slimme robot bouwt die de wereld moet begrijpen. Je geeft hem een camera en een brein (een groot taalmodel) en vraagt hem: "Waar staat die giraf precies in de ruimte?"

De huidige generatie slimme robots (zogenoemde MLLMs) doet dit heel goed... zolang ze maar met dezelfde camera zijn getraind. Maar zodra je ze een andere camera geeft, of de foto iets in- of uitzoomt, raken ze volledig in de war. Ze denken dat de giraf ineens gigantisch groot is of juist op de maan staat.

Waarom? En hoe hebben de onderzoekers dit opgelost? Laten we het uitleggen met een paar simpele vergelijkingen.

1. Het Probleem: De "Twee-Wegen" Valstrik

Stel je voor dat je door een raam kijkt. Je ziet een kleine auto in de verte.

Scenario A: Het is een kleine auto, maar hij staat heel dichtbij.
Scenario B: Het is een enorme vrachtwagen, maar hij staat heel ver weg.

Als je alleen naar het raam (de foto) kijkt, zonder te weten hoe ver weg je staat of wat voor lens je gebruikt, kun je dit onderscheid niet maken. De foto ziet er exact hetzelfde uit.

Dit is het grote probleem met de huidige AI-modellen. Ze kijken alleen naar de pixels (de foto) en vergeten de camera-instellingen (de lens). Ze leren een trucje: "Oh, als het beeld groot is, moet het dichtbij zijn." Maar dat is niet altijd waar! Als je inzoomt (telelens), lijkt een ver object ook groot.

De AI leert dus niet hoe de 3D-werkelijkheid werkt, maar leert alleen hoe haar specifieke camera werkt. Het is alsof je een speler leert schaken, maar alleen met een bord dat je zelf hebt geverfd. Zodra je hem een ander bord geeft, weet hij niet meer hoe hij moet spelen.

2. De Oplossing: De "Camera-Gevoelige" Robot

De onderzoekers van dit paper hebben een nieuwe manier bedacht om deze robots slim te maken. Ze noemen het de Camera-Aware MLLM. In plaats van de robot blind te laten kijken, geven ze hem drie superkrachten:

Kracht 1: De "Blikrichting"-Bril 🧐

Stel je voor dat elke pixel op de foto een klein oogje is. Normaal gesproken weten deze oogjes alleen wat ze zien (een stukje gras, een wiel).
De onderzoekers geven elk oogje een bril die precies weet: "Ik kijk naar links, iets omhoog, en mijn lens is een beetje wijd."
Dit noemen ze Camera Ray Embedding. Door deze informatie aan elk stukje van de foto te plakken, weet de robot niet alleen wat hij ziet, maar ook hoe hij het ziet. Hij begrijpt direct dat een klein beeldje ver weg kan zijn als de lens wijd is.

Kracht 2: De "Verwisselbare Lens"-Oefening 🔄

Om de robot echt slim te maken, oefenen ze hem niet alleen met één soort foto. Ze doen alsof ze de camera continu veranderen:

Soms zoomen ze in (alsof je een telelens gebruikt).
Soms zoomen ze uit (een groothoek).
Soms verschuiven ze het beeld.

Ze doen dit digitaal tijdens het trainen. De robot wordt gedwongen om te leren: "O, dit object is hetzelfde, alleen de camera is veranderd!" Hierdoor leert hij de echte regels van de ruimte, in plaats van zich vast te klampen aan één specifieke foto. Het is als een kind dat leert dat een bal een bal blijft, of je hem nu van dichtbij of van ver bekijkt.

Kracht 3: De "3D-Expert" als Leraar 🎓

Soms hebben ze geen camera-instellingen (bijvoorbeeld bij foto's van internet). Dan gebruiken ze een trucje: ze laten een andere, zeer slimme AI (een expert in dieptemeten) eerst kijken naar de foto. Die expert zegt: "Ik denk dat dit object hier staat."
De nieuwe robot leert dan van deze expert. Het is alsof je een student een boek laat lezen en daarna zegt: "Kijk, de meester heeft al uitgerekend waar de schat is; leer van zijn antwoord." Zo krijgt de robot een gevoel voor 3D, zelfs zonder de exacte camera-data.

3. Het Resultaat: Robuustheid in de Wereld

Wat gebeurt er nu?

De oude robots: Als je hun foto's iets in- of uitzoomt, vallen ze in elkaar. Ze denken dat de wereld is veranderd.
De nieuwe robot: Hij blijft kalm. Hij zegt: "Ah, je hebt ingezoomd, maar de giraf staat nog steeds op dezelfde plek."

De onderzoekers hebben getoond dat hun robot veel beter presteert, zelfs als hij wordt getest op camera's die hij nog nooit eerder heeft gezien. Hij is niet langer een "camera-slaaf", maar een echte "ruimte-denker".

Conclusie

De kernboodschap van dit paper is simpel maar krachtig: Om een robot echt slim te maken in de 3D-wereld, moet je hem niet alleen de foto's geven, maar ook vertellen hoe de camera die foto's heeft gemaakt.

Zonder die kennis is de robot als een mens die probeert te zwemmen zonder te weten hoe diep het water is; hij kan misschien een paar slagen maken, maar hij zal verdrinken zodra de omstandigheden veranderen. Met deze nieuwe methode leren we de AI eindelijk hoe de wereld echt in elkaar zit.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "On the Generalization Capacities of MLLMs for Spatial Intelligence", gepresenteerd op ICLR 2026, in het Nederlands.

Probleemstelling: De Fundamentele Tekortkoming van "RGB-Only" Benaderingen

Het paper identificeert een fundamentele beperking in huidige Multimodale Grootte Taalmodellen (MLLMs) die worden ingezet voor ruimtelijke intelligentie (zoals 3D-localisatie, navigatie en dieptebepaling). De bestaande paradigma's vertrouwen vaak uitsluitend op RGB-afbeeldingen of video's zonder expliciete camera-informatie.

De auteurs stellen dat deze "RGB-only" benaderingen fundamenteel gebrekkig zijn in hun vermogen om te generaliseren over verschillende camera's. Het kernprobleem is de onoplosbare geometrische ambiguïteit die ontstaat wanneer camera-intrinsieke parameters (zoals brandpuntsafstand en het hoofdpunt) ontbreken.

Wiskundige Basis: Volgens het gaatjescamera-model (pinhole camera model) wordt de geprojecteerde hoogte $h_{proj}$ van een object bepaald door $h_{proj} = f \cdot H / Z$ (waarbij $f$ de brandpuntsafstand is, $H$ de fysieke hoogte en $Z$ de diepte).
De Ambiguïteit: Zonder kennis van $f$ is het onmogelijk om te onderscheiden of een object klein en dichtbij is, of groot en veraf. Een verandering in brandpuntsafstand (zoom) is observationeel identiek aan een verandering in diepte.
Gevolg: MLLMs die geen rekening houden met camera-intrinsieken, leren in plaats van algemene 3D-geometrische principes, te "overfitten" op de specifieke camera-distributie van de trainingsdata. Dit leidt tot catastrofale prestatie-dalingen wanneer het model wordt getest op beelden met andere camera-instellingen (bijvoorbeeld na herschaling of met andere sensoren).

Methodologie: Het Camera-Aware MLLM Framework

Om dit probleem op te lossen, stellen de auteurs het Camera-Aware MLLM Framework voor. Dit framework maakt ruimtelijke redenering expliciet bewust van de camera via drie kerninnovaties:

Dichte Camera-Ray Embedding (Architectuur):
- In plaats van alleen visuele tokens te verwerken, injecteert het model camera-intrinsieke parameters direct in de visuele representatie.
- Voor elk visueel token wordt een dichte camera-ray embedding berekend die de richting van de straal (line-of-sight) in de 3D-ruimte encodeert, gebaseerd op de intrinsieke parameters ( $f_x, f_y, c_x, c_y$ ).
- Deze embedding wordt samengevoegd met de visuele features, waardoor het model elke pixel kan relateren aan een specifieke geometrische context in de 3D-wereld.
Camera-Aware Geometrische Augmentatie (Training):
- Bestaande 3D-datasets hebben vaak een beperkte diversiteit aan camera-instellingen. Het paper introduceert een augmentatiestrategie waarbij camera-intrinsieken synthetisch worden gevarieerd tijdens het trainen.
- Dit omvat het schalen van de afbeelding (wat de brandpuntsafstand simuleert) en het verschuiven van het hoofdpunt.
- Belangrijk: Zowel de afbeelding als de bijbehorende intrinsieke parameters worden consistent bijgewerkt. Dit dwingt het model om de inhoud van de scène te ontkoppelen van de camera-geometrie.
Distillatie van Geometrische Priors:
- Om het model te verrijken met robuuste 3D-kennis, distilleert het framework geometrische priors uit een vooraf getraind 3D-vision foundation model (UniDepth v2).
- Dit model, getraind op miljoenen RGB-diepte paren, schat de 3D-puntenwolk en de intrinsieke parameters (zelfs voor beelden zonder metadata).
- Deze geometrische priors worden als extra embedding aan de visuele tokens toegevoegd, waardoor het model een dieper 3D-structureel begrip krijgt zonder dat het inference-pipeline complexer hoeft te worden.

Belangrijkste Resultaten

De auteurs hebben hun framework uitgebreid getest, met name op het vermogen om te generaliseren over verschillende camera's (cross-camera generalization).

Falen van Baselines: Camera-agnostische modellen (zoals Qwen2.5-VL en VG-LLM) presteren goed op de trainingsdistributie, maar falen volledig bij eenvoudige geometrische transformaties (zoals herschaling van afbeeldingen). Hun prestaties dalen drastisch (bijv. van ~45% naar ~26% F1-score bij herschaling), wat aantoont dat ze geen echte 3D-principes hebben geleerd.
Superieure Generalisatie: Het voorgestelde Camera-Aware MLLM behoudt een robuuste prestatie over verschillende camera-instellingen en herschalingen. Het model toont aan dat het de geometrische ambiguïteit heeft opgelost.
Benchmarks: Op gevestigde ruimtelijke redeneerbenchmarks (zoals SPAR-Bench, VSI-Bench en CV-Bench-3D) bereikt het model state-of-the-art resultaten, zowel in scenario's met bekende camera-intrinsieken als in "in-the-wild" scenario's zonder metadata (dankzij de distillatie).
Ablatie-studie: De studie bevestigt dat zowel de architectuur (camera-aware embedding) als de data-diversiteit (augmentatie) en de priors noodzakelijk zijn; geen enkele component op zich is voldoende voor optimale generalisatie.

Bijdragen en Significantie

De belangrijkste bijdragen van dit werk zijn:

Theoretische Analyse: Een diepgaande analyse die aantoont dat ruimtelijke redenering zonder camera-intrinsieken een wiskundig onoplosbaar probleem is voor generalisatie, wat leidt tot het leren van "shortcuts" in plaats van waarheid.
Nieuw Framework: Het introduceren van het eerste framework dat expliciet camera-intrinsieken integreert in MLLMs via dichte embeddings, data-augmentatie en prior-distillatie.
Paradigmaverschuiving: Het paper pleit voor een fundamentele verschuiving in het veld: van het puur verwerken van pixels naar het begrijpen van de geometrische principes die deze pixels vormen.

Conclusie:
Dit werk stelt dat camera-bewustzijn geen optionele verbetering is, maar een voorwaarde voor robuuste en generaliseerbare ruimtelijke intelligentie in MLLMs. Zonder expliciete rekening te houden met hoe een camera een 3D-wereld projecteert, kunnen AI-modellen geen betrouwbare 3D-redenering uitvoeren die werkt in de echte wereld met diverse sensoren.

On the Generalization Capacities of MLLMs for Spatial Intelligence

1. Het Probleem: De "Twee-Wegen" Valstrik

2. De Oplossing: De "Camera-Gevoelige" Robot

Kracht 1: De "Blikrichting"-Bril 🧐

Kracht 2: De "Verwisselbare Lens"-Oefening 🔄

Kracht 3: De "3D-Expert" als Leraar 🎓

3. Het Resultaat: Robuustheid in de Wereld

Conclusie

Probleemstelling: De Fundamentele Tekortkoming van "RGB-Only" Benaderingen

Methodologie: Het Camera-Aware MLLM Framework

Belangrijkste Resultaten

Bijdragen en Significantie

Meer zoals dit

Comparison of Outlier Detection Algorithms on String Data

Structure-Aware Epistemic Uncertainty Quantification for Neural Operator PDE Surrogates

Interventional Time Series Priors for Causal Foundation Models

Fingerprinting Concepts in Data Streams with Supervised and Unsupervised Meta-Information

Graph Tokenization for Bridging Graphs and Transformers