LocateAnything3D: Vision-Language 3D Detection with Chain-of-Sight

Each language version is independently generated for its own context, not a direct translation.

LocateAnything3D: Een slimme manier om de wereld in 3D te zien

Stel je voor dat je een robot bouwt die de wereld moet begrijpen. Tot nu toe waren deze robots erg goed in het zien van platte foto's (2D). Ze konden een auto herkennen en zeggen: "Daar is een auto." Maar ze hadden moeite om te zeggen: "Die auto staat 5 meter voor me, is 4 meter lang en staat schuin." Dat is namelijk 3D-ruimte, en dat is voor computers heel lastig om uit een enkele foto te halen.

De onderzoekers van LocateAnything3D hebben een nieuwe, slimme oplossing bedacht die dit probleem oplost. Ze noemen hun methode "Chain-of-Sight" (een keten van zicht). Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De Menselijke Manier van Denken

Mensen doen het ook zo als ze naar een foto kijken. We doen niet direct een gok over hoe ver iets weg is.

Eerst kijken we: "Wat zie ik daar?" (Ik zie een kopje).
Dan kijken we: "Waar staat het precies?" (Het staat op de tafel).
Pas daarna denken we: "Hoe groot is het en hoe ver weg?" (Het is een klein kopje, ongeveer 30 centimeter van me vandaan).

De meeste oude computersystemen probeerden direct de 3D-afstand te raden, wat vaak leidde tot hallucinaties (de computer ziet dingen die er niet zijn). LocateAnything3D dwingt de computer om eerst de 2D-positie te bepalen, net als wij mensen.

2. De "Ketting van Zicht" (Chain-of-Sight)

Stel je voor dat de computer een detective is die een verslag schrijft. In plaats van direct te zeggen: "De auto is hier en daar," schrijft de detective eerst: "Ik zie een auto op de foto." (Dit is de 2D-positie). Pas daarna schrijft hij: "En omdat ik weet dat het een auto is, kan ik nu berekenen dat hij 10 meter weg staat."

Dit noemen de auteurs een Chain-of-Sight. Het is alsof de computer eerst een stevige basis legt (de 2D-positie) voordat hij de moeilijke trap opstapt (de 3D-berekening). Dit maakt het veel nauwkeuriger en voorkomt dat de computer in de war raakt.

3. De "Van Dichtbij naar Ver" Regel

Stel je voor dat je in een drukke kamer staat. Als je probeert alles tegelijk te zien, word je snel overweldigd. De slimme truc van deze nieuwe AI is dat hij eerst kijkt naar de dingen die dichtbij zijn, en pas daarna naar de dingen die ver weg staan.

Waarom? Dichtbij zijnde objecten zijn duidelijk en groot. Ze geven de computer een goed gevoel voor de ruimte. Zodra de computer weet waar de stoel vlak voor hem staat, kan hij dat gebruiken als referentie om te schatten hoe ver de auto achter die stoel staat.
Het is alsof je een puzzel maakt: je begint met de randstukken (de duidelijke, nabije objecten) voordat je de losse stukjes in het midden (de verre, wazige objecten) probeert te leggen.

4. Wat kan deze nieuwe robot nu?

Dankzij deze methode kan LocateAnything3D:

Elk object vinden: Je kunt tegen de robot zeggen: "Zoek alle rode stoelen" of zelfs "Zoek dat vreemde apparaat dat ik nog nooit heb gezien." Hij begrijpt het zonder dat hij eerst speciaal daarvoor getraind moet zijn.
Prikken en klikken: Je kunt met je vinger op een object in een foto tikken, en de robot zegt direct: "Ah, dat is een beker op 2 meter afstand."
Zelfstandig leren: Hij is getraind op een enorme verzameling foto's van binnen- en buitenruimtes, waardoor hij het in bijna elke situatie goed doet.

Waarom is dit belangrijk?

Vroeger waren robots die de wereld in 3D zagen, als een zwakke bril: ze zagen de contouren, maar de diepte was wazig. Met LocateAnything3D krijgen ze een scherpe bril.

Dit is een enorme stap voor robots die in onze huizen moeten werken (zoals stofzuigers die niet tegen meubels aanrijden) of voor zelfrijdende auto's die precies weten hoe ver ze van een voetganger afstaan. Het maakt robots niet alleen slimmer, maar ook veiliger, omdat ze de wereld niet langer als een platte foto zien, maar als een echte, tastbare ruimte.

Kort samengevat: LocateAnything3D leert computers om de wereld te zien zoals wij doen: eerst kijken wat er is, dan bepalen waar het staat, en pas daarna berekenen hoe ver het weg is. En dat doen ze in de juiste volgorde: van dichtbij naar ver weg.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Huidige Vision-Language Models (VLM's) zijn uitstekend in open-ended 2D-beschrijving en -localisatie (grounding), maar missen vaak de capaciteit voor multi-object 3D-detectie direct vanuit monokulaire (één oog) beelden. Bestaande monokulaire 3D-detectoren zijn vaak beperkt tot specifieke domeinen, vereisen opdracht-specifieke hoofdmodules (heads), werken met gesloten labelruimtes en zijn afhankelijk van nauwkeurig gekalibreerde camera's. Ze missen de veelzijdigheid, compositie en instructie-gevolgd gedrag die VLM's zo krachtig maken. Er is een behoefte aan een model dat 3D-waarneming "native" kan uitvoeren binnen één VLM-architectuur, zonder gespecialiseerde componenten, en dat robuust is voor open-world categorieën.

Methodologie: LocateAnything3D

De auteurs stellen LocateAnything3D voor, een VLM-native aanpak die 3D-detectie formuleert als een next-token prediction probleem. De kern van de methode is een nieuw decoderings- en supervisiestelsel genaamd Chain-of-Sight (CoS).

1. Chain-of-Sight (CoS) Factorisatie

In plaats van direct 3D-bounding boxes te voorspellen, interleave het model 2D- en 3D-informatie in de tokensequentie. Dit nabootst hoe mensen redeneren over afbeeldingen: eerst vaststellen wat zichtbaar is in 2D, en vervolgens afstand, grootte en pose afleiden.

Volgorde: De decoder geeft eerst een 2D-bounding box ( $q_i$ ) uit als een visuele "chain-of-thought", gevolgd direct door de bijbehorende 3D-box ( $b_i$ ).
Voordeel: De 2D-box fungeert als een hoog-vertrouwen visuele anker die het zoekgebied voor de 3D-inferentie beperkt, hallucinaties reduceert en de 3D-tokens koppelt aan zichtbaar bewijs.

2. Curriculum Learning (Eenvoudig naar Moeilijk)

Het model volgt een gestructureerde leercurve die is afgestemd op autoregressieve decoding:

Inter-Object Curriculum (Nabij naar Ver): Objecten worden geserialiseerd op basis van diepte, van dichtbij naar veraf. Dit past bij ego-centrische utiliteit (dichtbij objecten zijn eerst belangrijk voor interactie) en biedt sterke monokulaire aanwijzingen voor de eerste tokens. De geometrie van nabije objecten helpt bij het construeren van schaal en afstand voor verdere objecten via relatieve grootte en occlusie.
Intra-Object Factorisatie (Centrum $\to$ Grootte $\to$ Rotatie): Binnen elk object wordt de 3D-box ontbonden in een semantisch geordende tuple: eerst het centrum ( $t$ ), dan de afmetingen ( $d$ ), en tot slot de rotatie ( $R$ ). Deze volgorde volgt de observabiliteit van monokulaire aanwijzingen ("waar is het?" is makkelijker dan "hoe groot?" of "hoe gedraaid?") en stabiliseert het leerproces.

3. Data Curation en Training

Dataset: De auteurs hebben een grote, camera-centric corpus samengesteld van ongeveer 1,74 miljoen trainingsexamples door zes bestaande datasets te unificeren (o.a. KITTI, nuScenes, SUN-RGBD, ARKitScenes, Objectron, Hypersim).
Format: De data is omgezet in VLM-conversaties met een strikte volgorde: 2D $\to$ 3D en Nabij $\to$ Ver.
Anti-Hallucinatie: Er worden expliciet "negatieve samples" toegevoegd waarbij het model moet leren dat er geen object is (uitgeven van een <no_object/> token) om valse positieven te verminderen.
Pretraining: Het model ondergaat eerst een pretrainingfase voor 2D-detectie en grounding om een sterke basis te leggen voordat het de volledige CoS-sequentie (2D $\to$ 3D) end-to-end leert.

Belangrijkste Bijdragen

Chain-of-Sight Formulier: Een nieuwe manier om open-world monokulaire 3D-detectie om te zetten in een native next-token predictie taak binnen een VLM, waarbij expliciete 2D-grounding wordt gekoppeld aan 3D-decoding.
Aangepast Curriculum: Een serialisatiestrategie (nabij $\to$ ver) en tokenisatie (centrum $\to$ grootte $\to$ rotatie) die specifiek is ontworpen voor autoregressieve decoding, wat leidt tot robuustere prestaties en betere kalibratie.
Universele Dataset: Een schaalbaar, gestandaardiseerd dataset-pakket dat heterogene bronnen unificeert, waardoor training mogelijk is zonder taak-specifieke heads en ablatiestudies consistent kunnen worden uitgevoerd.

Resultaten

Het model is geëvalueerd op de uitdagende Omni3D benchmark (die zowel binnen- als buitenruimtes omvat).

State-of-the-Art Prestaties: LocateAnything3D bereikt een AP3D van 38,90, wat een absolute verbetering is van +13,98 punten ten opzichte van de vorige beste methoden.
Vergelijking met Baselines: Het presteert zelfs beter dan methoden die ground-truth 2D-bounding boxes als input krijgen (een "privileged" setting), wat aantoont dat het gezamenlijk leren van 2D en 3D binnen één autoregressieve interface superieur is aan het koppelen van een 3D-head aan externe 2D-voorspellingen.
Zero-Shot Generalisatie: Het model toont sterke generalisatie naar ongeziene categorieën (zero-shot) zonder dat er externe 2D-detectoren nodig zijn.
3D Grounding: In tests voor 3D-grounding (het lokaliseren van objecten op basis van complexe tekstuele instructies) overtreft het bestaande modellen zoals Cube-LLM aanzienlijk, zelfs met een kleinere trainingsdataset.

Significantie

LocateAnything3D sluit een langdurige kloof tussen open-vocabulary herkenning en metrisch 3D-begrip. Door 3D-detectie te transformeren naar een discipline van next-token predictie met een "Chain-of-Sight", biedt het een praktische basis voor modellen om de wereld in 3D waar te nemen. Dit is een cruciale stap voor embodied intelligence (robotica en autonome systemen), waarbij waarneming direct gekoppeld moet worden aan actie in een fysieke omgeving. De methode maakt het mogelijk om 3D-perceptie te schalen binnen algemene VLM's zonder de noodzaak van gespecialiseerde, fragiele architecturen.