LocateAnything3D: Vision-Language 3D Detection with Chain-of-Sight

LocateAnything3D introduceert een VLM-native aanpak die 3D-detectie omzet in een next-token voorspellingstask via een expliciete "Chain-of-Sight"-redenering, waardoor state-of-the-art resultaten worden behaald op de Omni3D-benchmark met behoud van open-vocabulaire en zero-shot generalisatie.

Yunze Man, Shihao Wang, Guowen Zhang, Johan Bjorck, Zhiqi Li, Liang-Yan Gui, Jim Fan, Jan Kautz, Yu-Xiong Wang, Zhiding Yu

Gepubliceerd 2026-02-24
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

LocateAnything3D: Een slimme manier om de wereld in 3D te zien

Stel je voor dat je een robot bouwt die de wereld moet begrijpen. Tot nu toe waren deze robots erg goed in het zien van platte foto's (2D). Ze konden een auto herkennen en zeggen: "Daar is een auto." Maar ze hadden moeite om te zeggen: "Die auto staat 5 meter voor me, is 4 meter lang en staat schuin." Dat is namelijk 3D-ruimte, en dat is voor computers heel lastig om uit een enkele foto te halen.

De onderzoekers van LocateAnything3D hebben een nieuwe, slimme oplossing bedacht die dit probleem oplost. Ze noemen hun methode "Chain-of-Sight" (een keten van zicht). Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De Menselijke Manier van Denken

Mensen doen het ook zo als ze naar een foto kijken. We doen niet direct een gok over hoe ver iets weg is.

  1. Eerst kijken we: "Wat zie ik daar?" (Ik zie een kopje).
  2. Dan kijken we: "Waar staat het precies?" (Het staat op de tafel).
  3. Pas daarna denken we: "Hoe groot is het en hoe ver weg?" (Het is een klein kopje, ongeveer 30 centimeter van me vandaan).

De meeste oude computersystemen probeerden direct de 3D-afstand te raden, wat vaak leidde tot hallucinaties (de computer ziet dingen die er niet zijn). LocateAnything3D dwingt de computer om eerst de 2D-positie te bepalen, net als wij mensen.

2. De "Ketting van Zicht" (Chain-of-Sight)

Stel je voor dat de computer een detective is die een verslag schrijft. In plaats van direct te zeggen: "De auto is hier en daar," schrijft de detective eerst: "Ik zie een auto op de foto." (Dit is de 2D-positie). Pas daarna schrijft hij: "En omdat ik weet dat het een auto is, kan ik nu berekenen dat hij 10 meter weg staat."

Dit noemen de auteurs een Chain-of-Sight. Het is alsof de computer eerst een stevige basis legt (de 2D-positie) voordat hij de moeilijke trap opstapt (de 3D-berekening). Dit maakt het veel nauwkeuriger en voorkomt dat de computer in de war raakt.

3. De "Van Dichtbij naar Ver" Regel

Stel je voor dat je in een drukke kamer staat. Als je probeert alles tegelijk te zien, word je snel overweldigd. De slimme truc van deze nieuwe AI is dat hij eerst kijkt naar de dingen die dichtbij zijn, en pas daarna naar de dingen die ver weg staan.

  • Waarom? Dichtbij zijnde objecten zijn duidelijk en groot. Ze geven de computer een goed gevoel voor de ruimte. Zodra de computer weet waar de stoel vlak voor hem staat, kan hij dat gebruiken als referentie om te schatten hoe ver de auto achter die stoel staat.
  • Het is alsof je een puzzel maakt: je begint met de randstukken (de duidelijke, nabije objecten) voordat je de losse stukjes in het midden (de verre, wazige objecten) probeert te leggen.

4. Wat kan deze nieuwe robot nu?

Dankzij deze methode kan LocateAnything3D:

  • Elk object vinden: Je kunt tegen de robot zeggen: "Zoek alle rode stoelen" of zelfs "Zoek dat vreemde apparaat dat ik nog nooit heb gezien." Hij begrijpt het zonder dat hij eerst speciaal daarvoor getraind moet zijn.
  • Prikken en klikken: Je kunt met je vinger op een object in een foto tikken, en de robot zegt direct: "Ah, dat is een beker op 2 meter afstand."
  • Zelfstandig leren: Hij is getraind op een enorme verzameling foto's van binnen- en buitenruimtes, waardoor hij het in bijna elke situatie goed doet.

Waarom is dit belangrijk?

Vroeger waren robots die de wereld in 3D zagen, als een zwakke bril: ze zagen de contouren, maar de diepte was wazig. Met LocateAnything3D krijgen ze een scherpe bril.

Dit is een enorme stap voor robots die in onze huizen moeten werken (zoals stofzuigers die niet tegen meubels aanrijden) of voor zelfrijdende auto's die precies weten hoe ver ze van een voetganger afstaan. Het maakt robots niet alleen slimmer, maar ook veiliger, omdat ze de wereld niet langer als een platte foto zien, maar als een echte, tastbare ruimte.

Kort samengevat: LocateAnything3D leert computers om de wereld te zien zoals wij doen: eerst kijken wat er is, dan bepalen waar het staat, en pas daarna berekenen hoe ver het weg is. En dat doen ze in de juiste volgorde: van dichtbij naar ver weg.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →