Oorspronkelijke auteurs: Yalun Dai, Hao Li, Shulin Tian, Runmao Yao, Yuhao Dong, Fangzhou Hong, Zhaoxi Chen, Fangfu Liu, Baoliang Tian, Dingwen Zhang, Tao Wang, Kim-Hui Yap, Ziwei Liu

Gepubliceerd 2026-06-19

📖 4 min leestijd☕ Koffiepauze-leesvoer

CC BY 4.0

Oorspronkelijke auteurs: Yalun Dai, Hao Li, Shulin Tian, Runmao Yao, Yuhao Dong, Fangzhou Hong, Zhaoxi Chen, Fangfu Liu, Baoliang Tian, Dingwen Zhang, Tao Wang, Kim-Hui Yap, Ziwei Liu

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dit is een AI-gegenereerde uitleg van het onderstaande artikel. Het is niet geschreven of goedgekeurd door de auteurs. Raadpleeg het oorspronkelijke artikel voor technische nauwkeurigheid. Lees de volledige disclaimer

Stel je voor dat je een mysterie probeert op te lossen in een kamer die je nog nooit eerder hebt gezien, maar je kunt er alleen door een piepklein kijkgat naar kijken, telkens voor slechts een fractie van een seconde.

Het Probleem: De "Snapshot"-blindheid
Huidige AI-modellen (VLMs genoemd) zijn als detectives die gedwongen worden om de lay-out van een hele kamer te raden op basis van slechts één wazige foto. Ze zijn erg goed in het herkennen van wat er in de afbeelding staat (bijv. "Dat is een stoel"), maar ze zijn erg slecht in het begrijpen van waar dingen zich in de 3D-ruimte ten opzichte van elkaar bevinden, vooral als de camera beweegt of het gezichtsveld verandert. Ze proberen direct een antwoord te geven, waarbij ze vaak vertrouwen op gelukkige gokken of tekstpatronen in plaats van op echt bewijs.

De Oplossing: S-Agent (De "Detective met een Gereedschapskist")
Het paper introduceert S-Agent, een nieuwe manier van denken. In plaats van te gokken, handelt S-Agent als een detective die weigert antwoord te geven totdat hij genoeg bewijs heeft verzameld. Het "kijkt" niet alleen; het onderzoekt.

Zo werkt S-Agent, met een eenvoudige analogie:

1. Het Brein (De Planner)

Beschouw het "brein" van de AI als een Projectmanager. Zijn enige taak is het stellen van vragen. Hij probeert niet zelf afstanden te meten of objecten te tellen. In plaats daarvan kijkt hij naar het probleem en zegt: "Ik weet nog niet waar de bank staat ten opzichte van de tv. Ik moet de Landmeter oproepen."

2. De Gereedschapskist (De Hiërarchie)

De Projectmanager heeft een team van gespecialiseerde werkers (tools) die hij kan oproepen, georganiseerd in drie niveaus:

Niveau 1: De Spotter (2D Visie): Deze werker bekijkt de videoframes en zegt: "Ik zie hier een bank en daar een tv." Hij vindt alleen de objecten.
Niveau 2: De Architect (3D Lifting): Deze werker neemt de 2D-locaties en bouwt een 3D-model. Hij zegt: "Oké, de bank is eigenlijk 2 meter ver weg, en de tv is 3 meter ver weg. Hier is de diepte."
Niveau 3: De Analist (Expert Aggregatie): Deze werker neemt de ruwe cijfers en geeft een duidelijk antwoord. "Op basis van de metingen is de tv 1 meter dichter bij de bank dan de stoel."

3. De Notitieblokken (Het Geheugen)

Dit is het belangrijkste deel. De meeste AI-modellen hebben een "kortetermijngeheugen" dat alles vergeet zodra het volgende frame arriveert. S-Agent heeft twee permanente notitieblokken:

Het Scène-notitieblok: Dit houdt een actuele lijst bij van alles wat tot nu toe is gevonden. Als de camera draait en de bank opnieuw ziet, zegt het notitieblok: "We weten al waar de bank staat; meet deze niet opnieuw." Dit voorkomt verwarring of dubbeltellingen.
Het Detective-logboek: Dit legt het proces vast. Het onthoudt: "Ik heb om een meting gevraagd, het gereedschap gaf me een getal, maar ik weet de richting nog steeds niet, dus ik moet om een andere hoek vragen."

Hoe het verloopt

Stel je een video voor waarin je moet weten welk object dichter bij een bank staat.

Oude AI: Bekijkt één frame, ziet een stoel en een plant, en gokt: "De stoel is dichterbij!" (Het kan fout zijn omdat de plant in het volgende frame eigenlijk dichterbij is).
S-Agent:
1. Denkt: "Ik moet afstanden vergelijken."
2. Roept Tools aan: Het scant de video, vindt de stoel en de plant in verschillende frames, en gebruikt een dieptetool om de exacte afstand van elk object tot de bank te meten.
3. Update Geheugen: Het schrijft op: "Stoel is 1,0 m verwijderd. Plant is 1,5 m verwijderd."
4. Concludeert: "De stoel is dichterbij."

De Resultaten

Het paper testte deze "detective"-aanpak op verschillende moeilijke tests (benchmarks) met betrekking tot video's en meerdere afbeeldingen.

Zero-Shot Kracht: Zelfs zonder speciale training, enkel door deze "tool-use" methode te gebruiken, maakte S-Agent bestaande krachtige AI-modellen (zoals Gemini en GPT) aanzienlijk slimmer bij ruimtelijke taken. Het versloeg de beste closed-source modellen op sommige tests.
Een Mini-Me trainen: De onderzoekers namen de "denkprocessen" en "tool calls" van de slimme S-Agent en gebruikten die om een kleiner, goedkoper AI-model (genaamd S-Agent-8B) te onderwijzen. Dit kleine model leerde om te denken als de grote detective en presteerde bijna net zo goed als de duurste, closed-source modellen.

Samenvattend:
S-Agent verandert ruimtelijk redeneren van een gokspel in een missie om bewijsmateriaal te verzamelen. Door het probleem op te splitsen, tools te gebruiken om te meten en een geheugen bij te houden van wat het geleerd heeft, bouwt het een betrouwbaar 3D-begrip van de wereld op in plaats van alleen een 2D-snapshot.

Technische Samenvatting: S-Agent – Ruimtelijk instrumentgebruik lokt redeneren uit voor ruimtelijke intelligentie

1. Probleemstelling

Huidige Vision-Language Models (VLM's) vertonen een fundamentele "semantisch-geometrische kloof". Hoewel ze getraind zijn op enorme 2D visuele-tekst corpora, worstelen ze met echte ruimtelijke intelligentie, wat begrip van geometrische relaties vereist in een continue, evoluerende 3D-wereld. Bestaande benaderingen kampen met twee primaire beperkingen:

Statische en staatloze inferentie: De meeste VLM's en door tools ondersteunde agenten vertrouwen op geïsoleerde, statische visuele observaties (enkele frames of afbeeldingen). Ze missen mechanismen om persistente objecttoestanden te behouden of bewijslast te integreren over de tijd en meerdere gezichtspunten heen.
Informatieverlies in representaties: Huidige modellen mediëren redeneren vaak via semantische priors en tekstuele patronen in plaats van via gegronde 3D-geometrische bewijslast. Dit leidt tot fouten in taken die metriek metingen, relatieve positionering of redeneren over dynamische scènes vereisen waarbij objecten gedeeltelijk worden afgeschermd of slechts zichtbaar zijn over meerdere frames.

Het artikel stelt dat video-gebaseerde ruimtelijke intelligentie meer vereist dan alleen sterkere 2D/3D herkenning; het vereist een redeneermechanisme dat in staat is om spatio-temporeel bewijs te accumuleren om een coherent 3D-begrip te construeren.

2. Methodologie: Het S-Agent Framework

S-Agent is een agentische paradigma voor ruimtelijk instrumentgebruik, ontworpen om ruimtelijk redeneren te transformeren van geïsoleerde frame-niveau voorspelling naar een actief proces van spatio-temporele bewijsaccumulatie. Het framework behandelt de VLM niet als een directe voorspeller, maar als een semantische planner die een hiërarchie van ruimtelijke tools orkestreert en geheugen beheert.

2.1. Hiërarchische verwerving van ruimtelijke bewijslast

S-Agent verwerkt bewijs via een drie-niveau hiërarchie, waarbij specifieke perceptuele en computationele taken worden gedelegeerd aan gespecialiseerde tools:

Niveau 1: 2D Visuele Bewijsverwerving: De agent selecteert informatieve sleutelframes, grondt objecten/regio's met open-vocabulary detectoren (bijv. G-DINO) en verifieert visuele feiten. Dit vestigt object-gecentreerde aanwijzingen voor daaropvolgende redenering.
Niveau 2: 2D-naar-3D Geometrische Lift: Gebruikmakend van multi-view geometrische tools (bijv. diepteschatting, 3D-reconstructie), tilt de agent 2D-observaties naar een 3D-bewuste representatie. Dit herstelt metriek coördinaten, camerapozen en dieptestructuren, waardoor de integratie van gefragmenteerde weergaven in een gedeelde ruimtelijke context mogelijk wordt.
Niveau 3: Aggregatie van Ruimtelijke Kennis: Gespecialiseerde ruimtelijke experts (bijv. experts in tellen, metriek meten, oriëntatie en relaties) aggregeren de 2D/3D-aanwijzingen tot hoogwaardige, scène-specifieke kennis. Deze stap zet ruwe geometrische signalen om in gestructureerde antwoorden (bijv. "Object A staat 1,2 m van Object B"), waardoor de last voor de VLM om onbetrouwbare metriek redeneren in vrije tekst uit te voeren, wordt verminderd.

2.2. Temporeel Geheugen voor Stateful Redeneren

Om redeneren over continue observaties te ondersteunen, onderhoudt S-Agent twee complementaire geheugentoestanden:

Scènegeheugen: Een entiteit-gecentreerde opslag die gegronde objecten over frames en gezichtspunten heen bijhoudt. Het koppelt herhaalde observaties aan persistente scène-entiteiten, accumuleert geometrische attributen en onderdrukt duplicatie van bewijs. Het bewaart de evoluerende staat van de 3D-scène die relevant is voor de query.
Agentgeheugen: Een proces-georiënteerde opslag die het redeneertraject registreert, inclusief tool calls, observaties, mislukkingen en tussenliggende gedachten. Dit stelt de planner in staat om onopgeloste onzekerheden te identificeren, redundante tool calls te vermijden en strategieën te verfijnen op basis van eerdere feedback.

2.3. Training-tijd Distillatie (S-AGENT-8B)

Naast zero-shot inferentie stelt de auteur een distillatiepipeline voor om compacte agenten te trainen:

Datageneratie: Een bevroren, krachtige docent S-Agent (gebruikmakend van GPT-5.4) genereert volledige redeneertrajecten op de SenseNova-SI-800K dataset. Deze trajecten bevatten planner-gedachten, tool-verzoeken, observaties, geheugenupdates en definitieve antwoorden.
Filtering & Decompositie: Trajecten worden gefilterd op basis van uitvoerbaarheid en antwoordcorrectheid. Vervolgens worden ze gedecomposeerd in multi-granulariteit supervisiesignalen: volledige trajecten met het definitieve antwoord, tool-gebruik beslissingen op turn-niveau, en expert/tool-specifieke interacties.
Supervised Fine-Tuning (SFT): De resulterende dataset, S-300K, wordt gebruikt om het open-weight Qwen3-VL-8B model te finetunen, wat resulteert in S-Agent-8B. Deze compacte agent leert niet alleen ruimtelijke antwoorden, maar ook de beleid voor bewijsaccumulatie en toolselectie.

3. Belangrijkste Bijdragen

Agentisch Paradigma voor Ruimtelijk Redeneren: Introduceert S-Agent, dat ruimtelijk redeneren herdefinieert als een iteratief, stateful proces van bewijsaccumulatie in plaats van een single-shot voorspelling.
Hiërarchische Tool-Use Architectuur: Stelt een drie-niveau tool-hiërarchie voor (2D grounding $\to$ 3D lifting $\to$ Kennisaggregatie) die semantische planning scheidt van geometrische computatie.
Dual-Memory Systeem: Ontwerpt een dual-memory mechanisme (Scène- en Agentgeheugen) om een persistente 3D-staat en redeneercontext over tijd en weergaven heen te behouden.
Schaalbare Distillatie: Demonstreert dat hoogwaardige redeneertrajecten van een grootschalige agent effectief kunnen worden gedistilleerd naar een compact 8B model (S-Agent-8B) dat geavanceerde closed-source modellen evenaart.

4. Experimentele Resultaten

De auteurs evalueerden S-Agent op vier benchmarks: MMSI-Bench (multi-image), ViewSpatial-Bench (perspectief-bewust), ReVSI (video 3D redeneren) en VSI-SUPER (video ruimtelijke verandering).

Zero-Shot Prestaties:
- Op MMSI-Bench behaalde S-Agent (met Gemini 3 Pro als planner) 46,4%, waarmee het de propriëtaire baseline Gemini 3 Pro met 1,2% en GPT-5.4 met 4,5% versloeg. Het toonde bijzondere kracht in bewegingsperceptie en multi-step redeneren.
- Op ViewSpatial-Bench behaalde S-Agent 60,0%, waarmee het GPT-5.4 met 14,4% versloeg, met significante winst in relatieve richting en perspectief-bewuste taken.
- Op ReVSI eindigde S-Agent als tweede met 58,8%, waarmee het alle open-source algemene modellen en ruimtelijk gespecialiseerde baselines versloeg.
Trainingsresultaten (S-Agent-8B):
- De gedistilleerde S-Agent-8B presteerde aanzienlijk beter dan de basis Qwen3-VL-8B-Instruct (31,1% $\to$ 41,6% op MMSI-Bench, een winst van 10,5%).
- S-Agent-8B versloeg ook de zero-shot S-Agent die dezelfde 8B backbone gebruikte, wat aantoont dat het model succesvol tool-use policies en bewijsintegratiepatronen heeft geleerd.
- Het compacte 8B model presteerde vergelijkbaar met geavanceerde closed-source modellen zoals GPT-5.4 en Gemini 3 Pro over meerdere benchmarks.
Ablatie-studies:
- Experimenten bevestigden dat Level-3 experts (interpretatie van 3D-data) cruciaal waren, aangezien ruwe 3D-bewijslast de planner alleen zou kunnen afleiden.
- Zowel Scènegeheugen als Agentgeheugen boden significante prestatieverbeteringen, waarbij hun combinatie de beste resultaten opleverde.

5. Betekenis en Claims

Het artikel claimt dat S-Agent een verschuiving vertegenwoordigt van "frame-centrische herkenning" naar "scène-centrisch begrip". Door semantische planning expliciet te scheiden van geometrische bewijsverwerving en stateful geheugen te behouden, adresseert het framework de beperkingen van statische VLM's in dynamische 3D-omgevingen.

De auteurs stellen dat:

Bewijsaccumulatie essentieel is: Ruimtelijke intelligentie in video en multi-view settings berust op het accumuleren van spatio-temporeel bewijs in plaats van af te leiden uit geïsoleerde frames.
Tool-gebruik de grounding versterkt: Hiërarchische tools maken het mogelijk om objecten in 2D te gronden, ze naar 3D te liften en ze te aggregeren tot betrouwbare metrieken, wat hallucinaties vermindert die gebruikelijk zijn bij zuivere VLM-redenering.
Distillatie effectief is: De redeneerpatronen van een grote, tool-gebruikende agent kunnen effectief worden gedistilleerd naar kleinere, open-weight modellen, waardoor geavanceerde ruimtelijke redenering toegankelijk wordt zonder dat daarvoor enorme propriëtaire modellen nodig zijn.

Het werk positioneert agentische bewijsaccumulatie als een veelbelovende richting voor het bouwen van VLM's met een sterkere, meer gegronde ruimtelijke intelligentie, essentieel voor toepassingen in embodied robotics, AR/VR en autonoom rijden.

S-Agent: Spatial Tool-Use Elicits Reasoning for Spatial Intelligence