RetoVLA: Reusing Register Tokens for Spatial Reasoning in Vision-Language-Action Models

Each language version is independently generated for its own context, not a direct translation.

De "Geheugen-Notitie" van de Robot: Hoe RetoVLA Slimmer Maakt zonder Zwaarder te Worden

Stel je voor dat je een robot wilt bouwen die niet alleen kan kijken en praten, maar ook echt dingen kan doen in de echte wereld, zoals een lade openen of een bord opruimen. Dit soort robots noemen we VLA-modellen (Vision-Language-Action). Ze zijn echter vaak als een zware, trage olifant: ze hebben enorme rekenkracht nodig en zijn te traag om in real-time te werken op een fysieke robot.

Om dit op te lossen, hebben onderzoekers eerder geprobeerd de robot "kleiner" te maken, alsof je een zware laptop vervangt door een dunne tablet. Maar hier zit een probleem: door de robot lichter te maken, verloor hij zijn ruimtelijk inzicht. Hij zag wel een object, maar begreep niet goed waar het precies zat in de kamer of hoe de ruimte eruitzag. Het was alsof je iemand een bril gaf die alleen scherpe details zag, maar de rest van de kamer in een wazige mist hield.

Hier komt RetoVLA (Reusing Register Tokens for Spatial Reasoning) om de hoek kijken. Dit is een slimme truc die de robot weer zijn ruimtelijk inzicht teruggeeft, zonder dat hij zwaarder of trager wordt.

De Magische "Kladblok"-Truc

Om te begrijpen hoe RetoVLA werkt, moeten we kijken naar hoe robots beelden "lezen". Ze doen dit in stukjes (zoals een puzzel).

Het Oude Probleem: Grote robothersenen gebruiken soms extra stukjes in hun brein (zogenaamde Register Tokens) als een tijdelijk kladblok. Hier schrijven ze globale informatie op, zoals "ik ben in een keuken" of "er staat een tafel links". Maar zodra de robot zijn taak heeft gedaan, gooien ze dit kladblok gewoon weg. Het is als een notitie die je schrijft, leest, en dan direct in de prullenbak gooit.
Het Nieuwe Idee: De onderzoekers van RetoVLA dachten: "Wacht even! Die notities bevatten juist de informatie die we missen: de grote lijn van de kamer."
De Oplossing: In plaats van die notities weg te gooien, hergebruiken ze ze. Ze nemen die "Register Tokens" en sturen ze direct door naar de actie-deel van de robot (de motor die de armen beweegt).

Een Levensecht Voorbeeld

Stel je voor dat je een robot de opdracht geeft: "Haal de rode blok uit de bovenste lade."

De oude, lichte robot (zonder RetoVLA): Hij kijkt naar de lade en ziet een rode blok. Maar omdat hij zijn "ruimtelijk geheugen" (de kladblokken) heeft weggegooid, weet hij niet zeker of het de bovenste of onderste lade is. Hij grijpt misschien de verkeerde lade open.
De RetoVLA-robot: Hij heeft die "geheugen-notities" bewaard. Die notities zeggen hem: "Onthoud, we zijn in een keuken en de bovenste lade is die met de zilveren handgreep." Hierdoor begrijpt hij de context perfect en pakt hij de juiste lade.

Wat is het Resultaat?

De onderzoekers hebben dit getest op een echte robotarm met 7 gewrichten (zoals een menselijke arm) en in een virtuele wereld.

Beter presteren: De robot slaagde 17% vaker in zijn taken dan de concurrenten.
Geen extra gewicht: Het mooie is dat ze geen extra zware software hoefden toe te voegen. Ze maakten alleen slim gebruik van informatie die al aanwezig was maar werd weggegooid.
Focus: Door de "grote lijn" (de kamerindeling) aan de Register Tokens over te laten, kan de robot zijn eigen ogen (de camera) beter richten op de kleine details, zoals waar hij precies moet grijpen. Het is alsof je een assistent hebt die de kamerindeling onthoudt, zodat jij je kunt concentreren op het vastpakken van het kopje.

Conclusie

RetoVLA is als het vinden van een verloren sleutel in je eigen huis. Je dacht dat je hem kwijt was, maar hij zat gewoon in je jaszak. Door die sleutel (de Register Tokens) weer te gebruiken, wordt de robot niet alleen lichter en sneller, maar ook veel slimmer in het begrijpen van de 3D-wereld om hem heen. Het is een bewijs dat je niet altijd grotere, zwaardere robots nodig hebt; soms moet je alleen maar slimmer omgaan met wat je al hebt.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Vision-Language-Action (VLA) modellen, zoals RT-2 en OpenVLA, tonen robuuste prestaties bij diverse robotische taken door natuurlijke taal instructies om te zetten in motorische commando's. Echter, hun enorme grootte en hoge rekenkosten vormen een grote bottleneck voor realtime implementatie op fysieke hardware. Bestaande oplossingen om modellen lichter te maken (zoals SmolVLA) leiden vaak tot een verlies van vermogen in 3D ruimtelijke redenering en het begrijpen van de lay-out van een scène. Lichtere modellen missen vaak de capaciteit om complexe ruimtelijke relaties te representeren, wat essentieel is voor succesvolle manipulatie in de echte wereld.

Methodologie: RetoVLA

RetoVLA introduceert een architectuur die specifiek is ontworpen om ruimtelijk bewustzijn te behouden in lichte modellen zonder extra parameters toe te voegen. De kern van de methode ligt in het hergebruiken van "Register Tokens".

Hergebruik van Register Tokens:
- In grote Vision Transformers (ViT) worden Register Tokens oorspronkelijk geïntroduceerd om artefacten in de aandacht (attention artifacts) te absorberen tijdens het trainen. Normaal gesproken worden deze tokens na de verwerking verworpen.
- RetoVLA hypothesiseert dat deze tokens een sterk gecomprimeerde samenvatting bevatten van de werkruimte en 3D-relaties. In plaats van ze weg te gooien, worden ze hergebruikt als dragers van globale ruimtelijke context.
Architectuur en Informatiestroom:
- Spatial Context Aggregator: De beeld-patch-features van de VLM worden verwerkt door een multi-head attention blok. De Register Tokens fungeren hier als query, terwijl de beeldpatches als keys en values dienen. Dit resulteert in een globale scène-samenvatting ( $R_{scene}$ ).
- Injectie in de Action Expert: De gegenereerde globale context wordt geprojecteerd en direct geïnjecteerd in de "Action Expert" (het onderdeel dat de robotacties plant). Dit gebeurt via een cross-attention laag die lokale details (standaard patches) combineert met de globale context (Register Tokens).
- Gating Mechanisme: Omdat globale context afleidend kan zijn bij taken die extreme precisie vereisen, wordt een leerbaar "gate"-parameter ( $g$ ) ingevoerd. Deze wordt door een sigmoid-functie geleid om de invloed van de Register Tokens adaptief te regelen, waardoor het model kan balanceren tussen lokale precisie en globale context.
Training:
- Het model wordt getraind met Conditional Flow Matching. Dit is een methode om ruis om te zetten naar robotacties, geconditioneerd op beeld- en tekstinput. Het doel is om het vectorverschil tussen de huidige staat en de gewenste actie te minimaliseren.

Belangrijkste Bijdragen

Injectie van Ruimtelijke Context: Een nieuwe methode om Register Tokens om te vormen van "artefact-absorbers" naar leveranciers van ruimtelijke context, die direct worden gevoed aan het actieplanningsmodule.
Efficiënt Ontwerp: Het hergebruik van bestaande latent informatie herstelt ruimtelijk bewustzijn in lichte modellen (zoals SmolVLA) zonder extra rekenkosten of parameters toe te voegen.
Uitgebreide Evaluatie: Succesvolle validatie op zowel de LIBERO-benchmark, een gesimuleerde omgeving (Unity/MuJoCo), en een fysieke 7-DOF robotarm in de echte wereld.

Resultaten

De experimenten tonen aanzienlijke verbeteringen, vooral bij taken die diepgaand ruimtelijk inzicht vereisen:

Real-World Prestaties: Op een 7-DOF robotarm steeg het gemiddelde succespercentage van 50,3% naar 67,4% (+17,1% punten) ten opzichte van de SmolVLA-baseline.
Specifieke Taken: De verbeteringen zijn het grootst bij complexe ruimtelijke taken:
- Close Drawer: +36% verbetering.
- Build Domino Line: +28% verbetering.
- Pull and Place (Jenga): +18% verbetering.
LIBERO Benchmark: Er waren duidelijke winsten in "Working Memory" (+11,5%) en "Global & 3D Spatial Reasoning" (+9,0%).
Aandachtanalyse: Visualisaties tonen aan dat RetoVLA minder aandacht besteedt aan uniforme achtergronden (die door de Register Tokens worden verwerkt) en meer focus legt op de grijper en de doelobjecten. Dit verklaart de betere prestaties.
Nadeel: Er is een lichte daling in prestaties bij taken die extreme lokale precisie vereisen, wat suggereert dat de gating-mechanisme nog verfijnd kan worden.

Betekenis en Conclusie

RetoVLA demonstreert dat het effectief hergebruiken van interne representaties (Register Tokens) een krachtige strategie is om de efficiëntie van robotische agenten te verhogen zonder in te leveren op ruimtelijk inzicht. Het paper lost een cruciaal probleem op: hoe je lichte, snelle modellen kunt maken die toch complexe 3D-omgevingen begrijpen.

De methode biedt een pad naar real-time, op hardware draaiende robotica die minder afhankelijk is van zware rekenkracht, maar wel in staat is om complexe manipulatieopdrachten uit te voeren. De auteurs delen hun code, modelgewichten en hardware-ontwerpen om verdere research te stimuleren.

RetoVLA: Reusing Register Tokens for Spatial Reasoning in Vision-Language-Action Models

De Magische "Kladblok"-Truc

Een Levensecht Voorbeeld

Wat is het Resultaat?

Conclusie

Probleemstelling

Methodologie: RetoVLA

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers