ROCKET: Residual-Oriented Multi-Layer Alignment for Spatially-Aware Vision-Language-Action Models

Dit paper introduceert ROCKET, een residual-georiënteerd raamwerk voor multi-layer representatie-uitlijning dat 2D Vision-Language-Action-modellen verrijkt met 3D ruimtelijk inzicht door middel van een gedeelde projector, wat leidt tot state-of-the-art prestaties op robotica-benchmarks met slechts een fractie van de rekkracht.

Guoheng Sun, Tingting Du, Kaixi Feng, Chenxiang Luo, Xingguo Ding, Zheyu Shen, Ziyao Wang, Yexiao He, Ang Li

Gepubliceerd 2026-02-23
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

ROCKET: De Raket die Robots een 3D-Gevoel geeft

Stel je voor dat je een robot wilt leren om een mok op een fornuis te zetten. Een slimme robot moet niet alleen weten wat een mok is (dat is taal en beeld), maar ook precies weten waar hij is, hoe zwaar hij is en hoe hij eruitziet in de ruimte (dat is 3D-ruimtelijk inzicht).

Het probleem met de slimme robots van vandaag is dat ze zijn opgeleid met platte, 2D-foto's (zoals Instagram). Ze zien de wereld als een schilderij, niet als een driedimensionale ruimte. Ze weten niet goed hoe diep iets is of hoe het eruitziet als je er omheen loopt.

De auteurs van dit paper hebben ROCKET bedacht. Het is een slimme methode om robots te leren hoe ze de 3D-wereld moeten begrijpen, zonder dat ze duizenden uren extra training nodig hebben. Hier is hoe het werkt, vertaald in alledaagse termen:

1. Het Probleem: De "Eén-Lagen" Fout

Vroeger probeerden onderzoekers robots te helpen door ze te laten kijken naar een "meester" (een heel slim 3D-model) op één specifiek moment in het denkproces van de robot.

  • De analogie: Stel je voor dat je een student (de robot) wilt leren wiskunde. Je laat hem alleen naar de oplossing kijken op één pagina van het antwoordboekje.
  • Het nadeel: Soms is dat de juiste pagina, maar vaak niet. Als je de verkeerde pagina kiest, leert de student niets. Als je probeert naar alle pagina's tegelijk te kijken met aparte docenten voor elke pagina, raken de instructies in de war en conflicteren ze met elkaar. De student wordt gek en leert niets.

2. De Oplossing: ROCKET (De Raket)

ROCKET lost dit op met twee slimme trucs:

Truc 1: De "Gemeenschappelijke Vertaler" (Shared Projector)

In plaats van voor elke laag van het denkproces een aparte vertaler te hebben, gebruikt ROCKET één enkele, slimme vertaler voor alle lagen.

  • De analogie: Stel je voor dat je een gesprek voert met iemand die een andere taal spreekt. In plaats van dat je voor elk woord een andere tolk roept (wat chaos veroorzaakt), heb je één tolk die het hele gesprek vertaalt. Deze tolk zorgt ervoor dat de boodschap consistent blijft, van het begin tot het eind.
  • Het resultaat: De robot leert veel sneller en de instructies van de "meester" (het 3D-model) werken samen in plaats van tegen elkaar.

Truc 2: De "Matroesjka" (De Poppenkast)

Soms is de robot al snel goed in het begrijpen van simpele dingen (zoals "dit is een mok"), maar heeft hij meer hulp nodig bij complexe dingen (zoals "hoe draai ik de mok precies?"). Als de robot al snel is, kan hij de rest van de training vergeten omdat hij zich alleen richt op die simpele dingen.

  • De analogie: Denk aan een Russische Matroesjka-pop. De buitenste pop is klein en simpel. De binnenste poppen zijn groter en complexer. ROCKET werkt zo:
    • Voor de simpele lagen (de buitenste pop) gebruikt de robot maar een klein stukje van zijn vertaler.
    • Voor de complexe lagen (de binnenste poppen) schakelt hij de hele vertaler in.
  • Het resultaat: De robot besteedt de juiste hoeveelheid aandacht aan elk niveau van complexiteit. Hij wordt niet overspoeld door te veel informatie op het begin, maar krijgt wel de volle kracht van de hulp later in het proces.

3. Waarom is dit zo geweldig?

  • Snelheid: ROCKET is zo efficiënt dat de robot in slechts 4% van de tijd en rekenkracht leert wat andere methoden in 100% van de tijd doen. Het is alsof je een auto hebt die met een volle tank benzine 1000 km rijdt, terwijl andere auto's maar 100 km halen.
  • Betrouwbaarheid: De robot wordt veel beter in ruimtelijke taken. Hij kan beter omgaan met veranderingen in de omgeving (bijvoorbeeld: de mok staat nu links in plaats van rechts).
  • Alles-in-één: Het werkt voor verschillende soorten robots en taken, van het openen van een magnetron tot het spelen van een kaartspel met twee handen.

Samenvatting

ROCKET is als het geven van een bril aan een robot die tot nu toe alleen in 2D heeft geleefd. Het doet dit niet door de robot te overladen met informatie, maar door een slimme, gedeelde vertaler te gebruiken die de instructies van een 3D-expert consistent doorgeeft, en die precies weet hoeveel hulp de robot op elk moment nodig heeft. Het resultaat is een robot die de wereld niet alleen ziet, maar echt begrijpt.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →