Demystifying Action Space Design for Robotic Manipulation Policies

Each language version is independently generated for its own context, not a direct translation.

De Geheime Taal van Robotarmen: Waarom de "Besturing" Net zo Belangrijk is als de "Leren"

Stel je voor dat je een robotarm wilt leren om een kopje thee te pakken en op een schotel te zetten. Je hebt een supersterke computer (het brein) en je hebt duizenden video's van mensen die dit doen (de lessen). Maar er is één ding dat vaak over het hoofd wordt gezien: hoe vertaal je de gedachten van de computer naar de bewegingen van de arm?

In deze paper noemen de onderzoekers dit de Actieruimte (Action Space). Het is alsof je een robot probeert te leren een taal spreken. Als je de verkeerde taal kiest, kan het beste brein ter wereld toch niets doen.

De onderzoekers hebben een gigantisch experiment gedaan (met meer dan 13.000 echte robotpogingen!) om uit te zoeken welke "taal" het beste werkt. Hier is wat ze ontdekten, vertaald naar alledaagse analogieën:

1. De Twee Hoofdvragen: "Waarheen?" en "Hoeveel?"

De onderzoekers keken naar twee belangrijke keuzes die je moet maken bij het programmeren van een robot:

A. De Ruimte (Waarheen?):

Optie 1: De "Schroef" (Gewrichten/Joint Space). Je vertelt de robot: "Buig je schouder 30 graden, je elleboog 45 graden..." Dit is alsof je een auto bestuurt door te zeggen hoeveel je het stuur, de rem en het gaspedaal moet bewegen. Het is robuust en precies, maar het is lastig om te leren omdat de robot eerst zelf moet uitrekenen waar zijn hand dan precies komt.
Optie 2: De "Hand" (Taakruimte/Task Space). Je vertelt de robot: "Ga naar punt X in de ruimte." Dit is alsof je zegt: "Ga naar de deur." Dit is intuïtief voor ons, maar voor de robot is het lastig omdat hij eerst moet rekenen welke schroeven hij moet draaien om daar te komen. Soms kan die berekening "vastlopen" (zoals een auto die vastzit in de modder).

B. De Tijd (Hoeveel?):

Optie 1: De "Doelwit" (Absolute). Je zegt: "Ga naar de exacte plek waar het kopje staat." Dit is als een GPS die zegt: "Je bent nu op de verkeerde plek, ga naar coördinaten 50, 50." Als je een klein foutje maakt, moet je de hele route opnieuw berekenen.
Optie 2: De "Stap" (Delta/Relatief). Je zegt: "Beweeg je hand een beetje naar rechts en een beetje omhoog." Dit is als een dansleraar die zegt: "Draai een kwartslag naar links." Als je een klein foutje maakt, is dat niet zo erg; je kunt in de volgende stap weer een beetje corrigeren.

2. De Grote Ontdekkingen

Na duizenden pogingen vonden ze twee gouden regels:

Regel 1: "Stap-voor-stap" werkt altijd beter dan "Doelwit".
Het bleek dat robots veel beter leren als je ze vraagt om kleine bewegingen te maken (Delta) in plaats van ze een einddoel te geven (Absolute).

De Analogie: Stel je voor dat je een blindeman door een donker bos leidt.
- Absolute: "Loop 100 meter naar het noorden." Als hij 1 meter afwijkt, is hij na 100 meter ver weg van zijn doel.
- Delta: "Loop 1 stap vooruit, kijk, loop nog 1 stap." Als hij afwijkt, corrigeert hij direct de volgende stap.
- Conclusie: De onderzoekers ontdekten dat de "stap-voor-stap" methode (Delta) overal beter werkt, mits je het slim doet. Ze ontdekten ook dat je niet elke stap apart moet berekenen, maar een blokje van stappen tegelijk (zoals een mini-voorspelling van de komende 2 seconden).

Regel 2: De "Schroef" vs. De "Hand" hangt af van je doel.

Voor één specifieke robot (bijv. alleen op jouw fabriek): Gebruik de "Schroef" (Gewrichten). Als je veel tijd en data hebt, leert de robot zijn eigen lichaam (de schroeven) beter dan de abstracte ruimte. Het wordt dan superstabiel en precies.
Voor een robot die overal moet werken (bijv. van fabriek A naar fabriek B): Gebruik de "Hand" (Taakruimte). Als je een robot wilt leren die ook op een ander type robotarm kan werken, is het beter om te zeggen "Ga naar het kopje" dan "Buig schouder 30 graden". Want schouder 30 graden betekent iets anders voor een korte arm dan voor een lange arm. "Ga naar het kopje" is voor iedereen hetzelfde.

3. Waarom is dit belangrijk?

Vroeger deden onderzoekers dit een beetje op gevoel ("Ad-hoc heuristieken"). Ze kopieerden wat anderen deden zonder te weten waarom.
Deze paper zegt: "Stop met gokken!"

Als je een robot wilt bouwen die precies werk moet doen op één specifiek type robot: Gebruik Gewrichten + Kleine Stappen.
Als je een algemene robot wilt bouwen die overal en op elk type arm moet kunnen werken: Gebruik Handbewegingen + Kleine Stappen.

Samenvatting in één zin

De beste manier om een robot te leren bewegen, is door hem te vragen om kleine, stap-voor-stap bewegingen te maken; of je hem nu vertelt hoe hij zijn gewrichten moet buigen (voor precisie) of waar zijn hand naartoe moet (voor flexibiliteit), hangt af van of hij voor één taak of voor alles moet werken.

Dit onderzoek helpt dus niet alleen robots slimmer te maken, maar bespaart ook duizenden uren aan trial-and-error voor ingenieurs die robots bouwen.

Each language version is independently generated for its own context, not a direct translation.

1. Het Probleem

In het veld van robotmanipulatie op basis van imitatielearning (imitation learning) ligt de focus recentelijk sterk op het schalen van trainingsdata en modelcapaciteit. Echter, de specificatie van de actie-ruimte (action space) – de interface die neurale voorspellingen koppelt aan fysieke hardware – blijft vaak een onderbelichte maar kritieke factor.

Bestaande keuzes voor actie-ruimtes worden vaak gebaseerd op ad-hoc heuristieken of erfelijke ontwerpen uit eerdere codebases, zonder een eenduidig consensus. Dit leidt tot:

Een gebrek aan inzicht in de ontwerpfilosofieën van robotbeleid.
Een gefragmenteerd landschap waar "state-of-the-art" resultaten vaak verward worden met specifieke, ongedocumenteerde controlekeuzes.
Moeilijkheden bij reproduceerbaarheid en het ontwikkelen van fundamentele modellen die over verschillende robotlichamen (embodiments) kunnen worden overgedragen.

De auteurs stellen dat de keuze van de actie-representatie de optimalisatielandschap van het beleidstalen fundamenteel vormgeeft en zowel de leerbaarheid als de stabiliteit van de implementatie bepaalt.

2. Methodologie

De auteurs voeren een grootschalige, systematische empirische studie uit om de impact van actie-ruimte-ontwerp te kwantificeren.

Taxonomie: Ze ontleden de actie-ruimte langs twee orthogonale assen:
1. Temporele abstractie: Absoluut (0e-orde, doelstaten) vs. Delta/Relatief (1e-orde, statetoestanden).
2. Ruimtelijke abstractie: Joint-space (gewrichtsposities) vs. Task-space (eind-effector pose in 3D-ruimte).
3. Actie Chunking: Het voorspellen van een reeks toekomstige acties in plaats van één enkele stap. Ze onderzoeken hierbij de nuance tussen step-wise delta (relatief t.o.v. de vorige voorspelling) en chunk-wise delta (relatief t.o.v. de start van de chunk).
Experimenteel Opzet:
- Hardware: Drie platformen: AgileX (enkelarm en dubbelarm) en AIRBOT.
- Simulatie: RoboTwin-2.0 voor schaalbare, reproduceerbare tests.
- Taken: 4 real-world taken (Touch Cube, Pick Up Cup, Pick and Place, Bimanual Transfer) en 10 simulatie-taken.
- Data: Meer dan 13.000 real-world rollouts en evaluatie van 500+ getrainde modellen.
- Modellen: Vergelijking tussen regressie-gebaseerde modellen (ACT) en generatieve flow-matching modellen (Diffusion Policy), inclusief transfer learning met een foundation model ( $\pi_0$ ).

3. Belangrijkste Bijdragen en Resultaten

De studie levert drie kerninzichten op die de huidige heuristieken verduidelijken:

A. Temporele Abstractie: Delta is Superior

Resultaat: Delta-gebaseerde actie-representaties (relatieve bewegingen) presteren consistent en significant beter dan absolute representaties (globale doelstaten) in alle leerparadigma's.
Reden: Het leren van een directe mapping van visuele observaties naar globale coördinaten is complex en vereist dat het model de wereldgeometrie intern moet modelleren. Delta-acties laten het netwerk toe zich te focussen op onmiddellijke verplaatsingen, wat een tractabelere inductieve bias biedt.
Implementatie Nuance: De studie bewijst dat chunk-wise delta (waarbij alle acties in een chunk relatief zijn ten opzichte van de startpositie van die chunk) fundamenteel superieur is aan step-wise delta. Step-wise delta versterkt voorspellingsfouten lineair met de horizon (accumulatie van ruis), terwijl chunk-wise delta een constante foutgrens behoudt.

B. Ruimtelijke Abstractie: Context-afhankelijk

Standaard Scenario's: Voor specifieke hardware-platforms met voldoende data en trainingsduur, presteert Joint-space controle over het algemeen beter. Dit komt omdat generatieve modellen (zoals Diffusion Policy) de complexe, niet-lineaire configuratie-manifold van de robotarm effectiever kunnen modelleren dan de vaak numeriek instabiele inverse kinematica (IK) die Task-space vereist.
Generalisatie Scenario's: In situaties waar generalisatie cruciaal is (bijv. cross-embodiment learning of transfer learning naar een andere robot), wint Task-space (End-Effector) het. Task-space abstracteert de robot-specifieke kinematica weg, wat kennisoverdracht tussen verschillende robotlichamen vergemakkelijkt.

C. Interactie met Horizon en Schaal

Horizon Coupling: Er is een fundamentele koppeling tussen de actie-abstractie en de optimale uitvoeringshorizon. Delta-acties profiteren van kortere horizons (om drift te minimaliseren), terwijl absolute acties baat hebben bij langere horizons voor globale consistentie.
Schaalwetten: Naarmate de datahoeveelheid en modelcapaciteit toenemen, wordt het voordeel van Joint-space controle voor regressie-modellen nog duidelijker. Delta-acties blijven echter de superieure temporele keuze ongeacht de schaal.

4. Praktische Richtlijnen

De auteurs formuleren drie actieerbare richtlijnen voor toekomstig onderzoek en implementatie:

Pas de horizon aan: De uitvoeringshorizon ( $k$ ) van actie-chunking mag niet als een constante worden behandeld; deze moet worden aangepast aan de temporele abstractie (kort voor delta, lang voor absoluut).
Standaard Instelling: Voor standaard imitatielearning op een specifiek hardware-platform (met voldoende resources), is de combinatie van Joint-space en chunk-wise delta de meest robuuste keuze.
Generalisatie Instelling: Wanneer het doel verschuift naar generalisatie (bijv. cross-embodiment of transfer learning), wordt Task-space de superieure ruimtelijke abstractie.

5. Betekenis en Impact

Deze studie is van groot belang omdat het de "black box" van actie-ruimte-ontwerp ontrafelt. Het biedt een wetenschappelijke basis voor keuzes die vaak intuïtief werden gemaakt.

Het verhoogt de reproduceerbaarheid in het veld van robotlearning.
Het helpt bij het ontwerpen van robuustere fundamentele modellen (foundation models) voor robots.
Het bespaart rekenkracht en tijd door te voorkomen dat onderzoekers suboptimale configuraties (zoals step-wise delta of verkeerde horizons) blijven gebruiken.

Kortom, het paper beweert dat actie-ruimte-ontwerp geen triviaal implementatiedetail is, maar een cruciale configuratie die direct samenwerkt met leerregimes om de uiteindelijke prestaties van robotmanipulatie te bepalen.

Demystifying Action Space Design for Robotic Manipulation Policies

1. De Twee Hoofdvragen: "Waarheen?" en "Hoeveel?"

2. De Grote Ontdekkingen

3. Waarom is dit belangrijk?

Samenvatting in één zin

1. Het Probleem

2. Methodologie

3. Belangrijkste Bijdragen en Resultaten

A. Temporele Abstractie: Delta is Superior

B. Ruimtelijke Abstractie: Context-afhankelijk

C. Interactie met Horizon en Schaal

4. Praktische Richtlijnen

5. Betekenis en Impact

Meer zoals dit

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation