Iterative On-Policy Refinement of Hierarchical Diffusion Policies for Language-Conditioned Manipulation

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot wilt leren om complexe taken uit te voeren, zoals "zet de rode blok op de blauwe blok" of "trek de lade open". Dit klinkt simpel, maar voor een robot is het een enorme uitdaging. Het is alsof je iemand vraagt om een hele maaltijd te koken, maar je geeft alleen de opdracht "maak een lasagne" zonder te vertellen hoe je de oven aan moet zetten of hoe je de saus moet roeren.

In de wereld van robotica wordt dit vaak opgelost met een hiërarchisch systeem:

De Chef (Hoog niveau): Deze denkt na over het grote plaatje. Hij bedenkt de stappen: "Eerst de blok pakken, dan verplaatsen, dan neerzetten."
De Kok (Laag niveau): Deze voert de daadwerkelijke bewegingen uit. Hij regelt de motoren en de grijper.

Het Probleem: De Chef en de Kok praten niet met elkaar

Het probleem in de oude methoden is dat de Chef vaak plannen bedenkt die de Kok niet kan uitvoeren.

Voorbeeld: De Chef denkt: "Pak die blok en leg hem precies 10 centimeter naar links." Maar de Kok heeft een beperkte grijper en kan die blok niet zo ver schuiven.
Het gevolg: De robot probeert het, faalt, en de Chef weet niet waarom. De Chef blijft plannen maken die onmogelijk zijn voor de Kok.

Oude methoden proberen dit op te lossen door een "tussenpersoon" in te schakelen of door de Chef en Kok samen te laten trainen op een vast, statisch dataset (een boek met voorbeelden). Maar dit boek is nooit compleet. Als de robot een situatie tegenkomt die niet in het boek staat, faalt hij.

De Oplossing: HD-ExpIt (De "Leer-Door-Doe"-Cyclus)

De auteurs van dit paper hebben een nieuwe methode bedacht, genaamd HD-ExpIt. Ze vergelijken dit met een kookcursus waarbij je niet alleen uit een boek leert, maar ook zelf in de keuken gaat experimenteren.

Hier is hoe het werkt, in simpele termen:

1. De "Gok-En-Kijk"-Cyclus (Iteratief Leren)

In plaats van alleen te kijken naar het oude boek (het statische dataset), laat HD-ExpIt de robot proberen.

De Chef bedenkt een plan.
De Kok probeert het uit.
Feedback: Als het lukt, is het een goed plan! Als het mislukt, is het een slecht plan.
De Magie: Omdat de Chef (een zogenaamd "diffusiemodel") een beetje willekeurig werkt, probeert hij veel verschillende varianten van een plan. Het is alsof de Chef 100 keer een recept bedenkt, en de Kok 100 keer probeert het te koken. De 10 keer dat het lukt, worden opgeslagen als "nieuwe kennis".

2. De Leerkracht die zichzelf verbetert

De robot pakt al die geslaagde pogingen en gebruikt ze om de Chef en de Kok opnieuw te trainen.

De Chef leert: "Ah, ik moet geen plannen maken die de Kok niet kan uitvoeren."
De Kok leert: "Ik word beter in het uitvoeren van deze specifieke taken."
Dit proces herhaalt zich steeds. Elke ronde is de robot slimmer dan de vorige.

3. Geen "Tussenpersoon" nodig

Bij oude methoden had je vaak een extra module nodig die de Chef vertelde wat de Kok kon. HD-ExpIt doet dit impliciet. Omdat de Chef alleen plannen maakt die de Kok daadwerkelijk heeft geslaagd, leert de Chef vanzelf wat de grenzen van de Kok zijn. Het is alsof de Chef en de Kok door veel samen te werken, een onuitsprekelijke "klik" krijgen zonder dat ze een woordenboek nodig hebben.

Waarom is dit zo cool?

Het werkt beter: Op de CALVIN-benchmark (een soort "Olympische Spelen" voor robots) heeft deze methode de beste resultaten ooit behaald. De robot kan nu veel langere reeksen taken uitvoeren zonder vast te lopen.
Het is zelflerend: De robot hoeft niet te wachten op een menselijke expert om elke fout te corrigeren. Hij leert uit zijn eigen successen en mislukkingen.
Het is flexibel: Omdat de robot zelf nieuwe situaties exploreert, kan hij taken aan in omgevingen die hij nog nooit eerder heeft gezien.

Samenvattend in een metafoor

Stel je voor dat je een pianist wilt leren.

Oude methode: Je geeft de leerling een partituur (het dataset) en zegt: "Oefen dit." Als de leerling een akkoord niet kan spelen, blijft hij dat proberen tot hij moe is, maar hij leert niet echt hoe hij het wel moet doen als de muziek anders wordt.
HD-ExpIt: Je laat de leerling improviseren. Hij probeert een melodie. Als het mooi klinkt, noteer je dat. Als het lelijk klinkt, gooi je het weg. De volgende dag oefen je alleen met de mooie melodieën die je hebt gevonden. Na een paar weken heeft de leerling niet alleen de partituur geleerd, maar heeft hij ook ontdekt welke akkoorden hij fysiek kan spelen en welke niet. Hij is een veel betere pianist geworden door te doen in plaats van alleen te lezen.

Kortom: HD-ExpIt geeft robots de kans om te "dromen" over oplossingen, die dan in de echte wereld worden getest, zodat ze uiteindelijk slimmer en bekwaamder worden dan ooit tevoren.

Each language version is independently generated for its own context, not a direct translation.

Hieronder volgt een gedetailleerde technische samenvatting van het paper "Iterative On-Policy Refinement of Hierarchical Diffusion Policies for Language-Conditioned Manipulation" in het Nederlands.

Probleemstelling

Robotische manipulatie op basis van taalvereist het vertalen van multimodale input (visuele observaties en natuurlijke taal instructies) naar continue robotacties. Dit is bijzonder uitdagend bij taken met een lange horizon en grote diversiteit. Hoewel monolithische Vision-Language-Action (VLA) modellen indrukwekkend zijn, vereisen ze enorme datasets voor pre-training.

Hierarchische beleidsstrategieën (High-Level Planner en Low-Level Controller) zijn een populair alternatief dat de taak decomposeert. Echter, deze systemen lijden vaak aan een fundamenteel probleem: de "HL-LL coupling mismatch".

De High-Level (HL) planner genereert subdoelen (bijv. visuele tussenstappen) zonder rekening te houden met de fysieke beperkingen of capaciteiten van de Low-Level (LL) controller.
Bestaande oplossingen proberen dit gat te dichten via "glue"-modules of gedeelde representaties, maar deze methoden zijn beperkt tot statische, offline datasets. Ze kunnen niet generaliseren naar ongezette situaties en missen de mogelijkheid om zich aan te passen aan de werkelijke uitvoeringscapaciteiten van de controller tijdens het trainen.

Methodologie: HD-ExpIt

De auteurs stellen HD-ExpIt (Hierarchical Diffusion with Expert Iteration) voor, een framework voor iteratieve verfijning van hierarchische diffusiopolitiek via feedback uit de omgeving. Het systeem creëert een zelfversterkende cyclus die inspiratie haalt uit het Expert Iteration-algoritme, maar dan aangepast voor continue robotica.

Kerncomponenten:

Hierarchische Architectuur:
- High-Level (HL): Een diffusiemodel dat een volledige reeks visuele subdoelen (een plan) genereert op basis van een tekstuele instructie en de initiële observatie.
- Low-Level (LL): Een controller (bijv. Diffusion Policy of Action Chunk Transformer) die actie-chunks uitvoert om van het huidige beeld naar het volgende subdoel te gaan.
Het Iteratieve Trainingsproces:
In plaats van te vertrouwen op een vaste dataset, doorloopt HD-ExpIt de volgende stappen in iteraties $t$ :
- Supervised Training: De HL en LL worden onafhankelijk getraind op een dataset $D_t$ (initieel een offline dataset $D_0$ ).
- On-Policy Rollouts & Zoeken: De getrainde strategie $\pi_t$ wordt gebruikt om rollouts te genereren. De stochasticiteit van de diffusioplanner fungeert hier als een generatieve zoekmechanisme. Door $K$ keer te samplen voor dezelfde context, worden verschillende plannen verkend.
- Feedback-Filtering: Alleen die rollouts die succesvol zijn (gebaseerd op een binair beloningssignaal uit de omgeving) worden geselecteerd. Dit filtert plannen die buiten het uitvoerbare bereik van de LL vallen.
- Dataset Aggregatie: De succesvolle trajecten worden toegevoegd aan de dataset ( $D_{t+1} = D_t \cup R_t$ ) of vervangen de dataset (bij de fine-tuning variant).
- Context Diversiteit: Om exploratie te maximaliseren, worden rollouts niet alleen gestart vanuit standaard reset-omgevingen, maar ook vanuit staten die door de "expert" (de huidige agent) in eerdere iteraties zijn bezocht. Dit helpt de agent om verder te kijken dan de initiële dataset.
Implicit Alignment:
Belangrijk is dat HL niet direct wordt getraind om de LL te modelleren (geen proxy-modellen). In plaats daarvan leert HL implicit door alleen te worden getraind op trajecten die de LL daadwerkelijk succesvol heeft uitgevoerd. Hierdoor "grondt" de planner zich vanzelf in de capaciteiten van de controller.

Belangrijkste Bijdragen

HD-ExpIt Framework: Een eenvoudig en stabiel framework voor continue verbetering van hierarchische diffusiopolitiek via een zelfversterkende trainingslus, zonder complexe zoekalgoritmen zoals MCTS.
Implicit Alignment: Een nieuw trainingsparadigma waarbij omgevingsfeedback de HL en LL implicit op elkaar afstemt, waardoor de planner leert plannen te genereren die binnen het haalbare gebied van de controller vallen.
Empirische Validatie: Uitgebreide evaluatie op de Franka-3Blocks en de uitdagende CALVIN-benchmarks, waarbij wordt aangetoond dat de methode offline getrainde politiek significant verbetert.

Resultaten

De experimenten tonen aanzienlijke verbeteringen aan op twee benchmarks:

Franka-3Blocks: Een enkele iteratie van HD-ExpIt verhoogt het succespercentage van 70% naar meer dan 94%.
CALVIN Benchmark (D→D setting):
- Korte horizon (MTLC): De succes率 stijgt van ~89,8% naar 95,2% na drie iteraties.
- Lange horizon (LH-MTLC): Dit is de meest kritieke test voor langdurige taken. De gemiddelde lengte van succesvolle taakreeksen steeg van 2,69 naar 4,28 (een verdubbeling van het succespercentage voor het voltooien van 5 opeenvolgende taken).
- State-of-the-Art (SOTA): HD-ExpIt bereikt de beste prestaties onder methoden die vanaf nul worden getraind, en overtreft bestaande baselines zoals MDT, TaKSIE en HULC.
- Component Synergie: Analyse toont aan dat zowel de planner als de controller verbeteren. De planner leert plannen te maken die beter passen bij de controller, zelfs als deze wordt gecombineerd met een andere controller dan tijdens het trainen.

Betekenis en Impact

Dit paper is significant omdat het een oplossing biedt voor het "coupling mismatch"-probleem in hierarchisch robotleren zonder de noodzaak van complexe proxy-modellen of gedeelde representaties die instabiliteit kunnen veroorzaken.

Overcoming Offline Limits: Het overwint de beperkingen van statische offline datasets door de agent in staat te stellen nieuwe, succesvolle gedragingen te ontdekken die niet in de oorspronkelijke dataset stonden.
Stabiliteit: Door gebruik te maken van supervisie op succesvolle rollouts in plaats van directe policy gradients (zoals bij RL), behoudt het de stabiliteit van supervised learning, wat cruciaal is voor de training van diffusiomodellen.
Toekomstperspectief: De methode biedt een schaalbare route naar robuuste, langdurige robotmanipulatie die beter generaliseert naar ongezette omgevingen en complexe taakreeksen, wat een belangrijke stap is richting algemene robotica.

Iterative On-Policy Refinement of Hierarchical Diffusion Policies for Language-Conditioned Manipulation

Het Probleem: De Chef en de Kok praten niet met elkaar

De Oplossing: HD-ExpIt (De "Leer-Door-Doe"-Cyclus)

1. De "Gok-En-Kijk"-Cyclus (Iteratief Leren)

2. De Leerkracht die zichzelf verbetert

3. Geen "Tussenpersoon" nodig

Waarom is dit zo cool?

Samenvattend in een metafoor

Probleemstelling

Methodologie: HD-ExpIt

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers