H-WM: Robotic Task and Motion Planning Guided by Hierarchical World Model

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een robot wilt leren om een complexe taak uit te voeren, zoals het opruimen van een rommelige kamer of het maken van een sandwich met tien ingrediënten. Als je de robot gewoon zegt: "Maak een sandwich," en hem direct de camera-voeding geeft, raakt hij vaak in de war. Hij weet niet waar hij moet beginnen, vergeet stappen, of maakt een enorme puinhoop omdat hij niet kan plannen vooruit. Dit is het probleem waar de meeste huidige robots tegenaan lopen: ze zijn goed in directe reacties, maar slecht in langdurige planning.

Deze paper introduceert een slimme oplossing genaamd H-WM (Hierarchical World Model). Laten we dit uitleggen met een analogie uit het dagelijks leven.

De Analogie: De Architect en de Bouwvakker

Stel je een groot bouwproject voor. Je hebt twee hoofdrollen nodig:

De Architect (Het Logische Model): Deze persoon ziet het grote plaatje. Hij tekent de blauwdruk, bepaalt welke muur eerst moet komen, en zorgt dat de fundering sterk is. Hij denkt in stappen: "Eerst de fundering, dan de muren, dan het dak." Hij praat niet over de kleur van de verf of de textuur van de baksteen, maar over de logica van de bouw.
De Bouwvakker (De Robot/VLA): Deze persoon doet het zware werk. Hij ziet de bakstenen, voelt de mortel en pakt de hamer. Hij moet precies weten hoe hij een baksteen moet leggen, maar hij kan niet zelf het hele huis plannen.

Het probleem met oude robots:
Eerdere methoden probeerden de bouwvakker direct de blauwdruk te geven, of ze gaven hem alleen een vaag idee ("Bouw een huis"). De bouwvakker raakte dan in de war, vergat stappen, of begon met het dak voordat er muren waren.

De oplossing van H-WM:
De auteurs van dit paper hebben een systeem bedacht dat twee niveaus combineert, precies zoals een architect en een bouwvakker samenwerken.

1. Het Logische Niveau (De Architect)

Dit deel van het systeem (het "Logische Wereldmodel") werkt als een slimme planner. Het denkt in symbolen en logica, niet in beelden.

Wat doet het? Het beseft: "Om de deur te openen, moet ik eerst de sleutel pakken."
De kracht: Het is heel goed in lange reeksen stappen en zorgt dat de logica klopt. Het voorkomt dat de robot dingen doet die fysiek onmogelijk zijn of in de verkeerde volgorde.

2. Het Visuele Niveau (De Visuele Wereld)

Dit is het nieuwe en slimme deel. De architect (logica) zegt: "Nu moet de deur open." Maar hoe ziet een open deur eruit voor de robot?

Wat doet het? Het vertaalt de logische stap ("Deur open") naar een visueel doel. Het zegt niet: "Maak een foto van een open deur," maar het genereert een soort "geestelijk beeld" of een schets van hoe de situatie eruit moet zien nadat de deur open is.
De kracht: Dit geeft de robot (de bouwvakker) een duidelijk doel om naar te werken. Het zorgt dat de robot niet alleen luistert naar de logica, maar ook ziet wat hij moet doen.

Hoe werkt het samen?

Stel je voor dat je een robot vraagt om koffie te zetten.

Stap 1 (Logica): Het systeem denkt: "Eerst de kop pakken, dan de koffiekan pakken, dan gieten."
Stap 2 (Visueel): Voor de stap "Kop pakken", genereert het systeem een visueel doel: "De robotarm moet zich richten op de kop, en de greep moet de kop vastpakken."
Stap 3 (Uitvoering): De robot (VLA) kijkt naar zijn camera, ziet de kop, en gebruikt het visuele doel om precies te weten hoe hij moet grijpen.

Zodra de kop gepakt is, gaat het systeem automatisch naar de volgende logische stap en genereert een nieuw visueel doel voor het gieten.

Waarom is dit zo goed?

In de paper tonen ze aan dat robots met dit systeem veel beter zijn in lange taken (zoals 10 of 20 stappen) dan robots die alleen kijken naar beelden of alleen naar taal luisteren.

Zonder H-WM: De robot vergeet halverwege dat hij de suiker al had gepakt, of hij giet de koffie op de tafel in plaats van in de kop, omdat hij de lange reeks stappen niet kan onthouden.
Met H-WM: De robot heeft een "hoofd" (logica) dat de route plakt en een "oog" (visueel) dat de weg ziet. Als hij een fout maakt, kan het systeem het corrigeren omdat het weet waar hij moet zijn in het plan.

De "Magische" Delen

Geen pixel-perfect video's: Oude methoden probeerden soms hele video's van de toekomst te genereren (wat heel zwaar en onnauwkeurig is). H-WM is slimmer: het maakt geen volledige video, maar alleen een "schets" (een latente feature) van het doel. Dit is veel sneller en nauwkeuriger.
Fouten voorkomen: Omdat het systeem in stappen werkt, bouwt het geen fouten op. Als de robot in stap 3 een klein foutje maakt, kan hij in stap 4 nog steeds de juiste logica volgen, in plaats dat de hele taak mislukt.

Conclusie

Kortom, H-WM is als het geven van een robot een slimme assistent die twee dingen doet:

Hij houdt het grote plan bij (Logica).
Hij laat de robot precies zien wat het einddoel van elke stap is (Visueel).

Hierdoor kunnen robots nu taken uitvoeren die veel langer en complexer zijn dan voorheen mogelijk was, zonder in de war te raken of halverwege te stoppen. Het is een grote stap in de richting van robots die echt kunnen "nadenken" en "plannen" in onze echte wereld.

Each language version is independently generated for its own context, not a direct translation.

Hieronder volgt een gedetailleerde technische samenvatting van het paper "H-WM: Robotic Task and Motion Planning Guided by Hierarchical World Model" in het Nederlands.

Probleemstelling

Bestaande Vision-Language-Action (VLA) modellen, die visuele waarnemingen en taalopdrachten direct naar robotacties vertalen, kampen met ernstige beperkingen bij langdurige taken (long-horizon tasks). De prestaties nemen af naarmate de taakcomplexiteit en het aantal stappen toenemen, voornamelijk door:

Cumulatieve fouten: Kleine uitvoeringsfouten stapelen zich op, wat leidt tot het falen van de hele taak.
Ambiguïteit: Taalopdrachten zijn vaak vaag en niet strikt gekoppeld aan fysieke beperkingen.
Gebrek aan tussenstappen: End-to-end modellen missen gestructureerde tussenstappen (intermediate guidance) om de uitvoering te sturen.

Bestaande oplossingen vallen in drie categorieën, die elk tekortschieten:

LLM-gebaseerde planners: Gebruiken taal als interface, maar worstelen met fysieke constraints en leiden tot semantische misalignments.
Visuele wereldmodellen: Proberen toekomstige beelden te genereren, maar lijden aan cumulatieve voorspellingsfouten over lange tijdshorizons.
Klassieke Taak- en Bewegingsplanning (TAMP): Gebruiken logische symbolen voor robuuste redenering, maar zijn vaak niet gekoppeld aan ruwe visuele waarneming, waardoor ze breekbaar zijn bij perceptie-ruis en slecht schalen naar ongestructureerde omgevingen.

Er is een behoefte aan een systeem dat logische redenering (voor lange-termijn consistentie) en visuele gronding (voor fysieke uitvoerbaarheid) combineert.

Methodologie: H-WM (Hierarchical World Model)

De auteurs stellen een nieuw raamwerk voor, H-WM, dat logische en visuele statetransities binnen één unificerend kader voorspelt. Het systeem werkt op twee temporele resoluties:

Logische laag (Subtask-stap $m$ ): Wordt één keer per subtaak opgeroepen.
Visuele/Actie-laag (Tijdstap $t$ ): De VLA-politiek voert continue lage-niveau controle uit binnen elke subtaak.

Het model bestaat uit drie kerncomponenten:

1. Logische Wereldmodel (Logical World Model)

Doel: Lange-termijn symbolische redenering.
Implementatie: Een fijngefineerde Large Language Model (LLM) die symbolische planningsdynamica leert uit data.
Functie: Het fungeert zowel als zoekmachine ( $M_{search}$ ) die kandidaat-acties en statetransities voorstelt, als als evaluator ( $M_{eval}$ ) die trajecten scoort op logische consistentie.
Voordeel: Het biedt globaal consistente taaksturing en dwingt fysieke en logische constraints af, zonder afhankelijk te zijn van handmatig ontworpen PDDL-domeinen.

2. Visuele Wereldmodel (Visual World Model)

Doel: Het vertalen van logische staten naar visuele subdoelen.
Implementatie: Een model dat bestaat uit een "Understanding Expert" (codeert observaties en logische acties) en een "Prediction Expert".
Functie: In plaats van volledige beelden te genereren (wat foutgevoelig is), voorspelt het model een compacte latente visuele subgoal-feature ( $f_{pred}$ ) die gekoppeld is aan het voorspelde logische staten.
Training: Het model wordt getraind om de latente representatie van het eindbeeld van een subtaak te voorspellen, gebruikmakend van gesneden Wasserstein-verlies voor distributie-consistentie.

3. Geleide VLA (Guided VLA)

Doel: De daadwerkelijke robotbewegingen genereren.
Architectuur: Een VLA-politiek (gebaseerd op decoder-only transformers) met drie experts:
- Understanding Expert: Codeert de huidige observatie en logische actie.
- Goal Expert: Verwerkt de voorspelde latente visuele subgoal.
- Action Expert: Gebruikt cross-attention om de huidige observatie te combineren met de logische en visuele doelen om een reeks lage-niveau acties te genereren.
Subtask Detectie: Een extra "completion predictor" monitort voortgang en signaliseert wanneer een subtaak voltooid is, zodat het systeem kan overstappen naar de volgende logische stap.

Belangrijkste Bijdragen

Gecombineerd Raamwerk: Een hiërarchisch wereldmodel dat logische transities en visuele dynamica simultaan modelleert voor coherent toekomstvoorspelling.
Logische Wereldmodel: Een op data getrainde LLM die symbolische planningsgedrag internaliseert voor gestructureerde, globaal consistente sturing.
Visuele Wereldmodel: Een mechanisme om compacte latente subdoel-features te genereren die logische staten verankeren in de perceptuele ruimte, zonder de kosten van pixel-generatie.
Integratiepijplijn: Een systeem dat deze geleiding succesvol integreert in VLA-modellen voor fysiek onderbouwde uitvoering.

Resultaten

Het H-WM raamwerk is getest op meerdere benchmarks, waaronder LIBERO-10, RoboCerebra en een nieuw, uitdagender benchmark LIBERO-LoHo (met taken van 5 tot 7 stappen).

Prestatieverbetering: H-WM geleide VLA-modellen (bijv. op basis van $\pi0.5$ $π 0.5$ ) presteerden significant beter dan ongeleide baselines.
- Op LIBERO-LoHo steeg het succespercentage met meer dan 50% en de Q-Score (aantal voltooide subdoelen) met bijna 30% ten opzichte van de basis $\pi0.5$ .
- Op RoboCerebra (tot 20 stappen) werden verbeteringen van >10% in zowel succespercentage als Q-Score waargenomen.
Vergelijking met Baselines: H-WM overtrof state-of-the-art VLA-modellen (zoals OpenVLA, GR00T) en LLM-gebaseerde planners. LLM-geleide modellen faalden vaak door ambiguïteit, terwijl H-WM door de symbolische logica en visuele gronding robuuster was.
Ablatie-studies:
- Alleen logische geleiding verbeterde de prestaties al aanzienlijk (>40% succesverbetering).
- Het toevoegen van visuele geleiding gaf een extra boost (>17% succesverbetering).
- Het vervangen van latente feature-predictie door pixel-generatie (Stable Diffusion) leidde tot slechtere prestaties, wat aantoont dat compacte latente representaties effectiever zijn dan ruwe beeldgeneratie voor sturing.
Real-World Experiment: Een succesvolle implementatie op een UR5e robot voor een 8-staps tafelopruimingstaak bevestigde de bruikbaarheid in de fysieke wereld.

Betekenis en Conclusie

Deze paper introduceert een paradigmaverschuiving in robotplanning door de kloof tussen symbolische redenering (logica) en perceptuele gronding (visie) te overbruggen.

Innovatie: In plaats van te kiezen tussen logische planning of visuele voorspelling, combineert H-WM de sterktes van beide: de lange-termijn robuustheid van logica en de fysieke haalbaarheid van visuele subdoelen.
Impact: Het biedt een schaalbare oplossing voor complexe, langdurige robottaken die tot nu toe moeilijk te automatiseren waren met end-to-end VLA-modellen.
Beperkingen: Het systeem vereist nog steeds gestructureerde logische staten en introduceert extra trainingskosten. Toekomstig werk richt zich op het verminderen van de afhankelijkheid van expliciete logische supervisie en het uitbreiden naar meer sensorische modaliteiten.

Kortom, H-WM bewijst dat hiërarchische wereldmodellen een effectieve en robuuste methode zijn om robotpolities te sturen in complexe, langdurige omgevingen.