MoMaStage: Skill-State Graph Guided Planning and Closed-Loop Execution for Long-Horizon Indoor Mobile Manipulation

Each language version is independently generated for its own context, not a direct translation.

MoMaStage: De Slimme, Onvermoeibare Robot-Sfeermeester

Stel je voor dat je een robot hebt die je huis moet opknappen. Je geeft hem een opdracht: "Haal die grijze schaal van het aanrecht in de keuken en zet hem op de witte tafel in de eetkamer."

Voor een gewone robot is dit een nachtmerrie. Als hij halverwege de kamer een obstakel tegenkomt, of als hij de schaal per ongeluk laat vallen, raakt hij in paniek. Hij vergeet wat hij al heeft gedaan, probeert het opnieuw op een verkeerde manier, en eindigt met een rommelige chaos. Dit noemen wetenschappers "kaskaskaderfouten": één klein foutje aan het begin zorgt ervoor dat alles daarna mislukt.

De onderzoekers van dit paper (MoMaStage) hebben een oplossing bedacht die werkt als een slimme, onuitputtelijke assistent met een onfeilbaar geheugen en een strak plan.

Hier is hoe het werkt, vertaald in alledaagse taal:

1. De "Skill-State Graph": Het Spoor van de Robot

Stel je voor dat de robot een grote, interactieve treinkaart heeft.

De stations zijn de taken die de robot kan doen (zoals "naar de keuken gaan", "iets oppakken", "iets neerzetten").
De sporen laten zien welke trein je mag nemen.

Maar hier is het slimme deel: deze kaart weet niet alleen welke stations er zijn, maar ook in welke staat de trein zich bevindt.

Als de robot zijn "hand" (grijper) vol heeft met een bord, staat er op de kaart: "Je kunt nu niet nog een bord oppakken!"
Als de robot in de keuken staat, staat er: "Je kunt nu niet direct op de slaapkamer staan."

Dit noemen ze de Skill-State Graph. In plaats van dat de robot blindelings probeert wat hij denkt dat slim is, kijkt hij eerst op deze kaart. Dit voorkomt dat hij onmogelijke dingen probeert (zoals een bord oppakken terwijl zijn hand al vol zit). Het is alsof je een GPS hebt die niet alleen de route aangeeft, maar ook zegt: "Je tank is leeg, je kunt niet verder rijden naar die stad."

2. De "VLM": De Slimme Kapitein

De robot heeft een zeer slim brein (een Vision-Language Model of VLM) dat de taal van mensen begrijpt. Vroeger was dit brein als een dromerige kapitein die plannen maakte zonder naar de werkelijkheid te kijken. Hij zou zeggen: "We vliegen naar de maan!" terwijl de raket nog op de grond staat.

Met MoMaStage is deze kapitein gebonden aan de treinkaart. Hij mag alleen plannen maken die op de kaart mogelijk zijn. Als hij zegt: "Pak het bord," controleert het systeem direct: "Heeft de robot zijn hand vrij? Is het bord binnen bereik?" Als het antwoord nee is, wordt het plan direct gecorrigeerd voordat de robot ook maar een beweging maakt.

3. De "Gesloten Lus": De Oog in Oog Controle

Dit is misschien wel het belangrijkste deel. Stel je voor dat je een lange wandeling maakt met een vriend.

Oude robots (Open-loop): Ze lopen blindelings hun route af. Als ze struikelen, lopen ze gewoon door en vallen ze uiteindelijk in een kuil.
MoMaStage (Closed-loop): Dit is alsof je vriend de hele tijd naar jou kijkt. Zodra je een stap zet die niet goed is (bijvoorbeeld: je glijdt uit), zegt hij direct: "Stop! Je staat scheef. Laten we teruggaan en het opnieuw proberen."

De robot kijkt continu naar zijn eigen lichaam (zijn sensoren). Als hij merkt dat hij iets niet goed heeft vastgepakt of vastzit, stopt hij niet met paniek. Hij gebruikt zijn slimme kaart om een nieuw, kort plan te maken om zich te redden, zonder het hele grote doel uit het oog te verliezen.

Waarom is dit zo cool?

In de experimenten hebben ze getest of deze robot echt beter is dan de concurrenten.

Andere robots: Als ze een fout maakten, zakte hun succesrate snel naar 0%. Ze raakten in de war en gaven op.
MoMaStage: Zelfs als ze een fout maakten (bijvoorbeeld een bord laten vallen), konden ze zichzelf redden en het plan aanpassen. Ze haalden veel meer taken succesvol af.

De Grootste Les:
De onderzoekers ontdekten dat het probleem bij robots vaak niet is dat ze "dom" zijn in het begrijpen van taal, maar dat ze hun eigen fysieke toestand vergeten. Door een simpele, logische kaart (de Skill-State Graph) te gebruiken die de robot herinnert aan wat hij al heeft gedaan en wat hij nu kan doen, wordt hij veel betrouwbaarder.

Kortom: MoMaStage is de robot die niet alleen luistert naar wat je zegt, maar ook onthoudt wat hij al heeft gedaan, en slim genoeg is om zich te redden als het misgaat. Het is de overgang van een robot die "hopelijk" werkt, naar een robot die zekerheid biedt.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "MoMaStage: Skill-State Graph Guided Planning and Closed-Loop Execution for Long-Horizon Indoor Mobile Manipulation", geschreven in het Nederlands.

1. Het Probleem

Indoors mobiele manipulatie (MoMA) vereist dat robots complexe taken uitvoeren door lange reeksen navigatie- en interactiebewegingen in dynamische omgevingen (zoals huishoudens). Bestaande methodes kampen met twee fundamentele beperkingen bij het uitvoeren van deze lange-horizon taken:

Cascaderende fouten en logica: Leer-gedreven benaderingen (zoals End-to-End policies) missen vaak logische consistentie over lange trajecten. Vision-Language Models (VLM's) kunnen semantisch plausibele maar fysiek onuitvoerbare skill-reeksen genereren (bijvoorbeeld "pakkend" terwijl de grijper al bezet is), omdat ze de cumulatieve effecten van eerdere acties op de robottoestand negeren.
Rigiditeit en Generalisatie: Methoden die vertrouwen op expliciete 3D-kaarten of symbolische wereldmodellen zijn vaak te rigide, rekenintensief en hebben moeite om zich aan te passen aan dynamische veranderingen in de omgeving.
Open-loop kwetsbaarheid: Zonder gesloten-lus feedback (closed-loop) falen systemen vaak bij de eerste fysieke afwijking (bijv. een slip bij het grijpen), omdat ze niet kunnen replannen op basis van de daadwerkelijke robottoestand.

2. Methodologie: MoMaStage

MoMaStage is een gestructureerd, kaartvrij (map-free) framework dat VLM's combineert met een Skill-State Graph en een hiërarchische skill-bibliotheek. Het doel is om de generatieve redenering van de VLM te beperken tot een haalbare transitieruimte, zonder volledige scene-mapping.

Het framework bestaat uit drie kernmodules:

A. Gestructureerde Skill-Grounding

In plaats van een volledige wereldkaart te bouwen, modelleert MoMaStage de overgangen tussen vaardigheden:

Hiërarchische Skill-bibliotheek:
- Actie-niveau skills: Fijne-granulariteit primitieven (bijv. motorcontrole) zonder semantische context.
- Semantische-niveau skills: Hogere vaardigheden gekoppeld aan scene-semantiek (bijv. "pik het bord op"), met expliciete precondities en sequentierelaties.
Skill-State Graph ( $G$ ): Een topologie-bewuste graaf waar knopen semantische skills vertegenwoordigen en randen haalbare lokale overgangen.
- Elke knoop is verrijkt met een preconditietoestand ( $C$ : locatie, status grijper) en een toestandsvariatie ( $\Delta$ : hoe de skill de wereld verandert, bijv. ADD of SUB objecten).
- Dit vormt een lichtgewicht interface die de fysieke beperkingen van de robot direct in de planning integreert.

B. Grafiek-geleid Plannen en Verificatie

Het planningsproces is een tweestapsprocedure:

Topologie-bewuste Semantische Planning: De VLM deconstrueert een natuurlijke taalopdracht in een kandidaat-reeks van skills, geleid door de connectiviteit van de Skill-State Graph (zonder expliciete 3D-modellen).
Toestands-gedreven Feasibility Verificatie: Een post-hoc check rekent de cumulatieve toestandsvariatie ( $\Delta$ ) na voor de hele reeks. Als een skill in conflict is met de huidige robottoestand (bijv. grijpen met een volle hand), wordt het plan verworpen en vraagt het systeem de VLM om een herstructurering.

C. Gesloten-lus Executie en Replanning

Om robuustheid te garanderen in de echte wereld:

Monitoring: Het systeem monitort continu de proprioceptieve data (sensoren) en de semantische toestand.
Dynamische Replanning: Bij een afwijking (bijv. mislukte greep) wordt de huidige toestand als nieuwe starttoestand gebruikt. Het systeem zoekt binnen de Skill-State Graph naar een correctief pad om de resterende taken te voltooien, in plaats van de hele taak te herstarten.

3. Belangrijkste Bijdragen

MoMaStage Framework: Een uniek, kaartvrij framework dat instructiebegrip, skill-generatie, executie en feedback-driven herplanning unifyt in een gesloten-lus pijplijn.
State-Grounded Skill Planning: De introductie van de Skill-State Graph en hiërarchische bibliotheek, die de cumulatieve toestand haalbaarheid afdwingt en robuuste herstelmechanismen mogelijk maakt via lichte monitoring.
Empirische Validatie: Uitgebreide experimenten in zowel fysieke simulaties als real-world omgevingen die aantonen dat het framework superieur is aan state-of-the-art baselines in termen van planningsvaliditeit en uitvoeringsrobuustheid.

4. Resultaten

De auteurs hebben MoMaStage getest op een fysiek robotplatform (Agilex Cobot Magic met vier armen) en in de mshab* simulatieomgeving.

Real-World Performance:
- MoMaStage behaalde een 60% cumulatieve succesrate op lange-horizon taken (tot 17 sub-taken), terwijl baselines zoals End-to-End ACT (0%) en DeCo* (snel dalend naar 0%) faalden door cumulerende fouten.
- Het systeem slaagde erin om fysieke anomalieën (zoals slippen) te detecteren en autonoom te herstellen via replanning.
Simulatie Benchmarking:
- Plannings Succes: MoMaStage behaalde 79% - 94% succes in diverse complexe scenario's (bijv. "set table", "tidy house"), terwijl DeCo* vaak faalde door logische hallucinaties.
- Efficiëntie: In vergelijking met baselines die zonder topologische beperkingen werken, reduceerde MoMaStage de token-gebruik (denktokens) met ongeveer 30% en de inferentietijd, terwijl het 100% planningsvaliditeit behield.
- Foutanalyse: De meeste fouten in simulatie bleken fysiek van aard (mesh-clipping, physics bugs) en niet semantisch. MoMaStage voorkwam echter dat semantische fouten (zoals het ongedaan maken van voltooide taken) leidden tot falen (0% "Preceding Task Failed").

5. Betekenis en Conclusie

MoMaStage markeert een verschuiving in de aanpak van lange-horizon robotica:

Van Kaarten naar Toestanden: Het bewijst dat een expliciete, volledige 3D-kaart niet noodzakelijk is voor succesvolle langdurige manipulatie. In plaats daarvan is het modelleren van toestands-overgangen van vaardigheden (skill-state transitions) cruciaal voor logische consistentie.
Robuustheid door Structuur: Door de VLM te "grounden" in een gestructureerde graaf, worden fysiek onmogelijke plannen uitgesloten voordat ze worden gegenereerd, wat de belasting op het taalmodel verlaagt en de betrouwbaarheid verhoogt.
Toekomstperspectief: De studie concludeert dat hoog-niveau redeneren niet langer de primaire bottleneck is; de focus moet nu verschuiven naar het verbeteren van de fysieke dexteriteit van de laag-niveau vaardigheden om de kloof tussen logische planning en fysieke uitvoering volledig te dichten.

Kortom, MoMaStage biedt een schaalbare, robuuste oplossing voor complexe mobiele manipulatie taken door de kracht van VLM's te combineren met strikte, toestand-gebaseerde structuur.

MoMaStage: Skill-State Graph Guided Planning and Closed-Loop Execution for Long-Horizon Indoor Mobile Manipulation

1. De "Skill-State Graph": Het Spoor van de Robot

2. De "VLM": De Slimme Kapitein

3. De "Gesloten Lus": De Oog in Oog Controle

Waarom is dit zo cool?

1. Het Probleem

2. Methodologie: MoMaStage

A. Gestructureerde Skill-Grounding

B. Grafiek-geleid Plannen en Verificatie

C. Gesloten-lus Executie en Replanning

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers