Scale-Plan: Scalable Language-Enabled Task Planning for Heterogeneous Multi-Robot Teams

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een team van verschillende robots hebt die samen een grote klus moeten klaren in een rommelige, volle keuken. De ene robot is goed in tillen, de andere in draaien, en weer een andere in openen. Hun opdracht is simpel: "Zet de appel in de koelkast en zet het licht uit."

Het probleem? De keuken staat vol met spullen: tomaten, potten, een broodrooster, een vuilnisbak, een koffiezetapparaat... Als je de robots vertelt om alle die spullen te bekijken en te overwegen, raken ze in paniek. Ze proberen de tomaat in de koelkast te doen (fout!), proberen de broodrooster te openen (fout!), en raken volledig vastgelopen. Dit is wat er gebeurt met huidige slimme robots: ze zien te veel en vergeten wat echt belangrijk is.

Hier komt Scale-Plan om de hoek kijken. Het is als een super-organiserende assistent die de chaos voor de robots oplost.

Hoe werkt het? (De Analogie van de "Slimme Scherper")

Stel je voor dat je een gigantische, oude bibliotheek binnenstapt om één specifiek boek te vinden.

De oude manier: Je loopt door elke gang, bekijkt elke boekenplank, en leest de titel van elk boek. Je raakt moe, je vergeet waar je was, en je vindt het boek misschien nooit.
De Scale-Plan manier: Je hebt een slimme bibliothecaris (de AI) die eerst een landkaart (een "actie-grafiek") heeft van de hele bibliotheek.
1. Filteren: Als je zegt "Ik wil het boek over appels", kijkt de bibliothecaris niet naar de hele bibliotheek. Hij kijkt alleen naar de sectie waar fruitboeken staan en negeert de secties met kookboeken, geschiedenis en sciencefiction. Hij maakt een kleine, overzichtelijke lijst van alleen de boeken die je nodig hebt.
2. De Route plannen: Pas daarna pland hij de kortste route door die specifieke sectie om het boek te pakken.

In het geval van de robots doet Scale-Plan precies dit:

De Landkaart: Het bouwt een digitale kaart van wat robots kunnen doen (bijv. "openen", "pakken", "zetten") en hoe die acties op elkaar aansluiten.
De Filter: Als de opdracht binnenkomt ("appel in koelkast"), gebruikt het een slimme taalcomputer (een Large Language Model of LLM) om te kijken: "Welke spullen heb ik echt nodig?" Het negeert de tomaat, de pan en de stofzuiger. Het houdt alleen de appel, de koelkast en de lichtschakelaar over.
De Uitvoering: Omdat de robots nu maar naar een paar spullen hoeven te kijken in plaats van naar honderden, kunnen ze veel sneller en slimmer een plan maken zonder in de war te raken.

Waarom is dit zo belangrijk?

Vroeger moesten mensen voor elke nieuwe taak handmatig een lijstje maken voor de robots (wat veel tijd kost en niet werkt als de situatie verandert). Of je liet de robots alles zelf uitvinden, wat leidde tot "hallucinaties" (ze dachten dat er een fruitmand was die er niet was).

Scale-Plan combineert het beste van twee werelden:

Het slimme taalbegrip van moderne AI (om de opdracht te begrijpen).
Een strakke, logische structuur (de landkaart) om te voorkomen dat de AI dingen verzint die niet bestaan.

Het Resultaat: Een Nieuwe Testbaan (MAT2-THOR)

De auteurs hebben ook een nieuwe testbaan gemaakt, genaamd MAT2-THOR.
Stel je voor dat je een nieuwe auto wilt testen. Als je de testbaan volstopt met gaten die niet kloppen of verkeerde borden, kun je de auto niet eerlijk beoordelen. De oude testbaan voor robots had veel van dit soort "gaten" (fouten in de instructies).
Scale-Plan heeft deze testbaan schoongeveegd, de fouten eruit gehaald en een eerlijke, duidelijke baan gemaakt. Hiermee hebben ze bewezen dat hun methode veel beter werkt dan de oude methoden.

Samenvatting in één zin

Scale-Plan is als een slimme chef die in een volle keuken eerst alleen de ingrediënten voor het specifieke gerecht selecteert die nodig zijn, zodat de kok (de robot) niet verdwaalt in de rest van de voorraadkast en het gerecht perfect kan bereiden.

Het maakt robots slimmer, sneller en betrouwbaarder, zodat ze echt kunnen helpen in onze complexe, rommelige wereld.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "Scale-Plan: Scalable Language-Enabled Task Planning for Heterogeneous Multi-Robot Teams", vertaald en samengevat in het Nederlands.

1. Het Probleem

De paper adresseert de uitdaging van langetermijntaakplanning (long-horizon task planning) voor heterogene multi-robotteams in complexe, objectrijke omgevingen (zoals huishoudens). Er zijn drie hoofdbeperkingen geïdentificeerd bij bestaande methoden:

Scalabiliteitsprobleem: Traditionele symbolische planners (gebaseerd op PDDL) vereisen handmatig opgestelde probleemspecificaties. In realistische omgevingen met duizenden objecten is het onpraktisch om voor elke taak een volledig specifiek probleembestand te maken.
Irrelevante Informatie: Sensordata bevat veel objecten die irrelevant zijn voor de specifieke taak (bijv. een tomaat en een pan als de taak is om een appel in de koelkast te doen). Het meenemen van alle objecten vergroot de zoekruimte exponentieel en vertraagt de planning.
Hallucinatie en Grounding bij LLM's: Nieuwe methoden die gebruikmaken van Large Language Models (LLM's) lijden vaak aan hallucinaties (het bedenken van niet-bestaande objecten of stappen) en zwakke "grounding" (slechte afstemming tussen de gegenereerde plannen en de werkelijke omgeving). LLM's neigen ertoe te veel aandacht te besteden aan irrelevante details, wat leidt tot onuitvoerbare plannen.

2. Methodologie: Scale-Plan

Scale-Plan is een schaalbaar, door LLM's ondersteund raamwerk dat een tussenstap introduceert om de complexiteit te reduceren voordat de daadwerkelijke planning plaatsvindt. De architectuur bestaat uit twee hoofdcomponenten:

A. Constructie van een Actie-Graph (Offline)

In plaats van te werken met een volledig PDDL-probleembestand, bouwt het systeem eerst een actie-graph op basis van het PDDL-domein (de regels en mogelijke acties).

Nodes: Vertegenwoordigen geparametriseerde actieschema's.
Edges: Encoderen logische afhankelijkheden tussen acties. Een actie $a_1$ activeert $a_2$ als de effecten van $a_1$ voldoen aan de precondities van $a_2$ .
Regels: Er worden twee soorten edges gebruikt:
1. Strict: Als de precondities van $a_2$ volledig worden gedekt door de effecten van $a_1$ .
2. Relaxed: Als er een gedeeltelijke overlap is, om de connectiviteit van de graaf te waarborgen zonder deze te verzadigen.

B. Runtime Verwerking en Planning

Wanneer een natuurlijke taal instructie wordt gegeven (bijv. "Zet de appel in de koelkast en zet het licht uit"):

Filtering via Graaf-Search: Een LLM voert "shallow reasoning" uit om een kleine set van kandidaat-acties en relevante objecten te suggereren. Vervolgens wordt een achterwaartse diepte-zoektocht (backward DFS) uitgevoerd op de actie-graph om het minimale subset van voorgaande acties te vinden die nodig zijn om de precondities te voldoen. Dit resulteert in een gefilterde omgeving met alleen taak-relevante objecten en acties.
Heterogene Multi-Agent Planning: Op basis van deze gefilterde representatie voert het systeem een gestructureerde pipeline uit:
- Taak Decompositie: De hoofdtaken worden opgesplitst in kleinere sub-taken.
- Robot Allocatie: Sub-taken worden toegewezen aan specifieke robots op basis van hun vaardigheden en capaciteiten.
- Plan Integratie: Sub-plannen worden samengevoegd tot één coherent uitvoerbaar plan, waarbij parallelle uitvoering wordt bevorderd waar mogelijk.
Plan-to-Code: Het eindresultaat wordt vertaald naar uitvoerbare code voor de AI2-THOR simulator, zonder dat er expliciet een tussenliggend PDDL-probleembestand wordt gegenereerd (wat foutgevoelig is).

3. Belangrijkste Bijdragen

Scale-Plan Framework: Een nieuw raamwerk dat een actie-graph combineert met LLM-reasoning om irrelevante informatie te filteren, waardoor compacte probleemrepresentaties ontstaan.
Gestuurde Planning zonder PDDL-probleemgeneratie: Een pipeline die natuurlijke taal direct omzet in uitvoerbare multi-robot acties, waardoor de foutenmarge bij het genereren van symbolische bestanden wordt vermeden.
MAT2-THOR Benchmark: De introductie van een opgeschoonde en gestandaardiseerde dataset, afgeleid van MAT-THOR, specifiek voor het evalueren van multi-agent langetermijnplanning. Deze dataset corrigeert fouten in de grondwahrheid (ground-truth) van de originele dataset en introduceert nieuwe criteria voor complexiteit en ambiguïteit.

4. Resultaten

De methode is geëvalueerd in de AI2-THOR simulator op de MAT2-THOR benchmark, met vergelijkingen tegen pure LLM-planners en hybride LLM-PDDL baselines (zoals LaMMA-P).

Prestaties: Scale-Plan presteert significant beter dan alle baselines op alle metrieken:
- Taak Voltooiingspercentage (TCR): +25% verbetering ten opzichte van de sterkste baseline (LaMMA-P LLM-corrected) over alle taakcategorieën.
- Doelvoorwaarde Recall (GCR) & Uitvoerbaarheid (ER): Ook hier werden significante verbeteringen geboekt (respectievelijk +16% en +9%).
- Complexiteit: De verbeteringen zijn het grootst bij complexe en vage taken, wat aantoont dat het filteren van irrelevante informatie cruciaal is voor langetermijnredenering.
Ablatie-studie: Het verwijderen van de "Environment Filtering" (EF) leidt tot een daling van de TCR met ongeveer 12-13%, wat bewijst dat het filteren van de omgeving essentieel is voor succes.
Rekenkosten: Hoewel Scale-Plan iets meer rekentijd vereist dan pure LLM-methoden (door de gestructureerde stappen en meerdere LLM-aanroepen), is de toename in kwaliteit en betrouwbaarheid de extra kosten waard.

5. Betekenis en Conclusie

De paper benadrukt dat voor succesvolle multi-robot planning in de echte wereld, het niet volstaat om alleen LLM's te gebruiken of alleen op traditionele symbolische planners te vertrouwen.

Synergie: De combinatie van gestructureerde domeinkennis (via de actie-graph) met de flexibiliteit van taalmodellen (LLM's) is de sleutel tot schaalbaarheid.
Grounding: Door irrelevante objecten te filteren voordat de planning begint, worden hallucinaties geminimaliseerd en wordt de zoekruimte beheersbaar gemaakt.
Toekomst: De auteurs wijzen erop dat toekomstig werk gericht moet zijn op het integreren van gestructureerde kennisgrafieken voor nog betere grounding en het ontwikkelen van mechanismen voor herplanning bij uitvoeringsfouten.

Kortom, Scale-Plan biedt een robuuste oplossing voor het "naalden in de hooiberg"-probleem in robotica, waarbij systemen leren focussen op wat echt belangrijk is voor een specifieke taak, waardoor samenwerking tussen verschillende robottypes efficiënt en betrouwbaar wordt.

Scale-Plan: Scalable Language-Enabled Task Planning for Heterogeneous Multi-Robot Teams

Hoe werkt het? (De Analogie van de "Slimme Scherper")

Waarom is dit zo belangrijk?

Het Resultaat: Een Nieuwe Testbaan (MAT2-THOR)

Samenvatting in één zin

1. Het Probleem

2. Methodologie: Scale-Plan

A. Constructie van een Actie-Graph (Offline)

B. Runtime Verwerking en Planning

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem