Parallelized Planning-Acting for Efficient LLM-based Multi-Agent Systems in Minecraft

Dit artikel introduceert een nieuw raamwerk voor LLM-gestuurde multi-agent systemen in Minecraft dat door middel van een parallelle planning-actie-architectuur met onderbrekbare uitvoering de beperkingen van traditionele seriële methoden overwint en zo de real-time responsiviteit in dynamische omgevingen aanzienlijk verbetert.

Yaoru Li, Shunyu Liu, Tongya Zheng, Li Sun, Mingli Song

Gepubliceerd 2026-03-10
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een groep vrienden hebt die samen een enorme, levende wereld in een computerspel (Minecraft) moeten verkennen en bouwen. In het verleden deden deze 'AI-vrienden' (robots die door een slimme taalcomputer worden aangestuurd) alles heel langzaam en stap-voor-stap.

Het oude probleem: De "Wacht-lijst"
Vroeger moest een robot eerst denken (plannen), dan wachten tot het denken klaar was, en pas daarna doen (handelen).

  • Analogie: Stel je voor dat je een kok bent die een groot diner moet maken. Maar je mag pas beginnen met snijden als je de hele receptuur uit je hoofd hebt opgeschreven. En terwijl je wacht, staat de pan met water al aan het koken en verdampt het water! Als er plotseling een gast binnenkomt die een andere taak vraagt, kun je niet snel reageren omdat je vastzit aan je "denkproces". In een dynamische wereld als Minecraft, waar monsters aanvallen en de omgeving verandert, is dit veel te traag.

De nieuwe oplossing: "Twee hersenen, één lichaam"
De auteurs van dit paper hebben een slimme truc bedacht: Parallel Planning-Acting. Ze hebben het systeem opgesplitst in twee aparte "draden" (threads) die tegelijkertijd werken, net als een mens die kan lopen en tegelijkertijd nadenken over waar hij naartoe gaat.

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De Twee Draden (Het Brein en de Spieren)

Het systeem heeft nu twee teams die samenwerken:

  • Het Denk-team (Planning Thread): Dit is de strateeg. Hij kijkt continu naar de wereld, leest wat de anderen zeggen en bedenkt nieuwe plannen. Hij werkt als een chef die voortdurend de recepten aanpast. Als hij ziet dat een monster naderbij komt, schreeuwt hij direct: "Stop met bouwen, ga vechten!"
  • Het Doen-team (Acting Thread): Dit is de uitvoerder. Hij heeft een enorme gereedschapskist vol met vaardigheden (zoals "hout hakken", "zwaard zwaaien", "koken"). Hij voert de taken uit die het Denk-team heeft opgegeven.

De magische knop: De "Interrupt" (Onderbreking)
Dit is het belangrijkste nieuwe idee. In het oude systeem moest een robot een taak afmaken voordat hij kon stoppen. In dit nieuwe systeem kan het Denk-team op elk moment een rode knop indrukken.

  • Analogie: Stel je voor dat je een auto rijdt (het Doen-team) en je navigatie (het Denk-team) ziet plotseling een ongeluk op de route. In het oude systeem zou de auto eerst de hele route moeten afleggen voordat hij stopte. In dit nieuwe systeem schreeuwt de navigatie: "STOP NU!" en de auto remt direct af en slaat een andere kant op, terwijl de motor nog draait.

2. De Centrale Geheugenbank (Het Gemeenschappelijk Notitieblok)

Alle robots schrijven hun gedachten en wat ze zien in één groot, gedeeld notitieblok (Centraal Geheugen).

  • Vroeger: Als robot A iets zag, wist robot B dat pas nadat robot A zijn hele taak had afgerond. Dat was te laat.
  • Nu: Robot A schrijft direct in het notitieblok: "Ik zie een draak!" Robot B leest dit direct mee en kan direct zijn plan aanpassen. Het is alsof een hele groep vrienden in één kamer zit en direct kan roepen wat ze zien, in plaats van brieven te schrijven die dagen duren om aan te komen.

3. De Slimme Gereedschapskist (Recursieve Taakopdeling)

De robots hebben een enorme lijst met vaardigheden. Maar het slimme is dat ze niet elke kleine stap hoeven te plannen.

  • Analogie: Als je zegt "Maak een diamanten zwaard", hoeft de robot niet te denken: "Eerst gras maaien, dan steen hakken, dan ijzer smeden...".
  • De robot heeft een automatische instructieboekje. Hij weet: "Om een diamanten zwaard te maken, heb ik eerst een diamanten hamer nodig. Om die te maken, heb ik diamanten nodig..." Hij breekt de grote taak automatisch op in kleine stukjes, zonder dat de "Denk-robot" elke stap hoeft te bedenken. Dit bespaart enorm veel tijd.

Waarom is dit belangrijk?

In de test met Minecraft (een spel met een wereld die nooit stilstaat) bleek dit systeem veel beter te zijn dan de oude methoden:

  • Sneller: Ze kunnen tegelijk denken en doen.
  • Flexibeler: Als er iets onverwachts gebeurt (een aanval, een val), kunnen ze direct stoppen met wat ze deden en een nieuwe strategie kiezen.
  • Beter samenwerken: Omdat ze alles direct delen, werken ze als één goed geoliede machine in plaats van als losse, trage eenheden.

Kort samengevat:
De auteurs hebben een manier bedacht om AI-agenten te laten werken zoals een goed getraind sportteam: ze denken en bewegen tegelijkertijd, reageren direct op de situatie, en delen informatie direct met elkaar. Geen wachten meer, maar direct actie!