MASPOB: Bandit-Based Prompt Optimization for Multi-Agent Systems with Graph Neural Networks

MASPOB is een nieuwe, steekproefefficiënte framework dat bandit-algoritmen en Graph Neural Networks combineert om promptoptimalisatie voor multi-agent systemen te verbeteren door de zoekruimte te reduceren en structurele koppelingen te modelleren, wat resulteert in state-of-the-art prestaties.

Zhi Hong, Qian Zhang, Jiahang Sun, Zhiwei Shang, Mingze Kong, Xiangyi Wang, Yao Shu, Zhongxiang Dai

Gepubliceerd 2026-03-04
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een groot, complex project moet uitvoeren, zoals het bouwen van een huis of het organiseren van een grote bruiloft. Je hebt niet één persoon nodig, maar een heel team van specialisten: een architect, een timmerman, een elektricien en een kok. In de wereld van kunstmatige intelligentie noemen we dit een Multi-Agent Systeem (MAS). Elk "agent" is een slimme AI die een specifieke taak heeft.

Het probleem is echter: hoe zorg je ervoor dat deze teamleden perfect samenwerken? Het antwoord ligt in hun prompts (de instructies of "scripts" die je aan elke AI geeft). Als de instructie aan de timmerman vaag is, kan dat de elektricien in de war brengen, en uiteindelijk wordt het hele huis slecht gebouwd.

Deze paper introduceert MASPOB, een slimme methode om die instructies automatisch te verbeteren. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Grote Dilemma: Te duur om te proberen

In het echte leven (bijvoorbeeld in de zorg of financiën) mag je het "blauwdruk" van het team niet zomaar veranderen. Je kunt niet elke dag de architect vervangen of de volgorde van de bouwstappen wijzigen; dat is te riskant en te duur. Je kunt alleen de instructies (prompts) van de individuele teamleden aanpassen.

Maar er is een probleem:

  • Het testen van een nieuwe instructie is duur (het kost tijd en geld om de hele AI-teamwerking te laten draaien).
  • Er zijn zoveel mogelijke combinaties van instructies dat je ze niet allemaal kunt uitproberen (dat is als zoeken naar een naald in een hooiberg, maar dan met een miljard hooibergen).
  • Als je de instructie van de timmerman verandert, verandert de input voor de elektricien. Alles hangt met elkaar samen.

2. De Oplossing: MASPOB (De Slimme Teamleider)

MASPOB is als een super-slimme teamleider die weet hoe hij met een beperkt budget (weinig testmomenten) het beste team kan vinden. Het doet dit met drie trucs:

Truc 1: De "Grafische Mindmap" (GNN)

Stel je voor dat je een team hebt waarbij de timmerman altijd eerst moet werken voordat de elektricien begint. Als je de instructie van de timmerman aanpast, moet je weten hoe dat de elektricien beïnvloedt.

  • Hoe MASPOB het doet: Het gebruikt een Graph Neural Network (GNN). Denk hieraan als een levendige, interactieve mindmap. Deze kaart ziet precies wie met wie praat in het team. In plaats van de AI's als losse eilanden te zien, ziet deze kaart de verbindingen. Als de timmerman zijn instructie krijgt, "weet" de kaart direct hoe dat de elektricien beïnvloedt. Dit helpt de teamleider om slimme voorspellingen te doen zonder alles eerst daadwerkelijk te hoeven testen.

Truc 2: De "Gokker met Verstand" (Bandits & UCB)

Stel je voor dat je in een casino zit, maar je mag maar 50 keer gokken voordat je geld op is. Je wilt winnen, maar je weet niet welke machine het beste uitkeert.

  • Hoe MASPOB het doet: Het gebruikt een techniek uit de wiskunde genaamd Bandits. Het balanceert tussen twee dingen:
    1. Exploitatie: Gokken op de machine die tot nu toe het meeste heeft gewonnen (de instructies die al goed lijken).
    2. Exploratie: Gokken op een machine die je nog niet vaak hebt geprobeerd, omdat het misschien een verrassende winnaar is (onzekerheid wegnemen).
      MASPOB gebruikt een formule (UCB) om te beslissen: "Is het de moeite waard om dit nieuwe instructiepaar te testen, of moeten we doorgaan met wat we al weten?" Zo verspillen ze geen enkele test.

Truc 3: De "Stap-voor-Stap" Benadering (Coördinaat Ascent)

Stel je voor dat je een combinatie van 10 sleutels moet vinden om een slot te openen. Als je alle 10 tegelijk probeert te veranderen, is dat onmogelijk.

  • Hoe MASPOB het doet: Het verandert niet alles tegelijk. Het houdt 9 instructies vast en verandert alleen die van de timmerman. Kijk of het beter werkt. Dan houdt het de timmerman vast en verandert het de instructie van de elektricien. Het werkt als een trap: je loopt stap voor stap omhoog naar het hoogste punt (de beste prestatie), in plaats van te proberen in één sprong naar de top te komen. Dit maakt het zoeken veel sneller en makkelijker.

Waarom is dit belangrijk?

In de echte wereld kunnen we vaak niet zeggen: "Laten we het hele proces van ziekenhuisbezoek of belastingaangifte opnieuw ontwerpen." Dat is te gevaarlijk. Maar we kunnen wel de instructies aan de AI's die die processen uitvoeren, optimaliseren.

MASPOB bewijst dat je, door slim te kijken naar hoe de teamleden met elkaar verbonden zijn en door je "gokken" (tests) verstandig in te zetten, de prestaties van een AI-team enorm kunt verbeteren zonder het onderliggende proces te veranderen. Het is alsof je een goedlopend orkest niet hoeft te herschikken, maar alleen de partituren van de muzikanten iets aanpast zodat ze perfect in harmonie spelen.

Kortom: MASPOB is de slimme regisseur die met weinig repetities weet precies welke instructies nodig zijn om een team van AI's tot een meesterwerk te laten komen.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →