Verified Multi-Agent Orchestration: A Plan-Execute-Verify-Replan Framework for Complex Query Resolution

Dit paper introduceert Verified Multi-Agent Orchestration (VMAO), een framework dat complexe queries oplost door deze te ontleden in een DAG van deelvragen, deze parallel uit te voeren via gespecialiseerde agenten en de resultaten via een iteratieve verificatie- en replan-cyclus te waarborgen, wat leidt tot aanzienlijk betere antwoordkwaliteit dan een enkel-agent-baseline.

Xing Zhang, Yanwei Cui, Guanghui Wang, Qucy Wei Qiu, Ziyuan Li, Fangwei Han, Yajing Huang, Hengzhi Qiu, Bin Zhu, Peiyang He

Gepubliceerd Fri, 13 Ma
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorm complex vraagstuk hebt, zoals: "Waarom is de klanttevredenheid vorig jaar gedaald en wat betekent dit voor onze winst?"

Als je dit aan één enkele, slimme computer (een AI) vraagt, is het alsof je één superintelligente detective vraagt om alle bewijzen te verzamelen, alle getuigen te verhoren, de cijfers te analyseren en het verslag te schrijven. Die detective doet het misschien goed, maar kan soms dingen over het hoofd zien, in de war raken door de hoeveelheid informatie, of niet weten waar hij moet zoeken.

Deze paper introduceert VMAO (Verified Multi-Agent Orchestration). In plaats van één detective, heb je nu een georganiseerd team van specialisten die samenwerken onder leiding van een slimme projectmanager.

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Team (De Agenten)

Stel je een bouwproject voor. Je hebt niet één persoon die alles doet. Je hebt:

  • De Verzamelaars (Data Agents): Zij gaan de bibliotheek in, zoeken op het internet en halen financiële rapporten op.
  • De Analytici (Analysis Agents): Zij kijken naar de verzamelde gegevens en zoeken naar patronen. "Kijk, toen de klanttevredenheid daalde, steeg de concurrentie."
  • De Schrijvers (Output Agents): Zij schrijven het definitieve rapport en zorgen dat elke stelling een bron heeft.

2. De Planningsfase (De DAG)

Voordat het team aan de slag gaat, maakt de projectmanager een bouwplan. In plaats van een simpele lijstje, maakt hij een netwerkdiagram (een DAG).

  • Voorbeeld: "We kunnen pas de winst berekenen (stap B) als we eerst de omzet hebben (stap A)."
  • Het mooie is: als twee stappen niets met elkaar te maken hebben (bijv. "zoek nieuwsberichten" en "zoek financiële cijfers"), kunnen ze tegelijkertijd gebeuren. Het team werkt dus veel sneller dan als ze één voor één zouden werken.

3. De Controlefase (De Kwaliteitsmanager)

Dit is het belangrijkste nieuwe idee in dit paper. Na elke ronde van werk, stopt de projectmanager de bouw en roept een onafhankelijke Kwaliteitsmanager (een extra AI) bij.

  • Deze manager kijkt niet naar hoe de bouwvakkers werkten, maar alleen naar het resultaat.
  • Hij stelt vragen: "Hebben we echt antwoord op alle delen van de vraag? Missen we iets? Zijn de bronnen betrouwbaar?"
  • Als hij ziet dat er gaten zijn (bijvoorbeeld: "We hebben de cijfers, maar we weten niet wat de concurrentie deed"), geeft hij een seintje: "Stop! We moeten opnieuw plannen."

4. Het Nieuwe Plan (Replanning)

Op basis van de feedback van de Kwaliteitsmanager past het team het plan aan.

  • Misschien moeten ze een paar vragen opnieuw stellen.
  • Misschien moeten ze een nieuw specialist inhuuren om een specifiek gat op te vullen.
  • Ze gooien de oude, goede resultaten niet weg; ze bouwen er gewoon bovenop. Dit noemen ze een iteratieve lus: Plan -> Doen -> Controleren -> Aanpassen -> Herhalen.

5. Wanneer stoppen?

Het team blijft niet oneindig doorgaan. Er zijn duidelijke regels om te stoppen, zoals:

  • "We hebben 80% van de vragen goed beantwoord."
  • "Het maakt niet meer uit hoeveel we nog doen, het resultaat wordt niet veel beter."
  • "We hebben ons budget aan rekenkracht op."

Waarom is dit beter?

De auteurs hebben dit getest op 25 moeilijke marktresearch-vragen.

  • Alleen de detective (Single Agent): Kreeg een cijfer van 3,1 op een schaal van 1 tot 5 voor volledigheid.
  • Het VMAO-team: Kreeg een 4,2.

Het team leverde niet alleen vollediger antwoorden, maar ook veel betrouwbaardere bronnen (van 2,6 naar 4,1).

De Grootte van de Kosten

Er is een prijskaartje: dit team kost meer tijd en rekenkracht (ongeveer 8,5 keer meer dan één detective). Maar voor complexe, belangrijke vragen waar je geen fouten mag maken, is die extra investering het waard. Het is alsof je liever een team van experts hebt dat drie keer zo lang werkt, maar wel een foutloos rapport oplevert, in plaats van één persoon die snel werkt maar halve antwoorden geeft.

Kortom: VMAO is een slimme manier om AI-agenten te laten werken als een goed georganiseerd bouwteam, waarbij een onafhankelijke inspecteur zorgt dat er niets over het hoofd wordt gezien, voordat het eindresultaat wordt opgeleverd.