Build, Judge, Optimize: A Blueprint for Continuous Improvement of Multi-Agent Consumer Assistants

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een supermarktbediende hebt die niet alleen naar de schappen loopt, maar ook met je praat, je favoriete merken kent, rekening houdt met je budget en zelfs weet dat je gisteren al melk hebt gekocht. Dat is een Conversational Shopping Assistant (een slimme boodschappenassistent).

Dit artikel beschrijft hoe een team van onderzoekers (van WithMetis.ai en DoorDash) zo'n assistent heeft gebouwd, getest en verbeterd. Ze noemen hun systeem MAGIC. Hier is de uitleg in simpele taal, met een paar leuke vergelijkingen.

1. Het Probleem: Een Orkest zonder Dirigent

In het begin probeerden ze dit met één grote, slimme "robot" (een monolithische agent). Maar boodschappen doen is lastig. Je zegt: "Doe maar mijn gebruikelijke boodschappen, maar dan onder de 25 euro en met een fles wijn erbij."

De robot moet weten wat "gebruikelijk" is.
Hij moet kijken of de producten op voorraad zijn.
Hij moet de wijn vinden die bij de rest past.
Hij moet het budget bewaken.

Met één grote robot raakte de boodschappenlijst snel in de war. Het was alsof je één muzikant vraagt om viool, drum, zang en piano tegelijk te spelen; het wordt rommelig en foutjes worden niet opgemerkt.

De oplossing: Ze maakten een team van specialisten (multi-agent systeem).

De Dirigent (Orchestrator): Luistert naar jou en verdeelt het werk.
De Zoeker: Vindt de producten.
De Rekenaar: Houdt het budget in de gaten.
De Persoonlijke Assistent: Onthoudt wat je lekker vindt.

2. De Uitdaging: Hoe meet je of het goed gaat?

Hoe weet je of zo'n team goed werkt? Je kunt niet gewoon kijken of de producten in de winkelwagen zitten. Je moet ook kijken of de conversatie logisch was, of de dirigent de juiste instructies gaf, en of niemand iets verzonnen heeft (hallucinaties).

Ze bedachten een Scorekaart (Rubric) met vier categorieën:

Boodschappen doen: Kregen we de juiste spullen?
Persoonlijkheid: Hielden ze rekening met jouw voorkeuren?
Gesprek: Was het gesprek natuurlijk en logisch?
Veiligheid: Zeiden ze niets gevaarlijks of onzin?

Om dit te testen, lieten ze een Super-Slimme Rekenmachine (LLM-as-a-Judge) de gesprekken beoordelen. Maar eerst moesten ze deze rekenmachine "kalibreren".

Vergelijking: Stel je voor dat je een nieuwe leraar aanstelt om proefwerken te nakijken. Eerst kijkt de leraar samen met een ervaren meester naar 100 oude proefwerken. Als ze het niet eens zijn, bespreekt de leraar de regels. Uiteindelijk nakijkt de nieuwe leraar net zo goed als de meester (91% overeenstemming). Zo maakten ze hun beoordeling betrouwbaar.

3. De Oplossing: Twee Manieren om te Verbeteren

Nu ze een betrouwbare scorekaart hadden, wilden ze het systeem verbeteren. Ze probeerden twee strategieën:

Strategie A: De "Solo-Oefening" (Sub-agent GEPA)

Hierbij oefende ze elke specialist apart.

Vergelijking: De dirigent oefent alleen zijn baton-zwaaien. De drummer oefent alleen zijn ritme.
Resultaat: Dit hielp om kleine foutjes op te lossen (bijv. "oh, ik heb de verkeerde melk gekozen"). Maar het loste geen grote problemen op. Soms gaf de dirigent de drummer de verkeerde instructie, of werd de drummer te luid en verstoorde hij de dirigent. Omdat ze apart oefenden, zagen ze deze samenwerking-problemen niet.

Strategie B: De "Hele Band" (MAMUT GEPA)

Hierbij oefenden ze het hele team tegelijk, alsof ze een concert repeteren.

Vergelijking: In plaats van individuen te trainen, laten ze de hele band spelen. Als de dirigent te lang praat, krijgt de drummer minder tijd. Als de drummer te hard speelt, kan de zanger niet gehoord worden. Ze leren samen om de beste balans te vinden.
Resultaat: Dit was veel beter! Het systeem leerde dat de dirigent soms korter moet zijn zodat de zoekmachine meer tijd heeft om goede producten te vinden. Het leerde dat ze samen moeten zorgen dat de veiligheidsgrenzen niet worden overschreden.

4. De Simulatie: Een Proefpubliek

Om dit te testen zonder echte klanten te storen, bouwden ze een virtueel publiek.

Als de robot iets anders deed dan in het originele gesprek, liet de simulator een "virtuele klant" reageren die precies deed alsof het de echte klant was. Zo konden ze duizenden scenario's testen in een handomdraai.

Conclusie: Wat hebben we geleerd?

De onderzoekers concluderen dat bij slimme teams van AI-agenten:

Losse training werkt niet genoeg. Het verbeteren van één onderdeel maakt het hele systeem niet per se beter.
Samenwerking is alles. Je moet het hele team samen laten "repetitie" maken om echte verbetering te zien.
Eerst meten, dan verbeteren. Door een heel duidelijke scorekaart te hebben, weten ze precies waar ze moeten schaven.

Kortom: Om een perfecte digitale boodschappenassistent te bouwen, moet je niet alleen slimme individuen hebben, maar vooral een team dat perfect op elkaar ingespeeld is. En om dat te bereiken, moet je ze samen laten repeteren, niet alleen apart.

Build, Judge, Optimize: A Blueprint for Continuous Improvement of Multi-Agent Consumer Assistants

1. Het Probleem: Een Orkest zonder Dirigent

2. De Uitdaging: Hoe meet je of het goed gaat?

3. De Oplossing: Twee Manieren om te Verbeteren

Strategie A: De "Solo-Oefening" (Sub-agent GEPA)

Strategie B: De "Hele Band" (MAMUT GEPA)

4. De Simulatie: Een Proefpubliek

Conclusie: Wat hebben we geleerd?

Probleemstelling

Methodologie

1. Architectuur: Modulaire Multi-Agent Systemen

2. Evaluatie: Rubric-gebaseerde Judge met LLM

3. Calibratie en Optimalisatie

Belangrijkste Resultaten

Bijdragen

Betekenis

Build, Judge, Optimize: A Blueprint for Continuous Improvement of Multi-Agent Consumer Assistants

1. Het Probleem: Een Orkest zonder Dirigent

2. De Uitdaging: Hoe meet je of het goed gaat?

3. De Oplossing: Twee Manieren om te Verbeteren

Strategie A: De "Solo-Oefening" (Sub-agent GEPA)

Strategie B: De "Hele Band" (MAMUT GEPA)

4. De Simulatie: Een Proefpubliek

Conclusie: Wat hebben we geleerd?

Probleemstelling

Methodologie

1. Architectuur: Modulaire Multi-Agent Systemen

2. Evaluatie: Rubric-gebaseerde Judge met LLM

3. Calibratie en Optimalisatie

Belangrijkste Resultaten

Bijdragen

Betekenis

Meer zoals dit

Bridge Diffusion Model: Bridge Chinese Text-to-Image Diffusion Model with English Communities

CurvFed: Curvature-Aligned Federated Learning for Fairness without Demographics

SOAP: Enhancing Spatio-Temporal Relation and Motion Information Capturing for Few-Shot Action Recognition

Efficient Diffusion as Low Light Enhancer

Conditional Distribution Learning for Graph Classification