Learning to Orchestrate Agents in Natural Language with the Conductor

Deze paper introduceert een met versterking leren getraind 'Conductor'-model dat automatisch effectieve coördinatiestrategieën ontdekt om diverse grote taalmodellen te orchestreren, waardoor state-of-the-art resultaten worden behaald op complexe redeneerbenchmarks.

Stefan Nielsen, Edoardo Cetin, Peter Schwendeman, Qi Sun, Jinglue Xu, Yujin Tang

Gepubliceerd 2026-03-03
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een groot, complex probleem moet oplossen, zoals het bouwen van een huis of het organiseren van een grote bruiloft. Je hebt een heleboel specialisten in de buurt: een timmerman, een elektricien, een kok, een bloemist en een planner.

In het verleden probeerden mensen deze specialisten vaak zelf te sturen. Ze gaven de timmerman een opdracht, wachtten, gaven dan de elektricien een opdracht, en hoopten dat het allemaal goed zou komen. Soms werkte het, maar vaak was het een rommeltje omdat de specialisten niet goed met elkaar samenwerkten of de verkeerde taken kregen.

Dit artikel introduceert een nieuwe, slimme oplossing: De Dirigent.

Wat is de Dirigent?

De Dirigent is een klein, maar heel slim computerprogramma (een "taalmodel") dat is getraind om niet zelf het werk te doen, maar om de hele groep te regisseren.

Het is alsof je een orkest hebt met de beste muzikanten ter wereld, maar ze spelen allemaal een beetje door elkaar. De Dirigent is de muzikale leider die luistert naar elke muzikant, weet wat zij het beste kunnen, en dan zegt: "Jij, viool, speel nu dit stukje. Jij, trompet, wacht even en speel dan dit. En jij, drum, zorg dat je precies op het juiste moment begint."

Hoe werkt het?

De onderzoekers hebben deze Dirigent niet handmatig geprogrammeerd met regels. In plaats daarvan hebben ze hem leren spelen door te proberen en te fouten maken (dit noemen ze "versterkende leer", of Reinforcement Learning).

  1. De Proef: De Dirigent krijgt een moeilijke vraag (bijvoorbeeld: "Schrijf een computerprogramma dat dit wiskundeproblem oplost").
  2. Het Plan: De Dirigent bedenkt een plan. Hij kiest welke "werker" (een ander computerprogramma) wat moet doen. Hij zegt bijvoorbeeld: "Model A, bedenk een slimme manier om dit te doen. Model B, schrijf de code op basis van dat plan. Model C, controleer of het werkt."
  3. De Feedback: Als het antwoord goed is, krijgt de Dirigent een puntje. Als het fout is, krijgt hij een strafje.
  4. De Leer: Na duizenden keren proberen, leert de Dirigent vanzelf de beste strategieën. Hij ontdekt dat hij soms drie mensen nodig heeft voor een moeilijke taak, maar maar één voor een simpele vraag. Hij leert ook hoe hij precies moet vertellen wat er gedaan moet worden, zodat elke werker zijn beste prestatie levert.

Waarom is dit zo speciaal?

  • Het is een meester in samenwerking: De Dirigent is zelf niet per se de slimste werker (hij is relatief klein), maar door de juiste mensen op het juiste moment te kiezen en hen slim aan te sturen, komt hij verder dan welke enkele "superwerker" ook. Het is als een coach die een team van goede spelers naar een wereldkampioenschap leidt.
  • Het past zich aan: Soms heb je alleen maar open-source modellen (gratis software) en soms dure, gespecialiseerde modellen. De Dirigent leert om met elke groep te werken. Als je hem alleen maar gratis modellen geeft, leert hij die zo slim mogelijk te combineren om toch een topresultaat te krijgen.
  • Het kan zichzelf corrigeren: Als de Dirigent merkt dat zijn eerste plan niet goed werkt, kan hij zichzelf een tweede kans geven. Hij zegt dan: "Hé, dit plan werkte niet. Laten we het opnieuw proberen met een andere aanpak." Dit noemen ze "recursie", wat in het Nederlands simpelweg betekent: "terug naar de start om het beter te doen".

Het resultaat

In tests op heel moeilijke taken (zoals het schrijven van complexe computercode of het oplossen van lastige natuurkundevragen) heeft deze Dirigent beter gepresteerd dan de beste enkele computerprogramma's die er nu zijn.

Het is alsof een slimme dirigent met een klein orkestje een symfonie speelt die klinkt alsof het door een heel groot, duur orkest is uitgevoerd.

Kortom: Dit artikel laat zien dat we niet altijd nodig hebben om nog grotere, duurdere computerprogramma's te bouwen. In plaats daarvan kunnen we een slimme "regisseur" maken die de bestaande programma's zo slim mogelijk met elkaar laat samenwerken. Dat is de kracht van de Dirigent.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →