Learning to Orchestrate Agents in Natural Language with the Conductor

Diese Arbeit stellt einen mit Reinforcement Learning trainierten „Conductor"-Modell vor, der durch die automatische Optimierung von Kommunikationsstrukturen und Anweisungen für pools von Sprachmodellen deren individuelle Stärken synergistisch nutzt, um in komplexen Reasoning-Aufgaben state-of-the-art Ergebnisse zu erzielen.

Stefan Nielsen, Edoardo Cetin, Peter Schwendeman, Qi Sun, Jinglue Xu, Yujin Tang

Veröffentlicht 2026-03-03
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast eine riesige Bibliothek voller verschiedener Experten. Einen, der genial Mathematik löst, einen anderen, der wie ein Programmier-Wunderkind Code schreibt, und wieder einen, der in Biologie und Medizin zu Hause ist. Jeder dieser Experten ist in seinem Fachgebiet ein Meister, aber wenn sie allein arbeiten, stoßen sie manchmal an ihre Grenzen.

Die Forscher von Sakana AI haben nun einen neuen, besonderen Charakter erfunden: den Dirigenten (auf Englisch "Conductor").

Hier ist die Geschichte, wie dieser Dirigent funktioniert, einfach erklärt:

1. Das Problem: Ein Orchester ohne Dirigenten

Bisher mussten Menschen selbst entscheiden, welcher Experte wann was tun soll. Sie mussten manuell planen: "Okay, erst fragt man den Mathematiker, dann schickt man das Ergebnis zum Programmierer." Das ist mühsam, teuer und oft nicht optimal. Manchmal wählt man den falschen Experten für die Aufgabe oder vergisst, dass zwei Experten zusammenarbeiten müssen, um ein Problem zu lösen.

2. Die Lösung: Der KI-Dirigent

Der "Dirigent" ist eine kleine KI (nur 7 Milliarden Parameter, also vergleichsweise klein), die gelernt hat, wie man ein Orchester aus viel größeren und stärkeren KIs (den "Arbeitern") leitet.

Wie lernt er das?
Stell dir vor, du trainierst einen Dirigenten, indem du ihm eine schwierige Aufgabe gibst (z. B. "Löse dieses knifflige Mathe-Problem").

  • Der Dirigent versucht, einen Plan zu machen.
  • Er sagt: "Ich schicke Aufgabe A an Experte 1, dann schicke ich das Ergebnis an Experte 2, damit er es überprüft."
  • Wenn die Lösung stimmt, gibt es einen "Punkt" (Belohnung). Wenn sie falsch ist, gibt es einen "Minus-Punkt".
  • Durch tausende Versuche (Reinforcement Learning) lernt der Dirigent nicht nur, welche Experten er braucht, sondern auch, wie er ihnen genau sagt, was sie tun sollen. Er lernt, die Anweisungen so zu formulieren, dass jeder Experte sein Bestes gibt.

3. Die Magie: Erfindung neuer Strategien

Das Tolle ist: Der Dirigent erfindet seine eigenen Spielregeln. Er muss nicht von Menschen vorgegeben bekommen, wie er arbeiten soll.

  • Beispiel: Bei einer einfachen Aufgabe sagt er vielleicht: "Nimm nur einen Experten, das reicht."
  • Beispiel: Bei einer extrem schwierigen Aufgabe (wie das Schreiben komplexer Software) sagt er: "Wir brauchen ein ganzes Team! Erst plant Experte A die Strategie, dann schreibt Experte B den Code, dann prüft Experte C auf Fehler, und Experte D fasst alles zusammen."
  • Er kann sogar Bäume bauen: Zwei Experten arbeiten parallel an verschiedenen Teilen, und ein dritter bringt die Ergebnisse später zusammen.

4. Der "Spiegel-Trick" (Rekursion)

Eine besonders coole Fähigkeit, die der Dirigent entwickelt hat, nennt sich Rekursion. Das ist wie ein Spiegel, der in einen anderen Spiegel schaut.
Wenn der Dirigent merkt: "Ups, mein erster Plan war nicht gut genug", kann er sich selbst als neuen Experten hinzuziehen. Er sagt quasi: "Ich schaue mir meine eigene Antwort an, überdenke sie und mache einen besseren Plan." So kann er sich selbst verbessern, ohne dass ein Mensch eingreifen muss. Das nennt man "Skalierung zur Laufzeit" – er investiert mehr Denkzeit, um das Ergebnis zu perfektionieren.

5. Warum ist das so wichtig?

  • Kosten: Der Dirigent ist klein und billig. Die "Experten", die er anweist, können sehr teuer sein (wie die neuesten KI-Modelle von OpenAI oder Google). Der Dirigent sorgt dafür, dass diese teuren Modelle nicht verschwendet werden, sondern genau das tun, wofür sie gut sind.
  • Flexibilität: Der Dirigent kann mit jeder Gruppe von Experten arbeiten. Egal ob du nur Open-Source-Modelle hast oder die teuersten geschlossenen Modelle – er passt seinen Plan sofort an.
  • Ergebnis: In Tests (wie bei Mathe-Olympiaden oder Programmierwettbewerben) hat dieser kleine Dirigent mit seinen Anweisungen bessere Ergebnisse erzielt als die einzelnen Experten allein oder als teure, von Menschen geplante Systeme. Er hat sogar neue Rekorde aufgestellt!

Zusammenfassung in einer Metapher

Stell dir vor, du hast einen kleinen, schlauen Kapitän (den Dirigenten) auf einem Schiff. Er selbst kann nicht tauchen (er ist kein tiefer Taucher wie die großen Modelle), aber er weiß genau, welche Taucher (die Worker-Modelle) wann, wo und wie tief gehen müssen.
Früher mussten die Taucher selbst entscheiden, wer wann taucht. Oft sind sie zu tief gegangen, wo es keinen Fisch gab, oder zu flach, wo sie nichts fanden.
Der Kapitän lernt durch Versuch und Irrtum, das perfekte Team aufzustellen. Er sagt: "Du, Taucher A, geh hierhin und such nach Perlen. Du, Taucher B, warte auf A und poliere die Perlen."
Das Ergebnis ist, dass das Schiff (die Lösung) viel schneller und besser beladen ist als je zuvor – und das mit einem Kapitän, der selbst gar nicht tauchen kann, sondern nur das Orchester leitet.

Kurz gesagt: Die Forscher haben eine KI gebaut, die lernt, wie man andere KIs perfekt zusammenarbeitet, um Probleme zu lösen, die für eine einzelne KI zu schwer wären. Und das alles auf natürliche Sprache, ohne dass Menschen mühsam Regeln aufschreiben müssen.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →