Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets

Each language version is independently generated for its own context, not a direct translation.

Das große Rätsel: Ein Genie allein oder ein Team von Experten?

Stellen Sie sich vor, Sie haben eine sehr knifflige Aufgabe zu lösen – vielleicht ein komplexes Rätsel, das mehrere Schritte erfordert, um die Antwort zu finden.

In der Welt der künstlichen Intelligenz (KI) gibt es zwei Hauptansätze:

Der Einzelkämpfer (Single-Agent): Ein einziges, sehr starkes KI-Modell denkt sich alles selbst aus. Es hat einen langen, durchgehenden Gedankenstrom.
Das Team (Multi-Agent System): Ein Team aus mehreren KIs arbeitet zusammen. Einer plant, einer sucht Fakten, einer kritisiert, einer fasst zusammen. Sie schicken sich Nachrichten hin und her.

Bisher dachte man: „Das Team muss doch besser sein! Mehr Köpfe, mehr Ideen." Aber diese neue Studie von Stanford sagt etwas Überraschendes: Wenn man den Ressourcenverbrauch genau gleich hält, gewinnt fast immer der Einzelkämpfer.

Der entscheidende Vergleich: Der „Gedanken-Budget"

Das Problem bei früheren Vergleichen war, dass Teams oft einfach mehr Rechenaufwand (mehr „Gedanken-Tokens") verbrauchten. Sie schrieben einfach mehr Texte, diskutierten länger und nutzten mehr Rechenkraft. Das ist wie ein Fußballteam, das 11 Spieler hat, aber jeder darf 100 Minuten spielen, während der Einzelkämpfer nur 10 Minuten hat. Natürlich gewinnt das Team!

Die Forscher haben hier einen fairen Vergleich gemacht: Gleiche Zeit, gleiche Rechenkraft.
Sie haben ein festes „Gedanken-Budget" (z. B. 1.000 Wörter, die die KI zum Nachdenken verwenden darf) festgelegt. Dieses Budget wurde dann entweder dem Einzelkämpfer gegeben ODER auf das Team aufgeteilt.

Das Ergebnis: Der Einzelkämpfer war genauso gut oder sogar besser als das Team.

Warum ist das so? Die Analogie vom „Informationen-Verlust"

Stellen Sie sich Information wie Wasser vor, das durch ein Rohr fließt.

Der Einzelkämpfer: Das Wasser fließt direkt von der Quelle (der Frage) zum Ziel (der Antwort) durch ein großes, gerades Rohr. Nichts geht verloren.
Das Team: Das Wasser muss durch mehrere kleine Behälter gegossen werden. Jeder Behälter ist ein anderer KI-Agent. Agent A nimmt das Wasser, schüttet es in einen Eimer, Agent B nimmt den Eimer, schüttet es weiter, und so weiter.

Jedes Mal, wenn das Wasser von einem Agenten zum nächsten weitergegeben wird (die „Nachricht"), kann etwas verschüttet werden oder verdunsten. In der Wissenschaft nennt man das den Datenverarbeitungs-Ungleichheit. Einfach gesagt: Je mehr Zwischenschritte und Nachrichten es gibt, desto wahrscheinlicher ist es, dass wichtige Informationen verloren gehen oder verzerrt werden. Der direkte Weg (Einzelkämpfer) ist effizienter.

Wann gewinnt dann doch das Team?

Das Team ist nicht komplett nutzlos. Die Studie zeigt, wann es Sinn macht:
Stellen Sie sich vor, der Einzelkämpfer ist in einem sehr lauten, chaotischen Raum (ein langer, verwirrender Text mit vielen irrelevante Details). Er kann sich nicht konzentrieren und verliert den Faden.
In diesem Fall hilft das Team: Ein Agent filtert den Lärm heraus, ein anderer sortiert die wichtigen Fakten. Wenn der „Raum" zu chaotisch für einen einzelnen Kopf ist, hilft die Aufteilung der Arbeit.

Aber in einem normalen, klaren Umfeld ist der Einzelkämpfer schneller und präziser.

Ein wichtiger Fund: Die „Zauber-Formel" der KI-Firmen

Die Forscher haben noch etwas Spannendes entdeckt, besonders bei den Modellen von Google (Gemini).
Wenn man einer KI sagt: „Denke nach, bis du 10.000 Wörter erreicht hast", passiert oft etwas Seltsames:

Das Team (Multi-Agent) schreibt tatsächlich viel Text, weil jeder Agent etwas schreibt.
Der Einzelkämpfer (Single-Agent) hört oft schon viel früher auf zu schreiben, obwohl er eigentlich noch „Geld" im Budget hat. Er denkt vielleicht intern weiter, aber er schreibt es nicht auf.

Das bedeutet: Viele frühere Studien, die sagten „Teams sind besser", haben sich vielleicht nur auf die Anzahl der geschriebenen Wörter verlassen, nicht auf die tatsächliche Rechenkraft. Es war ein Trick des Messsystems. Wenn man fair misst, gewinnt der Einzelkämpfer.

Fazit für den Alltag

Die Botschaft der Studie ist beruhigend und effizient:
Wir müssen nicht immer komplexe Teams von KI-Agenten aufbauen, um schwierige Probleme zu lösen. Oft reicht ein starker, einzelner KI-Assistent, der einfach genug Zeit zum Nachdenken bekommt.

Für einfache bis mittlere Aufgaben: Ein einziger, kluger Kopf ist besser. Er verliert keine Informationen auf dem Weg und nutzt sein Budget effizienter.
Für extrem chaotische Aufgaben: Ein Team kann helfen, wenn die Informationen so verworren sind, dass ein einzelner Kopf sie nicht mehr sortieren kann.

Die Zukunft liegt also nicht unbedingt in immer größeren KI-Schwärmen, sondern darin, den einzelnen KI-Modellen die richtigen Werkzeuge und den nötigen Raum zum Nachdenken zu geben, ohne sie in unnötige Bürokratie (viele Agenten-Nachrichten) zu verwickeln.

Each language version is independently generated for its own context, not a direct translation.

Titel

Single-Agent LLMs outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets
(Einzelne Agenten-LLMs übertreffen Multi-Agenten-Systeme beim mehrstufigen Schlussfolgern unter gleichen Budgets für Denk-Token)

1. Problemstellung

In der aktuellen Forschung zeigen Multi-Agenten-Systeme (MAS) oft starke Leistungen bei komplexen Aufgaben. Diese Verbesserungen werden jedoch häufig durch einen Konfundierungsfaktor verzerrt: MAS verbrauchen in der Regel deutlich mehr Rechenleistung (Token) als Single-Agent-Systeme (SAS), da sie längere Denkpfade oder mehrere Interaktionen zwischen Agenten nutzen.
Die zentrale Frage ist: Haben Multi-Agenten-Architekturen einen inhärenten strukturellen Vorteil, oder sind die Leistungssteigerungen lediglich eine Folge des erhöhten Compute-Aufwands? Bisherige Studien deuten darauf hin, dass bei normalisiertem Compute der Vorteil verschwindet, doch die theoretische Begründung und eine rigorose empirische Validierung fehlten.

2. Methodik

Theoretische Grundlage (Informations-Theorie)

Die Autoren leiten eine theoretische Argumentation basierend auf der Data Processing Inequality (DPI) ab:

Sei $Y$ die korrekte Antwort, $C$ der vollständige Kontext und $M$ die Nachrichten, die zwischen Agenten in einem MAS ausgetauscht werden.
Da $M$ eine Funktion von $C$ ist ( $Y \leftarrow C \leftarrow M$ ), gilt nach der DPI: $I(Y; C) \geq I(Y; M)$ .
Ein Single-Agent-System hat direkten Zugriff auf den vollen Kontext $C$ , während ein MAS nur auf die transformierte, potenziell informationsverlustbehaftete Nachricht $M$ zugreift.
Folgerung: Unter einem festen Token-Budget ist ein SAS informations-theoretisch effizienter. Ein MAS kann nur dann vorteilhaft sein, wenn die effektive Kontextnutzung eines einzelnen Agenten degradiert ist (z. B. durch Rauschen oder zu lange Kontexte) oder wenn durch die Interaktion zusätzlicher, nicht eingerechneter Compute verbraucht wird.

Empirisches Design

Die Studie vergleicht SAS und verschiedene MAS-Architekturen unter strikt kontrollierten Bedingungen:

Datensätze: FRAMES und MuSiQue (4-Hop-Fragen), die mehrstufiges Weltwissen erfordern.
Modelle: Drei Familien: Qwen3, DeepSeek-R1-Distill-Llama und Gemini 2.5 (Flash/Pro).
Architekturen:
- SAS: Ein einzelner Durchlauf mit dem gesamten globalen Denk-Budget.
- MAS-Varianten: Sequential (sequenzielle Planung), Subtask-parallel, Parallel-roles, Debate (Debatte) und Ensemble.
Kontrollvariable: Das Thinking-Token-Budget (Anzahl der Token für den Denkprozess, ohne Prompts und finale Antwort) wird für alle Systeme exakt gleichgesetzt.
Variante SAS-L: Eine SAS-Variante, die durch spezifische Prompts zu längeren Denkprozessen angeregt wird, um zu prüfen, ob unterausgelastete Denkkanäle bei Gemini-Modellen die Ergebnisse verzerren.

3. Wichtige Ergebnisse

Hauptergebnis: SAS ist überlegen

Unter gleichen Denk-Token-Budgets gleichen SAS die MAS-Architekturen aus oder übertreffen sie konsistent bei mehrstufigen Schlussfolgerungsaufgaben.

Dies gilt für alle getesteten Modellfamilien und Datensätze.
Selbst bei höheren Budgets (bis 10.000 Token) zeigen MAS keine systematische Überlegenheit gegenüber SAS.
Die "Debate"-Architektur war die stärkste MAS-Variante, erreichte aber selten das Niveau des SAS.

Kontext-Degradation

Die theoretische Vorhersage wurde bestätigt: MAS werden nur dann konkurrenzfähig, wenn die effektive Kontextnutzung des Single-Agenten degradiert ist.

In Experimenten mit künstlich degradiertem Kontext (Maskierung, Substitution von Token, Hinzufügen von Ablenkungen) sank die Leistung des SAS stärker als die des MAS.
Bei starker Degradation (z. B. 70% Substitution) konnte ein strukturiertes MAS (Sequential) das SAS übertreffen, da es durch Filterung und Zerlegung robuster gegenüber Rauschen ist.

Artefakte in der Evaluierung

Die Studie deckte signifikante methodische Probleme auf:

API-Budget-Kontrolle: Bei Gemini-Modellen (insb. 2.5) gibt es eine Diskrepanz zwischen dem angeforderten Budget und den tatsächlich generierten sichtbaren Denk-Token. Die API meldet oft deutlich mehr Token, als im Text sichtbar sind (Inflation um Faktor ~4-5 bei hohen Budgets).
Benchmark-Schwachstellen: Paraphrasierungs-Tests zeigten, dass Modelle teilweise Fragen auswendig gelernt hatten. Tiefe Paraphrasierung verbesserte die Ergebnisse, was auf Overfitting in Standard-Benchmarks hindeutet.

4. Schlüsselbeiträge

Informations-theoretische Begründung: Eine klare Herleitung, warum Multi-Agenten-Systeme unter festen Budgets durch Informationsverluste beim Nachrichten-Austausch (DPI) benachteiligt sind.
Kontrollierter empirischer Vergleich: Der erste umfassende Vergleich über drei Modellfamilien hinweg, der zeigt, dass der Vorteil von MAS oft nur durch unkontrollierten Mehrverbrauch an Rechenleistung vorgetäuscht wird.
Diagnostische Analyse: Identifikation von Artefakten in API-Budgets und Benchmark-Designs, die zu falschen Schlussfolgerungen über die Überlegenheit von MAS führen können.

5. Bedeutung und Fazit

Die Arbeit widerlegt die Annahme, dass Multi-Agenten-Architekturen per se besser für komplexe Schlussfolgerungen geeignet sind. Stattdessen zeigt sie:

Compute vs. Architektur: Viele berichtete Vorteile von MAS sind auf den zusätzlichen Compute-Aufwand zurückzuführen, nicht auf die Architektur selbst.
Effizienz: Für mehrstufiges Reasoning ist ein Single-Agent-System mit vollem Kontextzugriff und gleichem Budget die effizientere Wahl.
Grenzen von MAS: MAS sind nur dann sinnvoll, wenn der Single-Agent aufgrund von Kontextlänge, Rauschen oder spezifischen Strukturierungsbedürfnissen an seine Grenzen stößt.
Forschungsimplikation: Zukünftige Studien müssen Compute-Budgets strikt normalisieren und die Diskrepanz zwischen API-Berichten und tatsächlichem Output berücksichtigen, um faire Vergleiche zu ermöglichen.

Zusammenfassend argumentieren die Autoren, dass der Fokus auf "Agentic"-Systeme oft die zugrundeliegende Rechenleistung ignoriert, und dass für viele Aufgaben ein gut konfigurierter Single-Agent die robustere und effizientere Lösung darstellt.