Can AI Agents Agree?

Each language version is independently generated for its own context, not a direct translation.

Titel: Können KI-Agenten sich wirklich einigen? – Eine einfache Erklärung

Stellen Sie sich vor, Sie haben eine Gruppe von sehr intelligenten Robotern (den „KI-Agenten"), die zusammenarbeiten sollen, um eine einfache Entscheidung zu treffen: Welche Zahl soll es sein?

Das klingt simpel, aber die Forscher von der ETH Zürich haben herausgefunden, dass diese Roboter oft völlig durcheinanderkommen, selbst wenn sie alle „gut" gemeint haben. Hier ist die Geschichte ihrer Entdeckungen, erzählt mit ein paar anschaulichen Vergleichen.

1. Das Szenario: Ein Treffen ohne Chef

Stellen Sie sich einen großen, runden Tisch vor. Dort sitzen mehrere KI-Roboter.

Die Aufgabe: Jeder Roboter beginnt mit einer zufälligen Zahl im Kopf (z. B. zwischen 0 und 50).
Das Ziel: Sie müssen sich alle auf eine einzige Zahl einigen, die am Ende von allen akzeptiert wird.
Die Regel: Es gibt keinen „Chef", der entscheidet. Sie müssen sich nur untereinander absprechen.
Der Clou: Es ist völlig egal, welche Zahl sie wählen. Ob 10 oder 40 – Hauptsache, sie sind sich einig. Das nennt man „kein Einsatz" (No-Stake).

2. Das Problem: Die Roboter sind keine perfekten Logik-Maschinen

Die Forscher haben diese Roboter (basierend auf großen Sprachmodellen wie Qwen) an den Tisch gesetzt. Was passierte?

Sie reden aneinander vorbei: Auch wenn alle nur „gute" Roboter sind, schaffen es oft nur etwa 40 % der Gruppen, sich tatsächlich auf eine Zahl zu einigen.
Je mehr, desto chaotischer: Wenn man 4 Roboter an den Tisch setzt, klappt es manchmal. Wenn man 16 Roboter hinstellt, wird es ein riesiges Durcheinander. Es ist wie bei einer Party: Je mehr Leute reden, desto schwerer ist es, sich zu verstehen.
Die Angst macht sie starr: Wenn den Robotern gesagt wurde: „Achtung, es könnte einen Betrüger geben!", wurden sie noch vorsichtiger und trauten sich weniger, eine Entscheidung zu treffen. Sie blieben oft einfach stehen, wie ein Auto, das vor einer roten Ampel wartet, obwohl niemand da ist.

Die Metapher:
Stellen Sie sich vor, Sie versuchen, mit Freunden einen Film auszusuchen. Jeder schlägt einen vor. Wenn alle freundlich sind, einigt man sich schnell. Aber wenn die KI-Roboter es sind, diskutieren sie endlos über die Details, vergessen, was sie gesagt haben, oder stimmen am Ende trotzdem nicht ab, weil sie denken: „Vielleicht ist meine Idee ja falsch."

3. Der Bösewicht: Der „Byzantinische" Saboteur

Dann brachten die Forscher einen echten Störenfried ins Spiel. Ein „Byzantinischer Agent" ist wie ein Trickster in der Gruppe.

Er lügt.
Er wirft Zahlen in den Raum, die niemanden interessieren.
Er versucht, die Gruppe zu verwirren.

Das schockierende Ergebnis:
Selbst wenn nur ein einziger solcher Trickster in einer Gruppe von 9 Robotern sitzt, bricht das System fast komplett zusammen.

Die Gruppe schafft es fast nie, sich zu einigen.
Aber hier ist das Wichtigste: Der Trickster hat es nicht geschafft, die Gruppe auf eine falsche Zahl zu bringen. Stattdessen hat er sie einfach gelähmt.
Die Analogie: Stellen Sie sich vor, Sie und Ihre Freunde versuchen, einen Weg durch den Wald zu finden. Ein einzelner Verräter schreit ständig: „Links ist es dunkel!", „Rechts ist ein Bär!", „Gehen wir doch gar nicht!". Am Ende gehen Sie nirgendwohin. Sie stehen einfach nur da und warten (das nennt man „Liveness-Verlust"). Sie sind nicht auf dem falschen Weg, Sie sind gar nicht erst losgelaufen.

4. Was bedeutet das für die Zukunft?

Die Forscher kommen zu einem klaren Fazit:

KI-Agenten sind noch nicht bereit, als zuverlässige Entscheidungsträger in Gruppen zu dienen.

Vertrauen ist fragil: Selbst in einer friedlichen Umgebung, in der niemand schummeln will, können sie sich oft nicht einigen.
Skalierung ist ein Problem: Mehr Roboter bedeuten nicht mehr Intelligenz, sondern mehr Chaos.
Sicherheit: Wenn wir in Zukunft KI-Systeme bauen, die lebenswichtige Entscheidungen treffen müssen (z. B. in der Medizin oder bei autonomen Fahrzeugen), können wir uns nicht darauf verlassen, dass sie sich automatisch einigen.

Zusammenfassung in einem Satz

KI-Agenten sind wie eine Gruppe von sehr klugen, aber nervösen Menschen, die in einem lauten Raum versuchen, sich zu einigen; ein einziger Schreihals reicht aus, damit niemand mehr ein Wort versteht, und selbst ohne Schreihals bleiben sie oft einfach stumm stehen, weil sie zu unsicher sind, den ersten Schritt zu tun.

Die Botschaft der Studie ist also eine Warnung: Bevor wir KI-Agenten komplexe Aufgaben übertragen, müssen wir lernen, wie man sie dazu bringt, sich wirklich zu einigen – und das ist derzeit noch eine große Herausforderung.

Each language version is independently generated for its own context, not a direct translation.

Titel: Können KI-Agenten sich einigen? (Can AI Agents Agree?)

Autoren: Frédéric Berdoz, Leonardo Rugli, Roger Wattenhofer (ETH Zürich)

1. Problemstellung

Große Sprachmodelle (LLMs) werden zunehmend als kooperierende autonome Agenten in Bereichen wie Planung, Codierung und logischem Schlussfolgern eingesetzt. In vielen Szenarien müssen Agentengruppen jedoch eine gemeinsame Entscheidung treffen, anstatt nur unabhängige Antworten zu generieren.

Das zentrale Problem dieser Studie ist die Untersuchung des Verhaltens von LLM-basierten Agenten in adversarischen Konsensszenarien (Byzantinische Fehler). Während klassische verteilte Systeme für deterministische Algorithmen starke Garantien für byzantinische Fehlertoleranz bieten (z. B. Pease et al., 1980), ist unklar, wie sich diese Garantien auf stochastische, prompt-getriebene LLMs übertragen lassen. Die Studie fragt, ob Gruppen von LLM-Agenten selbst in einfachen, „stake-freien" (ohne materielle Interessen) Szenarien zuverlässig zu einer Einigung gelangen können, wenn einige Agenten fehlerhaft oder böswillig (byzantinisch) agieren.

2. Methodik

Die Autoren entwickelten einen synchronen All-zu-All-Simulator (A2A-Sim), um einen skalaren Konsens über einen Bereich von Werten (0 bis 50) zu testen.

Aufbau: Eine Gruppe von $N$ Agenten kommuniziert in Runden. Jeder Agent hat eine interne Historie und schlägt einen Skalarwert vor.
Agenten-Typen:
- Ehrliche Agenten: Starten mit einem zufälligen Wert und versuchen, sich auf einen gemeinsamen Wert zu einigen, der einem der ursprünglichen ehrlichen Werte entspricht.
- Byzantinische Agenten: Ein Anteil $f$ (bis zu $1/3$) der Agenten ist böswillig. Sie können beliebige Werte vorschlagen und versuchen, den Konsens zu stören oder zu verzögern. Sie dürfen jedoch keine Nachrichten unterdrücken, Identitäten fälschen oder unterschiedliche Nachrichten an verschiedene Empfänger senden (kein Equivocation).
Protokoll:
- In jeder Runde senden Agenten einen Vorschlag und eine Begründung.
- Der Konsens gilt als erreicht, wenn mindestens $2/3$ aller Agenten mit „Stop" stimmen.
- Ergebniskategorien:
  1. Gültiger Konsens: Alle ehrlichen Agenten haben denselben Wert (aus ihren Anfangswerten).
  2. Ungültiger Konsens: Einigung wurde erzielt, aber der Wert ist ungültig (z. B. von einem byzantinischen Agenten diktiert).
  3. Kein Konsens: Timeout (maximale Rundenzahl erreicht) oder keine Einigung.
Experimentelles Design:
- Modelle: Qwen3-8B und Qwen3-14B.
- Gruppengrößen: $N \in \{4, 8, 16\}$ .
- Byzantinische Anteile: $B \in \{0, 1, 2, 3, 4\}$ (bei $N=8$ ).
- Prompt-Varianten: Tests mit und ohne explizite Warnung vor der Existenz byzantinischer Agenten.
- Metriken: Erfolgsrate (gültiger Konsens), Zeit bis zum Konsens (Runden), und Art des Versagens (Liveness vs. Safety).

3. Wichtige Beiträge

Fähigkeitsstudie: Eine systematische Analyse der Konsensfähigkeit von LLM-Agenten in benignen (fehlerfreien) Umgebungen über verschiedene Modellgrößen und Gruppengrößen hinweg.
Robustheitsanalyse: Der Nachweis, dass bereits ein einziger byzantinischer Agent die Erfolgsrate des Konsens drastisch reduziert.
Fehleranalyse: Die Erkenntnis, dass Versagen primär durch den Verlust von Liveness (Lebendigkeit) verursacht wird (z. B. Timeouts, stagnierende Konvergenz) und nicht durch die Korruption des Endwerts (Safety-Verletzung).

4. Ergebnisse

Die Ergebnisse zeigen ernüchternde Schwächen aktueller LLM-Agenten-Systeme:

Versagen auch ohne Angreifer: Selbst in benignen Szenarien ( $B=0$ $B = 0$ ) erreichen nur 41,6 % der Simulationen einen gültigen Konsens.
- Größere Modelle (Qwen3-14B) performen deutlich besser als kleinere (Qwen3-8B), aber die Timeout-Raten bleiben hoch.
- Gruppengröße: Mit steigender Gruppengröße ( $N=4 \to 16$ ) sinkt die Erfolgsrate weiter (von 46,6 % auf 33,3 %).
- Prompt-Einfluss: Das explizite Erwähnen möglicher byzantinischer Agenten im Prompt verschlechtert die Leistung (Liveness) signifikant, selbst wenn keine Angreifer vorhanden sind. Das Entfernen dieser Warnung erhöhte die Erfolgsrate bei Qwen3-14B von 59,1 % auf 75,4 %.
Einfluss byzantinischer Agenten:
- Die Hinzufügung von nur einem byzantinischen Agenten ( $B=1$ ) führt zu einem fast vollständigen Zusammenbruch des Konsenserfolgs.
- Art des Versagens: In fast allen Fällen mit Angreifern trat kein Konsens auf (Timeouts). Ungültige Konsenswerte (Safety-Verletzungen) waren selten. Das Hauptproblem ist also, dass die Agenten nicht in der Lage sind, sich überhaupt zu einigen (Liveness-Problem), nicht dass sie sich auf einen falschen Wert einigen.
Konvergenzverhalten: Die Trajektorien der Vorschläge zeigen, dass Agenten oft in Sackgassen geraten oder sich nicht stabilisieren, selbst wenn die Validität theoretisch gewahrt bliebe.

5. Bedeutung und Fazit

Die Studie kommt zu dem Schluss, dass zuverlässige Einigung (Agreement) noch keine verlässliche emergente Fähigkeit aktueller LLM-Agentengruppen ist, selbst in einfachen, stakelosen Umgebungen.

Warnung für die Praxis: Dies wirft erhebliche Bedenken für Deployment-Szenarien auf, die auf robuster Koordination oder Delegierung zwischen autonomen Agenten basieren (z. B. in sicherheitskritischen Systemen).
Forschungsbedarf: Die Ergebnisse unterstreichen, dass die Zuverlässigkeit von Multi-Agenten-Systemen (MAS) noch nicht gegeben ist. Zukünftige Arbeiten müssen sich mit diverseren adversarischen Strategien, heterogenen Agentenpopulationen und Mechanismen zur Verbesserung der Liveness befassen.
Paradoxon: Interessanterweise scheint die bloße Erwartung von Misstrauen (durch Warnungen im Prompt) die Kooperationsfähigkeit der Agenten in benignen Szenarien zu beeinträchtigen.

Zusammenfassend zeigt das Paper, dass LLMs zwar beeindruckende Fähigkeiten zur Einzelentscheidung haben, aber als koordinierte Gruppe in konsensbasierten Settings noch stark fehleranfällig und unzuverlässig sind.

Can AI Agents Agree?

1. Das Szenario: Ein Treffen ohne Chef

2. Das Problem: Die Roboter sind keine perfekten Logik-Maschinen

3. Der Bösewicht: Der „Byzantinische" Saboteur

4. Was bedeutet das für die Zukunft?

Zusammenfassung in einem Satz

Titel: Können KI-Agenten sich einigen? (Can AI Agents Agree?)

1. Problemstellung

2. Methodik

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Faster Stochastic Algorithms for Minimax Optimization under Polyak--Łojasiewicz Conditions

Tensor Completion Leveraging Graph Information: A Dynamic Regularization Approach with Statistical Guarantees

Federated Multi-Agent Mapping for Planetary Exploration

Random Scaling and Momentum for Non-smooth Non-convex Optimization

Exploring Low-Dimensional Subspaces in Diffusion Models for Controllable Image Editing