Learning to Negotiate: Multi-Agent Deliberation for Collective Value Alignment in LLMs

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr klugen, aber manchmal etwas sturen digitalen Assistenten (eine KI). Bisher wurde dieser Assistent hauptsächlich von Menschen trainiert, um „hilfreich, ehrlich und harmlos" zu sein. Das funktioniert gut, wenn es nur um eine einzige Aufgabe geht. Aber was passiert, wenn zwei Menschen mit völlig unterschiedlichen Meinungen vor ihm stehen und er eine Lösung finden muss, die beide zufriedenstellt?

Dort stößt die herkömmliche KI oft an ihre Grenzen. Sie versucht, eine feste Regel zu befolgen, und scheitert, wenn die Regeln sich widersprechen.

Diese neue Forschungsarbeit schlägt einen cleveren neuen Weg vor: Lernen durch Verhandlung.

Hier ist die Idee, einfach erklärt:

1. Das Problem: Der sture Lehrer vs. der verhandelnde Diplomat

Stell dir vor, du lehrst einen Schüler Mathe. Wenn du ihm nur sagst: „Löse die Aufgabe so schnell wie möglich", wird er vielleicht die falsche Lösung wählen, nur um schnell fertig zu sein. Das ist wie bei den alten KI-Methoden: Sie optimieren auf ein festes Ziel (z. B. „sei nett"), aber wenn die Situation kompliziert ist (z. B. „sei nett, aber sag auch die harte Wahrheit"), geraten sie in Konflikt.

In der echten Welt haben wir oft viele verschiedene Interessen. Ein Manager will sparen, ein Ingenieur will Qualität, und ein Umweltschützer will Nachhaltigkeit. Eine KI, die nur auf ein Ziel trainiert ist, kann diese Konflikte nicht gut lösen.

2. Die Lösung: Ein innerer Dialog (Self-Play)

Die Forscher haben eine Methode entwickelt, bei der die KI lernt, wie ein Diplomat, nicht wie ein Befehlsempfänger.

Stell dir vor, die KI ist wie ein Schauspieler, der in einem Theaterstück zwei Rollen gleichzeitig spielt:

Rolle A: Ein strenger Sparschwein, der nur an Kosten denkt.
Rolle B: Ein visionärer Künstler, der nur an Qualität denkt.

Diese beiden „Personen" (die eigentlich dieselbe KI sind) setzen sich an einen Tisch und verhandeln. Sie streiten sich, schlagen Lösungen vor und versuchen, einen Kompromiss zu finden, bei dem beide gewinnen.

3. Der Trainingsprozess: Wie lernt die KI daraus?

Statt dass ein menschlicher Lehrer sagt „Das war gut" oder „Das war schlecht", nutzt die KI einen cleveren Trick:

Der Schiedsrichter: Ein anderer, sehr kluger KI-Richter (ein „Schiedsrichter") hört dem Gespräch zu. Er schaut nicht nur auf das Endergebnis, sondern darauf, wie die beiden verhandelt haben.
Die Belohnung: Wenn die beiden KI-Personen eine Lösung finden, die beide Seiten zufriedenstellt und das Problem wirklich löst, bekommen sie eine Belohnung. Wenn sie sich nur streiten und keine Einigung erzielen, bekommen sie eine Null.
Das Lernen: Die KI lernt aus tausenden dieser simulierten Verhandlungen. Sie merkt: „Aha, wenn ich so argumentiere, finden wir schneller eine Lösung, die alle glücklich macht."

4. Was ist das Ziel? „Collective Agency" (Gemeinsame Handlungsfähigkeit)

Das Ziel ist nicht nur, dass die KI „nett" ist. Das Ziel ist etwas Tieferes, das die Forscher „Collective Agency" nennen.

Stell dir vor, die KI soll nicht nur ein Werkzeug sein, sondern ein Teamplayer, der die Handlungsfähigkeit aller Beteiligten stärkt.

Sie soll das Wissen erweitern (alles verstehen).
Sie soll Güte zeigen (den anderen unterstützen).
Sie soll Macht haben (die Lösung wirklich umsetzen können).
Sie soll Lebendigkeit haben (sich anpassen und wachsen).

Die KI lernt also, Lösungen zu finden, bei denen niemand etwas verliert, sondern alle etwas hinzugewinnen.

5. Das Ergebnis: Ein besserer Vermittler

Die Tests haben gezeigt:

Die KI ist immer noch sehr klug in Mathe und beim Befolgen von Anweisungen (sie hat ihr allgemeines Wissen nicht verloren).
Aber im Vergleich zu anderen KIs ist sie viel besser darin, Konflikte zu lösen.
Sie findet Lösungen, die konkreter und praktikabler sind. Statt nur zu sagen „Wir müssen fair sein", schlägt sie einen echten Plan vor, der die Interessen aller berücksichtigt.

Zusammenfassung in einer Metapher

Früher war die KI wie ein Roboter-Koch, der genau den Rezepten folgte, die ihm gegeben wurden. Wenn das Rezept widersprüchlich war (z. B. „mache es scharf, aber nicht scharf"), wurde er verwirrt oder lieferte etwas Unschmackhaftes ab.

Diese neue Methode macht aus der KI einen erfahrenen Küchenchef, der mit einem Gast verhandelt. Der Gast will scharf, aber der Gast hat auch eine Allergie. Der Chef verhandelt, probiert aus, findet eine neue Zutat und serviert ein Gericht, das beide zufriedenstellt. Er hat gelernt, dass das beste Ergebnis nicht das ist, das eine Regel am strengsten befolgt, sondern das, das die Bedürfnisse aller am besten vereint.

Kurz gesagt: Die Forscher haben der KI beigebracht, nicht nur zu gehorchen, sondern zu diskutieren und zu verhandeln, damit sie in komplexen Situationen mit vielen verschiedenen Meinungen die beste Lösung für alle findet.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Learning to Negotiate: Multi-Agent Deliberation for Collective Value Alignment in LLMs" auf Deutsch:

1. Problemstellung

Die Ausrichtung (Alignment) von Large Language Models (LLMs) hat in Einzel-Agenten-Szenarien durch Methoden wie RLHF (Reinforcement Learning from Human Feedback) und RLAIF (Reinforcement Learning from AI Feedback) erhebliche Fortschritte gemacht. Diese Ansätze optimieren jedoch oft statische Ziele wie „Hilfsbereitschaft, Ehrlichkeit und Harmlosigkeit" (HHH).

Das Paper identifiziert zwei Hauptprobleme:

Statische Ziele vs. Dynamische Realität: Statische Ziele sind anfällig für Reward-Misgeneralisierung und erfassen nicht die Vielfalt realer Wertesysteme, insbesondere in Umgebungen mit mehreren Stakeholdern.
Mangelnde Konfliktlösung: Selbst skalierbare Einzel-Agenten-Ansätze, die auf dynamischen Zielen wie „Collective Agency" (CA) basieren, scheitern oft in Multi-Stakeholder-Szenarien. Wenn Meinungsverschiedenheiten auftreten, produzieren diese Modelle zwar wertekonsistente, aber oft abstrakte oder nicht konvergierende Antworten, anstatt echte Kompromisse oder Lösungen zu finden.

Das Ziel ist es, LLMs so auszurichten, dass sie nicht nur individuelle Werte vertreten, sondern in der Lage sind, durch Deliberation (Überlegung) und Verhandlung kollektive Lösungen zu finden, die den Wertkonflikten gerecht werden.

2. Methodik

Das Paper stellt einen skalierbaren Multi-Agenten-Verhandlungsrahmen vor, der auf einem Selbstspiel-Prinzip (Self-Play) und Group-Relative Reinforcement Learning basiert.

A. Das Framework

Zielsetzung: Ausrichtung auf Collective Agency (CA), ein dynamisches Ziel, das die kontinuierliche Erweiterung der Handlungsfähigkeit (Agency) eines Agenten und anderer definiert. CA umfasst vier Dimensionen: Wissen, Wohlwollen, Macht und Vitalität.
Aufgabenstellung: Zwei Agenten (beide basieren auf demselben Modell) erhalten gegensätzliche „Personas" (z. B. „Datengesteuert" vs. „Emotionsbasiert"). Sie müssen in einem strukturierten, turn-basierten Dialog eine Lösung für ein ethisches Dilemma finden, das beide Perspektiven berücksichtigt.
Prozess:
1. Verhandlungsphase: Die Agenten tauschen Vorschläge aus, bis eine Einigung erreicht ist oder ein Turn-Limit (N=7) erreicht wird.
2. Abschlussphase: Ein Agent fasst die Einigung in einer finalen Antwort zusammen.
3. Bewertung: Ein externer LLM-Richter (Judge) prüft, ob eine Einigung erreicht wurde, und vergibt einen CA-Score (0–5) für die finale Antwort.

B. Training und Optimierung

Datengenerierung: Es wurde ein synthetischer Lehrplan mit 1.100 moralischen Dilemmata und 25 adversären Persona-Paaren erstellt, um Wertekonflikte ohne menschliche Annotation zu simulieren.
Selbstspiel (Self-Play): Das trainierbare Modell (Policy $\pi_\theta$ ) spielt gegen eine eingefrorene Kopie seiner selbst. Dies ermöglicht Multi-Agenten-Interaktion ohne separate Gegner-Modelle.
Reinforcement Learning (GRPO): Das Training nutzt Group-Relative Policy Optimization (GRPO).
- Für jeden Prompt werden $G$ verschiedene Verhandlungstrajektorien generiert.
- Die Belohnung ( $r_i$ ) basiert auf dem CA-Score der finalen Antwort. Bei gescheiterten Verhandlungen (keine Einigung) wird $r_i = 0$ gesetzt.
- Die Vorteile ( $\hat{A}_i$ ) werden durch Normalisierung innerhalb der Gruppe berechnet: $\hat{A}_i = \frac{r_i - \text{mean}(r)}{\text{std}(r) + \epsilon}$ .
Token-Level-Optimierung: Ein entscheidender technischer Aspekt ist, dass die Gradienten auf den Dialog-Token (während der Verhandlung) berechnet werden, nicht nur auf den finalen Token der Zusammenfassung. Dies trainiert das Modell direkt in der Interaktionsdynamik, nicht nur in der Zusammenfassungsfähigkeit.
Loss-Funktion: Es wird ein token-normalisierter GRPO-Loss verwendet, um Verzerrungen durch die Länge des Dialogs zu vermeiden. Die KL-Regularisierung wird bewusst auf $\beta=0$ gesetzt, um die Exploration zu fördern.

3. Schlüsselbeiträge

Neuer Alignement-Ansatz: Erstmalige Anwendung von Multi-Agenten-Verhandlungen als Trainingsmechanismus zur Verbesserung der Konfliktlösungsfähigkeit von LLMs.
Skalierbarkeit: Durch die Nutzung von Self-Play und synthetischen Daten (generiert durch LLMs) wird menschliche Annotation für das Training von Konfliktlösungsszenarien vermieden.
Granulare Optimierung: Die direkte Optimierung der Dialog-Token durch GRPO ermöglicht es dem Modell, die Prozesse der Verhandlung zu verbessern, nicht nur das Endergebnis.
Erhaltung der Fähigkeiten: Das Framework zeigt, dass spezifische Alignement-Verbesserungen (Konfliktlösung) nicht auf Kosten der allgemeinen Sprachfähigkeiten gehen.

4. Ergebnisse

Die Experimente wurden mit dem Qwen3-14B-Instruct Modell durchgeführt und gegen ein Basis-Modell sowie ein Single-Agenten-CA-Modell verglichen.

Konfliktlösung: Das Multi-Agenten-Modell übertrifft das Basis-Modell und das Single-Agenten-Modell signifikant in der Fähigkeit, Konflikte zu lösen.
- Die Einigungsrate stieg von ca. 91% auf 97%.
- Die durchschnittliche Anzahl der Runden bis zur Einigung sank von ~2,3 auf ~1,9 (effizientere Verhandlungen).
- In pairwise Vergleichen (LLM-Judge) gewann das Multi-Agenten-Modell in Konfliktszenarien deutlich häufiger als die Baseline (Win-Rate > 60% unter Sampling).
Collective Agency (CA): Das Modell erreicht ein CA-Niveau, das mit dem Single-Agenten-Ansatz vergleichbar ist, verbessert jedoch die Konsistenz der Antworten (besonders bei stochastischem Decoding).
Allgemeine Fähigkeiten: Die Leistung in Standard-Benchmarks (IFEval, AIME, GPQA) blieb unverändert im Vergleich zum Basis-Modell. Dies beweist, dass das Training keine „Catastrophic Forgetting" (Vergessen von Fähigkeiten) verursacht.
Qualitative Analyse: Die Lösungen des Multi-Agenten-Modells sind konkreter, handlungsorientierter und synthetisieren die gegensätzlichen Perspektiven besser als die oft abstrakten oder unpraktischen Lösungen der Single-Agenten-Modelle.

5. Bedeutung und Fazit

Das Paper demonstriert, dass strukturierte Verhandlung ein praktischer und skalierbarer Weg ist, um LLMs für komplexe, multi-stakeholder Umgebungen vorzubereiten.

Paradigmenwechsel: Statt statische Regeln zu lernen, lernen Modelle durch Interaktion, wie sie widersprüchliche Werte in konsistente Lösungen überführen.
Kollektive Intelligenz: Die Methode ebnet den Weg für LLMs, die als Werkzeuge für kollektive Entscheidungsfindung dienen können, insbesondere in Szenarien, in denen ethische oder strategische Interessen kollidieren.
Robustheit: Die Ergebnisse deuten darauf hin, dass die Fähigkeit zur Deliberation die Robustheit des Modells erhöht, da es lernt, unter Unsicherheit und mit widersprüchlichen Zielen zu operieren, ohne seine allgemeinen Fähigkeiten zu verlieren.

Zusammenfassend bietet dieser Ansatz eine vielversprechende Richtung für die nächste Generation von KI-Systemen, die nicht nur „hilfreich" sind, sondern auch in der Lage sind, komplexe menschliche Wertekonflikte durch konstruktiven Dialog zu lösen.