Learning to Negotiate: Multi-Agent Deliberation for Collective Value Alignment in LLMs

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je twee vrienden hebt die een moeilijke keuze moeten maken. De ene vriend wil absoluut eerlijk zijn, terwijl de andere vriend wil dat iedereen gelukkig blijft, zelfs als dat betekent dat je niet alles vertelt. In het verleden waren slimme computers (zoals AI) vaak getraind om maar één kant te kiezen: ofwel "altijd eerlijk" of "altijd aardig". Maar in het echte leven is het vaak niet zo simpel. Soms botsen waarden op elkaar, en dan heb je geen simpele "ja" of "nee" nodig, maar een gesprek.

Dit artikel beschrijft een nieuwe manier om AI's slimmer te maken in zulke moeilijke situaties. In plaats van de AI alleen te laten oefenen op het geven van het perfecte antwoord, laten de onderzoekers twee AI's met elkaar onderhandelen.

Hier is hoe het werkt, vertaald naar alledaagse beelden:

1. De Oefening: Twee Zielen in één Hoofd

Stel je voor dat je een spiegelbeeld van jezelf bent. Je bent nu twee personen:

Persoon A is een strenge regelaar die zegt: "We moeten de regels volgen!"
Persoon B is een vrijdenker die zegt: "We moeten creatief zijn en mensen helpen!"

In plaats dat deze twee personen ruzie maken en de AI vastloopt, leren ze met elkaar te praten. Ze krijgen een probleem (bijvoorbeeld: "Een patiënt heeft een misdaad bekend, maar als je het vertelt, breekt je geheimhoudingsplicht. Als je het niet vertelt, zit een onschuldige in de gevangenis").

De AI's moeten nu een gesprek voeren. Ze mogen niet gewoon hun eigen standpunt herhalen. Ze moeten luisteren, compromissen sluiten en een oplossing vinden waar beide kanten zich in kunnen vinden. Het is alsof je een ruzie tussen twee buren oplost door ze samen aan een tafel te zetten in plaats van één van hen te straffen.

2. De Trainer: De Onzichtbare Scheidsrechter

Hoe weten de AI's of ze het goed doen? Er is een "scheidsrechter" (een andere, nog slimmere AI) die naar hun gesprek kijkt.

Als ze ruzie blijven doen en geen oplossing vinden, krijgen ze een nul (een slechte score).
Als ze een oplossing vinden die voor iedereen eerlijk is en waarbij niemand zijn waarden hoeft op te geven, krijgen ze een sterke score.

De AI's proberen steeds hun score te verhogen. Ze leren dus niet alleen wat het antwoord is, maar vooral hoe ze er samen aan werken. Ze leren dat "overleggen" de sleutel is tot een beter resultaat.

3. Het Resultaat: Van Ruzie naar Samenwerking

Vroeger waren AI's vaak als een robot die een strak script volgt. Als je ze vroeg om iets te doen dat tegen hun regels inging, faalden ze of gaven ze een saai, theoretisch antwoord.

Met deze nieuwe methode worden ze als ervaren onderhandelaars:

Ze vinden sneller een oplossing (minder rondes nodig).
De oplossingen zijn praktischer en eerlijker voor iedereen.
Ze worden niet "dommer" door dit te doen; ze blijven net zo goed in wiskunde en taal als voorheen.

De Grootste Les: Het is een Teamwerk

De kernboodschap van dit onderzoek is dat AI's niet alleen moeten worden getraind om het "beste" antwoord te geven, maar om collectief te denken. In een wereld waar mensen verschillende meningen hebben, is de vaardigheid om te onderhandelen en een gezamenlijk doel te vinden (zodat iedereen erbij wint) veel waardevoller dan het simpelweg volgen van een starre regel.

Kortom: De onderzoekers hebben AI's geleerd dat het niet gaat om wie er wint in een discussie, maar om hoe je samen een oplossing vindt waar iedereen zich beter bij voelt. Het is de overstap van "Ik heb gelijk" naar "Laten we het samen oplossen".

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Learning to Negotiate: Multi-Agent Deliberation for Collective Value Alignment in LLMs", vertaald en samengevat in het Nederlands.

Probleemstelling

Huidige methoden voor het uitlijnen (alignment) van Large Language Models (LLMs), zoals Reinforcement Learning from Human Feedback (RLHF) en Constitutional AI, zijn voornamelijk ontworpen voor single-agent scenario's. Ze optimaliseren statische objectieven zoals behulpzaamheid, eerlijkheid en onschadelijkheid (HHH).

Er zijn echter twee fundamentele beperkingen in deze aanpak:

Beperking in multi-stakeholder omgevingen: In de echte wereld ontstaan conflicten vaak door tegenstrijdige waarden tussen verschillende actoren. Statieke objectieven kunnen hierin falen omdat ze geen ruimte bieden voor onderhandeling of deliberatie.
Verlies van conflictoplossingsvermogen: Zelfs bij geavanceerde single-agent methoden die gericht zijn op dynamische uitlijning (zoals Collective Agency), blijkt dat modellen bij meningsverschillen vaak abstracte of niet-convergente antwoorden geven. Ze behouden weliswaar consistentie met hun waarden, maar falen in het vinden van een gezamenlijke, praktische oplossing.

Het paper stelt dat er een mechanisme nodig is dat LLMs leert om deliberatieve onderhandeling te voeren om collectieve waarde-uitlijning te bereiken zonder de algemene taalvaardigheden te degraderen.

Methodologie

De auteurs introduceren een schaalbaar multi-agent onderhandelingsframework dat LLMs traint om te onderhandelen tot een gezamenlijke oplossing, terwijl ze worden uitgelijnd op het concept van Collective Agency (CA).

1. Collective Agency (CA) als Doel

CA wordt gebruikt als het uitlijningsdoel. Het is een dynamisch objectief dat alignment ziet als een voortdurende expansie van betekenisvolle handelingsbekwaamheid (agency), bestaande uit vier aspecten:

Kennis: Uitbreiding van perceptie en begrip.
Welwillendheid: Ondersteuning van de agency en het welzijn van anderen.
Macht: Het vermogen om intenties te realiseren.
Vitaliteit: Het vermogen om aan te passen, te vernieuwen en groei te sustainen.
Het doel is niet compromiet sluiten (waarbij iedereen iets verliest), maar synthese (waarbij iedereen meer wint).

2. Trainingsopzet: Self-Play Negotiation

Het framework gebruikt een self-play benadering waarbij twee instanties van hetzelfde model (met tegenstrijdige persona's) met elkaar onderhandelen.

Persona's: Er wordt een bibliotheek van 50 tegenstrijdige persona's gebruikt (bijv. "maximaliseer snelheid" vs. "maximaliseer kwaliteit").
Dataset: Een synthetische curriculum van 1.100 morele dilemma's in drie categorieën: professionele dilemma's, interpersoonlijke conflicten en micro-ethiek.
Proces:
1. Negotiatiefase: Twee agenten (Agent 1: trainbaar, Agent 2: bevroren kopie) wisselen beurtelings berichten uit om een gezamenlijke oplossing te vinden.
2. Eindcompletie: Na de onderhandeling genereert Agent 1 een samenvatting van de oplossing.
3. Beoordeling: Een externe LLM (GPT-4o-mini) fungeert als rechter om te bepalen of een akkoord is bereikt en om een CA-score (0-5) toe te kennen aan de finale oplossing.

3. Optimalisatie met GRPO

Het model wordt getraind met Group Relative Policy Optimization (GRPO):

Reward Signal: Als er geen akkoord wordt bereikt binnen een limiet van 7 beurten, wordt een beloning van 0 gegeven. Anders krijgt de finale oplossing een CA-score.
Group Relative Advantages: Voor elke prompt worden meerdere onderhandelingspaden gegenereerd. De voordelen worden genormaliseerd binnen deze groep om de relatieve kwaliteit te benadrukken.
Token-level Gradients: Cruciaal is dat de gradients worden toegepast op de dialogue tokens (de onderhandeling zelf) en niet alleen op de finale samenvatting. Dit traint het model direct in de interactiedynamiek.
KL-regularisatie: De auteurs zetten de KL-straf ( $\beta$ ) op 0 om de exploratie te maximaliseren, gebaseerd op eerdere bevindingen dat dit nodig is voor generatietaken.

Belangrijkste Bijdragen

Framework voor Multi-Agent Deliberatie: Een nieuw trainingsparadigma dat onderhandeling integreert in de uitlijningscyclus, specifiek gericht op het oplossen van waarde-conflicten.
Schaalbaarheid: Het gebruik van self-play en synthetische data (gegenereerd door LLMs) elimineert de afhankelijkheid van menselijke annotatie voor complexe ethische dilemma's.
Token-level Optimalisatie: De focus op het trainen van de dialoogdynamiek (in plaats van alleen het eindresultaat) via GRPO met token-normalisatie.
Empirisch Bewijs: Demonstreer dat het mogelijk is om conflictoplossingsvaardigheden te verbeteren zonder de algemene taalcapaciteiten of de uitlijning op Collective Agency te schaden.

Resultaten

De experimenten zijn uitgevoerd op het Qwen3-14B-Instruct model.

Conflictoplossing: Het multi-agent model presteert aanzienlijk beter dan zowel het basismodel als een single-agent CA-uitgelijnd model bij het oplossen van conflicten.
- De akkoordsnelheid steeg van ~91% naar ~97%.
- Het aantal beurten om tot overeenstemming te komen daalde van ~2,3 naar ~1,9.
- Bij pairwise vergelijkingen won het multi-agent model significant vaker dan het single-agent model in conflictscenario's (win-rate > 70% bij sampling).
Collective Agency (CA) Uitlijning: Het model behaalde een CA-uitlijning die vergelijkbaar was met het single-agent baseline, wat aantoont dat het onderhandelingsproces de uitlijning niet ondermijnt.
Algemene Vaardigheden: Het model behield zijn prestaties op standaard benchmarks (IFEval, AIME 2024/2025, GPQA), wat aangeeft dat er geen "catastrophic forgetting" optreedt van algemene taalvaardigheden.
Decodestrategie: Er werd waargenomen dat stochastische decoding (sampling) betere resultaten opleverde dan greedy decoding. Dit suggereert dat het model een robuustere verdeling van hoge-kwaliteit antwoorden heeft ontwikkeld, in plaats van slechts één "beste" pad te leren.

Betekenis en Conclusie

Dit werk biedt een praktische route naar LLM's die beter kunnen functioneren in collectieve besluitvorming en waarde-conflicten.

Van Statiek naar Dynamisch: Het bewijst dat statische uitlijning onvoldoende is voor complexe, multi-stakeholder omgevingen. Deliberatie en onderhandeling zijn noodzakelijke vaardigheden voor echte agenten.
Schalbare Toezicht: Door gebruik te maken van AI-feedback (RLAIF) en self-play, kan dit systeem schalen zonder de kosten van menselijke annotatie voor elk ethisch dilemma.
Toekomstperspectief: De resultaten suggereren dat LLM's getraind via gestructureerde deliberatie kunnen dienen als krachtige hulpmiddelen voor collectieve intelligentie, waarbij ze helpen om tegenstrijdige perspectieven te synthetiseren in plaats van ze te negeren of te onderdrukken.

Kortom, het paper toont aan dat het trainen van modellen om te onderhandelen een effectieve manier is om ze niet alleen veiliger en behulpzamer te maken, maar ook beter in staat om complexe, menselijke waardeconflicten op te lossen.

Learning to Negotiate: Multi-Agent Deliberation for Collective Value Alignment in LLMs

1. De Oefening: Twee Zielen in één Hoofd

2. De Trainer: De Onzichtbare Scheidsrechter

3. Het Resultaat: Van Ruzie naar Samenwerking

De Grootste Les: Het is een Teamwerk

Probleemstelling

Methodologie

1. Collective Agency (CA) als Doel

2. Trainingsopzet: Self-Play Negotiation

3. Optimalisatie met GRPO

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models