Learning to Negotiate: Multi-Agent Deliberation for Collective Value Alignment in LLMs

Dit paper introduceert een multi-agent onderhandelingsframework dat grote taalmodellen traint om collectieve waarden te aligneren en conflicten op te lossen via zelfspel en RLAIF, zonder in te leveren op algemene taalvaardigheden.

Panatchakorn Anantaprayoon, Nataliia Babina, Nima Asgharbeygi, Jad Tarifi

Gepubliceerd 2026-03-12
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je twee vrienden hebt die een moeilijke keuze moeten maken. De ene vriend wil absoluut eerlijk zijn, terwijl de andere vriend wil dat iedereen gelukkig blijft, zelfs als dat betekent dat je niet alles vertelt. In het verleden waren slimme computers (zoals AI) vaak getraind om maar één kant te kiezen: ofwel "altijd eerlijk" of "altijd aardig". Maar in het echte leven is het vaak niet zo simpel. Soms botsen waarden op elkaar, en dan heb je geen simpele "ja" of "nee" nodig, maar een gesprek.

Dit artikel beschrijft een nieuwe manier om AI's slimmer te maken in zulke moeilijke situaties. In plaats van de AI alleen te laten oefenen op het geven van het perfecte antwoord, laten de onderzoekers twee AI's met elkaar onderhandelen.

Hier is hoe het werkt, vertaald naar alledaagse beelden:

1. De Oefening: Twee Zielen in één Hoofd

Stel je voor dat je een spiegelbeeld van jezelf bent. Je bent nu twee personen:

  • Persoon A is een strenge regelaar die zegt: "We moeten de regels volgen!"
  • Persoon B is een vrijdenker die zegt: "We moeten creatief zijn en mensen helpen!"

In plaats dat deze twee personen ruzie maken en de AI vastloopt, leren ze met elkaar te praten. Ze krijgen een probleem (bijvoorbeeld: "Een patiënt heeft een misdaad bekend, maar als je het vertelt, breekt je geheimhoudingsplicht. Als je het niet vertelt, zit een onschuldige in de gevangenis").

De AI's moeten nu een gesprek voeren. Ze mogen niet gewoon hun eigen standpunt herhalen. Ze moeten luisteren, compromissen sluiten en een oplossing vinden waar beide kanten zich in kunnen vinden. Het is alsof je een ruzie tussen twee buren oplost door ze samen aan een tafel te zetten in plaats van één van hen te straffen.

2. De Trainer: De Onzichtbare Scheidsrechter

Hoe weten de AI's of ze het goed doen? Er is een "scheidsrechter" (een andere, nog slimmere AI) die naar hun gesprek kijkt.

  • Als ze ruzie blijven doen en geen oplossing vinden, krijgen ze een nul (een slechte score).
  • Als ze een oplossing vinden die voor iedereen eerlijk is en waarbij niemand zijn waarden hoeft op te geven, krijgen ze een sterke score.

De AI's proberen steeds hun score te verhogen. Ze leren dus niet alleen wat het antwoord is, maar vooral hoe ze er samen aan werken. Ze leren dat "overleggen" de sleutel is tot een beter resultaat.

3. Het Resultaat: Van Ruzie naar Samenwerking

Vroeger waren AI's vaak als een robot die een strak script volgt. Als je ze vroeg om iets te doen dat tegen hun regels inging, faalden ze of gaven ze een saai, theoretisch antwoord.

Met deze nieuwe methode worden ze als ervaren onderhandelaars:

  • Ze vinden sneller een oplossing (minder rondes nodig).
  • De oplossingen zijn praktischer en eerlijker voor iedereen.
  • Ze worden niet "dommer" door dit te doen; ze blijven net zo goed in wiskunde en taal als voorheen.

De Grootste Les: Het is een Teamwerk

De kernboodschap van dit onderzoek is dat AI's niet alleen moeten worden getraind om het "beste" antwoord te geven, maar om collectief te denken. In een wereld waar mensen verschillende meningen hebben, is de vaardigheid om te onderhandelen en een gezamenlijk doel te vinden (zodat iedereen erbij wint) veel waardevoller dan het simpelweg volgen van een starre regel.

Kortom: De onderzoekers hebben AI's geleerd dat het niet gaat om wie er wint in een discussie, maar om hoe je samen een oplossing vindt waar iedereen zich beter bij voelt. Het is de overstap van "Ik heb gelijk" naar "Laten we het samen oplossen".