MERIT Feedback Elicits Better Bargaining in LLM Negotiators

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een grote, drukke markt bezoekt waar je een camera wilt kopen. Je hebt een bepaald budget, maar de verkoper vraagt een prijs die te hoog is. In het echte leven zou je onderhandelen: je zou kijken naar de verkoper, een beetje bluffen, misschien zeggen dat je het niet nodig hebt, en proberen een betere deal te sluiten.

Nu, wat gebeurt er als je een kunstmatige intelligentie (AI) als verkoper of koper op die markt zet? Tot nu toe waren deze AI's vaak wat "dom" in onderhandelingen. Ze waren te eerlijk, te voorspelbaar, of ze hielden zich blindstaren op één ding: hoe kan ik zo veel mogelijk geld verdienen? Ze vergeten dat een goede deal ook betekent: "heb ik nu precies het product dat ik wilde?" en "voelde de verkoper zich ook nog redelijk behandeld?"

Deze paper, getiteld "MERIT Feedback Elicits Better Bargaining in LLM Negotiators", introduceert een nieuwe manier om AI's te leren onderhandelen, alsof je ze een slimme coach geeft.

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het Probleem: De "Stoere" AI

Stel je voor dat je een AI hebt die onderhandelt. Deze AI denkt: "Ik moet de laagste prijs krijgen, kost wat het kost!"
Het probleem is dat echte mensen niet alleen naar de prijs kijken. Soms wil je liever een iets hogere prijs betalen voor een product dat je écht wilt, of je wilt de verkoper niet volledig voor het hoofd stoten.
De oude AI's waren als een tandeloze leeuw: ze probeerden te brullen (onderhandelen), maar ze misten de strategie en het gevoel voor de situatie. Ze wisten niet wanneer ze moesten stoppen, wanneer ze moesten bluffen, of hoe ze de verkoper moesten "lezen".

2. De Oplossing: AGORABENCH (De "Oefenmarkt")

De auteurs hebben een nieuwe oefenplaats gebouwd, genaamd AGORABENCH.

Vergelijking: Stel je een videospel voor. De oude spellen waren alleen maar "klik op de knop om te winnen". Dit nieuwe spel is een complexe simulatie met negen verschillende werelden:
- Een wereld waar je mag liegen (de "Deceptive" markt).
- Een wereld waar er maar één verkoper is en jij de enige klant bent (een "Monopolie").
- Een wereld waar de verkoper een slechte reputatie heeft (bijvoorbeeld omdat hij eerder bedrogen heeft).
- Een wereld waar je kunt betalen in termijnen.
  Dit zorgt ervoor dat de AI leert omgaan met echte, chaotische situaties, niet alleen met simpele rekenoefeningen.

3. De Nieuwe Scorebord: MERIT (De "Slimme Coach")

Dit is het belangrijkste deel. Hoe meet je of een AI goed onderhandelt?
Vroeger keek je alleen naar de winst: "Heeft de AI de laagste prijs gekregen?"
De auteurs zeggen: "Nee, dat is te simpel." Ze introduceren MERIT.

Vergelijking: Stel je voor dat je een voetbalspeler beoordeelt.
- De oude methode keek alleen naar het doelpunt.
- De nieuwe methode (MERIT) kijkt naar drie dingen tegelijk:
  1. De winst (Consumer Surplus): Heb je een goede prijs gekregen?
  2. De macht (Negotiation Power): Heb je de verkoper kunnen overtuigen om te zakken?
  3. De keuze (Acquisition Ratio): Heb je precies die camera gekocht die je wilde, of heb je maar een goedkope, slechte camera moeten nemen omdat je te hard onderhandeld hebt?

MERIT is als een slimme coach die tegen de AI zegt: "Je hebt een lage prijs gekregen, maar je hebt de verkeerde camera gekocht. Je score is laag omdat je niet precies kreeg wat je wilde."

4. Hoe leren ze? (De "Feedback Loop")

De auteurs hebben twee manieren bedacht om de AI's te trainen met deze nieuwe coach:

Manier 1: De "In-Context" Leraar (ICL-MF)
Je geeft de AI tijdens het gesprek een geheime opdracht: "Denk na over je winst, je macht en of je het juiste product koopt."
- Vergelijking: Het is alsof je een speler in een videospel een hoofdtelefoon geeft met een coach die fluistert: "Zie je die verkoper? Hij lijkt vast te zitten op zijn prijs. Probeer te raden wat zijn kosten zijn, en bied dan een prijs die voor jou winstgevend is maar voor hem acceptabel."
- De AI begint dan te denken als een mens: "Hij vraagt $550, maar zijn kosten zijn waarschijnlijk $400. Als ik $450 bied, heb ik een goede deal."
Manier 2: De "Oefen-Training" (Fine-tuning)
Ze hebben de AI getraind op duizenden voorbeelden van onderhandelingen waarbij mensen de beste deals sloten.
- Vergelijking: Het is alsof je de AI een boek met de beste onderhandelingstactieken laat lezen en daarna een test laat doen. De AI leert niet alleen de regels, maar ook het gevoel van een goede deal.

5. Het Resultaat: Van Robot naar Mens

Wat gebeurde er toen ze deze methode gebruikten?

De AI's werden veel slimmer en strategischer. Ze hielden rekening met de verkoper (ze "lezen" de verkoper).
Ze maakten minder rare fouten, zoals steeds lager bieden en dan weer omhoog springen (wat mensen nooit doen).
Ze sloten meer deals, en vaak waren het betere deals: ze kregen het product dat ze wilden, voor een eerlijke prijs.

Conclusie

Kortom: Deze paper zegt dat AI's niet alleen moeten leren rekenen, maar ook moeten leren voelen en strategisch denken. Met hun nieuwe "markt" (AGORABENCH) en hun nieuwe "coach" (MERIT), kunnen AI's nu onderhandelen alsof ze een ervaren handelaar zijn, in plaats van een robot die alleen naar cijfers kijkt.

Het is alsof je van een automatische kassa een slimme verkoper maakt die weet wanneer hij moet glimlachen, wanneer hij moet bluffen, en wanneer hij gewoon een eerlijke deal moet sluiten.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Hoewel onderhandelen vaak wordt gezien als een logisch domein, worstelen Large Language Models (LLMs) nog steeds met complexe onderhandelingsstrategieën. Bestaande benchmarks en evaluatiemethoden zijn ontoereikend omdat ze:

Te simplistisch zijn: Ze focussen vaak op één enkel onderwerp (bijv. prijs) en missen realistische marktdynamieken zoals monopolies, afbetalingsplannen, misleiding of negatieve reputaties.
Gebrek aan strategische diepgang: LLMs vertonen vaak onvolwassen "Theory of Mind" (het begrijpen van de tegenstander), beperkte aanpassingsvermogen en oppervlakkige redenering.
Foutieve evaluatie: Bestaande metrics focussen uitsluitend op winst (profit), wat niet overeenkomt met menselijke voorkeuren. Mensen waarderen vaak het verkrijgen van het gewenste product of een eerlijk proces meer dan puur numerieke winstmaximalisatie.

Methodologie

De auteurs introduceren een nieuw framework dat bestaat uit drie pijlers: een uitgebreide benchmark, een mensgericht evaluatiemetric en een trainingspipeline.

1. AGORABENCH: Een Nieuwe Benchmark

Dit is een benchmark die negen uitdagende marktsituaties simuleert, gebaseerd op economische principes. Het omvat een online simulator en een offline dataset. De marktsituaties zijn:

Markttypes: Van "Vanilla" (basis) tot complexere scenario's zoals Deceptive (misleiding), Monopoly (asymmetrische macht), Installment (afbetalingen) en Negative Perception (reputatieschade).
Productcomplexiteit: Onderhandelingen over één product (Single) versus meerdere producten met substitutiemogelijkheden (Multi).
Opzet: Twee LLM-agenten (Koper en Verkoper) onderhandelen via een gestructureerd schema (Thoughts-Talk-Action), waarbij de verkoper altijd begint met een vraagprijs die hoger is dan de bereidheid te betalen (WTP) van de koper.

2. MERIT: Een Mensgericht Evaluatiemetric

In plaats van alleen winst te meten, introduceert het paper MERIT (Multi-dimensional Evaluation of Reasoning & Interaction in Trade). Deze metric is gebaseerd op economische nutstheorie en combineert drie componenten:

Consumer Surplus (CS): De nettobaten voor de koper (verschil tussen bereidheid te betalen en daadwerkelijke prijs), genormaliseerd ten opzichte van de productkosten.
Negotiation Power (NP): De mate waarin de koper de initiële vraagprijs heeft kunnen verlagen.
Acquisition Ratio (AR): Een maat voor hoe goed het verkregen product overeenkomt met de voorkeuren van de koper (gemeten via semantische similariteit van tekst-embeddings).

De formule is:
$MERIT = \alpha \times CS + \beta \times NP + \gamma \times AR$
De coëfficiënten ( $\alpha, \beta, \gamma$ ) zijn geoptimaliseerd via een Bradley-Terry model op basis van menselijke voorkeursdata (verzameld via Amazon Mechanical Turk), zodat de metric menselijke keuzes beter voorspelt dan puur winstgerichte metrics.

3. Leringspipeline: ICL-MF en SFT

Om LLMs te trainen om beter te onderhandelen volgens MERIT, gebruiken de auteurs twee methoden:

ICL-MF (In-Context Learning with MERIT Feedback): LLMs krijgen in de prompt een "privé beloningsfunctie" die MERIT maximaliseert. Dit stimuleert de agent om expliciet na te denken over de kosten van de tegenstander en de eigen strategische positie (Opponent-Aware Reasoning).
Supervised Fine-Tuning (SFT): Een model (gpt-oss-20b) wordt getraind op een dataset van menselijk geprefereerde onderhandelingsdialogen (zonder de interne gedachten van de verkoper, om realisme te behouden).

Belangrijkste Bijdragen

AGORABENCH: Een robuuste benchmark met negen economisch onderbouwde marktscenario's die de complexiteit van real-world onderhandelingen nabootsen.
MERIT: Een nieuwe, multidimensionale evaluatiemetric die economische theorie combineert met menselijke voorkeuren, waardoor het een veel nauwkeuriger maatstaf is voor onderhandelingskwaliteit dan traditionele winstmetingen.
Analyse van LLM-gedrag: Het paper identificeert dat LLMs vaak irrationele concessies doen (bijv. onstabiele ankers) en dat hun strategieën afwijken van menselijke patronen, vooral in kleinere modellen.
Verbeterde Prestaties: Het aantonen dat MERIT-geleide prompting en fine-tuning de onderhandelingsprestaties aanzienlijk verbeteren, zowel in deal-rates als in strategische diepgang.

Resultaten

Prestatieverbetering: De methode ICL-MF presteert consistent beter dan bestaande baselines (zoals ReAct en OG-Narrator) op zowel MERIT-scores als deal-rates. In veel scenario's bereikt ICL-MF een deal-rate van bijna 100%, terwijl baselines vaak faalden of slechtere deals sloten.
Strategische Diepgang: LLMs met MERIT-feedback vertonen "Opponent-Aware Reasoning" (OAR). Ze hypotheseren over de kosten van de verkoper en berekenen hun eigen nut expliciet, in plaats van te vertrouwen op vage tactieken zoals "schijnbaar onverschillig doen".
Menselijke Alignering: De MERIT-metric correleert sterk met menselijke oordelen (ROC AUC van 0.80 vs. 0.68 voor puur winst).
Robuustheid: De verbeteringen zijn consistent over verschillende modelgroottes (van GPT-3.5 tot GPT-4o en open-source modellen) en in zowel single- als multi-product omgevingen.
Fine-tuning Effect: SFT op menselijke data bleek superieur in complexe multi-product scenario's waar stabiel afwegen van trade-offs nodig is.

Significantie

Dit paper is een belangrijke stap voorwaarts in het onderzoek naar autonome LLM-agenten voor strategische taken. Het toont aan dat:

Evaluatie cruciaal is: Zonder mensgerichtere metrics (zoals MERIT) worden LLMs getraind op verkeerde doelen (alleen winst), wat leidt tot gedrag dat niet overeenkomt met menselijke normen.
Economische context nodig is: Onderhandelingsvaardigheden kunnen niet worden getraind op simpele datasets; ze vereisen scenario's met misleiding, monopolie en complexe voorkeuren.
Feedback loops werken: Het gebruik van een economisch onderbouwde, mensgerichte feedback (MERIT) in combinatie met prompting en fine-tuning stelt LLMs in staat om diepere strategische redenering te ontwikkelen en beter te anticiperen op de tegenstander.

De auteurs concluderen dat hun framework de kloof overbrugt tussen huidige LLM-capaciteiten en de eisen van realistische, economisch onderbouwde onderhandelingen, en biedt een blauwdruk voor het bouwen van effectievere, mens-gealigneerde onderhandelingsagenten.