MERIT Feedback Elicits Better Bargaining in LLM Negotiators

Dit artikel introduceert een nieuw framework genaamd MERIT, bestaande uit de AgoraBench-benchmark, economisch onderbouwde metrics en een mensgerichte leerpijplijn, dat Large Language Models aanzienlijk verbetert in onderhandelingssituaties door hun strategische diepgang en aanpassing aan menselijke voorkeuren te vergroten.

Jihwan Oh, Murad Aghazada, Yooju Shin, Se-Young Yun, Taehyeon Kim

Gepubliceerd 2026-03-09
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een grote, drukke markt bezoekt waar je een camera wilt kopen. Je hebt een bepaald budget, maar de verkoper vraagt een prijs die te hoog is. In het echte leven zou je onderhandelen: je zou kijken naar de verkoper, een beetje bluffen, misschien zeggen dat je het niet nodig hebt, en proberen een betere deal te sluiten.

Nu, wat gebeurt er als je een kunstmatige intelligentie (AI) als verkoper of koper op die markt zet? Tot nu toe waren deze AI's vaak wat "dom" in onderhandelingen. Ze waren te eerlijk, te voorspelbaar, of ze hielden zich blindstaren op één ding: hoe kan ik zo veel mogelijk geld verdienen? Ze vergeten dat een goede deal ook betekent: "heb ik nu precies het product dat ik wilde?" en "voelde de verkoper zich ook nog redelijk behandeld?"

Deze paper, getiteld "MERIT Feedback Elicits Better Bargaining in LLM Negotiators", introduceert een nieuwe manier om AI's te leren onderhandelen, alsof je ze een slimme coach geeft.

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het Probleem: De "Stoere" AI

Stel je voor dat je een AI hebt die onderhandelt. Deze AI denkt: "Ik moet de laagste prijs krijgen, kost wat het kost!"
Het probleem is dat echte mensen niet alleen naar de prijs kijken. Soms wil je liever een iets hogere prijs betalen voor een product dat je écht wilt, of je wilt de verkoper niet volledig voor het hoofd stoten.
De oude AI's waren als een tandeloze leeuw: ze probeerden te brullen (onderhandelen), maar ze misten de strategie en het gevoel voor de situatie. Ze wisten niet wanneer ze moesten stoppen, wanneer ze moesten bluffen, of hoe ze de verkoper moesten "lezen".

2. De Oplossing: AGORABENCH (De "Oefenmarkt")

De auteurs hebben een nieuwe oefenplaats gebouwd, genaamd AGORABENCH.

  • Vergelijking: Stel je een videospel voor. De oude spellen waren alleen maar "klik op de knop om te winnen". Dit nieuwe spel is een complexe simulatie met negen verschillende werelden:
    • Een wereld waar je mag liegen (de "Deceptive" markt).
    • Een wereld waar er maar één verkoper is en jij de enige klant bent (een "Monopolie").
    • Een wereld waar de verkoper een slechte reputatie heeft (bijvoorbeeld omdat hij eerder bedrogen heeft).
    • Een wereld waar je kunt betalen in termijnen.
      Dit zorgt ervoor dat de AI leert omgaan met echte, chaotische situaties, niet alleen met simpele rekenoefeningen.

3. De Nieuwe Scorebord: MERIT (De "Slimme Coach")

Dit is het belangrijkste deel. Hoe meet je of een AI goed onderhandelt?
Vroeger keek je alleen naar de winst: "Heeft de AI de laagste prijs gekregen?"
De auteurs zeggen: "Nee, dat is te simpel." Ze introduceren MERIT.

  • Vergelijking: Stel je voor dat je een voetbalspeler beoordeelt.
    • De oude methode keek alleen naar het doelpunt.
    • De nieuwe methode (MERIT) kijkt naar drie dingen tegelijk:
      1. De winst (Consumer Surplus): Heb je een goede prijs gekregen?
      2. De macht (Negotiation Power): Heb je de verkoper kunnen overtuigen om te zakken?
      3. De keuze (Acquisition Ratio): Heb je precies die camera gekocht die je wilde, of heb je maar een goedkope, slechte camera moeten nemen omdat je te hard onderhandeld hebt?

MERIT is als een slimme coach die tegen de AI zegt: "Je hebt een lage prijs gekregen, maar je hebt de verkeerde camera gekocht. Je score is laag omdat je niet precies kreeg wat je wilde."

4. Hoe leren ze? (De "Feedback Loop")

De auteurs hebben twee manieren bedacht om de AI's te trainen met deze nieuwe coach:

  • Manier 1: De "In-Context" Leraar (ICL-MF)
    Je geeft de AI tijdens het gesprek een geheime opdracht: "Denk na over je winst, je macht en of je het juiste product koopt."

    • Vergelijking: Het is alsof je een speler in een videospel een hoofdtelefoon geeft met een coach die fluistert: "Zie je die verkoper? Hij lijkt vast te zitten op zijn prijs. Probeer te raden wat zijn kosten zijn, en bied dan een prijs die voor jou winstgevend is maar voor hem acceptabel."
    • De AI begint dan te denken als een mens: "Hij vraagt $550, maar zijn kosten zijn waarschijnlijk $400. Als ik $450 bied, heb ik een goede deal."
  • Manier 2: De "Oefen-Training" (Fine-tuning)
    Ze hebben de AI getraind op duizenden voorbeelden van onderhandelingen waarbij mensen de beste deals sloten.

    • Vergelijking: Het is alsof je de AI een boek met de beste onderhandelingstactieken laat lezen en daarna een test laat doen. De AI leert niet alleen de regels, maar ook het gevoel van een goede deal.

5. Het Resultaat: Van Robot naar Mens

Wat gebeurde er toen ze deze methode gebruikten?

  • De AI's werden veel slimmer en strategischer. Ze hielden rekening met de verkoper (ze "lezen" de verkoper).
  • Ze maakten minder rare fouten, zoals steeds lager bieden en dan weer omhoog springen (wat mensen nooit doen).
  • Ze sloten meer deals, en vaak waren het betere deals: ze kregen het product dat ze wilden, voor een eerlijke prijs.

Conclusie

Kortom: Deze paper zegt dat AI's niet alleen moeten leren rekenen, maar ook moeten leren voelen en strategisch denken. Met hun nieuwe "markt" (AGORABENCH) en hun nieuwe "coach" (MERIT), kunnen AI's nu onderhandelen alsof ze een ervaren handelaar zijn, in plaats van een robot die alleen naar cijfers kijkt.

Het is alsof je van een automatische kassa een slimme verkoper maakt die weet wanneer hij moet glimlachen, wanneer hij moet bluffen, en wanneer hij gewoon een eerlijke deal moet sluiten.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →