MERIT Feedback Elicits Better Bargaining in LLM Negotiators

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie stehen auf einem belebten Basar und wollen einen neuen Kamera kaufen. Der Verkäufer nennt einen Preis, Sie zucken mit den Schultern, bieten weniger, er zögert, Sie machen ein Gesicht, als würden Sie gehen – und plötzlich einigt ihr euch auf einen Preis, der für beide fair ist. Das ist Verhandlung. Es ist nicht nur Mathematik; es ist Psychologie, Intuition und Strategie.

Jetzt stellen Sie sich vor, Sie schicken einen extrem intelligenten Roboter (ein KI-Modell) an Ihre Stelle. Der Roboter kann Millionen Bücher lesen, aber er versteht oft nicht, warum ein Mensch einen bestimmten Preis akzeptiert oder warum er manchmal lieber ein schlechteres Produkt nimmt, nur um schneller fertig zu werden.

Genau hier kommt die Studie „MERIT Feedback Elicits Better Bargaining in LLM Negotiators" ins Spiel. Die Forscher von KAIST, Amazon und LG haben ein neues System entwickelt, um diese Roboter zu besseren Unterhändlern zu machen. Hier ist die Erklärung, einfach und mit ein paar bildhaften Vergleichen:

1. Das Problem: Der Roboter ist zu „dumm" für den Markt

Bisher wurden KI-Verhandler wie Schüler getestet, die nur einfache Matheaufgaben lösen. Man hat ihnen gesagt: „Mach den besten Deal!" und gemessen, wie viel Geld sie gespart haben.

Das Problem: In der echten Welt ist ein Deal nicht nur eine Zahl. Manchmal ist es wichtiger, das richtige Produkt zu bekommen, auch wenn es etwas mehr kostet. Oder man muss einen Verkäufer überlisten, der lügt.
Die Analogie: Stellen Sie sich vor, Sie trainieren einen Schachcomputer, indem Sie ihm nur sagen: „Gewinne das Spiel!". Er lernt, Schach zu spielen, aber er versteht nicht, dass er im echten Leben vielleicht einen Zug machen muss, der kurzfristig nachteilig aussieht, um langfristig zu gewinnen. Die bisherigen Tests waren wie Schachpartien ohne Gegner, die auch taktisch denken.

2. Die Lösung: Der neue Spielplatz „AGORABENCH"

Die Forscher haben einen neuen, viel komplexeren Spielplatz gebaut, den sie AGORABENCH nennen.

Was ist das? Ein Simulator mit neun verschiedenen Szenarien.
Die Szenarien:
- Der „Lügen-Markt": Der Verkäufer sagt vielleicht, die Kamera sei neu, obwohl sie alt ist.
- Der „Monopol-Markt": Es gibt nur einen Verkäufer. Sie haben keine andere Wahl.
- Der „Ruf-Markt": Der Verkäufer hat einen schlechten Ruf (z. B. wegen Skandalen), und Sie sind misstrauisch.
- Der „Ratenkauf-Markt": Sie können in Raten zahlen, was die Strategie verändert.
Warum ist das wichtig? Bisherige Tests waren wie ein ruhiger Spaziergang im Park. AGORABENCH ist wie eine wilde Fahrt auf einem Achterbahn-Markt, wo Sie auf Lügen, Monopole und schlechte Laune treffen müssen.

3. Der neue Kompass: „MERIT"

Früher haben die Forscher nur auf den Gewinn geschaut (Wie viel Geld habe ich gespart?). Das ist wie ein Autofahrer, der nur auf den Tacho schaut und vergisst, ob er am richtigen Ziel ankommt.

Die Forscher haben MERIT erfunden. Das ist ein neuer Kompass, der drei Dinge misst:

Der „Schnäppchen-Faktor" (Konsumentenüberschuss): Wie viel Geld habe ich im Vergleich zum wahren Wert gespart?
Der „Machtfaktor" (Verhandlungsmacht): Wie sehr konnte ich den Preis vom ursprünglichen Angebot nach unten drücken?
Der „Traum-Faktor" (Erwerbsquote): Habe ich genau das bekommen, was ich wollte? (Wenn ich eine DSLR-Kamera wollte und eine billige Kompaktkamera bekam, ist der Gewinn zwar hoch, aber ich bin unglücklich).

Die Analogie: Stellen Sie sich vor, Sie kaufen ein Auto.

Der alte Maßstab sagte: „Du hast 5.000 € gespart! Super!" (Aber du hast ein kaputtes Auto gekauft).
Der neue MERIT-Maßstab sagt: „Du hast 5.000 € gespart, aber du hast ein Auto bekommen, das du gar nicht wolltest, und du hast keine Macht im Gespräch gehabt. Also: Schlechter Deal."

MERIT wurde so entwickelt, dass er genau das misst, was Menschen als guten Deal empfinden. Die Forscher haben tausende Menschen befragt, was sie bevorzugen, und den Kompass daraufhin justiert.

4. Der Lehrer: Wie man die KI trainiert

Jetzt haben sie die KI mit diesem neuen Kompass trainiert.

Der Ansatz: Sie gaben der KI nicht nur die Aufgabe „Spare Geld", sondern sagten: „Versuche, einen hohen MERIT-Score zu erreichen."
Das Ergebnis: Die KI fing an, menschlicher zu denken. Sie lernte, den Verkäufer zu analysieren („Ah, der Verkäufer wirkt nervös, vielleicht ist sein Preis zu hoch!"), und sie lernte, Kompromisse einzugehen, die für beide Seiten gut sind, statt stur auf den tiefsten Preis zu pochen.
Die Methode: Sie nutzten zwei Tricks:
1. Beispiel-Lernen (ICL): Sie gaben der KI Beispiele für gute Verhandlungen, bei denen der MERIT-Score hoch war.
2. Feinabstimmung (Fine-Tuning): Sie trainierten die KI mit echten Daten von Menschen, die erfolgreich verhandelt haben.

5. Das Fazit: Roboter lernen, menschlich zu verhandeln

Die Studie zeigt, dass KI-Modelle, die mit dem MERIT-System trainiert wurden, deutlich besser abschneiden als die alten Modelle.

Sie schließen mehr Deals ab.
Sie bekommen bessere Preise.
Sie handeln strategischer (z. B. sie erkennen, wann ein Verkäufer lügt).

Zusammenfassend:
Die Forscher haben den KI-Verhandlern eine Brille aufgesetzt, mit der sie die Welt so sehen können, wie Menschen es tun: Nicht nur als Zahlenkolonnen, sondern als komplexe Spiele mit Emotionen, Lügen, Macht und echten Wünschen. Mit dem neuen Kompass MERIT und dem neuen Spielplatz AGORABENCH werden diese Roboter zu echten Unterhändlern, die nicht nur rechnen, sondern verstehen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Verhandlungen (Bargaining) gelten traditionell als logischer Prozess, doch aktuelle Large Language Models (LLMs) scheitern oft daran, komplexe strategische Szenarien zu meistern. Die Hauptprobleme liegen in:

Fehlende strategische Tiefe: LLMs haben Schwierigkeiten, sich an dynamische menschliche Verhaltensweisen und komplexe Marktfaktoren anzupassen.
Mangelnde Benchmarks: Bestehende Evaluierungsstandards (z. B. Deal or No Deal, Craigslist) sind zu stark vereinfacht. Sie fokussieren sich oft auf einzelne Themen, ignorieren realistische Marktmechanismen (wie Ratenzahlungen, Monopole oder negative Verkäuferwahrnehmung) und messen den Erfolg fast ausschließlich am finanziellen Gewinn.
Fehlende menschliche Ausrichtung: LLMs optimieren oft rein numerisch (Profit-Maximierung), was zu Ergebnissen führt, die nicht mit menschlichen Präferenzen (z. B. dem Erreichen des gewünschten Produkts über den reinen Preisgewinn) übereinstimmen.

2. Methodik und Framework

Die Autoren stellen ein umfassendes Framework vor, das aus drei Hauptkomponenten besteht:

A. AGORABENCH (Benchmark)

Ein neues Benchmark-System, das neun verschiedene, wirtschaftlich fundierte Marktregime abdeckt, um realistische Verhandlungsszenarien zu simulieren.

Markttypen: Dazu gehören Vanilla (Basis), Deceptive (Täuschung erlaubt), Monopoly (einseitige Macht), Installment (Ratenzahlung) und Negative Perception (schlechter Ruf des Verkäufers).
Szenarien: Unterscheidung zwischen Single-Product (ein Artikel) und Multi-Product (Auswahl und Substitution möglich).
Daten: Ein Simulator und ein statischer Offline-Datensatz, der auf LLM-Agenten-Dialogen basiert und durch menschliche Präferenzen annotiert wurde (via Amazon Mechanical Turk).

B. MERIT (Metrik)

Eine neuartige, multidimensionale Evaluierungsmetrik, die auf der ökonomischen Nutzentheorie basiert und menschliche Präferenzen abbildet. Im Gegensatz zu reinen Gewinnmetriken kombiniert MERIT drei Komponenten:

Consumer Surplus (CS): Das Verhältnis des tatsächlichen Gewinns (Willingness to Pay minus Deal-Preis) zum maximal möglichen Gewinn.
Negotiation Power (NP): Die Fähigkeit des Käufers, den Preis vom ursprünglichen Angebot des Verkäufers zu drücken.
Acquisition Ratio (AR): Ein Maß für die semantische Ähnlichkeit zwischen dem gekauften Produkt und dem ursprünglich gewünschten Produkt (basierend auf Embeddings).

Die Formel lautet:
$MERIT_{buyer} = \alpha \cdot CS + \beta \cdot NP + \gamma \cdot AR$
Die Koeffizienten ( $\alpha, \beta, \gamma$ ) wurden mittels des Bradley-Terry-Modells auf Basis menschlicher Umfragedaten optimiert, um die menschliche Präferenzbestimmung bestmöglich abzubilden.

C. Lernpipeline (ICL-MF und SFT)

Um die Verhandlungsfähigkeiten von LLMs zu verbessern, nutzen die Autoren MERIT als Feedback-Mechanismus:

ICL-MF (In-Context Learning with MERIT Feedback): LLMs erhalten System-Prompts, die ihnen die MERIT-Formel als private Belohnungsfunktion vorgeben. Dies zwingt das Modell, strategisch zu denken (z. B. Kosten des Gegners zu schätzen), um den MERIT-Score zu maximieren.
SFT (Supervised Fine-Tuning): Ein Modell (gpt-oss-20b) wurde auf einem Datensatz menschlich bevorzugter Dialoge feinabgestimmt, um menschliche Verhandlungsmuster zu internalisieren.

3. Schlüsselbeiträge

AGORABENCH: Ein Benchmark, der erstmals diverse, wirtschaftlich realistische Marktbedingungen (Täuschung, Monopole, Ratenzahlungen) für LLM-Verhandlungen bereitstellt.
MERIT: Eine menschenzentrierte Metrik, die über den reinen Profit hinausgeht und Prozess (Verhandlungsmacht) sowie Ergebnis (Produktpräferenz) berücksichtigt.
Analyse von LLM-Verhalten: Identifikation von Abweichungen vom menschlichen Verhalten, wie z. B. irrationale Konzessionen (instabiles Anker-Setzen) bei kleineren Modellen.
Verbesserte Strategien: Demonstration, dass MERIT-gesteuertes ICL und SFT die Verhandlungsergebnisse signifikant verbessern.

4. Ergebnisse

Die empirischen Ergebnisse zeigen deutliche Verbesserungen gegenüber Baselines (ReAct und OG-Narrator):

Überlegene Performance: Modelle, die mit ICL-MF trainiert wurden, erzielten in fast allen Szenarien (Single- und Multi-Product) deutlich höhere MERIT-Scores und Deal-Raten (oft >99% Deal-Rate).
Strategische Tiefe: ICL-MF-Modelle zeigen ein ausgeprägtes „Opponent-Aware Reasoning" (OAR). Sie schätzen die versteckten Kosten des Gegners und berechnen ihren eigenen Nutzen explizit, anstatt nur taktische Phrasen zu verwenden.
Robustheit: Die Verbesserungen halten sich über verschiedene Modellfamilien hinweg (GPT, Gemini, DeepSeek, Open-Source-Modelle) und auch bei Out-of-Distribution-Tests (z. B. Training gegen GPT, Evaluation gegen DeepSeek).
Menschliche Ausrichtung: Eine Evaluation durch ein LLM als Richter („LLM-as-a-Judge") bestätigte, dass die von MERIT geleiteten Strategien von menschlichen Beobachtern als vorteilhafter wahrgenommen werden als reine Gewinnmaximierung.

5. Bedeutung und Fazit

Das Paper adressiert eine kritische Lücke in der Forschung zu autonomen Agenten: Die Diskrepanz zwischen rein ökonomischer Optimierung und menschlichen Verhandlungspräferenzen.

Wissenschaftlicher Impact: Es etabliert einen neuen Standard für die Evaluierung von Verhandlungsagenten, der ökonomische Realität und menschliche Werte vereint.
Praktische Relevanz: Die vorgestellten Methoden (MERIT-Feedback) ermöglichen es LLMs, robustere und menschlichere Verhandlungsstrategien zu entwickeln, die in realen kommerziellen Umgebungen (E-Commerce, Kundenservice) einsetzbar sind.
Zukunftsausblick: Die Arbeit legt den Grundstein für Agenten, die nicht nur „gewinnen", sondern faire und zufriedenstellende Ergebnisse erzielen, wobei zukünftige Arbeiten auch Verkäuferperspektiven und Tool-Integration (z. B. Echtzeit-Recherche) einbeziehen sollten.

Zusammenfassend beweist das Paper, dass durch die Integration einer menschenzentrierten, ökonomisch fundierten Feedback-Metrik (MERIT) die strategischen Fähigkeiten von LLMs in Verhandlungsszenarien signifikant gesteigert werden können.