MERIT Feedback Elicits Better Bargaining in LLM Negotiators

Each language version is independently generated for its own context, not a direct translation.

Immagina di dover comprare una macchina usata. Non è solo una questione di matematica (quanto costa vs. quanto ho in tasca), vero? È un'arte. Devi capire se il venditore sta mentendo, se è disperato di vendere, se hai alternative o se sei l'unico cliente in città.

Fino a poco tempo fa, le Intelligenze Artificiali (i grandi modelli linguistici o LLM) erano molto bravi a scrivere poesie o a rispondere a domande, ma quando dovevano negoziare, si comportavano come bambini: erano troppo ingenui, non capivano le sfumature umane e spesso facevano accordi stupidi.

Questo paper, intitolato "MERIT Feedback Elicits Better Bargaining in LLM Negotiators", è come un corso di laurea in "Negoziazione per Robot". Ecco di cosa parla, spiegato in modo semplice:

1. Il Problema: I Robot sono "Ingenui"

Immagina di mandare un robot a comprare un'auto. Il robot guarda solo il prezzo finale. Se l'auto costa 10.000 euro e lui ne ha 12.000, la compra. Punto.
Ma un umano penserebbe: "Aspetta, il venditore ha detto che l'auto ha un graffio? Forse posso abbassare il prezzo. O forse è l'unico venditore in città e non ho scelta?".
I robot attuali non capiscono queste dinamiche. I vecchi test per misurare le loro abilità di negoziazione erano troppo semplici, come chiedere a un bambino di fare un puzzle da 3 pezzi invece di uno da 1000.

2. La Soluzione: AGORABENCH (Il "Simulatore di Mercato")

Gli autori hanno creato un nuovo ambiente di prova chiamato AGORABENCH.
Pensa a questo come a un videogioco di simulazione economica molto realistico. Invece di comprare solo un oggetto, i robot devono negoziare in scenari complessi:

Mercato Monopolistico: C'è un solo venditore (come se fossi l'unico negozio di pizza in un deserto). Il venditore ha tutto il potere.
Mercato Ingannevole: Il venditore potrebbe mentire sulla qualità del prodotto.
Mercato con Rate: Puoi pagare a rate, il che cambia la strategia.
Mercato con "Brutta Fama": Il venditore ha una reputazione pessima (es. ha truffato qualcuno prima), quindi i clienti sono diffidenti.

In questo "palestra", i robot devono imparare a muoversi senza farsi fregare.

3. La Bussola: MERIT (Non solo "Soldi")

Fino ad ora, per dire se un robot aveva negoziato bene, si guardava solo: "Ha risparmiato soldi?".
Gli autori dicono: "No, non basta!".
Hanno inventato una nuova metrica chiamata MERIT. Immagina MERIT come un termometro della soddisfazione umana, non solo del portafoglio.
MERIT guarda tre cose:

Il Risparmio (Surplus): Quanto hai risparmiato rispetto a quanto eri disposto a spendere?
Il Potere (Negotiation Power): Quanto sei riuscito a spingere il prezzo verso il basso rispetto a quanto il venditore chiedeva all'inizio?
La Scelta Giusta (Acquisition Ratio): Hai comprato esattamente quello che volevi? (Se volevi una Ferrari e hai preso una Panda perché era più economica, hai "perso" punti, anche se hai risparmiato).

L'analogia: È la differenza tra dire "Ho comprato una casa a 100 euro!" (ottimo per il portafoglio, ma probabilmente è una baracca) e "Ho comprato la casa dei miei sogni al prezzo giusto". MERIT premia la seconda opzione.

4. L'Allenamento: Come si insegnano queste cose ai Robot?

Gli autori hanno usato due metodi per addestrare i robot a diventare negoziatori esperti:

Il "Foglio di Copia" (In-Context Learning): Hanno dato al robot degli esempi di negoziazioni umane perfette e gli hanno detto: "Guarda come fanno loro. Usa la metrica MERIT per pensare". È come dare a uno studente un libro di esercizi svolti prima dell'esame.
L'Addestramento (Fine-Tuning): Hanno preso un modello di intelligenza artificiale e lo hanno "allenato" su migliaia di conversazioni dove gli umani avevano scelto la negoziazione migliore. È come se il robot avesse fatto un tirocinio di mesi con un maestro di negoziazione.

5. I Risultati: I Robot Diventano "Umani"

Dopo l'addestramento, i robot sono cambiati drasticamente:

Prima: Facevano offerte strane, si ritiravano senza motivo o accettavano prezzi alti troppo velocemente.
Dopo: Hanno iniziato a pensare come umani.
- Hanno capito che se il venditore è l'unico in città (monopolio), devono essere più pazienti.
- Se il venditore mente, loro iniziano a fare domande per scoprire la verità.
- Capiscono che a volte è meglio non comprare nulla se il prezzo non è giusto, invece di accontentarsi.

In Sintesi

Questo paper ci dice che per rendere l'Intelligenza Artificiale davvero utile nel mondo reale (dove si comprano case, auto, servizi), non possiamo insegnarle solo a fare calcoli matematici. Dobbiamo insegnarle a capire le persone, a valutare le situazioni complesse e a perseguire obiettivi che non sono solo "avere più soldi", ma "avere la cosa giusta al prezzo giusto".

Hanno creato la palestra (AGORABENCH), la bussola (MERIT) e il metodo di allenamento, e il risultato è che i robot ora sanno negoziare quasi come farebbe un umano esperto.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

Le negoziazioni sono spesso considerate un'arena logica, ma i Large Language Models (LLM) faticano a navigarle efficacemente a causa di una profondità strategica limitata e della difficoltà ad adattarsi a fattori umani complessi.
I benchmark esistenti presentano due carenze principali:

Scarsità di scenari complessi: La maggior parte dei dataset attuali si concentra su impostazioni semplificate a singolo problema (es. "Deal or No Deal?"), ignorando meccanismi di mercato reali come piani rateali, strutture monopolistiche, percezioni negative dei venditori o dinamiche di inganno.
Metriche di valutazione inadeguate: Le valutazioni si basano quasi esclusivamente sul profitto monetario (utilità cardinale), trascurando le preferenze umane che includono la soddisfazione per l'ottenimento del prodotto desiderato (utilità ordinale), la percezione di equità e la dinamica del processo negoziale.

2. Metodologia

Gli autori propongono un framework centrato sul feedback basato sull'utilità, composto da tre pilastri fondamentali:

A. AGORABENCH: Un Nuovo Benchmark

È un benchmark che simula nove scenari di mercato economicamente fondati, progettati per testare la robustezza degli agenti LLM in condizioni avverse:

Tipologie di Mercato: Include mercati Vanilla (base), Deceptive (inganno), Monopoly (monopolio), Installment (pagamenti rateali) e Negative Perception (reputazione negativa del venditore).
Configurazioni di Prodotto: Differenzia tra negoziati su Singolo Prodotto e Multi-Prodotto (con possibilità di sostituzione).
Ambiente: Utilizza un simulatore con agenti che operano secondo lo schema Thoughts-Talk-Action (basato su ReAct), dove l'agente deve pianificare, parlare e agire (acquistare, rifiutare, chiudere affare, ecc.).

B. MERIT: Una Metrica Allineata alle Preferenze Umane

Per superare la limitazione delle metriche basate solo sul profitto, viene introdotto MERIT (Multi-dimensional Evaluation of Reasoning & Interaction in Trade). È una metrica composita basata sulla teoria dell'utilità economica, definita come:
$MERIT = \alpha \cdot CS + \beta \cdot NP + \gamma \cdot AR$

Dove:

Consumer Surplus (CS): Misura il beneficio netto (Willingness to Pay - Prezzo Pagato) normalizzato rispetto al margine potenziale.
Negotiation Power (NP): Misura la capacità del compratore di spingere il prezzo finale verso il basso rispetto alla richiesta iniziale del venditore.
Acquisition Ratio (AR): Misura quanto il prodotto acquisito corrisponde semanticamente al prodotto desiderato (utilizzando embedding testuali), catturando l'utilità ordinale (ottenere cosa si vuole, non solo a che prezzo).

I coefficienti ( $\alpha, \beta, \gamma$ ) sono stati ottimizzati globalmente utilizzando un modello Bradley-Terry su dati raccolti tramite sondaggi su Amazon Mechanical Turk (MTurk), dove umani hanno valutato coppie di dialoghi negoziali. I risultati mostrano che MERIT si allinea molto meglio alle preferenze umane (ROC AUC 0.80) rispetto alle metriche basate solo sul profitto (ROC AUC 0.68).

C. Pipeline di Apprendimento

Il framework utilizza MERIT come segnale di feedback per migliorare le capacità negoziali degli LLM attraverso due approcci:

ICL-MF (In-Context Learning with MERIT Feedback): Fornisce prompt di sistema che istruiscono l'agente a massimizzare la funzione MERIT, incoraggiando un ragionamento consapevole dell'avversario (Opponent-Aware Reasoning - OAR). L'agente impara a stimare i costi nascosti del venditore e a calcolare CS e NP in tempo reale.
Fine-Tuning (SFT): Un modello (gpt-oss-20b) viene addestrato tramite Supervised Fine-Tuning su un dataset di dialoghi preferiti dagli umani, escludendo i pensieri interni non osservabili del venditore per mantenere il realismo.

3. Risultati Chiave

Gli esperimenti sono stati condotti su una vasta gamma di modelli (GPT-4o, GPT-4o-mini, GPT-3.5, Gemini-1.5-Pro/Flash, DeepSeek, ecc.) contro agenti venditori di riferimento.

Performance Superiore di ICL-MF: Il metodo guidato da MERIT (ICL-MF) supera costantemente i baseline (ReAct e OG-Narrator) sia in termini di punteggio MERIT che di tasso di chiusura degli affari (Deal Rate), in tutti i setting (singolo e multi-prodotto) e su modelli chiusi e open-source.
Comportamenti Irrazionali Rilevati: L'analisi ha rivelato che i modelli LLM, specialmente quelli più piccoli (es. GPT-4o-mini), mostrano comportamenti irrazionali come "concessioni instabili" (offrire un prezzo, poi scendere drasticamente e risalire), tipici di una mancanza di ancoraggio strategico umano.
Impatto delle Condizioni di Mercato:
- L'uso di strategie di inganno migliora generalmente i risultati per l'acquirente.
- Il monopolio danneggia sistematicamente l'acquirente, riducendo i tassi di accordo e il MERIT.
- I mercati multi-prodotto tendono ad avere tassi di accordo più alti grazie alla possibilità di sostituzione, ma la complessità può ridurre l'efficacia se non gestita strategicamente.
Ragionamento Consapevole dell'Avversario (OAR): L'analisi qualitativa mostra che ICL-MF induce gli agenti a formulare ipotesi esplicite sui costi nascosti dell'avversario e a calcolare metriche economiche interne, a differenza dei baseline che usano tattiche comportamentali vaghe (es. "fingere disinteresse").
Validazione con LLM-Judge: Un LLM giudice indipendente ha preferito i dialoghi generati da ICL-MF rispetto ai baseline nell'84-94% dei casi, confermando che le strategie apprese sono percepite come più favorevoli e strategicamente solide.

4. Contributi Principali

AGORABENCH: Un benchmark completo con nove scenari di mercato economicamente fondati e un dataset di preferenze umane derivato da dialoghi LLM-LLM.
MERIT: Una nuova metrica di valutazione multidimensionale, radicata nella teoria economica e allineata alle preferenze umane, che bilancia profitto, potere negoziale e soddisfazione del prodotto.
Analisi Comportamentale: Identificazione di deviazioni significative tra i comportamenti negoziali degli LLM e i pattern umani (es. instabilità nell'ancoraggio dei prezzi).
Metodologia di Miglioramento: Dimostrazione che l'uso di MERIT come feedback per l'In-Context Learning e il Fine-Tuning porta a strategie negoziali più profonde, consapevoli dell'avversario e allineate agli obiettivi umani.

5. Significato e Implicazioni

Questo lavoro segna un passo avanti cruciale nello sviluppo di agenti autonomi per la negoziazione. Sposta il focus dalla semplice ottimizzazione del profitto numerico a una valutazione olistica che include la soddisfazione dell'utente e la dinamica relazionale.

Per la Ricerca: Fornisce un nuovo standard per valutare le capacità di ragionamento strategico e la "Teoria della Mente" (ToM) degli LLM in contesti economici realistici.
Per l'Applicazione Pratica: Offre un metodo scalabile per addestrare agenti di vendita o acquisto che non solo massimizzano il guadagno, ma agiscono in modo credibile ed efficace secondo le aspettative umane, riducendo il rischio di fallimenti negoziali dovuti a comportamenti meccanici o irrazionali.

In sintesi, il paper dimostra che integrare feedback basati su preferenze umane e metriche economiche multidimensionali è essenziale per trasformare gli LLM da semplici generatori di testo a veri agenti negoziali strategici.