Combining Tree-Search, Generative Models, and Nash Bargaining Concepts in Game-Theoretic Reinforcement Learning

Questo lavoro introduce un regime di addestramento multiagente scalabile che combina la Ricerca ad Albero Monte-Carlo con modelli generativi profondi (GenBR) e concetti di negoziazione di Nash all'interno del framework PSRO, permettendo agli agenti di apprendere modelli di avversari sia offline che online e di negoziare efficacemente con esseri umani in giochi di contrattazione come Deal-or-No-Deal.

Zun Li, Marc Lanctot, Kevin R. McKee, Luke Marris, Ian Gemp, Daniel Hennes, Paul Muller, Kate Larson, Yoram Bachrach, Michael P. Wellman

Pubblicato 2026-03-17
📖 5 min di lettura🧠 Approfondimento

Each language version is independently generated for its own context, not a direct translation.

Immagina di dover giocare a un gioco di negoziazione, come "Fai o Non Fare" (Deal or No Deal), ma non sai mai cosa sta pensando l'altra persona. Non conosci le sue preferenze, le sue paure o cosa è disposto a cedere. Nella vita reale, questo è esattamente quello che succede quando trattiamo con qualcuno: dobbiamo indovinare le loro intenzioni basandoci solo su ciò che dicono e fanno.

Questo articolo di ricerca, scritto da un team di Google DeepMind e università, presenta un nuovo modo per insegnare alle intelligenze artificiali (AI) a diventare dei maestri della negoziazione, non solo imparando a giocare, ma imparando a capire chi hanno di fronte.

Ecco come funziona, spiegato con parole semplici e qualche analogia divertente.

1. Il Problema: Giocare al buio

Prima di questo lavoro, i computer che giocavano a giochi complessi (come il Poker o le trattative) avevano due grossi problemi:

  • Erano rigidi: Per imparare a giocare, gli umani dovevano scrivere regole specifiche ("Se l'avversario fa X, allora fai Y"). Se il gioco cambiava o se l'avversario era strano, il computer andava in tilt.
  • Non potevano "immaginare" il futuro: In giochi dove non vedi tutto (come il Poker, dove non vedi le carte degli altri), i computer faticavano a calcolare tutte le possibilità perché il numero di scenari è enorme, come cercare di contare ogni singola goccia di pioggia in un temporale.

2. La Soluzione: Il "Detective" con la Macchina del Tempo

Gli autori hanno creato un nuovo metodo chiamato GenBR (Generative Best Response). Immaginalo come un detective che ha due superpoteri:

  • Il Potere dell'Immaginazione (Modello Generativo): Invece di dover calcolare ogni singola possibilità a mente (cosa che richiederebbe un cervello infinito), il computer ha imparato a "sognare" a occhi aperti. Usa una rete neurale per immaginare scenari probabili. È come se, prima di fare una mossa, il computer facesse un rapido sogno ad occhi aperti: "Se io propongo questo, è probabile che lui abbia queste carte? O forse quelle?". Questo gli permette di navigare in giochi enormi e complessi senza impazzire.
  • Il Potere della Ricerca (Albero di Decisione): Una volta che ha immaginato alcuni scenari, usa un metodo di ricerca (chiamato MCTS) per esplorare i rami più promettenti di questi sogni, proprio come un giocatore di scacchi che visualizza le mosse future.

3. La Scuola di Negotiazione: PSRO

Ma come fa il computer a imparare a sognare bene? Qui entra in gioco il secondo pezzo del puzzle, chiamato PSRO.
Immagina un campo di addestramento militare o una scuola di recitazione.

  • Invece di far allenare il computer contro se stesso in modo noioso, il sistema crea una "popolazione" di agenti diversi.
  • Ogni agente impara a giocare contro gli altri, scoprendo i loro punti deboli.
  • Man mano che il sistema gira, crea una "gerarchia cognitiva": impara che ci sono giocatori aggressivi, giocatori timidi, giocatori onesti e giocatori che mentono.
  • Alla fine, il nostro agente principale non è solo bravo a giocare, ma ha un modello mentale di come funzionano gli altri. Sa che "se l'avversario fa così, probabilmente è di questo tipo".

4. L'Esperimento: Negoziare con gli Umani

Per vedere se funzionava davvero, i ricercatori hanno messo i loro agenti a negoziare con persone reali (tramite internet) in un gioco chiamato "Deal or No Deal".

  • L'obiettivo: Non solo vincere, ma trovare un accordo equo che porti beneficio a entrambi (massimizzare il "benessere sociale").
  • Il risultato: Gli agenti addestrati con questo metodo sono riusciti a negoziare con gli umani quasi esattamente come fanno gli umani tra loro.
    • Alcuni agenti erano molto competitivi (volevano tutto per sé).
    • Altri erano molto cooperativi.
    • Ma c'era un agente "equo" (chiamato Fair) che ha fatto miracoli: negoziava in modo così intelligente e giusto che il risultato finale era quasi identico a quello ottenuto quando due umani trattavano tra loro.

Perché è importante?

Pensa a tutte le situazioni nella vita reale dove dobbiamo negoziare:

  • Comprare un'auto usata.
  • Trovare un prezzo per un contratto di lavoro.
  • Gestire il traffico tra auto autonome.
  • Risolvere conflitti in cybersecurity.

Fino a poco tempo fa, per fare queste cose, avevamo bisogno di esperti umani che scrivessero regole a mano. Ora, questo metodo permette a un'AI di imparare da sola a capire le persone, a immaginare scenari e a trovare soluzioni equilibrate, senza bisogno che un umano le spieghi ogni singola regola.

In sintesi

Hanno creato un'AI che non è solo un "calcolatore veloce", ma un negoziatore intelligente.

  1. Immagina scenari possibili (come un sognatore).
  2. Analizza le mosse migliori (come un stratega).
  3. Impara a riconoscere i tipi di avversari (come un detective esperto).
  4. Negozia con gli umani raggiungendo risultati equi ed efficienti.

È un passo enorme verso un futuro in cui le macchine non solo ci aiutano a calcolare, ma ci aiutano a capire e a collaborare con noi.