Influencing LLM Multi-Agent Dialogue via Policy-Parameterized Prompts

Each language version is independently generated for its own context, not a direct translation.

Immagina di dover organizzare un grande dibattito tra tre amici molto intelligenti, ma che hanno personalità e conoscenze molto diverse: un agricoltore, un ambientalista e un rappresentante della comunità. Il tuo obiettivo è farli discutere in modo costruttivo, evitando che si ripetano all'infinito o che parlino a caso.

Fino a poco tempo fa, per gestire queste conversazioni con l'Intelligenza Artificiale (i famosi LLM), gli scienziati usavano istruzioni "fai-da-te", un po' come dare un foglio di carta con scritto "parla" o "sii gentile". Ma questo approccio era caotico e difficile da controllare.

Questo nuovo studio, scritto da ricercatori dell'Università di Bristol, propone un metodo molto più elegante e intelligente. Ecco come funziona, spiegato con un'analogia semplice:

🎭 L'Attore e il Regista

Immagina che ogni agente AI sia un attore su un palcoscenico.

Il vecchio metodo: Il regista (lo scienziato) urlava istruzioni generiche dall'esterno.
Il nuovo metodo: Il regista dà all'attore un copione dinamico che cambia a seconda di cosa succede sulla scena.

Invece di addestrare l'attore per mesi (come si fa con la robotica classica), gli autori creano un "copione" (il prompt) che è composto da 5 pezzi fondamentali, come gli ingredienti di una ricetta:

Il Ruolo (T): Chi sei? (Es. "Sei un agricoltore preoccupato per il cibo").
La Memoria (M): Cosa è stato detto prima? (La storia della conversazione).
La Conoscenza (D): Cosa sai di vero? (Dati esterni, come leggi o statistiche).
Le Regole (R): Come devi parlare? (Es. "Prima rispondi, poi cita un dato").
I Pesi (W): Quanto devi ascoltare ogni ingrediente? (Es. "Ascolta di più la memoria ora, meno i dati").

🎚️ La Manopola del Volume

La parte più geniale è il concetto di "Pesi" (Weights).
Immagina che ogni ingrediente del copione abbia una manopola del volume.

Se alzi il volume della Memoria, l'attore ascolta di più cosa hanno detto gli altri e risponde in modo più coerente.
Se alzi il volume delle Regole, l'attore diventa più strutturato e meno ripetitivo.
Se alzi il volume dei Dati, l'attore porta più prove concrete.

I ricercatori hanno scoperto che girando queste manopole, possono "dirottare" la conversazione. Se vogliono che gli agenti siano più polemici, alzano il volume del "Ruolo". Se vogliono che siano più educati, abbassano il volume e aumentano le "Regole".

🧪 La Prova sul Campo

Per testare questa idea, hanno messo a confronto tre agenti AI su due temi caldi:

L'uso del suolo: "Dovremmo dare più libertà ai cittadini di passeggiare nei campi?"
Le risorse educative: "Come dividere i soldi per le scuole tra città e campagna?"

Hanno fatto discutere gli agenti per 10 round, cambiando le manopole ogni volta. Hanno misurato:

Risposta: Rispondono davvero a ciò che è stato detto?
Contro-argomento: Si oppongono alle idee degli altri?
Ripetizione: Si ripetono o dicono cose nuove?
Prove: Usano dati reali?
Cambiamento di opinione: Cambiano idea o restano fedeli al loro ruolo?

📊 Cosa hanno scoperto?

Le regole contano: Se dai all'attore un copione molto strutturato (Regole "Strutturate"), smette di ripetere le stesse cose e diventa più originale.
I dati aiutano: Se gli dai più "volume" ai dati esterni, l'attore porta più prove concrete, ma a volte diventa meno flessibile.
L'adattabilità: Hanno creato un sistema che aggiorna le manopole da solo mentre la conversazione avanza. All'inizio, l'attore usa più i dati per farsi un'opinione; alla fine, usa più la memoria per rispondere agli altri. È come se l'attore imparasse a gestire il ritmo della discussione da solo!

🌟 Perché è importante?

Prima, far parlare gli AI era come lanciare un sasso in uno stagno e sperare che le onde facessero bella figura. Ora, con questo metodo, è come se avessimo un remoto di controllo. Possiamo decidere esattamente come gli agenti interagiscono, rendendo le simulazioni sociali (come previsioni di come reagirà la gente a una nuova legge) molto più realistiche, controllabili e utili.

In sintesi: non serve addestrare nuovi cervelli artificiali per farli comportare meglio; basta dare loro le istruzioni giuste, al momento giusto, con il volume giusto.

Each language version is independently generated for its own context, not a direct translation.

Ecco un riassunto tecnico dettagliato del paper "Influencing LLM Multi-Agent Dialogue via Policy-Parameterized Prompts", presentato in italiano.

1. Problema e Contesto

Le ricerche attuali sui sistemi multi-agente basati su Large Language Models (LLM) per la simulazione sociale si affidano prevalentemente a prompt "ad hoc" (creati manualmente e senza una struttura formale). Sebbene questi sistemi dimostrino capacità emergenti, manca un approccio principiato per trattare le strategie di comunicazione come politiche (policies) controllabili.
Senza un framework formale, è difficile:

Predire il comportamento degli agenti.
Ottimizzare i pattern di comunicazione.
Trasferire intuizioni tra diversi compiti.
Controllare deliberatamente l'evoluzione del dialogo (es. coerenza della posizione, uso di prove, rebuttal) senza ricorrere al costoso addestramento tramite Reinforcement Learning (RL).

L'obiettivo dello studio è colmare questo gap proponendo un metodo per parametrizzare i prompt come azioni di una politica leggera, permettendo di influenzare il comportamento conversazionale degli agenti in modo sistematico e senza training aggiuntivo.

2. Metodologia

Gli autori propongono un framework in cui il prompt stesso è considerato un'azione ( $a$ ) generata da una politica ( $\pi$ ) basata sullo stato corrente dell'agente ( $s$ ). La politica mappa lo stato a un prompt strutturato composto da cinque componenti adattive:

A. Formalizzazione dello Stato e dell'Azione

Stato ( $s$ ): Composto da Task/Persona ( $T$ ), Memoria del dialogo ( $M$ ), e Base di conoscenza esterna ( $D$ ).
Azione ( $a$ ): Il prompt costruito dinamicamente per l'LLM.
Politica ( $\pi$ ): Definisce come combinare le componenti dello stato utilizzando Template di Regole ( $R$ ) e Vettori di Pesi ( $W$ ).

B. Componenti del Prompt Parametrizzato

Il prompt è decomposto in:

Task e Persona ( $T$ ): Descrizione del ruolo e degli obiettivi.
Memoria ( $M$ ): Storico del dialogo (condivisione di un pool di messaggi globale).
Base di Conoscenza ( $D$ ): Dati esterni recuperati tramite RAG (Retrieval-Augmented Generation).
Template di Regole ( $R$ ): Istruzioni strutturali opzionali con tre livelli di vincolo:
- None: Nessuna struttura esplicita.
- Light: Ordine di risposta basilare e vincoli di lunghezza.
- Struct: Struttura rigorosa che impone l'estrazione di punti chiave (supporto, opposizione, conflitti) prima della risposta.
Pesi ( $W$ ): Vettori $\{w_T, w_M, w_D\}$ che controllano l'enfasi su ciascuna componente. I pesi sono mappati su livelli (basso, medio, alto) che attivano istruzioni comportamentali specifiche (es. "cita sempre le prove" se $w_D$ è alto).

C. Adattività

Il framework include un scheduling adattivo dei pesi:

Aggiornamento basato sul tempo: Aumenta il peso sulla memoria ( $M$ ) e diminuisce quello sulla conoscenza ( $D$ ) man mano che il dialogo procede.
Correzione basata sul comportamento: Se un agente non risponde a un precedente messaggio o non usa le prove, il peso corrispondente viene incrementato automaticamente per le turni successivi.

D. Metriche di Valutazione

L'efficacia è misurata su cinque indicatori chiave:

Responsiveness: Capacità di rispondere all'ultimo turno.
Rebuttal: Capacità di opporsi attivamente alle argomentazioni altrui.
Non-repetition: Novità del contenuto rispetto ai turni precedenti.
Evidence Usage: Utilizzo di frasi chiave dalla base di conoscenza recuperata.
Stance Shift: Coerenza o deviazione dalla posizione originale definita nella persona.

3. Esperimenti e Risultati

Gli esperimenti sono stati condotti su due scenari di discussione pubblica: Uso delle risorse terrestri (Land) e Allocazione delle risorse educative (Education), coinvolgendo agenti con ruoli distinti (es. Agricoltore, Conservazionista, Rappresentante della comunità) guidati da diversi LLM (Qwen3, Llama3, Mistral).

Risultati Chiave:

Efficacia del Controllo (RQ1): La parametrizzazione del prompt funziona come una politica leggera efficace. Modificando regole e pesi, è possibile regolare sistematicamente il comportamento degli agenti senza ri-addestramento.
Impatto dei Template di Regole (RQ2):
- Le regole Struct riducono significativamente le ripetizioni (Non-repetition) ma possono sopprimere l'uso delle prove se troppo rigide.
- Le regole Light migliorano notevolmente l'Evidence Usage e il tasso di Rebuttal, favorendo scambi più interattivi.
- Le regole non alterano la coerenza della posizione (Stance), che rimane stabile indipendentemente dal template.
Sensibilità ai Pesi:
- Aumentare il peso sulla Persona ( $w_T$ ) aumenta la frequenza dei rebuttal e la coerenza della posizione.
- Esiste un effetto di "incrocio" tra regole e pesi: regole strutturate possono forzare l'uso di prove anche con pesi bassi, mentre senza regole sono necessari pesi alti per ottenere lo stesso effetto.
Pesi Adattivi: L'uso di pesi adattivi non cambia drasticamente le medie globali, ma modula la dinamica temporale del dialogo (es. riducendo l'uso di prove nelle fasi finali come previsto dalla strategia temporale).
Diversità degli LLM: Gli scenari con backbone LLM eterogenei (diversi modelli per agenti diversi) producono discussioni più ricche e interattive rispetto a configurazioni omogenee.

4. Contributi Chiave

Prompt-as-Action: Propone una formalizzazione teorica che tratta il prompt non come un input statico, ma come un'azione dinamica generata da una politica parametrizzata.
Framework Leggero e Senza Training: Offre un meccanismo per il controllo sociale che non richiede fine-tuning o RL, rendendolo computazionalmente efficiente e immediatamente applicabile.
Interpretabilità: Le componenti del prompt (Regole e Pesi) hanno significati cognitivi e sociali chiari, permettendo ai ricercatori di "sintonizzare" il comportamento degli agenti in modo trasparente.
Validazione Empirica: Dimostra sperimentalmente che è possibile guidare l'evoluzione di stances, l'uso di evidenze e la dinamica di conflitto in simulazioni sociali complesse.

5. Significato e Implicazioni

Questo lavoro sposta il paradigma della simulazione sociale basata su LLM: il modello linguistico non è più visto solo come un generatore di testo, ma come un attore sociale con parametri regolabili.

Simulazione Sociale Controllabile: Permette di condurre esperimenti sociali misurabili e controllabili, dove le variabili (strategie di dialogo) sono esplicitamente definite.
Flessibilità: Il framework può essere esteso con tecniche future come il fine-tuning o le interventi al momento dell'inferenza.
Ricerca Futura: Apre la strada a sistemi multi-agente più robusti per la modellazione di fenomeni sociali, dibattiti pubblici e dinamiche di gruppo, offrendo un metodo alternativo e complementare alle tradizionali approcci basati su addestramento.

In sintesi, il paper dimostra che la parametrizzazione delle politiche tramite prompt è un meccanismo semplice, efficace e interpretabile per governare la complessità dei dialoghi multi-agente.