Agents Learn Their Runtime: Interpreter Persistence as Training-Time Semantics

Each language version is independently generated for its own context, not a direct translation.

Immagina di insegnare a un cuoco robot (l'Intelligenza Artificiale) a preparare un pasto complesso.

Il Problema: La Cucina con o senza Memoria?

Nell'articolo, i ricercatori si chiedono una cosa fondamentale: quando addestriamo questi robot a usare strumenti (come il codice Python per fare calcoli), dobbiamo insegnar loro a lavorare in una cucina che ha la memoria o in una che la perde?

Esistono due modi per far lavorare il robot:

Cucina "Persistente" (Con Memoria): Il robot scrive una ricetta su un foglio. Se scrive "prendi le uova", le uova rimangono sul tavolo per il passo successivo. Il robot non deve riscriverle ogni volta.
Cucina "Senza Stato" (Senza Memoria): Dopo ogni passo, il robot deve pulire tutto il tavolo. Se vuole usare le uova nel passo successivo, deve riscriverle di nuovo sulla ricetta, come se fosse la prima volta che le vede.

L'Esperimento: Il "Zaino Opaco"

Per capire quale metodo funziona meglio, i ricercatori hanno creato un gioco chiamato "Zaino Opaco".
Immagina di dover riempire uno zaino con oggetti preziosi, ma non puoi vedere gli oggetti finché non paghi un "prezzo" (un'azione) per guardarli. Devi decidere cosa prendere basandoti su quello che hai visto finora.

Hanno fatto un esperimento incrociato (2x2) con due gruppi di robot:

Gruppo A: Addestrato guardando video di robot che lavoravano in una cucina con memoria.
Gruppo B: Addestrato guardando video di robot che lavoravano in una cucina senza memoria.

Poi li hanno messi alla prova in due situazioni diverse:

Cucina con memoria.
Cucina senza memoria.

Cosa è successo? (Le Scoperte)

Ecco le tre lezioni principali, spiegate con metafore:

1. Il "Tassa dell'Amnesia" (Quando l'addestramento e il lavoro non coincidono)

Se addestri un robot a lavorare in una cucina dove non c'è memoria (Gruppo B) e poi lo mandi a lavorare in una cucina con memoria, succede una cosa strana: il robot continua a comportarsi come se non ci fosse memoria.

L'analogia: È come se avessi imparato a scrivere una lettera su un foglio che viene strappato via ogni minuto. Anche se ti danno un quaderno nuovo e infinito, tu continui a strappare ogni foglio e a riscrivere tutto da capo.
Il risultato: Il robot spreca tantissimo tempo e "inchiostro" (token) per riscrivere cose che il quaderno avrebbe già tenuto per lui. Questo spreco è chiamato "Tassa dell'Amnesia". Il robot è intelligente, ma è "obbligato" dalla sua abitudine a dimenticare tutto.

2. Il "Crollo della Memoria" (L'errore opposto)

Se addestri un robot in una cucina con memoria (Gruppo A) e lo metti in una cucina senza memoria, va in crash.

L'analogia: È come se avessi imparato a guidare un'auto che ha il volante fisso. Poi ti danno un'auto dove il volante sparisce dopo ogni curva. Tu continui a girare il volante che non c'è più, l'auto va fuori strada e tu vai in panico.
Il risultato: Il robot cerca di usare variabili (oggetti) che non esistono più perché la cucina le ha cancellate. Fa errori continui ("Non ho definito questa variabile!") e si blocca in un loop infinito di tentativi di riparazione, consumando tutto il suo tempo senza risolvere il problema.

3. La Qualità è la stessa, ma l'Efficienza no

La cosa più interessante è che alla fine, il robot risolve il compito quasi allo stesso modo (la qualità della soluzione è simile).
Tuttavia, la differenza è enorme nel costo:

Il robot addestrato e messo nella cucina giusta (con memoria) usa 3 volte meno "inchiostro" (token) per arrivare alla soluzione.
Il robot disallineato spreca risorse o va in crash.

La Conclusione: Non è solo un dettaglio tecnico

Il messaggio principale dell'articolo è questo: Non trattare l'ambiente di lavoro come un dettaglio nascosto.

Spesso gli sviluppatori pensano: "Addestriamo il modello, e poi quando lo usiamo vediamo come si comporta".
Questo studio dice: No! L'ambiente in cui addestri il modello (se ha memoria o no) diventa parte della sua "personalità" appresa. Se cambi l'ambiente dopo l'addestramento, il modello non si adatta magicamente; invece, soffre di "amnesia" o va in crash.

In sintesi:
Se vuoi che il tuo agente AI sia efficiente e stabile, devi addestrarlo esattamente nello stesso tipo di "cucina" in cui lavorerà. Se gli insegni a dimenticare tutto, continuerà a dimenticare tutto anche se gli dai una memoria perfetta. Se gli insegni a fidarsi della memoria, non potrà funzionare se gli togli la memoria.

È come insegnare a un nuotatore a nuotare in una piscina con corrente: se poi lo metti in un lago calmo, potrebbe fare movimenti strani. L'ambiente di addestramento plasma il comportamento tanto quanto le istruzioni stesse.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

I modelli linguistici (LLM) potenziati da strumenti (Tool-Augmented LLM) risolvono sempre più compiti alternando ragionamento in linguaggio naturale ed azioni eseguibili (spesso codice Python). Molti framework di agenti forniscono un interprete persistente, dove le variabili e gli stati dati si accumulano tra un turno e l'altro. Tuttavia, le tracce di addestramento utilizzate per il fine-tuning spesso lasciano implicita questa assunzione di persistenza.

La domanda di ricerca centrale è: la persistenza dell'interprete è semplicemente un'infrastruttura di runtime (un "scaffold") o una proprietà dei dati di addestramento che plasma il modo in cui gli agenti apprendono l'uso degli strumenti?
In pratica, se un modello viene addestrato su tracce generate in un ambiente persistente ma viene distribuito in un ambiente senza stato (stateless), o viceversa, quali sono le conseguenze sulle prestazioni, sull'efficienza e sulla stabilità?

2. Metodologia

Gli autori hanno condotto uno studio controllato 2x2 su una singola famiglia di compiti e un modello base (Qwen3-8B), incrociando le condizioni di addestramento con quelle di runtime:

Condizioni di Addestramento: Fine-tuning su tracce generate con interprete persistente vs. senza stato (stateless).
Condizioni di Runtime: Valutazione in un interprete persistente vs. senza stato.

Il Benchmark: OPAQUE KNAPSACK

Per isolare questa variabile, gli autori hanno introdotto OPAQUE KNAPSACK, una variante del problema dello zaino (Knapsack Problem) progettata per essere:

Parzialmente osservabile: Gli attributi degli oggetti (peso, valore, classe) e i vincoli sono nascosti e accessibili solo tramite chiamate a strumenti con un budget limitato.
Non collassabile: Il compito non può essere risolto con un singolo script "one-shot"; richiede un'interazione multi-turno, raccolta iterativa di informazioni e revisione del piano.
Controllata: Per ogni istanza del compito, vengono generate coppie di traiettorie identiche (stesso prompt, stessi strumenti, stessa supervisione) che differiscono solo per il fatto che lo stato dell'interprete persista o venga resettato dopo ogni azione.

Vengono addestrati due modelli identici (uno su tracce persistenti, uno su tracce stateless) e valutati in tutte e quattro le combinazioni possibili (Addestramento Persistente/Stateless $\times$ Runtime Persistente/Stateless).

3. Risultati Chiave

Lo studio rivela che la persistenza dell'interprete è una priorità comportamentale appresa durante il fine-tuning, non solo una caratteristica di runtime.

A. Disallineamento e Fallimenti Caratteristici

Quando le condizioni di addestramento e runtime non sono allineate, si osservano due modi di fallimento distinti:

Modello addestrato in Persistente $\rightarrow$ Runtime Stateless:
- Il modello genera errori di "variabile non definita" (NameError) in circa l'80% degli episodi.
- Il modello tenta di accedere a variabili definite in turni precedenti, che non esistono più nell'interprete resettato.
- Questo innesca loop di recupero a cascata che consumano il budget di token senza produrre progressi, portando a instabilità e fallimenti catastrofici.
Modello addestrato in Stateless $\rightarrow$ Runtime Persistente:
- Il modello paga una "tassa di amnesia" (amnesia tax).
- Anche se l'interprete potrebbe mantenere lo stato, il modello ridondantemente ricalcola e re-espone lo stato nel contesto testuale ad ogni turno.
- Questo comporta un uso di token circa 3.5 volte superiore rispetto alla condizione allineata (Persistente $\rightarrow$ Persistente), senza un miglioramento significativo nella qualità della soluzione.

B. Qualità della Soluzione vs. Efficienza

Qualità: Non sono state osservate differenze statisticamente significative nella qualità della soluzione (ottimalità normalizzata) tra i modelli allineati e quelli disallineati (su un campione di 100 task). La persistenza influenza come gli agenti raggiungono la soluzione, non se la raggiungono.
Efficienza: L'allineamento è cruciale per l'efficienza. La configurazione Persistente $\rightarrow$ Persistente ottiene prestazioni simili alla configurazione Stateless $\rightarrow$ Stateless ma con un costo in token drasticamente inferiore (circa 1/3 dei token).

C. Evidenza di Apprendimento

I risultati smentiscono l'ipotesi che la persistenza sia solo un "scaffold" di runtime. Se lo fosse, un modello addestrato in modo persistente si adatterebbe facilmente a un runtime senza stato se mostrato esempi stateless durante l'inferenza. Invece, il modello fallisce sistematicamente, dimostrando che la dipendenza dallo stato persistente è stata assorbita come un bias induttivo durante l'addestramento.

4. Contributi Principali

Benchmark OPAQUE KNAPSACK: Un nuovo ambiente di valutazione non collassabile con traiettorie accoppiate, progettato per forzare il controllo del flusso multi-turno e la revisione dello stato, isolando la variabile della persistenza.
Evidenza che la Persistenza è Appresa: Dimostrazione empirica che la semantica di esecuzione (persistenza vs. senza stato) viene appresa come un comportamento durante il post-training. Un disallineamento tra training e deployment genera errori sistematici e costi di efficienza.
Analisi dei Modelli di Fallimento: Identificazione di due modalità di fallimento specifiche (errori di riferimento mancante vs. tassa di amnesia) che emergono quando le aspettative apprese dal modello non corrispondono all'ambiente di esecuzione.

5. Significato e Implicazioni

Il lavoro ha implicazioni fondamentali per la progettazione di agenti AI:

Scelta di Design Esplicita: La semantica di esecuzione dell'interprete utilizzato per generare le tracce di fine-tuning non deve essere un dettaglio di implementazione nascosto, ma una scelta di design esplicita.
Allineamento Training-Deployment: Per massimizzare l'efficienza e la stabilità, la persistenza dell'interprete durante l'addestramento deve essere allineata con quella prevista per il deployment.
Riduzione dei Costi: Allineare le condizioni permette di sfruttare la memoria eseguibile dell'interprete invece di sprecare token nel contesto testuale per ridondanti ricalcoli.
Rischio di Migrazione: Sostituire silenziosamente il runtime (es. passando da un interprete persistente a uno senza stato) può degradare drasticamente la stabilità e la correttezza di un agente, anche senza modificare i pesi del modello.

In sintesi, il paper stabilisce che gli agenti "imparano il loro runtime": le proprietà dell'ambiente di esecuzione diventano parte integrante della politica appresa dal modello, rendendo l'allineamento tra dati di addestramento e ambiente di inferenza critico per il successo operativo.