Reducing Cost of LLM Agents with Trajectory Reduction

Each language version is independently generated for its own context, not a direct translation.

Immagina di assumere un assistente personale super-intelligente (un'Intelligenza Artificiale) per risolvere un problema complesso, come riparare un bug in un software o scrivere un programma.

Il Problema: L'Assistente che si "ingozza" di ricordi

Finora, c'era un grosso difetto in questi assistenti: avevano una memoria troppo fedele e poco selettiva.

Ogni volta che l'assistente faceva qualcosa (ad esempio, controllava un file, eseguiva un comando o leggeva un messaggio di errore), scriveva tutto ciò che era successo in un diario di bordo (chiamato "traiettoria").

Se l'assistente leggeva un file enorme, il diario si riempiva di quel file.
Se eseguiva un comando che produceva 100 righe di testo, il diario si riempiva di quelle 100 righe.
Se l'assistente faceva un errore e poi lo correggeva, il diario conservava sia l'errore sia la correzione.

Il risultato? Dopo pochi passi, il diario diventava un muro di carta enorme.
Quando l'assistente doveva pensare al passo successivo, doveva leggere tutto quel muro di carta, anche le parti irrilevanti (come i file di sistema inutili o i messaggi di conferma che dicevano "fatto, fatto, fatto").
Questo rendeva due cose molto costose:

Lentezza: Leggere montagne di carta richiede tempo.
Costo: Ogni parola letta costa denaro (le aziende pagano per ogni parola che l'AI elabora).

È come se dovessi leggere un'enciclopedia intera ogni volta che vuoi sapere cosa hai mangiato a colazione, solo perché l'enciclopedia contiene anche la ricetta della colazione.

La Soluzione: "AgentDiet" (La Dieta dell'Agente)

Gli autori di questo studio hanno creato un metodo chiamato AgentDiet.
Il nome è un gioco di parole: è una "dieta" per l'agente AI.

Come funziona?
Immagina che l'assistente abbia un segretario personale (chiamato "modulo di riflessione") che lavora per lui.
Mentre l'assistente principale sta lavorando, il segretario guarda il diario di bordo e dice:

"Ehi, aspetta un attimo. Questa riga dice che hai aperto una cartella piena di file di sistema inutili. Non serve più. Cancelliamola e lasciamo solo un riassunto: 'Ho controllato i file'. E questa altra riga è una lista di 50 test passati? Tutti verdi? Cancelliamola e scriviamo solo '50 test passati con successo'."

Il segretario rimuove il "rifiuto" (informazioni inutili, ridondanti o scadute) e lascia solo l'essenziale.

Perché è geniale?

Risparmia soldi: Meno parole da leggere significa meno costi. Il paper dimostra che si può risparmiare dal 21% al 36% del costo totale.
Non perde efficacia: L'assistente principale non diventa stupido. Anzi, togliendo il "rumore" di fondo, riesce a concentrarsi meglio sui problemi reali. È come togliere la polvere da uno specchio: si vede meglio.
È automatico: Non serve che l'assistente principale sappia di essere "dietato". Il segretario lavora in silenzio, pulendo il diario mentre l'assistente continua a lavorare.

L'Analogia della Cucina

Immagina di cucinare una cena complessa.

Senza AgentDiet: Ogni volta che tagli un cipollone, butti la buccia, l'acqua di cottura e il guscio dell'uovo nel piatto principale. Alla fine, il piatto è un mucchio di rifiuti che devi mescolare per trovare il cibo vero. È disordinato e pesante.
Con AgentDiet: C'è un aiutante che, mentre tu cucini, butta subito i rifiuti nel cestino e ti lascia solo gli ingredienti puliti nel piatto. Il risultato finale è lo stesso (la cena è buona), ma il lavoro è più pulito, veloce ed economico.

I Risultati in Pillole

Gli autori hanno testato questa "dieta" su agenti che risolvono problemi di programmazione reali.

Hanno ridotto la quantità di informazioni lette dell'AI del 40-60%.
Hanno risparmiato quasi un terzo dei soldi spesi per far funzionare l'AI.
La cosa più importante: L'AI ha risolto gli stessi problemi, con la stessa qualità, senza farsi confondere. Anzi, in alcuni casi, è diventata più veloce perché non si è "intasata" di informazioni inutili.

Conclusione

In sintesi, questo paper ci insegna che non serve avere più memoria per essere più intelligenti. A volte, per essere più efficienti ed economici, basta imparare a buttare via il superfluo. AgentDiet è il primo passo verso assistenti AI più snelli, veloci ed economici, pronti per essere usati da tutti senza spendere una fortuna.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema: Inefficienza e Costi nei Agenti LLM

Gli agenti basati su Large Language Models (LLM) stanno diventando sempre più popolari per compiti di ingegneria del software (es. generazione di codice, debug, riparazione). Tuttavia, la loro adozione su larga scala è ostacolata da costi computazionali elevati e da una scarsa efficienza.

La causa principale di questo problema risiede nella natura iterativa del flusso di lavoro degli agenti:

Crescita esponenziale della "Traiettoria": In un sistema tipico, ogni chiamata allo strumento (tool call) e il suo risultato vengono aggiunti alla traccia (trajectory) e mantenuti per l'intera durata del compito.
Ridondanza dei Token: Man mano che l'agente procede, la lunghezza dell'input per ogni successiva previsione dell'LLM aumenta. Questo include informazioni inutili, ridondanti o scadute (es. output verbose di comandi di build, liste di file non rilevanti, risultati di test passati che non servono più).
Impatto sui Costi: Poiché i costi degli LLM sono legati al numero di token di input, la crescita della traiettoria porta a un aumento sproporzionato dei costi. Il paper cita che su alcune piattaforme, il 99% dei token di input è costituito da informazioni accumulate nella traiettoria, non da nuovi input generati dall'utente.
Limiti delle Soluzioni Esistenti: Le tecniche attuali di riduzione dei token si concentrano su compiti a turno singolo (es. RAG) o richiedono modifiche al modello (white-box), rendendole inadatte o impraticabili per agenti proprietari che operano in loop multi-turno.

2. Metodologia: AgentDiet

Gli autori propongono AgentDiet, un approccio innovativo per la riduzione della traiettoria in tempo di inferenza (inference-time). L'obiettivo è rimuovere automaticamente i "rifiuti" (useless, redundant, expired information) dalla traccia dell'agente senza comprometterne le prestazioni.

Analisi del Problema

Attraverso uno studio empirico su 100 traiettorie reali (benchmark SWE-bench Verified), gli autori hanno identificato tre categorie principali di spreco:

Informazioni Inutili: Output verbosi di comandi (es. log di build, file di cache) che non contribuiscono alla risoluzione del problema.
Informazioni Ridondanti: Ripetizioni di contenuti, come gli argomenti di uno strumento di modifica file (str_replace_editor) che vengono ripetuti nella risposta dello strumento.
Informazioni Scadute: Dati rilevanti solo per un passaggio specifico (es. ricerca di un simbolo in molti file) che diventano irrilevanti una volta identificato il file corretto.

Design di AgentDiet

AgentDiet non richiede la modifica del modello LLM principale né il fine-tuning. Si basa su tre pilastri tecnici:

Modulo di Riflessione Esterno (Reflection Module):
- Poiché gli agenti tendono a ignorare le richieste di pulizia della propria memoria (a causa di bias di addestramento), AgentDiet utilizza un modulo di riflessione separato.
- Questo modulo, alimentato da un LLM diverso (spesso più economico e veloce), analizza la traiettoria e genera una versione compressa rimuovendo gli sprechi identificati.
- L'agente principale non è consapevole della riduzione, preservando il suo flusso di lavoro originale.
Finestra Scorrevole (Sliding Window):
- Per controllare l'overhead computazionale, la riduzione non avviene su tutta la storia, ma su una finestra scorrevole.
- Quando l'agente è al passo $s$ , il modulo di riflessione analizza e riduce il passo $s-a$ (dove $a$ è un iperparametro), fornendo contesto dai passi $s-a-b$ fino a $s$ .
- Questo approccio minimizza l'invalidazione della KV Cache (cruciale per l'efficienza degli LLM) e riduce il costo del modulo di riflessione.
Soglia di Attivazione ( $\theta$ ):
- La riduzione viene applicata solo se il passo da analizzare supera una certa soglia di token ( $\theta$ ), evitando di spendere risorse per comprimere messaggi brevi dove il beneficio sarebbe trascurabile.

3. Contributi Chiave

Identificazione dello Spreco: Dimostrazione empirica che le traiettorie degli agenti contengono una quantità significativa di informazioni ridondanti o scadute che possono essere rimosse.
AgentDiet: Proposta di un algoritmo semplice ed efficace, open-source, che integra un modulo di riflessione esterno per la compressione della traiettoria in tempo reale.
Valutazione Estesa: Sperimentazione su due benchmark (SWE-bench Verified e Multi-SWE-bench Flash) e due modelli LLM diversi (Claude 4 Sonnet e Gemini 2.5 Pro), dimostrando la generalizzabilità dell'approccio.
Analisi degli Iperparametri: Studio dettagliato su come parametri come la scelta del modello di riflessione, la dimensione della finestra scorrevole e le soglie influenzino il compromesso tra costo e prestazioni.

4. Risultati Sperimentali

L'implementazione di AgentDiet su un agente di coding all'avanguardia (Trae Agent) ha prodotto risultati significativi:

Riduzione dei Token di Input: AgentDiet riduce i token di input cumulativi del 39,9% – 59,7%.
Riduzione dei Costi Computazionali: Nonostante l'overhead del modulo di riflessione, il costo totale di calcolo diminuisce del 21,1% – 35,9%.
Prestazioni (Pass Rate): La capacità dell'agente di risolvere i task rimane invariata o addirittura leggermente migliorata (variazioni tra -1,0% e +2,0% rispetto alla baseline).
- Nota interessante: In alcuni casi (es. Gemini 2.5 Pro su task complessi), la riduzione della lunghezza del contesto ha migliorato la robustezza dell'agente, riducendo il numero di passi necessari e prevenendo il fallimento dovuto a contesti troppo lunghi.
Generalizzazione: L'approccio funziona coerentemente su diversi linguaggi di programmazione (Python, Rust, TypeScript, Java, Go, C, C++) e diversi modelli LLM.

5. Significato e Impatto

Questo lavoro è significativo per diverse ragioni:

Sostenibilità Economica: Dimostra che è possibile ridurre drasticamente i costi operativi degli agenti LLM senza sacrificare la qualità del risultato, rendendo queste tecnologie più accessibili per l'uso quotidiano nello sviluppo software.
Nuova Direzioni di Ricerca: Sposta l'attenzione dall'ottimizzazione del modello (che richiede accesso white-box) all'ottimizzazione del flusso di dati (traiettoria), un approccio applicabile anche a modelli proprietari chiusi.
Paradigma "Test-Time Compute": Contraddice l'idea comune secondo cui ridurre i token di input (risparmio computazionale) debba necessariamente degradare le prestazioni. Al contrario, rimuovere il "rumore" dalla memoria dell'agente può migliorare la sua capacità di ragionamento.
Praticità: Essendo un approccio basato su prompt e integrazione software esterna, AgentDiet può essere adottato immediatamente dalle aziende senza necessità di riaddestramento dei modelli.

In sintesi, il paper introduce un metodo pratico ed efficace per "dieta" (da cui il nome AgentDiet) delle memorie degli agenti LLM, risolvendo uno dei principali colli di bottiglia per la loro diffusione commerciale.