TRAJEVAL: Decomposing Code Agent Trajectories for Fine-Grained Diagnosis

Il paper introduce TRAJEVAL, un framework diagnostico che scompone le traiettorie degli agenti di codice in tre fasi interpretabili (ricerca, lettura e modifica) per identificare le cause specifiche dei fallimenti e migliorare le prestazioni dei modelli tramite feedback in tempo reale, superando i limiti delle metriche di valutazione binaria tradizionali.

Myeongsoo Kim, Dingmin Wang, Siwei Cui, Farima Farmahinifarahani, Shweta Garg, Baishakhi Ray, Terry Yue Zhuo, Rajdeep Mukherjee, Varun Kumar

Pubblicato 2026-03-27
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Il Problema: "L'Agente ha risolto il problema, ma come?"

Immagina di avere un bravo assistente virtuale (un "agente di codice") che deve riparare un guasto in una casa complessa (un software).
Fino a oggi, per sapere se l'assistente era bravo, guardavamo solo il risultato finale:

  • La casa è riparata? (Pass@1: Sì/No).
  • La casa è ancora rotta? (Pass@1: No).

Il problema è che se l'assistente fallisce, non sappiamo dove ha sbagliato. Ha cercato la stanza sbagliata? Ha letto il manuale ma non l'ha capito? O ha trovato il pezzo rotto ma ha usato il martello invece del cacciavite?
È come dire a un medico: "Il paziente è guarito" o "Il paziente è morto", senza sapere quale medicina ha funzionato o quale diagnosi era errata.

🛠️ La Soluzione: TRAJEVAL (Il "Raggiro" per vedere dentro il processo)

Gli autori hanno creato TRAJEVAL, un sistema che non guarda solo il risultato, ma analizza il viaggio (la "traiettoria") che l'agente ha fatto per arrivare alla soluzione.

Hanno diviso il lavoro dell'agente in tre fasi, come se fosse un investigatore che risolve un caso:

  1. 🔍 Fase 1: Cerca (Search)
    • L'analogia: L'agente deve trovare la stanza giusta nella casa.
    • Cosa misura: È riuscito a trovare il file corretto? O ha perso tempo a girare per tutto il corridoio?
  2. 📖 Fase 2: Leggi (Read)
    • L'analogia: Una volta dentro la stanza, l'agente deve capire quale oggetto è rotto.
    • Cosa misura: Ha letto le istruzioni giuste? O ha guardato solo la polvere sul pavimento?
  3. 🔧 Fase 3: Modifica (Edit)
    • L'analogia: L'agente deve riparare l'oggetto.
    • Cosa misura: Ha colpito il chiodo giusto? O ha rotto qualcos'altro mentre cercava di aggiustare?

Per ogni fase, TRAJEVAL calcola due numeri magici:

  • Precisione (Efficienza): Quanto tempo ha sprecato? (Se ha letto 100 pagine per trovarne 1 utile, la precisione è bassa).
  • Ritorno (Recall): Ha trovato tutto ciò che serviva? (Se ha trovato 100 pagine ma ne mancavano 2 fondamentali, il ritorno è basso).

🔍 Cosa hanno scoperto? (Le sorprese)

Analizzando quasi 17.000 tentativi di agenti diversi, hanno scoperto cose affascinanti:

  1. Tutti sono un po' "spendaccioni":
    Gli agenti tendono a esplorare 22 volte più codice di quanto sia necessario. È come se per trovare un ago in un pagliaio, decidessero di bruciare tutto il pagliaio per essere sicuri. Funziona, ma costa molto tempo e soldi.
  2. Non tutti falliscono allo stesso modo:
    • GPT-5: È bravissimo a trovare la stanza giusta e a leggere il manuale, ma spesso sbaglia il colpo finale. Capisce il problema, ma non sa dove applicare la soluzione.
    • Qwen-32B: Fa fatica anche solo a trovare la stanza giusta. Si perde all'inizio e non riesce mai a iniziare il lavoro.
  3. Il segreto del successo non è la velocità:
    Chi risolve il problema non è necessariamente quello che legge meno codice. Chi risolve il problema è quello che trova tutto il codice necessario (alta "Recall"), anche se poi ne legge un po' di troppo.

🚀 L'uso pratico: Dare consigli in tempo reale

La parte più potente di TRAJEVAL non è solo diagnosticare, ma correggere mentre si lavora.

Immagina di guidare un'auto con un navigatore che ti dice: "Ehi, stai guardando la strada giusta! Continua così!" oppure "Attenzione, stai guardando un vicolo cieco, torna indietro!".
Gli autori hanno testato questo sistema: quando l'agente trovava il codice giusto, il sistema gli dava un "pollice in su" digitale.
Risultato?

  • Gli agenti sono diventati più bravi (hanno risolto più problemi).
  • Hanno speso meno soldi e tempo (hanno smesso di girare a vuoto).

🎯 In sintesi

TRAJEVAL trasforma la valutazione degli agenti di codice da un semplice "Voto Passa/Non Passa" a una diagnosi medica dettagliata.
Invece di dire "L'agente è scarso", ora possiamo dire: "L'agente è bravo a cercare, ma deve imparare a leggere meglio le istruzioni".

Questo permette di migliorare gli assistenti AI in modo intelligente, rendendoli non solo più efficaci, ma anche più economici e veloci, proprio come un meccanico esperto che sa esattamente quale pezzo del motore sta facendo rumore.

Sommerso dagli articoli nel tuo campo?

Ricevi digest giornalieri degli articoli più recenti corrispondenti alle tue parole chiave di ricerca — con riassunti tecnici, nella tua lingua.

Prova Digest →