Replayable Financial Agents: A Determinism-Faithfulness Assurance Harness for Tool-Using LLM Agents

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un assistente finanziario super-intelligente (un "agente" basato sull'Intelligenza Artificiale) che lavora nella tua banca. Questo assistente deve prendere decisioni importanti: bloccare un sospetto trasferimento di denaro, approvare un investimento o correggere un errore nei dati.

Il problema è che, quando un ispettore arriva e chiede: "Ehi, perché hai bloccato quel trasferimento? Ripetimi esattamente cosa hai fatto", l'assistente spesso risponde: "Beh, la prossima volta potrei fare un po' di cose diverse, ma il risultato sarà lo stesso!".

Per una banca, questa risposta è inaccettabile. Se l'ispettore non può riprodurre esattamente la stessa decisione con gli stessi dati, l'assistente non è affidabile.

Ecco di cosa parla questo documento, tradotto in una storia semplice:

1. Il Problema: L'Assistente "Capriccioso"

Gli attuali assistenti AI sono come artisti impressionisti: ogni volta che dipingono lo stesso soggetto (la stessa decisione finanziaria), usano pennellate leggermente diverse. A volte il risultato finale è perfetto, a volte no.
In finanza, però, non ci serve un artista che cambia stile ogni giorno. Ci serve un macchinario di precisione che, se premi lo stesso tasto due volte, faccia esattamente la stessa cosa.

Gli autori del documento hanno scoperto una cosa curiosa: essere precisi (deterministici) non significa essere bravi (accurati), e viceversa.

Alcuni assistenti piccoli e "stupidi" fanno sempre la stessa cosa (sono precisi), ma spesso sbagliano il compito (non sono accurati).
Gli assistenti più "geniali" (i modelli più grandi) fanno il compito bene, ma ogni volta usano un percorso mentale diverso (non sono precisi).

2. La Soluzione: La "Cintura di Sicurezza" (DFAH)

Per risolvere questo caos, gli autori hanno creato uno strumento chiamato DFAH (un "harness" di garanzia).
Pensa al DFAH come a una cintura di sicurezza e un airbag per l'AI finanziaria. Prima di lasciare che l'AI guidi la banca, questo strumento la sottopone a un test di stress:

Test di Ripetizione: Chiede all'AI di fare lo stesso compito 10 volte. Fa sempre la stessa cosa? (Determinismo).
Test di Verità: Chiede all'AI: "Hai preso questa decisione basandoti sui fatti reali che hai letto, o hai inventato una scusa?" (Fedeltà alle prove).

3. Cosa hanno scoperto? (La Sorpresa)

Hanno fatto fare 4.700 compiti a 7 diversi "cervelli" AI. Ecco cosa è emerso:

I Piccoli (7-20 miliardi di parametri): Sono come robot rigidi. Se gli chiedi di controllare una transazione, dicono sempre "Sospetto" o "Ok" nello stesso identico modo. Sono perfetti per gli ispettori perché sono prevedibili, ma spesso sbagliano perché sono troppo rigidi (come un bambino che risponde sempre "Sì" per non sbagliare).
I Grandi (I modelli "Frontier" come Claude o Gemini): Sono come investigatori creativi. Trovano la soluzione giusta più spesso, ma ogni volta usano un metodo diverso (controllano prima il conto, poi il passaporto, poi il meteo...). Per un ispettore che vuole vedere lo stesso filmato 10 volte, questo è un incubo.
Il Paradosso: Non esiste un assistente che sia contemporaneamente perfetto nel fare il lavoro e perfetto nel ripeterlo allo stesso modo. Devi scegliere: vuoi la certezza della ripetizione o la probabilità di fare il lavoro bene?

4. La Lezione per le Banche

Il documento dice alle banche: "Non fidatevi solo dell'intelligenza, fidatevi della prevedibilità."

Se un'AI è intelligente ma imprevedibile, non può essere usata per decisioni critiche da sola. Deve avere un umano al volante che controlla ogni sua mossa.
Se invece un'AI è un po' meno intelligente ma fa sempre le stesse cose, può essere usata per compiti ripetitivi (come controllare le liste di sanzioni), purché ci sia un piano per correggere i suoi errori di rigidezza.

In Sintesi: L'Analogia del Ristorante

Immagina un ristorante di lusso (la banca):

L'AI "Piccola" (Tier 1): È uno chef che prepara esattamente lo stesso piatto ogni volta. Se ordini la pasta, ti dà la pasta. È perfetto per la sicurezza alimentare (gli ispettori sono felici), ma il piatto potrebbe essere un po' insipido (bassa accuratezza).
L'AI "Grande" (Frontier): È uno chef stellato che crea capolavori. Ma ogni volta che ordini la pasta, la cuoce in modo diverso, con ingredienti diversi e tempi diversi. Il piatto è delizioso, ma l'ispettore sanitario non può verificare se è sicuro perché non può replicare la ricetta esatta.

Il consiglio del documento: Per le cose critiche (come la sicurezza dei soldi), usa lo chef "piccolo" e rigido, ma assicurati che non sia troppo stupido. Per le cose creative (come consigliare investimenti), usa lo chef "grande", ma fallo sempre sotto la supervisione di un manager umano.

Il documento fornisce le regole e gli strumenti per misurare esattamente quanto è "rigido" o "creativo" il tuo chef AI, così da non finire in prigione per aver assunto il cuoco sbagliato.

Each language version is independently generated for its own context, not a direct translation.

Ecco un riassunto tecnico dettagliato del documento "Replayable Financial Agents: A Determinism-Faithfulness Assurance Harness for Tool-Using LLM Agents" in lingua italiana.

Titolo: Agenti Finanziari Riproducibili: Un Sistema di Garanzia per la Fedeltà Deterministica negli Agenti LLM che Utilizzano Strumenti

Autore: Raffi Khatchadourian (IBM Financial Services)
Data: Marzo 2026

1. Il Problema: La Sfida della Riproducibilità Regolamentare

Gli agenti basati su Large Language Models (LLM) stanno venendo adottati rapidamente nel settore finanziario per compiti critici come il triage della conformità, il ribilanciamento dei portafogli e la reporting regolamentare. Tuttavia, esiste una barriera fondamentale per la loro adozione in ambienti regolamentati: la mancanza di riproducibilità auditabile.

Quando un regolatore chiede di riesaminare una decisione specifica (es. "Perché il sistema ha bloccato questa transazione?"), l'istituzione deve dimostrare due cose:

Determinismo: Inserendo gli stessi input, il sistema deve produrre esattamente lo stesso output (decisione e traiettoria).
Fedeltà (Faithfulness): La decisione deve essere basata su evidenze recuperate e non su ragionamenti inventati (allucinazioni).

Il problema attuale è che la maggior parte delle implementazioni di agenti fallisce nel riprodurre decisioni identiche con input identici, anche a temperatura zero ( $T=0.0$ ). Inoltre, non è chiaro se esista una correlazione tra la capacità di un modello di essere deterministico e la sua accuratezza nel compito.

2. Metodologia: Il DFAH (Determinism-Faithfulness Assurance Harness)

Per affrontare queste sfide, l'autore introduce il DFAH, un framework di valutazione open-source progettato specificamente per agenti finanziari che utilizzano strumenti (tool-using agents).

Definizioni Chiave e Metriche

Il framework formalizza tre metriche distinte:

Determinismo dell'Azione (Action Determinism): La frazione di esecuzioni con sequenze di chiamate agli strumenti identiche.
Determinismo della Firma (Signature Determinism): La frazione di esecuzioni con sequenze di strumenti e argomenti identici.
Determinismo della Decisione (Decision Determinism): La frazione di esecuzioni che producono la stessa decisione finale (es. "escalate", "dismiss").
Fedeltà Condizionata all'Evidenza: Misura quanto le affermazioni nella decisione sono allineate con le evidenze recuperate (non con la "verità" assoluta, ma con i dati forniti), utilizzando un euristica lessicale/semantica per evitare l'uso di altri LLM come giudici (che introdurrebbe non-determinismo).

Pass@k vs Passk

Il documento distingue due metriche di successo cruciali per la conformità:

Pass@k (Ottimista): Probabilità di ottenere almeno un successo in $k$ tentativi (usato nello sviluppo software).
Passk (Conservativo): Probabilità che tutti i $k$ $k$ tentativi abbiano successo.
- Conclusione: Per la conformità finanziaria, Passk è la metrica rilevante. Un revisore si aspetta che ogni decisione storica sia riproducibile, non solo alcune.

Setup Sperimentale

Dati: 4.705+ esecuzioni di agenti su 7 modelli (da 4 provider diversi: Anthropic, Google, OpenAI, modelli locali come Qwen/Granite).
Benchmark: 3 scenari finanziari con 50 casi ciascuno (totale 150 casi):
1. Compliance Triage: Classificazione di alert (escalate/dismiss/investigate).
2. Portfolio Constraint: Validazione di trade contro limiti di posizione e liquidità.
3. DataOps Exception: Risoluzione di errori nei pipeline di dati finanziari.
Condizioni: Esecuzioni a temperatura zero ( $T=0.0$ ) e test di stress (perturbazioni nei dati, ri-deploy, shock di mercato).

3. Risultati Chiave

A. Assenza di Correlazione tra Determinismo e Accuratezza

Il risultato più significativo è che non esiste una correlazione rilevabile tra il determinismo e l'accuratezza del compito.

Coefficiente di correlazione: $r = -0.11$ (CI 95%: $[-0.49, 0.31]$ , $p = 0.63$ ).
Implicazione: Un modello può essere perfettamente deterministico ma inaccurato, o accurato ma non deterministico. Misurare solo uno di questi parametri è insufficiente per la valutazione della conformità.

B. Profili Operativi per Categoria di Modello

Modelli Piccoli (Tier 1: 7-20B parametri, es. Qwen 2.5, Granite):
- Determinismo: Quasi perfetto (94-100%).
- Accuratezza: Bassa (20-42%).
- Meccanismo: Raggiungono il determinismo tramite un "pattern matching rigido" (es. scegliere sempre "investigate" per il 76% dei casi), ignorando le sfumature del contesto.
Modelli Frontier (Tier 3/Avanzati: Claude Opus, Gemini Pro):
- Determinismo: Moderato (50-96%).
- Accuratezza: Variabile e generalmente più alta (14-69%).
- Meccanismo: Esplorano percorsi di strumenti diversi per arrivare alla stessa decisione ("Stessa conclusione, ragionamento diverso"). Questo crea variabilità nella traiettoria (signature determinism basso) anche se la decisione finale è spesso stabile.
Nessun modello occupa il quadrante "Alto Determinismo + Alta Accuratezza".

C. Effetto della Struttura del Compito

La variabilità è più alta nei compiti semi-strutturati (es. DataOps) rispetto a quelli binari o altamente vincolati. La variabilità a livello di traiettoria (sequenza di tool) è la fonte principale di non riproducibilità, anche quando la decisione finale è coerente.

4. Contributi Principali

Framework DFAH: Definizione formale e implementazione open-source per misurare il determinismo e la fedeltà negli agenti tool-using.
Evidenza Empirica: Dimostrazione che determinismo e accuratezza sono metriche ortogonali, richiedendo una misurazione indipendente.
Valutazione su Larga Scala: Analisi di oltre 4.700 run su benchmark finanziari reali, rivelando profili di determinismo distinti per diverse architetture.
Guida Pratica: Raccomandazioni specifiche per la selezione dei modelli in base al caso d'uso (es. Tier 1 per la conformità, Frontier per l'analisi con supervisione umana).

5. Significato e Implicazioni Pratiche

Per il Settore Finanziario e la Conformità

Priorità al Determinismo: In contesti regolamentati, la riproducibilità è un prerequisito per la validazione dell'accuratezza. Un modello accurato ma non deterministico non è auditabile.
Architettura "Schema-First": L'uso di output strutturati (JSON schema) e modelli più piccoli (7-20B) è raccomandato per flussi di lavoro critici (AML, reporting), accettando una minore accuratezza grezza in cambio di una riproducibilità garantita.
Ruolo dei Modelli Frontier: I modelli più grandi sono adatti per flussi di lavoro di consulenza o ricerca dove l'accuratezza è prioritaria, ma richiedono supervisione umana (Human-in-the-Loop) per gestire la variabilità e garantire la coerenza.

Implicazioni per la Ricerca

Il lavoro sfida l'assunzione comune che i modelli più grandi siano intrinsecamente migliori per tutti gli aspetti. Dimostra che per compiti specifici che richiedono auditabilità, modelli più piccoli e ottimizzati possono offrire un compromesso migliore tra stabilità e capacità.

Conclusione

Il paper conclude che non esiste una soluzione "one-size-fits-all" per gli agenti LLM finanziari. L'adozione di un framework di valutazione multidimensionale (DFAH) è essenziale per distinguere tra modelli che sono semplicemente "bravi" e modelli che sono "affidabili e auditabili". Per le istituzioni finanziarie, la raccomandazione è di utilizzare modelli Tier 1 con architetture vincolate per la conformità rigorosa, riservando i modelli Frontier a scenari dove la supervisione umana può mitigare la variabilità intrinseca.