VeriTrail: Closed-Domain Hallucination Detection with Traceability

Each language version is independently generated for its own context, not a direct translation.

Immagina che le Intelligenze Artificiali (come ChatGPT) siano dei cucinatori eccezionali. Quando gli chiedi di preparare una ricetta basandoti su un libro di cucina specifico (il "documento sorgente"), dovrebbero attenersi rigorosamente a quel libro.

Tuttavia, a volte questi cuochi "allucinano": inventano ingredienti che non esistono nel libro o aggiungono passaggi che non sono mai stati scritti. Questo è il problema della "allucinazione in dominio chiuso".

Fino a poco tempo fa, se il piatto finale era sbagliato, potevamo solo dire: "Ehi, questo non è quello che c'è scritto nel libro!". Ma non sapevamo dove esattamente il cuoco avesse sbagliato: aveva letto male il primo capitolo? Ha sbagliato a mescolare gli ingredienti a metà cottura? O ha inventato tutto alla fine?

VeriTrail è il nuovo ispettore di cucina che risolve proprio questo problema.

1. Il Problema: La Catena di Montaggio

Oggi, per compiti complessi (come riassumere un intero libro o analizzare centinaia di articoli di notizie), le IA non lavorano in un solo colpo. Usano una catena di montaggio con molti passaggi (chiamati Multi-Step Processes).

Passaggio 1: L'IA legge un capitolo e ne fa un riassunto.
Passaggio 2: Legge il riassunto del primo capitolo e quello del secondo e li unisce.
Passaggio 3: Unisce tutti i riassunti intermedi per creare il testo finale.

Il problema è che se l'IA sbaglia al Passaggio 2, quell'errore si propaga fino alla fine. Se controlliamo solo il piatto finale, vediamo che è sbagliato, ma non sappiamo se l'errore è nato al primo o al terzo passaggio. È come se un'auto si rompesse in autostrada: se guardi solo l'auto ferma, non sai se il problema era il motore, le gomme o il guidatore.

2. La Soluzione: VeriTrail (La "Scia di Verità")

VeriTrail è un metodo che non si limita a dire "Sì/No" se il testo è corretto. Costruisce una scia di prove (un trail) che ti permette di seguire il percorso dell'IA passo dopo passo, tornando indietro fino alla fonte originale.

Ecco come funziona, con un'analogia da investigatore privato:

L'Indagine a Ritroso: Invece di leggere solo la conclusione, VeriTrail prende ogni affermazione del testo finale e si chiede: "Da dove viene questa informazione?".
La Catena di Custodia: Se l'IA dice "Mario ha comprato due case", VeriTrail controlla il passaggio precedente. "Ok, ma nel riassunto precedente c'era scritto che Mario ha comprato due case, o ne ha comprata solo una e l'IA ha aggiunto la seconda per sbaglio?".
Il Rilevatore di Errori: Se l'IA inventa qualcosa, VeriTrail ti dice: "Attenzione! L'errore è nato esattamente al Passaggio 3 della catena, quando l'IA ha unito i due riassunti".

3. I Due Nuovi "Laboratori" (Dataset)

Per testare il loro nuovo investigatore, i ricercatori di Microsoft hanno creato due nuovi "laboratori" di prova (dataset) che prima non esistevano:

FABLES+: Come se avessimo preso 22 libri interi, li avessimo fatti riassumere dall'IA passo dopo passo, e avessimo annotato ogni singolo passaggio intermedio.
DiverseSumm+: Come se avessimo preso 1.500 articoli di notizie su un argomento (es. la guerra in Ucraina), li avessimo analizzati con una rete complessa di IA, e avessimo tracciato ogni singolo passaggio.

Questi dataset sono fondamentali perché contengono tutti i passaggi intermedi, non solo il risultato finale. È come avere la registrazione di ogni singola conversazione in una riunione, non solo il verbale finale.

4. Perché è meglio degli altri?

Gli altri metodi di controllo sono come un controllore che guarda solo il biglietto finale: ti dice se il viaggio è stato valido, ma non ti dice se il treno ha fatto una deviazione non autorizzata a metà strada.

VeriTrail è come un controllore che ha accesso alla cabina di pilotaggio:

Tracciabilità: Se il testo è corretto, ti mostra esattamente quali frasi del libro originale hanno portato a quella conclusione (Provenienza).
Localizzazione dell'errore: Se il testo è sbagliato, ti dice in quale passaggio della catena l'IA ha iniziato a "sognare" (Localizzazione dell'errore).

5. Il Risultato

Nelle prove, VeriTrail ha battuto tutti i metodi precedenti. È più preciso nel trovare le bugie e, cosa incredibile, lo fa spendendo meno risorse di quanto si potrebbe pensare, perché è intelligente: se capisce che un passaggio è sbagliato, smette di perdere tempo a controllare tutto il resto e ti dice subito: "L'errore è qui!".

In Sintesi

VeriTrail è come dare agli utenti di un'IA una lente d'ingrandimento magica. Non ti dice solo se la storia è vera o falsa; ti mostra il filmato intero di come la storia è stata costruita, permettendoti di vedere esattamente dove l'IA ha iniziato a inventare. Questo è fondamentale per medici, avvocati o giornalisti che non possono permettersi errori, perché devono sapere non solo cosa è sbagliato, ma perché e dove è nato l'errore.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema: Allucinazioni in Domini Chiusi e Processi Multi-Step

I modelli linguistici (LM), anche quando istruiti ad attenersi rigorosamente a una fonte, tendono a generare contenuti non supportati, un fenomeno noto come "allucinazione in dominio chiuso" (o valutazione della fedeltà).
Il paper evidenzia una distinzione cruciale tra due tipi di processi generativi:

SGS (Single Generative Step): Un singolo passaggio di generazione (es. RAG standard).
MGS (Multiple Generative Steps): Processi complessi dove gli output intermedi di un LM diventano input per passaggi successivi (es. riassunti gerarchici, GraphRAG).

Sebbene i processi MGS riducano il rischio di perdita di informazioni in documenti molto lunghi, sono più suscettibili alle allucinazioni perché ogni passaggio introduce un'opportunità di errore che può propagarsi. La sfida principale identificata dagli autori è che rilevare un'allucinazione nell'output finale non è sufficiente. Per i processi MGS, è fondamentale la tracciabilità: capire dove è stato introdotto l'errore (localizzazione dell'errore) e come l'output è stato derivato dalla fonte (provenienza), passando attraverso gli output intermedi. I metodi esistenti valutano spesso solo l'output finale in isolamento, ignorando la struttura del processo generativo.

2. Metodologia: VeriTrail

Gli autori propongono VeriTrail, il primo metodo di rilevamento delle allucinazioni in dominio chiuso progettato specificamente per fornire tracciabilità sia per processi SGS che MGS.

Rappresentazione Concettuale

Il processo generativo è modellato come un Grafo Aciclico Diretto (DAG) $G = (V, E)$ :

Nodi ( $V$ ): Rappresentano span di testo (fonti originali o output intermedi).
Arch ( $E$ ): Indicano le relazioni di input-output tra i passaggi.
Nodi Radice: Span di testo originali (fonti).
Nodo Terminale: L'output finale.
Nodi Intermedi: Output generati nei passaggi intermedi.

Il Processo di Verifica

VeriTrail opera decomponendo l'output finale in un insieme di asserzioni fattuali ( $C$ ) e verificandole iterativamente attraverso il DAG in senso inverso (dal nodo terminale verso le radici). Il processo si articola in quattro fasi principali per ogni asserzione:

Decomposizione in Sott-asserzioni: L'asserzione complessa viene spezzata in parti più semplici e verificabili indipendentemente.
Selezione delle Prove (Evidence Selection): Un LM analizza i nodi sorgente del passaggio corrente per identificare le frasi che supportano o confutano l'asserzione. Vengono selezionati solo ID di frasi specifici per evitare allucinazioni nel processo di selezione stessa.
Generazione del Verdetto: Basandosi sulle prove selezionate, un LM assegna uno di tre verdetto:
- Fully Supported (Completamente supportato).
- Not Fully Supported (Non completamente supportato).
- Inconclusive (Inconcludente).
Selezione dei Nodi Candidati e Terminazione:
- Se il verdetto è "Supportato", il sistema verifica i nodi sorgente delle frasi che hanno fornito la prova.
- Se il verdetto è "Non Supportato", il sistema verifica i nodi sorgente di tutti i nodi verificati in quell'iterazione per evitare falsi positivi (mancata individuazione di prove di supporto).
- Il processo termina se si raggiungono le radici, se non ci sono più nodi da verificare, o se si accumulano $q$ verdetto consecutivi di "Non Supportato".

Output e Tracciabilità

Per ogni asserzione, VeriTrail restituisce:

Il verdetto finale e il ragionamento.
Una scia di prove (Evidence Trail): un percorso dai nodi intermedi fino alle fonti originali, documentando esattamente quali frasi hanno supportato la conclusione.
Localizzazione dell'Errore: Se un'asserzione è "Non Supportata", il sistema identifica lo "stadio di errore" (il livello del DAG dove l'informazione non supportata è stata probabilmente introdotta), permettendo di capire quale passaggio del processo MGS ha fallito.

3. Contributi Chiave

Framework Unificato: Una rappresentazione concettuale dei processi generativi basata su DAG per la valutazione della fedeltà.
VeriTrail: Un nuovo metodo che supera i limiti delle valutazioni "a scatola chiusa", fornendo tracciabilità e localizzazione degli errori per processi complessi.
Nuovi Dataset (FABLES+ e DiverseSumm+):
- FABLES+: Basato su riassunti di libri (processo gerarchico), include tutti gli output intermedi e annotazioni umane sulla fedeltà.
- DiverseSumm+: Basato su storie di notizie e GraphRAG, con domande complesse e risposte generate su grandi collezioni di documenti.
- Questi sono i primi dataset a includere tutti gli output intermedi necessari per ricostruire il DAG e le annotazioni umane sugli output finali.

4. Risultati Sperimentali

Gli autori hanno valutato VeriTrail su FABLES+ e DiverseSumm+ confrontandolo con baseline di stato dell'arte:

Metodi NLI: (es. AlignScore, INFUSE, Llama-3.1-Bespoke-MiniCheck-7B).
RAG: Retrieval-Augmented Generation con embedding.
Verifica Diretta: Uso di LM a contesto lungo (Gemini 1.5 Pro, GPT-4.1 Mini) su tutto il documento.

Risultati Principali:

Prestazioni Superiori: VeriTrail ha superato tutte le baseline sia in termini di Macro F1 che di Balanced Accuracy su entrambi i dataset. Ad esempio, su FABLES+, VeriTrail ( $q=3$ ) ha raggiunto un Macro F1 del 84.5% contro il 69.6% del miglior baseline RAG.
Costo-Efficacia: Nonostante la complessità computazionale maggiore (verifica di nodi intermedi), VeriTrail rimane competitivo in termini di costo per asserzione grazie a strategie di terminazione anticipata e verifica selettiva.
Analisi degli Errori: L'analisi ha mostrato che le allucinazioni nei processi MGS tendono a verificarsi in stadi specifici (es. nei passaggi intermedi di GraphRAG o nei riassunti gerarchici), confermando l'utilità della localizzazione dell'errore.

5. Significato e Impatto

Il lavoro di VeriTrail è significativo perché:

Sposta il paradigma: Passa da una semplice valutazione binaria (vero/falso) a una valutazione tracciabile e spiegabile, essenziale per applicazioni critiche (medicina, legale, customer service).
Affronta la complessità MGS: Fornisce gli strumenti per gestire la crescente complessità dei sistemi LLM che utilizzano catene di ragionamento e aggregazione multi-step.
Abilita il debugging: Permette agli sviluppatori di identificare esattamente quale passaggio di un processo generativo complesso sta introducendo errori, facilitando il miglioramento dei sistemi.
Risorsa Open Source: La pubblicazione di dataset ricchi di annotazioni sugli output intermedi (FABLES+ e DiverseSumm+) colma un vuoto nella ricerca, permettendo future ricerche sulla tracciabilità e sulla robustezza dei processi MGS.

In sintesi, VeriTrail non si limita a dire se un'LM ha allucinato, ma spiega dove e come è successo, offrendo trasparenza e fiducia nei sistemi di generazione di contenuti basati su documenti.