Immagina di avere un robot molto intelligente e sicuro di sé che risponde alle domande. A volte, questo robot inventa le cose. Chiamiamo questi errori "allucinazioni".

Per molto tempo, i ricercatori hanno cercato di classificare questi errori in base a cosa fosse sbagliato (ad esempio, "Ha sbagliato i fatti" o "Ha ragionato male"). Ma gli autori di questo articolo, Mohit Singh Chauhan, dicono che questo è come classificare gli incidenti stradali in base a "si è schiantato contro un albero" rispetto a "si è schiantato contro un muro". Ti dice cosa è successo, ma non ti dice come intercettare il conducente prima dello schianto.

Questo articolo introduce un nuovo modo per classificare gli errori chiamato DECK. Invece di guardare il contenuto dell'errore, guarda il segnale che l'errore lascia dietro di sé. Si chiede: "Quale tipo di rilevatore avrebbe individuato questo?".

I due rilevatori (Gli assi)

Per costruire il loro sistema, gli autori utilizzano due semplici "sensori" per osservare il robot:

Il Sensore di Coerenza (Il test della "Ripetizione"): Se fai al robot la stessa domanda 10 volte, ti dà la stessa risposta ogni volta?
- Alta Coerenza: Ripete la stessa risposta.
- Bassa Coerenza: Dà una risposta diversa ogni volta.
Il Sensore di Confidenza (Il test della "Sicurezza"): Quanto sembra sicuro il robot? Dice la risposta con il 100% di certezza, o sembra esitante?
- Alta Confidenza: "Sono sicuro al 100%."
- Bassa Confidenza: "Penso che forse..."

La Tassonomia DECK (I quattro riquadri)

Incrociando questi due sensori, gli autori creano una griglia 2x2 con quattro tipi di errori. Hanno dato loro nomi accattivanti:

1. Drift (Il "Deriva Confusa")

Com'è fatto: Il robot è sicuro di sé ma dà una risposta errata diversa ogni volta che glielo chiedi.
L'analogia: Immagina una guida turistica che è molto rumorosa e sicura di sé, ma ogni volta che le chiedi "Dove si trova il museo?", indica una direzione diversa. È sicura di sé, ma sta andando alla deriva.
Chi lo scopre? Un rilevatore Black-Box (uno che controlla se le risposte corrispondono tra loro) scoprirà questo perché le risposte non concordano.

2. Entrenched (Il "Mulo Testardo")

Com'è fatto: Il robot è sicuro di sé e dà la stessa identica risposta errata ogni singola volta.
L'analogia: Questo è come uno studente che ha memorizzato la chiave di risposta sbagliata. Se gli chiedi "Quanto fa 2+2?", dirà con sicurezza "5" ogni singola volta, non importa quante volte glielo chiedi. È bloccato (entrenched) in un'idea errata.
Chi lo scopre? Questo è il più difficile. I rilevatori di coerenza pensano che sia corretto perché è coerente! Solo un Giudice (una seconda IA indipendente che conosce i fatti) può scovare questo errore.

3. Confabulation (Il "Fabulatore Esitante")

Com'è fatto: Il robot è insicuro e dà risposte errate diverse ogni volta.
L'analogia: Questo è il robot che ammette: "Non lo so, ma ecco un tentativo... anzi, forse questo altro tentativo?". Sta inventando le cose, ma sa di stare tirando a indovinare.
Chi lo scopre? Tutti scoprono questo. È a bassa confidenza e incoerente, quindi tutti i rilevatori lo segnalano come "rischioso".

4. Knotted (Il "Nodo Intrecciato")

Com'è fatto: Il robot è insicuro (bassa confidenza) ma dà la stessa identica risposta errata ogni volta.
L'analogia: Immagina un robot che ha il terrore di sbagliare, quindi continua a dire: "Non sono sicuro, ma penso che sia probabilmente X", e dice "probabilmente X" ogni singola volta. È "annodato" (knotted) in un modello ripetitivo ma errato e sicuro.
Chi lo scopre? Un rilevatore White-Box (uno che guarda la matematica interna del robot) scoprirà questo perché la matematica interna del robot mostra che non è affatto sicuro, anche se la risposta è ripetuta.

La Grande Scoperta: Il "Punto Cieco Universale"

Gli autori hanno scoperto una situazione spaventosa in cui tutti i rilevatori falliscono contemporaneamente.

Hanno testato i robot su domande che nessuno può rispondere (come "Qual è la capitale di un paese che non esiste ancora?").

I robot non hanno detto "Non lo so".
Inveve, hanno inventato con sicurezza una risposta falsa e l'hanno ripetuta ogni volta.

Questo ha creato una trappola perfetta:

Il Sensore di Coerenza ha visto che ripetevano la risposta, quindi ha pensato: "Ottimo, è coerente!"
Il Sensore di Confidenza ha visto che sembravano sicuri, quindi ha pensato: "Ottimo, è sicuro!"
Il Giudice è fallito perché anche il Giudice non conosceva la risposta (dato che il paese non esiste).

Gli autori chiamano questo il "Punto Cieco Universale". Quando un robot inventa con sicurezza una bugia su qualcosa di cui non sa nulla, nessun rilevatore attuale può scovarlo.

La Soluzione

L'articolo suggerisce che invece di cercare di costruire un rilevatore migliore per scovare queste bugie specifiche, dovremmo costruire una "Busta di Rifiuto" (Refusal Envelope). È come un buttafuori all'ingresso di un club. Se la domanda riguarda qualcosa che il robot non dovrebbe sapere (un vuoto di conoscenza), il buttafuori dovrebbe impedire al robot di rispondere e dire: "Non posso rispondere a questa domanda", prima ancora che il robot provi a inventare qualcosa.

Riassunto

L'articolo non dice solo "L'IA commette errori". Dice: "L'IA commette errori in quattro schemi specifici. Alcuni schemi sono facili da scovare, altri sono difficili, e un particolare schema (bugie sicure e ripetute su cose sconosciute) è attualmente impossibile da scovare con gli strumenti standard. Abbiamo bisogno di impedire al robot di rispondere a quelle domande fin dall'inizio".

Sintesi Tecnica: DECK – Una tassonomia della Consistenza × Fiducia delle allucinazioni degli LLM

Definizione del Problema

Le tassonomie esistenti per le allucinazioni dei Large Language Model (LLM) classificano gli errori in base alla natura del fallimento dell'output (ad es., misconception memorizzate, fallimenti del ragionamento, fabricazioni fluide). Sebbene utili per la diagnosi, questi framework non affrontano una domanda critica di deployment: quale scorer di quantificazione dell'incertezza (UQ) avrebbe rilevato un errore specifico?

La letteratura attuale offre tre famiglie primarie di scorer UQ a livello di output:

Black-box (BB): Controlli di consistenza inter-campione (ad es., entropia semantica, self-check).
White-box (WB): Misure di log-probabilità a livello di token.
LLM-as-a-Judge (J): Revisione fattuale da parte di un modello separato.

Tuttavia, la relazione tra tipi specifici di allucinazione e le firme di rilevabilità che queste famiglie di scorer leggono rimane implicita. Senza una tassonomia fondata sull'asse della rilevabilità, la selezione di uno scorer per un nuovo dominio rimane un tentativo euristico. Inoltre, manca una comprensione meccanicistica del perché alcuni ensemble superino altri e dove possano esistere modalità di fallimento universali.

Metodologia

La Tassonomia DECK

Il paper propone DECK, una tassonomia complementare che classifica le allucinazioni in base alla loro firma di rilevabilità piuttosto che al loro contenuto semantico. Essa partiziona le allucinazioni in una griglia $2 \times 2$ basata su due assi osservabili:

Consistenza Inter-campione: Il modello produce la stessa risposta errata attraverso molteplici campioni stocastici indipendenti?
Fiducia a Livello di Token: Il modello assegna un'alta probabilità ai token della sua risposta generata?

Ciò produce quattro regimi comportamentali (Tabella 1):

Drift (D - Deriva): Bassa Consistenza, Alta Fiducia. Il modello genera risposte errate ma sicure e diverse per ogni campione.
Entrenched (E - Radicata): Alta Consistenza, Alta Fiducia. Il modello si blocca su una misconception memorizzata o un errore di pre-training condiviso e lo riproduce senza varianza.
Confabulation (C - Confabulazione): Bassa Consistenza, Bassa Fiducia. Il modello manca realmente di conoscenza, producendo risposte errate e diverse con bassa fiducia.
Knotted (K - Annodata): Alta Consistenza, Bassa Fiducia. Il modello ripete costantemente la stessa risposta cautelativa o errata, ma assegna una bassa probabilità ai token.

Operazionalizzazione: L'appartenenza alle celle è determinata applicando le soglie ottimali di Youden's J agli score dei BB (consistenza) e WB (fiducia) su base per-condizione.

Setup Sperimentale

Modelli: Llama-3-8B (open-weights), GPT-4o (closed-weights) e Gemini-2.5-Flash (closed-weights).
Dataset: TriviaQA (fattuale), HaluEval (allucinazioni avversarie), SelfAware (domande impossibili/lacune di conoscenza) e PopQA (centrato su entità, stratificato per popolarità).
Scorer: 15 configurazioni attraverso le tre famiglie (BB, WB, Judge), selezionate in base al più alto AUROC per split per evitare bias.
Valutazione:
- AUROC: Performance per-scorer.
- Complementarietà ( $C_H$ ): La frazione di campioni allucinati in cui due scorer sono in disaccordo.
- Validazione Esterna: Verifica se le etichette esterne (ad es., popolarità dell'entità, natura avversaria) ricadono nelle celle DECK predette.

Contributi Chiave

La Tassonomia DECK: Un passaggio dalla classificazione di cosa è sbagliato a come un errore viene rilevato. Essa mappa esplicitamente i quattro regimi comportamentali ai punti di forza e ai punti ciechi delle tre famiglie di scorer:
- Drift: Rilevabile da BB e Judge.
- Entrenched: Rilevabile solo da un Judge indipendente (cieco a BB e WB).
- Confabulation: Rilevabile da tutte e tre le famiglie.
- Knotted: Rilevabile da WB e Judge.
Identificazione di un Punto Cieco Universale: Il paper identifica un regime in cui tutte le famiglie di UQ a livello di output collassano simultaneamente. Sui dati di "knowledge-gap" (ad es., domande impossibili di SelfAware) dove il generatore emette fabricazioni sicure e ripetibili, il BB vede un alto accordo, il WB vede un'alta probabilità di token e i Judge condividono lo stesso vuoto di conoscenza. In questo regime, l'UQ a livello di output fallisce per costruzione.
Validazione Meccanicistica dell'Ensemble: Il paper fornisce una spiegazione strutturale del perché l'ensemble funzioni. Dimostra che il disaccordo tra gli scorer non è casuale ma concentrato in specifiche quadrature DECK (ad es., BB manca Entrenched/Knotted; WB manca Drift/Entrenched), validando la complementarità delle famiglie.

Risultati

Validazione della Tassonomia

Analisi del Disaccordo: Attraverso 12 combinazioni modello-dataset, i pattern di disaccordo tra coppie di scorer si allineano con le previsioni DECK. Ad esempio, i disaccordi BB-Judge si concentrano nelle celle Entrenched e Knotted (i punti ciechi di BB), mentre i disaccordi WB-Judge si concentrano in Drift e Confabulation.
Validazione del Segnale Esterno:
- SelfAware (Impossibili): I campioni ricadono prevalentemente nella cella Entrenched (62–71% tra i vari modelli), confermando l'ipotesi che le allucinazioni da lacuna di conoscenza si manifestino come errori sicuri e ripetibili.
- PopQA (Entità Rare): I campioni ricadono prevalentemente in Confabulation, coerentemente con la mancanza di conoscenza specifica del modello.
- PopQA (Entità Popolari): I campioni ricadono in Entrenched, riflettendo misconception memorizzate.
- HaluEval: Mostra distribuzioni dipendenti dal modello, spesso dividendosi tra Entrenched e Knotted/Confabulation.

Il Punto Cieco Universale

Sul dataset SelfAware (lacune di conoscenza), tutte e tre le famiglie di scorer collassarono a una performance vicina al caso (AUROC $\approx$ 0.5 o inferiore).

GPT-4o: 13 di 15 scorer sono scesi sotto lo 0.5 AUROC; $P(\text{True})$ si è invertito a 0.331.
Probe dello Stato Interno: Una sonda lineare sull'ultimo strato di stati nascosti di Llama-3-8B è anch'essa collassata al caso (AUROC 0.44) su SelfAware, suggerendo che il modo di fallimento persista a livello di attivazione, non solo a livello di output.
Conclusione: Nessun ensemble di scorer a livello di output può rilevare questi errori; l'unica risposta ingegneristica è un inviluppo di astensione per instradare tali input verso il rifiuto o il recuperimento prima della valutazione.

Effetti della Scala del Modello

TriviaQA: Scalando da Llama-3-8B a GPT-4o, il disaccordo residuo si è spostato da Confabulation/Knotted verso Drift. I modelli più grandi hanno prodotto allucinazioni più sicure e ripetibili che erano rilevabili dai Judge ma ignorate dai controlli di consistenza BB.
PopQA: La scalabilità ha aumentato significativamente la complementarità tra i Judge e le altre famiglie, in particolare per le query centrate sulle entità.

Significato e Rivendicazioni

Il paper rivendica che DECK fornisca un account meccanicistico dell'incertezza nei LLM, andando oltre l'empirismo degli ensemble per arrivare a una comprensione strutturale del perché certi scorer siano complementari ad altri.

Utilità Diagnostica: DECK permette ai professionisti di prevedere quale famiglia di scorer fallirà per un determinato tipo di allucinazione (ad es., aspettarsi che BB fallisca sugli errori Entrenched).
Limitazione dell'UQ a Livello di Output: Il paper afferma con modestia ma fermezza che l'UQ a livello di output possiede un punto cieco fondamentale e universale sulle input di tipo "knowledge-gap", dove il modello è sicuramente errato. Questa è una proprietà della coppia (generatore, task), non di un algoritmo specifico.
Evidenza dello Stato Interno: Il risultato preliminare secondo cui una semplice sonda lineare sugli stati nascosti fallisce anche su questi input suggerisce che il fallimento sia profondo nello spazio di attivazione del modello, sebbene gli autori notino che metodi più ricchi dello stato interno (ad es., teste di UQ, stimatori informazione-teorici) rimangono da testare.

Il lavoro conclude che, sebbene l'ensemble migliori le performance in molti regimi, non può superare il punto cieco universale delle fabricazioni sicure e ripetibili sugli input impossibili. La risposta ingegneristica appropriata non è un ensemble più complesso, ma un meccanismo di sistema di astensione.

DECK: A Consistency x Confidence Taxonomy of LLM Hallucinations