A Geometric Taxonomy of Hallucinations in LLMs

Each language version is independently generated for its own context, not a direct translation.

Ecco una spiegazione semplice e creativa del paper, pensata per chiunque, anche senza conoscenze tecniche.

Immagina che le Intelligenze Artificiali (come i chatbot che usiamo ogni giorno) siano come grandi biblioteche viventi. Queste biblioteche non "sanno" la verità come noi; invece, imparano a parlare guardando milioni di libri e imparando quali parole stanno bene insieme. A volte, però, questa biblioteca inizia a "sognare ad occhi aperti": inventa cose, confonde i fatti o ignora ciò che le diciamo.

Gli autori di questo studio, Javier Marín e il suo team, dicono: "Aspetta, non chiamiamo tutto questo 'allucinazione' con la stessa etichetta". È come se dicessimo che un'auto che si schianta contro un muro, una che si perde in un vicolo cieco e una che ruba un'auto sono tutte "incidenti". Sì, sono incidenti, ma hanno cause diverse e richiedono soluzioni diverse.

Hanno creato una mappa geometrica (una sorta di GPS mentale) per distinguere tre tipi di errori, chiamandoli Tipo I, Tipo II e Tipo III.

1. Il Tipo I: "Il Sognatore Distaccato" (Unfaithfulness)

Immagina di dare a un assistente un documento specifico e chiedergli: "Cosa dice questo foglio?".

L'errore: L'assistente legge il foglio, ma poi decide di ignorarlo completamente e risponde basandosi su ciò che sa già dalla sua memoria generale.
L'analogia: È come se chiedessi a un turista: "Dov'è la fontana qui vicino?" e lui, invece di guardare la mappa che gli hai dato, ti indicasse una fontana famosa di un'altra città perché l'ha vista in un film.
La soluzione: Hanno creato un "Radar di Attenzione" (chiamato SGI). Questo radar misura se la risposta dell'AI si sposta verso il documento che gli hai dato o se rimane ferma dove era prima. Se non si muove verso il documento, è un errore Tipo I.

2. Il Tipo II: "Il Inventore di Mondi" (Confabulation)

Qui l'AI non ignora i fatti, ma inventa cose che non esistono.

L'errore: L'AI crea un'azienda che non esiste, una legge mai scritta o un meccanismo medico immaginario. È fluido e convincente, ma è pura fantasia.
L'analogia: Immagina di chiedere a un architetto di disegnare una casa. Lui ne disegna una bellissima, ma con porte che si aprono verso il soffitto e finestre che guardano il cielo. La struttura sembra logica, ma viola le leggi della fisica (o in questo caso, della realtà).
La soluzione: Hanno creato un "Compasso della Realtà" (chiamato Γ). Questo strumento misura la direzione in cui l'AI si sposta quando risponde. Le risposte vere seguono una "strada" logica nel mondo delle idee. Le risposte inventate (Tipo II) prendono una strada laterale strana, un sentiero che non porta da nessuna parte. Il compasso riesce a vedere questa deviazione e dice: "Ehi, questa risposta sta andando fuori strada!". Funziona benissimo (quasi il 96% di successo) per queste invenzioni.

3. Il Tipo III: "Il Falso Dettagliato" (Factual Error)

Questo è il caso più difficile e insidioso.

L'errore: L'AI parla del concetto giusto, ma sbaglia un dettaglio. Esempio: "Napoleone è morto nel 1821" (vero) vs "Napoleone è morto nel 1824" (falso). Il concetto è corretto, solo il numero è sbagliato.
L'analogia: È come se un pittore dipingesse un ritratto perfetto di un amico, ma gli mettesse gli occhi di un colore sbagliato. L'immagine è quasi identica alla realtà, ma c'è un errore sottile.
La scoperta sorprendente: Gli autori hanno scoperto che questo errore è invisibile alla geometria. Perché? Perché le risposte giuste e quelle sbagliate (ma plausibili) vivono nello stesso "quartiere" della mappa mentale dell'AI. Non c'è una strada storta da vedere.
Il trucco: Hanno notato che alcuni test che sembravano funzionare per questo errore in realtà non stavano misurando la verità, ma lo stile. Le risposte false erano spesso scritte in modo più diretto e breve, mentre quelle vere erano più lunghe e caute. L'AI stava "indovinando" lo stile di scrittura, non la verità dei fatti. È come se un detective fosse bravo a capire chi ha scritto una lettera, ma non a capire se la lettera dice la verità.

In sintesi: Cosa ci insegnano?

Non tutti gli errori sono uguali: Ignorare il contesto (Tipo I) e inventare cose (Tipo II) sono problemi diversi che si possono risolvere con strumenti diversi.
La geometria è potente: Possiamo usare la "forma" delle parole nello spazio digitale per capire se un'AI sta mentendo o inventando.
C'è un limite: Se l'AI sbaglia un dettaglio ma rimane nel "mondo giusto" (Tipo III), i nostri attuali strumenti geometrici non possono vederlo. Non è un difetto del metodo, ma una caratteristica fondamentale di come queste macchine pensano: conoscono le parole, non la verità assoluta.

Il messaggio finale: Non possiamo aspettarci che l'AI sia perfetta in tutto. Dobbiamo capire che tipo di errore sta commettendo per poterlo correggere. Per le invenzioni, abbiamo un ottimo radar; per i piccoli errori di dettaglio, purtroppo, dobbiamo ancora affidarci al buon senso umano.

Each language version is independently generated for its own context, not a direct translation.

Ecco un riassunto tecnico dettagliato del paper "A Geometric Taxonomy of Hallucinations in LLMs" di Javier Marín, presentato in italiano.

1. Il Problema

Il termine "allucinazione" nei Large Language Models (LLM) è spesso usato in modo generico per descrivere testi fluenti ma fattualmente errati. Tuttavia, il paper sostiene che questo termine nasconde tre modalità di fallimento distinte con radici diverse e, soprattutto, con firme geometriche differenti nello spazio degli embedding (la sfera unitaria $S^{d-1}$ ).
La maggior parte dei benchmark attuali valuta le allucinazioni chiedendo ai modelli di "inventare" risposte, il che cattura la capacità di mentire su richiesta ma non la geometria degli errori fattuali reali. Inoltre, i metodi di rilevamento esistenti richiedono spesso accesso interno al modello (white-box) o molteplici generazioni, rendendoli poco pratici per le deployment via API.

2. Metodologia e Tassonomia Geometrica

L'autore propone una tassonomia basata sulla geometria degli embedding, distinguendo tre tipi di allucinazione:

Tipo I (Infedeltà/Unfaithfulness): Il modello ignora il contesto fornito e genera basandosi solo sulla memoria parametrica. Geometricamente, la risposta rimane angolarmente vicina alla query e non si sposta verso il contesto.
Tipo II (Confabulazione): Il modello inventa entità, meccanismi o concetti inesistenti. La risposta si sposta in direzioni geometriche anomale, allontanandosi dal "manifold" (varietà) delle risposte plausibili.
Tipo III (Errore Fattuale): Il modello fornisce dettagli errati all'interno di un quadro concettuale corretto. Geometricamente, la risposta occupa la stessa regione dello spazio degli embedding della risposta corretta, rendendola indistinguibile tramite pura geometria angolare (poiché gli embedding codificano la co-occorrenza, non le condizioni di verità).

Per rilevare i primi due tipi, vengono introdotti due indici basati sulla geometria della sfera unitaria:

Semantic Grounding Index (SGI) - per il Tipo I:
- Misura il rapporto tra la distanza geodetica della risposta dalla query ( $\theta(r, q)$ ) e la distanza della risposta dal contesto ( $\theta(r, c)$ ).
- Formula: $SGI = \theta(r, q) / \theta(r, c)$ .
- Se $SGI > 1$ , la risposta è ancorata al contesto (si è spostata verso il contesto). Se $SGI \le 1$ , indica infedeltà (Tipo I).
Directional Grounding Index ( $\Gamma$ ) - per il Tipo II:
- Misura la coerenza della direzione di spostamento della risposta rispetto a una direzione di ancoraggio appresa da un set di riferimento di coppie query-risposta verificate.
- Calcola il prodotto scalare tra il vettore di spostamento normalizzato della risposta e la direzione media di ancoraggio ( $\hat{\mu}$ ).
- Valori alti indicano allineamento con la direzione plausibile; valori bassi o negativi indicano una confabulazione (Tipo II).

3. Contributi Chiave

Tassonomia Operativa: Definisce formalmente le allucinazioni non per il contenuto semantico, ma per le loro firme geometriche nello spazio vettoriale.
Metodi di Rilevamento Senza White-Box: Propone SGI e $\Gamma$ , che richiedono solo un singolo embedding (chiamata API) senza accesso ai pesi del modello o a generazioni multiple.
Analisi dei Limiti Teorici: Dimostra che gli errori fattuali di Tipo III sono geometricamente invisibili per costruzione, sfidando l'idea che esistano metodi geometrici universali per tutte le allucinazioni.
Validazione Estensiva: Confronta i nuovi metodi con baseline NLI (Natural Language Inference) su benchmark umani e generati da LLM.

4. Risultati Sperimentali

Rilevamento del Tipo I (SGI)

Su HaluEval QA, l'SGI ha dimostrato una forte capacità di distinguere le risposte ancorate da quelle non ancorate, con un AUROC tra 0.776 e 0.824 a seconda dell'architettura di embedding. Le risposte ancorate hanno un SGI medio > 1, mentre quelle infedeli < 1.

Rilevamento del Tipo II ( $\Gamma$ )

Confabulazioni Umane: Su un dataset di 142 confabulazioni umane (finanza, medicina, legge), $\Gamma$ ha raggiunto un AUROC di 0.958, superando significativamente la baseline NLI (AUROC 0.611).
Degrado Cross-Dominio: Il metodo mostra un degrado minimo (3.8%) quando testato su confabulazioni umane in domini diversi, confermando che la "geometria della menzogna" è agnostica al dominio.
Benchmark Esterni:
- Su ExpertQA (dominio esperto), $\Gamma$ supera la baseline NLI di un margine significativo ( $\Delta = 0.243$ ), raggiungendo un AUROC di 0.695 contro 0.452 della baseline (che opera al livello del caso).
- Su WikiBio, il metodo fallisce (AUROC 0.581), suggerendo che le annotazioni di quel dataset confondono errori di Tipo II e Tipo III.
Trasferibilità: Esiste una simmetria di trasferimento (AUROC 0.822) tra domini diversi (es. FELM e ExpertQA) per le confabulazioni genuine, ma non per i benchmark generati da LLM (dove le direzioni di ancoraggio sono quasi ortogonali).

Il Confine del Tipo III (TruthfulQA)

L'analisi su TruthfulQA rivela un paradosso apparente: un classificatore lineare (LR) ottiene un AUROC di 0.731, suggerendo un rilevamento possibile. Tuttavia, l'analisi geometrica dimostra che questo segnale è un artefatto stilistico:

Le risposte false sono geometricamente più vicine alla query rispetto a quelle vere (cosine similarity AUROC = 0.365, invertito rispetto all'atteso per errori fattuali).
Le risposte vere sono più lunghe e caute, accumulando contenuto semantico ortogonale, mentre le false sono brevi e dichiarative.
Una volta rimossa l'influenza stilistica, $\Gamma$ scende a un AUROC di 0.535 (non significativo), confermando che gli errori fattuali di Tipo III sono geometricamente invisibili.

5. Significato e Conclusioni

Il paper stabilisce che la rilevazione geometrica delle allucinazioni non è un problema puramente ingegneristico, ma ha limiti teorici fondamentali:

Successo: È possibile rilevare l'infedeltà al contesto (Tipo I) e la confabulazione di concetti inesistenti (Tipo II) misurando lo spostamento angolare nello spazio degli embedding.
Fallimento Teorico: Gli errori fattuali all'interno di un quadro concettuale corretto (Tipo III) non lasciano tracce geometriche distinguibili perché gli embedding catturano la co-occorrenza statistica, non la verità fattuale.
Implicazione Pratica: I metodi di rilevamento attuali (inclusi quelli basati su NLI) spesso confondono errori di stile o di Tipo III con confabulazioni vere. La tassonomia proposta permette di prevedere quali dataset sono rilevabili geometricamente e quali no, guidando lo sviluppo di strumenti di valutazione più realistici.

In sintesi, il lavoro offre un framework rigoroso per distinguere tra ciò che può essere rilevato geometricamente (spostamento dal manifold plausibile) e ciò che è intrinsecamente nascosto alla geometria degli embedding (errori fattuali sottili).

A Geometric Taxonomy of Hallucinations in LLMs

1. Il Tipo I: "Il Sognatore Distaccato" (Unfaithfulness)

2. Il Tipo II: "Il Inventore di Mondi" (Confabulation)

3. Il Tipo III: "Il Falso Dettagliato" (Factual Error)

In sintesi: Cosa ci insegnano?

1. Il Problema

2. Metodologia e Tassonomia Geometrica

3. Contributi Chiave

4. Risultati Sperimentali

Rilevamento del Tipo I (SGI)

Rilevamento del Tipo II (Γ\GammaΓ)

Il Confine del Tipo III (TruthfulQA)

5. Significato e Conclusioni

Articoli simili

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

ConFu: Contemplate the Future for Better Speculative Sampling

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance

Rilevamento del Tipo II ( $\Gamma$ )