A Geometric Taxonomy of Hallucinations in LLMs

Questo lavoro propone una tassonomia geometrica delle allucinazioni nei LLM, classificandole in tre tipi distinti e introducendo gli indici SGI e DGI per rilevarle, mentre evidenzia come le limitazioni metodologiche nei benchmark esistenti possano mascherare la vera natura degli errori fattuali.

Javier Marín

Pubblicato Tue, 10 Ma
📖 5 min di lettura🧠 Approfondimento

Each language version is independently generated for its own context, not a direct translation.

Ecco una spiegazione semplice e creativa del paper, pensata per chiunque, anche senza conoscenze tecniche.

Immagina che le Intelligenze Artificiali (come i chatbot che usiamo ogni giorno) siano come grandi biblioteche viventi. Queste biblioteche non "sanno" la verità come noi; invece, imparano a parlare guardando milioni di libri e imparando quali parole stanno bene insieme. A volte, però, questa biblioteca inizia a "sognare ad occhi aperti": inventa cose, confonde i fatti o ignora ciò che le diciamo.

Gli autori di questo studio, Javier Marín e il suo team, dicono: "Aspetta, non chiamiamo tutto questo 'allucinazione' con la stessa etichetta". È come se dicessimo che un'auto che si schianta contro un muro, una che si perde in un vicolo cieco e una che ruba un'auto sono tutte "incidenti". Sì, sono incidenti, ma hanno cause diverse e richiedono soluzioni diverse.

Hanno creato una mappa geometrica (una sorta di GPS mentale) per distinguere tre tipi di errori, chiamandoli Tipo I, Tipo II e Tipo III.

1. Il Tipo I: "Il Sognatore Distaccato" (Unfaithfulness)

Immagina di dare a un assistente un documento specifico e chiedergli: "Cosa dice questo foglio?".

  • L'errore: L'assistente legge il foglio, ma poi decide di ignorarlo completamente e risponde basandosi su ciò che sa già dalla sua memoria generale.
  • L'analogia: È come se chiedessi a un turista: "Dov'è la fontana qui vicino?" e lui, invece di guardare la mappa che gli hai dato, ti indicasse una fontana famosa di un'altra città perché l'ha vista in un film.
  • La soluzione: Hanno creato un "Radar di Attenzione" (chiamato SGI). Questo radar misura se la risposta dell'AI si sposta verso il documento che gli hai dato o se rimane ferma dove era prima. Se non si muove verso il documento, è un errore Tipo I.

2. Il Tipo II: "Il Inventore di Mondi" (Confabulation)

Qui l'AI non ignora i fatti, ma inventa cose che non esistono.

  • L'errore: L'AI crea un'azienda che non esiste, una legge mai scritta o un meccanismo medico immaginario. È fluido e convincente, ma è pura fantasia.
  • L'analogia: Immagina di chiedere a un architetto di disegnare una casa. Lui ne disegna una bellissima, ma con porte che si aprono verso il soffitto e finestre che guardano il cielo. La struttura sembra logica, ma viola le leggi della fisica (o in questo caso, della realtà).
  • La soluzione: Hanno creato un "Compasso della Realtà" (chiamato Γ). Questo strumento misura la direzione in cui l'AI si sposta quando risponde. Le risposte vere seguono una "strada" logica nel mondo delle idee. Le risposte inventate (Tipo II) prendono una strada laterale strana, un sentiero che non porta da nessuna parte. Il compasso riesce a vedere questa deviazione e dice: "Ehi, questa risposta sta andando fuori strada!". Funziona benissimo (quasi il 96% di successo) per queste invenzioni.

3. Il Tipo III: "Il Falso Dettagliato" (Factual Error)

Questo è il caso più difficile e insidioso.

  • L'errore: L'AI parla del concetto giusto, ma sbaglia un dettaglio. Esempio: "Napoleone è morto nel 1821" (vero) vs "Napoleone è morto nel 1824" (falso). Il concetto è corretto, solo il numero è sbagliato.
  • L'analogia: È come se un pittore dipingesse un ritratto perfetto di un amico, ma gli mettesse gli occhi di un colore sbagliato. L'immagine è quasi identica alla realtà, ma c'è un errore sottile.
  • La scoperta sorprendente: Gli autori hanno scoperto che questo errore è invisibile alla geometria. Perché? Perché le risposte giuste e quelle sbagliate (ma plausibili) vivono nello stesso "quartiere" della mappa mentale dell'AI. Non c'è una strada storta da vedere.
  • Il trucco: Hanno notato che alcuni test che sembravano funzionare per questo errore in realtà non stavano misurando la verità, ma lo stile. Le risposte false erano spesso scritte in modo più diretto e breve, mentre quelle vere erano più lunghe e caute. L'AI stava "indovinando" lo stile di scrittura, non la verità dei fatti. È come se un detective fosse bravo a capire chi ha scritto una lettera, ma non a capire se la lettera dice la verità.

In sintesi: Cosa ci insegnano?

  1. Non tutti gli errori sono uguali: Ignorare il contesto (Tipo I) e inventare cose (Tipo II) sono problemi diversi che si possono risolvere con strumenti diversi.
  2. La geometria è potente: Possiamo usare la "forma" delle parole nello spazio digitale per capire se un'AI sta mentendo o inventando.
  3. C'è un limite: Se l'AI sbaglia un dettaglio ma rimane nel "mondo giusto" (Tipo III), i nostri attuali strumenti geometrici non possono vederlo. Non è un difetto del metodo, ma una caratteristica fondamentale di come queste macchine pensano: conoscono le parole, non la verità assoluta.

Il messaggio finale: Non possiamo aspettarci che l'AI sia perfetta in tutto. Dobbiamo capire che tipo di errore sta commettendo per poterlo correggere. Per le invenzioni, abbiamo un ottimo radar; per i piccoli errori di dettaglio, purtroppo, dobbiamo ancora affidarci al buon senso umano.