How Much Do LLMs Hallucinate in Document Q&A Scenarios? A 172-Billion-Token Study Across Temperatures, Context Lengths, and Hardware Platforms

Questo studio su larga scala, condotto su 172 miliardi di token con il metodo RIKER, rivela che i modelli linguistici mostrano tassi di allucinazione non trascurabili che aumentano drasticamente con la lunghezza del contesto, mentre la scelta del modello è il fattore dominante rispetto a temperatura, dimensioni o piattaforma hardware.

JV Roig

Pubblicato 2026-03-10
📖 5 min di lettura🧠 Approfondimento

Each language version is independently generated for its own context, not a direct translation.

Ecco una spiegazione semplice e creativa di questo studio, pensata per chiunque voglia capire come funzionano (e dove sbagliano) le intelligenze artificiali quando devono rispondere a domande basate su documenti.

Immagina di avere 35 diversi "segretari digitali" (i modelli linguistici o LLM) e di doverli mettere alla prova in un grande ufficio. Il compito? Leggere una pila di documenti e rispondere a domande basandosi solo su ciò che è scritto lì dentro. Niente invenzioni, niente "creatività" fuori dal testo.

Lo studio, condotto da Kamiwaza AI, è stato un esperimento massiccio: hanno fatto leggere a questi segretari 172 miliardi di parole (una quantità di testo che riempirebbe milioni di libri) e hanno analizzato quanto spesso questi segretari hanno "preso in giro" l'ufficio inventando cose che non esistevano.

Ecco i 5 punti chiave, spiegati con metafore quotidiane:

1. Il problema della "Bugia Inevitabile" (Allucinazioni)

La metafora: Immagina di chiedere a un esperto di storia: "Cosa dice il libro di testo sulla battaglia di Waterloo?". Se l'esperto risponde con dettagli corretti, è bravo. Ma se il libro non parla affatto di Waterloo e l'esperto risponde comunque con una storia inventata ma plausibile, sta "allucinando".

Cosa ha scoperto lo studio:
Nessun segretario è perfetto. Anche il migliore in assoluto (il modello GLM 4.5) ha mentito circa 1 volta su 100 quando le informazioni mancavano.

  • I migliori: Mentono il 5-7% delle volte.
  • La media: Mentono circa 1 volta su 4 (25%).
  • Il peggio: Alcuni modelli mentono quasi la metà delle volte.

La lezione: Non esiste un modello che non menta mai. Se usi l'AI in azienda, devi sempre controllare le risposte, perché l'errore è parte del pacchetto.

2. Più documenti hai, più si confondono (L'effetto "Pila di Carte")

La metafora: Immagina di dare al tuo segretario un foglio di carta con una ricetta. È facile. Ora dagli un libro intero. Ora dagli un'intera biblioteca. Più grande è la biblioteca, più il segretario tende a confondersi e a inventare dettagli per "riempire i buchi".

Cosa ha scoperto lo studio:

  • Con 32.000 parole (un libro breve), i modelli vanno bene.
  • Con 128.000 parole (un romanzo lungo), le bugie aumentano quasi del triplo.
  • Con 200.000 parole (un'enciclopedia), le bugie esplodono. Alcuni modelli, che prima erano ottimi, iniziano a inventare risposte per il 70% delle domande su cose che non esistono.

La lezione: Le aziende che pubblicizzano "capacità di leggere libri interi" spesso mentono loro stesse. La capacità reale di un modello di non inventare cose crolla drasticamente quando i documenti diventano troppo lunghi.

3. La dimensione non è tutto (Il "Gigante" vs il "Piccolo Genio")

La metafora: Pensiamo che un elefante (un modello enorme) sia sempre più intelligente di un gatto (un modello piccolo). Non è vero. A volte il gatto è più agile e attento.

Cosa ha scoperto lo studio:
La grandezza del modello (il numero di "neuroni" o parametri) non garantisce che non menta.

  • Alcuni modelli giganti (come certi Llama) sono bravissimi a trovare le informazioni giuste, ma quando non le trovano, inventano risposte con estrema sicurezza.
  • Altri modelli più piccoli o di famiglie diverse (come GLM o MiniMax) sono molto più disciplinati: se non sanno la risposta, dicono "non lo so" invece di inventare.
  • La famiglia conta più della grandezza: Scegliere il modello giusto (la "famiglia" di addestramento) è più importante che scegliere il modello più grande.

4. Il termostato dell'intelligenza (La temperatura)

La metafora: L'AI ha un "termostato" chiamato Temperatura.

  • Temperatura 0.0: Il modello è un robot rigido, calcolatore, che sceglie sempre la parola più probabile. È preciso, ma se si blocca in un pensiero ripetitivo, non riesce a uscire dal loop.
  • Temperatura 1.0: Il modello è più creativo, "rilassato", prova strade diverse.

Cosa ha scoperto lo studio:
C'è un mito da sfatare: "Metti sempre la temperatura a zero per essere precisi".

  • A volte sì, zero è meglio.
  • Ma spesso, alzare leggermente la temperatura (a 0.4 o 0.7) riduce le bugie e, cosa ancora più importante, evita che il modello si blocchi in un loop infinito (come un disco che salta e ripete la stessa frase all'infinito).
  • A temperature lunghe (documenti enormi), usare temperatura zero può far bloccare il modello fino a 48 volte più spesso rispetto a usare una temperatura più alta.

5. Trovare l'ago non significa non inventare (Due abilità diverse)

La metafora: Immagina un detective.

  • Abilità 1 (Grounding): Trovare l'ago nel pagliaio quando l'ago c'è davvero.
  • Abilità 2 (Resistenza alle bugie): Non inventare un ago quando nel pagliaio non ce n'è nessuno.

Cosa ha scoperto lo studio:
Queste sono due abilità diverse. Un modello può essere un detective eccellente nel trovare informazioni (90% di precisione nel trovare dati reali) ma essere un bugiardo patologico quando i dati mancano (mentendo nel 50% dei casi).
Molti modelli famosi sono bravissimi a trovare le cose, ma terribili a dire "non lo so". Questo è pericoloso: sembrano affidabili, ma in realtà stanno inventando metà delle risposte.

Conclusione: Cosa dobbiamo fare?

Lo studio ci dice che l'AI per le aziende è potente, ma non è magica.

  1. Scegli il modello giusto: Non guardare solo la grandezza, guarda chi ha una storia di "onestà" (bassa allucinazione).
  2. Non fidarti ciecamente dei documenti lunghi: Se devi analizzare libri interi, preparati a un tasso di errore più alto.
  3. Non usare sempre la temperatura zero: A volte un po' di "creatività" controllata aiuta a evitare blocchi e bugie.
  4. Verifica sempre: Poiché l'errore è inevitabile, l'umano deve sempre fare da controllore finale.

In sintesi: questi modelli sono come assistenti molto istruiti, ma a volte un po' vanitosi che amano inventare storie quando non sanno la risposta. Il nostro compito è sapere quando stanno mentendo.