Lost in Stories: Consistency Bugs in Long Story Generation by LLMs

Il paper presenta ConStory-Bench, un nuovo benchmark e un sistema di verifica automatizzata (ConStory-Checker) progettati per valutare e analizzare le inconsistenze narrative nella generazione di storie lunghe da parte dei modelli linguistici, rivelando che tali errori sono più frequenti nei fatti e nella temporalità e tendono a manifestarsi nella parte centrale delle narrazioni.

Junjie Li, Xinrui Guo, Yuhao Wu, Roy Ka-Wei Lee, Hongzhi Li, Yutao Xie

Pubblicato 2026-03-09
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Ecco una spiegazione semplice e creativa del paper, pensata per chiunque, anche senza conoscenze tecniche.

Immagina di avere un grande narratore digitale (un'intelligenza artificiale) che ti racconta una storia epica. Il problema? Questo narratore è come un bambino che ha bevuto troppa cioccolata: è bravissimo a inventare frasi bellissime, ma dopo un po' dimentica tutto quello che ha detto all'inizio.

Ecco cosa hanno scoperto gli scienziati di questo studio, diviso in tre parti semplici:

1. Il Problema: "Il Narratore che Dimentica"

Fino a poco tempo fa, le intelligenze artificiali scrivevano storie corte. Ora possono scrivere romanzi interi (migliaia di parole). Ma c'è un difetto enorme: la coerenza.

Immagina di leggere un libro dove:

  • All'inizio il protagonista ha gli occhi blu.
  • A metà libro, senza che nessuno lo abbia detto, ha gli occhi marroni.
  • La storia inizia nel 1982, ma a pagina 500 l'eroe usa uno smartphone che non è ancora stato inventato.
  • Il protagonista è un orfano, ma poi incontra i suoi genitori vivi e vegeti.

Questo è quello che succede quando le IA scrivono storie lunghe. Si "perdono nella storia" (Lost in Stories). I vecchi test controllavano solo se la storia era divertente o se le frasi scorrevano bene, ma nessuno controllava se il narratore stava mentendo a se stesso.

2. La Soluzione: "Il Controllore di Coerenza" (ConStory-Bench)

Gli autori hanno creato due cose fondamentali:

  • Il Campo di Addestramento (ConStory-Bench): Hanno preparato 2.000 "promemoria" (prompt) diversi per costringere le IA a scrivere storie lunghe (tra le 8.000 e le 10.000 parole). È come dare a 50 scrittori diversi lo stesso compito: "Scrivete un romanzo su una madre sola e suo figlio".
  • L'Ispettore Automatico (ConStory-Checker): Hanno creato un robot speciale che legge queste storie e cerca gli errori. Non si limita a dire "c'è un errore", ma agisce come un detective:
    • Trova la frase sbagliata.
    • Cerca la frase precedente che la contraddice.
    • Ti mostra le due frasi una accanto all'altra e ti dice: "Ehi! Qui dici che piove, ma due pagine fa dicevi che c'era il sole!".

Hanno classificato gli errori in 5 categorie principali, come se fossero 5 tipi di "bug" mentali:

  1. Tempo e Trama: (Es. "Ho 10 anni" -> "Ho 50 anni" nello stesso capitolo).
  2. Personaggi: (Es. dimenticare le abilità di un personaggio o cambiare il suo nome).
  3. Mondo e Regole: (Es. in un mondo dove la magia non esiste, qualcuno lancia un incantesimo).
  4. Dettagli Fatti: (Es. cambiare il colore di un oggetto o i nomi dei luoghi).
  5. Stile: (Es. iniziare la storia con tono serio e finire con battute comiche senza motivo).

3. Cosa Hanno Scoperto? (Le Sorprese)

Hanno fatto scrivere storie a molte IA diverse (sia quelle famose come GPT-5, sia quelle aperte) e hanno trovato cose interessanti:

  • Più lunga è la storia, più si sbaglia: È come guidare un'auto per 1000 km. Più vai avanti, più è probabile che ti distragga o che ti perda. Gli errori aumentano linearmente con la lunghezza.
  • Il "Mezzo" è il punto debole: Gli errori non sono distribuiti a caso. Tendono a nascere nel mezzo della storia. È come se il narratore si stancasse a metà e iniziasse a inventare cose a caso per finire il compito.
  • L'incertezza è un segnale d'allarme: Hanno scoperto che quando l'IA sta per dire una bugia, "tremava" un po' prima di scriverla. In termini tecnici, la sua "incertezza" (entropia) aumentava. È come se il narratore sussurrasse: "Non sono sicuro di quello che sto dicendo...". Se potessimo sentire questo sussurro, potremmo fermarlo prima che sbagli.
  • I "Cattivi" sono diversi: Alcune IA (come GPT-5 Reasoning) sono molto brave a non dimenticare i dettagli, altre (come alcune versioni open source) si perdono molto più facilmente.
  • Gli errori si contagiano: Se un personaggio sbaglia un dettaglio (es. il nome), spesso sbaglia anche il luogo o il tempo. Gli errori tendono ad andare in "pacchetto".

In Sintesi

Questo studio ci dice che, anche se le IA sono diventate bravissime a scrivere romanzi, non sono ancora dei narratori perfetti. Si perdono nei loro stessi racconti.

Ma la buona notizia è che ora abbiamo una mappa (il benchmark) e un detective (il checker) per trovare questi errori. È il primo passo fondamentale per insegnare alle macchine a non dimenticare la propria storia, così che un giorno potremo affidare loro la scrittura di veri e propri capolavori senza doverli rileggere per correggere i buchi di trama!