Compression Favors Consistency, Not Truth: When and Why Language Models Prefer Correct Information

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un cuoco robot (il modello linguistico) il cui unico obiettivo è diventare il più efficiente possibile nel preparare i piatti (prevedere la prossima parola). Il suo mantra è: "Devo scrivere la ricetta più breve e semplice possibile per spiegare tutto quello che ho mangiato finora".

Questo articolo si chiede: Perché questo cuoco a volte sceglie la ricetta giusta (la verità) e a volte quella sbagliata?

La risposta sorprendente è: non gli importa della verità. Gli importa solo della "compressione".

Ecco la spiegazione semplice, divisa per concetti chiave con delle analogie.

1. Il Principio della "Borsa da Viaggio" (Compressione)

Immagina che il cuoco debba portare tutti i suoi libri di cucina in una borsa da viaggio molto piccola.

Se c'è una regola vera (es. "2 + 2 = 4") che funziona per tutto, può scrivere una sola riga: "La somma è la somma". È brevissimo.
Se ci sono errori casuali (es. "2 + 2 = 5", "3 + 3 = 7", "1 + 1 = 3" senza logica), il cuoco non può scrivere una regola unica. Deve scrivere ogni errore a parte: "Ricetta A: 2+2=5. Ricetta B: 3+3=7...". La borsa si riempie subito!

La scoperta: Il cuoco preferisce la verità solo quando gli errori sono così disordinati che non riescono a stare nella borsa. Se gli errori sono disordinati, la verità vince perché è più "comprimibile".

2. L'Inganno della "Falsa Coerenza"

Qui arriva il punto cruciale. Cosa succede se gli errori non sono disordinati, ma formano una falsa regola logica?

Immagina che il cuoco impari una regola falsa ma coerente: "In questo mondo, 2 + 2 fa sempre 5".

Questa regola è breve (una sola riga).
È coerente (funziona sempre allo stesso modo).
Per il cuoco, questa regola falsa è perfettamente uguale alla regola vera in termini di spazio nella borsa.

Risultato: Quando gli errori sono "coerenti" (hanno una loro logica interna), il cuoco non ha motivo di scegliere la verità. Sceglie a caso, o segue semplicemente la regola che ha visto più spesso. La "verità" perde il suo vantaggio. È come se due squadre di calcio avessero la stessa tattica perfetta: non c'è motivo per preferirne una sull'altra solo perché una è "giusta" e l'altra "sbagliata".

3. L'Esperimento del "Controllo di Qualità"

Gli autori hanno provato a ingannare il cuoco inserendo dei "controlli" (verifiche) nel testo.

Senza controllo: Il cuoco segue la regola falsa coerente ("2+2=5") senza problemi.
Con controllo: Aggiungono un passaggio che dice: "Controlla il risultato: se metti 2 mele e 2 mele, ne trovi 4, non 5".

Questo controllo rompe la coerenza della regola falsa. Ora, per spiegare perché la regola dice "5" ma il controllo dice "4", il cuoco deve scrivere una spiegazione complicata e lunga. La regola falsa diventa "ingombrante".
Risultato: Appena la regola falsa diventa scomoda da spiegare, il cuoco torna a preferire la verità.

4. Cosa succede quando il cuoco diventa più grande?

Hanno provato con cuochi di diverse dimensioni (dai piccoli ai grandi).

Con errori casuali: I cuochi più grandi diventano ancora bravi a scartare gli errori disordinati e preferire la verità.
Con errori coerenti: Anche i cuochi giganti faticano a distinguere la verità dalla bugia logica. Rimangono confusi, perché entrambe le regole stanno comodamente nella loro borsa.

In sintesi: La morale della favola

Il modello linguistico non è un "cercatore di verità" filosofico. È un ottimizzatore di spazio.

La verità vince quando le bugie sono un caos disordinato e difficile da spiegare (come un mucchio di mattoni sparsi).
La verità perde quando le bugie sono organizzate in un sistema logico e coerente (come un castello di carte ben costruito).

Perché è importante?
Questo ci dice che non possiamo fidarci ciecamente dell'AI solo perché è "addestrata su dati veri". Se qualcuno crea una teoria falsa ma interna-mente coerente e logica (come una teoria del complotto ben scritta), l'AI potrebbe adottarla con la stessa convinzione della verità, perché per il suo "cervello" matematico, entrambe le teorie sono ugualmente efficienti da memorizzare.

L'AI cerca la coerenza, non la realtà. Se vuoi che dica la verità, devi assicurarti che le sue alternative false siano così disordinate e incoerenti da non poter essere compresse nella sua "borsa".

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

Le grandi modelli linguistici (LLM) mostrano spesso una sorprendente accuratezza fattuale, ma allo stesso tempo generano affermazioni false con grande sicurezza. La domanda centrale è: perché l'obiettivo di addestramento stesso (la previsione del prossimo token) dovrebbe creare una preferenza per la verità?
Le spiegazioni esistenti (scaling, RLHF, statistiche dei dati, rappresentazioni interne della verità) non affrontano il meccanismo fondamentale. Il paper ipotizza che la risposta risieda nella compressione: l'addestramento tramite minimizzazione dell'entropia incrociata è matematicamente equivalente alla minimizzazione della lunghezza del codice (Principio MDL - Minimum Description Length). Tuttavia, la compressione favorisce l'ipotesi più compatta coerente con i dati, non necessariamente quella "vera".

2. Metodologia

L'autore propone il Principio Compressione-Coerenza e lo testa attraverso esperimenti controllati su corpora sintetici.

Modelli: Transformer decoder-only in stile GPT-2, implementati in MLX, con tokenizzazione a livello di carattere (vocabolario di 57 token) per evitare artefatti BPE. Le dimensioni variano da 3,5M a 86M parametri.
Corpora Sintetici: Problemi matematici (aritmetica, fattorizzazione, equazioni, derivazione) presentati come soluzioni passo-passo.
Tipologie di Errori:
1. Errori Casuali (Random): Un errore plausibile ma unico inserito casualmente in ogni problema. Ogni errore richiede una memorizzazione individuale (alta complessità di descrizione).
2. Errori Coerenti (Coherent): Una regola sistematica ma errata applicata a tutti i problemi di un certo tipo (es. $a \times b = a \times (b-1)$ ). Questo sistema è internamente coerente e altamente comprimibile.
3. Errori Contraddittori: Regole semplici che rompono la struttura algebrica (es. $a+b = a+b+1$ ).
Metriche Chiave:
- Valutazione Accoppiata (Paired Evaluation): Metrica primaria. Per ogni problema, viene generato un prompt condiviso con due completamenti (uno corretto, uno errato). Si misura la differenza di NLL (Negative Log-Likelihood) solo sui token di completamento. Questo elimina il confondimento delle statistiche del testo e isola la preferenza del modello per la correttezza strutturale.
- Valutazione a Livello di Corpus: Metrica secondaria per diagnosi, che calcola la differenza di perdita tra interi flussi di dati corretti e errati.
Setup di Addestramento: Addestramento su 5000 step con ottimizzatore AdamW, ripetuto con 4 inizializzazioni casuali (seed).

3. Contributi Chiave

Design Sperimentale Controllato: Introduzione di una condizione "falsa coerente" come null hypothesis forte. Un sistema di regole falso ma coerente comprime tanto quanto quello vero, permettendo di isolare l'effetto della "verità" da quello della "comprimibilità".
Importanza della Valutazione Accoppiata: Dimostrazione che le metriche a livello di corpus possono sovrastimare sistematicamente il "bias per la verità" quando le statistiche testuali differiscono tra condizioni corrette e errate. La valutazione accoppiata rivela la vera capacità discriminativa del modello.
Risultato Negativo Significativo: La dimostrazione che il bias per la verità scompare completamente quando le alternative errate sono internamente coerenti e comprimibili, sfidando l'idea che la compressione favorisca intrinsecamente la verità.

4. Risultati Principali

A. Errori Casuali vs. Coerenti

Errori Casuali: Il modello mostra un forte bias per le soluzioni corrette.
- Accuratezza nella valutazione accoppiata: 83,1% a parità di frequenza (50/50).
- Il bias persiste anche con un forte squilibrio (10% corretto / 90% errato), raggiungendo il 66,7%.
- Spiegazione: Gli errori casuali sono "rumore" non comprimibile; il modello deve memorizzarli individualmente, mentre la regola corretta offre una compressione efficiente.
Errori Coerenti: Il bias per la verità scompare.
- Accuratezza nella valutazione accoppiata: ~47-52% (livello casuale) su tutte le dimensioni (3,5M - 86M).
- Quando gli errori formano un sistema coerente, comprimono tanto quanto la verità. Il modello segue semplicemente la frequenza dei dati o preferisce leggermente il sistema errato se più abbondante.

B. Scalabilità (Scaling)

Errori Casuali: L'accuratezza aumenta con la dimensione del modello (da 83,1% a 3,5M fino all'89,1% a 86M) in un setup a step fissi.
Errori Coerenti: L'accuratezza rimane vicina al caso su tutte le dimensioni, indicando che la capacità del modello non risolve il problema della coerenza interna delle false teorie senza ulteriori vincoli.

C. Errori Multi-Regola (Multi-Rule)

Introducendo un pool di $N$ regole errate diverse (ma ciascuna coerente internamente), si osserva una transizione graduale.
Accuratezza: 46,6% ( $N=1$ , coerente) $\rightarrow$ 77,6% ( $N=2$ ) $\rightarrow$ 88,3% ( $N=10$ ).
Questo suggerisce che la diversità delle regole errate aumenta la lunghezza di descrizione del sistema falso, ripristinando parzialmente il vantaggio della verità.

D. Verifica e Catene di Compiti (Chained Tasks)

L'inserimento di un passo di verifica numerica all'interno di un compito coerente (es. calcolare una derivata e verificare con differenze finite) trasforma l'errore coerente in un residuo numerico imprevedibile (incomprimibile).
Risultato: Il bias per la verità viene ripristinato (accuratezza 70,9% su modelli piccoli), dimostrando che la verifica incrociata può rompere la coerenza delle false teorie. Tuttavia, su modelli più grandi con step fissi, questa tendenza sembra diminuire, suggerendo che modelli più capaci potrebbero imparare meglio la regola coerente interna rispetto al segnale di verifica.

E. Dominio Naturale (Linguaggio)

In un ambiente sintetico di linguaggio naturale, il bias per la verità è significativamente più debole (57,7%) rispetto alla matematica (83,1%). Il linguaggio naturale sembra assorbire meglio le contraddizioni, rendendo più difficile per il modello distinguere la coerenza strutturale.

5. Significato e Implicazioni

Il paper conclude che la compressione favorisce la coerenza, non la verità.

Meccanismo: Il bias per la verità osservato nei modelli non è una proprietà fondamentale dell'obiettivo di addestramento, ma emerge solo quando le alternative errate sono strutturalmente incoerenti e quindi difficili da comprimere.
Allineamento (Alignment): In assenza di vincoli esterni, un modello che minimizza la lunghezza del codice non ha un "bussola della verità" intrinseca. Una falsa teoria coerente può competere alla pari con la verità.
Falsificabilità: Il lavoro offre un'analogia computazionale con il criterio di falsificabilità di Popper: una teoria vera richiede poche spiegazioni aggiuntive (massima compressione), mentre una teoria falsa che deve adattarsi ai dati richiede correzioni ad hoc (bassa compressione), a meno che la teoria falsa non sia essa stessa un sistema coerente.
Limiti: I risultati sono limitati a modelli di piccole dimensioni e domini sintetici. La generalizzazione a corpora reali, dove le connessioni tra domini sono più dense, rimane una questione aperta.

In sintesi, la "verità" nei LLM appare come un sottoprodotto della struttura dei dati e della comprimibilità delle regole, piuttosto che come un obiettivo diretto dell'ottimizzazione.