Compression Favors Consistency, Not Truth: When and Why Language Models Prefer Correct Information

Each language version is independently generated for its own context, not a direct translation.

De Grote Druk: Waarom AI soms de waarheid kiest (en soms niet)

Stel je voor dat een taalmodel (zoals een slimme chatbot) een enorme bibliotheek moet leren kennen. De vraag die onderzoekers zich stelden, was: Waarom kiezen deze modellen soms voor de waarheid, en soms voor een leugen?

De gebruikelijke gedachte is: "Omdat ze op waarheid zijn getraind." Maar dit onderzoek toont aan dat het veel minder romantisch is. Het draait niet om moraliteit of "waarheid", maar om efficiëntie.

De Analogie: De Slimme Verpakker

Stel je voor dat je een enorme hoeveelheid post moet inpakken voor een vrachtwagen. Je hebt twee opties:

Optie A: Alles inpakken volgens een strak, logisch systeem (bijv. alle brieven in rode dozen, alle pakketten in blauwe dozen). Dit is waarheid.
Optie B: Alles willekeurig in dozen stoppen, maar dan met een heel specifiek, gekke regel: "Als de brieven van Jan zijn, doe ze dan in een doos met een gat erin." Dit is een leugen, maar een die consistent is.

Het doel van de AI is niet om de "waarheid" te vinden, maar om de minste ruimte te gebruiken (de kortste beschrijving). Dit noemen onderzoekers het Compressie-Consistentie Principe.

Waarheid wint: Als de leugens willekeurig zijn (bijv. elke keer een andere rare regel), dan moet je die leugens één voor één onthouden. Dat neemt veel ruimte in beslag. De AI merkt dan: "Oh, de waarheid is veel korter en efficiënter om te onthouden!" en kiest de waarheid.
Leugen wint: Als de leugens consistent zijn (een eigen, logisch systeem dat net zo strak is als de waarheid), dan is de leugen net zo makkelijk in te pakken als de waarheid. De AI maakt geen onderscheid. Ze kiest willekeurig of zelfs de leugen, als die net iets vaker voorkomt.

Wat hebben ze ontdekt? (De Experimenten)

De onderzoekers lieten kleine AI-modellen oefenen met wiskundige problemen. Ze mengden de juiste antwoorden met foutieve antwoorden.

1. Willekeurige fouten (De "Drukkende" Leugen)
Stel je voor dat de AI leert dat $2 + 2 = 4 $, maar soms staat er in de training:$ 2 + 2 = 5 $, en dan weer$ 2 + 2 = 3 $, en dan$ 2 + 2 = 100$.

Resultaat: De AI leert snel dat deze fouten "rommelig" zijn. Ze zijn moeilijk te comprimeren. De AI kiest daarom 83% van de tijd voor het juiste antwoord, zelfs als er veel meer fouten dan juiste antwoorden in de training stonden.
Analogie: Het is alsof je probeert een rommelige kamer op te ruimen. Het is makkelijker om alles netjes weg te zetten (de waarheid) dan om te proberen elke rare plek in de rommel een eigen naam te geven.

2. Consistente fouten (De "Slimme" Leugen)
Nu maakten ze een foutensysteem dat perfect logisch was, maar gewoon verkeerd. Bijvoorbeeld: "Tel altijd één minder op dan je denkt."

Resultaat: De AI zag geen verschil. De "foute" regel was net zo kort en makkelijk te onthouden als de "juiste" regel. De AI koos niet voor de waarheid. Ze koos willekeurig, of zelfs de leugen als die vaker voorkwam.
Analogie: Stel je voor dat je een taal leert waarin "appel" altijd "peer" betekent, en "peer" altijd "appel". Als iedereen in je training dit zo gebruikt, is het voor jou gewoon een nieuwe, logische taal. Je merkt niet dat het "onwaar" is, want het is intern consistent.

3. De "Check" (Verificatie)
Wat als je de AI dwingt om na elke berekening een check te doen?

Resultaat: Als de AI een fout maakt, breekt de check. De "leugen" wordt dan ineens weer rommelig en onvoorspelbaar. De AI begint de waarheid weer te prefereren (van 43% naar 71% correct).
Analogie: Het is alsof je een spiegel in de kamer hangt. Als je in de spiegel kijkt en je ziet dat je hoofd op je schouders staat (logisch), maar je voeten op je hoofd (fout), dan zie je de onmogelijkheid. De AI leert dan weer dat de "foute" wereld niet klopt.

De Belangrijkste Lessen voor ons

AI is geen moreel kompas, het is een efficiëntie-machine.
De AI wil niet "waar" zijn; het wil "kort en logisch" zijn. Als een leugen net zo logisch en kort is als de waarheid, zal de AI de leugen net zo graag omarmen.
Waarheid wint alleen als leugens "rommelig" zijn.
In de echte wereld zijn leugens vaak willekeurig (denk aan complottheorieën die tegenstrijdige feiten mengen). Daarom werken AI-modellen vaak goed op feiten. Maar als er een systeem van leugens is dat perfect logisch opgebouwd is (een "alternatieve realiteit"), dan kan de AI daar niet tegenop.
Hoe groter het model, hoe lastiger het wordt.
Grotere modellen zijn beter in het vinden van patronen. Als een leugen een sterk patroon heeft, kunnen grote modellen die leugen soms zelfs beter begrijpen dan de waarheid, omdat ze die patronen zo goed kunnen comprimeren.

Conclusie in één zin

Taalmodellen kiezen niet voor de waarheid omdat het "goed" is, maar omdat de waarheid vaak de kortste en meest logische manier is om de wereld te beschrijven. Als je een leugen kunt vertellen die net zo kort en logisch is, dan kiest de AI die ook.

De moraal: Om AI eerlijk te houden, moeten we zorgen dat leugens in onze data "rommelig" en inconsistent zijn, of we moeten de AI dwingen om constant te controleren of de feiten kloppen. We kunnen niet zomaar hopen dat de AI vanzelf de waarheid vindt.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Grote taalmodellen (LLMs) presteren steeds beter op feitelijke benchmarks, maar genereren toch vaak zelfverzekerd valse informatie. Bestaande verklaringen voor waarheidsgetrouwheid (zoals schaling, RLHF-alignement, of data-frequentie) leggen niet uit waarom het trainingsdoel zelf – next-token prediction – überhaupt een voorkeur voor waarheid zou creëren.

De kernvraag is: Waarom kiezen modellen soms voor correcte uitspraken, zelfs als ze zijn getraind op data met een mix van waarheid en onwaarheid? Is "waarheid" een fundamentele eigenschap van compressie, of is het een bijproduct van de structuur van de data?

Theoretisch Kader: Het Compressie-Consistentie Principe

De auteur stelt het Compressie-Consistentie Principe voor:

Het minimaliseren van cross-entropy (het trainingsdoel) is wiskundig equivalent aan het minimaliseren van de code-lengte (Minimum Description Length - MDL).
Modellen comprimeren tekst, niet de realiteit.
Een model zal de hypothese prefereren die de trainingsdata het meest compact beschrijft.
Waarheid heeft alleen een voordeel als de alternatieve (valse) hypotheses incoherent zijn en dus moeilijk te comprimeren zijn (elke fout moet individueel worden onthouden).
Als een valse hypothese een intern consistent regelsysteem vormt (coherent), comprimeert deze even efficiënt als de waarheid. In dat geval verdwijnt de voorkeur voor waarheid en wint de frequentie van de data.

Methodologie

De studie gebruikt gecontroleerde synthetische corpora om de invloed van compressie te isoleren van andere factoren zoals bronbetrouwbaarheid of pure frequentie.

Modellen: Decoder-only transformers (GPT-2 stijl) met variërende grootte (3,5M tot 86M parameters).
Data: Wiskundige problemen (aritmetiek, factorisatie, vergelijkingen) gegenereerd in stap-voor-stap oplossingen.
Tokenisatie: Karakter-niveau (vocabulaire 57) om BPE-artefacten uit te sluiten.
Fouttypes (de onafhankelijke variabele):
1. Random (Incoherent): Willekeurige fouten in stappen (bijv. verkeerd teken). Elke fout is uniek en niet te generaliseren.
2. Coherent (Systeemfout): Een systematisch, intern consistent maar wiskundig onjuist regelsysteem (bijv. $a \times b = a \times (b-1)$ ). Alle problemen van dit type falen op dezelfde manier.
3. Contradictory: Simpele regels die de algebraïsche structuur breken (bijv. optellen en aftrekken zijn niet elkaars inverse).
Evaluatiemetrics:
- Gekoppelde evaluatie (Paired Evaluation): De primaire metric. Voor elk probleem wordt één prompt gebruikt met twee completions (één correct, één incorrect). Het model kiest de completion met de laagste NLL (Negative Log-Likelihood). Dit elimineert bias door verschillende prompts.
- Corpus-level loss: Secundaire metric om te kijken naar gemiddelde verliesverschillen over de hele dataset.

Belangrijkste Resultaten

1. Random vs. Coherent Fouten

Random Fouten: Modellen tonen een sterke voorkeur voor correcte oplossingen, zelfs als incorrecte data dominant is.
- Bij 50/50 verdeling: 83,1% nauwkeurigheid in gekoppelde evaluatie.
- Bij 10/90 verdeling (10% correct, 90% fout): 66,7% nauwkeurigheid. De structuur van de correcte regels wint het van de frequentie.
Coherent Fouten: Wanneer de fouten een consistent systeem vormen, verdwijnt de voorkeur voor waarheid volledig.
- Bij 50/50 verdeling: ~47-49% nauwkeurigheid (dicht bij kansniveau).
- Bij 20/80 verdeling (20% correct, 80% coherent fout): Het model kiest 91% van de tijd de foutieve, maar consistente oplossing.
- Conclusie: Waarheid heeft geen intrinsiek voordeel; als een leugen even goed te comprimeren is als de waarheid, volgt het model de frequentie.

2. Schaling (Scaling)

Bij random fouten neemt de voorkeur voor waarheid toe met de modelgrootte (van 83,1% bij 3,5M naar 89,1% bij 86M parameters).
Bij coherent fouten blijft de prestatie over de hele grootte-schaal (3,5M–86M) rond het kansniveau (47%–53%). Grotere modellen onderscheiden coherentie niet beter van waarheid als beide even goed comprimeren.

3. Multi-Rule Fouten (Graded Boundary)

Als er meerdere (N) alternatieve foutregels zijn, neemt de compressie-zwaarte van het valse systeem toe.
De nauwkeurigheid stijgt gradueel met het aantal regels: van 46,6% (N=1, coherent) naar 77,6% (N=2) en 88,3% (N=10).
Dit bevestigt dat de "incompressibiliteit" van de fouten de drijvende kracht is, niet de waarheid op zich.

4. Verificatie en Gekoppelde Taken

Als een coherent foutregelsysteem wordt gekoppeld aan een verificatiestap (bijv. een berekening controleren via een omgekeerde operatie), wordt de fout onvoorspelbaar en dus incompressibel.
Dit herstelt de voorkeur voor waarheid (van 43% naar 70,9% bij kleine modellen).
Echter, bij grotere modellen onder vaste trainingsstappen daalt dit effect, wat suggereert dat grotere modellen de interne coherentie sneller leren dan de zwakkere verificatie-signaal.

5. Natuurlijke Taal vs. Wiskunde

In een synthetische "natuurlijke taal" wereld is het effect zwakker (57,7% vs 83,1% in wiskunde). Natuurlijke taal lijkt tegenstrijdigheden beter te absorberen dan formele wiskunde.

Bijdragen

Gecontroleerd Experimenteel Ontwerp: Het introduceren van een "coherent-false" conditie als sterke null-hypothese om compressie te isoleren van waarheid.
Methodologische Innovatie: Het gebruik van gekoppelde evaluatie (paired evaluation) als primaire metric, wat aantoont dat corpus-level loss systematisch de waarheidsbias kan overschatten door verschillen in tekststatistieken.
Negatief Resultaat: Het aantonen dat compressie alleen geen garantie biedt voor waarheid. Zonder incoherentie in de fouten, verdwijnt de bias voor correcte informatie volledig.

Significantie en Implicaties

Geen Fundamentele Waarheidskompas: Het trainingsdoel (compressie) creëert geen inherente voorkeur voor waarheid. Het creëert een voorkeur voor consistentie.
Alignement Uitdaging: Als een valse theorie intern consistent is (zoals complottheorieën of pseudowetenschap), kan deze even goed comprimeren als de wetenschappelijke waarheid. Zonder externe verificatie of incoherentie in de data, zal het model de valse theorie kunnen prefereren als deze frequent genoeg voorkomt.
Hallucinaties: Coherente misvattingen kunnen "immuun" zijn voor correctie door compressie, omdat ze geen extra beschrijvingslengte vereisen.
Toekomst: De bevindingen suggereren dat waarheidsgetrouwheid in LLMs mogelijk afhangt van de dichtheid van cross-domain verificaties in de trainingsdata, en niet alleen van de schaal van het model.

Conclusie: Taalmodellen zijn consistentie-zoekers, geen waarheidszoekers. Ze prefereren correcte informatie alleen wanneer de alternatieve, valse informatie structureel incoherent en dus duur te comprimeren is.