Compression Favors Consistency, Not Truth: When and Why Language Models Prefer Correct Information

Each language version is independently generated for its own context, not a direct translation.

🎭 Le Grand Magicien et son Miroir : Pourquoi l'IA préfère la cohérence à la vérité

Imaginez que vous apprenez à un enfant (ou à un robot) à faire des mathématiques. Vous lui donnez un énorme cahier rempli d'exercices. Mais ce cahier est un mélange :

La moitié des exercices sont résolus correctement.
L'autre moitié contient des erreurs.

La question que se posent les chercheurs est simple : Quand l'enfant va-t-il apprendre la vraie réponse ? Va-t-il dire "2 + 2 = 4" ou va-t-il dire "2 + 2 = 5" ?

La réponse surprenante de ce papier est : Ce n'est pas la "vérité" qui compte le plus, c'est la facilité à raconter l'histoire.

📦 Le Principe de la "Valise Tropicale" (Compression)

Pour comprendre, imaginez que l'IA est un voyageur qui doit tout mettre dans une seule petite valise (c'est ce qu'on appelle la compression). Plus la valise est petite et bien rangée, mieux c'est.

Le cas des erreurs aléatoires (Le chaos) :
Imaginez que dans la moitié des exercices, quelqu'un a fait des erreurs au hasard : parfois "2+2=5", parfois "2+2=7", parfois "2+2=3".
Pour expliquer ces erreurs, le voyageur doit écrire une liste interminable de règles spéciales : "Pour le problème 1, on fait ça. Pour le problème 2, on fait ça."
🎒 Résultat : La valise devient énorme ! C'est trop lourd. Le voyageur (l'IA) préfère donc abandonner ces règles compliquées et choisir la règle simple et vraie : "2+2=4". C'est plus facile à ranger.
Dans l'expérience, l'IA a eu raison 83% du temps, même si elle voyait autant d'erreurs que de vraies réponses.
Le cas des erreurs cohérentes (Le faux système) :
Maintenant, imaginez que l'erreur n'est pas au hasard. Disons que quelqu'un a inventé une nouvelle loi de la physique : "Toutes les additions, on enlève 1 au résultat". Donc "2+2=3", "5+5=9", etc.
Cette loi est fausse, mais elle est parfaite et cohérente.
🎒 Résultat : Le voyageur peut ranger toutes les erreurs dans une seule petite règle : "Soustraire 1". Sa valise est aussi petite que celle de la vérité !
Dans ce cas, l'IA ne sait plus quoi choisir. Elle a 50% de chances de choisir la vraie réponse et 50% de chances de choisir la fausse. La "vérité" n'a aucun avantage spécial.

🧩 L'Analogie du Puzzle

Pensez à un puzzle.

Si vous avez un puzzle avec des pièces qui ne vont pas du tout (erreurs aléatoires), c'est un cauchemar à assembler. Vous finissez par utiliser le puzzle correct.
Si vous avez un puzzle qui est tout entier inversé (les couleurs sont inversées, mais les pièces s'assemblent parfaitement), c'est un puzzle valide ! L'IA ne peut pas dire lequel est le "vrai" monde, car les deux puzzles s'assemblent aussi bien l'un que l'autre.

🧪 Ce que les chercheurs ont découvert (en gros)

L'IA n'est pas un détective de la vérité : Elle est un organisateur de rangement. Elle cherche ce qui est le plus simple à décrire.
La vérité gagne seulement quand le mensonge est brouillon : Si le mensonge est désordonné (incohérent), l'IA le rejette car c'est trop long à expliquer.
Un mensonge bien construit est dangereux : Si un mensonge est logique, interne et cohérent (comme une théorie scientifique fausse mais bien construite), l'IA peut l'adopter aussi facilement que la vérité.
La vérification est la clé : Les chercheurs ont ajouté une étape de "vérification" (comme un contrôle de calcul à la fin). Même si la règle de base était fausse mais cohérente, le fait de devoir vérifier le résultat a créé une "fuite" dans le système. Cela a rendu le mensonge plus difficile à ranger dans la valise. Résultat ? L'IA a recommencé à préférer la vérité (passant de 43% à 71% de réussite).

💡 Pourquoi c'est important pour nous ?

Ce papier nous met en garde : Ne croyez pas que l'IA deviendra automatiquement honnête juste parce qu'elle est plus intelligente.

Si nous lui donnons des données où les fausses informations sont bien structurées et cohérentes (comme des théories complotistes bien écrites ou des fausses nouvelles logiques), l'IA pourrait les accepter aussi facilement que les faits réels, simplement parce que c'est "plus simple" à compresser.

Pour que l'IA soit vraie, il ne suffit pas qu'elle soit grande ; il faut que les fausses informations soient incohérentes ou que nous lui apprenions à vérifier ses propres réponses.

En résumé : L'IA ne cherche pas la vérité, elle cherche la facilité. Si le mensonge est facile à raconter, elle le racontera. Si la vérité est la seule histoire qui tient debout sans effort, elle la choisira.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Les modèles de langage (LLM) affichent une précision croissante sur les benchmarks factuels, mais ils génèrent souvent des affirmations fausses avec une grande confiance. La question centrale de l'article est la suivante : Pourquoi un objectif d'entraînement basé sur la prédiction du prochain token (minimisation de l'entropie croisée) conduirait-il à une préférence pour la vérité ?

Les explications existantes (mise à l'échelle, alignement RLHF, statistiques des données, représentations internes de la vérité) ne répondent pas à la question fondamentale de savoir si la vérité est une propriété intrinsèque de l'objectif d'entraînement. L'auteur propose que la réponse réside dans la compression.

2. Cadre Théorique : Le Principe Compression-Cohérence

L'article s'appuie sur le principe de la Longueur Minimale de Description (MDL) et l'équivalence mathématique entre la minimisation de l'entropie croisée et la minimisation de la longueur du code (Shannon, 1948).

Hypothèse centrale : L'entraînement par descente de gradient favorise les hypothèses qui produisent les descriptions les plus courtes et les plus cohérentes des données d'entraînement.
Le Principe Compression-Cohérence : La vérité n'est pas favorisée en soi. Elle l'est uniquement lorsque les alternatives fausses sont structurellement incohérentes et donc plus difficiles à compresser.
- Si les erreurs sont aléatoires (incohérentes), elles doivent être mémorisées individuellement, ce qui augmente la longueur de description. Le modèle favorise alors la règle correcte.
- Si les erreurs forment un système cohérent (une règle fausse mais interne logique, ex: $a \times b = a \times (b-1)$ ), elles se compressent aussi efficacement que la vérité. Dans ce cas, la préférence pour la vérité disparaît.

3. Méthodologie

L'étude utilise des expériences contrôlées sur des corpus synthétiques pour isoler la variable de la « compressibilité de l'erreur » de la « vérité » ou de la fréquence.

Modèles : Transformers de type GPT-2 (décodeur seul), entraînés au niveau des caractères (vocabulaire de 57 tokens) pour éviter les artefacts de tokenisation BPE.
- Tailles testées : 3,5M à 86M paramètres (configurations tiny, small, medium, large).
- Entraînement : 5000 étapes, optimiseur AdamW, 4 initialisations aléatoires (seeds).
Corpus : Problèmes mathématiques (arithmétique, factorisation, équations, dérivées) générés et vérifiés par SymPy.
Types d'erreurs introduits :
1. Aléatoires : Une erreur plausible injectée au hasard à chaque étape (incohérentes).
2. Cohérentes : Une règle systématiquement fausse appliquée à tous les problèmes d'un type (cohérente mais fausse).
3. Contradictoires : Des règles simples qui brisent la structure algébrique (ex: $a+b = a+b+1$ ).
Métriques principales :
- Évaluation appariée (Paired Evaluation) : Métrique primaire. Pour chaque problème, le modèle reçoit le même prompt et doit choisir entre une complétion correcte et incorrecte. Cela élimine les biais liés aux statistiques textuelles des prompts.
- DLoss (Différence de perte) : $Loss(incorrect) - Loss(correct)$ . Une valeur positive indique un biais vers la vérité.
- Précision des paires : Pourcentage de paires où le modèle préfère la solution correcte.

4. Résultats Clés

A. L'effet de la cohérence des erreurs (Expérience 1)

Erreurs aléatoires : Le modèle montre un fort biais vers la vérité, même lorsque les données incorrectes sont majoritaires.
- À 50/50 : 83,1 % de précision appariée.
- À 10/90 (10 % de vérité) : 66,7 % de précision.
- Interprétation : Les erreurs aléatoires sont incompressibles (bruit), donc la règle correcte gagne par compression.
Erreurs cohérentes : Le biais de vérité disparaît.
- À 50/50 : Précision appariée de 47,2 % (au niveau du hasard).
- À 20/80 (20 % de vérité) : Le modèle préfère activement le système faux (9,6 % de précision pour la vérité, soit 90,4 % pour le faux).
- Interprétation : Un système faux cohérent se comprime aussi bien que la vérité. Le modèle suit alors simplement la fréquence des données.

B. Impact des observations et corrections (Expériences 2 & 3)

L'ajout d'observations (vérifications empiriques) ou de corrections ad hoc n'a pas restauré un biais de vérité significatif en évaluation appariée.
Le modèle apprend à traiter les motifs de correction dans le contexte d'entraînement, mais ne transfère pas cette discrimination vers des paires mathématiques pures.
Conclusion méthodologique : Les métriques au niveau du corpus (DLoss global) peuvent surestimer le biais de vérité en raison de différences de longueur ou de style entre les corpus corrects et incorrects. L'évaluation appariée est indispensable.

C. Mise à l'échelle et règles multiples (Expériences 4 & 5)

Mise à l'échelle (Scaling) : Sur des entraînements à nombre d'étapes fixe (5000 étapes), la préférence pour la vérité avec des erreurs aléatoires augmente légèrement avec la taille du modèle (de 83,1 % à 89,1 %). En revanche, pour les erreurs cohérentes, la précision reste proche du hasard (47-53 %) sur toute la gamme de tailles (3,5M à 86M).
Erreurs multi-règles : L'introduction de plusieurs règles fausses alternatives (N règles) crée un régime intermédiaire.
- N=1 (cohérent) : ~46,6 %.
- N=2 : ~77,6 %.
- N=10 : ~88,3 %.
- La transition est progressive, pas une transition de phase unique. L'augmentation de la diversité des règles fausses augmente la longueur de description du système faux, favorisant la vérité.

D. Tâches chaînées avec vérification (Expérience 9)

L'ajout d'une étape de vérification intégrée (ex: résoudre une équation puis vérifier par substitution) transforme une erreur cohérente en une erreur incompressible (résidu numérique imprévisible).
Cela restaure un biais de vérité significatif (70,9 % de précision pour le modèle tiny).
Cependant, une tendance à la baisse est observée avec l'augmentation de la taille du modèle sous un budget d'entraînement fixe, suggérant que les modèles plus grands apprennent plus facilement le motif cohérent interne que le signal de vérification plus faible.

5. Contributions Principales

Conception expérimentale contrôlée : Introduction d'une condition « faux cohérent » comme null fort, isolant la compressibilité de la valeur de vérité.
Métrique d'évaluation appariée : Démonstration que les métriques au niveau du corpus peuvent être trompeuses et que l'évaluation appariée est nécessaire pour mesurer le biais de vérité réel.
Résultat négatif fondamental : La preuve que la pression de compression seule n'aligne pas les modèles sur la vérité si les alternatives fausses sont cohérentes. Le biais de vérité est une propriété de la structure du corpus, pas une propriété fondamentale de l'IA.

6. Signification et Implications

Pour l'alignement (Alignment) : L'objectif d'entraînement (prédiction du token) ne fournit pas de « boussole de vérité » intrinsèque. Il favorise la cohérence. Des systèmes de fausses croyances cohérents peuvent rester compétitifs face à la vérité si leur description est aussi concise.
Pour l'épistémologie du ML : La vérité peut émerger comme un sous-produit de la compression si les faits vrais sont structurellement plus compressibles que les alternatives fausses dans les données réelles. Cependant, ce n'est pas garanti.
Pour les hallucinations : Les hallucinations cohérentes (systèmes de fausses croyances internes) sont particulièrement résistantes car elles ne souffrent pas du « coût de compression » des erreurs aléatoires.
Limites : Les résultats sont limités à des modèles de petite taille (jusqu'à 86M) et des domaines synthétiques (mathématiques). La transférabilité aux grands modèles et aux domaines réels (médecine, histoire) où la cohérence des fausses croyances est complexe reste une question ouverte.

Conclusion : La compression favorise la cohérence, pas la vérité. Un modèle de langage se comporte davantage comme un système cherchant la cohérence interne que comme un chercheur de vérité absolue. La préférence pour la vérité n'apparaît que lorsque les erreurs alternatives sont structurellement incohérentes et donc coûteuses à compresser.