LINGOLY-TOO: Disentangling Reasoning from Knowledge with Templatised Orthographic Obfuscation

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ L'Enquête : Les IA sont-elles vraiment intelligentes ou ont-elles juste la mémoire courte ?

Imaginez que vous testez l'intelligence d'un élève en lui donnant un examen de mathématiques.

Le problème : Si l'élève a déjà vu les mêmes exercices dans son manuel de révision, il peut les résoudre par cœur sans vraiment comprendre la logique. Il a l'air brillant, mais il triche en réalité.
La réalité des IA : Les grands modèles de langage (comme ceux qui font des conversations ou écrivent des textes) sont devenus si gros qu'ils ont "lu" presque tout internet. Quand on leur pose une question de logique, ils ne réfléchissent pas toujours : ils se souviennent simplement d'une réponse similaire qu'ils ont vue avant.

Les chercheurs de l'Université d'Oxford se sont dit : "Comment savoir si une IA sait vraiment raisonner, ou si elle se contente de réciter ce qu'elle a mémorisé ?"

🎭 La Solution : Le "Masque de l'IA" (LINGOLY-TOO)

Pour répondre à cette question, ils ont créé un nouveau test appelé LINGOLY-TOO. Voici comment ils ont fait, avec une analogie simple :

Imaginez que vous avez un puzzle complexe écrit dans une langue que vous ne connaissez pas (par exemple, du swahili ou du japonais).

Le test original : L'IA regarde le puzzle. Si elle a déjà vu ce puzzle (ou un très similaire) dans ses données d'entraînement, elle donne la réponse tout de suite. C'est de la mémoire, pas de l'intelligence.
Le test LINGOLY-TOO : Les chercheurs prennent ce même puzzle et le déguisent. Ils changent toutes les lettres et les sons, comme si on écrivait le puzzle dans un alphabet secret ou avec des symboles bizarres.
- L'analogie : C'est comme si on prenait une recette de gâteau en français, et qu'on la réécrivait en utilisant uniquement des emojis ou un code secret. La logique de la recette (il faut 2 œufs, 1 tasse de farine) reste exactement la même, mais l'IA ne peut plus reconnaître les mots "œufs" ou "farine" pour les sortir de sa mémoire.

Le but ? Obliger l'IA à faire comme un détective : regarder les indices, trouver les règles cachées et déduire la solution, au lieu de la copier.

📉 Ce qu'ils ont découvert

Ils ont testé les IA les plus puissantes du monde (comme GPT-5, Claude, etc.) avec ce nouveau test. Le résultat est sans appel :

Sans le masque (Test original) : Les IA obtiennent de très bonnes notes (environ 59 %). Elles semblent très intelligentes.
Avec le masque (Test LINGOLY-TOO) : Dès qu'on change les lettres, leurs notes chutent drastiquement (environ 48 %, et encore moins pour les problèmes difficiles).

L'analogie du "Cheat Code" :
C'est comme si un joueur de vidéo-jeu utilisait un code de triche pour gagner. Tant que le jeu est normal, il gagne. Mais dès qu'on change les règles du jeu (le masque), il perd tout de suite parce qu'il ne sait pas jouer vraiment, il savait juste utiliser le code.

🌍 Pourquoi certaines langues sont plus faciles que d'autres ?

Les chercheurs ont remarqué quelque chose d'intéressant :

Si le puzzle est dans une langue très connue (comme l'anglais, le français ou le japonais), l'IA chute beaucoup plus quand on la déguise. Pourquoi ? Parce qu'elle a beaucoup mémorisé ces langues.
Si le puzzle est dans une langue rare, la chute est moins forte, car l'IA n'avait pas autant de "trucs" en mémoire à commencer par.

Cela prouve que plus une langue est populaire, plus les IA ont tendance à tricher en utilisant leur mémoire au lieu de réfléchir.

🧠 La leçon à retenir

Ce papier nous dit une chose importante : Les IA sont devenues de très bons "récitateurs", mais elles sont encore de mauvais "réfléchisseurs".

Quand on leur demande de résoudre un problème de logique pur, elles sont souvent bloquées si elles ne peuvent pas se souvenir de la réponse. Le test LINGOLY-TOO est comme un miroir déformant qui enlève les illusions de mémoire pour révéler la vraie capacité de raisonnement (ou l'absence de celle-ci).

En résumé : Ne vous laissez pas impressionner par les notes élevées des IA. Parfois, elles ne font que répéter ce qu'elles ont lu, pas ce qu'elles ont compris.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les modèles de langage de pointe (LLM) montrent des capacités croissantes à résoudre des problèmes de raisonnement. Cependant, les benchmarks actuels souffrent d'un biais majeur : les performances des modèles sont souvent gonflées par leur capacité à contourner le raisonnement en s'appuyant sur :

La connaissance encyclopédique : La mémorisation de faits linguistiques ou de langues spécifiques durant l'entraînement.
La mémorisation des données d'évaluation : La réutilisation de problèmes vus lors de l'entraînement (contamination des données).

Cette situation rend difficile la distinction entre un véritable raisonnement symbolique (application de règles abstraites) et la simple récupération de connaissances. Les benchmarks existants, comme ceux basés sur les Olympiades de Linguistique, deviennent saturés ou contaminés, car les langues à faible ressources utilisées dans les puzzles apparaissent de plus en plus dans les corpus d'entraînement massifs.

2. Méthodologie : LINGOLY-TOO

Les auteurs introduisent LINGOLY-TOO, un benchmark de raisonnement composé de 1 203 questions (dérivées de 82 problèmes originaux des Olympiades de Linguistique du Royaume-Uni - UKLO) et de 6 995 sous-questions.

Le cœur de la méthodologie repose sur une obfuscation orthographique experte conçue pour préserver la logique de résolution tout en éliminant les indices de connaissance.

A. Permutation Équivariante au Raisonnement

Contrairement aux perturbations simples (synonymes, paraphrases), inadaptées aux problèmes linguistiques qui reposent sur la structure des sous-mots (morphèmes, phonèmes), les auteurs utilisent des permutations de graphèmes (lettres ou combinaisons de lettres) :

Préservation de la logique : Les permutations sont générées à partir de règlesets linguistiques spécifiques à chaque problème. Elles respectent les relations phonologiques et morphologiques essentielles (ex: l'harmonie vocalique, les paires de consonnes sourdes/sonores).
Exemple : Si un problème repose sur l'harmonie vocalique (ex: les voyelles arrondies vs non arrondies), la permutation doit maintenir ces paires ensemble, même si les symboles changent.
Préservation des éléments fixes : Les mots empruntés (cognats) et les noms propres sont laissés intacts ou traités avec soin pour ne pas rendre le problème insoluble, tout en supprimant les métadonnées (noms de langues, familles linguistiques, géographie).

B. Génération de Données

Annotation manuelle : Suppression des métadonnées et balisage des données à obfuscation.
Génération : Pour chaque problème, jusqu'à 6 permutations valides sont échantillonnées aléatoirement, créant des variantes uniques qui n'ont jamais été vues par les modèles durant l'entraînement.
Validation : Les problèmes obfusqués sont vérifiés par des experts et des médaillés des Olympiades Internationales de Linguistique (IOL) pour garantir qu'ils restent solubles par le même raisonnement logique.

3. Contributions Clés

Un benchmark non saturé : LINGOLY-TOO offre un ensemble de données difficile où les modèles de pointe (comme GPT-5) obtiennent des scores modestes (48 % global, 31 % sur les problèmes les plus difficiles), indiquant un fort potentiel de progression.
Méthode de quantification des effets de la connaissance : En comparant les performances sur les problèmes originaux ( $M_{og}$ ) et obfusqués ( $M_{obf}$ ), les auteurs isolent la part de performance due au "triche" (connaissance/mémorisation) par rapport au raisonnement pur.
Preuve de la persistance des biais : L'expérience sur des problèmes UKLO 2025 non encore publiés montre que le déclin de performance après obfuscation persiste, prouvant que l'écart n'est pas dû uniquement à la contamination par les données d'entraînement, mais aussi à la dépendance aux connaissances linguistiques générales.

4. Résultats Expérimentaux

Les expériences ont été menées sur 15 modèles (modèles de raisonnement et modèles généralistes, open-source et propriétaires).

Chute de performance significative :
- Sur les problèmes originaux, les meilleurs modèles atteignent environ 0,59.
- Sur les problèmes obfusqués, ce score chute à 0,48 pour le meilleur modèle (GPT-5).
- Pour les modèles généralistes, la chute est encore plus drastique, révélant une forte dépendance aux connaissances pré-entraînées.
Impact de la ressource linguistique : Il existe une corrélation négative entre la "ressource" d'une langue (nombre de locuteurs) et la performance des modèles sur les problèmes obfusqués. Les modèles performent mieux sur les langues à forte ressource (Japonais, Finnois, Italien) même après obfuscation, suggérant qu'ils utilisent des connaissances résiduelles ou des capacités de devinette basées sur la familiarité statistique.
Rôle du raisonnement : Les modèles conçus pour le raisonnement (ex: Claude 3.7 "thinking", o3-mini) montrent une meilleure robustesse et une chute de performance moindre que les modèles généralistes, mais restent sensibles aux permutations.
Étude humaine : Une étude contrôlée avec 172 participants humains a montré une baisse de performance de 5,7 % sur les versions obfusquées. Cela suggère que l'obfuscation ajoute une charge cognitive mineure, mais que la chute massive observée chez les LLM (souvent >10-15 %) est principalement due à la perte d'accès aux connaissances linguistiques.

5. Signification et Conclusion

LINGOLY-TOO démontre que les scores élevés des LLM sur les benchmarks de raisonnement linguistique sont souvent des artefacts de la connaissance et de la mémorisation plutôt que de véritables capacités de raisonnement inductif.

Validité des benchmarks : L'article souligne la nécessité de désinfecter les benchmarks de la contamination et de la connaissance implicite pour évaluer la véritable intelligence des modèles.
Limites actuelles : Même les modèles les plus avancés échouent à généraliser de manière robuste lorsqu'ils sont privés de leurs repères orthographiques familiers, indiquant que le raisonnement symbolique pur reste un défi ouvert.
Apport futur : La méthode d'obfuscation orthographique proposée offre un outil robuste pour créer de nouveaux problèmes de raisonnement non contaminés, essentiels pour suivre les progrès réels des modèles de langage au-delà de la simple mémorisation.

En résumé, ce travail propose une approche rigoureuse pour "désenchevêtrer" le raisonnement de la connaissance, révélant que les capacités de raisonnement des modèles de pointe sont encore fragiles et largement dépendantes de leur exposition préalable aux langues et aux données.

LINGOLY-TOO: Disentangling Reasoning from Knowledge with Templatised Orthographic Obfuscation

🕵️‍♂️ L'Enquête : Les IA sont-elles vraiment intelligentes ou ont-elles juste la mémoire courte ?

🎭 La Solution : Le "Masque de l'IA" (LINGOLY-TOO)

📉 Ce qu'ils ont découvert

🌍 Pourquoi certaines langues sont plus faciles que d'autres ?

🧠 La leçon à retenir

1. Problématique

2. Méthodologie : LINGOLY-TOO

A. Permutation Équivariante au Raisonnement

B. Génération de Données

3. Contributions Clés

4. Résultats Expérimentaux

5. Signification et Conclusion

Articles similaires

The Quantification Horizon Theory of Consciousness

Bridge Diffusion Model: Bridge Chinese Text-to-Image Diffusion Model with English Communities

CurvFed: Curvature-Aligned Federated Learning for Fairness without Demographics

SOAP: Enhancing Spatio-Temporal Relation and Motion Information Capturing for Few-Shot Action Recognition

Efficient Diffusion as Low Light Enhancer