Are Large Language Models Truly Smarter Than Humans?

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous organisez un grand concours de culture générale pour des robots super-intelligents. Les organisateurs utilisent des questions tirées d'examens publics, comme ceux que passent les étudiants à l'université ou les avocats pour obtenir leur diplôme.

Les robots obtiennent des scores incroyables, dépassant même les meilleurs humains. Tout le monde s'excite : « Ils sont plus intelligents que nous ! »

Mais cette étude, écrite par deux scientifiques, pose une question très simple et gênante : « Est-ce qu'ils sont vraiment plus intelligents, ou ont-ils simplement triché en ayant vu les réponses avant le jour de l'examen ? »

Voici l'explication de leur enquête, racontée comme une histoire de détectives.

1. Le Problème : Le « Copier-Coller » Géant

Les robots (les modèles de langage) apprennent en lisant presque tout ce qui existe sur Internet. Le problème, c'est que les questions d'examen sont aussi sur Internet.

L'analogie : C'est comme si un étudiant devait passer un examen de mathématiques, mais qu'il avait eu accès à la copie du professeur avec les réponses exactes avant le jour J. S'il recopie les réponses, il aura 20/20, mais cela ne prouve pas qu'il sait faire des maths.

Les auteurs ont vérifié six robots très avancés (comme GPT-4, DeepSeek, Llama, etc.) pour voir s'ils avaient « lu » les questions d'examen pendant leur apprentissage.

2. Les Trois Expériences (Les Trois Enquêtes)

Pour prouver leur théorie, ils ont mené trois enquêtes différentes, comme trois détectives qui vérifient la même chose avec des outils différents.

Expérience 1 : La Recherche Google (La Preuve Externe)

Ils ont pris 513 questions d'examen et ont cherché sur le web si ces questions existaient déjà en ligne.

Ce qu'ils ont trouvé : C'était un désastre. 13,8 % des questions étaient déjà sur Internet. Dans certains sujets comme la Philosophie, c'était 66,7 % !
La leçon : Pour beaucoup de questions, le robot n'a pas besoin de réfléchir. Il a juste besoin de se souvenir de ce qu'il a lu. C'est comme si l'étudiant avait la feuille de réponses collée sous sa table.

Expérience 2 : Le Jeu du « Parapluie » (La Preuve Comportementale)

Ici, ils ont changé la façon de poser les questions. Imaginez que l'examen demande : « Qui a écrit Hamlet ? » (Réponse : Shakespeare).

La version originale : « Qui a écrit Hamlet ? »
La version déguisée : « Quel dramaturge anglais du 17ème siècle a créé le personnage du prince de Danemark ? » (C'est la même question, mais avec d'autres mots).

Si le robot est vraiment intelligent, il devrait répondre correctement dans les deux cas. S'il a juste mémorisé la phrase exacte, il va paniquer.

Ce qu'ils ont trouvé : Quand ils ont changé les mots, les robots ont chuté de performance. En droit et en éthique, leur score a baissé de 20 points !
La leçon : Cela prouve qu'ils ne comprenaient pas vraiment le sujet. Ils reconnaissaient juste la « forme » de la phrase. C'est comme un perroquet qui répète une phrase parfaite, mais qui ne comprend pas ce qu'il dit si vous changez un mot.

Expérience 3 : Le Test de Mémoire Cachée (La Preuve Intérieure)

C'est l'expérience la plus astucieuse. Ils ont caché une partie de la question (comme un mot ou une réponse fausse) et ont demandé au robot de la deviner.

Le test : « Voici une question. Voici la bonne réponse. Mais j'ai caché une des mauvaises réponses. Peux-tu me dire ce qu'était cette mauvaise réponse ? »
Ce qu'ils ont trouvé : Les robots ont réussi à reconstituer les mauvaises réponses cachées dans 72,5 % des cas !
La leçon : Même quand on ne leur demande pas de répondre à la question, ils se souviennent du texte exact de l'examen. C'est la preuve irréfutable qu'ils ont « lu » l'examen avant.

3. Le Cas Spécial : Le Robot « DeepSeek-R1 »

Il y avait un robot étrange dans le groupe. Il avait un score très bas, mais quand on changeait les mots de la question, il ne perdait pas de points (contrairement aux autres).

L'explication : Les auteurs ont découvert que ce robot ne mémorisait pas les mots exacts (comme un perroquet), mais il avait mémorisé la structure et le sens des questions (comme quelqu'un qui a lu le livre et retient l'histoire, mais pas les phrases exactes). C'est une forme de « mémoire distribuée ». C'est moins dangereux, mais cela montre quand même qu'il a vu le matériel d'examen.

4. La Conclusion : Qui est vraiment intelligent ?

L'étude conclut que nous ne savons pas vraiment si ces robots sont plus intelligents que les humains.

La réalité : Une grande partie de leurs « scores parfaits » vient du fait qu'ils ont mémorisé les questions d'entraînement, pas parce qu'ils ont développé un génie nouveau.
Le danger : Si on utilise ces robots pour des choses importantes (comme la médecine ou le droit) en se basant sur ces scores, on risque d'avoir des catastrophes. Dès qu'ils seront face à une situation réelle, nouvelle et non mémorisée, ils vont faire des erreurs ou inventer des faits (ce qu'on appelle des « hallucinations »).

En résumé, avec une métaphore finale

Imaginez que vous testez un cuisinier en lui demandant de faire un plat dont vous lui donnez la recette exacte. Il le fait parfaitement.

Le score : 10/10.
La réalité : Il sait juste copier une recette.
Le vrai test : Donnez-lui des ingrédients au hasard et demandez-lui de créer un plat sans recette. Là, on verra s'il est un vrai chef ou juste un photocopieur.

Cette étude nous dit : Arrêtons de faire confiance aux scores des robots sur les examens publics. Ils ont probablement triché en ayant vu les réponses. Pour savoir s'ils sont intelligents, il faut leur donner des examens qu'ils n'ont jamais vus.

Are Large Language Models Truly Smarter Than Humans?

1. Le Problème : Le « Copier-Coller » Géant

2. Les Trois Expériences (Les Trois Enquêtes)

Expérience 1 : La Recherche Google (La Preuve Externe)

Expérience 2 : Le Jeu du « Parapluie » (La Preuve Comportementale)

Expérience 3 : Le Test de Mémoire Cachée (La Preuve Intérieure)

3. Le Cas Spécial : Le Robot « DeepSeek-R1 »

4. La Conclusion : Qui est vraiment intelligent ?

En résumé, avec une métaphore finale

1. Problématique

2. Méthodologie

3. Contributions Clés

4. Résultats Principaux

A. Contamination et Gain de Performance (Expérience 1)

B. Dégradation par Paraphrase (Expérience 2)

C. Mémorisation Comportementale (Expérience 3)

5. Signification et Implications

Are Large Language Models Truly Smarter Than Humans?

1. Le Problème : Le « Copier-Coller » Géant

2. Les Trois Expériences (Les Trois Enquêtes)

Expérience 1 : La Recherche Google (La Preuve Externe)

Expérience 2 : Le Jeu du « Parapluie » (La Preuve Comportementale)

Expérience 3 : Le Test de Mémoire Cachée (La Preuve Intérieure)

3. Le Cas Spécial : Le Robot « DeepSeek-R1 »

4. La Conclusion : Qui est vraiment intelligent ?

En résumé, avec une métaphore finale

1. Problématique

2. Méthodologie

3. Contributions Clés

4. Résultats Principaux

A. Contamination et Gain de Performance (Expérience 1)

B. Dégradation par Paraphrase (Expérience 2)

C. Mémorisation Comportementale (Expérience 3)

5. Signification et Implications

Articles similaires

Exploration and Exploitation Errors Are Measurable for Language Model Agents

SciFi: A Safe, Lightweight, User-Friendly, and Fully Autonomous Agentic AI Workflow for Scientific Applications

Numerical Instability and Chaos: Quantifying the Unpredictability of Large Language Models

Optimizing Earth Observation Satellite Schedules under Unknown Operational Constraints: An Active Constraint Acquisition Approach

WebXSkill: Skill Learning for Autonomous Web Agents