Auteurs originaux : David Gringras, Misha Salahshoor

Publié 2026-05-07

📖 6 min de lecture🧠 Analyse approfondie

Auteurs originaux : David Gringras, Misha Salahshoor

Article original sous licence CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Ceci est une explication générée par l'IA de l'article ci-dessous. Elle n'a pas été rédigée ni approuvée par les auteurs. Pour une précision technique, consultez l'article original. Lire la clause de non-responsabilité complète

Each language version is independently generated for its own context, not a direct translation.

La Grande Idée : Le Problème du « Vieux Menu »

Imaginez que vous entriez dans un restaurant haut de gamme en 2026. Vous demandez au serveur : « Que peut faire cette cuisine ? » Le serveur vous remet un menu, mais c'est un menu de 2023. Il liste des plats préparés avec des ingrédients qui ne sont plus disponibles et des techniques de cuisson qui ont été remplacées par des méthodes plus rapides et plus intelligentes.

Lorsque vous lisez le menu, vous pourriez conclure : « Ce restaurant ne peut pas faire de bons plats. » Mais ce n'est pas vrai. Le restaurant peut faire de bons plats ; ils n'ont tout simplement pas mis à jour le menu que vous lisez.

Ce document soutient que la recherche académique sur l'IA fait exactement cela.

Les chercheurs testent des modèles d'IA qui sont déjà « anciens » (d'il y a un ou deux ans) et les évaluent de manière « basique » (sans utiliser leurs toutes dernières et plus intelligentes fonctionnalités). Ensuite, ils publient des articles en déclarant : « L'IA ne peut pas faire X. » Mais parce qu'ils n'ont pas testé l'IA actuelle ni utilisé ses paramètres actuels, la conclusion est trompeuse. C'est comme juger une Ferrari de 2026 en conduisant une Ford Pinto de 2023.

Les Trois Façons dont le « Menu » est Obsolète

Les auteurs ont constaté que l'écart entre ce que l'IA peut réellement faire maintenant et ce que les articles disent qu'elle peut faire est énorme. Ils ont décomposé cet écart en trois parties :

1. Le Décalage Temporel (Le Problème de « L'Actualité d'Hier »)

L'Analogie : Imaginez un critique technologique testant un nouveau smartphone. Mais au lieu de tester le téléphone sorti aujourd'hui, il teste un modèle sorti il y a 18 mois.
La Découverte : L'article médian de cette étude a testé un modèle d'IA qui était environ une génération majeure en retard par rapport à la meilleure IA disponible à l'époque. Si la meilleure IA est une « Super-Cerveau », les articles testaient principalement un « Smartphone » de l'année précédente.

2. Le Décalage de Niveau (Le Problème de la « Version Économique »)

L'Analogie : Imaginez qu'un constructeur automobile lance deux voitures : un modèle « Pro » avec un moteur turbo et un modèle « Mini » avec un moteur standard. Un critique achète le « Mini » car il est moins cher, le fait rouler autour du pâté de maisons, et rédige un rapport en déclarant : « Cette marque de voiture est lente. » Il n'a jamais conduit le « Pro ».
La Découverte : Même lorsque les chercheurs utilisaient la « bonne » famille d'IA (comme GPT ou Claude), ils testaient souvent la version moins chère et plus faible (comme « Mini » ou « Flash ») alors qu'une version « Pro » ou « Opus » beaucoup plus puissante était déjà disponible.

3. Le Décalage de Configuration (Le Problème de « Lumière Éteinte »)

L'Analogie : Imaginez que vous testez un robot de haute technologie capable de penser, d'utiliser des outils et de résoudre des énigmes. Mais vous le testez avec son interrupteur de « pensée » éteint, sa boîte à « outils » verrouillée, et vous ne lui posez qu'une seule question simple sans lui donner d'indices. Vous concluez ensuite : « Ce robot est inutile. »
La Découverte : C'est la plus grande surprise. L'IA moderne possède un « mode de raisonnement » (comme un processus de réflexion profonde) et peut utiliser des outils (comme la recherche web ou les éditeurs de code).
- Seuls 3,2 % des articles testant ces modèles de « réflexion » ont réellement indiqué s'ils avaient activé ou désactivé le mode de réflexion.
- La plupart des articles ont testé l'IA en mode « zéro-shot » (en posant une question une seule fois) au lieu de lui laisser le temps de réfléchir ou de lui fournir des outils pour l'aider.
- Résultat : Ils testent l'IA les mains liées dans le dos, puis affirment qu'elle ne peut pas faire le travail.

Le Piège de la « Généralisation »

Le document a constaté que 52,5 % des résumés (les courts résumés au début des articles) commettaient une erreur dangereuse.

Ce qu'ils ont fait : Ils ont testé une IA spécifique, plus ancienne et plus faible.
Ce qu'ils ont écrit : Ils ont conclu que « l'IA » (en tant que catégorie globale) ne pouvait pas accomplir la tâche.
L'Analogie : C'est comme tester un vélo spécifique et cassé, puis écrire une une de journal : « Les vélos sont dangereux. » Le titre ignore le fait qu'ils n'ont testé qu'un seul vélo cassé, et non tous les vélos.

Parce que ces titres sont cités par des médecins, des avocats et des décideurs politiques, le monde commence à croire que l'IA est pire qu'elle ne l'est réellement.

Pourquoi Cela Arrive-t-il ? (Ce n'est Pas de la Malveillance)

Les auteurs prennent soin de préciser : Les chercheurs ne mentent pas. Ils font de leur mieux avec les outils dont ils disposent.

Argent : Exécuter les modèles d'IA les plus récents et les plus intelligents est incroyablement coûteux. Les chercheurs académiques ne peuvent souvent pas se permettre les versions « Pro », ils utilisent donc les versions gratuites ou bon marché.
Temps : Il faut des années pour publier un article. Au moment où un article est imprimé, le monde de l'IA a déjà évolué.
Habitude : Les règles pour rédiger ces articles ont été écrites avant que l'IA n'ait des « modes de réflexion » ou des « trousses d'outils ». Les chercheurs suivent d'anciennes règles qui ne correspondent pas à la nouvelle technologie.

La Solution : Un Nouveau Système d'« Étiquetage »

Le document propose une solution simple appelée versio-ai. C'est comme une nouvelle étiquette nutritionnelle pour les articles sur l'IA. Avant qu'un article ne soit publié, les auteurs doivent clairement indiquer :

Exactement quel modèle ils ont utilisé (par exemple, « GPT-5.5 Pro », et non simplement « GPT »).
Quand ils l'ont testé.
Comment ils l'ont testé (Ont-ils activé le mode de « réflexion » ? Ont-ils fourni des outils ?).

Si ces trois éléments manquent, l'article doit être rejeté. Cela ne rend pas l'IA plus intelligente, mais cela nous empêche de lire le « vieux menu » et de penser que le restaurant a arrêté de cuisiner.

Résumé

La littérature académique nous montre actuellement une ombre de ce que l'IA peut faire, et non la réalité. C'est une ombre projetée par des modèles plus anciens et plus faibles, testés de manière basique. L'écart entre cette ombre et la véritable IA s'élargit chaque année. Le document soutient que, sauf si les chercheurs commencent à être plus précis sur exactement ce qu'ils ont testé, le monde continuera de sous-estimer ce dont l'IA est capable.

Each language version is independently generated for its own context, not a direct translation.

Résumé technique : Le retard des frontières : un audit bibliométrique de la représentation erronée des capacités dans l'évaluation académique de l'IA

1. Énoncé du problème

La littérature appliquée évaluant les grands modèles de langage (LLM) dans des domaines tels que la médecine, le droit, la programmation, l'éducation et le raisonnement scientifique représente systématiquement de manière erronée les capacités actuelles de l'IA. L'audit identifie une rupture structurelle entre les systèmes testés dans les articles académiques et la « frontière » contemporaine des capacités de l'IA.

Cette rupture, qualifiée de fossé d'élicitation de la publication, découle de trois facteurs cumulatifs :

Retard temporel : Les articles évaluent des modèles publiés des mois ou des années avant la date de publication, manquant ainsi les générations ultérieures.
Retard de niveau : Les articles testent souvent des niveaux inférieurs d'une famille de modèles (par exemple, les versions « mini » ou « Flash ») alors que des versions plus puissantes (par exemple, « Pro » ou « Opus ») sont déjà publiques.
Sous-spécification de la configuration : Les sections méthodologiques omettent fréquemment des détails critiques d'élicitation (mode de raisonnement, accès aux outils, étayage, paramètres d'échantillonnage), conduisant à une évaluation « naïve » qui ne capture pas le plein potentiel du modèle.

La conséquence est que les résumés et les citations ultérieures généralisent des résultats spécifiques et sous-spécifiés à la classe de l'« IA », créant un récit trompeur pour les cliniciens, les décideurs politiques et les consommateurs en aval concernant ce que l'IA peut actuellement faire.

2. Méthodologie

L'étude est un audit bibliométrique pré-enregistré réalisé sur un corpus de littérature académique couvrant la période du 1er janvier 2022 au 1er avril 2026.

Construction du corpus

Source : Instantané OpenAlex (mars 2026).
Portée : 112 303 enregistrements appariés via des mots-clés (« LLM », « GPT », « Claude », etc.) dans cinq domaines : médecine, droit, programmation, éducation et raisonnement scientifique.
Inclusion : 18 574 articles ont répondu aux critères d'admissibilité (évaluation empirique d'un LLM nommé sur une tâche appliquée, résultats quantitatifs, publication par des pairs ou prépublication de pointe).
Audit de couverture : Un échantillon aléatoire stratifié d'un pool résiduel a estimé le taux de capture à environ 80 %, sans biais significatif dans les résultats principaux (ampleur de l'écart, valence, cadrage).

Cadre de mesure

L'audit note les articles selon trois dimensions :

Dimension des capacités : Mesurée via l'Index des capacités Epoch AI (eci). Le résultat principal est le écart_eci, défini comme la différence entre la frontière contemporaine (modèle eci le plus élevé disponible à la date d'évaluation) et le modèle testé dans l'article.
- Imputation : Si la date d'évaluation n'est pas divulguée, elle est imputée comme max(date_publication - 180 jours, date_sortie_du_modèle).
- Sensibilité : Les résultats sont validés par rapport à des échelles indépendantes : l'Elo de Chatbot Arena et l'indice d'intelligence d'Artificial Analysis.
Dimension d'élicitation : Évalue la divulgation des détails de configuration (mode de raisonnement, effort de réflexion, utilisation d'outils, étayage, architecture multi-agents, stratégie de prompting).
Dimension interprétative : Mesure si les conclusions généralisent du modèle spécifique testé à la classe de l'« IA » (cadrage ai_generic) et si des comparateurs humains ou professionnels sont présents.

Extraction et validation

Pipeline : Extraction automatisée utilisant un LM de pointe (V4F-Max) pour la classification d'inclusion et l'extraction de champs, validée par rapport à une norme or à double humain (n=300) et des triades inter-familles (GPT-5, Claude Opus, Gemini).
Validation : Les scores de $\kappa$ de Cohen ont dépassé les seuils pré-enregistrés (par exemple, 0,896 pour le modèle principal, 0,767 pour la valence de la conclusion).
Tests d'hypothèse : Les tests confirmatoires pré-enregistrés (H1, H3, H6) utilisent la correction descendante de Holm ( $\alpha=0,05$ ) par rapport à des nullités structurelles zéro. Les grandeurs descriptives (H2, H4, H5) utilisent des intervalles de confiance simultanés à 95 %.

3. Contributions clés

Quantification du fossé d'élicitation de la publication : L'audit fournit la première mesure pré-enregistrée, transversale aux domaines, de la distance entre les évaluations académiques et la frontière, en la décomposant en composantes temporelles, de niveau et de configuration.
Définition de l'« échec composé » : Il opérationnalise une métrique pour les articles qui échouent simultanément sur les plans des capacités (en retard sur la frontière), de l'élicitation (manque de détails de configuration) et de l'interprétation (affirmations trop généralisées).
Liste de contrôle versio-ai v1.2 : Une liste de contrôle de 13 éléments conçue pour étendre les cadres existants (CONSORT-AI, TRIPOD-LLM, etc.) en imposant la divulgation de la « surface d'élicitation » (instantané du modèle, date d'évaluation, mode de raisonnement, accès aux outils, etc.).
Outil frontierlag : Un package Python en direct et un outil web permettant aux utilisateurs de saisir un DOI et de recevoir un rapport d'audit détaillant la distance de l'article par rapport à la frontière et son statut de divulgation.

4. Résultats clés

Retard significatif et croissant (H1, H2) :
- L'article médian évalue un modèle +10,85 eci en retard par rapport à la frontière contemporaine. Cet écart est environ 1,4 fois la distance entre Claude Sonnet 3.7 et Opus 4.5 (un saut majeur de niveau).
- L'écart s'élargit à un rythme de +5,53 eci/an, indiquant que la littérature recule par rapport à la frontière plus rapidement que les cycles de publication ne peuvent renouveler le corpus.
Retard de niveau (H3) :
- Parmi les articles où un sibling plus puissant était public dans les 90 jours, le retard de niveau médian est de +12,63 eci.
Sous-spécification de la configuration (H4) :
- Seuls 3,2 % des résumés et 21,2 % des textes intégraux divulguent le statut du mode de raisonnement pour les modèles capables de raisonnement.
- Les dates d'évaluation sont divulguées dans seulement 18,4 % des articles en texte intégral.
Généralisation au niveau de la classe (Descriptif) :
- 52,5 % des résumés formulent les conclusions au niveau de l'« IA » plutôt que du modèle spécifique testé.
- Cette tendance augmente, les cotes augmentant de OR = 1,23 par an.
Taux d'échec composé (H5) :
- Selon une opérationnalisation conservatrice, 9,2 % des articles admissibles échouent simultanément aux trois dimensions de l'audit.
- Selon une analyse de sensibilité inclusive, ce taux s'élève à 38,3 %.
Asymétrie de valence (H6) :
- Aucune corrélation significative n'a été trouvée entre l'ampleur du retard et la valence (positive/négative) de la conclusion de l'article.

5. Signification et affirmations

L'article affirme que, dans l'ensemble, le registre académique est de plus en plus incapable de dire aux lecteurs de quelle IA il parle.

Structurel, non individuel : L'audit déclare explicitement qu'il n'accuse pas les auteurs individuels de mauvaise foi. Le modèle est un équilibre prévisible des cycles d'examen par les pairs, de l'accès aux API contraint par les coûts et des normes de reporting héritées d'une ère pré-modèle de raisonnement.
Représentation erronée vs Vérité : L'audit mesure la « distance par rapport à la frontière », et non la « distance par rapport à la vérité ». Il ne prétend pas que le réexamen de ces expériences sur des modèles de frontière inverserait nécessairement les résultats, mais plutôt que les affirmations publiées sont déconnectées de l'état actuel de l'art.
Impact en aval : Les résultats suggèrent que les notes d'information politiques, les décisions d'achat cliniques et la recherche sur la sécurité citant ces articles fonctionnent sur des données obsolètes et sous-spécifiées.
Remède : L'article propose une responsabilité partagée entre les auteurs, les éditeurs et les financeurs :
- Auteurs : Adopter la liste de contrôle versio-ai pour divulguer la surface de configuration.
- Éditeurs/Examinateurs : Imposer la divulgation des instantanés de modèles, des dates d'évaluation et des modes de raisonnement.
- Financeurs : Conditionner les subventions à la divulgation et fournir des budgets d'accès aux API permettant aux groupes académiques d'évaluer des configurations proches de la frontière plutôt que de compter uniquement sur des alternatives moins chères et obsolètes.

L'article conclut que si aucun article unique ne « répond mal à sa propre question », la littérature collective présente une vision déformée des capacités de l'IA qui nécessite une intervention structurelle pour être corrigée.

Frontier Lag: A Bibliometric Audit of Capability Misrepresentation in Academic AI Evaluation