Each language version is independently generated for its own context, not a direct translation.
🕵️♂️ Le Grand Test de l'Intelligence Artificielle : "Où est le 260ᵉ objet ?"
Imaginez que vous avez un assistant très intelligent, capable de voir des images et de parler comme un humain. C'est ce qu'on appelle un Modèle Vision-Langage (comme GPT-5 ou Gemini). Il est excellent pour dire "C'est un chat" ou "Il y a trois pommes".
Mais que se passe-t-il si vous lui demandez : "Regarde cette image remplie de voitures. Trouve-moi la 260ᵉ voiture si l'on commence à compter depuis la noire et qu'on suit un chemin en spirale ?"
C'est là que ça coince. C'est exactement ce que les chercheurs ont découvert avec leur nouveau jeu de test appelé ORDINALBENCH.
🧩 L'Analogie du Labyrinthe et du Compteur
Pour comprendre ce papier, imaginez un labyrinthe géant rempli de boîtes colorées numérotées.
- La Tâche : On donne à l'IA une règle simple : "Commence ici, tourne à droite à chaque intersection, et saute 3 boîtes à chaque fois. Dis-moi quelle est la boîte au 260ᵉ saut."
- Le Problème : Les IA actuelles sont comme des enfants très brillants en lecture, mais qui perdent le fil dès qu'ils doivent faire des maths complexes en marchant.
- Si le chemin est court (par exemple, trouver la 5ᵉ boîte), l'IA réussit souvent.
- Mais si le chemin est long (la 260ᵉ boîte) ou s'il faut sauter des cases (compter par 3), l'IA commence à halluciner. Elle oublie où elle en est, elle se perd dans le labyrinthe, ou elle invente un numéro au hasard.
🏗️ Comment les chercheurs ont créé ce test (ORDINALBENCH)
Les auteurs (de l'Université de Kyoto) ont créé un laboratoire de test parfait pour voir exactement où l'IA échoue. Ils ont généré 39 000 images et questions avec trois niveaux de difficulté, comme dans un jeu vidéo :
- Niveau 1 : Le Circuit Simple. Des objets en cercle. Facile de suivre le chemin.
- Niveau 2 : Le Labyrinthe. Des chemins sinueux, comme un dédale. L'IA doit garder en tête sa position dans l'espace.
- Niveau 3 : Le Défi des Grands Nombres. Au lieu de demander "la 5ᵉ", on demande "la 300ᵉ". C'est là que la mémoire de l'IA craque.
En plus, ils ont ajouté une règle de "comptage par bonds" (stride). Au lieu de compter 1, 2, 3, 4... on doit compter 1, 4, 7, 10... Cela force l'IA à faire un calcul mental à chaque étape, pas juste à regarder.
📉 Ce qu'ils ont découvert (Les Résultats)
Ils ont testé les plus grandes IA du monde (GPT-5, Gemini, Qwen, etc.) et le résultat est sans appel : elles sont très mauvaises à ce jeu.
- La chute libre : Dès que le chemin devient compliqué ou que le nombre dépasse 100, la performance de l'IA s'effondre. Elle passe de 30% de réussite à moins de 5% (ce qui est presque du hasard).
- L'oubli de la trace : Même quand l'IA donne la bonne réponse finale, si on regarde comment elle a compté (étape par étape), on voit qu'elle s'est trompée en cours de route et a "deviné" la fin. C'est comme si un élève avait oublié sa table de multiplication mais avait deviné la réponse finale.
- Le problème de l'IA : Les chercheurs expliquent que les IA sont très fortes pour reconnaître des choses (c'est une voiture !), mais très faibles pour exécuter des procédures (suivre un plan étape par étape). Elles n'ont pas de "mémoire de travail" solide pour garder le fil d'une longue instruction.
💡 Pourquoi est-ce important ?
Aujourd'hui, on veut utiliser les IA pour des tâches réelles :
- Un robot dans une usine qui doit saisir la 100ᵉ pièce sur un convoyeur.
- Un agent logiciel qui doit cliquer sur le 50ᵉ bouton d'un menu complexe.
Si l'IA ne peut pas compter correctement ou suivre un chemin long, elle ne pourra jamais être un véritable "agent" autonome. Elle restera un simple observateur.
🚀 La Conclusion
ORDINALBENCH est une nouvelle règle du jeu. Il ne suffit plus de dire "Je suis intelligent parce que je reconnais des chats". Il faut maintenant prouver qu'on peut raisonner et suivre des instructions complexes sans se perdre.
C'est un appel à l'industrie pour créer des IA qui ne se contentent pas de "voir", mais qui savent vraiment "penser" et "compter" dans le monde réel.
En résumé : Les IA actuelles sont comme des touristes qui savent prendre de belles photos, mais qui se perdent dès qu'on leur demande de faire 300 pas en suivant une carte précise. Ce nouveau test (ORDINALBENCH) est la boussole pour les aider à ne plus se perdre.