OrdinalBench: A Benchmark Dataset for Diagnosing Generalization Limits in Ordinal Number Understanding of Vision-Language Models

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Le Grand Test de l'Intelligence Artificielle : "Où est le 260ᵉ objet ?"

Imaginez que vous avez un assistant très intelligent, capable de voir des images et de parler comme un humain. C'est ce qu'on appelle un Modèle Vision-Langage (comme GPT-5 ou Gemini). Il est excellent pour dire "C'est un chat" ou "Il y a trois pommes".

Mais que se passe-t-il si vous lui demandez : "Regarde cette image remplie de voitures. Trouve-moi la 260ᵉ voiture si l'on commence à compter depuis la noire et qu'on suit un chemin en spirale ?"

C'est là que ça coince. C'est exactement ce que les chercheurs ont découvert avec leur nouveau jeu de test appelé ORDINALBENCH.

🧩 L'Analogie du Labyrinthe et du Compteur

Pour comprendre ce papier, imaginez un labyrinthe géant rempli de boîtes colorées numérotées.

La Tâche : On donne à l'IA une règle simple : "Commence ici, tourne à droite à chaque intersection, et saute 3 boîtes à chaque fois. Dis-moi quelle est la boîte au 260ᵉ saut."
Le Problème : Les IA actuelles sont comme des enfants très brillants en lecture, mais qui perdent le fil dès qu'ils doivent faire des maths complexes en marchant.
- Si le chemin est court (par exemple, trouver la 5ᵉ boîte), l'IA réussit souvent.
- Mais si le chemin est long (la 260ᵉ boîte) ou s'il faut sauter des cases (compter par 3), l'IA commence à halluciner. Elle oublie où elle en est, elle se perd dans le labyrinthe, ou elle invente un numéro au hasard.

🏗️ Comment les chercheurs ont créé ce test (ORDINALBENCH)

Les auteurs (de l'Université de Kyoto) ont créé un laboratoire de test parfait pour voir exactement où l'IA échoue. Ils ont généré 39 000 images et questions avec trois niveaux de difficulté, comme dans un jeu vidéo :

Niveau 1 : Le Circuit Simple. Des objets en cercle. Facile de suivre le chemin.
Niveau 2 : Le Labyrinthe. Des chemins sinueux, comme un dédale. L'IA doit garder en tête sa position dans l'espace.
Niveau 3 : Le Défi des Grands Nombres. Au lieu de demander "la 5ᵉ", on demande "la 300ᵉ". C'est là que la mémoire de l'IA craque.

En plus, ils ont ajouté une règle de "comptage par bonds" (stride). Au lieu de compter 1, 2, 3, 4... on doit compter 1, 4, 7, 10... Cela force l'IA à faire un calcul mental à chaque étape, pas juste à regarder.

📉 Ce qu'ils ont découvert (Les Résultats)

Ils ont testé les plus grandes IA du monde (GPT-5, Gemini, Qwen, etc.) et le résultat est sans appel : elles sont très mauvaises à ce jeu.

La chute libre : Dès que le chemin devient compliqué ou que le nombre dépasse 100, la performance de l'IA s'effondre. Elle passe de 30% de réussite à moins de 5% (ce qui est presque du hasard).
L'oubli de la trace : Même quand l'IA donne la bonne réponse finale, si on regarde comment elle a compté (étape par étape), on voit qu'elle s'est trompée en cours de route et a "deviné" la fin. C'est comme si un élève avait oublié sa table de multiplication mais avait deviné la réponse finale.
Le problème de l'IA : Les chercheurs expliquent que les IA sont très fortes pour reconnaître des choses (c'est une voiture !), mais très faibles pour exécuter des procédures (suivre un plan étape par étape). Elles n'ont pas de "mémoire de travail" solide pour garder le fil d'une longue instruction.

💡 Pourquoi est-ce important ?

Aujourd'hui, on veut utiliser les IA pour des tâches réelles :

Un robot dans une usine qui doit saisir la 100ᵉ pièce sur un convoyeur.
Un agent logiciel qui doit cliquer sur le 50ᵉ bouton d'un menu complexe.

Si l'IA ne peut pas compter correctement ou suivre un chemin long, elle ne pourra jamais être un véritable "agent" autonome. Elle restera un simple observateur.

🚀 La Conclusion

ORDINALBENCH est une nouvelle règle du jeu. Il ne suffit plus de dire "Je suis intelligent parce que je reconnais des chats". Il faut maintenant prouver qu'on peut raisonner et suivre des instructions complexes sans se perdre.

C'est un appel à l'industrie pour créer des IA qui ne se contentent pas de "voir", mais qui savent vraiment "penser" et "compter" dans le monde réel.

En résumé : Les IA actuelles sont comme des touristes qui savent prendre de belles photos, mais qui se perdent dès qu'on leur demande de faire 300 pas en suivant une carte précise. Ce nouveau test (ORDINALBENCH) est la boussole pour les aider à ne plus se perdre.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les modèles Vision-Language (VLM) ont connu des progrès significatifs sur de nombreux benchmarks multimodaux. Cependant, ils présentent des lacunes critiques dans la compréhension des nombres ordinaux (la capacité à identifier la position relative d'un objet, par exemple « le 5ème objet »).

Contrairement à la compréhension cardinale (compter le nombre total d'objets), la compréhension ordinale exige :

Un suivi séquentiel rigoureux.
Une attention soutenue sur de longues séquences.
La mise à jour d'un état interne (compteur) tout en appliquant des règles de parcours complexes.

Les auteurs constatent que les modèles actuels échouent souvent sur ces tâches, en particulier lorsqu'ils doivent généraliser à de grands indices numériques (N élevé) ou à des structures spatiales complexes (labyrinthes), suggérant une fragilité dans leur raisonnement procédural plutôt qu'un simple manque de vocabulaire.

2. Méthodologie : ORDINALBENCH

Pour diagnostiquer ces limites, les auteurs ont développé ORDINALBENCH, un benchmark de diagnostic systématique.

A. Définition de la tâche

La tâche centrale est l'identification du N-ième objet.

Entrée : Une image (2D ou 3D) contenant des objets étiquetés, une règle de parcours textuelle, un objet de départ, un nombre cible $N$ , et un pas de comptage $k$ (stride).
Processus : Le modèle doit parcourir les objets selon la règle (ex: sens horaire, règles de labyrinthe) en commençant par 1, et identifier l'objet à la position $N$ .
Sortie requise : Le modèle doit fournir non seulement la réponse finale, mais aussi une trace de raisonnement structurée (JSON) détaillant chaque étape du comptage.

B. Axes de difficulté contrôlés

La difficulté est paramétrable selon trois axes indépendants pour isoler les causes d'échec :

Complexité de l'arrangement spatial :
- Single-Loop : Boucle simple (2D/3D).
- Maze-Loop : Parcours algorithmique complexe en forme de labyrinthe (sans impasses), exigeant une gestion de la topologie globale.
Magnitude ordinale (N) :
- Within : $N$ inférieur ou égal au nombre total d'objets.
- Exceed : $N$ supérieur au nombre d'objets (boucle).
- Large Scale : $N$ très élevé (jusqu'à 300), testant la généralisation à des nombres rares dans les données d'entraînement.
Charge cognitive (Skip Counting) :
- Introduction d'un pas $k > 1$ (compter tous les $k$ objets), forçant le modèle à exécuter un algorithme de saut plutôt qu'un simple décompte séquentiel.

C. Génération des données

Données synthétiques : Générées automatiquement pour éliminer les ambiguïtés visuelles (éclairage, occlusion) et se concentrer uniquement sur le raisonnement.
Échelle : 39 000 paires Question-Réponse réparties sur 2 600 images (2D Single-Loop, 2D Maze-Loop, 3D Single-Loop).
Annotations : Chaque paire inclut une trajectoire de raisonnement de vérité terrain (ground-truth).

D. Protocole d'évaluation

Au-delà de la simple justesse de la réponse finale, le benchmark utilise des métriques de diagnostic :

Acc@N : Précision finale.
nLCP (Normalized Longest Correct Prefix) : Longueur normalisée du préfixe correct le plus long de la trace, mesurant la robustesse du début du raisonnement.
STA (Stepwise Trace Accuracy) : Précision de chaque étape individuelle de la trace.
Cov. (Trace Coverage) : Capacité du modèle à générer une trace structurée valide (sans échec d'analyse syntaxique).

3. Résultats Expérimentaux

Les auteurs ont évalué plusieurs modèles de pointe (GPT-5, Gemini 2.5, Qwen2.5-VL, InternVL3.5, Molmo) en mode zero-shot (sans fine-tuning).

Principales observations :

Dégradation sévère avec la complexité :
- Sur les boucles simples 2D, les meilleurs modèles atteignent ~32 % de précision.
- Sur les labyrinthes (Maze-Loop), la performance chute drastiquement, même pour GPT-5 (~~11 %), bien que cela reste supérieur au hasard (~~2,5 %).
- Les modèles Molmo échouent presque totalement, souvent à cause d'échecs de formatage de sortie (faible Trace Coverage).
Effet de la magnitude ordinale (N) :
- La précision diminue fortement lorsque $N$ augmente, en particulier dans la catégorie "Large Scale" ( $N \ge 100$ ).
- Dans les labyrinthes avec $N$ élevé, la précision moyenne de nombreux modèles tombe sous les 3 %, indiquant une incapacité à maintenir l'attention sur de longues séquences.
Impact du comptage par sauts (Skip Counting) :
- L'introduction d'un pas $k > 1$ provoque un effondrement des performances. Par exemple, Qwen2.5-VL-7B passe de 42 % à 11 % de précision sur une boucle simple simple quand le pas passe de 1 à 2.
- Cela démontre une difficulté majeure à exécuter des algorithmes procéduraux et à gérer l'état interne.
Charge visuelle :
- L'augmentation du nombre d'objets ou de la taille de la grille entraîne une baisse de performance plus rapide que ne le prédirait le hasard, suggérant des problèmes d'attention visuelle dans des scènes encombrées.

4. Contributions Clés

ORDINALBENCH : Un benchmark open-source standardisé pour évaluer la généralisation du raisonnement ordinal, avec un contrôle fin des variables de difficulté.
Protocole d'évaluation avancé : Introduction de métriques basées sur la trace (nLCP, STA) pour diagnostiquer où et comment le raisonnement échoue, au-delà de la simple réponse finale.
Analyse des limites des VLM : Identification claire que les modèles actuels, bien que performants en reconnaissance statique, manquent de capacités de raisonnement procédural séquentiel robuste, en particulier pour les grands nombres et les structures complexes.
Outils : Mise à disposition d'un kit d'évaluation open-source pour faciliter les comparaisons reproductibles.

5. Signification et Implications

Les résultats suggèrent que les VLM actuels souffrent d'un « goulot d'étranglement linguistique » (conversion perte d'information de la vision vers le texte) et d'un manque de connaissances procédurales (incapacité à exécuter des algorithmes de manière fiable).

Implications pour le développement futur :

Nécessité de représentations d'état explicites et structurées pour réduire l'ambiguïté.
Besoin de curricula d'entraînement mettant l'accent sur l'exécution procédurale étape par étape (de courts à longs horizons).
Importance d'évaluer les modèles non seulement sur la précision finale, mais sur la cohérence de leur processus de pensée (traces).

En conclusion, ORDINALBENCH met en lumière une faiblesse fondamentale des VLM actuels en tant qu'« agents visuels » capables de raisonner séquentiellement, et propose une voie pour développer des modèles plus robustes et capables de généralisation réelle.