OrdinalBench: A Benchmark Dataset for Diagnosing Generalization Limits in Ordinal Number Understanding of Vision-Language Models

Each language version is independently generated for its own context, not a direct translation.

ORDINALBENCH: De "Reken- en Navigatie-Test" voor Slimme Camera's

Stel je voor dat je een robot hebt die niet alleen kan zien, maar ook kan praten. Je kunt hem vragen: "Wat zie je?" en hij zegt: "Ik zie een rode auto." Dat is makkelijk. Maar wat als je vraagt: "Wie is de 260e auto die je tegenkomt als je rechtsom om de hoek loopt, en telkens elke derde auto overslaat?"

Dat is precies waar de onderzoekers van dit papier op stuiten. Ze hebben ontdekt dat deze slimme camera's (die ze Vision-Language Models of VLMs noemen) heel goed zijn in het herkennen van dingen, maar totaal in de war raken als ze moeten tellen in een bepaalde volgorde, vooral als het getal groot is of het pad ingewikkeld.

Om dit probleem op te lossen, hebben ze ORDINALBENCH bedacht. Laten we uitleggen wat dat is, met een paar leuke vergelijkingen.

1. Het Probleem: De "Gouden Kooi" van de Robot

Stel je voor dat je een robot in een kamer zet vol met speelgoed.

De oude test: Je vraagt: "Hoeveel rode ballen zijn er?" De robot telt en zegt: "Vijf." Perfect!
De nieuwe test (ORDINALBENCH): Je zegt: "Begin bij de blauwe bal. Loop in een cirkel om de kamer. Tel elke bal voorbij. Welke bal is de 260e?"

Hier gaat het mis. De robot kan de blauwe bal zien, maar zodra hij moet blijven tellen terwijl hij rondloopt, en vooral als het getal 260 is (terwijl er misschien maar 20 ballen in de kamer zijn, dus hij moet de cirkel 13 keer afleggen), raakt hij de draad kwijt. Het is alsof hij probeert een lange lijst uit zijn hoofd te leren, maar zijn "korte termijn geheugen" te kort is.

2. De Oplossing: Een Speciale Testbaan

De onderzoekers hebben een digitale testbaan gebouwd genaamd ORDINALBENCH. Het is als een video-game voor robots, maar dan puur om hun reken- en navigatie-vaardigheden te testen.

Ze hebben drie soorten "niveaus" bedacht om de moeilijkheidsgraad te verhogen:

Niveau 1: De Ronde Lijn (Single-Loop)
Denk aan een rij auto's in een file die in een cirkel rijdt. De robot moet gewoon tellen: 1, 2, 3... tot hij bij het juiste nummer is. Dit is de "wandeling in het park".
Niveau 2: Het Labyrint (Maze-Loop)
Nu is het geen cirkel meer, maar een doolhof. De robot moet regels volgen: "Ga rechtdoor, maar als je tegen een muur loopt, sla rechtsaf." Dit is als een hond die een hondenuitlaat moet volgen door een struikgewas. Als de robot even afdwaalt, is hij de weg kwijt.
Niveau 3: De "Slaap-Over" Teller (Skip Counting)
Dit is de echte valstrik. De robot moet niet elke stap tellen, maar bijvoorbeeld elke 3e stap. Hij moet dus in zijn hoofd houden: "Stap 1 (niet tellen), Stap 2 (niet tellen), Stap 3 (JA, dat is 1!)." Dit vereist een soort interne rekenmachine die de meeste robots niet hebben.

3. Wat hebben ze ontdekt? (De "Aha!"-momenten)

De onderzoekers hebben de slimste robots ter wereld (zoals GPT-5, Gemini en Qwen) deze test laten doen. Het resultaat was verrassend en een beetje triest voor de robots:

Ze zijn goed in het zien, slecht in het doen: Als je vraagt "Wat is dit?", weten ze het. Maar als je zegt "Doe dit stap voor stap", haken ze af.
Grote getallen zijn een nachtmerrie: Zodra het getal boven de 100 komt, of als het pad heel lang is, zakken de scores dramatisch. Het is alsof de robot vergeet waar hij begon zodra hij te ver loopt.
Ze kunnen niet "tellen met sprongen": Bij de "elke 3e stap" test faalden bijna alle robots. Ze konden de regel niet in hun hoofd houden terwijl ze tegelijkertijd keken waar ze waren.
De "Gok-Strategie": Bij de moeilijkste tests (grote doolhoven) deden sommige robots het niet beter dan als ze blindelings een antwoord hadden geraden.

4. Waarom is dit belangrijk?

Je zou kunnen zeggen: "Wie wil er nou de 260e auto tellen?"

Maar dit gaat over iets veel belangrijkers: Vertrouwen.
Als we robots willen gebruiken in de echte wereld – bijvoorbeeld een robot die medicijnen haalt in een ziekenhuis, of een zelfrijdende auto die een rijtje auto's moet passeren – moeten ze niet alleen zien, maar ook begrijpen en navigeren.

Als een robot niet kan tellen of een route kan volgen, kan hij geen betrouwbare assistent zijn. Hij is dan meer een "slimme camera" dan een "slimme agent".

Conclusie: De Robot moet nog leren

ORDINALBENCH is als een schoolrapport voor robots. Het laat zien dat ze nog veel moeten leren over het volgen van instructies en het bijhouden van een lange reeks stappen.

De onderzoekers zeggen eigenlijk: "We hebben een spiegel opgezet. Kijk eens hoe vaak deze robots struikelen over simpele telproblemen. Als we dit niet oplossen, kunnen we ze nooit echt veilig in de echte wereld zetten."

Kortom: De robots zijn slim, maar ze zijn nog niet zo slim als een kind dat een doolhof in een boek kan oplossen. Ze moeten nog veel oefenen!

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Hoewel Vision-Language Models (VLM's) aanzienlijke vooruitgang hebben geboekt op multimodale benchmarks, vertonen ze fundamentele tekortkomingen in het begrijpen van ordinaal getallen. Dit vermogen om relatieve posities te traceren en te generaliseren naar grote indices (bijv. "klik op het 260e icoon") is cruciaal voor toepassingen zoals gebruikersinterface-automatisering en robotica.

Bestaande benchmarks focussen voornamelijk op:

Cardinaal tellen ("hoeveel objecten zijn er?").
Compositional redenering over objectattributen.

Er ontbreekt echter een diagnostisch kader om te evalueren hoe goed VLM's procedurale redenering kunnen uitvoeren: het stap-voor-stap volgen van een regel om een specifiek N-de object te identificeren, vooral onder omstandigheden met complexe ruimtelijke structuren (zoals labyrinten) en zeer grote getallen. De auteurs vermoeden dat deze falen wijzen op een kwetsbare generalisatie, versterkt door de onderliggende "next-token prediction" doelstelling van veel modellen.

Methodologie: ORDINALBENCH

De auteurs introduceren ORDINALBENCH, een diagnostische benchmark die ordinaal getalbegrip standaardiseert als een evaluatietaken.

1. Kerntaak: N-de Object Identificatie
De taak vereist dat een model, gegeven een afbeelding en een traversieregel, begint bij een referentieobject en telt tot het N-de object, waarbij het de interne staat (de telling) moet bijhouden.

Input: Een afbeelding ( $I$ ), een traversieregel ( $R$ ), een startobject ( $o_{start}$ ), een doel-ordinaal ( $N$ ) en een stapgrootte ( $k$ ).
Output: Een voorspeld doelobject ( $\hat{o}_N$ ) en een gestructureerde redeneertrace ( $\hat{T}$ ) in JSON-formaat, die elke stap van het telproces documenteert.
Skip Counting: De taak omvat ook "skip counting" (stapgrootte $k > 1$ ), waarbij het model elke $k$ stappen moet tellen, wat algoritmische uitvoering vereist in plaats van simpel instructievolgen.

2. Drie Dimensies van Moeilijkheidsgraad
De benchmark controleert systematisch de moeilijkheidsgraad langs drie assen om de oorzaak van falen te isoleren:

Ruimtelijke Complexiteit: Van eenvoudige gesloten lussen (Single-Loop) tot algoritmisch gegenereerde labyrinten (Maze-Loop) zonder doodlopende wegen.
Aantal Objecten: Variatie in het totale aantal objecten of rastergrootte om de werking van het werkgeheugen en aandacht te testen.
Orde-magnitude: Variatie in het doelgetal $N$ , variërend van binnen het bereik van objecten tot extreme waarden tot 300 (Large Scale).

3. Dataset en Generatie

De dataset bevat 39.000 vraag-antwoordparen gegenereerd via een geautomatiseerde pipeline.
Het gebruikt synthetische data (2D en 3D scènes) met duidelijke labels (bijv. A00-Z99) om visuele ambiguïteit uit te sluiten en de focus puur op redenering te houden.
Elke vraag is voorzien van een ground-truth redeneertrace.

4. Evaluatiemetrics
Naast de eindnauwkeurigheid worden drie trace-gebaseerde metrics gebruikt om het proces te diagnosticeren:

Final Accuracy (Acc@N): Is het eindresultaat correct?
Normalized Longest Correct Prefix (nLCP): Hoe lang is het langste correcte voorvoegsel van de trace? (Meet robuustheid van het denkproces).
Stepwise Trace Accuracy (STA): Hoeveel individuele stappen in de trace zijn correct?
Trace Coverage (Cov.): Kan het model überhaupt een geldige gestructureerde output genereren?

Belangrijkste Resultaten

De auteurs hebben diverse state-of-the-art VLM's (zoals GPT-5, Gemini 2.5, Qwen2.5-VL, InternVL3.5, Molmo) geëvalueerd in een zero-shot setting.

1. Drastische prestatiedaling bij complexiteit

In eenvoudige 2D-lussen presteerden sommige modellen redelijk (bijv. Qwen2.5-VL-32B bereikte ~32% nauwkeurigheid).
Bij labyrint-structuren (Maze-Loop) daalde de prestatie van alle modellen drastisch. Zelfs GPT-5 bereikte slechts 11,04% nauwkeurigheid, wat nauwelijks boven het willekeurige gokniveau ligt.
Modellen zoals de Molmo-serie presteerden overal onder het willekeurige niveau, voornamelijk door een lage "Trace Coverage" (ze konden de gestructureerde JSON-output niet correct genereren).

2. Impact van Ordinale Magnitude en Skip Counting

Grote Getallen: Er is een scherpe daling in prestaties naarmate $N$ toeneemt (van "binnen objecten" naar "Large Scale" >100). In labyrinten met grote $N$ daalde de nauwkeurigheid van veel modellen naar onder de 3%.
Skip Counting: Het introduceren van een stapgrootte $k > 1$ (bijv. tel elke 3e stap) veroorzaakte een catastrofale daling. Modellen die bij $k=1$ nog redelijk presteerden, zakten bij $k=2$ vaak naar het willekeurige niveau. Dit toont aan dat modellen moeite hebben met het bijhouden van interne staat en algoritmen uit te voeren.

3. Algemene bevinding
De resultaten tonen aan dat VLM's sterk zijn in statische patroonherkenning, maar fundamenteel tekortschieten in procedurale en algoritmische redenering over visuele input. Ze falen in het stabiel bijhouden van een interne staat ("waar zijn we nu in de telling?") tijdens het uitvoeren van meervoudige stappen.

Bijdragen en Significatie

1. Nieuwe Benchmark: ORDINALBENCH is de eerste diagnostische benchmark die specifiek is ontworpen om generalisatie in ordinaal getalbegrip te testen onder gecontroleerde, schaalbare omstandigheden.
2. Inzicht in Grenzen: Het paper identificeert duidelijke zwaktes in huidige SOTA-modellen, met name hun onvermogen om complexe ruimtelijke regels en algoritmische instructies (zoals skip counting) consistent toe te passen.
3. Evaluatie Framework: De introductie van trace-metrics (nLCP, STA) biedt een manier om waar het redeneringsproces faalt, in plaats van alleen het eindresultaat te beoordelen.
4. Richting voor Toekomstig Onderzoek: De auteurs suggereren dat robuustere VLM's nodig hebben:
* Expliciete, gestructureerde staatrepresentaties om de "taal-flesnek" te verminderen.
* Trainingscurricula die zich richten op stap-voor-stap procedurale uitvoering.
* Evaluaties die verder gaan dan eindnauwkeurigheid.

Conclusie
ORDINALBENCH onthult dat huidige Vision-Language Models nog niet klaar zijn om te fungeren als autonome "visuele agenten" die complexe, meervoudige instructies in visuele omgevingen kunnen uitvoeren. De benchmark biedt een reproduceerbaar testbed om de ontwikkeling van modellen met sterkere sequentiële redeneercapaciteiten te stimuleren. Alle data en code zijn openbaar beschikbaar.

OrdinalBench: A Benchmark Dataset for Diagnosing Generalization Limits in Ordinal Number Understanding of Vision-Language Models

1. Het Probleem: De "Gouden Kooi" van de Robot

2. De Oplossing: Een Speciale Testbaan

3. Wat hebben ze ontdekt? (De "Aha!"-momenten)

4. Waarom is dit belangrijk?

Conclusie: De Robot moet nog leren

Probleemstelling

Methodologie: ORDINALBENCH

Belangrijkste Resultaten

Bijdragen en Significatie

Meer zoals dit

On the security of 2-key triple DES

Security issues in a group key establishment protocol

The impact of quantum computing on real-world security: A 5G case study

Yet another insecure group key distribution scheme using secret sharing

How not to secure wireless sensor networks: A plethora of insecure polynomial-based key pre-distribution schemes