OrdinalBench: A Benchmark Dataset for Diagnosing Generalization Limits in Ordinal Number Understanding of Vision-Language Models

Dit paper introduceert OrdinalBench, een diagnostisch benchmarkdataset van 39.000 vraag-antwoordparen die de generalisatiegrenzen van Vision-Language Models in het begrijpen van ordinaal getallen, zoals het traceren van relatieve posities tot extreme indices, evalueert via gestructureerde redeneertaken.

Yusuke Tozaki, Hisashi Miyamori

Gepubliceerd 2026-03-10
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

ORDINALBENCH: De "Reken- en Navigatie-Test" voor Slimme Camera's

Stel je voor dat je een robot hebt die niet alleen kan zien, maar ook kan praten. Je kunt hem vragen: "Wat zie je?" en hij zegt: "Ik zie een rode auto." Dat is makkelijk. Maar wat als je vraagt: "Wie is de 260e auto die je tegenkomt als je rechtsom om de hoek loopt, en telkens elke derde auto overslaat?"

Dat is precies waar de onderzoekers van dit papier op stuiten. Ze hebben ontdekt dat deze slimme camera's (die ze Vision-Language Models of VLMs noemen) heel goed zijn in het herkennen van dingen, maar totaal in de war raken als ze moeten tellen in een bepaalde volgorde, vooral als het getal groot is of het pad ingewikkeld.

Om dit probleem op te lossen, hebben ze ORDINALBENCH bedacht. Laten we uitleggen wat dat is, met een paar leuke vergelijkingen.

1. Het Probleem: De "Gouden Kooi" van de Robot

Stel je voor dat je een robot in een kamer zet vol met speelgoed.

  • De oude test: Je vraagt: "Hoeveel rode ballen zijn er?" De robot telt en zegt: "Vijf." Perfect!
  • De nieuwe test (ORDINALBENCH): Je zegt: "Begin bij de blauwe bal. Loop in een cirkel om de kamer. Tel elke bal voorbij. Welke bal is de 260e?"

Hier gaat het mis. De robot kan de blauwe bal zien, maar zodra hij moet blijven tellen terwijl hij rondloopt, en vooral als het getal 260 is (terwijl er misschien maar 20 ballen in de kamer zijn, dus hij moet de cirkel 13 keer afleggen), raakt hij de draad kwijt. Het is alsof hij probeert een lange lijst uit zijn hoofd te leren, maar zijn "korte termijn geheugen" te kort is.

2. De Oplossing: Een Speciale Testbaan

De onderzoekers hebben een digitale testbaan gebouwd genaamd ORDINALBENCH. Het is als een video-game voor robots, maar dan puur om hun reken- en navigatie-vaardigheden te testen.

Ze hebben drie soorten "niveaus" bedacht om de moeilijkheidsgraad te verhogen:

  • Niveau 1: De Ronde Lijn (Single-Loop)
    Denk aan een rij auto's in een file die in een cirkel rijdt. De robot moet gewoon tellen: 1, 2, 3... tot hij bij het juiste nummer is. Dit is de "wandeling in het park".
  • Niveau 2: Het Labyrint (Maze-Loop)
    Nu is het geen cirkel meer, maar een doolhof. De robot moet regels volgen: "Ga rechtdoor, maar als je tegen een muur loopt, sla rechtsaf." Dit is als een hond die een hondenuitlaat moet volgen door een struikgewas. Als de robot even afdwaalt, is hij de weg kwijt.
  • Niveau 3: De "Slaap-Over" Teller (Skip Counting)
    Dit is de echte valstrik. De robot moet niet elke stap tellen, maar bijvoorbeeld elke 3e stap. Hij moet dus in zijn hoofd houden: "Stap 1 (niet tellen), Stap 2 (niet tellen), Stap 3 (JA, dat is 1!)." Dit vereist een soort interne rekenmachine die de meeste robots niet hebben.

3. Wat hebben ze ontdekt? (De "Aha!"-momenten)

De onderzoekers hebben de slimste robots ter wereld (zoals GPT-5, Gemini en Qwen) deze test laten doen. Het resultaat was verrassend en een beetje triest voor de robots:

  • Ze zijn goed in het zien, slecht in het doen: Als je vraagt "Wat is dit?", weten ze het. Maar als je zegt "Doe dit stap voor stap", haken ze af.
  • Grote getallen zijn een nachtmerrie: Zodra het getal boven de 100 komt, of als het pad heel lang is, zakken de scores dramatisch. Het is alsof de robot vergeet waar hij begon zodra hij te ver loopt.
  • Ze kunnen niet "tellen met sprongen": Bij de "elke 3e stap" test faalden bijna alle robots. Ze konden de regel niet in hun hoofd houden terwijl ze tegelijkertijd keken waar ze waren.
  • De "Gok-Strategie": Bij de moeilijkste tests (grote doolhoven) deden sommige robots het niet beter dan als ze blindelings een antwoord hadden geraden.

4. Waarom is dit belangrijk?

Je zou kunnen zeggen: "Wie wil er nou de 260e auto tellen?"

Maar dit gaat over iets veel belangrijkers: Vertrouwen.
Als we robots willen gebruiken in de echte wereld – bijvoorbeeld een robot die medicijnen haalt in een ziekenhuis, of een zelfrijdende auto die een rijtje auto's moet passeren – moeten ze niet alleen zien, maar ook begrijpen en navigeren.

Als een robot niet kan tellen of een route kan volgen, kan hij geen betrouwbare assistent zijn. Hij is dan meer een "slimme camera" dan een "slimme agent".

Conclusie: De Robot moet nog leren

ORDINALBENCH is als een schoolrapport voor robots. Het laat zien dat ze nog veel moeten leren over het volgen van instructies en het bijhouden van een lange reeks stappen.

De onderzoekers zeggen eigenlijk: "We hebben een spiegel opgezet. Kijk eens hoe vaak deze robots struikelen over simpele telproblemen. Als we dit niet oplossen, kunnen we ze nooit echt veilig in de echte wereld zetten."

Kortom: De robots zijn slim, maar ze zijn nog niet zo slim als een kind dat een doolhof in een boek kan oplossen. Ze moeten nog veel oefenen!