OrdinalBench: A Benchmark Dataset for Diagnosing Generalization Limits in Ordinal Number Understanding of Vision-Language Models

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Das große Rätsel: Warum KI beim Zählen scheitert

Stell dir vor, du hast einen sehr schlauen Roboter, der Bilder sehen und sprechen kann (eine sogenannte "Vision-Language Model" oder KI). Dieser Roboter ist ein Genie: Er kann erkennen, ob auf einem Bild ein Hund oder eine Katze ist, und er kann sogar beschreiben, was passiert.

Aber dann stellst du ihm eine ganz einfache Frage:

"Schau dir diese Reihe von 50 Autos an. Welches ist das 17. Auto, wenn man von links beginnt?"

Oder noch schwieriger:

*"Gehe durch dieses Labyrinth und finde das 250.. Stein."*

Das Ergebnis? Die meisten dieser hochmodernen KIs machen katastrophale Fehler. Sie können das 17. Auto nicht finden, obwohl sie das Bild perfekt sehen. Sie verlieren den Faden, zählen doppelt oder vergessen, wo sie angefangen haben.

Die Forscher Yusuke Tozaki und Hisashi Miyamori von der Kyoto Sangyo University haben sich gefragt: Warum ist das so? Und sie haben ein neues Werkzeug gebaut, um das herauszufinden.

🛠️ Das Werkzeug: ORDINALBENCH (Der "Zähl-Test")

Stell dir ORDINALBENCH wie einen neuen, sehr strengen Fahrtest für KI-Autos vor. Bisher haben die KIs nur einfache Tests gemacht (z. B. "Ist das ein Stoppschild?"). Aber dieser Test prüft etwas anderes: Können sie eine Reihenfolge logisch durchhalten?

Der Test besteht aus drei Hauptteilen, die wie ein "Schwierigkeits-Regler" funktionieren:

Die Menge (Wie groß ist die Zahl?):
- Leicht: "Finde das 3. Objekt."
- Schwer: "Finde das 300. Objekt."
- Der Haken: KIs sind gut darin, kleine Zahlen zu erkennen. Aber sobald die Zahl groß wird (wie 300), verlieren sie den Überblick, als ob sie den Faden in einem riesigen Knäuel Wolle verlieren würden.
Der Weg (Wie kompliziert ist die Route?):
- Leicht: Eine einfache Runde (wie eine Perlenkette).
- Schwer: Ein Labyrinth (ein Irrgarten).
- Der Haken: In einem Labyrinth muss die KI nicht nur zählen, sondern auch entscheiden: "Geh ich geradeaus oder biege ich rechts ab?" Hier verlieren viele KIs den Kurs.
Der Rhythmus (Das "Skip-Counting"):
- Leicht: Zähle jeden Stein (1, 2, 3, 4...).
- Schwer: Zähle nur jeden dritten Stein (1, 4, 7, 10...).
- Der Haken: Das ist wie ein Tanz, bei dem man nur auf jede dritte Musiknote tanzen darf. Die KIs scheitern hier oft, weil sie den Algorithmus (die Regel) nicht im Kopf behalten können.

🧪 Was haben sie herausgefunden?

Die Forscher haben die besten KIs der Welt (wie GPT-5, Gemini, Qwen) an diesem Test gemessen. Das Ergebnis war ernüchternd:

Bei kleinen Zahlen: Die KIs waren ganz gut.
Bei großen Zahlen und Labyrinthen: Die Leistung brach ein. Viele KIs landeten fast auf dem Niveau eines zufälligen Raten (wie wenn man eine Münze wirft).
Das größte Problem: Die KIs scheinen nicht wirklich zu zählen. Sie raten eher basierend auf Mustern. Wenn sie gezwungen werden, jeden einzelnen Schritt laut zu erklären ("Ich bin jetzt bei Stein 1, gehe nach rechts, jetzt bei Stein 2..."), dann sieht man genau, wo ihr Gehirn "abschaltet".

🧠 Die eigentliche Ursache: Warum tun sie das?

Die Forscher geben zwei Hauptgründe an, warum diese KIs so schlecht im Zählen sind:

Das "Sprach-Problem":
KIs denken oft in Worten. Wenn sie ein Bild sehen, übersetzen sie es erst in eine Art "Gedanken-Sprache". Aber ein Labyrinth oder eine lange Reihe von Objekten in Worte zu fassen, ist wie zu versuchen, einen ganzen Film in einem einzigen Satz zu beschreiben. Dabei gehen Details verloren. Die KI vergisst dann, wo sie war.
Fehlende "Prozedur-Wissen":
Die KIs wissen sehr gut, was ein Objekt ist (Declaratives Wissen: "Das ist ein Auto"). Aber sie sind schlecht darin, wie man eine Aufgabe Schritt für Schritt abarbeitet (Prozedurales Wissen: "Gehe 3 Schritte, dann zähle"). Es ist, als ob jemand die Theorie des Fahrradfahrens auswendig gelernt hat, aber sofort stürzt, sobald er auf das Rad steigt und die Pedale bewegen muss.

🚀 Was bedeutet das für die Zukunft?

Diese Studie ist wie ein Diagnosegerät für KI. Sie zeigt uns: Wir müssen KI-Modelle nicht nur lehren, Bilder zu "sehen", sondern ihnen beibringen, logische Schritte zu "planen".

Wenn wir KI in der echten Welt nutzen wollen – zum Beispiel für Roboter, die in einer Fabrik den 50. Schrauben in einer Reihe greifen müssen, oder für autonome Autos, die die 10. Ampel an einer Kreuzung erkennen müssen – dann müssen wir diese "Zähl-Schwäche" beheben.

ORDINALBENCH ist also der Maßstab, an dem wir messen können, ob eine KI wirklich intelligent ist oder nur gut darin, Dinge zu erraten.

📝 Zusammenfassung in einem Satz

Die Studie zeigt, dass die aktuellsten KI-Modelle zwar toll Bilder erkennen können, aber wie ein Kind sind, das beim Zählen bis 300 durch ein Labyrinth den Faden verliert – und sie bieten einen neuen Test, um genau zu sehen, wo und warum sie scheitern.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Vision-Language-Modelle (VLMs) haben zwar in multimodalen Benchmarks erhebliche Fortschritte gemacht, zeigen jedoch signifikante Defizite beim Verständnis von Ordnungszahlen (Ordinalzahlen). Während VLMs oft gut darin sind, Objekte zu zählen (Kardinalzahlen) oder statische Muster zu erkennen, versagen sie bei der sequenziellen Verfolgung relativer Positionen und der Generalisierung auf große Indizes.

Das Kernproblem liegt in der prozeduralen Reasoning-Fähigkeit: Die Aufgabe, das $N$ -te Objekt in einer Sequenz zu identifizieren, erfordert nicht nur das Zählen, sondern das ständige Aktualisieren eines internen Zustands (State) unter Einhaltung komplexer Regeln (z. B. „zähle jedes 3. Objekt" oder „folge einem Labyrinth"). Aktuelle Benchmarks testen dies oft nicht systematisch, insbesondere nicht unter Bedingungen mit extrem großen Zahlen ( $N \ge 100$ ) oder komplexen Pfadstrukturen.

2. Methodik: ORDINALBENCH

Die Autoren stellen ORDINALBENCH vor, ein diagnostisches Benchmark-Dataset, das das Verständnis von Ordnungszahlen als Evaluierungsaufgabe standardisiert.

Kernaufgabe (N-th Object Identification): Das Modell muss ausgehend von einem Referenzobjekt und unter Befolgung einer Traversierungsregel (z. B. im Uhrzeigersinn, Labyrinth-Regeln) das $N$ -te Objekt identifizieren.
Drei Schwierigkeitsachsen:
1. Ordnungsmagnitude: Von kleinen Zahlen bis zu extremen Fällen ( $N$ bis 300).
2. Anordnungs-Komplexität: Von einfachen Schleifen (Single-Loop) bis zu labyrinthartigen Pfaden (Maze-Loop).
3. Objektanzahl: Variation der Gesamtzahl der Objekte oder der Rastergröße, um die Arbeitsgedächtnislast zu erhöhen.
Erweiterung (Skip Counting): Einführung eines Schrittabstands $k > 1$ (z. B. „zähle jeden 3. Schritt"), um algorithmische Ausführung und State-Management zu testen.
Datengenerierung: Die Daten werden synthetisch generiert, um Störfaktoren wie Beleuchtung oder Okklusion zu eliminieren und das Reasoning isoliert zu testen. Das Dataset umfasst 39.000 Frage-Antwort-Paare mit Ground-Truth-Reasoning-Traces.
Evaluierungsprotokoll: Modelle müssen nicht nur die finale Antwort, sondern einen strukturierten, schrittweisen Reasoning-Trace (im JSON-Format) ausgeben.

Metriken:
Neben der finalen Genauigkeit ( $Acc@N$ ) werden prozedurale Metriken eingeführt:

nLCP (Normalized Longest Correct Prefix): Misst, wie lange der generierte Pfad korrekt ist, bevor ein Fehler auftritt.
STA (Stepwise Trace Accuracy): Genauigkeit jedes einzelnen Schrittes im Trace.
Cov. (Trace Coverage): Anteil der Samples, bei denen ein valider Trace ausgegeben wurde.

3. Wichtige Beiträge

Entwicklung von ORDINALBENCH: Ein skalierbares, synthetisches Benchmark-System zur systematischen Diagnose von Generalisierungsgrenzen bei prozeduralem Reasoning unter seltenen Bedingungen (große $N$ , komplexe Pfade, Skip-Counting).
Identifikation von Schwachstellen: Durch Zero-Shot-Evaluierung aktueller State-of-the-Art-Modelle (GPT-5, Gemini 2.5, Qwen2.5-VL, InternVL3.5, Molmo) werden charakteristische Schwächen aufgedeckt.
Rahmenwerk für Diagnostik: Bereitstellung eines Open-Source-Toolkits, das nicht nur die Endgenauigkeit, sondern die Konsistenz des Lösungswegs misst, um spezifische Fehlermodi zu analysieren.

4. Ergebnisse

Die Evaluierung ergab eine scharfe Degradation der Leistung unter komplexen Bedingungen, trotz hoher Scores in Standardaufgaben:

Allgemeine Leistung: Selbst die besten Modelle erreichen in einfachen 2D-Schleifen nur moderate Genauigkeiten (ca. 30–33 %). In komplexeren 3D-Szenarien oder Labyrinthen bricht die Leistung drastisch ein (oft unter 10–12 %).
Einfluss der Ordnungsmagnitude: Die Leistung sinkt kontinuierlich, wenn $N$ von „innerhalb der Objektmenge" auf „großes Maß" ( $N \ge 100$ ) steigt. Bei Labyrinthen und großen $N$ fallen viele Modelle auf das Niveau des zufälligen Raten (Chance Level).
Einfluss von Skip Counting: Die Einführung von Schrittabständen ( $k > 1$ ) führt zu einem massiven Leistungsabfall. Modelle scheitern daran, den Algorithmus „zähle jeden $k$ -ten Schritt" korrekt auszuführen, was auf mangelndes State-Management hindeutet.
Modellvergleich: Proprietäre Modelle (GPT-5, Gemini) und große Open-Source-Modelle (Qwen2.5-VL-72B) schneiden besser ab als kleinere Modelle, zeigen aber alle dieselben strukturellen Schwächen. Die Molmo-Serie scheiterte oft bereits am Formatieren der Ausgabe (niedrige Trace Coverage).
Visual Clutter: Mit zunehmender Anzahl der Objekte (visuelles Rauschen) nimmt die Fähigkeit, den Fokus zu halten, überproportional ab.

5. Bedeutung und Implikationen

Die Studie zeigt, dass aktuelle VLMs zwar starke deklarative Kenntnisse (Was ist ein Objekt?) haben, aber über schwache prozedurale Fähigkeiten (Wie führe ich einen Algorithmus aus?) verfügen.

Sprach-Engpass: Die Umwandlung visueller Informationen in linguistische Repräsentationen führt bei komplexen räumlichen Strukturen (wie Labyrinthen) zu Informationsverlust und Ambiguität.
Fehlende prozedurale Generalisierung: Modelle können einfache Anweisungen befolgen, scheitern aber an der Aufrechterhaltung eines internen Zustands über lange Sequenzen hinweg.
Zukunftsperspektiven: Für robustere „visuelle Agenten" sind folgende Entwicklungen notwendig:
- Explizite, strukturierte Zustandsrepräsentationen.
- Trainingscurricula, die schrittweises prozedurales Reasoning (von kurz- bis langfristig) betonen.
- Evaluierungen, die über die reine Endgenauigkeit hinausgehen und die Konsistenz des Lösungswegs (Trace Metrics) bewerten.

Fazit: ORDINALBENCH dient als zuverlässiger Maßstab, um die Lücke zwischen Mustererkennung und echtem visuellen Reasoning zu schließen und die Entwicklung von VLMs voranzutreiben, die komplexe, sequenzielle Aufgaben zuverlässig bewältigen können. Alle Daten und Codes sind unter https://ordinalbench.github.io verfügbar.

OrdinalBench: A Benchmark Dataset for Diagnosing Generalization Limits in Ordinal Number Understanding of Vision-Language Models

🕵️‍♂️ Das große Rätsel: Warum KI beim Zählen scheitert

🛠️ Das Werkzeug: ORDINALBENCH (Der "Zähl-Test")

🧪 Was haben sie herausgefunden?

🧠 Die eigentliche Ursache: Warum tun sie das?

🚀 Was bedeutet das für die Zukunft?

📝 Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik: ORDINALBENCH

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Implikationen

Mehr davon

On the security of 2-key triple DES

Security issues in a group key establishment protocol

The impact of quantum computing on real-world security: A 5G case study

Yet another insecure group key distribution scheme using secret sharing

How not to secure wireless sensor networks: A plethora of insecure polynomial-based key pre-distribution schemes