Each language version is independently generated for its own context, not a direct translation.
🕵️♂️ Das große Rätsel: Warum KI beim Zählen scheitert
Stell dir vor, du hast einen sehr schlauen Roboter, der Bilder sehen und sprechen kann (eine sogenannte "Vision-Language Model" oder KI). Dieser Roboter ist ein Genie: Er kann erkennen, ob auf einem Bild ein Hund oder eine Katze ist, und er kann sogar beschreiben, was passiert.
Aber dann stellst du ihm eine ganz einfache Frage:
"Schau dir diese Reihe von 50 Autos an. Welches ist das 17. Auto, wenn man von links beginnt?"
Oder noch schwieriger:
*"Gehe durch dieses Labyrinth und finde das 250.. Stein."*
Das Ergebnis? Die meisten dieser hochmodernen KIs machen katastrophale Fehler. Sie können das 17. Auto nicht finden, obwohl sie das Bild perfekt sehen. Sie verlieren den Faden, zählen doppelt oder vergessen, wo sie angefangen haben.
Die Forscher Yusuke Tozaki und Hisashi Miyamori von der Kyoto Sangyo University haben sich gefragt: Warum ist das so? Und sie haben ein neues Werkzeug gebaut, um das herauszufinden.
🛠️ Das Werkzeug: ORDINALBENCH (Der "Zähl-Test")
Stell dir ORDINALBENCH wie einen neuen, sehr strengen Fahrtest für KI-Autos vor. Bisher haben die KIs nur einfache Tests gemacht (z. B. "Ist das ein Stoppschild?"). Aber dieser Test prüft etwas anderes: Können sie eine Reihenfolge logisch durchhalten?
Der Test besteht aus drei Hauptteilen, die wie ein "Schwierigkeits-Regler" funktionieren:
Die Menge (Wie groß ist die Zahl?):
- Leicht: "Finde das 3. Objekt."
- Schwer: "Finde das 300. Objekt."
- Der Haken: KIs sind gut darin, kleine Zahlen zu erkennen. Aber sobald die Zahl groß wird (wie 300), verlieren sie den Überblick, als ob sie den Faden in einem riesigen Knäuel Wolle verlieren würden.
Der Weg (Wie kompliziert ist die Route?):
- Leicht: Eine einfache Runde (wie eine Perlenkette).
- Schwer: Ein Labyrinth (ein Irrgarten).
- Der Haken: In einem Labyrinth muss die KI nicht nur zählen, sondern auch entscheiden: "Geh ich geradeaus oder biege ich rechts ab?" Hier verlieren viele KIs den Kurs.
Der Rhythmus (Das "Skip-Counting"):
- Leicht: Zähle jeden Stein (1, 2, 3, 4...).
- Schwer: Zähle nur jeden dritten Stein (1, 4, 7, 10...).
- Der Haken: Das ist wie ein Tanz, bei dem man nur auf jede dritte Musiknote tanzen darf. Die KIs scheitern hier oft, weil sie den Algorithmus (die Regel) nicht im Kopf behalten können.
🧪 Was haben sie herausgefunden?
Die Forscher haben die besten KIs der Welt (wie GPT-5, Gemini, Qwen) an diesem Test gemessen. Das Ergebnis war ernüchternd:
- Bei kleinen Zahlen: Die KIs waren ganz gut.
- Bei großen Zahlen und Labyrinthen: Die Leistung brach ein. Viele KIs landeten fast auf dem Niveau eines zufälligen Raten (wie wenn man eine Münze wirft).
- Das größte Problem: Die KIs scheinen nicht wirklich zu zählen. Sie raten eher basierend auf Mustern. Wenn sie gezwungen werden, jeden einzelnen Schritt laut zu erklären ("Ich bin jetzt bei Stein 1, gehe nach rechts, jetzt bei Stein 2..."), dann sieht man genau, wo ihr Gehirn "abschaltet".
🧠 Die eigentliche Ursache: Warum tun sie das?
Die Forscher geben zwei Hauptgründe an, warum diese KIs so schlecht im Zählen sind:
Das "Sprach-Problem":
KIs denken oft in Worten. Wenn sie ein Bild sehen, übersetzen sie es erst in eine Art "Gedanken-Sprache". Aber ein Labyrinth oder eine lange Reihe von Objekten in Worte zu fassen, ist wie zu versuchen, einen ganzen Film in einem einzigen Satz zu beschreiben. Dabei gehen Details verloren. Die KI vergisst dann, wo sie war.Fehlende "Prozedur-Wissen":
Die KIs wissen sehr gut, was ein Objekt ist (Declaratives Wissen: "Das ist ein Auto"). Aber sie sind schlecht darin, wie man eine Aufgabe Schritt für Schritt abarbeitet (Prozedurales Wissen: "Gehe 3 Schritte, dann zähle"). Es ist, als ob jemand die Theorie des Fahrradfahrens auswendig gelernt hat, aber sofort stürzt, sobald er auf das Rad steigt und die Pedale bewegen muss.
🚀 Was bedeutet das für die Zukunft?
Diese Studie ist wie ein Diagnosegerät für KI. Sie zeigt uns: Wir müssen KI-Modelle nicht nur lehren, Bilder zu "sehen", sondern ihnen beibringen, logische Schritte zu "planen".
Wenn wir KI in der echten Welt nutzen wollen – zum Beispiel für Roboter, die in einer Fabrik den 50. Schrauben in einer Reihe greifen müssen, oder für autonome Autos, die die 10. Ampel an einer Kreuzung erkennen müssen – dann müssen wir diese "Zähl-Schwäche" beheben.
ORDINALBENCH ist also der Maßstab, an dem wir messen können, ob eine KI wirklich intelligent ist oder nur gut darin, Dinge zu erraten.
📝 Zusammenfassung in einem Satz
Die Studie zeigt, dass die aktuellsten KI-Modelle zwar toll Bilder erkennen können, aber wie ein Kind sind, das beim Zählen bis 300 durch ein Labyrinth den Faden verliert – und sie bieten einen neuen Test, um genau zu sehen, wo und warum sie scheitern.