Can Vision-Language Models See Squares? Text-Recognition Mediates Spatial Reasoning Across Three Model Families

Each language version is independently generated for its own context, not a direct translation.

Das große Rätsel: Warum sehen KI-Modelle Quadrate nicht, aber Buchstaben schon?

Stell dir vor, du hast drei sehr intelligente Roboter (die KI-Modelle Claude, ChatGPT und Gemini). Diese Roboter sind Meister darin, Bilder zu beschreiben, Diagramme zu lesen und Fragen zu stellen. Man geht davon aus, dass sie ein „gutes Auge" für alles haben, was sie sehen.

Die Forscher haben nun einen einfachen, aber cleveren Test entwickelt, um zu prüfen, ob das wirklich stimmt.

Der Test: Das Schachbrett-Rätsel

Stell dir ein großes Schachbrett vor (15 mal 15 Felder). Auf diesem Brett sind einige Felder schwarz (gefüllt) und andere weiß (leer).
Die Forscher haben dieses Brett auf zwei Arten dargestellt:

Variante A (Die Buchstaben): Die schwarzen Felder sehen aus wie ein Hash-Zeichen (#) und die weißen wie ein Punkt (.). Es sieht aus wie ein Text, den man auf einem alten Computer geschrieben hat.
Variante B (Die Quadrate): Die schwarzen Felder sind einfach schwarze Quadrate ohne Linien dazwischen. Es sieht aus wie ein echtes Bild von Blöcken.

Das Wichtige: Für die KI ist beides nur ein Bild. Sie muss es „ansehen", nicht lesen.

Das überraschende Ergebnis

Das Ergebnis war dramatisch:

Bei den Buchstaben (# und .): Die Roboter waren fast perfekt! Sie konnten genau sagen, welches Feld schwarz und welches weiß ist. Sie haben die Positionen wie ein Mensch gelesen.
Bei den schwarzen Quadraten: Plötzlich wurden sie dumm. Sie verwechselten Felder, zählten falsch oder sahen Muster, die gar nicht da waren. Ihre Leistung brach ein.

Der Vergleich: Stell dir vor, du könntest einen Text in einer fremden Sprache perfekt lesen, aber wenn dir jemand ein Bild von einem roten Ball zeigt, könntest du nicht sagen, wo genau der Ball ist. Das ist, als ob die KI ein Super-Geheimagent für Text ist, aber ein blindes Kind für reine Bilder.

Warum passiert das? (Die „Zwei-Wege-Theorie")

Die Forscher haben eine spannende Theorie: Diese KIs haben im Grunde zwei verschiedene „Gehirn-Verarbeitungswegen":

Der Text-Scanner (Der Star): Wenn die KI etwas sieht, das wie ein Buchstabe aussieht (wie das #), schaltet sie ihren hochentwickelten Text-Scanner ein. Dieser Scanner ist extrem präzise. Er weiß genau: „Das ist ein Zeichen an Position X, Y". Er behandelt das Bild wie einen Text, den man lesen kann.
Der Bild-Scanner (Der Anfänger): Wenn die KI nur eine schwarze Fläche sieht (das Quadrat), muss sie den normalen Bild-Scanner benutzen. Dieser ist gut darin, grobe Dinge zu erkennen (z. B. „Da ist eine dunkle Wolke oben rechts"), aber er verliert die genaue Position jedes einzelnen kleinen Pixels. Er ist wie jemand, der aus der Ferne auf ein Gemälde schaut und die Farben sieht, aber nicht die einzelnen Pinselstriche zählen kann.

Die Metapher:
Stell dir vor, du hast eine Brille mit zwei Gläsern.

Das linke Glas ist ein Text-Verstärker. Wenn du durch dieses Glas schaust, werden alle Buchstaben riesig und kristallklar.
Das rechte Glas ist ein Allgemein-Bild-Filter. Es macht Bilder etwas schärfer, aber es verliert die Details.
Die KIs nutzen das linke Glas, wenn sie Buchstaben sehen. Wenn sie aber nur schwarze Quadrate sehen, müssen sie das rechte Glas benutzen – und da verlieren sie den Überblick.

Die Unterschiede zwischen den Robotern

Jeder der drei Roboter hat auf seine eigene Weise versagt, als es nur um Quadrate ging:

Claude hat zu wenig gezählt (er hat Felder übersehen).
ChatGPT hat zu viel gezählt (er hat sich Felder eingebildet, die gar nicht da waren).
Gemini hat einfach Muster erfunden (es hat statt des echten Bildes ein Kreuz oder ein L-Form-Muster gemalt, weil es das Eingabebild nicht mehr verstand).

Der „Klebeband"-Trick (Ein kleiner Hoffnungsschimmer)

Die Forscher haben noch einen weiteren Test gemacht: Sie haben die schwarzen Quadrate genommen und winzige Zahlen (0 oder 1) in die Mitte geschrieben.

Ergebnis: Bei zwei der Roboter (Claude und Gemini) funktionierte das Wunder! Sobald die Zahlen da waren, wurden sie wieder super präzise. Der Text-Scanner wurde aktiviert und rettete die Situation.
Aber: ChatGPT wurde durch die Zahlen sogar noch verwirrter. Das zeigt, dass jeder Roboter anders „tickt".

Was bedeutet das für uns?

Die Studie zeigt uns eine fundamentale Schwäche der aktuellen KI:
Sie ist nicht wirklich gut darin, die Welt visuell zu verstehen, wie ein Mensch es tut. Sie ist extrem gut darin, Bilder zu lesen, als wären sie Texte.

Wenn du also eine KI bittest, ein medizinisches Röntgenbild zu analysieren (wo es keine Buchstaben gibt, nur Formen und Schatten) oder ein autonomes Auto zu bauen, das Hindernisse erkennt, musst du vorsichtig sein. Die KI könnte denken, sie sei ein Experte, aber wenn es keine „Text-Hinweise" gibt, die sie lesen kann, ist sie im Dunkeln unterwegs.

Kurz gesagt: Diese KIs sind brillante Leser, aber noch keine echten Seher. Sie brauchen Buchstaben, um zu verstehen, wo Dinge sind.

Each language version is independently generated for its own context, not a direct translation.

Titel: Können Vision-Language-Modelle Quadrate sehen? Texterkennung vermittelt räumliches Schlussfolgern über drei Modellfamilien hinweg

1. Problemstellung

Vision-Language-Modelle (VLMs) wie Claude, GPT-4o und Gemini zeigen beeindruckende Fähigkeiten beim Verstehen visueller Inhalte. Es besteht jedoch die implizite Annahme, dass diese Modelle ein robustes räumliches Schlussfolgern über beliebige visuelle Eingaben besitzen.
Die Autoren hinterfragen diese Annahme mit einem einfachen Experiment: Können VLMs die Position von gefüllten Zellen in binären Gittern genau lokalisieren, wenn diese Zellen keine textliche Identität besitzen? Die zentrale Hypothese ist, dass VLMs für hochpräzises räumliches Verständnis stark auf eine Texterkennungspfad (implizite OCR) angewiesen sind und ihr natives visuelles räumliches Schlussfolgern für nicht-textuelle Elemente deutlich schwächer ist als angenommen.

2. Methodik

Das Experiment wurde mit drei führenden VLMs durchgeführt: Claude Opus (Anthropic), ChatGPT 5.2 (OpenAI) und Gemini 3 Thinking (Google).

Datensatz: Es wurden 15 binäre Gitter der Größe $15 \times 15$ (insgesamt 225 Zellen pro Gitter) generiert. Die Fülldichte variierte zwischen 10,7 % und 41,8 %.
Visuelle Kodierungsbedingungen: Jedes Gitter wurde in zwei Formaten als PNG-Bild gerendert (beide durchlaufen den visuellen Encoder, keiner ist tokenisierter Text im Eingabestrom):
1. Text-Symbole: Zellen wurden als . (leer) oder # (gefüllt) in einer Monospace-Schriftart dargestellt.
2. Ausgefüllte Quadrate: Zellen wurden als schwarze (gefüllt) oder weiße (leer) Quadrate ohne Gitterlinien dargestellt. Benachbarte gefüllte Zellen verschmelzen zu zusammenhängenden schwarzen Regionen.
Aufgabe: Die Modelle sollten die Gitter transkribieren (die Position der gefüllten Zellen angeben).
Metriken:
- Zell-Genauigkeit (Cell Accuracy): Anteil der korrekt klassifizierten Zellen.
- F1-Score (für gefüllte Zellen): Harmonisches Mittel aus Präzision und Recall. Dies ist die aussagekräftigere Metrik, da die Genauigkeit durch die große Anzahl leerer Zellen verzerrt werden kann.
Ablationsstudie: Um zu prüfen, ob der Unterschied binär (Text vs. Nicht-Text) oder graduell ist, wurden zwei Zwischenbedingungen getestet:
- Unicode-Quadrate: Verwendung von Text-Token für Quadrate (□■), die visuell wie gefüllte Quadrate aussehen.
- Text in Quadraten: Gefüllte Quadrate mit kleinen Textlabels („0" oder „1") im Inneren.

3. Wichtige Ergebnisse

A. Der massive Leistungsabfall bei nicht-textuellen Elementen
Alle drei Modelle zeigten einen dramatischen Leistungsunterschied zwischen den Bedingungen:

Text-Symbole-Bedingung: Claude und ChatGPT erreichten ca. 91 % Zellgenauigkeit und einen F1-Score von ~84 %. Gemini erreichte 84 % Genauigkeit und 63 % F1.
Ausgefüllte Quadrate-Bedingung: Alle Modelle kollabierten. Die Genauigkeit sank auf 60–73 %, und der F1-Score brach auf 29–39 % ein.
Die Lücke: Der F1-Unterschied zwischen Text und Quadraten beträgt 34 bis 54 Punkte über alle Modelle hinweg. Da beide Eingaben als Bilder durch denselben visuellen Encoder laufen, liegt das Problem nicht in der Bildauflösung, sondern im fehlenden Text-Bezug.

B. Modell-spezifische Fehlermodi
Jedes Modell scheiterte auf charakteristische Weise bei den Quadraten:

Claude Opus: Systematisches Unterschätzen (Under-counting). Es erkennt den ungefähren Bereich, kann aber einzelne Zellen nicht präzise lokalisieren.
ChatGPT 5.2: Massive Überschätzung (Over-counting). Es generiert viele falsche positive Treffer und verliert oft die Gitterdimensionen (z. B. Zeilen mit 16–17 Zeichen).
Gemini 3 Thinking: Template-Halluzination. Bei höheren Dichten ignoriert es die Eingabe vollständig und generiert stereotypische geometrische Muster (z. B. L-Formen, Kreuze), die nichts mit dem Input zu tun haben.

C. Dichte-Effekte

Claude & ChatGPT: Bleiben in der Text-Bedingung über alle Dichten hinweg stabil.
Gemini: Kollabiert in der Text-Bedingung bei Dichten >32 % (Kollaps der Texterkennungspfad). In der Quadrat-Bedingung ist Gemini bei sehr niedrigen Dichten (<20 %) überraschend gut (F1 ~68 %), bricht aber bei höheren Dichten katastrophal ein.

D. Ergebnisse der Ablationsstudie

Unicode-Quadrate (□■): Erzielen ein intermediäres Ergebnis (F1 69–77 %). Dies zeigt, dass der Unterschied graduell ist und nicht nur von der visuellen Form, sondern auch von der Token-Häufigkeit im Training abhängt.
Text in Quadraten:
- Claude & Gemini: Die Leistung erholt sich drastisch (bis zu 100 % F1 bei dünnen Gittern), da die Textlabels als Anker für die räumliche Lokalisierung dienen.
- ChatGPT: Die Leistung verschlechtert sich (F1 sinkt auf 51 %). Das Hinzufügen von Text stört hier den Verarbeitungsprozess, was auf eine destruktive Interaktion zwischen den visuellen und textuellen Pfaden in diesem spezifischen Modell hindeutet.

4. Hauptbeiträge und Schlussfolgerungen

Fundamentale Einschränkung: VLMs sind für präzise räumliche Lokalisierung stark von der Erkennung von Textsymbolen abhängig. Ohne textuelle Identität (selbst bei identischem visuellem Input) versagt das räumliche Schlussfolgern.
Zwei-Pfad-Hypothese: Die Autoren schlagen vor, dass VLMs zwei implizite Pfade nutzen:
1. Einen Texterkennungspfad (implizite OCR), der Positionen hochpräzise in den linguistischen Domänen abbildet.
2. Einen visuellen Merkmalspfad, der semantische Zusammenhänge erfasst, aber die genaue Koordinatenlokalisierung verliert.
Architektur-agnostisches Phänomen: Da das Phänomen über drei verschiedene Modellfamilien hinweg repliziert wird, handelt es sich um eine strukturelle Eigenschaft aktueller VLM-Architekturen und nicht um einen Fehler eines einzelnen Systems.
Implikationen: Anwendungen, die auf räumlichem Verständnis von nicht-textuellen Elementen basieren (z. B. medizinische Bildgebung, autonome Systeme, wissenschaftliche Visualisierung), werden durch Benchmarks, die auf Text basieren, überbewertet.

5. Signifikanz

Die Studie widerlegt die Annahme, dass VLMs ein inhärentes, robustes räumliches Verständnis für beliebige visuelle Eingaben besitzen. Sie zeigt, dass das „Sehen" für VLMs oft bedeutet, das Bild in eine Textrepräsentation zu übersetzen. Solange visuelle Elemente keine textliche Entsprechung haben, bleibt die räumliche Präzision stark beeinträchtigt. Dies unterstreicht die Notwendigkeit neuer Architekturen oder Trainingsmethoden, die das native räumliche Verständnis von visuellen Features verbessern, ohne sich ausschließlich auf Text-OCR zu verlassen.