Can Vision-Language Models See Squares? Text-Recognition Mediates Spatial Reasoning Across Three Model Families

Die Studie zeigt, dass Vision-Language-Modelle bei der räumlichen Lokalisierung gefüllter Zellen in Binärrastern scheitern, solange diese keine Textidentität besitzen, und offenbart, dass ihre räumliche Schlussfolgerung stark von einer Texterkennung abhängt, die ihre native visuelle Verarbeitungsfähigkeit deutlich übertrifft.

Yuval Levental

Veröffentlicht 2026-02-24
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Das große Rätsel: Warum sehen KI-Modelle Quadrate nicht, aber Buchstaben schon?

Stell dir vor, du hast drei sehr intelligente Roboter (die KI-Modelle Claude, ChatGPT und Gemini). Diese Roboter sind Meister darin, Bilder zu beschreiben, Diagramme zu lesen und Fragen zu stellen. Man geht davon aus, dass sie ein „gutes Auge" für alles haben, was sie sehen.

Die Forscher haben nun einen einfachen, aber cleveren Test entwickelt, um zu prüfen, ob das wirklich stimmt.

Der Test: Das Schachbrett-Rätsel

Stell dir ein großes Schachbrett vor (15 mal 15 Felder). Auf diesem Brett sind einige Felder schwarz (gefüllt) und andere weiß (leer).
Die Forscher haben dieses Brett auf zwei Arten dargestellt:

  1. Variante A (Die Buchstaben): Die schwarzen Felder sehen aus wie ein Hash-Zeichen (#) und die weißen wie ein Punkt (.). Es sieht aus wie ein Text, den man auf einem alten Computer geschrieben hat.
  2. Variante B (Die Quadrate): Die schwarzen Felder sind einfach schwarze Quadrate ohne Linien dazwischen. Es sieht aus wie ein echtes Bild von Blöcken.

Das Wichtige: Für die KI ist beides nur ein Bild. Sie muss es „ansehen", nicht lesen.

Das überraschende Ergebnis

Das Ergebnis war dramatisch:

  • Bei den Buchstaben (# und .): Die Roboter waren fast perfekt! Sie konnten genau sagen, welches Feld schwarz und welches weiß ist. Sie haben die Positionen wie ein Mensch gelesen.
  • Bei den schwarzen Quadraten: Plötzlich wurden sie dumm. Sie verwechselten Felder, zählten falsch oder sahen Muster, die gar nicht da waren. Ihre Leistung brach ein.

Der Vergleich: Stell dir vor, du könntest einen Text in einer fremden Sprache perfekt lesen, aber wenn dir jemand ein Bild von einem roten Ball zeigt, könntest du nicht sagen, wo genau der Ball ist. Das ist, als ob die KI ein Super-Geheimagent für Text ist, aber ein blindes Kind für reine Bilder.

Warum passiert das? (Die „Zwei-Wege-Theorie")

Die Forscher haben eine spannende Theorie: Diese KIs haben im Grunde zwei verschiedene „Gehirn-Verarbeitungswegen":

  1. Der Text-Scanner (Der Star): Wenn die KI etwas sieht, das wie ein Buchstabe aussieht (wie das #), schaltet sie ihren hochentwickelten Text-Scanner ein. Dieser Scanner ist extrem präzise. Er weiß genau: „Das ist ein Zeichen an Position X, Y". Er behandelt das Bild wie einen Text, den man lesen kann.
  2. Der Bild-Scanner (Der Anfänger): Wenn die KI nur eine schwarze Fläche sieht (das Quadrat), muss sie den normalen Bild-Scanner benutzen. Dieser ist gut darin, grobe Dinge zu erkennen (z. B. „Da ist eine dunkle Wolke oben rechts"), aber er verliert die genaue Position jedes einzelnen kleinen Pixels. Er ist wie jemand, der aus der Ferne auf ein Gemälde schaut und die Farben sieht, aber nicht die einzelnen Pinselstriche zählen kann.

Die Metapher:
Stell dir vor, du hast eine Brille mit zwei Gläsern.

  • Das linke Glas ist ein Text-Verstärker. Wenn du durch dieses Glas schaust, werden alle Buchstaben riesig und kristallklar.
  • Das rechte Glas ist ein Allgemein-Bild-Filter. Es macht Bilder etwas schärfer, aber es verliert die Details.
    Die KIs nutzen das linke Glas, wenn sie Buchstaben sehen. Wenn sie aber nur schwarze Quadrate sehen, müssen sie das rechte Glas benutzen – und da verlieren sie den Überblick.

Die Unterschiede zwischen den Robotern

Jeder der drei Roboter hat auf seine eigene Weise versagt, als es nur um Quadrate ging:

  • Claude hat zu wenig gezählt (er hat Felder übersehen).
  • ChatGPT hat zu viel gezählt (er hat sich Felder eingebildet, die gar nicht da waren).
  • Gemini hat einfach Muster erfunden (es hat statt des echten Bildes ein Kreuz oder ein L-Form-Muster gemalt, weil es das Eingabebild nicht mehr verstand).

Der „Klebeband"-Trick (Ein kleiner Hoffnungsschimmer)

Die Forscher haben noch einen weiteren Test gemacht: Sie haben die schwarzen Quadrate genommen und winzige Zahlen (0 oder 1) in die Mitte geschrieben.

  • Ergebnis: Bei zwei der Roboter (Claude und Gemini) funktionierte das Wunder! Sobald die Zahlen da waren, wurden sie wieder super präzise. Der Text-Scanner wurde aktiviert und rettete die Situation.
  • Aber: ChatGPT wurde durch die Zahlen sogar noch verwirrter. Das zeigt, dass jeder Roboter anders „tickt".

Was bedeutet das für uns?

Die Studie zeigt uns eine fundamentale Schwäche der aktuellen KI:
Sie ist nicht wirklich gut darin, die Welt visuell zu verstehen, wie ein Mensch es tut. Sie ist extrem gut darin, Bilder zu lesen, als wären sie Texte.

Wenn du also eine KI bittest, ein medizinisches Röntgenbild zu analysieren (wo es keine Buchstaben gibt, nur Formen und Schatten) oder ein autonomes Auto zu bauen, das Hindernisse erkennt, musst du vorsichtig sein. Die KI könnte denken, sie sei ein Experte, aber wenn es keine „Text-Hinweise" gibt, die sie lesen kann, ist sie im Dunkeln unterwegs.

Kurz gesagt: Diese KIs sind brillante Leser, aber noch keine echten Seher. Sie brauchen Buchstaben, um zu verstehen, wo Dinge sind.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →