Evaluating Graphical Perception Capabilities of Vision Transformers

Diese Studie untersucht die graphische Wahrnehmungsfähigkeit von Vision Transformern im Vergleich zu CNNs und Menschen und stellt fest, dass ViTs trotz ihrer allgemeinen Stärken in der Bildverarbeitung nur eine begrenzte menschähnliche Wahrnehmung im Bereich der Visualisierung aufweisen.

Poonam Poonam, Pere-Pau Vázquez, Timo Ropinski

Veröffentlicht 2026-02-23
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

🧠 Das große Duell: Der neue KI-Star gegen den menschlichen Blick

Stell dir vor, du hast zwei verschiedene Arten von „Augen", die Bilder betrachten sollen:

  1. Die alten, bewährten Augen (CNNs): Diese funktionieren wie ein Handwerker, der ein Haus Stein für Stein betrachtet. Sie schauen sich kleine Details genau an und bauen daraus ein Gesamtbild.
  2. Die neuen, modernen Super-Augen (Vision Transformers oder ViTs): Diese funktionieren wie ein Dirigent, der sofort das ganze Orchester hört. Sie schauen sich das gesamte Bild auf einmal an und verstehen, wie alles zusammenhängt, ohne sich zuerst in die Details zu verlieren.

In den letzten Jahren haben diese neuen „Super-Augen" (ViTs) in vielen Bereichen (wie Gesichtserkennung oder Autonomes Fahren) die alten Handwerker-Augen (CNNs) weit hinter sich gelassen. Sie sind extrem stark im Erkennen von komplexen Mustern.

Aber hier kommt der Haken:
Die Forscher aus dieser Studie wollten wissen: Können diese neuen Super-Augen auch so gut „sehen" wie ein echter Mensch, wenn es um einfache Dinge geht?

Stell dir vor, du siehst ein Diagramm. Kannst du sofort sagen:

  • Ist dieser Balken länger als jener?
  • Ist dieser Winkel spitzer als der andere?
  • Wie viele Punkte sind in diesem Punktewolken-Bild?

Das sind die „Grundlagen" des Sehens. Frühere Studien haben gezeigt, dass Menschen bei manchen Dingen (wie Längen vergleichen) sehr gut sind, bei anderen (wie Flächen abschätzen) aber eher schlecht. Die Forscher wollten testen, ob die KI diese menschlichen Stärken und Schwächen nachahmt oder ob sie völlig anders „denkt".

🔍 Was haben die Forscher gemacht?

Sie haben drei verschiedene Versionen der neuen „Super-Augen" (ViTs) getestet und sie gegen:

  1. Echte Menschen (die Aufgaben gelöst haben).
  2. Die alten Handwerker-Augen (CNNs).

Die Aufgaben waren sehr simpel, aber wichtig für Diagramme:

  • Längen messen: Welcher Balken ist länger?
  • Winkel schätzen: Wie spitz ist dieser Keks?
  • Punkte zählen: Wie viele Punkte sind in diesem Bild?

📉 Das überraschende Ergebnis

Das Ergebnis ist wie eine Geschichte mit einer moralischen Lektion:

1. Die KI ist ein Genie, aber kein Mensch.
Die neuen „Super-Augen" (ViTs) sind fantastisch darin, Texturen zu erkennen oder Richtungen zu verstehen. Bei manchen Aufgaben waren sie sogar besser als Menschen! Aber bei den klassischen Diagramm-Aufgaben (wie „Welcher Balken ist länger?") haben sie schlechter abgeschnitten als Menschen.

2. Die alten Handwerker (CNNs) sind im Diagramm-Bereich immer noch besser.
Seltsamerweise waren die alten Modelle (CNNs) bei diesen einfachen Diagramm-Aufgaben genauer als die neuen Super-Modelle (ViTs). Die neuen Modelle scheinen zwar das „große Ganze" zu verstehen, aber sie verlieren den Fokus auf die genauen Längen und Abstände.

3. Die KI lernt nicht so wie wir.
Menschen haben eine natürliche Hierarchie des Sehens: Wir sind super im Längen-Vergleich, aber schlecht im Winkel-Vergleich. Die KI hat diese Hierarchie nicht. Für die KI ist ein Winkel-Vergleich manchmal so einfach wie ein Längen-Vergleich. Das bedeutet: Die KI „sieht" die Welt anders als wir.

🎨 Eine Analogie zum besseren Verständnis

Stell dir vor, du musst einem Roboter beibringen, ein Rezept zu lesen.

  • Der Mensch liest das Rezept und sagt: „Ah, 200 Gramm Mehl sind mehr als 100 Gramm Zucker. Das ist wichtig."
  • Der alte Roboter (CNN) schaut sich die Zahlen genau an und sagt: „200 ist größer als 100. Korrekt."
  • Der neue Roboter (ViT) schaut sich das ganze Rezept auf einmal an, versteht den „Vibe" des Kuchens, aber wenn man ihn fragt: „Ist das Mehl mehr als der Zucker?", zuckt er mit den Schultern. Er hat den Kontext verstanden, aber die genaue Zahl entgleitet ihm.

💡 Was bedeutet das für uns?

Die Studie sagt uns etwas Wichtiges:
Wenn wir KI nutzen wollen, um Diagramme zu erstellen, zu lesen oder zu analysieren (z. B. für automatische Berichte oder Datenvisualisierung), dürfen wir nicht einfach denken: „Die neue KI ist immer besser."

Bei der genauen Interpretation von Diagrammen (wie Balkendiagrammen oder Tortendiagrammen) sind die neuen Modelle noch nicht so verlässlich wie Menschen oder die älteren Modelle. Sie sehen die Welt auf eine Weise, die für uns Menschen manchmal verwirrend ist.

Fazit: Die neuen KI-Modelle sind wie brillante Künstler, die ein Gemälde aus der Ferne verstehen, aber wenn man sie bittet, die genaue Länge eines Pinselstrichs zu messen, scheitern sie. Für die Zukunft der Datenvisualisierung müssen wir also Wege finden, diese KI-Modelle so zu trainieren, dass sie nicht nur „schön" sehen, sondern auch „genau" rechnen – so wie ein Mensch.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →