Do Large Language Models Understand Data Visualization Principles?

Diese Studie bewertet systematisch die Fähigkeit von Large Language Models und Vision-Language Models, Prinzipien der Datenvisualisierung zu erkennen und zu korrigieren, indem sie ein kontrolliertes Datenset mit Ground-Truth-Verifikationen nutzt und dabei sowohl ihr Potenzial als flexible Validatoren als auch ihre Grenzen im Vergleich zu symbolischen Systemen sowie eine Asymmetrie zwischen besserer Korrektur und schwächerer Detektion von Verstößen aufzeigt.

Martin Sinnona, Valentin Bonas, Viviana Siless, Emmanuel Iarussi

Veröffentlicht 2026-02-24
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Titel: Können KI-Modelle echte Grafiken verstehen? Eine Reise durch die Welt der Daten-Visualisierung

Stellen Sie sich vor, Daten sind wie rohe Zutaten in einer Küche. Ein Diagramm ist dann das fertige Gericht. Ein gutes Diagramm sagt der Wahrheit die Wahrheit, ist leicht zu lesen und täuscht niemanden. Aber wie stellt man sicher, dass der Koch (in diesem Fall eine Künstliche Intelligenz) die Regeln der guten Küche kennt?

Dieser wissenschaftliche Artikel untersucht genau das: Verstehen große Sprachmodelle (LLMs) und Bild-Sprach-Modelle (VLMs) die ungeschriebenen Gesetze der guten Grafikgestaltung?

Hier ist die Geschichte, einfach erklärt:

1. Das Problem: Der strengen Kochbuch-Check vs. der intuitive KI-Koch

Bisher gab es zwei Arten, Diagramme zu prüfen:

  • Der strenge Kochbuch-Check (Symbolische Systeme): Das sind Computerprogramme, die wie ein extrem pedantischer Kochmeister sind. Sie haben ein festes Regelwerk (z. B. "Verwende niemals rote Farbe für absteigende Zahlen"). Wenn eine Regel gebrochen wird, schlagen sie Alarm. Das ist sehr genau, aber man muss die Regeln erst mühsam programmieren. Wenn eine neue Regel erfunden wird, muss der Kochmeister umprogrammiert werden.
  • Der intuitive KI-Koch (LLMs/VLMs): Das sind die neuen, super-intelligenten Assistenten. Man kann ihnen einfach sagen: "Hey, schau dir dieses Diagramm an, ist es gut?" Sie sollen die Regeln verstehen, statt sie nur abzuhaken. Aber können sie das wirklich? Oder halluzinieren sie nur?

2. Der Experiment: Der große "Kochwettbewerb"

Die Forscher haben einen riesigen Test entwickelt, um herauszufinden, wer besser ist.

  • Das Trainingsmaterial: Sie haben 2.000 künstlich erzeugte Diagramme erstellt (wie ein Koch, der absichtlich Fehler in die Rezepte einbaut) und über 300 echte Diagramme aus dem Internet gesammelt.
  • Die Aufgabe: Die KI-Modelle sollten zwei Dinge tun:
    1. Der Detektiv: "Finde die Fehler!" (Erkennung)
    2. Der Reparatur-Service: "Mach das Diagramm richtig!" (Korrektur)

Um sicherzugehen, dass die KI nicht nur ratet, haben die Forscher einen "Goldstandard" verwendet: Ein mathematisches System (ASP), das wie ein unfehlbarer Richter entscheidet, ob eine Regel wirklich gebrochen wurde.

3. Die Ergebnisse: Wer gewinnt?

A. Die Detektive (Fehler finden)

  • Das Ergebnis: Die KI ist gut, aber nicht perfekt. Sie erkennt offensichtliche Fehler, aber bei subtilen, kniffligen Fragen (wie "Warum ist diese Achse abgeschnitten?") stolpern sie oft.
  • Die Überraschung: Modelle, die nur Text sehen (den Code des Diagramms), sind fast genauso gut wie Modelle, die auch das Bild des Diagramms sehen. Es scheint, als ob die KI den Code so gut lesen kann, dass sie das Bild gar nicht zwingend braucht, um die Regeln zu verstehen.
  • Der Gewinner: Das Modell "Gemini-2.5-Flash" war der beste Detektiv, erreichte aber nur eine Genauigkeit von etwa 68–74 %. Das klingt nach einer guten Note, aber für einen perfekten Richter ist es noch zu viel "Raten".

B. Die Reparatur-Künstler (Fehler beheben)

  • Die große Überraschung: Hier zeigt sich ein seltsames Phänomen! Die KI ist viel besser darin, einen Fehler zu fixen, als ihn zu finden.
  • Die Analogie: Stellen Sie sich vor, Sie geben einem Schüler eine Matheaufgabe mit einem Fehler. Der Schüler sagt vielleicht: "Ich sehe den Fehler nicht" (schlechte Detektivarbeit). Aber wenn Sie sagen: "Hier ist die falsche Antwort, schreib die richtige auf", dann schreibt er die richtige Antwort hin (gute Reparaturarbeit).
  • Die Zahl: Das beste Modell konnte 94 % der Fehler beheben, obwohl es sie nur zu 68 % korrekt erkannt hatte. Es ist, als würde die KI intuitiv wissen, wie man etwas richtig macht, auch wenn sie nicht genau erklären kann, was falsch war.

4. Was bedeutet das für uns?

Die Forscher kommen zu einem gemischten Fazit:

  1. Die KI ist ein vielversprechender Assistent: Sie kann uns helfen, Diagramme zu prüfen und zu verbessern. Sie ist wie ein junger, talentierter Kochlehrling, der schnell lernt, aber noch nicht die Erfahrung eines Meisters hat.
  2. Noch kein Ersatz für den strengen Kochmeister: Wenn es um absolute, mathematische Sicherheit geht (z. B. in der Medizin oder Finanzwelt), trauen wir uns noch nicht, die KI allein entscheiden zu lassen. Sie macht bei feinen Nuancen noch Fehler.
  3. Die Zukunft: Die KI wird immer besser. Wenn wir sie mit Bildern und Text kombinieren und sie mehr üben lassen, werden wir bald Werkzeuge haben, die uns beim Erstellen von Diagrammen sofort sagen: "Achtung, das sieht irreführend aus! Hier ist ein besserer Vorschlag."

Zusammenfassend:
Die KI versteht die Prinzipien der Grafikgestaltung bereits ziemlich gut, besonders wenn es darum geht, Dinge zu reparieren. Sie ist wie ein talentierter Handwerker, der das Haus bauen kann, aber manchmal vergisst, warum er einen bestimmten Nagel an dieser Stelle geschlagen hat. Wir müssen ihr noch etwas mehr Zeit geben, bis sie nicht nur repariert, sondern auch perfekt versteht, warum etwas falsch ist.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →