RealChart2Code: Advancing Chart-to-Code Generation with Real Data and Multi-Task Evaluation

Die Arbeit stellt mit \texttt{RealChart2Code} einen neuen Benchmark vor, der die Fähigkeit von Vision-Language-Modellen zur Generierung komplexer Diagramme aus realen Daten bewertet und dabei erhebliche Leistungslücken, insbesondere bei der Nachbildung mehrteiliger Visualisierungen, aufzeigt.

Jiajun Zhang, Yuying Li, Zhixun Li, Xingyu Guo, Jingzhuo Wu, Leqi Zheng, Yiran Yang, Jianke Zhang, Qingbin Li, Shannan Yan, Zhetong Li, Changguo Jia, Junfei Wu, Zilei Wang, Qiang Liu, Liang Wang

Veröffentlicht 2026-03-30
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen sehr klugen, aber noch jungen Assistenten, der alles über Programmieren gelernt hat. Dieser Assistent ist ein KI-Modell (ein sogenanntes "Vision-Language Model"). Er kann einfache Dinge sehr gut: Wenn Sie ihm ein Bild eines einzelnen Balkendiagramms zeigen, kann er den Code schreiben, um genau dieses Bild nachzubauen.

Aber was passiert, wenn Sie ihm ein komplexes, mehrseitiges Daten-Report zeigen, das aus Dutzenden von Diagrammen besteht, die alle miteinander verbunden sind und auf echten, riesigen Datenmengen basieren?

Genau hier setzt die neue Studie "RealChart2Code" an.

Hier ist die Erklärung der Forschung in einfachen Worten, mit ein paar bildhaften Vergleichen:

1. Das Problem: Der "Schüler" vs. der "Meister"

Bisher haben wir KI-Modelle nur an einfachen Aufgaben getestet. Das war so, als würden wir einen Koch nur danach bewerten, ob er ein Toastbrot perfekt braten kann.

  • Die alten Tests: Zeigten dem KI-Assistenten einfache Bilder (wie Toastbrot) und fragten: "Kannst du das nachkochen?" Die meisten KIs sagten: "Ja, kein Problem!" und machten es perfekt.
  • Die Realität: In der echten Welt müssen Datenanalysten aber keine Toastbrote, sondern riesige Buffets mit komplexen Menüs zubereiten. Es gibt viele verschiedene Teller, die aufeinander abgestimmt sein müssen, und die Zutaten (die Daten) sind oft chaotisch und riesig.

Die Forscher stellten fest: Wenn man diesen KI-Assistenten vor ein echtes, komplexes Datenbuffet stellt, scheitern sie oft kläglich. Sie können zwar den Code für ein einzelnes Diagramm schreiben, aber wenn es darum geht, das ganze Layout zu planen oder echte Daten zu verarbeiten, verlieren sie den Überblick.

2. Die Lösung: Der neue "Prüfungsraum" (RealChart2Code)

Um herauszufinden, wer wirklich gut ist, haben die Forscher einen neuen, viel schwereren Test entwickelt, den sie RealChart2Code nennen.

Stellen Sie sich diesen Test wie einen Dreikampf vor:

  • Kampf 1: Das Gedächtnis-Spiel (Chart Replication)
    • Die Aufgabe: Der KI wird ein Bild eines komplexen Diagramms gezeigt. Sie muss den Code schreiben, um es genau so nachzubauen.
    • Die Falle: Es gibt keine Anleitung, nur das Bild. Die KI muss raten, wie die Daten organisiert sind.
  • Kampf 2: Der Koch mit Zutaten (Chart Reproduction)
    • Die Aufgabe: Jetzt bekommt die KI nicht nur das Bild, sondern auch den rohen Zutatenkoffer (die echten Daten-Dateien). Sie muss den Code schreiben, der diese echten Daten in das Bild verwandelt.
    • Die Falle: Echte Daten sind oft schmutzig, unvollständig oder riesig. Die KI muss sie säubern und verarbeiten, nicht nur das Bild nachahmen.
  • Kampf 3: Der Reparatur-Service (Chart Refinement)
    • Die Aufgabe: Die KI bekommt einen Code, der ein Diagramm erzeugt, aber Fehler hat (z. B. falsche Farben, überlappende Texte). Ein Mensch sagt ihr: "Hey, mach das hier besser." Die KI muss den Code korrigieren, ohne den Rest zu zerstören.
    • Die Falle: Das ist wie ein Gespräch. Die KI muss verstehen, was der Mensch will, und den Code schrittweise verbessern, ohne den ganzen Kuchen zusammenbrechen zu lassen.

3. Was haben sie herausgefunden? (Die Ergebnisse)

Die Forscher haben 14 der besten KI-Modelle (sowohl die teuren, geschlossenen wie von OpenAI oder Google als auch die kostenlosen, offenen Modelle) durch diesen Test geschickt.

Das Ergebnis war überraschend und etwas ernüchternd:

  • Der "Komplexitäts-Abgrund": Modelle, die auf den alten, einfachen Tests (Toastbrot) fast perfekt waren (90-100% Erfolg), fielen auf diesem neuen Test (Buffet) oft auf unter 50% zurück.
  • Die teuren Modelle sind besser, aber nicht perfekt: Die sehr teuren, proprietären Modelle (wie Claude oder GPT) schafften es am weitesten, aber sie scheiterten immer noch oft an den komplexesten Layouts. Sie konnten die Struktur nicht richtig verstehen.
  • Die offenen Modelle haben große Probleme: Die kostenlosen Modelle hatten massive Schwierigkeiten. Oft schrieben sie Code, der gar nicht lief (wie wenn man versucht, einen Motor mit einem Löffel zu starten) oder sie verwechselten die Daten komplett.

4. Wo hakt es genau? (Die Fehleranalyse)

Die Forscher haben sich die Fehler genauer angesehen und zwei Hauptprobleme gefunden:

  1. Der "Architekt"-Fehler (bei den offenen Modellen): Diese Modelle können oft nicht planen. Sie bauen ein Haus, bei dem die Wände übereinander liegen oder das Dach fehlt. Sie verstehen die räumliche Anordnung (Layout) von mehreren Diagrammen nicht.
  2. Der "Koch"-Fehler (bei den teuren Modellen): Diese Modelle können gut planen, aber sie verwechseln die Zutaten. Sie zeichnen das richtige Diagramm, aber mit den falschen Daten (z. B. zeigen sie die Verkaufszahlen von 2023 an, obwohl 2024 gemeint war).

5. Warum ist das wichtig?

Diese Studie ist wie ein Realitätscheck für die KI-Entwicklung.
Bisher dachten wir: "Die KI kann schon fast alles programmieren!"
Die Realität sagt: "Die KI kann einfache Muster erkennen, aber sie versteht noch nicht wirklich, wie komplexe Daten zusammenhängen und wie man sie visuell erzählt."

Fazit für den Alltag:
Wenn Sie heute einer KI sagen: "Mach mir ein Diagramm aus dieser Excel-Datei", wird sie vielleicht ein schönes Bild liefern. Aber wenn Sie sagen: "Mach mir ein komplexes Dashboard mit 10 verschiedenen Ansichten, das die echten Trends dieser riesigen Datei zeigt und korrigiere die Fehler, die ich finde", dann wird die KI wahrscheinlich noch stolpern.

Die Forscher hoffen, dass dieser neue Test ("RealChart2Code") wie ein Trainingslager wirkt, das die KI-Entwickler zwingt, ihre Modelle nicht nur auf einfache Tricks, sondern auf echtes, tiefes Verständnis von Daten und Design zu trainieren.

Kurz gesagt: Wir haben den KI-Assistenten gerade von der einfachen Hausaufgabe in die echte Arbeitswelt geschickt – und er hat gemerkt, dass er noch viel lernen muss, bevor er ein echter Daten-Profi wird.