ChartArena: Benchmarking Chart Parsing across Languages, Scenarios, and Formats

Dieses Paper stellt ChartArena vor, einen umfassenden zweisprachigen Benchmark, der acht Diagrammfamilien über digitale, gedruckte und handgezeichnete Szenarien hinweg mit einem formatagnostischen Evaluierungsprotokoll umfasst, um die aktuellen Fähigkeiten und Grenzen von 26 führenden multimodalen großen Sprachmodellen bei der Analyse diverser Diagrammtypen systematisch zu bewerten und aufzuzeigen.

Ursprüngliche Autoren: Shangpin Peng, Gengluo Li, Xingyu Wan, Chengquan Zhang, Hao Feng, Binghong Wu, Huawen Shen, Weinong Wang, Ziyi Cai, Zhuotao Tian, Han Hu, Can Ma, Yu Zhou

Veröffentlicht 2026-06-02✓ Author reviewed
📖 5 Min. Lesezeit🧠 Tiefgang

Ursprüngliche Autoren: Shangpin Peng, Gengluo Li, Xingyu Wan, Chengquan Zhang, Hao Feng, Binghong Wu, Huawen Shen, Weinong Wang, Ziyi Cai, Zhuotao Tian, Han Hu, Can Ma, Yu Zhou

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Stellen Sie sich vor, Sie besitzen eine riesige Bibliothek voller Diagramme, Grafiken und Zeichnungen. Einige sind ordentliche Computergrafiken, manche sind Fotos von Papieren aus einem unordentlichen Büro und einige sind grobe Skizzen auf einem Whiteboard. Stellen Sie sich nun vor, Sie möchten einem Roboter beibringen, diese Bilder zu lesen und sie in eine Liste von Fakten (wie eine Tabelle) oder eine Karte von Verbindungen (wie einen Stammbaum) umzuwandeln.

Dieses Paper stellt ChartArena vor, eine neue, massive „Teststrecke“, die darauf ausgelegt ist, zu prüfen, wie gut verschiedene Roboter (KI-Modelle) diese Aufgabe bewältigen können.

Hier ist die Aufschlüsselung des Papers unter Verwendung einfacher Analogien:

1. Das Problem: Die „Sprachbarriere“ und das „Sauberkeits-Problem“

Bevor es dieses Paper gab, war das Testen dieser Roboter wie der Vergleich von Läufern in einem Rennen, bei dem:

  • Die Regeln sich änderten: Ein Läufer musste seine Antwort auf Englisch schreiben, ein anderer auf Spanisch und ein dritter in Morsecode. Man konnte nicht einfach vergleichen, wer schneller war, weil die Antworten so unterschiedlich aussähen.
  • Die Strecke künstlich war: Die meisten Tests verwendeten nur perfekte, computergenerierte Diagramme. Es war, als würde man einen Fahrer nur auf einer glatten, leeren Rennstrecke trainieren und dann erwarten, dass er perfekt im Regen auf einer holprigen Schotterstraße fährt. Das echte Leben hat unscharfe Fotos, schiefe Winkel und unordentliche Handschriften, aber die alten Tests ignorierten das.
  • Der Umfang zu eng war: Die Tests konzentrierten sich meist auf einfache Balkendiagramme und Kreisdiagramme. Sie ignorierten komplexe Diagramme wie Flussdiagramme (Entscheidungsbäume) oder Mindmaps, die eher wie ein verschlungenes Netz von Ideen als wie einfache Zahlen sind.

2. Die Lösung: ChartArena (Der ultimative Hindernisparcours)

Die Autoren haben ChartArena entwickelt, einen neuen, super-umfassenden Test, der all die oben genannten Probleme löst.

  • Acht verschiedene „Hindernisse“: Der Test deckt acht Arten von Diagrammen ab, von einfachen Zahlendiagrammen (Balken-, Linien-, Kreisdiagramme) bis hin zu komplexen strukturellen Diagrammen (Flussdiagramme, Mindmaps).
  • Drei „Wetterbedingungen“: Jedes Diagramm wird auf drei Arten getestet:
    1. Digital: Ein perfektes, gestochen scharfes Computerbild.
    2. Gedruckt: Ein Foto eines Papierdokuments (das leicht unscharf oder gekippt sein kann).
    3. Handgezeichnet: Ein Foto einer Skizze auf einem Whiteboard oder in einem Notizbuch (unordentliche Tinte, unebene Linen).
  • Zwei Sprachen: Der Test ist zweisprachig und deckt sowohl Englisch als auch Chinesisch ab.
  • Das „Mensch-Agent-Team“: Um sicherzustellen, dass die Antworten korrekt sind, wurde ein Team-Ansatz verwendet. Eine KI erstellte einen ersten Entwurf der Antwort, und dann prüften und korrigierten menschliche Experten diese mehrfach. Dies stellt sicher, dass die „Goldstandard“-Antworten zuverlässig sind.

3. Das Bewertungssystem: Der „Universalübersetzer“

Da verschiedene Roboter Antworten in unterschiedlichen Formaten ausgeben (manche schreiben Code, manche Tabellen, manche Listen), wie bewertet man sie fair?

Die Autoren haben einen Universalübersetzer geschaffen.

  • Für Zahlen-Diagramme: Egal, ob der Roboter ein Python-Skript, eine CSV-Datei oder eine Markdown-Tabelle geschrieben hat, das System übersetzt alles in eine einfache Liste von „Wer, Was, Wie viel“ (Tripel).
  • Für Diagramme: Egal, ob der Roboter Mermaid, Graphviz oder PlantUML verwendet hat, das System übersetzt alles in eine Karte aus Punkten und Linien (einen gerichteten Graphen).

Sobald alles in diese gemeinsame Sprache übersetzt wurde, bewertet das System sie. Es prüft nicht nur, ob die Wörter exakt übereinstimmen, sondern ob die Struktur Sinn ergibt. Es ist wie das Bewerten eines Aufsatzes eines Schülers: Wenn sie die richtigen Synonyme verwenden und die Hauptidee richtig erfassen, erhalten sie Punkte, selbst wenn die Rechtschreibung nicht perfekt ist.

4. Die Ergebnisse: Wer hat das Rennen gewonnen?

Die Autoren haben 26 verschiedene KI-Modelle auf dieser neuen Strecke getestet. Hier ist, was sie herausgefunden haben:

  • Die „Big Tech“-Roboter führen: Die fortschrittlichsten, kostenpflichtigen Modelle (wie Gemini 3.1 Pro) sind derzeit am besten in diesem Job. Die besten kostenlosen Open-Source-Modelle holen jedoch sehr schnell auf.
  • Die „Dokumenten-Leser“ sind Ein-Trick-Pferde: Einige Modelle sind großartig darin, Dokumente und einfache Zahlendiagramme zu lesen. Aber wenn man ihnen ein komplexes Flussdiagramm oder eine Mindmap zeigt, verlieren sie den Faden. Ihnen fehlt das „Weltwissen“, um zu verstehen, wie Ideen zusammenhängen.
  • Die „Spezialisten“ sind zu spezialisiert: Es gibt Modelle, die speziell für Diagramme gebaut wurden. Während sie bei einfachen Balkendiagrammen ganz okay sind, scheitern sie oft völlig, wenn sie mit Diagrammen oder handgezeichneten Skizzen konfrontiert werden. Sie haben nicht genug Vielfalt gelernt, um mit der realen Welt umzugehen.
  • Die größten Herausforderungen:
    • Netzdiagramme (Radar Charts): Diese kreisförmigen Diagramme (wie ein Spinnennetz) sind für alle am schwersten zu lesen.
    • Handgezeichnete Skizzen: Wenn der Input ein unordentliches Foto einer Skizze ist, sinkt die Leistung für alle Modelle signifikant.

5. Das Fazit

Das Paper kommt zu dem Schluss, dass KI zwar besser darin wird, Diagramme zu lesen, aber immer noch eine große Lücke zwischen dem, was sie in einem perfekten Laborumfeld leisten können, und dem, was sie in der unordentlichen realen Welt leisten können, besteht.

ChartArena bietet einen fairen, einheitlichen Weg, um Fortschritte zu messen. Es zeigt uns genau, wo die Roboter scheitern (komplexe Diagramme, unordentliche Fotos), damit Entwickler wissen, wo sie ihre Bemühungen konzentrieren müssen, um wirklich zuverlässige Diagramm-lesende KIs zu bauen.

Kurz gesagt: Wir haben endlich eine faire Rennstrecke mit realen Hindernissen, und wir wissen nun genau, welche Roboter bereit für die reale Welt sind und welche noch mehr Training benötigen.

Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?

Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.

Digest testen →