ChartArena: Benchmarking Chart Parsing across Languages, Scenarios, and Formats

本文介绍了 ChartArena,这是一个全面的双语基准测试,涵盖了数字、印刷和手绘场景下的八类图表家族,并采用了一种与格式无关的评估协议,旨在系统地评估并揭示 26 个领先的多模态大语言模型在解析各类图表时的当前能力与局限性。

原作者: Shangpin Peng, Gengluo Li, Xingyu Wan, Chengquan Zhang, Hao Feng, Binghong Wu, Huawen Shen, Weinong Wang, Ziyi Cai, Zhuotao Tian, Han Hu, Can Ma, Yu Zhou

发布于 2026-06-02✓ Author reviewed
📖 1 分钟阅读☕ 轻松阅读

原作者: Shangpin Peng, Gengluo Li, Xingyu Wan, Chengquan Zhang, Hao Feng, Binghong Wu, Huawen Shen, Weinong Wang, Ziyi Cai, Zhuotao Tian, Han Hu, Can Ma, Yu Zhou

原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

想象一下,你拥有一个巨大的图表、图形和图解库。其中有些是整洁的电脑绘图,有些是办公室里拍摄的凌乱纸张照片,还有一些是在白板上绘制的草图。现在,想象你想教一个机器人阅读这些图片,并将它们转化为事实列表(如电子表格)或连接图谱(如家谱)。

这篇论文介绍了一个名为 ChartArena 的全新、庞大的“测试赛道”,旨在测试不同的机器人(AI 模型)在执行这项任务时的表现如何。

以下是使用简单类比对该论文进行的解析:

1. 问题所在:“语言障碍”与“无尘室”问题

在此之前,测试这些机器人就像是在参加一场比赛,但规则如下:

  • 规则在变: 一个选手必须用英语回答,另一个必须用西班牙语,第三个必须用摩斯电码。你无法轻易比较谁跑得更快,因为他们的答案看起来完全不同。
  • 赛道是虚假的: 大多数测试只使用完美的、计算机生成的图表。这就像是在训练一名赛车手时,只让他驾驶在平滑、空旷的赛道上,然后期望他在雨天或颠簸的土路上也能完美驾驶。现实生活中有模糊的照片、倾斜的角度和凌乱的手写体,但旧的测试忽略了这些。
  • 范围过窄: 测试主要关注简单的条形图和饼图。它们忽略了复杂的图解,比如流程图(决策树)或思维导图,这些东西就像是思想的纠缠网络,而不仅仅是简单的数字。

2. 解决方案:ChartArena(终极障碍赛)

作者构建了 ChartArena,这是一个全新的、超全面的测试,解决了上述所有问题。

  • 八种不同的“障碍”: 该测试涵盖了八种类型的图表,从简单的数字图表(条形图、折线图、饼图)到复杂的结构图(流程图、思维导图)。
  • 三种“天气条件”: 每种图表都以三种方式进行测试:
    1. 数字版: 完美的、清晰的计算机图像。
    2. 打印版: 纸质文档的照片(可能略微模糊或倾斜)。
    3. 手绘版: 白板或笔记本上的草图照片(墨迹凌乱、线条不均)。
  • 两种语言: 该测试是双语的,涵盖了英语和中文。
  • “人机协作”团队: 为了确保答案的正确性,他们采用了团队协作模式。由一个 AI 制作初稿,然后由人类专家进行多次检查和修正。这确保了“金标准”答案的可靠性。

3. 评分系统:“通用翻译器”

由于不同的机器人输出答案的格式不同(有的写代码,有的写表格,有的写列表),如何公平地评分呢?

作者创建了一个 通用翻译器

  • 对于数字图表: 无论机器人写的是 Python 脚本、CSV 文件还是 Markdown 表格,系统都会将其统一转化为简单的“谁、什么、多少”的列表(三元组/Triples)。
  • 对于图解: 无论机器人使用的是 Mermaid、Graphviz 还是 PlantUML,系统都会将其转化为点和线的地图(有向图/Directed Graph)。

一旦所有内容都被转化为这种共同语言,系统就会进行评分。它不仅仅检查单词是否完全匹配,还会检查其结构是否合理。这就像批改学生的作文:如果他们使用了正确的同义词并且抓住了中心思想,即使拼写不是完美无缺,也会得到分数。

4. 结果:谁赢得了比赛?

作者在这一新赛道上测试了 26 种不同的 AI 模型。以下是他们的发现:

  • “大厂”机器人处于领先地位: 最先进的、付费的模型(如 Gemini 3.1 Pro)目前在工作中表现最好。然而,优秀的免费开源模型正在飞速追赶。
  • “文档阅读器”是偏科生: 一些模型擅长阅读文档和简单的数字图表。但当你展示一个复杂的流程图或思维导图时,它们就会迷失方向。它们缺乏理解思想如何连接的“世界知识”。
  • “专家型模型”过于专业化: 有些模型是专门为图表设计的。虽然它们处理简单的条形图表现尚可,但在面对图解或手绘草图时往往会彻底失败。它们学习的种类不够广泛,无法应对现实世界。
  • 最难的挑战:
    • 雷达图: 这些圆形图表(像蜘蛛网一样)对所有人来说都是最难阅读的。
    • 手绘草图: 当输入是杂乱的草图照片时,所有模型的表现都会显著下降。

5. 总结

论文得出结论,虽然 AI 在阅读图表方面正在变得更好,但在完美的实验室环境与混乱的现实世界之间仍存在巨大差距。

ChartArena 提供了一种公平、统一的衡量进步的方法。它准确地告诉我们机器人在哪里失败了(复杂的图解、模糊的照片),从而让开发者知道应该将精力集中在哪里,以构建真正可靠的图表阅读 AI。

简而言之:我们终于有了一个带有现实世界障碍的公平赛道,现在我们也清楚地知道哪些机器人已经准备好迎接现实世界,而哪些机器人仍需要更多训练。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →