Visual-ERM: Reward Modeling for Visual Equivalence

本文提出了视觉等价奖励模型(Visual-ERM),这是一种多模态生成式奖励模型,能够直接在渲染视觉空间中对图表、表格和 SVG 等视觉转代码任务提供细粒度且可解释的反馈,从而有效解决了现有强化学习奖励信号对齐不足的问题,显著提升了模型性能并构建了相应的评估基准。

Ziyu Liu, Shengyuan Ding, Xinyu Fang, Xuanlang Dai, Penghui Yang, Jianze Liang, Jiaqi Wang, Kai Chen, Dahua Lin, Yuhang Zang

发布于 2026-03-16
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 Visual-ERM 的新工具,它的核心任务是解决人工智能在“看图写代码”(比如把一张图表变成 Python 代码,或者把表格变成 Markdown 格式)时遇到的一个巨大难题:如何给 AI 的“作业”打分,才能让它真正学会画得像?

我们可以用"教孩子画画"的比喻来通俗地理解这项研究。

1. 核心问题:以前的“老师”太笨了

想象一下,你教一个 AI 机器人(比如 Qwen3-VL)把一张手绘的饼图变成电脑代码

  • 以前的方法 A(纯文字打分): 老师只看机器人写出来的代码文字。如果代码里少了一个逗号,或者多了一个空格,老师就扣分。
    • 缺点: 机器人可能代码写得完美无缺,但画出来的饼图颜色全错了,或者数据比例完全不对。文字老师根本看不见这些视觉错误。
  • 以前的方法 B(模糊的视觉打分): 老师拿两张图(原图和机器人画的图)去比对,算一个“相似度分数”(比如 99% 相似)。
    • 缺点: 这个分数太粗糙了。就像两个图看起来都是“红色的圆”,老师就给了高分。但实际上,原图是“正圆”,机器人画的是“椭圆”;原图是“苹果红”,机器人画的是“番茄红”。这种细枝末节的错误,以前的老师根本发现不了,甚至会被机器人“钻空子”(Reward Hacking),机器人只要把图改得稍微像那么一点点,就能骗到高分,但实际质量很差。

结果: AI 学得很辛苦,但画出来的东西总是“形似神不似”,甚至出现严重的逻辑错误(比如把上升趋势画成下降)。

2. 解决方案:Visual-ERM —— 一位“火眼金睛”的视觉专家

这篇论文提出了一位新的“老师”:Visual-ERM。它不再只看文字,也不只看模糊的相似度,而是像一位经验丰富的数据可视化专家一样,拿着放大镜去对比原图和生成图。

它有三个超能力:

A. 火眼金睛(细粒度)

它不仅能看出“图不一样”,还能精准指出哪里不一样

  • 比喻: 以前的老师只会说:“你画得不对,扣 10 分。”
  • Visual-ERM 会说: “你的Y 轴标签写错了(文字错误),红色柱子的高度比原图矮了 20%(数据错误),而且图例的位置跑到了右边(布局错误)。”
  • 它能把错误分类为:结构错误、数据错误、文字错误、风格错误,并给每个错误打分(轻微、中等、严重)。

B. 会说话(可解释性)

它不只是给一个冷冰冰的数字分数,而是会写评语

  • 比喻: 就像老师在你的作业本上写:“这里颜色太深了,看不清数据。”
  • 这让 AI 知道具体该怎么改,而不是盲目地试错。

C. 全科老师(任务通用)

它不仅能教画图表(Chart),还能教画表格(Table)和矢量图(SVG)。不管是什么类型的图,它都能用同一套标准来评判。

3. 它是如何工作的?(训练过程)

为了让这位“专家”变得聪明,作者们用了一种聪明的“蒸馏”方法:

  1. 制造错题集: 他们让强大的 AI 故意把完美的图“画坏”(比如改错颜色、移走标签),制造出各种各样的“坏图”。
  2. 找大模型当助教: 他们请了更强大的商业模型(如 GPT-5 mini)来当“助教”,仔细对比原图和坏图,写出详细的“找茬报告”(哪里错了,错得多严重)。
  3. 训练 Visual-ERM: 让 Visual-ERM 学习这些“找茬报告”。经过大量训练,Visual-ERM 自己就变成了一个能独立找茬、写评语的专家。

4. 效果如何?(实战表现)

  • 教得更好: 当把 Visual-ERM 当作“老师”来训练 AI 时,AI 画图表的能力突飞猛进。在图表转代码的任务上,准确率提升了 8.4%,这比以前的方法强很多。
  • 自己就是学霸: 作者还做了一个专门的考试(VC-RewardBench),让各种模型来当“阅卷老师”。结果发现,Visual-ERM 虽然只有 80 亿参数(中等身材),但它的找茬能力竟然吊打了 2350 亿参数的超级大模型(Qwen3-VL-235B),甚至接近了最顶尖的闭源商业模型。
  • 自我修正: 在考试时,如果 AI 第一次画错了,Visual-ERM 可以给出评语,让 AI 根据评语自我反思并修改,就像学生订正错题一样,最后画出来的图越来越完美。

总结

简单来说,Visual-ERM 就是给 AI 请了一位懂视觉、懂细节、会写评语的“金牌教练”

以前的 AI 学画画,要么只看文字(不管画得像不像),要么只看大概(容易钻空子)。现在有了 Visual-ERM,AI 能收到精准、具体、可操作的反馈,从而真正学会如何把图片“完美复刻”成代码。这不仅让 AI 画图表更准了,也为未来 AI 处理各种复杂的视觉任务(如设计 UI、解析文档)打下了坚实的基础。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →