Feynman: Knowledge-Infused Diagramming Agent for Scalable Visual Designs

本文介绍了名为 Feynman 的知识增强型智能体,它通过结合领域知识枚举、代码规划及 Penrose 渲染系统,高效生成大规模高质量图文对齐的图表数据集,并构建了用于评估视觉语言模型推理能力的 Diagramma 基准。

Zixin Wen, Yifu Cai, Kyle Lee, Sam Estep, Josh Sunshine, Aarti Singh, Yuejie Chi, Wode Ni

发布于 2026-03-16
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 FEYNMAN 的智能助手,它的主要任务是像一位超级高效的“科学插画师”一样,自动绘制成千上万张既准确又美观的教科书级图表

为了让你更容易理解,我们可以把这项技术想象成**“用乐高积木搭建知识城堡”**的过程。

1. 为什么要发明 FEYNMAN?(痛点)

现在的 AI(比如 GPT-4V 或 Gemini)虽然很聪明,能看懂图片、能聊天,但在画科学图表时却经常“翻车”:

  • 画得像,但内容错:它们能画出漂亮的图,但里面的化学键、数学公式或者逻辑关系经常是乱画的(就像画了一只猫,但猫长了 5 条腿)。
  • 懂内容,但画得烂:如果让 AI 直接写代码画图,它往往写不出能运行的代码,或者画出来的图乱七八糟,根本没法看。
  • 数据太缺:训练 AI 需要海量的“图 + 文字”配对数据,但网上高质量、逻辑严谨的科学图表太少了。

2. FEYNMAN 是怎么工作的?(核心流程)

FEYNMAN 不像普通 AI 那样试图“一口气”把图和文字都生成出来。它把任务拆解成了四个步骤,就像一个专业的绘图工作室在运作:

第一步:头脑风暴(枚举知识)

  • 比喻:就像一位老教授在黑板上列提纲。
  • 做法:FEYNMAN 先不画图,而是先问 AI:“关于‘化学反应’,你能想到哪些重要的知识点?”AI 会列出很多点子(比如:甲烷燃烧、氧化还原反应等)。
  • 目的:确保内容是准确、丰富的,先不管长什么样。

第二步:制定蓝图(代码规划)

  • 比喻:就像建筑师把教授的提纲画成施工图纸。
  • 做法:FEYNMAN 把刚才的知识点,翻译成一种特殊的“绘图语言”(叫 PENROSE 语言)的逻辑计划。它不直接画像素,而是写指令:“这里放一个氢原子,那里放一个氧原子,它们之间用单键连接”。
  • 目的:把抽象的知识转化为具体的结构指令。

第三步:反复打磨(迭代优化)

  • 比喻:就像艺术总监拿着初稿,找一群挑剔的评委(其他 AI 模型)来打分。
  • 做法
    1. 根据蓝图生成第一版图。
    2. 把图发给“评委 AI"们看。评委们会挑刺:“这个标签看不清”、“原子位置不对”、“太乱了”。
    3. FEYNMAN 根据批评意见修改代码,重新画图,直到评委满意为止。
  • 目的:确保质量,把错误消灭在萌芽状态。

第四步:自动渲染(最终呈现)

  • 比喻:就像3D 打印机,把图纸变成实物,而且每次打印出来的颜色、角度都稍微有点不同。
  • 做法:使用一个叫 PENROSE 的系统,把最终的代码变成图片。
  • 神奇之处:即使是用同一份“知识蓝图”,PENROSE 也能通过数学优化,生成几十种不同布局、不同风格的图。这就像同一个故事,可以画出漫画版、油画版、素描版,但讲的都是同一个道理。

3. 这个系统带来了什么成果?(成就)

  • 海量数据工厂:FEYNMAN 以极低的成本(不到 400 美元),自动生成了 10 万张 高质量的“图 + 文字”配对数据。这相当于给未来的 AI 教育了海量的“教科书”。
  • 新考试(DIAGRAMMA):作者用这些新生成的图,出了一套全新的考试题(DIAGRAMMA 基准),用来测试现在的 AI 到底能不能看懂科学图表。
  • 测试结果很扎心:在测试中,即使是目前最顶尖的 AI(如 GPT-4o, Claude 3.5),在理解这些图表时,正确率也往往只有 50%-60% 左右。这说明AI 在“看图说话”和“逻辑推理”方面还有很长的路要走

4. 总结

FEYNMAN 就像是一个不知疲倦的“知识翻译官” + “绘图大师”
它把“知识”和“画图”这两件难事拆分开,先用大模型的知识库把内容理清楚,再用专业的绘图工具把图画好,最后通过“自我批评”来保证质量。

这项工作的意义在于:它不仅帮我们制造了训练 AI 的“燃料”(数据),还造出了一套“试金石”(新基准),让我们清楚地看到,现在的 AI 虽然能聊天,但在严谨的科学视觉推理上,还像个刚上幼儿园的孩子,需要更多的训练和更聪明的方法。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →