Factuality Matters: When Image Generation and Editing Meet Structured Visuals

本文针对现有视觉生成模型在处理结构化图表时缺乏事实准确性的问题,构建了包含 130 万高质量数据的大规模数据集,提出了融合 VLM 与 FLUX.1 的统一模型及三阶段训练策略,并发布了名为 StructBench 的评测基准与 StructScore 指标,系统性地推动了结构化视觉内容的生成与编辑研究。

Le Zhuo, Songhao Han, Yuandong Pu, Boxiang Qiu, Sayak Paul, Yue Liao, Yihao Liu, Jie Shao, Xi Chen, Si Liu, Hongsheng Li

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给现在的 AI 画家们上一堂“严谨的数学与工程课”。

想象一下,现在的 AI(比如 Midjourney 或 DALL-E 3)非常擅长画风景画、人像或抽象艺术。你让它画“一只在夕阳下奔跑的猫”,它能画得美轮美奂,连毛发的光泽都栩栩如生。

但是,如果你让它画一张精确的统计图表数学几何图,或者修改一张复杂的工程图纸,AI 就会立刻“露馅”:

  • 它画的柱状图,柱子高度可能完全不对。
  • 它写的文字(比如坐标轴上的数字)可能是乱码或错别字。
  • 你让它“把红色的线改成蓝色”,它可能把整张图都染红了,或者把线的位置画错了。

为什么?因为画风景靠的是“感觉”和“审美”,而画图表靠的是“逻辑”、“精确性”和“事实”。现在的 AI 太擅长“感觉”了,却忘了“事实”的重要性。

这篇论文(来自 ICLR 2026)就是为了解决这个问题,他们做了一件三管齐下的事情:

1. 造了一个“超级特训营”(数据集)

以前的 AI 训练数据大多是网上抓来的照片,AI 学会了怎么“好看”,但没学会怎么“对”。

  • 他们的做法:他们不再从网上抓图,而是从代码入手。就像教人学做菜,不是让他看成品菜,而是给他食谱(代码)。
  • 怎么做的:他们收集了 130 万段能画出图表、数学图、科学图的代码。让 AI 先运行代码生成图,然后让 AI 修改代码(比如把“红色”改成“蓝色”,把“数值 5"改成"10"),再重新运行代码生成新图。
  • 结果:因为是基于代码生成的,所以每一张图都是 100% 精确的,没有任何“幻觉”。他们还让 AI 像做数学题一样,把修改过程一步步写出来(思维链),让 AI 学会“先思考,再动笔”。

2. 训练了一个“逻辑型画家”(模型)

他们基于一个强大的基础模型(FLUX.1),给它装上了一个“超级大脑”(连接了一个能看懂图表的视觉语言模型)。

  • 三阶段训练法
    1. 对齐:先让画家学会听懂指令,把“代码语言”和“图像语言”对上号。
    2. 注入知识:用上面那个“超级特训营”的数据,让画家专门练习画图表、改图纸,学会精确控制每一个像素和数字。
    3. 思维增强:这是最关键的。在生成图片前,先让 AI 的“大脑”(外部推理器)像数学家一样思考:“用户要改什么?原来的图哪里不对?改完应该长什么样?”想清楚了再动手画。
  • 比喻:以前的 AI 是“直觉型画家”,凭感觉乱画;现在的 AI 是“工程师画家”,先画草图、算数据、列清单,最后再下笔,确保分毫不差。

3. 制定了一套“严谨的考试”(评测基准 StructBench)

以前的评测标准是“这张图好不好看?”或者“像不像?”。但这对于图表来说没用,因为图表必须是对的

  • 新标准:他们设计了一个叫 StructScore 的评分系统。
  • 怎么考:他们不再让 AI 看图打分,而是让 AI 扮演“考官”,针对生成的图提出几十个具体的小问题
    • 比如:“图表标题是什么?”“X 轴上第三个数字是多少?”“红色柱子的顶端高度是多少?”
    • 如果 AI 生成的图里,标题写错了,或者数字不对,哪怕画面再美,分数也会大打折扣。
  • 结果:用这个标准去考现有的 15 个最厉害的 AI(包括闭源的 GPT-Image 等),发现大家都不及格,准确率普遍只有 50% 左右。而他们的模型在“修改图片”这项任务上表现最好,证明了“先思考再行动”的策略非常有效。

总结

这篇论文的核心思想就是:在生成结构化图像(如图表、图纸)

  • 以前:AI 是“艺术家”,追求美,但经常画错数。
  • 现在:AI 变成了“工程师”,追求准,能精确地修改数据、渲染文字、理解逻辑。

他们开源了数据、模型和考试标准,希望未来的 AI 不仅能画出美丽的画,还能画出准确无误的科学图表,真正帮科学家、工程师和学生们解决问题。