Composition-Grounded Data Synthesis for Visual Reasoning

该论文提出了 COGS 框架,通过将种子问题分解为感知与推理因子并重组生成合成数据,有效解决了图表等人工图像领域缺乏大规模标注数据的难题,显著提升了多模态大语言模型的视觉推理与泛化能力。

Xinyi Gu, Jiayuan Mao, Zhang-Wei Hong, Zhuoran Yu, Pengyuan Li, Dhiraj Joshi, Rogerio Feris, Zexue He

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 COGS 的新方法,它的核心目标是:教给 AI 更高级的“看图说话”和“逻辑推理”能力,而且只需要很少的“老师”(种子数据)。

想象一下,现在的 AI(多模态大模型)就像是一个博览群书但还没经过专业训练的大学生。它认识图表、网页、文档里的字和图,但如果让它去解一道复杂的数学应用题,或者分析一张复杂的网页布局,它往往只能“猜”个大概,缺乏严密的逻辑推理步骤。

为了解决这个问题,作者们发明了一套**“乐高积木式”的数据合成法**。

1. 核心痛点:为什么 AI 学不会“深思考”?

在现实世界中,有很多像统计图表、网页截图、文档这样的“人工图像”。虽然网上到处都是这些图,但带有详细推理步骤的“题目 + 答案”数据却非常少

  • 现状:我们很难雇佣成千上万的专家,为每一张图表都手写一份详细的解题思路。
  • 后果:AI 缺乏足够的“练习题”来学习如何一步步推理,导致它只能死记硬背,遇到新题就懵。

2. COGS 的解决方案:把“大难题”拆成“小积木”

COGS 的核心理念是**“组合”(Composition)。作者认为,任何复杂的推理问题,其实都是由几个简单的“原子步骤”**(Factors)拼起来的。

比喻:做菜的“食谱”

想象你要教 AI 做一道复杂的“佛跳墙”(复杂的图表推理题)。

  • 传统方法:找一位大厨,让他把整道菜怎么做写下来。但这很难,而且大厨做的菜可能只适合这一种食材。
  • COGS 方法
    1. 拆解(Decomposition):先找几道简单的“种子菜”(种子问题),让 AI 把它们拆解成最基础的**“烹饪动作”**(感知与推理因子)。
      • 比如:识别数字、比较大小、做加减法、查找特定位置。
      • 这就好比把“佛跳墙”拆解成了:切菜、炖汤、调味、摆盘。
    2. 重组(Recomposition):现在,我们手里有一堆“烹饪动作”的积木。我们随便找一张新的、没见过的图表(就像换了一锅新的食材),然后随机抽取几个“烹饪动作”积木,重新拼成一道全新的菜
      • 比如:用“识别数字” + “做减法” + “比较大小”,在一张新图表上生成一道新题。
    3. 结果:原本只有 10 道种子题,通过这种“积木重组”,瞬间生成了成千上万道逻辑严密、步骤清晰的新题目。

3. 怎么训练 AI?:不仅看“结果”,更看“过程”

这是 COGS 最聪明的地方。

  • 普通训练:AI 做对了题给奖励,做错了扣分。这就像考试只看分数,不知道学生是蒙对的还是真懂了。
  • COGS 训练:因为题目是拆解生成的,AI 在解题时,每一步(比如先识别数字,再比较大小)都有对应的“中间答案”。
    • 如果 AI 第一步识别错了,或者第二步比较错了,系统会立刻知道并给一个**“过程奖励”**。
    • 这就像老师批改作业,不仅看最后答案对不对,还会给每一步的推导打分。如果中间步骤对了,即使最后算错了,也能得到部分鼓励。这让 AI 学会了**“脚踏实地”地一步步思考**,而不是瞎蒙。

4. 实验效果:举一反三,不仅限于图表

作者在图表理解(Chart Reasoning)和网页理解(Webpage Reasoning)两个领域做了测试:

  • 图表领域:AI 在处理那些需要多步推理、逻辑复杂的题目时,成绩大幅提升。特别是那些需要“先找 A,再找 B,最后算 A 和 B 的差”的题目,AI 变得非常擅长。
  • 跨领域迁移:更神奇的是,用图表数据训练出来的“推理能力”,竟然能直接用到网页浏览上!这说明 AI 真的学会了“逻辑推理”这个通用技能,而不是死记硬背了图表的套路。

5. 总结:COGS 是什么?

COGS 就像是一个“超级教练”

  1. 它不需要海量的现成题库,只需要一小部分高质量的“种子题目”。
  2. 它把题目拆成基础积木(感知、计算、比较等)。
  3. 它用这些积木,结合海量的新图片,自动生成了无数道逻辑严密的新题目
  4. 它通过**“过程奖励”**,手把手教 AI 如何一步步思考,而不是只给个答案。

最终成果:AI 从一个只会“看图猜字”的初学者,变成了一个能像人类一样拆解问题、逐步推理的专家,而且这一切只需要很少的初始数据就能完成。这对于那些缺乏大量标注数据的领域(如复杂的工程图表、特定行业的网页),是一个巨大的突破。