Composition-Grounded Data Synthesis for Visual Reasoning

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 COGS 的新方法，它的核心目标是：教给 AI 更高级的“看图说话”和“逻辑推理”能力，而且只需要很少的“老师”（种子数据）。

想象一下，现在的 AI（多模态大模型）就像是一个博览群书但还没经过专业训练的大学生。它认识图表、网页、文档里的字和图，但如果让它去解一道复杂的数学应用题，或者分析一张复杂的网页布局，它往往只能“猜”个大概，缺乏严密的逻辑推理步骤。

为了解决这个问题，作者们发明了一套**“乐高积木式”的数据合成法**。

1. 核心痛点：为什么 AI 学不会“深思考”？

在现实世界中，有很多像统计图表、网页截图、文档这样的“人工图像”。虽然网上到处都是这些图，但带有详细推理步骤的“题目 + 答案”数据却非常少。

现状：我们很难雇佣成千上万的专家，为每一张图表都手写一份详细的解题思路。
后果：AI 缺乏足够的“练习题”来学习如何一步步推理，导致它只能死记硬背，遇到新题就懵。

2. COGS 的解决方案：把“大难题”拆成“小积木”

COGS 的核心理念是**“组合”（Composition）。作者认为，任何复杂的推理问题，其实都是由几个简单的“原子步骤”**（Factors）拼起来的。

比喻：做菜的“食谱”

想象你要教 AI 做一道复杂的“佛跳墙”（复杂的图表推理题）。

传统方法：找一位大厨，让他把整道菜怎么做写下来。但这很难，而且大厨做的菜可能只适合这一种食材。
COGS 方法：
1. 拆解（Decomposition）：先找几道简单的“种子菜”（种子问题），让 AI 把它们拆解成最基础的**“烹饪动作”**（感知与推理因子）。
  - 比如：识别数字、比较大小、做加减法、查找特定位置。
  - 这就好比把“佛跳墙”拆解成了：切菜、炖汤、调味、摆盘。
2. 重组（Recomposition）：现在，我们手里有一堆“烹饪动作”的积木。我们随便找一张新的、没见过的图表（就像换了一锅新的食材），然后随机抽取几个“烹饪动作”积木，重新拼成一道全新的菜。
  - 比如：用“识别数字” + “做减法” + “比较大小”，在一张新图表上生成一道新题。
3. 结果：原本只有 10 道种子题，通过这种“积木重组”，瞬间生成了成千上万道逻辑严密、步骤清晰的新题目。

3. 怎么训练 AI？：不仅看“结果”，更看“过程”

这是 COGS 最聪明的地方。

普通训练：AI 做对了题给奖励，做错了扣分。这就像考试只看分数，不知道学生是蒙对的还是真懂了。
COGS 训练：因为题目是拆解生成的，AI 在解题时，每一步（比如先识别数字，再比较大小）都有对应的“中间答案”。
- 如果 AI 第一步识别错了，或者第二步比较错了，系统会立刻知道并给一个**“过程奖励”**。
- 这就像老师批改作业，不仅看最后答案对不对，还会给每一步的推导打分。如果中间步骤对了，即使最后算错了，也能得到部分鼓励。这让 AI 学会了**“脚踏实地”地一步步思考**，而不是瞎蒙。

4. 实验效果：举一反三，不仅限于图表

作者在图表理解（Chart Reasoning）和网页理解（Webpage Reasoning）两个领域做了测试：

图表领域：AI 在处理那些需要多步推理、逻辑复杂的题目时，成绩大幅提升。特别是那些需要“先找 A，再找 B，最后算 A 和 B 的差”的题目，AI 变得非常擅长。
跨领域迁移：更神奇的是，用图表数据训练出来的“推理能力”，竟然能直接用到网页浏览上！这说明 AI 真的学会了“逻辑推理”这个通用技能，而不是死记硬背了图表的套路。

5. 总结：COGS 是什么？

COGS 就像是一个“超级教练”：

它不需要海量的现成题库，只需要一小部分高质量的“种子题目”。
它把题目拆成基础积木（感知、计算、比较等）。
它用这些积木，结合海量的新图片，自动生成了无数道逻辑严密的新题目。
它通过**“过程奖励”**，手把手教 AI 如何一步步思考，而不是只给个答案。

最终成果：AI 从一个只会“看图猜字”的初学者，变成了一个能像人类一样拆解问题、逐步推理的专家，而且这一切只需要很少的初始数据就能完成。这对于那些缺乏大量标注数据的领域（如复杂的工程图表、特定行业的网页），是一个巨大的突破。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

核心痛点：预训练的多模态大语言模型（MLLMs）虽然在通用任务上表现优异，但在推理能力（Reasoning Capabilities）方面仍存在不足，特别是在那些难以收集大规模人工标注推理数据的领域（如人工图像领域：图表、渲染文档、网页等）。
数据稀缺：虽然互联网上充斥着大量的图表和网页图像，但包含复杂推理问题的标注数据集非常稀缺。现有的数据集往往缺乏深度推理，或者依赖模板生成，难以覆盖真实世界的复杂查询。
现有局限：
- 通用 MLLM 在需要多步推理的任务上表现不佳。
- 现有的数据合成方法多基于文本空间的搜索或手工设计的启发式规则，缺乏对视觉特征和推理组件的系统性分解。
- 专门针对特定领域（如图表）的模型往往受限于狭窄的训练分布，泛化能力差。

2. 方法论 (Methodology)

作者提出了 COGS (COmposition-Grounded data Synthesis)，这是一个数据高效的框架，旨在利用少量的种子问题（Seed Questions）和未标注图像，通过**组合性（Compositionality）**原则合成大规模的训练数据，并配合过程奖励强化学习来提升模型推理能力。

COGS 框架包含三个核心阶段（如图 2 所示）：

阶段一：种子数据分解 (Seed Data Decomposition)

输入：目标领域的一小种子集问题（ $Q_0$ ）及其对应的图像。
过程：利用 MLLM 将每个复杂问题分解为一系列可解释的基础因子（Factors）。
- 感知因子 (Perception Factors)：如识别图表中的数值、定位网页元素。
- 推理因子 (Reasoning Factors)：如比较、计数、算术计算、逻辑判断、外推等。
输出：构建一个因子池（Factor Pool, $\mathcal{F}$ ）。每个因子包含类别标签（如 "Calculation"）和从种子数据中提取的示例子问题（Subquestions）。
关键点：不需要种子问题有标准答案，只需分解出推理步骤的结构。

阶段二：基于因子的重组与数据生成 (Factor Recomposition & Generation)

输入：新的未标注图像（来自在线图表或网页库）+ 从因子池中随机采样的因子子集。
过程：
1. 提示 MLLM 根据新图像和采样到的因子，生成新的子问题（Subquestions）。
2. 将子问题组合成连贯的复杂问题（Complex Questions）。
3. 自动生成答案：先生成子问题的答案，再汇总生成最终问题的答案。
优势：
- 可扩展性：通过因子的排列组合，可以从少量种子生成海量多样化的数据。
- 中间监督：生成的数据天然包含子问题及其答案，为后续的过程奖励提供了基础。
- 利用元数据：在图表领域，可利用底层元数据（如数据表）提高答案精度。

阶段三：基于强化学习的微调 (RL-based Fine-tuning)

算法：采用 GRPO (Group Relative Policy Optimization) 对预训练 MLLM 进行微调。
奖励设计 (Reward Modeling)：
- 利用生成的子问题答案作为过程奖励（Process Rewards）。
- 定义了三种奖励模型：
  1. StandardRM：仅基于最终答案的正确性。
  2. ProcessRM-sum：最终答案正确性 + 子问题平均准确率（ $\lambda \cdot r_{sub}$ ）。
  3. ProcessRM-max： $\max(r_{final}, \lambda \cdot r_{sub})$ 。
理论发现：论文通过理论分析（Proposition 3.1）证明，在子问题信号存在噪声时，ProcessRM-max 能更好地保持策略排序（Policy Order），避免像 ProcessRM-sum 那样因噪声导致策略排序错误，从而在实验中表现更优。

3. 关键贡献 (Key Contributions)

COGS 框架：提出了一种基于“组合性”的数据合成新范式，将复杂问题分解为原子感知和推理因子，实现了从少量种子到大规模合成数据的可扩展生成。
过程级强化学习：利用合成数据中天然包含的中间步骤（子问题），设计了细粒度的过程奖励机制，显著提升了模型的推理链条质量。
跨域泛化能力：证明了通过因子混合（Factor-level Mixture）训练，模型能学习到可迁移的推理能力，而非过拟合特定数据集。
广泛的适用性：不仅在图表推理（Chart Reasoning）上取得 SOTA，还成功扩展到了网页 GUI 理解（Webpage GUI Understanding）领域。

4. 实验结果 (Results)

实验主要在 ChartQAPro（图表推理）和 VisualWebBench（网页推理）两个基准上进行。

图表推理 (ChartQAPro)

性能提升：COGS 微调后的 Qwen2.5-VL-7B 模型在 ChartQAPro 测试集上达到了 52.02% 的准确率，显著优于基线模型（如 Qwen2.5-VL-7B base: 47.36%）和现有的专门图表模型（如 ChartMoE: 27.28%）。
推理密集型问题：在需要多步推理（Multi-hop）和复杂因子（如外推 Extrapolation、计算 Calculation）的问题上，提升最为显著（例如外推类问题提升 +7.62%）。
数据混合策略：
- 因子级混合 (Factor-level Mixture) 优于 数据级混合 (Data-level Mixture)。前者通过共享因子结构实现了更好的跨数据集迁移，避免了过拟合单一分布。
奖励模型对比：ProcessRM-max 表现最佳，验证了理论分析的正确性。

网页理解 (VisualWebBench)

泛化性：将 COGS 应用于网页 QA 任务，模型准确率从 85.65% 提升至 88.04%，超越了所有开源基线和专门的 UI 模型（如 UiX-Qwen2）。
证明了该方法不仅限于图表，对包含复杂结构和语义的网页同样有效。

消融实验

种子集大小：随着种子集比例增加（从 1% 到 33%），性能稳步提升，表明 33% 的样本已能产生显著收益。
基座模型：在 Qwen2.5-VL-3B 和 LLaVA-1.5-7B 上均观察到性能提升，证明 COGS 具有模型无关性。

5. 意义与影响 (Significance)

解决数据瓶颈：为缺乏高质量推理标注数据的领域（如专业图表、复杂文档、网页）提供了一种低成本、高效率的数据增强方案。
提升推理深度：通过因子分解和过程奖励，迫使模型学习正确的推理路径，而非通过捷径（Shortcut）猜测答案，显著增强了模型的可解释性和逻辑严密性。
通用性范式：提出的“分解 - 重组”思路为多模态大模型的训练提供了新的视角，即通过结构化地挖掘任务的原子能力来构建通用推理技能，而非依赖海量黑盒数据。
未来方向：为长上下文视觉推理、预训练阶段的数据合成以及智能体（Agent）在数字环境中的行动规划奠定了基础。

总结：COGS 通过巧妙利用“组合性”原理，将少量种子数据转化为大规模、结构化的推理训练数据，并结合过程奖励强化学习，成功解决了多模态大模型在人工图像领域推理能力不足的难题，实现了显著的性能突破和广泛的泛化能力。