Long Grounded Thoughts: Synthesizing Visual Problems and Reasoning Chains at Scale

该论文提出了一种能够大规模合成包含推理链、偏好数据及指令提示的百万级视觉中心数据集的框架,通过两阶段生成与组合策略,不仅显著提升了开源视觉语言模型在多项基准测试中的表现,还证明了高质量视觉推理数据能有效促进纯文本推理、音频推理及具身问答的跨模态泛化能力。

David Acuna, Chao-Han Huck Yang, Yuntian Deng, Jaehun Jung, Ximing Lu, Prithviraj Ammanabrolu, Hyunwoo Kim, Yuan-Hong Liao, Yejin Choi

发布于 2026-02-18
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 "Long Grounded Thoughts"(长接地思维) 的新框架。简单来说,这是一套自动“制造”高质量视觉推理难题和解题思路的方法。

为了让你更容易理解,我们可以把这项技术想象成**“给 AI 厨师开了一家超级特训营”**。

1. 核心痛点:以前的 AI 厨师只会做“简单菜”

目前的视觉大模型(AI 厨师)虽然能看懂图片,但在处理复杂问题时,往往像是一个只会做“番茄炒蛋”的厨师。

  • 问题一:数据太少且太简单。 以前大家用来训练 AI 的视觉题目,要么数量不够多,要么太简单(比如只问“图里有个苹果吗?”),AI 看一眼就能猜对,学不到真本事。
  • 问题二:缺乏“思考过程”。 以前的训练数据只给答案,不给“解题步骤”。这就好比只告诉学生“答案是 B",却不教他“为什么选 B"。AI 学会了死记硬背,但遇到新题就懵了。
  • 问题三:缺乏“深度思考”。 真正的推理需要像侦探一样:先观察、再假设、发现矛盾、回头检查(回溯)、最后确认。以前的数据很少包含这种复杂的思维链条。

2. 解决方案:两阶段“特训营”

作者设计了一个两阶段的自动化流程,专门用来“制造”难题和“编写”详细的解题剧本。

第一阶段:海量“基础题”工厂(规模与多样性)

  • 以前的做法: 就像让 AI 看着一张图,然后让它随便编几个问题。结果 AI 总是盯着图里最显眼的东西(比如那个大苹果)反复提问,导致题目千篇一律,像是一个人在原地打转。
  • 我们的做法(接地元数据): 我们给 AI 厨师配了一个**“超级放大镜”**(Grounded Metadata,即物体的具体位置和标签)。
    • 比喻: 以前是“看着图瞎编”,现在是“拿着放大镜,专门盯着图里角落里的一个旧袜子、窗框上的划痕、或者玩具熊的耳朵”去出题。
    • 效果: 这样生成的题目数量巨大(超过 100 万道),而且每个题目都关注不同的细节,避免了“重复劳动”,让 AI 的视野变得非常宽广。

第二阶段:难题“大杂烩”与“思维升级”(复杂度与深度)

  • 难题合成: 把第一阶段生成的几个简单小问题,像**“乐高积木”**一样拼在一起,变成一道超级难题。
    • 例子: 以前问“图里有狗吗?”,现在问“如果图里的狗在左边,而猫在右边,那么那个拿着红色气球的人站在谁的后面?”这需要 AI 同时处理多个信息点。
  • 思维剧本(CoT): 这是最精彩的部分。我们不仅生成题目,还生成**“详细的解题剧本”**。
    • 以前的剧本: “因为图里有狗,所以选 A。”(太短,没营养)
    • 现在的剧本(Long Grounded Thoughts): 像侦探破案一样:“等等,我第一眼觉得那是狗,但仔细看发现那是只猫。哎呀,我刚才看错了,让我重新检查一下……哦,原来狗在阴影里。再确认一下气球的位置……好,现在逻辑通了,答案应该是 A。”
    • 比喻: 这就像给 AI 请了一位**“思维教练”,教它如何自我纠错、如何设立小目标、如何回头检查**。

3. 惊人的成果:不仅学会了看图,还学会了“举一反三”

用这套方法训练出来的 AI(基于 Qwen2.5-VL-7B 模型),表现出了惊人的能力:

  1. 视觉推理大师: 在各项视觉测试中,它打败了所有开源的竞争对手,甚至能和一些闭源的顶级商业模型(如 MiMo-VL)掰手腕。
  2. 跨界天才(迁移能力):
    • 文字能力变强了: 虽然训练数据全是看图题,但 AI 做纯文字的逻辑题(MMLU-Pro)也变强了。
    • 听力能力变强了: 虽然没听过任何声音数据,但它在音频推理任务(MMAU)上也提升了。
    • 比喻: 这就像一个人通过**“练举重”(视觉推理),不仅力气大了,连“写书法”(文字推理)和“听音辨位”(音频推理)的水平也莫名其妙地提高了。这说明我们教给它的不是“怎么看图”,而是“如何深度思考”**这种通用的底层能力。
  3. 机器人也能用: 即使没有专门训练机器人操作数据,它在让机器人回答开放性问题时,表现也大幅提升。

4. 关键发现:先“教”再“练”

论文还发现了一个关于训练 AI 的重要规律:

  • 直接强化学习(RL)行不通: 如果直接让一个没经过深度思考训练的 AI 去“刷题”(强化学习),它很快就会遇到瓶颈,甚至越练越差。
  • 先“填鸭”再“引导”: 必须先让 AI 通过高质量的“解题剧本”(SFT)学会**“思考的习惯”**(比如自我纠错、回溯),然后再进行强化学习,效果才会好。
  • 比喻: 你不能指望一个没学过数学公式的学生,直接通过“猜答案”来学会微积分。必须先让他看懂详细的解题步骤(SFT),他才能通过大量的练习(RL)变得更强。

总结

这篇论文的核心贡献在于:
它不再满足于给 AI 喂简单的“看图说话”数据,而是通过**“放大镜找细节”“乐高积木拼难题”的方法,制造了100 万道带有“侦探式思考过程”**的视觉题目。

这不仅让 AI 看图更准了,更重要的是,它教会了 AI**“如何像人类一样深度思考”**。这种思考能力是通用的,所以 AI 不仅能看图,连听声音、读文章、甚至指挥机器人,都变得更强了。这是一次从“教知识”到“教思维”的跨越。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →