Decompose, Look, and Reason: Reinforced Latent Reasoning for VLMs

本文提出了名为“分解、观察与推理”(DLR)的强化潜在推理框架,通过动态分解查询、提取前提条件化的连续视觉潜在表示并结合球面高斯潜在策略进行三阶段训练,有效解决了视觉语言模型在复杂推理中因文本思维链导致的信息丢失问题,在多个基准测试中实现了超越现有基线的性能与可解释性。

Mengdan Zhu, Senhao Cheng, Liang Zhao

发布于 2026-04-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种让 AI 更聪明地“看图说话”的新方法,叫做 DLR(Decompose, Look, and Reason,即“分解、观察、推理”)。

为了让你轻松理解,我们可以把现在的 AI 模型想象成一个正在参加考试的“天才学生”,而这篇论文就是给这个学生配备的一套全新的“解题心法”和“训练课程”

1. 以前的痛点:学生为什么容易“翻车”?

在 DLR 出现之前,AI 看图做题主要有两种笨办法:

  • 办法一:只靠嘴说(纯文本推理)
    • 比喻:就像让学生蒙上眼睛,只凭老师口头描述的图片来解题。
    • 问题:老师描述得再详细,也会漏掉很多细节(比如颜色、细微的纹理)。学生只能靠猜,容易想偏。
  • 办法二:拿着放大镜死磕(插值式多模态推理)
    • 比喻:学生手里拿着一个只能切固定大小方块的放大镜。他必须把图片切成一块一块的(比如“左上角那块”、“右下角那块”)来观察。
    • 问题
      1. 切多了:如果切的一块里既有需要的信息,又有一堆无关的垃圾信息,学生就会被干扰。
      2. 切少了:如果答案需要看“整体布局”或者“跨越两个方块的关系”,这种死板的切块法就完全失效了。
      3. 太累:有些方法甚至需要学生跑去“调用外部工具”(比如让电脑画图、画框),既慢又麻烦。

2. DLR 的核心心法:三步走战略

DLR 给 AI 设计了一套像人类专家一样的思考流程,分为三步:

第一步:分解 (Decompose) —— “先别急着看,先想清楚要看什么”

  • 比喻:面对一道复杂的数学应用题,学生不再是一头扎进题目里,而是先把大问题拆解成几个小问题
  • 例子:题目问“哪个选项描述了物体关系?”。AI 不会直接猜,而是先想:“哦,我需要先确认手提箱和书的位置关系。”
  • 作用:把模糊的大问题,变成具体的、可执行的“搜索指令”。

第二步:观察 (Look) —— “带着任务去‘看’,而不是死盯着看”

  • 比喻:这是 DLR 最厉害的地方。以前的 AI 是拿着固定放大镜,而 DLR 的 AI 手里有一个**“智能隐形眼镜”**。
    • 当 AI 心里想着“我要找手提箱和书的关系”时,这个隐形眼镜会自动聚焦到图片上真正相关的区域,提取出一种**“连续的视觉精华”**(Latent Visual Latents)。
    • 关键点:这种“精华”不是把图片切块,而是一种流动的、可变的注意力。它既能看局部细节,也能看整体氛围,还能跨越不同区域找联系。
  • 作用:只提取解题真正需要的视觉信息,过滤掉所有噪音。

第三步:推理 (Reason) —— “看着证据,写出答案”

  • 比喻:学生看着刚才提取到的“视觉精华”,结合刚才拆解的小问题,一步步写出逻辑严密的推理过程,最后得出答案。
  • 作用:因为有具体的视觉证据支撑,推理过程不再是大脑空想,而是“有据可依”。

3. 训练课程:如何把这个学生训练成学霸?

为了让 AI 掌握这套心法,作者设计了一个**“三阶段特训营”**:

  • 第一阶段:预热(Pretraining)—— 建立“图文词典”
    • 让 AI 先学会把“文字描述”和“图片特征”对上号。就像教学生认字和认图,确保它知道“书”这个词对应图片里的什么样子。
  • 第二阶段:模仿(SFT)—— 跟着老师学套路
    • 老师(人工标注的数据)手把手教 AI 怎么拆解问题、怎么提取视觉精华。AI 像小学生一样,照着老师的步骤一步步做。
    • 缺点:这时候 AI 只是“照猫画虎”,不敢乱发挥,一旦遇到老师没教过的情况就懵了。
  • 第三阶段:强化(RL)—— 鼓励“大胆试错”的探索
    • 这是最关键的创新。作者引入了一个**“球形高斯策略”(SGLP)**。
    • 比喻:想象 AI 的视觉思维空间是一个球体。以前的方法只能在这个球体表面走直线,很容易卡死。而 DLR 给 AI 装上了**“探索引擎”**,允许它在球体表面自由地、随机地“跳跃”和“探索”。
    • 奖励机制:如果 AI 找对了视觉证据并做对了题,就给它发糖(奖励);如果它瞎看(注意力跑偏)但做对了,糖就少给点;如果看错了还做错了,就狠狠批评。
    • 结果:AI 不再死板地模仿,而是学会了主动探索,在无数种可能的视觉关注点中,找到那条通往正确答案的“最优路径”。

4. 效果如何?

  • 更准:在数学题、视觉细节题、复杂逻辑题的考试中,DLR 的成绩吊打了以前的各种方法,甚至超过了某些昂贵的商业大模型。
  • 更稳:以前的 AI 遇到难题容易“胡言乱语”(生成几千字却答非所问),DLR 因为每一步都有“视觉证据”支撑,逻辑非常清晰。
  • 更透明:我们可以清楚地看到 AI 在每一步“看”了哪里,就像看它的思维笔记一样,不再是一个黑盒子。

总结

这篇论文的核心思想就是:别逼 AI 一口气吞下整张图,也别让它瞎猜。

DLR 教会了 AI:先拆解问题(想清楚),再带着任务去提取精华(看清楚),最后基于证据得出结论(说清楚)。 再加上一种鼓励“大胆探索”的训练方法,让 AI 从“死记硬背”进化成了“举一反三”的视觉推理高手。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →