LanteRn: Latent Visual Structured Reasoning

本文提出了 LanteRn 框架,通过让大型多模态模型在推理过程中生成并关注紧凑的潜在视觉表示,实现了在潜在空间内直接进行视觉推理,从而在无需外部模块或像素级计算的情况下显著提升了细粒度视觉理解与推理能力。

André G. Viveiros, Nuno Gonçalves, Matthias Lindemann, André Martins

发布于 2026-03-27
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 LanteRn(可以想象成“提灯人”)的新框架,它的核心目标是让大型人工智能模型(LMMs)在思考视觉问题时,不再只是“用嘴说”,而是学会“在心里看”。

为了让你更容易理解,我们可以把现在的 AI 模型想象成一位才华横溢但有点“健忘”的翻译官

1. 现在的困境:翻译官的“带宽”瓶颈

想象一下,你给这位翻译官看一张复杂的图片(比如:一辆自行车停在停车计时器前面),然后问他:“自行车前面是什么?”

  • 传统做法(Thinking about images): 翻译官必须先把图片里所有的细节(颜色、形状、位置)全部“翻译”成文字,写在脑子里,然后再根据这些文字来回答。
    • 问题: 图片的信息量太大了,而文字就像一条细细的“窄水管”。要把高清图片压缩成文字,很多精细的空间关系(比如“稍微偏左一点”、“紧挨着”)就会丢失。就像你试图用一句话描述一部 3D 电影,很难说清楚所有细节。
  • 现有的改进方案(Thinking with images): 有些聪明的翻译官开始学会“画图”。他们会在思考过程中生成新的图片。
    • 问题: 这太费力气了!每次思考都要重新画一张逼真的图,就像为了回答“自行车在哪”这个问题,非要画一幅油画一样,既慢又浪费资源,而且画得太逼真反而可能包含无关的噪音。

2. LanteRn 的解决方案:心里的“思维快照”

LanteRn 提出了一种全新的方法:“在心里保留思维快照”

想象 LanteRn 是一个拥有双重思维模式的超级翻译官:

  1. 说话模式(Text Mode): 像往常一样,用文字交流。
  2. 潜思维模式(Latent Visual Mode): 当遇到需要精细观察的问题时,他会按下一个特殊的按钮(比如 <|lvr_start|>)。这时,他不再说话,而是直接在大脑的“潜意识空间”里调取一张压缩的、抽象的“思维快照”

这个“思维快照”是什么?
它不是我们肉眼看到的图片,也不是写出来的文字,而是一种高维度的数学向量(你可以把它想象成一种只有 AI 能读懂的“思维压缩包”)。

  • 它保留了图片的关键视觉特征(比如自行车的位置、停车计时器的形状)。
  • 它没有像素级的细节(不需要画出来),所以非常轻量、快速。
  • 它允许 AI 在“思考”过程中反复查看这张快照,就像你在心里默默回想刚才看到的画面,而不是非要把它描述出来。

3. 它是如何训练的?(两步走战略)

为了让这个翻译官学会这种“心里看图”的本领,作者用了两个阶段的训练:

第一阶段: supervised Fine-Tuning(SFT)——“照着镜子练”

  • 目标: 让 AI 学会如何把“思维快照”和真实的图片对应起来。
  • 方法: 就像老师拿着标准答案教学生。老师告诉 AI:“当你思考‘自行车’时,你的‘思维快照’应该长这样(基于真实图片提取的特征)。”
  • 结果: AI 学会了如何生成准确的视觉压缩包,但它可能只是为了“像”而生成,还没学会怎么用它来解题。

第二阶段:Reinforcement Learning(RL)——“实战演练”

  • 目标: 让 AI 学会为了正确答案去调整它的“思维快照”。
  • 方法: 不再给标准答案,而是给奖励。如果 AI 生成的“思维快照”帮助它答对了题,就给它奖励;如果答错了,就扣分。
  • 神奇的变化: 在这个阶段,AI 发现它不需要生成和原图一模一样的快照,只需要生成对解题最有用的快照。它开始学会“抽象”和“提炼”,比如只关注“自行车和计时器的相对位置”,而忽略背景里的树。这就像从“死记硬背”进化到了“举一反三”。

4. 效果如何?

作者在几个很难的视觉推理测试(比如找物体、判断相对位置)中测试了 LanteRn:

  • 结果: 它比那些只会“用嘴说”的模型,或者那些“费力画图”的模型都要强。
  • 比喻: 以前 AI 解题像是在大声朗读说明书(容易漏掉细节),现在它像是在心里默默演算(既快又准)。

总结

LanteRn 就像给 AI 装了一个**“视觉思维加速器”
它不再强迫 AI 把看到的每一帧画面都变成文字,而是允许 AI 在思考过程中,直接操作一种
压缩的、高效的视觉代码**。这让 AI 在处理需要精细空间理解的任务时,变得更聪明、更高效,就像人类在思考时,脑海里会浮现画面,而不是必须先描述画面一样。

这项研究告诉我们:未来的 AI 可能不需要更庞大的参数,而是需要更聪明的“思考方式”——学会在沉默中“看见”世界。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →