Thinking with Images as Continuous Actions: Numerical Visual Chain-of-Thought

本文提出了数值视觉思维链(NV-CoT)框架,通过将多模态大语言模型的推理动作空间从离散词汇扩展为连续欧几里得坐标,实现了仅用最小架构改动即可直接生成边界框坐标的精确区域定位与推理,显著提升了视觉推理的准确性与训练效率。

Kesen Zhao, Beier Zhu, Junbao Zhou, Xingyu Zhu, Zhongqi Yue, Hanwang Zhang

发布于 2026-03-02
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种让多模态大模型(MLLMs)变得更聪明的新方法,叫做 NV-CoT(数值视觉思维链)。

为了让你轻松理解,我们可以把现在的 AI 看成一个正在努力解题的“超级侦探”

1. 以前的侦探是怎么工作的?(旧方法的痛点)

想象一下,侦探(AI)拿到一张复杂的照片,需要回答:“左边那个男人手里拿的是什么?”

  • 方法 A:用文字描述坐标(Text-based CoT)
    侦探会先在脑子里想:“那个东西在图片的 x 坐标是 3.2,y 坐标是 4.1……"然后它把这些数字写成文字,比如 ["3", ".", "2", "4", ".", "1"]

    • 问题:这就像让侦探用“文字积木”去拼出一个“精确的尺子”。文字是离散的(3 和 4 之间没有 3.5),但现实世界是连续的。如果正确答案是 3.1,侦探猜了 3.2,在文字眼里这两个数字差别很大(就像猜错了一个字母),但在尺子上它们其实挨得很近。这导致侦探经常“手抖”,框选的范围要么太大,要么太小,甚至框偏了。
  • 方法 B:直接看固定的小方块(Patch-based CoT)
    另一种侦探把照片切成了固定的“马赛克”小方块。它只能指着说:“我要看第 3 行第 4 列那个方块。”

    • 问题:这就像用一把只有固定刻度的尺子去量东西。如果物体刚好在两个刻度中间,或者形状很怪,这种“马赛克”法就太粗糙了,根本看不清细节。而且,要换这种尺子,往往需要给侦探的大脑(模型架构)做“大手术”,太麻烦了。

2. NV-CoT 是怎么做的?(新方法的核心)

NV-CoT 给侦探换了一副**“数字眼镜”,让它能直接看到连续的数值坐标**。

  • 核心比喻:从“拼积木”变成“滑尺子”
    以前,侦探输出坐标像是在拼乐高积木(离散的文字 token);现在,NV-CoT 让侦探直接像用滑尺一样,在图片上滑出一个精确的框。
    • 它不再输出 ["3", ".", "2"],而是直接输出一个连续的数值,比如 3.245
    • 这就像侦探不再用“大概”、“差不多”这种模糊的词,而是直接报出了精确到小数点后三位的坐标。

3. 它是怎么学会的?(训练过程)

为了让侦探学会这种“滑尺子”的本领,作者用了两种训练方式:

  • ** supervised Fine-Tuning (SFT) - “手把手教学”**
    如果老师(人类)已经知道正确答案的框在哪里,就直接告诉侦探:“你看,这个框的中心是 (x, y),大小是 (w, h)。”

    • 创新点:以前是用“猜对单词”的奖励机制,现在变成了“猜对距离”的奖励机制。就像以前是“猜对字母给糖”,现在是“离目标越近给糖”,哪怕没完全猜对,只要离得近,也有奖励。这让侦探学得更准。
  • Reinforcement Learning (RL) - “试错与进化”
    如果没有标准答案,只有最终结果(比如“答对了”或“答错了”),侦探就需要自己探索。

    • 创新点:以前的 AI 做 RL 时,只能随机猜离散的文字。NV-CoT 引入了**“概率云”**的概念。侦探在决定框选位置时,不是死板地定一个点,而是想象自己站在一个“概率云”中心,周围有一圈可能的范围。
    • 它通过**“重参数化”**(Reparameterization)技巧,让侦探在探索时既能大胆尝试(随机性),又能稳定地根据反馈调整方向。这就像侦探在迷雾中摸索,手里拿着一张不断更新的地图,越摸索越清晰。

4. 效果怎么样?(实验结果)

作者做了很多实验,把 NV-CoT 和现有的最先进模型(比如 DeepEyes, Vis-CoT 等)做对比:

  • 更准:NV-CoT 找到的物体位置(定位精度)比以前的方法高得多。就像侦探能精准地指出“那个红色的苹果在桌子的左上角 3 厘米处”,而不是“在桌子左边”。
  • 更聪明:因为看得准,所以回答问题的准确率也大大提高了。
  • 更快:训练收敛得更快,意味着侦探学得更快,省时间。
  • 兼容性好:这个方法不需要给侦探的大脑做“大手术”(不需要大改模型架构),只需要加几个小小的“旋钮”(线性层)就能实现,就像给普通手机装个新镜头一样简单。

总结

简单来说,NV-CoT 就是给 AI 侦探换了一把“连续数值的尺子”,让它不再用笨拙的文字积木去拼凑位置,也不再被固定的马赛克格子限制视野。

它让 AI 能像人类一样,直接在图像上“指”出精确的位置,从而更准确地理解图片、回答问题。这不仅让 AI 看得更准,也让它学得更快、更稳。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →