Thinking with Images as Continuous Actions: Numerical Visual Chain-of-Thought

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种让多模态大模型（MLLMs）变得更聪明的新方法，叫做 NV-CoT（数值视觉思维链）。

为了让你轻松理解，我们可以把现在的 AI 看成一个正在努力解题的“超级侦探”。

1. 以前的侦探是怎么工作的？（旧方法的痛点）

想象一下，侦探（AI）拿到一张复杂的照片，需要回答：“左边那个男人手里拿的是什么？”

方法 A：用文字描述坐标（Text-based CoT）
侦探会先在脑子里想：“那个东西在图片的 x 坐标是 3.2，y 坐标是 4.1……"然后它把这些数字写成文字，比如 ["3", ".", "2", "4", ".", "1"]。
- 问题：这就像让侦探用“文字积木”去拼出一个“精确的尺子”。文字是离散的（3 和 4 之间没有 3.5），但现实世界是连续的。如果正确答案是 3.1，侦探猜了 3.2，在文字眼里这两个数字差别很大（就像猜错了一个字母），但在尺子上它们其实挨得很近。这导致侦探经常“手抖”，框选的范围要么太大，要么太小，甚至框偏了。
方法 B：直接看固定的小方块（Patch-based CoT）
另一种侦探把照片切成了固定的“马赛克”小方块。它只能指着说：“我要看第 3 行第 4 列那个方块。”
- 问题：这就像用一把只有固定刻度的尺子去量东西。如果物体刚好在两个刻度中间，或者形状很怪，这种“马赛克”法就太粗糙了，根本看不清细节。而且，要换这种尺子，往往需要给侦探的大脑（模型架构）做“大手术”，太麻烦了。

2. NV-CoT 是怎么做的？（新方法的核心）

NV-CoT 给侦探换了一副**“数字眼镜”，让它能直接看到连续的数值坐标**。

核心比喻：从“拼积木”变成“滑尺子”
以前，侦探输出坐标像是在拼乐高积木（离散的文字 token）；现在，NV-CoT 让侦探直接像用滑尺一样，在图片上滑出一个精确的框。
- 它不再输出 ["3", ".", "2"]，而是直接输出一个连续的数值，比如 3.245。
- 这就像侦探不再用“大概”、“差不多”这种模糊的词，而是直接报出了精确到小数点后三位的坐标。

3. 它是怎么学会的？（训练过程）

为了让侦探学会这种“滑尺子”的本领，作者用了两种训练方式：

** supervised Fine-Tuning (SFT) - “手把手教学”**
如果老师（人类）已经知道正确答案的框在哪里，就直接告诉侦探：“你看，这个框的中心是 (x, y)，大小是 (w, h)。”
- 创新点：以前是用“猜对单词”的奖励机制，现在变成了“猜对距离”的奖励机制。就像以前是“猜对字母给糖”，现在是“离目标越近给糖”，哪怕没完全猜对，只要离得近，也有奖励。这让侦探学得更准。
Reinforcement Learning (RL) - “试错与进化”
如果没有标准答案，只有最终结果（比如“答对了”或“答错了”），侦探就需要自己探索。
- 创新点：以前的 AI 做 RL 时，只能随机猜离散的文字。NV-CoT 引入了**“概率云”**的概念。侦探在决定框选位置时，不是死板地定一个点，而是想象自己站在一个“概率云”中心，周围有一圈可能的范围。
- 它通过**“重参数化”**（Reparameterization）技巧，让侦探在探索时既能大胆尝试（随机性），又能稳定地根据反馈调整方向。这就像侦探在迷雾中摸索，手里拿着一张不断更新的地图，越摸索越清晰。

4. 效果怎么样？（实验结果）

作者做了很多实验，把 NV-CoT 和现有的最先进模型（比如 DeepEyes, Vis-CoT 等）做对比：

更准：NV-CoT 找到的物体位置（定位精度）比以前的方法高得多。就像侦探能精准地指出“那个红色的苹果在桌子的左上角 3 厘米处”，而不是“在桌子左边”。
更聪明：因为看得准，所以回答问题的准确率也大大提高了。
更快：训练收敛得更快，意味着侦探学得更快，省时间。
兼容性好：这个方法不需要给侦探的大脑做“大手术”（不需要大改模型架构），只需要加几个小小的“旋钮”（线性层）就能实现，就像给普通手机装个新镜头一样简单。

总结

简单来说，NV-CoT 就是给 AI 侦探换了一把“连续数值的尺子”，让它不再用笨拙的文字积木去拼凑位置，也不再被固定的马赛克格子限制视野。

它让 AI 能像人类一样，直接在图像上“指”出精确的位置，从而更准确地理解图片、回答问题。这不仅让 AI 看得更准，也让它学得更快、更稳。

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于多模态大语言模型（MLLMs）视觉推理的论文，提出了**数值视觉思维链（Numerical Visual Chain-of-Thought, NV-CoT）**框架。以下是该论文的详细技术总结：

1. 研究背景与问题 (Problem)

现有的多模态大语言模型在进行“图像思维”（Thinking with Images）时，通常采用**视觉思维链（Visual CoT）**机制，即先定位图像中的相关区域，再基于该区域进行推理。然而，现有的定位方法存在两个主要缺陷：

文本化坐标的模态不匹配与语义碎片化：
- 现有方法通常将边界框坐标序列化为离散的文本 Token（如 ["x1", "y1", "x2", "y2"]）。
- 模态不匹配：视觉世界中的坐标是连续的，但模型将其作为离散文本预测，使用交叉熵损失训练，忽略了数值上的几何邻近性（例如，预测 3.2 和 4.1 在目标为 3.1 时受到的惩罚可能相同，尽管 3.2 更接近）。
- 语义碎片化：数字被分割成多个无关的子 Token，导致数值比较和推理脆弱，容易产生幻觉（如混淆 3.11 和 3.9 的大小）。
固定粒度补丁（Patch）的局限性：
- 部分新方法直接在细粒度的视觉 Patch 上操作，但这受限于视觉骨干网络的固定空间粒度，限制了区域选择的灵活性。
- 此外，这些方法通常需要非 trivial 的架构修改，降低了模块化程度。

2. 核心方法 (Methodology)

NV-CoT 提出将 MLLM 的动作空间从离散的词汇表 Token 扩展到连续的欧几里得空间，使模型能够直接生成数值边界框坐标作为动作。

2.1 架构扩展

连续动作空间：在标准 LLM 输出头之上，增加了 4 个坐标输出头（预测 $x_1, y_1, x_2, y_2$ 的均值）和 1 个共享的标准差/尺度预测头。
最小化架构修改：仅引入 5 个轻量级线性层，无需改变骨干网络结构。

2.2 监督微调 (SFT) 阶段

回归损失：当存在真值边界框时，将传统的 Token 级交叉熵损失替换为回归损失。
- 使用 $\ell_2^2$ 损失（对应高斯分布）或 $\ell_1$ 损失（对应拉普拉斯分布）来监督连续坐标输出。
- 实验表明， $\ell_1$ 损失在定位任务中通常表现更优，因为它对异常值更鲁棒。

2.3 强化学习 (RL) 阶段

为了将连续动作适配到主流的 RL 算法（如 GRPO），NV-CoT 进行了以下创新：

随机策略建模：
- 用**高斯策略（Gaussian Policy）或拉普拉斯策略（Laplace Policy）**替代离散的分类策略。
- 模型预测坐标分布的均值 ( $\mu$ ) 和尺度参数 ( $\sigma$ 或 $\alpha$ )。
重参数化采样 (Reparameterization Trick)：
- 通过 $b = \mu + \sigma \cdot \epsilon$ （高斯）或 $b = \mu + \alpha \cdot s \odot \epsilon$ （拉普拉斯）进行采样，引入随机性以支持探索，同时保证梯度的低方差传播。
重要性比率与 KL 惩罚：
- 推导了连续动作空间下的高斯/拉普拉斯分布的闭式重要性比率（Closed-form Importance Ratio），使其兼容 GRPO 算法。
- 推导了连续分布的 KL 散度惩罚项，用于约束策略更新。

3. 主要贡献 (Key Contributions)

提出 NV-CoT 框架：首次将 MLLM 的动作空间从离散词汇扩展到连续欧几里得空间，实现了直接生成数值边界框坐标。
兼容 SFT 与 RL 的连续策略：开发了带有重参数化采样和解析重要性比率的高斯/拉普拉斯坐标策略，使连续定位能够无缝集成到主流 RL 算法（如 GRPO）中。
全面的实证验证：在三个基准测试（V*Bench, HR-Bench 4K/8K）上对比了 8 种基线模型（包括文本 CoT、Patch CoT、SFT 和 RL 方法），证明了 NV-CoT 的有效性。

4. 实验结果 (Results)

定位精度提升：在 Vis-CoT-363K 数据集上，NV-CoT 的边界框 IoU 从基线的 47.3% 提升至 59.5%（使用 $\ell_1$ 损失）。
最终答案准确率：
- 在 V*Bench 上，NV-CoT (SFT) 比 Vis-CoT-7B 提升了 3.7%（整体），比 LVR-7B（Patch 方法）提升了 9.5%。
- 在 RL 设置下，NV-CoT 比 DeepEyes-7B 提升了 2.6%（整体）。
- 值得注意的是，基于 7B 参数的 NV-CoT 在各项指标上均超越了 Qwen2.5-VL-32B，证明了区域导向推理的重要性。
收敛速度：训练曲线显示，NV-CoT 在定位精度和最终答案准确率上的收敛速度显著快于文本基线。
消融实验：
- 拉普拉斯策略 ( $\ell_1$ ) 优于高斯策略 ( $\ell_2^2$ )：在所有基准测试中，拉普拉斯策略表现更好，符合定位任务中 $\ell_1$ 损失更鲁棒的先验知识。
- 共享 vs. 独立参数：共享尺度参数（ $\sigma$ 或 $\alpha$ ）与独立预测每个坐标的尺度参数性能相当，为简化模型，最终采用共享参数。
- 多步推理：支持多次缩放（Zoom-in）工具调用进一步提升了性能。

5. 意义与影响 (Significance)

解决模态鸿沟：NV-CoT 从根本上解决了文本坐标与连续视觉空间之间的模态不匹配问题，使模型能够更自然地“思考”图像空间。
高效且通用：仅需极小的架构修改即可适配现有 MLLM，同时支持 SFT 和 RL 两种训练范式，具有极高的实用价值。
推动视觉推理发展：证明了将定位视为连续动作问题，比离散文本化或固定 Patch 化更能提升细粒度视觉感知和推理能力，为未来的多模态 Agent 设计提供了新的范式。

总结：NV-CoT 通过引入连续数值坐标作为动作，结合高斯/拉普拉斯策略优化，成功克服了传统文本化坐标的缺陷，显著提升了多模态大模型在视觉定位和推理任务中的精度、鲁棒性和训练效率。

Thinking with Images as Continuous Actions: Numerical Visual Chain-of-Thought

1. 以前的侦探是怎么工作的？（旧方法的痛点）

2. NV-CoT 是怎么做的？（新方法的核心）

3. 它是怎么学会的？（训练过程）

4. 效果怎么样？（实验结果）

总结

1. 研究背景与问题 (Problem)

2. 核心方法 (Methodology)

2.1 架构扩展

2.2 监督微调 (SFT) 阶段

2.3 强化学习 (RL) 阶段

3. 主要贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与影响 (Significance)

类似论文

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation