Rethinking Token-Level Policy Optimization for Multimodal Chain-of-Thought

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 PEPO 的新方法，旨在让“多模态大模型”（既能看图又能读文的 AI）变得更聪明，特别是在做复杂的推理任务时（比如解几何题、看图找物体、玩视觉谜题）。

为了让你轻松理解，我们可以把训练 AI 的过程想象成教一个学生做数学题。

1. 以前的方法有什么问题？（“大锅饭”式的奖励）

想象一下，你教学生做一道几何题。学生写了一大段解题过程（思维链），最后算出了答案。

旧方法（如 GRPO）：如果答案对了，你就给整段过程发一个“大红花”（奖励）；如果答案错了，就全盘否定。
问题所在：这种方法太粗糙了。学生可能在解题的第一步就盯着图看对了（比如识别出三角形），但在中间步骤可能瞎猜了一个公式，最后运气好蒙对了答案。
- 旧方法会认为：“既然答案对了，那每一步都做得好。”
- 结果：学生没学会怎么真正看图，只是学会了怎么凑答案。或者，学生可能过度依赖文字逻辑，忽略了图片里的关键信息。

2. PEPO 的核心洞察：解题需要“两只手”

作者发现，成功的推理其实需要两种能力的配合，就像人的左手和右手：

左手（感知/Perception）：紧紧抓住图片里的线索。比如，看到图里有个直角，或者两条线相交。这是**“视觉锚点”**。
右手（探索/Exploration）：在不确定时大胆尝试不同的思路。比如，不知道用哪个公式时，多试几种可能性。这是**“思维跳跃”**。

以前的 AI 训练往往只盯着“答案对不对”，或者只盯着“文字写得是否流畅”，忽略了这两只手是如何配合的。

3. PEPO 是怎么做的？（“智能评分员”）

PEPO 就像是一个极其细致的智能评分员，它不再给整段话打一个总分，而是给每一个字（Token）单独打分。

它通过两个指标来给每个字打分：

视觉相似度（Visual Similarity）：
- 比喻：这个字是不是在“盯着图片看”？
- 如果模型在写“三角形 ABC"时，它的注意力紧紧锁在图片的三角形上，PEPO 就会给这个字高分。这鼓励模型多“看图”。
熵（Entropy/不确定性）：
- 比喻：这个字是不是在“犹豫”或“思考”？
- 如果模型在写“也许我们可以用勾股定理”时，它其实是在探索多种可能性（不确定选哪个），PEPO 也会给这个字高分。这鼓励模型在关键节点多思考，而不是盲目自信。

PEPO 的魔法公式：
它把这两个指标结合起来，用一个平滑的“开关”（门控机制）来决定：

如果是看图的关键时刻，就重点奖励“视觉相似度”高的字。
如果是思考的关键时刻，就重点奖励“探索性”高的字。
最后，它根据这些精细的分数，重新调整模型学习的方向。

4. 效果如何？（“学霸”的诞生）

作者在各种考试（几何题、找物体、视觉谜题、少样本分类）中测试了 PEPO：

更准：在几何题和逻辑题上，准确率比以前的方法（GRPO, DAPO）提高了不少。
更稳：以前的方法有时候会因为只追求“探索”而乱跑，或者只追求“看图”而钻牛角尖。PEPO 让模型在“看图”和“思考”之间找到了完美的平衡。
更省资源：它不需要给模型增加额外的“大脑”（辅助分支），也不需要老师额外教它（不需要额外监督），只是巧妙地利用了模型内部已有的信息。

5. 总结：一个生动的比喻

如果把训练 AI 比作教一个盲人（只懂文字）和一个色盲（只懂图片）合作解题：

以前的方法：只要最后答案对了，就奖励两个人。结果盲人可能根本没看路，色盲可能根本没思考，全靠运气蒙对。
PEPO 方法：
- 当盲人（文字部分）在描述图片里的物体时，PEPO 会检查他是否真的“看”到了（视觉相似度），如果看准了，大力表扬。
- 当色盲（逻辑部分）在犹豫下一步怎么走时，PEPO 会鼓励这种“犹豫和探索”，因为这是思考的过程。
- 通过这种精细的、颗粒度极细的奖励，PEPO 教会了 AI 如何一边看图，一边思考，最终成为了真正的“全能解题高手”。

一句话总结：PEPO 让 AI 在解题时，不再只是机械地背诵答案，而是学会了**“眼到（看图）、心到（思考）”**，从而在复杂的视觉推理任务中表现得更加出色。

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于多模态大语言模型（LVLMs）强化学习优化的学术论文总结。该论文提出了一种名为 PEPO (Perception-Exploration Policy Optimization) 的新框架，旨在解决现有方法在多模态思维链（CoT）推理中粒度粗糙、忽视视觉感知与推理探索之间互补性的问题。

以下是该论文的详细技术总结：

1. 研究背景与问题 (Problem)

背景：大型视觉 - 语言模型（LVLMs）在处理多模态推理任务（如几何解题、视觉问答）时，通常采用基于可验证奖励的强化学习（RLVR，如 GRPO）来优化思维链（CoT）。
现有方法的局限性：
- 粒度粗糙：现有的 RLVR 方法通常在**序列级别（Sequence-level）**进行优化，即对整个回答赋予相同的优势值（Advantage）。这忽略了思维链中不同 Token 对最终结果贡献的差异性。
- 忽视视觉感知：传统方法假设改进答案格式或文本正确性自然能带来连贯的推理，但未能区分哪些 Token 真正基于视觉感知（Visual Grounding），哪些是基于文本探索。
- 熵的局限性：虽然部分工作引入了 Token 级别的熵（Entropy）来鼓励探索，但熵主要捕捉文本不确定性，与视觉语义的对应关系较弱，且现有的感知感知方法往往需要额外的辅助分支，增加了计算开销。
核心洞察：成功的多模态推理依赖于**视觉感知（Perception）与探索性推理（Exploration）**的互补。正确的推理往往由一小部分与视觉高度对齐的 Token（感知锚点）和代表推理转折/不确定性的 Token（高熵 Token）共同构成。

2. 方法论 (Methodology)

作者提出了 PEPO，一种Token 级别的策略优化框架，无需额外监督或辅助分支。

2.1 核心分析：Token 级信号

视觉相似度 (Visual Similarity, VS)：计算响应 Token 的隐藏状态与所有视觉 Token 隐藏状态之间的余弦相似度。分析表明，正确答案中，高视觉相似度的 Token 分布显著右移，说明它们对推理准确性至关重要。
熵 (Entropy)：计算 Token 输出 Logits 的熵。高熵 Token 通常对应推理过程中的决策点、验证或修正步骤，反映了模型在探索不同的推理路径。
互补性：高视觉相似度 Token 负责“锚定”感知，高熵 Token 负责“驱动”探索。

2.2 PEPO 算法流程

PEPO 通过以下三个步骤将感知与探索融合到策略梯度更新中：

感知建模 (Perception Modeling)：
- 利用 Transformer 各层的隐藏状态，计算每个响应 Token 与视觉 Token 的余弦相似度，得到视觉感知先验 $VS_t$ 。
- 这是一个轻量级、无监督的估计，用于衡量 Token 的视觉 grounding 程度。
探索建模 (Exploration Modeling)：
- 从模型输出的 Logits 计算每个 Token 的熵 $H_t$ ，用于量化推理过程中的不确定性。
感知 - 探索融合 (Perception-Exploration Fusion)：
- 平滑门控机制：将归一化后的 $VS_t$ 和 $H_t$ 结合。
- 首先计算联合分数 $\hat{g}_t = \hat{VS}_t + \hat{H}_t - \text{mean}(\dots)$ 。
- 通过平滑门控函数生成 Token 权重 $w_t$ ：
  $w_t = T \cdot \text{Softmax}((1 + \alpha \tanh(\hat{g}_t)) \cdot VS_t)$
- 关键设计：门控函数乘以 $VS_t$ ，确保感知占主导地位，同时让熵信号仅在视觉相关的 Token 上进行调制，避免盲目放大与视觉无关的高熵 Token。
- 权重 $w_t$ 被归一化使得序列内平均值为 1，保持整体优势值的尺度不变。
Token 级优势计算 (Token-level Advantage)：
- 将序列级优势 $A^{(i)}$ 细化为 Token 级优势 $A^{(i)}_t$ ：
  $A^{(i)}_t = [(1 - \lambda) + \lambda w^{(i)}_t] A^{(i)}$
- 其中 $\lambda$ 随训练步数从 0 线性增加到 1，实现从序列级到 Token 级优化的平滑过渡。

3. 主要贡献 (Key Contributions)

首次揭示互补角色：首次系统性地分析了 LVLM 中“视觉锚定 Token"与“高熵 Token"在多模态推理中的互补作用，揭示了感知如何锚定推理，熵如何驱动探索。
提出 PEPO 框架：设计了一种无需额外监督或辅助分支的 Token 级优化框架。通过隐藏状态相似度提取感知先验，并结合熵信号，利用平滑门控机制细化优势估计。
广泛的性能提升：在 GRPO 和 DAPO 基础上实现了 PEPOG 和 PEPOD 变体。在几何推理、视觉谜题、视觉定位（Grounding）和少样本分类等多个基准测试中，均取得了显著且稳定的性能提升，同时保持了训练的稳定性和可扩展性。

4. 实验结果 (Results)

作者在 Qwen2.5-VL-3B 和 InternVL3-2B 模型上进行了广泛实验：

几何与逻辑推理：
- 在 Geometry3K、MathVista、MathVerse 和 LogicVista 上，PEPOG 相比 GRPO 平均提升了 +3.67 分（Qwen2.5-VL-3B），相比 DAPO 提升了 +0.45 分。
- 在 InternVL3-2B 上，PEPOD 相比 DAPO 提升了 +5.15 分。
视觉定位 (Visual Grounding)：
- 在 RefCOCO 和 LISA-Grounding 上，PEPO 在 IoU@50 指标上提升了 +0.86，且避免了纯熵方法导致的模型崩溃问题。
少样本分类：
- 在 FGVC Aircraft 和 Flower102 的 1/2/4-shot 设置下，PEPOG 相比 GRPO 分别提升了 +5.32 和 +1.46 分，证明了其在数据稀缺场景下的泛化能力。
视觉谜题：
- 在 PuzzleVQA 和 AlgoPuzzleVQA 上取得了显著增益，表明模型在抽象关系推理上的提升。
效率与扩展性：
- 计算开销极低：Token 权重计算的额外开销 $\rho$ 小于 1%，吞吐量与基线相当。
- 训练稳定性：PEPO 在训练过程中表现出更稳定的奖励增长、更合理的响应长度缩短趋势，以及更持续的视觉相似度提升。
- 大规模数据：在 ViRL39k 大规模数据集上的扩展性分析显示，PEPO 在更大规模数据下依然保持增益。

5. 意义与总结 (Significance)

理论意义：打破了多模态 RL 中仅关注序列级奖励或纯文本熵的局限，证明了细粒度的 Token 级感知 - 探索耦合是提升 LVLM 推理能力的关键。
实践价值：PEPO 是一个即插即用（Plug-and-play）的模块，可以无缝集成到现有的 GRPO 或 DAPO 框架中，无需改变模型架构或引入昂贵的辅助网络。
未来方向：为多模态大模型的强化学习优化提供了新的范式，即通过显式建模视觉感知与推理探索的动态平衡，来构建更可靠、更准确的推理系统。

总结：PEPO 通过精细化的 Token 级优势重加权，成功地将视觉感知（Perception）和推理探索（Exploration）结合，显著提升了多模态大模型在复杂推理任务中的表现，同时保持了极高的训练效率和稳定性。