Bridging Perception and Reasoning: Token Reweighting for RLVR in Multimodal LLMs

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于如何让“看图说话”的 AI 变得更聪明的故事。

想象一下，你正在教一个非常聪明的学生（也就是多模态大语言模型，MLLM）做一道复杂的数学题，这道题还附带了一张图片。

1. 核心问题：学生“偏科”了

在这个任务中，学生需要同时做两件事：

看图片（感知）：比如识别出图里有“棒球运动员”、“球衣上的文字”或“草地”。
动脑筋（推理）：根据看到的线索，一步步推导出答案，比如“因为球衣上有'All-Star'字样，所以这是全明星赛”。

以前的训练方法（RLVR）就像是一个**“大锅炖”**：不管学生是在描述图片，还是在推导逻辑，老师都给同样的奖励或惩罚。

结果：学生要么只学会了看图但不会推理，要么只学会了推理却看错了图里的细节。就像让一个厨师同时练切菜和炒菜，如果训练方法不区分重点，他可能切菜切得飞快但炒菜火候不对，或者反过来。

2. 研究发现：两种“词”不能分开练

作者做了一个实验，把学生说的话拆成一个个“词”（Token）：

感知词：那些描述图片的词（如“红色”、“棒球”）。
推理词：那些进行逻辑推导的词（如“因此”、“意味着”、“所以”）。

他们尝试只奖励“感知词”或只奖励“推理词”，结果发现：单独练哪一边都会失败。

只练推理：逻辑很通顺，但把图里的“棒球”看成了“足球”，答案自然错了。
只练感知：看图很准，但无法把看到的线索串联成逻辑，最后答非所问。

结论：看图和动脑筋是紧紧绑在一起的，必须同时优化，不能偏科。

3. 解决方案：给重点词“加鸡腿” (Token Reweighting)

为了解决这个问题，作者提出了一种叫 ToR (Token Reweighting，词重加权) 的新策略。

你可以把它想象成一位精明的教练，他在学生做题时，不再给所有步骤一样的分数，而是动态调整权重：

识别关键时刻：
- 当学生犹豫不决（比如不知道下一步该推导出什么）时，这是推理的关键点，教练会加大奖励力度，逼他多思考。
- 当学生描述图片（比如提到衣服上的字）时，如果这个描述对答案至关重要，教练也会加大奖励力度，让他更仔细地看图。
忽略废话：对于那些无关紧要的过渡词（比如“然后”、“接着”），教练就稍微“放一放”，不给太多关注。

比喻：
这就好比你在教孩子拼乐高。

以前的方法：不管孩子拼得对不对，每拼一块都给一颗糖。
以前的“偏科”方法：只在他拼对“关键连接件”时给糖，或者只在他把“红色积木”找对时给糖。
ToR 方法：教练盯着孩子，当他找对关键零件（感知）或者想对连接逻辑（推理）时，立刻给双倍糖；如果是随便拼凑的废话，就少给点糖。这样孩子就能学会既要看准零件，又要理清逻辑。

4. 效果如何？

实验证明，用了这个“加鸡腿”策略后：

AI 在看图（感知）和做题（推理）两方面都变强了。
它在各种数学和视觉推理的测试题中，成绩都超过了之前的最先进方法（State-of-the-Art）。
最重要的是，这个方法不需要重新设计整个系统，就像给现有的 AI 穿了一件“智能马甲”，插上就能用（Plug-and-play）。

总结

这篇论文的核心思想就是：在教 AI 看图做题时，不能“一视同仁”，也不能“顾此失彼”。

我们要像一位懂行的教练一样，敏锐地识别出哪些是**“看图的关键瞬间”，哪些是“推理的转折点”，然后给这些关键时刻更多的关注和奖励**。只有这样，AI 才能既看得准，又想得对，真正成为一个“眼脑并用”的聪明助手。

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于多模态大语言模型（MLLMs）在强化学习（RLVR）训练中的技术论文总结。论文提出了一种名为 Token Reweighting (ToR) 的新策略，旨在解决多模态模型中“感知”与“推理”能力在训练过程中相互耦合但常被孤立优化的问题。

以下是该论文的详细技术总结：

1. 研究背景与核心问题 (Problem)

背景：带有可验证奖励的强化学习（RLVR，如 GRPO、DAPO）显著提升了大语言模型（LLM）的推理能力。将其扩展到多模态大语言模型（MLLMs）是当前的研究热点。
核心挑战：MLLM 的生成响应中，感知相关 Token（用于定位和描述视觉内容）与推理相关 Token（用于构建逻辑链条）是天然交织的。
现有方法的缺陷：
- 现有方法通常将感知和推理作为独立能力进行优化（例如，仅优化推理链或仅优化视觉感知增强）。
- 实证发现：作者通过实验发现，这种“孤立优化”是次优的。仅优化推理 Token 会导致模型逻辑看似连贯但视觉理解错误（幻觉）；仅优化感知 Token 则保留了视觉细节但无法形成连贯的推理。两者之间存在内在的耦合性（Interdependence），单独优化一方会损害另一方的性能。

2. 方法论 (Methodology)

作者提出了 Token Reweighting (ToR)，一种即插即用（Plug-and-play）的策略，用于在 RLVR 训练过程中动态调整不同 Token 的权重。

2.1 关键 Token 的识别 (Token Identification)

ToR 首先基于模型自身的内在信号，在生成过程中识别两类关键 Token：

推理相关 Token (Reasoning-related Tokens)：
- 识别标准：基于高预测熵 (High Entropy)。
- 原理：高熵位置通常对应推理链中的关键决策点（Forking points），反映了模型的不确定性。通过选择熵值最高的 $\alpha_r$ 比例 Token 来定义该集合。
感知相关 Token (Perception-related Tokens)：
- 识别标准：基于视觉敏感度 (Visual Sensitivity)。
- 原理：计算 Token 在“有图像”和“无图像（仅文本）”两种条件下的对数概率差（Log-probability difference, Logp-diff）。差值越大，说明该 Token 的生成越依赖视觉输入。通过选择敏感度最高的 $\alpha_p$ 比例 Token 来定义该集合。

2.2 重加权机制 (Reweighting Mechanism)

在 RLVR 的目标函数（如 GRPO 或 DAPO）中，不再对所有 Token 一视同仁，而是引入权重系数：

$\gamma_r$ ：赋予推理相关 Token 更高的权重，强调关键决策点的优化。
$\gamma_p$ ：赋予感知相关 Token 更高的权重，强调视觉上下文的融合。
非关键 Token：权重设为 0（即不参与梯度更新，或仅保留基础损失）。
目标函数：修改后的策略梯度损失函数显式地建模了感知与推理的依赖关系，鼓励模型在保持视觉 grounding 的同时进行逻辑推演。

3. 主要贡献 (Key Contributions)

揭示了 Token 级别的耦合性：通过受控的“选择性优化”实验（Masking gradients），首次实证证明了在多模态 RLVR 中，感知和推理能力在 Token 层面是紧密耦合的。孤立优化任一类型均会导致性能下降，必须联合优化。
提出了 ToR 策略：设计了一种轻量级、即插即用的 Token 重加权模块。它不需要额外的外部先验或复杂的架构修改，仅通过识别模型内在的不确定性（熵）和视觉敏感度（Logp-diff）即可实现。
广泛的适用性：ToR 可以无缝集成到现有的主流 RLVR 算法（如 GRPO 和 DAPO）中，并在不同模型规模（Qwen-2.5-VL-3B/7B）和数据规模下均表现出一致性提升。

4. 实验结果 (Results)

作者在多个基准测试上进行了广泛评估，包括视觉推理（MathVerse, MathVision, MathVista, WeMath）和视觉感知（HalluBench）。

消融实验：
- 孤立优化失败：仅优化推理 Token 或仅优化感知 Token 的性能均显著低于全 Token 优化（Vanilla GRPO）。
- 联合优化有效：ToR 通过平衡两类 Token 的权重，在几乎所有基准测试上均超越了基线。
- 最佳配置：实验发现，当感知 Token 权重 $\gamma_p \approx 0.5$ （相对于推理权重 1.0）时，性能最佳，实现了感知精度与推理能力的最佳平衡。
SOTA 对比：
- ToR-GRPO 和 ToR-DAPO 在 Qwen-2.5-VL-7B 上取得了 State-of-the-Art (SOTA) 性能。
- 例如，在 MathVerse 上，ToR-GRPO 将准确率从 50.8 提升至 53.0；在 HalluBench 上从 69.8 提升至 72.4。
- 在 WeMath 和 MathVista 上也取得了显著增益。
- 该方法在更小的模型（3B）和更大的数据规模（ViRL-39K）上同样有效，证明了其泛化能力。

5. 意义与影响 (Significance)

理论层面：纠正了当前多模态 RL 训练中“感知与推理可分离优化”的误区，确立了两者在 Token 级别的互依关系。
技术层面：提供了一种简单但高效的优化范式。通过动态重加权，模型能够在强化学习过程中同时“看清”图像（视觉 grounding）和“想对”逻辑（符号推理），有效减少了多模态幻觉并提升了复杂推理任务的准确率。
应用前景：ToR 策略易于集成到现有的 MLLM 训练框架中，为构建更强大的多模态智能体提供了新的优化方向。未来的工作可进一步探索细粒度的 Token 定位（结合 SAM 等模型）和动态权重分配策略。

总结：这篇论文通过深入分析 MLLM 生成过程中的 Token 特性，发现感知与推理的不可分割性，并提出了 ToR 策略。该策略通过动态调整关键 Token 的权重，成功解决了多模态强化学习中的平衡难题，显著提升了模型在复杂视觉推理任务上的表现。