Bridging Perception and Reasoning: Token Reweighting for RLVR in Multimodal LLMs

该论文针对多模态大语言模型中感知与推理 token 的耦合特性,提出了一种即插即用的 Token 重加权(ToR)策略,通过动态调整关键 token 权重来优化强化学习训练,从而在多个基准测试中实现了视觉定位与逻辑推理能力的同步提升并达到最先进水平。

Jinda Lu, Junkang Wu, Jinghan Li, Kexin Huang, Shuo Yang, Guoyin Wang, Jiancan Wu, Xiang Wang, Xiangnan He

发布于 2026-03-27
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于如何让“看图说话”的 AI 变得更聪明的故事。

想象一下,你正在教一个非常聪明的学生(也就是多模态大语言模型,MLLM)做一道复杂的数学题,这道题还附带了一张图片。

1. 核心问题:学生“偏科”了

在这个任务中,学生需要同时做两件事:

  1. 看图片(感知):比如识别出图里有“棒球运动员”、“球衣上的文字”或“草地”。
  2. 动脑筋(推理):根据看到的线索,一步步推导出答案,比如“因为球衣上有'All-Star'字样,所以这是全明星赛”。

以前的训练方法(RLVR)就像是一个**“大锅炖”**:不管学生是在描述图片,还是在推导逻辑,老师都给同样的奖励或惩罚。

  • 结果:学生要么只学会了看图但不会推理,要么只学会了推理却看错了图里的细节。就像让一个厨师同时练切菜和炒菜,如果训练方法不区分重点,他可能切菜切得飞快但炒菜火候不对,或者反过来。

2. 研究发现:两种“词”不能分开练

作者做了一个实验,把学生说的话拆成一个个“词”(Token):

  • 感知词:那些描述图片的词(如“红色”、“棒球”)。
  • 推理词:那些进行逻辑推导的词(如“因此”、“意味着”、“所以”)。

他们尝试只奖励“感知词”或只奖励“推理词”,结果发现:单独练哪一边都会失败

  • 只练推理:逻辑很通顺,但把图里的“棒球”看成了“足球”,答案自然错了。
  • 只练感知:看图很准,但无法把看到的线索串联成逻辑,最后答非所问。

结论:看图和动脑筋是紧紧绑在一起的,必须同时优化,不能偏科。

3. 解决方案:给重点词“加鸡腿” (Token Reweighting)

为了解决这个问题,作者提出了一种叫 ToR (Token Reweighting,词重加权) 的新策略。

你可以把它想象成一位精明的教练,他在学生做题时,不再给所有步骤一样的分数,而是动态调整权重

  • 识别关键时刻
    • 当学生犹豫不决(比如不知道下一步该推导出什么)时,这是推理的关键点,教练会加大奖励力度,逼他多思考。
    • 当学生描述图片(比如提到衣服上的字)时,如果这个描述对答案至关重要,教练也会加大奖励力度,让他更仔细地看图。
  • 忽略废话:对于那些无关紧要的过渡词(比如“然后”、“接着”),教练就稍微“放一放”,不给太多关注。

比喻
这就好比你在教孩子拼乐高。

  • 以前的方法:不管孩子拼得对不对,每拼一块都给一颗糖。
  • 以前的“偏科”方法:只在他拼对“关键连接件”时给糖,或者只在他把“红色积木”找对时给糖。
  • ToR 方法:教练盯着孩子,当他找对关键零件(感知)或者想对连接逻辑(推理)时,立刻给双倍糖;如果是随便拼凑的废话,就少给点糖。这样孩子就能学会既要看准零件,又要理清逻辑。

4. 效果如何?

实验证明,用了这个“加鸡腿”策略后:

  • AI 在看图(感知)和做题(推理)两方面都变强了。
  • 它在各种数学和视觉推理的测试题中,成绩都超过了之前的最先进方法(State-of-the-Art)。
  • 最重要的是,这个方法不需要重新设计整个系统,就像给现有的 AI 穿了一件“智能马甲”,插上就能用(Plug-and-play)。

总结

这篇论文的核心思想就是:在教 AI 看图做题时,不能“一视同仁”,也不能“顾此失彼”。

我们要像一位懂行的教练一样,敏锐地识别出哪些是**“看图的关键瞬间”,哪些是“推理的转折点”,然后给这些关键时刻更多的关注和奖励**。只有这样,AI 才能既看得准,又想得对,真正成为一个“眼脑并用”的聪明助手。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →