RewardMap: Tackling Sparse Rewards in Fine-grained Visual Reasoning via Multi-Stage Reinforcement Learning

本文针对多模态大模型在细粒度视觉推理中面临的稀疏奖励难题,提出了包含扩展数据集 ReasonMap-Plus 与多阶段强化学习框架 RewardMap 的解决方案,通过引入难度感知奖励机制和从感知到推理的渐进式训练策略,显著提升了模型在空间推理及通用任务上的表现。

Sicheng Feng, Kaiwen Tuo, Song Wang, Lingdong Kong, Jianke Zhu, Huan Wang

发布于 2026-02-24
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲的是如何让人工智能(AI)变得更聪明,特别是让它学会像人类一样看地图、做规划

想象一下,你给 AI 一张复杂的地铁图,问它:“怎么从 A 站坐到 B 站?”现在的 AI 虽然能看懂文字,但面对这种需要“细看”和“逻辑推理”的地图时,经常犯迷糊,要么看错站名,要么路线规划得乱七八糟。

为了解决这个问题,作者们发明了一套叫 REWARDMAP 的新方法。我们可以用三个生动的比喻来理解它的核心思想:

1. 痛点:为什么以前的 AI 学不会?(“盲人摸象”的困境)

以前的训练方法就像是在教一个学生做极其复杂的数学题,但老师只在最后给一个“对”或“错”的分数。

  • 问题在于:如果学生做错了,他根本不知道是第一步算错了,还是中间某一步看错了数字。这种“只有最后才知道结果”的反馈太少了(论文里叫稀疏奖励),学生(AI)学得很慢,甚至因为不知道哪里错了而放弃努力。

2. 解决方案一:REASONMAP-PLUS(“分级练习册”)

作者们首先制作了一本新的“练习册”,叫 REASONMAP-PLUS

  • 比喻:这就好比把以前那种“直接做奥数题”的模式,改成了循序渐进的练习册
  • 怎么做:这本练习册从最简单的题目开始(比如“数数这张图里有几条线?”),慢慢过渡到中等难度的(比如“这两个站之间隔了几个站?”),最后才是最难的综合规划题(“怎么从 A 走到 B?”)。
  • 作用:让 AI 先学会“认字”和“数数”,打好基础,再挑战高难度任务。这就像教小孩先学走路,再学跑步,而不是一开始就让他去跑马拉松。

3. 解决方案二:REWARDMAP(“细节控”的教练)

这是论文的核心,是一个多阶段的训练框架。它有两个绝招:

绝招 A:细节奖励(“不仅看结果,更看过程”)

  • 以前的教练:学生答对了路线,给 100 分;答错了,给 0 分。
  • REWARDMAP 的教练:即使路线全错了,但如果学生认对了起点站,或者认对了终点站,甚至数对了换乘次数,教练也会给部分分数
  • 比喻:这就像在玩游戏,即使你最后没通关,但如果你打怪打得很准、捡到了宝藏,系统也会给你发“经验值”。这种密集的反馈让 AI 知道:“哦,原来我刚才那个站认对了,下次继续保持!”从而一步步修正错误,而不是从头再来。

绝招 B:难度感知(“因材施教”)

  • 做法:教练会根据题目的难易程度,给不同的分数权重。
  • 比喻:如果 AI 在一张超级复杂的“迷宫地图”上答对了,教练会奖励它双倍积分;如果在一张简单的“直线路”上答对,只给基础积分。这样 AI 就会更愿意去挑战那些难啃的骨头,而不是只挑简单的题做。

4. 训练过程:从“小白的冷启动”到“专家级推理”

整个训练过程就像是一个升级打怪的游戏:

  1. 第一阶段(冷启动):用那本“分级练习册”里的简单题,配合“细节奖励”,让 AI 快速上手,学会看地图的基本元素(站名、线路)。
  2. 第二阶段(进阶):慢慢增加难度,让 AI 处理更复杂的换乘和路线规划。
  3. 结果:AI 不再是一个只会死记硬背的“书呆子”,而变成了一个眼观六路、逻辑严密的导航专家。

5. 最终效果:不仅会看地铁,还能举一反三

实验结果显示,用了这套方法的 AI(基于 Qwen2.5-VL 模型):

  • 在地铁图任务上:表现大幅超越之前的所有模型,甚至接近了顶尖的商业模型。
  • 在其他任务上:它的能力也变强了!比如看图表、做空间推理、理解复杂图片等。
  • 比喻:这就像是一个学生,通过专门训练“解数学题”的方法,不仅数学变好了,连物理和化学的逻辑思维能力也一起提升了。

总结

这篇论文的核心就是:不要指望 AI 一下子就能解决所有难题。
通过把大任务拆成小任务(分级训练),并且在每一步都给具体的反馈(细节奖励),我们能让 AI 在复杂的视觉推理任务(如看地图)上,从“经常迷路”变成“指路大神”。

这就好比教孩子学骑车:先让他扶着墙走(简单任务),走稳了再让他骑两轮(中等任务),最后让他去人多的地方骑(复杂任务),而且每走一步都给他鼓励(细节奖励),他自然就能学会骑车了。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →