Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective

本文通过图论抽象从理论层面揭示了强化学习在提升大语言模型规划能力方面的优势与局限,指出监督微调易引入虚假解而强化学习依赖探索实现泛化,同时对比发现策略梯度存在多样性崩溃缺陷,而 Q 学习凭借离线学习和收敛时的多样性保持更具优势,但需警惕奖励设计不当引发的 Q 值偏差,并在 Blocksworld 基准测试中验证了这些理论发现。

Siwei Wang, Yifei Shen, Haoran Sun, Shi Feng, Shang-Hua Teng, Li Dong, Yaru Hao, Wei Chen

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是一份**“大模型如何学会‘走迷宫’的体检报告”**。

想象一下,你正在训练一个超级聪明的机器人(大语言模型),教它如何在一个复杂的迷宫里找到从起点到终点的路。这个迷宫就是现实世界中的任务(比如写代码、规划旅行、或者像论文里提到的“积木世界”游戏)。

论文主要研究了三种教机器人走路的方法,并揭示了它们各自的**“超能力”“致命弱点”**。

1. 传统方法:死记硬背 (SFT - 监督微调)

比喻: 就像给机器人看一本**“标准答案集”**。

  • 怎么教: 老师直接告诉机器人:“从 A 点到 B 点,请按‘红 - 蓝 - 绿’的顺序走。”机器人就把这些具体的路线背下来。
  • 优点: 背得熟,遇到见过的题能答对。
  • 缺点(论文发现): 只会“死记硬背”,不懂“举一反三”。
    • 机器人学会了“红”后面经常跟着“蓝”,但它不知道是因为“红”和“蓝”在逻辑上相连,只是因为在书里它们总是一起出现。
    • 如果题目稍微变一下(比如把“红”换成“黄”,但逻辑一样),机器人就懵了,因为它没学会真正的**“路理”(图的连通性),只记住了“词伙”**(共现关系)。它就像个只会背课文的学生,换个考法就挂科。

2. 强化学习 A 派:试错法 (Policy Gradient, PG)

比喻: 就像让机器人**“自己瞎逛,走对了给糖,走错了挨打”**。

  • 怎么教: 机器人自己在迷宫里乱跑。如果它走到了终点,就奖励它;如果走错了,就惩罚它。它通过不断尝试来优化自己的走路策略。
  • 优点: 比死记硬背强! 因为它在乱跑的过程中,真正探索到了迷宫的结构,学会了真正的“路理”,所以泛化能力(解决新问题的能力)更强。
  • 缺点(论文发现): 容易“钻牛角尖”,导致“多样性崩塌”。
    • 一开始,机器人可能会尝试很多条不同的路(有的走左边,有的走右边)。
    • 但随着训练深入,它发现只要走某一条特定的路就能拿满分。于是,它把所有其他的路都抛弃了,只死死盯着这一条路走。
    • 后果: 虽然它 100% 能走到终点,但它变得非常“死板”。如果那条路突然堵了(遇到新情况),它就完全不会变通,因为它已经忘了还有别的路。这就叫**“多样性崩塌”**。
    • 补救措施: 论文发现加一个“约束项”(KL 正则化),强迫机器人偶尔看看别的路,能保住多样性,但代价是它可能没法每次都走得那么完美(准确率稍微下降)。

3. 强化学习 B 派:地图导航法 (Q-Learning)

比喻: 就像给机器人装了一个**“实时导航仪”**,不仅看终点,还看每一步。

  • 怎么教: 这种方法更高级。它不只是等走到终点才给奖励,而是每走一步都评估:“这一步离目标更近了吗?这一步是不是在正确的路上?”
  • 优点(论文发现): 它是“全能冠军”。
    1. 不挑食(Off-policy): 它可以用别人(或者旧版本自己)跑出来的数据来学习,不需要每次都亲自去跑,效率更高。
    2. 不钻牛角尖(多样性保留): 即使到了最后,它依然知道有很多条路都能走到终点,并且能灵活选择。它既聪明又灵活。
    3. 关键条件: 必须给“过程奖励”(每走对一步都夸它),如果只给“结果奖励”(只夸走到终点),它也会像 PG 一样学偏(Q 值偏差)。

总结:这篇论文告诉我们要什么?

  1. 别光靠背书(SFT): 只给标准答案,机器人学不会真正的逻辑,只会死记硬背。
  2. 试错法(PG)虽好但有副作用: 虽然比背书强,但容易让机器人变得“固执”,只认死理,忘了变通。
  3. 导航法(Q-Learning)是未来: 如果设计得当(给过程奖励),它既能学会真正的逻辑,又能保持思维的灵活性,还能利用旧数据,是解决复杂规划问题的最佳方案。

一句话概括:
教大模型做规划,死记硬背行不通,盲目试错会钻牛角尖,只有学会“边走边看路”的导航法,才能既聪明又灵活。