Partial Policy Gradients for RL in LLMs

该论文提出了一种名为“部分策略梯度”的新方法,通过优化未来奖励的子集来构建不同复杂度的策略类(如贪婪、K 步前瞻等),从而在 Persona 对齐对话任务中实现更可靠的梯度估计与更优的策略选择。

Puneet Mathur, Branislav Kveton, Subhojyoti Mukherjee, Viet Dac Lai

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文主要解决了一个让大语言模型(LLM)在扮演角色时经常犯的错误:“人设崩塌”

想象一下,你让一个 AI 扮演一位“性格内向、害怕社交的图书管理员”。在对话的前几句,它表现得很好。但聊到第 30 句时,它突然开始热情地邀请大家去开派对;聊到第 50 句,它又说自己是个外向的摇滚乐手。这种前后矛盾,就是所谓的“人设漂移”。

这篇论文提出了一种新的训练方法,叫做**“部分策略梯度”(Partial Policy Gradients)。为了让你更容易理解,我们可以用“开车”“下棋”**来打比方。

1. 核心问题:为什么 AI 会“人设崩塌”?

目前的 AI 训练方法主要有两种极端:

  • 极端一:只看眼前(贪婪策略)

    • 比喻:就像开车时只盯着车头前方 1 米的路
    • 做法:AI 只关心“我这句话现在说对不对?”,只要这句话符合人设,它就说了。
    • 后果:虽然每一句话单独看都没错,但连起来看就乱了。比如刚才说“我不喜欢猫”,下一句为了讨好用户又说“我养了只猫”。因为它没想后面,导致前后矛盾,像波浪一样忽高忽低(论文中称为“振荡”)。
  • 极端二:全盘规划(全量规划)

    • 比喻:就像下棋时,必须算出未来 100 步的所有变化才能走一步。
    • 做法:AI 试图为了整个对话的长远完美,去规划每一句话。
    • 后果:虽然理论上最完美,但计算量太大,而且如果数据不够多,AI 很容易“算晕了”,导致学不会,或者在数据少的时候表现得很差(就像新手司机非要算 100 步,结果连起步都做不到)。

2. 论文的创新:寻找“刚刚好”的视野

作者发现,不需要只看眼前,也不需要看太远,只需要看“未来几步”,效果最好。

他们提出了一个**“K 步前瞻”(K-Step Lookahead)**的概念。

  • 比喻:就像开车时,目光放在前方 3-5 秒的路面上
  • 做法:AI 在说这句话时,会想:“如果我说了这句话,接下来的 2 到 3 句对话,我还能保持人设吗?”
    • 如果说了这句话,会导致后面第 3 句不得不撒谎,那现在就不说。
    • 如果说了这句话,能顺利过渡到后面,那就说。

3. 不同的场景,需要不同的“视野”

论文最有趣的地方在于,他们发现不同的对话场景,需要的“视野长度”是不一样的

  • 场景一:闲聊(Chatting)

    • 需求:像打乒乓球,你打过来,我打回去,反应要快。
    • 最佳策略看未来 2 步
    • 结果:只要想一下下一句会不会尴尬就够了。看得太远反而反应迟钝,聊得不自然。
  • 场景二:心理咨询(Therapy)

    • 需求:像做心理疏导,情绪是慢慢变化的,需要连贯性。
    • 最佳策略看未来 3 步
    • 结果:需要稍微多想一点,确保情绪过渡自然,不能今天说“我很绝望”,明天突然“我完全好了”,这不符合心理恢复的规律。
  • 场景三:教育辅导(Education)

    • 需求:像教学生解数学题,需要长远的逻辑链条。
    • 最佳策略看未来很远(全量规划)
    • 结果:因为教学是一个长期的过程,前面的知识点必须为后面的铺垫,所以需要 AI 有更长远的规划能力。

4. 数据多少也很重要

论文还发现了一个**“数据与视野”的平衡法则**:

  • 数据很少时:就像新手司机,视野越短越好(只看眼前 1 步)。因为数据少,算太远容易算错,不如先保证每一步都稳。
  • 数据很多时:就像老司机,可以看得更远。数据多了,AI 有足够的经验去计算长远的后果,这时候“全盘规划”才能发挥最大威力。

总结

这篇论文的核心思想就是:教 AI 说话,不要只教它“当下怎么说”,也不要强迫它“算尽未来”,而是教它“适度地看未来几步”。

通过调整这个“看几步”的开关(K 值),我们可以让 AI 在不同的任务中(是闲聊、是治病、还是教书)都表现得更加稳定、真实,不再像个精神分裂的演员,而是一个始终如一的角色。

一句话概括:给 AI 配一副**“可调节焦距的眼镜”**,让它根据对话的长短和复杂程度,自动决定是看近处还是看远处,从而保持人设不崩塌。