Adaptive Correlation-Weighted Intrinsic Rewards for Reinforcement Learning

本文提出了一种名为 ACWI 的自适应框架,通过轻量级 Beta 网络根据状态动态学习内在奖励的缩放系数,并利用相关性目标优化其与外在回报的对齐,从而在稀疏奖励环境中显著提升强化学习的探索效率与训练稳定性。

Viet Bac Nguyen, Phuong Thai Nguyen

发布于 2026-03-02
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 ACWI 的新方法,旨在解决人工智能(AI)在“奖励稀缺”环境中的学习难题。

为了让你轻松理解,我们可以把 AI 的学习过程想象成一个刚入职的新员工(AI 代理)在一家巨大的迷宫公司里寻找晋升机会(完成任务)

1. 核心难题:老板很少给表扬(稀疏奖励)

在传统的 AI 训练里,如果员工做对了事,老板会立刻给奖金(奖励信号)。但在很多复杂任务中(比如玩《超级马里奥》或下围棋),老板可能只在最后通关时才给一次大奖,中间几千步都在“盲猜”。

  • 问题:如果没有中间的反馈,新员工就像在黑暗中乱撞,不知道哪条路是对的,效率极低。

2. 旧办法:好奇心奖励(Intrinsic Reward)

为了解决这个问题,以前的方法会给员工发“好奇心奖金”。

  • 原理:只要员工去了一个没去过的地方,或者做了个新动作,就发一点小奖金。
  • 比喻:就像给新员工发了一张“探索地图”,告诉他:“你去没去过的角落,我就给你发 1 块钱。”
  • 缺点:这个“发钱”的力度是固定的。
    • 如果发得太少,员工懒得动,还是乱撞。
    • 如果发得太多,员工会为了拿那 1 块钱,故意在角落里转圈圈,完全忘了去老板办公室(主要任务)的目标。
    • 痛点:以前的人工设定(手动调参)就像给全公司定死一个标准,不管你是去“茶水间”还是去“核心机房”,给的钱都一样。这显然不合理。

3. 新办法:ACWI(自适应相关加权)

这篇论文提出的 ACWI,就像是给新员工配备了一位聪明的“副经理”(Beta Network)

这个副经理是做什么的?

副经理手里拿着一份“未来收益预测表”。他的工作不是直接发钱,而是决定给“好奇心奖金”打多少折或加多少倍

  • 场景一:去茶水间(无意义探索)

    • 员工想去茶水间看看。副经理一看:“去茶水间虽然新鲜,但对完成核心任务(找老板)没帮助,甚至可能浪费时间。”
    • 操作:副经理把“好奇心奖金”的系数调低(比如打 0.1 折)。员工觉得:“哦,去茶水间没多少好处,那我还是别去了。”
  • 场景二:去核心机房(关键探索)

    • 员工想去一个从未去过的机房。副经理分析:“虽然这里很陌生,但根据经验,去了这里很可能发现通往老板办公室的捷径,未来回报巨大!”
    • 操作:副经理把“好奇心奖金”的系数调高(比如加 2 倍)。员工觉得:“哇,去这里能拿大钱,冲啊!”

副经理怎么学会这个判断的?

这就是论文中最精彩的部分:相关性目标(Correlation Objective)
副经理不需要老板教他,他是通过观察历史数据自己学会的:

  • 他观察:“上次那个员工去了 A 地,虽然当时没拿到大奖,但后来他果然找到了捷径,最终拿到了大奖金。” -> 结论:A 地值得高奖励。
  • 他观察:“上次员工去了 B 地,虽然当时很新奇,但后来发现是死胡同,最终颗粒无收。” -> 结论:B 地不值得奖励。
  • 核心逻辑:副经理会不断调整系数,让“好奇心奖金”的大小,和“未来能拿到的老板奖金”保持正相关

4. 实验结果:它真的有用吗?

作者在几个经典的迷宫游戏(MiniGrid)里测试了这套系统:

  • 普通员工(PPO):在迷宫里乱撞,很久都找不到出口。
  • 旧版好奇心员工(固定系数):有时候能走出去,但经常因为系数没调好,要么太保守(不敢走),要么太激进(在死胡同里打转)。而且换个迷宫,就得重新调参数,很麻烦。
  • ACWI 员工(带副经理)
    • 适应性强:不管迷宫多复杂,副经理都能自动调整策略。在需要探索时大胆探索,在发现规律后迅速转为“执行模式”。
    • 稳定高效:学习速度更快,而且不会像旧方法那样容易“发疯”(训练不稳定)。
    • 优雅降级:如果迷宫真的太难,完全没有任何线索(比如一个空荡荡的大房间,只有终点有奖励),副经理发现“预测未来”完全没用,就会自动退回到“固定模式”,不会乱指挥,保证系统不崩溃。

总结

这篇论文的核心思想就是:不要给所有的好奇心都发一样的奖金。

ACWI 就像是一个智能的“奖金调节器”,它通过观察“现在的探索”和“未来的成功”之间的关系,动态地决定在什么时候、什么地点应该鼓励探索,什么时候应该停止探索。这让 AI 在复杂、奖励稀缺的环境中,能像人类一样聪明地分配精力,既不会盲目乱撞,也不会错失良机。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →