Learning in Markov Decision Processes with Exogenous Dynamics

本文研究了具有外生动态结构的马尔可夫决策过程,通过利用状态变量中仅部分受智能体控制这一特性,提出了能显著降低样本复杂度并达到信息论最优下界的强化学习算法,且在理论与实证中均证明了其相较于传统方法的高效性。

Davide Maran, Davide Salaorni, Marcello Restelli

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个在强化学习(AI 的一种)中非常实际的问题:当环境里有一部分变化是“完全不可控”的,我们该如何更聪明地学习?

为了让你轻松理解,我们可以把这篇论文的核心思想想象成**“在暴风雨中驾驶一艘自动驾驶汽车”**。

1. 核心问题:为什么现在的 AI 学得很慢?

想象一下,你正在训练一个 AI 司机(强化学习算法)。

  • 传统的做法(标准 MDP): 现在的 AI 认为,它踩油门、打方向盘(动作),会直接导致车的位置、速度、甚至天气都发生变化。它试图去理解“如果我踩刹车,雨会不会变小?”或者“如果我左转,云层会不会散开?”。
  • 现实情况: 显然,司机无法控制天气。雨下得大还是小(外生变量),完全取决于气象系统,跟司机踩不踩油门毫无关系。
  • 后果: 传统的 AI 会浪费大量时间去研究“天气”和“我的动作”之间是否存在某种神秘的联系。它会在成千上万次尝试中,试图搞清楚为什么今天下雨时它开得慢,明天晴天时它开得快。这就像是一个人在暴风雨中拼命研究“我挥手的动作能不能让雨停”,结果不仅学不会开车,还因为噪音太大(天气变化)而完全搞不清自己的操作到底有没有效。

2. 论文的解决方案:PCMDP(部分可控马尔可夫决策过程)

作者提出了一种新的框架,叫 PCMDP。它的核心思想是**“分清主次,各司其职”**。

在这个新框架里,AI 被明确告知:

  • 可控部分(内生变量): 车的速度、位置、油量。这些完全由你的动作决定。
  • 不可控部分(外生变量): 天气、交通拥堵、股市波动。这些是“老天爷”决定的,跟你的动作无关。

比喻:
这就好比你在玩一个**“带天气系统的赛车游戏”**。

  • 旧 AI(标准 RL): 试图同时学习“怎么开车”和“怎么控制天气”。它以为只要练得够久,就能发现“在雨天左转能加速”这种不存在的规律。
  • 新 AI(PCMDP): 它知道“天气”是游戏自带的随机事件,它根本不需要去控制天气。它只需要专注于学习:“在当前这种天气下,我该怎么开最快?”

3. 两大创新算法:EXAVI 和 EXAQ

为了利用这种“分清主次”的结构,作者设计了两个新算法:

A. EXAVI(基于模型的“天气预报员”)

  • 原理: 它不需要去猜测“我的动作如何影响天气”。它只需要观察天气是怎么自己变化的(比如:下雨后大概率还是下雨,或者随机变晴)。
  • 优势: 就像你不需要学会“呼风唤雨”,只需要学会“看天气预报”一样。因为它省去了探索“动作与天气关系”的巨大成本,它只需要收集关于天气的数据,就能迅速掌握规律。
  • 效果: 在实验中,它比传统算法快了几千倍。传统算法要跑几千次才能学会,它跑几次就学会了。

B. EXAQ(无模型的“举一反三”)

  • 原理: 这是一个更高级的技巧。当 AI 在“雨天”跑了一次,发现“左转”在雨天表现不好时,它不会只更新“雨天 + 左转”这一条记录。
  • 比喻: 想象你在做数学题。
    • 传统 AI: 做了一道“雨天左转”的题,只记住了这道题的答案。下次遇到“雨天右转”,它还得重新做一遍题。
    • EXAQ: 它意识到“雨天”是外生的。一旦它知道了“雨天”这个背景下的规律,它就能瞬间推导出:“既然雨天左转不好,那在同样的雨天背景下,右转、直行、刹车会怎么样?”
    • 它利用已知的“可控规则”(比如物理定律:车在湿滑路面刹车距离变长),结合观察到的“天气背景”,一次性更新了所有可能的操作策略。这叫做**“反事实推理”**(Counterfactual Reasoning):即使我没试过“雨天右转”,我也能根据逻辑算出它的结果。

4. 实际应用场景(论文中的例子)

作者用两个生动的例子证明了这套方法有多好用:

  1. 出租车与交通(TaxiEnv):

    • 场景: 出租车要在城市里接客。
    • 不可控: 某些路口的红绿灯或拥堵是随机发生的(外生)。
    • 结果: 新算法不需要去研究“我按喇叭能不能让红灯变绿”,它直接学习“看到红灯拥堵时,该走哪条路”。结果,它几乎瞬间就学会了最优路线,而传统算法还在迷宫里乱撞。
  2. 股票交易(Optimal Execution):

    • 场景: 基金经理要卖出大量股票,不想把价格砸得太低。
    • 不可控: 股票价格受市场情绪、新闻影响,是随机波动的(外生)。
    • 可控: 基金经理决定“现在卖多少”(内生)。
    • 结果: 传统算法会试图寻找“我卖得慢,价格就会涨”这种幻觉。新算法则专注于:在当前市场价格波动规律下,如何分批卖出最划算。实验显示,新算法在极少的交易次数内就找到了最佳策略,而传统算法(甚至包括目前最火的 PPO 算法)要么学得很慢,要么学偏了(比如恐慌性抛售)。

5. 总结:为什么这很重要?

这篇论文告诉我们:在现实世界中,很多变化是我们无法控制的(如天气、股市、用户行为)。

  • 以前的 AI: 试图控制一切,结果被噪音淹没,学得慢、效率低。
  • 现在的 AI(PCMDP): 承认有些东西控制不了,把精力集中在**“在不可控的背景下,如何做出最好的可控决策”**。

一句话总结:
这就好比一个优秀的船长,他不会试图去命令大海停止波涛(那是徒劳的),而是学会观察海浪的规律,然后调整帆的角度,从而在风暴中依然能以最快速度、最安全地到达目的地。这篇论文就是教 AI 如何成为这样一位聪明的船长。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →