MDP Planning as Policy Inference

✨

这是对下方论文的AI生成解释。它不是由作者撰写的。如需技术准确性，请参阅原始论文。阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种全新的思考“人工智能如何做决策”的方法。我们可以把它想象成把“做计划”变成了一次“猜谜游戏”，而不是传统的“刷题考试”。

为了让你轻松理解，我们用一个**“在迷雾森林中找宝藏”**的故事来贯穿全文。

1. 核心思想：不是“算出唯一答案”，而是“猜出最可能的答案”

传统方法（像做数学题）：
以前的 AI 规划（比如强化学习），就像是一个死记硬背的学生。它试图通过不断试错，算出唯一一条通往宝藏的最优路线。它认为：“既然我算出来了，这就是真理，我必须走这条路。”

缺点：如果环境有点变化（比如路滑了），或者它算错了，它就不知道该怎么办了，因为它只有一条路。

这篇论文的新方法（像侦探推理）：
作者把 AI 的决策过程看作贝叶斯推断（Bayesian Inference）。
想象你是一名侦探，面前有100 个不同的侦探小队（策略）。

每个小队都提出了一条去宝藏的路线。
我们给每个小队打分：谁走的路线回报高（宝藏多），谁的分数就高。
我们不是只选那个分数最高的小队，而是保留所有小队，但给高分的小队更多的“投票权”。
结果：你得到的是一个**“策略分布”**。如果有一条路特别明显好，大家都会投给它（后验分布集中）；如果有两条路看起来差不多好，大家就会犹豫，投票权分散（后验分布弥散）。

关键比喻：

不确定性：传统方法把“不知道走哪条路”看作是算法没算好（误差）；而这篇论文认为，“不知道”本身就是一种有价值的信息。如果两条路差不多好，AI 就应该表现出“犹豫”，而不是强行选一条。

2. 怎么做到的？（技术部分的通俗版）

为了在计算机里实现这个“猜谜游戏”，作者用了两个聪明的 tricks：

A. 让“侦探小队”保持一致性（确定性策略推断）

想象你有 100 个侦探（粒子），他们都在模拟同一次探险。

问题：如果侦探 A 在路口第一次遇到“向左走”，他选了左边。下次再遇到同一个路口，他能不能突然改选右边？
解决：作者规定，一旦某个侦探在某个路口做了决定，他就必须“死记硬背”这个决定。下次再遇到同样的路口，他必须选同样的路。
比喻：这就像给每个侦探发了一本**“行动日记”。第一次遇到路口，他在日记里写下“向左”；以后翻到这一页，他只能照着日记做。这样，我们评估的是整个侦探小队（策略）**的好坏，而不是某一次运气好的运气。

B. 公平的比赛环境（耦合随机性）

问题：如果侦探 A 运气好，路滑没摔倒；侦探 B 运气差，摔了一跤。这时候我们怎么知道是侦探 A 的路线更好，还是仅仅因为他运气好？
解决：作者让所有侦探在完全相同的环境条件下跑。如果路滑了，所有侦探都一起滑；如果没滑，所有侦探都不滑。
比喻：就像所有侦探都在同一天、同一条路上、同一种天气下比赛。这样，最后谁跑得快，纯粹是因为路线选得好，而不是因为谁运气好。

3. 最后怎么行动？（汤普森采样）

当 AI 真的要在森林里行动时，它怎么做？

传统方法：直接走那条算出来的“最优路线”。
新方法：
1. 从刚才那 100 个“侦探小队”的投票结果中，随机抽取一个小队。
2. 让这个小队指挥你走一步。
3. 到了下一个路口，再重新抽一个小队指挥你走下一步。

比喻：
这就像**“掷骰子选向导”**。

如果只有一条路明显最好，那 100 个小队里 99 个都选这条路，你掷骰子大概率还是选到它（表现得像确定的）。
如果有两条路差不多好，50 个小队选左边，50 个选右边。你掷骰子时，有时选左，有时选右。
好处：这种“随机”不是乱走，而是因为真的不确定哪条路更好，所以保留探索的可能性。这被称为**“后验预测采样”，本质上是一种高级的汤普森采样（Thompson Sampling）**。

4. 实验结果：它比现在的 AI 强在哪？

作者用几个游戏测试了这种方法，并和目前流行的“软演员 - 评论家（SAC）”算法（一种通过“鼓励随机性”来探索的算法）做了对比：

网格世界（Grid World）：
- SAC：为了“保持随机性”，它有时候会故意往墙边走，只为了增加“熵”（混乱度），这很傻。
- 新方法：它很聪明。如果去墙边没好处，它就不去。它的随机性只出现在真的不知道走哪边的时候。
21 点（Blackjack）：
- 这是一个有标准答案的游戏。
- SAC：为了保持“探索”，它玩得很保守，经常平局，拿不到最高分。
- 新方法：它更接近最优解，因为它能分清什么时候该冒险，什么时候该保守，而不是为了随机而随机。
轮胎世界（Triangle Tireworld）：
- 这里有个陷阱：如果奖励差距太大（比如成功奖励 1000，失败 -1000），新方法会变得太“确定”，不敢尝试有风险但可能高回报的路。
- 启示：这说明奖励的数值大小很重要。如果奖励数值太大，AI 会变得太自信；如果数值适中，AI 能更好地表达“我不确定”的状态。

总结：这篇论文到底说了什么？

一句话总结：
这篇论文教 AI 像人类专家一样思考：“我不确定哪条路最好，所以我保留几种可能性，根据当下的情况随机选一种，但我会根据经验不断调整我对这些可能性的信心。”

它带来的改变：

不再把“随机”当作一种为了探索而强行添加的噪音（像以前那样加个“温度”参数）。
把“随机”看作是“对最优解的不确定性”。
如果 AI 很确定，它就表现得像机器一样精准；如果 AI 不确定，它就表现得像个谨慎的探索者。

这就好比，以前我们教 AI 走路是“不管三七二十一，先乱走几步试试”；现在我们是教它“先看看地图，如果地图模糊，就小心地多试几条路；如果地图清晰，就大步流星地走”。

Each language version is independently generated for its own context, not a direct translation.

论文技术总结：MDP 规划作为策略推断

作者：David Tolpin (Offtopia)
核心思想：将回合制马尔可夫决策过程（MDP）的规划问题重新表述为对策略（Policy）的贝叶斯推断。该方法不修改经典的期望回报优化目标，而是通过定义策略的未归一化概率密度，使得后验分布的众数对应最优策略，而后验分布的离散程度则量化了对最优行为的不确定性。

1. 问题背景与动机

现有方法的局限：
- 传统的“控制即推断”（Control-as-Inference）、最大熵强化学习（MaxEnt RL）和主动推断（Active Inference）通常通过引入辅助变量（如最优性变量）或熵正则化项来修改规划目标，使其符合标准的潜变量 - 观测模板。
- 在这些框架中，随机性通常被视为建模偏好或探索机制，导致推断出的策略无法直接解释为原始期望回报问题的解的不确定性。
本文目标：
- 提出一种贝叶斯公式，保留标准的 MDP 期望回报目标。
- 将策略本身视为潜变量，构建一个后验分布，其众数即为回报最大化策略。
- 通过后验分布的离散度（dispersion）显式地表示对最优行为的不确定性，而非近似误差或启发式正则化的产物。
- 通过从后验预测分布中采样来执行动作，产生一种可解释为**循环汤普森采样（Recurrent Thompson Sampling）**的随机控制器，而非熵正则化。

2. 方法论

2.1 概率模型构建

潜变量：策略 $\pi$ 。
未归一化概率密度：为每个策略分配一个与期望回报单调相关的未归一化概率。
- 定义策略 $\pi$ 的对数未归一化概率为：
  $\log \tilde{p}(\pi) = \mathbb{E}_{\tau_\pi} \left[ \sum_{t=1}^H R(s_t, a_t, s_{t+1}) \right]$
- 这诱导了一个关于策略的 Boltzmann-Gibbs 分布。
估计器：由于期望回报无法直接计算，使用单条轨迹的蒙特卡洛估计量作为无偏估计（含噪声）：
$\log \hat{\tilde{p}}(\pi) = \sum_{t=1}^H R(s_t, a_t, s_{t+1})$

2.2 推断算法：变分序贯蒙特卡洛 (VSMC)

为了在具有随机转移的离散 MDP 中近似该后验分布，作者改进了 VSMC 算法以推断确定性策略：

确定性策略一致性 (Deterministic Policy Consistency)：
- 对于每个粒子（Particle），当首次访问某个状态 $s$ 时，从提议分布中采样动作 $a$ 。
- 在后续再次访问该状态时，强制复用之前采样的动作（即策略在状态上是确定性的）。
- 这确保了粒子代表的是连贯的确定性策略，而非随机动作序列。
耦合转移随机性 (Coupled Transition Randomness)：
- 为了防止粒子权重反映的是环境噪声的差异而非策略本身的差异，同一轮扫描（Sweep）内的所有粒子共享环境随机性。
- 实现：如果两个粒子在相同的访问次数 $k$ 下处于相同状态 $s$ 并采取相同动作 $a$ ，它们被强制转移到相同的后继状态 $s'$ 。
- 这类似于“公共随机数”（Common Random Numbers）技术，确保权重差异仅源于策略不同。
优化目标：
- 最大化证据下界（ELBO）的变体： $\mathcal{L} = \log \hat{Z} + \text{梯度修正项}$ 。
- 由于动作空间是离散的（不可重参数化），保留了采样动作的得分函数（Score-function）项，并使用时序分层（temporally stratified）的方差缩减技术。
- 定理 1 证明了该代理目标的梯度是目标函数 $J(\theta)$ 的无偏估计量。

2.3 策略选择与执行

执行机制：在决策点，从后验分布中采样一个确定性策略，并执行该策略指定的动作。
等价性：对于有限动作空间，这等价于直接从后验提议分布 $q(\cdot|s_t)$ 中采样动作。
不确定性解释：
- 当期望回报差异显著时，后验分布集中，行为趋近确定性。
- 当期望回报相似时，后验分布弥散，行为保持随机性。
- 这种随机性源于偏好不确定性（Preference Uncertainty），而非熵正则化。

3. 主要贡献

新的规划公式：提出了一种将 MDP 规划视为策略推断的贝叶斯公式，保留了经典期望回报准则，并通过后验预测采样在偏好不确定性下产生最优随机策略。
算法改进：针对离散 MDP 中的随机转移，改进了 VSMC 算法，引入了“策略一致性”和“耦合转移随机性”机制，使其适用于确定性策略推断。
实证评估：在网格世界、21 点（Blackjack）、三角形轮胎世界（Triangle Tireworld）和学术指导（Academic Advising）等多个基准测试中，评估了该方法产生的随机控制策略，并与离散 Soft Actor-Critic (SAC) 进行了对比。

4. 实验结果

实验对比了 VSMC（策略推断） 与 SAC（熵正则化 RL）：

网格世界 (Grid Worlds)：
- VSMC 能够可视化多模态策略分布。
- 与 SAC 相比，VSMC 避免了指向边界以增加熵的动作（SAC 倾向于此类动作），而是更专注于目标可达性。
- 耦合转移随机性对于正确推断策略至关重要；若使用独立环境噪声，会导致策略偏向最短路径而忽略风险。
21 点 (Blackjack)：
- 在已知最优策略的领域，VSMC 在默认参数下表现优于 SAC（ $\alpha=1$ ）。
- SAC 需要极小的熵权重（ $\alpha=0.01$ ）和更多训练步数才能接近 VSMC 的性能。
- VSMC 策略的平局概率低于最优策略和 SAC，显示出不同的探索 - 利用权衡。
三角形轮胎世界 (Triangle Tireworld)：
- 该领域包含不可逆的随机事件（爆胎）和风险 - 回报权衡。
- 关键发现：原始奖励尺度下，VSMC 后验分布过于集中（Peaked），导致性能下降。将奖励缩小 5 倍后，后验分布变得弥散，VSMC 性能与 SAC 相当。
- 这表明该方法对奖励尺度敏感，奖励尺度应编码偏好强度，而不仅仅是排序。
学术指导 (Academic Advising)：
- 这是一个长视界、组合爆炸的规划问题。
- 在较难实例中，两种方法都面临收敛困难或高方差问题。
- VSMC 在可解实例上表现出更重的尾部回报分布（Heavier tails），反映了其对策略不确定性的建模。

5. 意义与讨论

不确定性解耦：该方法成功将三种不确定性解耦：
1. 随机性 (Aleatoric)：环境转移的随机性（作为蒙特卡洛估计的噪声）。
2. 认知不确定性 (Epistemic)：对最优行为的不确定性（通过后验分布的离散度表示）。
3. 执行随机性：通过在后验上边际化确定性策略获得。
与现有工作的区别：
- 不同于“控制即推断”中引入虚构观测或最优性变量，本文直接对策略进行推断。
- 不同于熵正则化 RL 将随机性作为单一系数的内在属性，本文的随机性源于对多个确定性行为的信念分布，随后验收敛而消失。
局限性：
- 目前主要针对离散状态空间（便于状态重访记录和共享随机性缓存）。
- 对奖励尺度敏感，需要仔细调整以反映真实的偏好强度。
未来方向：可扩展至连续域（通过哈希状态抽象或公共随机数实现共享随机性），并探索随机记忆化（Stochastic Memoization）以减少早期错误动作的僵化。

总结：该论文提供了一种新颖的视角，将规划视为推断问题，不仅找到了最优策略，还量化了“为什么”该策略是最优的（即其他策略为何被排除）。这种方法在需要显式不确定性量化和稳健决策的场景中具有独特优势。