想象一下，你正在教一个机器人穿越一个巨大而复杂的迷宫。过去的方法是给机器人一个具体的目的地（比如“去那扇红色的门”），然后让它自己找出到达那里的每一步。但如果你希望机器人学会应对任何类型的奖励，而不仅仅是找到一扇门呢？也许你希望它去收集金币、避开陷阱，或者找到某种特定的颜色模式。

这篇论文介绍了一种名为**切换后继测度（Switching Successor Measures）**的新方法来训练机器人。以下是用日常类比对其工作原理的简单拆解。

问题所在：“固定步数”的陷阱

以往的方法试图通过将大问题分解为小问题来解决，方法是说：“正好走 10 步，然后停下来，选择一个新目标。”

缺陷： 想象一下你要穿过一个房间。如果你强迫自己每次改变主意时都正好走 10 步，你可能会走到墙中间或水坑里。现实生活不是关于固定步数的，而是关于到达特定地点（比如一把椅子），然后决定下一步做什么。旧的方法过于僵化，只适用于简单的“找到目标”任务。

解决方案：“智能切换”

作者提出了一种系统，让机器人从同一张“世界地图”中同时学习两件事：

高层计划： “我需要先到达那把椅子。”
底层动作： “好的，我正在走向那把椅子。”

这个魔法技巧被称为切换后继测度。这就像是一个 GPS，它不仅显示通往最终目的地的路线，还能理解在任何中间点停留的“价值”。

类比： 想象你在徒步旅行。
- 旧方法： 你有一张地图，只告诉你如何到达山顶。如果你想在半山腰的瀑布停下来，你就必须从头重新计算整张地图。
- 新方法（本文）： 你拥有一张“超级地图”，它了解地形。它会告诉你：“如果你朝瀑布方向走，5 分钟内就能到达。一旦你到了那里，你可以立即切换计划，朝山顶进发。”机器人学会无缝地将其注意力从一个子目标“切换”到另一个子目标，而无需新地图或老师告诉它确切何时切换。

工作原理（"FB π-Switch"算法）

论文将其方法称为FB π-Switch。以下是用通俗语言描述的过程：

学习世界的“感觉”： 首先，机器人观看自己（或他人）移动的大量旧视频。它学习一种“后继测度”。
- 类比： 这就像学习房子里每个房间的“氛围”。你知道如果你在厨房，很可能很快就会到达餐厅。你不需要每次都知道确切的路径；你只需要知道你会出现在哪里的概率。
“切换”时刻： 机器人学会，它可以沿着一条路径走向一个子目标（比如厨房），一旦到达那里，它就可以“切换”其内部逻辑，开始朝最终目标（餐厅）前进。
无需额外训练： 最棒的是，机器人会自己弄清楚如何将大任务分解成小片段。它不需要人类说：“停在这里，选一个新目标。”数学结构自然地创造了这些子目标。

为什么这很重要

研究人员在两类任务上测试了这种方法：

基于目标的任务： “去红旗那里。”（就像标准的视频游戏关卡）。
通用奖励任务： “在避开尖刺的同时收集尽可能多的金币。”（这是一项更困难、更复杂的任务）。

结果：

对于简单的“去红旗”任务，新方法的表现与现有最佳方法一样好。
关键在于，它在复杂的“收集金币”任务中表现要好得多。因为它没有受困于固定步数，所以能够适应复杂的奖励景观，在这些景观中，最佳路径并不是一条直线。

总结

这篇论文表明，你不需要手动设计复杂的层次结构，也不需要告诉机器人确切何时切换任务。通过使用特定的数学框架（切换后继测度），机器人可以学习单一、灵活的“世界理解”，这种理解自然地允许它自己将大问题分解为更小、可管理的步骤。这就像给机器人一个大脑，让它能同时自然地看到“大局”和“小步骤”。

技术摘要：用于分层零样本强化学习的切换后继测度

问题陈述

分层强化学习（HRL）旨在通过将长视野决策分解为更简单的子问题来改善泛化能力。然而，现有方法通常依赖于限制性的设计选择，例如固定的时间抽象或基于目标的优化目标，这限制了它们对通用奖励函数的适用性。此外，像 HIQL 这样的方法通过固定的子目标视野来强制局部性，而不是让局部性从学习中自然涌现。

与此同时，后继测度（SM），特别是通过前向 - 后向（FB）表示，提供了一个框架，通过在共享嵌入空间中表示价值函数，实现对任意奖励函数的零样本适应。然而，这些方法通常假设存在强全局分解（ $F(s, a, z)^\top B(g)$ ），这在复杂环境中可能难以学习。最近的发现表明，后继表示在局部最为可靠，能有效捕捉短程转移，而在长视野下精度会下降。

存在一个关键缺口：目前尚无统一的方法能够利用后继表示直接从学习到的表示中推导分层策略，同时保留对任意（非目标到达）奖励函数的泛化能力。当前的流程通常将表示学习与策略学习分离，未能利用后继表示的结构化编码进行联合规划与控制。

方法论：切换后继测度与 FB $\pi$ -Switch

作者引入了切换后继测度（Switching Successor Measures），这是一个框架，能够在无需额外监督、固定视野或人工设计子目标的情况下，实现零样本强化学习中的分层控制。

理论基础

核心见解是，高层规划所需的切换后继测度可以直接从单个经典后继测度中推导出来。

切换优势（Switching Advantage）： 作者定义了一个 $k$ 步优势函数，其中智能体遵循基于子目标的策略 $\pi_w$ 执行 $k$ 步，然后切换到全局高效策略 $\pi$ 。
击中时间切换（Hitting-Time Switching）： 为了解决固定视野引入的偏差（即 $k$ 步可能不与到达子目标对齐），该框架用击中时间 $H^{\pi_w}_s(w)$ 替换了固定的 $k$ 。
定理 1： 论文建立了一个关键恒等式，将切换后继测度 $M^{\pi_w \to \pi}_s$ 与标准后继测度联系起来：
$M^{\pi_w \to \pi}_s(s') = M^{\pi_w}_s(s') + \frac{M^{\pi_w}_s(w)}{M^{\pi_w}_w(w)} \left( M^{\pi}_w(s') - M^{\pi_w}_w(s') \right)$
该定理证明，层次结构隐含地编码在标准后继表示中，且无需额外学习即可恢复。
推论 1： 切换优势函数推导如下：
$A^{\pi_w \to \pi}_s(r) = V^{\pi_w}(s; r) + \frac{M^{\pi_w}_s(w)}{M^{\pi_w}_w(w)} \left( V^{\pi}(w; r) - V^{\pi_w}(w; r) \right) - V^{\pi}(s; r)$
这作为高层策略选择子目标 $w$ 的目标函数。

算法：FB $\pi$ -Switch

作者提出了FB $\pi$ -Switch，这是一种三阶段离线学习算法：

状态 - 后继表示学习： 该算法使用期望回归（expectile regression）目标学习无动作、基于奖励的状态 - 后继表示（ $F(s, z)$ 和 $B(s)$ ）。这一步对动作进行边缘化处理，避免了标准 FB 中策略与表示的耦合优化，从而实现单步学习过程。
高层策略学习： 训练一个高层策略 $\pi_h$ ，通过最大化切换优势函数的 FB 近似值来选择潜在子目标 $z_w$ ，使用优势加权回归（AWR）。
低层策略学习： 训练一个低层策略 $\pi_\ell$ ，根据选定的子目标执行原始动作，同样使用 AWR。

该方法允许进行分层后微调，即高层策略可以添加到预训练的行为基础模型（BFMs）中，而无需重新训练低层控制器或基础表示。

主要贡献

切换后继测度： 一个从基于后继的表示中提取分层结构的原理性框架。论文证明，高层规划所需的测度可以从单个经典后继测度中推导出来，表明层次结构是隐含编码的。
FB $\pi$ -Switch 算法： 一种分层零样本强化学习算法，其中高层子目标选择和低层控制均直接源自 FB 表示。该方法遵循三阶段训练过程，其中高层阶段与现有 FB 算法兼容。
实证验证： 在基于目标的任务和基于通用奖励的任务上的评估表明，FB $\pi$ -Switch 优于非分层基线，并在基于目标的设置中与最先进的分层方法表现相当。

实验结果

作者在离散迷宫、AntMaze（基于目标）以及带有通用奖励函数的 AntMaze 上评估了 FB $\pi$ -Switch。

基于目标的任务（AntMaze）： FB $\pi$ -Switch 取得了与 HIQL（一种领先的分层方法）相当的性能。值得注意的是，添加高层策略始终比非分层变体提高了性能。即使没有分层，FB $\pi$ -Switch 也优于其他非分层基线（例如标准 FB、ICVF）。
通用奖励任务： 在具有分布式奖励景观（非单一目标到达）的环境中，FB $\pi$ -Switch 取得了最佳平均性能。分层变体显示出跨环境改进的鲁棒性。
消融与分析：
- FB $\pi$ -Switch 中的高层策略诱导出的子目标位于朝向目标的连贯轨迹上，而 HIQL 的子目标往往导致相似的即时动作，缺乏路径一致性。
- 将 FB $\pi$ -Switch 的高层策略与标准 FB 的低层策略结合进行的实验表明，低层策略的质量对于实现分层效益至关重要。
- 该方法成功处理了局部目标与全局目标之间权衡的任务，超越了传统基于目标的强化学习（GCRL）的单目标焦点。

意义与主张

论文声称，结构化的后继表示为分层零样本强化学习提供了灵活的基础，其适用范围超越了目标到达任务。通过引入切换后继测度，作者证明分层行为可以直接从学习到的表示中涌现，而无需：

专家轨迹。
手工设计的时间抽象。
用于分层的独立监督对象。

这项工作 bridging 了局部与全局决策，表明后继表示可以自然地支持跨区域行为的组合。作者指出，虽然该方法有效，但基础模型的质量仍然是一个依赖因素，未来的工作可以探索多子目标规划以及与基于生成模型的方法的比较。该框架被提出作为一种统一方法，用于从后继表示中推导分层策略，解决了零样本设置中表示学习与分层控制之间的差距。

Switching Successor Measures for Hierarchical Zero-shot Reinforcement Learning