ViterbiPlanNet: Injecting Procedural Knowledge via Differentiable Viterbi for Planning in Instructional Videos

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 ViterbiPlanNet 的新方法，旨在让 AI 学会像人类一样看视频并规划“怎么做”（比如做三明治、洗衣服）。

为了让你轻松理解，我们可以把这个问题想象成**“教一个刚学做饭的机器人”**。

1. 核心问题：现在的 AI 太“笨”且太“贪吃”

目前的 AI（比如那些巨大的大语言模型或扩散模型）在学做任务时，就像是一个死记硬背的学生。

缺点：它们需要看成千上万遍视频，把每一步都硬生生地背下来。这就像为了学会做三明治，它必须把“先放面包、再放火鸡、再放生菜”这个顺序背得滚瓜烂熟。
后果：
1. 太费资源：模型巨大，需要超级计算机才能跑，普通手机根本带不动。
2. 不够灵活：如果它没背过“先放生菜再放火鸡”的情况，它可能就会乱套，或者完全不知道该怎么办。
3. 容易犯错：它可能会把面包放在最上面，然后试图把火鸡塞进去，因为它没理解“面包必须先垫底”这个逻辑。

2. 我们的解决方案：给 AI 一本“食谱说明书”

ViterbiPlanNet 的核心思想是：不要只靠死记硬背，要教它理解“规则”。

作者给 AI 准备了一本**“程序知识图谱”（PKG）。你可以把它想象成一本带有逻辑关系的“食谱说明书”**：

它告诉 AI：做三明治时，“放面包”必须在“放火鸡”之前。
它告诉 AI：“放火鸡”之后，通常跟着“放生菜”。
它甚至标出了每一步发生的概率（比如 80% 的人放完火鸡会放生菜，20% 的人可能直接放酱）。

3. 创新点：可微分的维特比层（DVL）—— 让“查书”也能学习

这是这篇论文最厉害的地方。

以前的做法是：AI 先瞎猜一个步骤，最后再拿“食谱说明书”去修正一下（就像学生做完题，老师最后批改一下）。
ViterbiPlanNet 的做法是：把“查食谱”这个过程直接变成了 AI 学习的一部分。

比喻：想象 AI 是一个在迷宫里找路的探险者。
- 旧方法：探险者乱跑，跑错了再回头，最后老师告诉他：“你刚才走错了，应该往左。”
- ViterbiPlanNet：探险者手里拿着一张会发光的地图（可微分的维特比层）。这张地图不仅告诉他哪里是死胡同，还能在探险者每一步都实时反馈：“嘿，如果你往左走，根据地图规则，你离终点更近了！”
- 关键突破：这个“地图”是可以被 AI 直接“消化”和学习的。AI 不需要背下整个迷宫，它只需要学会**“看眼前的景象，判断下一步该往哪个方向走”**（这叫“发射概率”）。至于怎么走通整个迷宫，交给那张“智能地图”去规划。

4. 为什么这个方法很牛？

省资源（参数少）：因为 AI 不需要背下所有步骤，它只需要学会“看眼色行事”（预测下一步的可能性），所以模型非常小，只有几百万参数（而竞争对手动辄几十亿甚至上千亿参数）。这就像一个聪明的向导 + 一张好地图，比一个背了整本百科全书的笨学生要高效得多。
样本效率高：它只需要看很少的视频就能学会，因为它有“规则”做指导，不需要海量数据来死记硬背。
举一反三：即使训练时只教了“做 6 步的三明治”，它也能轻松规划出“做 3 步”或“做 4 步”的三明治，因为它理解的是逻辑结构，而不是死板的步骤数量。
结果更稳：在实验中，它比那些巨大的 AI 模型表现更好，而且更稳定，不容易产生“把面包盖在火鸡上面”这种荒谬的错误。

5. 总结

这篇论文就像是在说：

“别让你的 AI 像鹦鹉一样死记硬背了！给它一本逻辑清晰的说明书，并教它如何边看说明书边学习。这样，AI 就能用更少的力气、更小的个头，学会更复杂、更灵活的技能，甚至能在没见过的情况下也能做出正确的决定。”

这不仅让 AI 变得更聪明，还让它变得更轻便，未来可能直接运行在你的手机或智能手表上，随时指导你完成复杂的日常任务。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题定义 (Problem)

核心任务：
视频程序规划（Video Procedural Planning）。给定初始视觉状态（Start Visual State, $v_s$ ）和目标视觉状态（Goal Visual State, $v_g$ ），预测一系列中间动作（Action Sequence），以将初始状态转化为目标状态。

现有方法的局限性：

隐式学习低效：现有的主流方法（如基于 Transformer、LLM 或 Diffusion 模型的方法）通常依赖大规模数据隐式地学习复杂的程序结构。这导致样本效率低（Sample-efficiency 差），且需要巨大的计算资源和参数量。
缺乏结构约束：大多数方法未显式利用程序知识（如动作之间的先验依赖关系），导致生成的计划可能违反逻辑（例如在面包没放好之前先放馅料）。
评估不一致：现有文献在训练/测试协议、数据划分和评估指标上存在严重的不一致性，使得不同模型之间的公平比较变得困难。

本文目标：
提出一种轻量级、参数高效且样本高效的框架，通过显式地将程序知识融入端到端的训练过程，解决上述问题。

2. 方法论 (Methodology)

本文提出了 ViterbiPlanNet，其核心思想是将**程序知识图（Procedural Knowledge Graph, PKG）直接嵌入到规划算法中，并通过可微分维特比层（Differentiable Viterbi Layer, DVL）**实现端到端优化。

2.1 核心组件

程序知识图 (PKG)：
- 一个有向图 $G=(V, E, \omega)$ ，其中节点是动作，边是合法的转换，边权重 $\omega$ 表示转换概率（基于训练数据中的动作共现统计计算）。
- PKG 提供了全局的结构约束，定义了哪些动作序列是合法的。
视觉编码 (Visual Encoding)：
- 输入：起始帧 $v_s$ 和目标帧 $v_g$ 。
- 使用冻结的视觉骨干网络（如 S3D）提取特征，并通过可学习的投影层得到编码 $v_s^{enc}, v_g^{enc}$ 。
发射概率预测 (Emission Probabilities)：
- 网络 $f_{emiss}$ （基于 Transformer 编码器 + MLP）接收视觉编码，预测每个时间步 $t$ 下，每个动作 $a_t$ 与当前视觉状态的兼容性概率（即发射概率 $P(v_t|a_t)$ ）。
- 关键设计：模型不需要学习完整的动作序列，只需学习“当前动作是否符合视觉观察”的概率。
可微分维特比层 (DVL)：
- 问题：传统维特比算法（Viterbi Algorithm）包含不可微的 max 和 argmax 操作，无法进行端到端反向传播。
- 解决方案：引入 DVL，使用平滑松弛技术（Smooth Relaxations）：
  - 用 Log-Sum-Exp 替代 max。
  - 用 Softmax 替代 argmax。
- 工作流程：
  1. 接收发射概率 $b$ 和固定的 PKG 转移概率 $\omega$ 。
  2. 计算累积状态分数 $\delta_t$ 。
  3. 生成软指针分布（Soft Backpointer Distribution） $\psi$ 。
  4. 递归组合软指针，输出一个软计划（Soft Plan） $\tilde{\pi}$ （即动作序列的概率分布）。
- 优势：梯度可以从最终的规划损失直接流向视觉编码器和发射概率预测网络，迫使网络学习“结构感知”的视觉表示。

2.2 训练目标

总损失函数由三部分组成（权重相等）：

规划损失 ( $\mathcal{L}_{plan}$ )：最小化预测的软计划 $\tilde{\pi}$ 与真实的一热编码计划 $\pi_{GT}$ 之间的均方误差 (MSE)。
视觉 - 语义对齐损失 ( $\mathcal{L}_{align}$ )：对比学习损失，强制视觉嵌入与动作对应的文本描述（如“加洋葱前”的状态）对齐。
任务分类损失 ( $\mathcal{L}_{task}$ )：辅助任务，预测整个任务的类别，帮助编码器保留全局语义。

2.3 推理过程

在推理阶段，模型输入 $v_s, v_g$ 和 PKG，输出软计划。为了得到离散的最终计划，通常使用标准的维特比解码（Standard Viterbi Decoding）从软计划中提取最可能的路径。

3. 主要贡献 (Key Contributions)

ViterbiPlanNet 框架：
- 首个将程序知识图（PKG）通过可微分维特比层（DVL）端到端集成到训练过程中的框架。
- 模型仅需学习简单的发射概率，而非复杂的规则记忆，实现了极高的参数效率（仅约 5-7M 参数）和样本效率。
统一且严格的评估协议：
- 指出了现有文献中评估标准的不一致性问题。
- 建立并开源了统一的评估流水线，使用一致的划分、指标和多次运行（5 次随机种子）的 Bootstrap 置信区间来评估统计显著性。
跨视界一致性测试 (Cross-Horizon Consistency)：
- 提出新协议：在长视界（如 T=6）上训练，在短视界（T=3,4,5）上测试。
- 证明了 ViterbiPlanNet 能够学习到可迁移的程序结构，而非死记硬背特定长度的序列模式。

4. 实验结果 (Results)

实验在 CrossTask, COIN, 和 NIV 三个标准数据集上进行。

4.1 性能对比 (State-of-the-Art)

成功率 (SR)：ViterbiPlanNet 在所有数据集和视界长度（T=3, 4）上均取得了最高的成功率，且统计显著优于之前的 SOTA 方法（如 SCHEMA, PlanLLM, PDPP 等）。
参数效率：
- ViterbiPlanNet 参数量约为 5.5M - 7M。
- 相比 LLM 方法（30B-100B+ 参数）和扩散模型（如 MTID, 1B+ 参数），参数量减少了 2-3 个数量级。
- 在参数量极少的情况下，性能依然超越或持平那些巨大的模型。

4.2 消融实验 (Ablation Studies)

结构感知训练的重要性：
- 如果仅在推理时使用维特比解码（Post-processing），性能提升有限。
- 核心发现：性能提升主要来源于DVL 引导的训练过程。DVL 迫使网络学习符合图结构的发射概率，而非仅仅作为后处理修正。
样本效率：
- 在训练数据量较少（如 5%-25%）时，ViterbiPlanNet 的表现显著优于 SCHEMA。
- 随着数据量增加，SCHEMA 依靠记忆能力的优势逐渐显现，但 ViterbiPlanNet 依然保持竞争力，证明了其不依赖“死记硬背”程序知识。
跨视界鲁棒性：
- 在 T=6 训练、T=3 测试的设置下，ViterbiPlanNet 的成功率下降幅度远小于其他模型（提升约 8%），证明了其学习到了通用的程序逻辑。

4.3 定性分析

可视化显示，Base Model（无 DVL）倾向于隐式记忆 PKG 的转移概率，导致发射概率分布过于尖锐且受限。
ViterbiPlanNet 学习到的发射概率更加平滑且解耦，依靠 PKG 的结构引导进行解码，从而能更好地处理替代路径和不确定性。

5. 意义与影响 (Significance)

范式转变：
- 证明了在程序规划任务中，显式注入结构化先验知识比单纯依赖大规模数据隐式学习更有效、更高效。
- 挑战了“模型越大越好”的直觉，展示了轻量级模型结合结构化推理的强大能力。
实际部署潜力：
- 由于参数量极小且推理速度快，ViterbiPlanNet 非常适合部署在边缘设备（如可穿戴 AI 助手、机器人）上，用于实时指导用户完成复杂任务。
社区贡献：
- 提出的统一评估协议和跨视界测试标准解决了该领域长期存在的评估不一致问题，为未来的研究提供了更公平、更严谨的基准。
- 开源的代码和统一协议将推动程序规划领域的进一步发展。

总结：ViterbiPlanNet 通过巧妙地将经典的维特比算法可微分化，成功地将程序知识图嵌入到深度学习训练循环中。这种方法不仅大幅降低了模型复杂度和数据需求，还显著提升了规划任务的准确性、鲁棒性和可解释性，是视频程序规划领域的一项重要突破。