ViterbiPlanNet: Injecting Procedural Knowledge via Differentiable Viterbi for Planning in Instructional Videos

本文提出了 ViterbiPlanNet 框架,通过引入将程序知识图与维特比解码算法深度融合的可微分层,实现了在指令视频规划任务中兼具高样本效率、强鲁棒性及显著参数优势的最先进性能。

Luigi Seminara, Davide Moltisanti, Antonino Furnari

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 ViterbiPlanNet 的新方法,旨在让 AI 学会像人类一样看视频并规划“怎么做”(比如做三明治、洗衣服)。

为了让你轻松理解,我们可以把这个问题想象成**“教一个刚学做饭的机器人”**。

1. 核心问题:现在的 AI 太“笨”且太“贪吃”

目前的 AI(比如那些巨大的大语言模型或扩散模型)在学做任务时,就像是一个死记硬背的学生

  • 缺点:它们需要看成千上万遍视频,把每一步都硬生生地背下来。这就像为了学会做三明治,它必须把“先放面包、再放火鸡、再放生菜”这个顺序背得滚瓜烂熟。
  • 后果
    1. 太费资源:模型巨大,需要超级计算机才能跑,普通手机根本带不动。
    2. 不够灵活:如果它没背过“先放生菜再放火鸡”的情况,它可能就会乱套,或者完全不知道该怎么办。
    3. 容易犯错:它可能会把面包放在最上面,然后试图把火鸡塞进去,因为它没理解“面包必须先垫底”这个逻辑。

2. 我们的解决方案:给 AI 一本“食谱说明书”

ViterbiPlanNet 的核心思想是:不要只靠死记硬背,要教它理解“规则”

作者给 AI 准备了一本**“程序知识图谱”(PKG)。你可以把它想象成一本带有逻辑关系的“食谱说明书”**:

  • 它告诉 AI:做三明治时,“放面包”必须在“放火鸡”之前。
  • 它告诉 AI:“放火鸡”之后,通常跟着“放生菜”。
  • 它甚至标出了每一步发生的概率(比如 80% 的人放完火鸡会放生菜,20% 的人可能直接放酱)。

3. 创新点:可微分的维特比层(DVL)—— 让“查书”也能学习

这是这篇论文最厉害的地方。

以前的做法是:AI 先瞎猜一个步骤,最后再拿“食谱说明书”去修正一下(就像学生做完题,老师最后批改一下)。
ViterbiPlanNet 的做法是:把“查食谱”这个过程直接变成了 AI 学习的一部分。

  • 比喻:想象 AI 是一个在迷宫里找路的探险者。
    • 旧方法:探险者乱跑,跑错了再回头,最后老师告诉他:“你刚才走错了,应该往左。”
    • ViterbiPlanNet:探险者手里拿着一张会发光的地图(可微分的维特比层)。这张地图不仅告诉他哪里是死胡同,还能在探险者每一步都实时反馈:“嘿,如果你往左走,根据地图规则,你离终点更近了!”
    • 关键突破:这个“地图”是可以被 AI 直接“消化”和学习的。AI 不需要背下整个迷宫,它只需要学会**“看眼前的景象,判断下一步该往哪个方向走”**(这叫“发射概率”)。至于怎么走通整个迷宫,交给那张“智能地图”去规划。

4. 为什么这个方法很牛?

  • 省资源(参数少):因为 AI 不需要背下所有步骤,它只需要学会“看眼色行事”(预测下一步的可能性),所以模型非常小,只有几百万参数(而竞争对手动辄几十亿甚至上千亿参数)。这就像一个聪明的向导 + 一张好地图,比一个背了整本百科全书的笨学生要高效得多。
  • 样本效率高:它只需要看很少的视频就能学会,因为它有“规则”做指导,不需要海量数据来死记硬背。
  • 举一反三:即使训练时只教了“做 6 步的三明治”,它也能轻松规划出“做 3 步”或“做 4 步”的三明治,因为它理解的是逻辑结构,而不是死板的步骤数量。
  • 结果更稳:在实验中,它比那些巨大的 AI 模型表现更好,而且更稳定,不容易产生“把面包盖在火鸡上面”这种荒谬的错误。

5. 总结

这篇论文就像是在说:

“别让你的 AI 像鹦鹉一样死记硬背了!给它一本逻辑清晰的说明书,并教它如何边看说明书边学习。这样,AI 就能用更少的力气、更小的个头,学会更复杂、更灵活的技能,甚至能在没见过的情况下也能做出正确的决定。”

这不仅让 AI 变得更聪明,还让它变得更轻便,未来可能直接运行在你的手机或智能手表上,随时指导你完成复杂的日常任务。