LAP: A Language-Aware Planning Model For Procedure Planning In Instructional Videos

本文提出了语言感知规划(LAP)模型,该模型利用微调后的视觉语言模型将视觉观测转化为更具区分性的文本嵌入,并通过扩散模型生成动作序列,在多个程序规划基准测试中显著超越了现有最先进方法。

Lei Shi, Victor Aregbede, Andreas Persson, Martin Längkvist, Amy Loutfi, Stephanie Lowry

发布于 Wed, 11 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 LAP(语言感知规划模型)的新方法,旨在让 AI 学会如何像人类一样,看着教学视频,一步步地规划出完成任务的动作。

为了让你轻松理解,我们可以把这项技术想象成教一个“有点路痴但很爱看书”的机器人学做菜

1. 以前的难题:光看画面容易“脸盲”

想象一下,你要教机器人做咖啡。

  • 视觉的局限:机器人看着视频,看到“往滤网里加咖啡粉”和“把咖啡粉表面抹平”这两个动作。在视频画面里,这两个动作看起来简直一模一样:都是手在动,背景都是厨房,手里都拿着勺子或铲子。
  • 结果:以前的 AI 就像个只靠记照片认路的游客。它看着照片(视觉画面),发现两张照片太像了,根本分不清下一步该干什么,容易搞混,导致规划出错。

2. LAP 的妙招:给机器人戴上“翻译眼镜”

LAP 的核心思想是:别光看图,要读“说明书”!
作者发现,虽然动作看起来像,但语言描述却截然不同。

  • “加咖啡粉”说的是“倒”、“颗粒”;
  • “抹平表面”说的是“刮”、“平整”。
    在语言的逻辑空间里,这两个概念区分得非常清楚。

LAP 就像给机器人配了一副神奇的“翻译眼镜”

  1. 看图说话:它先让机器人把看到的视频画面,瞬间“翻译”成一段详细的文字描述(比如把“手在动”翻译成“正在将咖啡粉倒入滤网”)。
  2. 细化描述:为了防止机器人把“倒”和“刮”搞混,它还会用大语言模型(LLM)把这些简单的动作词扩充成更详细的句子,让每个动作的“身份证”都独一无二。
  3. 文字导航:然后,它不再用模糊的照片来规划,而是用这些清晰的文字描述(文字嵌入)作为导航地图。

3. 核心黑科技:像“去噪”一样规划步骤

在有了清晰的文字地图后,LAP 使用了一种叫**扩散模型(Diffusion Model)**的技术来生成步骤。

  • 比喻:这就像是在玩**“从一团乱麻中理出清晰线团”**的游戏。
    • 一开始,AI 脑子里的行动计划是一团乱糟糟的噪音(不知道先干嘛后干嘛)。
    • 但是,它手里拿着“开始动作”和“结束目标”的文字描述作为指南针
    • 通过一步步“去噪”(就像把模糊的照片慢慢变清晰),AI 逐渐把混乱的噪音整理成一条清晰、连贯的动作链条(先加粉,再抹平,再冲泡……)。

4. 训练秘诀:教授强迫法 (Professor Forcing)

为了让这个“翻译眼镜”更准,作者用了一种叫**“教授强迫法”**的训练技巧。

  • 比喻:想象你在学写文章。
    • 普通老师(Teacher Forcing):你写错一个字,老师马上把正确答案塞给你,让你接着写。这样你考试时(实际运行)一旦没人塞答案,你就慌了。
    • 教授强迫法:老师故意让你自己写,偶尔给你看答案,偶尔不给你看,强迫你学会自己根据上下文猜下一个词。
    • 效果:这样训练出来的 AI,在真正面对新视频时,即使没人“喂”答案,也能自己把画面准确翻译成文字,不会“断片”。

5. 战绩如何?

作者在三个著名的“做菜/手工教学”数据集(CrossTask, Coin, NIV)上进行了测试。

  • 结果:LAP 就像是一个学霸,在所有测试中(无论是短任务还是长任务),它的表现都大幅超越了以前所有最先进的方法(SOTA)。
  • 特别之处:在那些画面特别容易混淆的任务中(比如 Coin 数据集),LAP 的优势最大。这证明了:当眼睛看花的时候,耳朵(语言)听得更清楚。

总结

简单来说,LAP 就是告诉 AI:

“别死盯着画面看,那些画面太像了容易晕。把画面‘翻译’成文字,用文字的逻辑去理清步骤,这样你规划任务时就会像老手一样精准!”

这项技术让 AI 在协助人类完成复杂任务(如做饭、修东西、做实验)时,变得更加聪明和可靠。