Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 LAP（语言感知规划模型）的新方法，旨在让 AI 学会如何像人类一样，看着教学视频，一步步地规划出完成任务的动作。

为了让你轻松理解，我们可以把这项技术想象成教一个“有点路痴但很爱看书”的机器人学做菜。

1. 以前的难题：光看画面容易“脸盲”

想象一下，你要教机器人做咖啡。

视觉的局限：机器人看着视频，看到“往滤网里加咖啡粉”和“把咖啡粉表面抹平”这两个动作。在视频画面里，这两个动作看起来简直一模一样：都是手在动，背景都是厨房，手里都拿着勺子或铲子。
结果：以前的 AI 就像个只靠记照片认路的游客。它看着照片（视觉画面），发现两张照片太像了，根本分不清下一步该干什么，容易搞混，导致规划出错。

2. LAP 的妙招：给机器人戴上“翻译眼镜”

LAP 的核心思想是：别光看图，要读“说明书”！
作者发现，虽然动作看起来像，但语言描述却截然不同。

“加咖啡粉”说的是“倒”、“颗粒”；
“抹平表面”说的是“刮”、“平整”。
在语言的逻辑空间里，这两个概念区分得非常清楚。

LAP 就像给机器人配了一副神奇的“翻译眼镜”：

看图说话：它先让机器人把看到的视频画面，瞬间“翻译”成一段详细的文字描述（比如把“手在动”翻译成“正在将咖啡粉倒入滤网”）。
细化描述：为了防止机器人把“倒”和“刮”搞混，它还会用大语言模型（LLM）把这些简单的动作词扩充成更详细的句子，让每个动作的“身份证”都独一无二。
文字导航：然后，它不再用模糊的照片来规划，而是用这些清晰的文字描述（文字嵌入）作为导航地图。

3. 核心黑科技：像“去噪”一样规划步骤

在有了清晰的文字地图后，LAP 使用了一种叫**扩散模型（Diffusion Model）**的技术来生成步骤。

比喻：这就像是在玩**“从一团乱麻中理出清晰线团”**的游戏。
- 一开始，AI 脑子里的行动计划是一团乱糟糟的噪音（不知道先干嘛后干嘛）。
- 但是，它手里拿着“开始动作”和“结束目标”的文字描述作为指南针。
- 通过一步步“去噪”（就像把模糊的照片慢慢变清晰），AI 逐渐把混乱的噪音整理成一条清晰、连贯的动作链条（先加粉，再抹平，再冲泡……）。

4. 训练秘诀：教授强迫法 (Professor Forcing)

为了让这个“翻译眼镜”更准，作者用了一种叫**“教授强迫法”**的训练技巧。

比喻：想象你在学写文章。
- 普通老师（Teacher Forcing）：你写错一个字，老师马上把正确答案塞给你，让你接着写。这样你考试时（实际运行）一旦没人塞答案，你就慌了。
- 教授强迫法：老师故意让你自己写，偶尔给你看答案，偶尔不给你看，强迫你学会自己根据上下文猜下一个词。
- 效果：这样训练出来的 AI，在真正面对新视频时，即使没人“喂”答案，也能自己把画面准确翻译成文字，不会“断片”。

5. 战绩如何？

作者在三个著名的“做菜/手工教学”数据集（CrossTask, Coin, NIV）上进行了测试。

结果：LAP 就像是一个学霸，在所有测试中（无论是短任务还是长任务），它的表现都大幅超越了以前所有最先进的方法（SOTA）。
特别之处：在那些画面特别容易混淆的任务中（比如 Coin 数据集），LAP 的优势最大。这证明了：当眼睛看花的时候，耳朵（语言）听得更清楚。

总结

简单来说，LAP 就是告诉 AI：

“别死盯着画面看，那些画面太像了容易晕。把画面‘翻译’成文字，用文字的逻辑去理清步骤，这样你规划任务时就会像老手一样精准！”

这项技术让 AI 在协助人类完成复杂任务（如做饭、修东西、做实验）时，变得更加聪明和可靠。

Each language version is independently generated for its own context, not a direct translation.

LAP：面向教学视频的程序规划语言感知模型技术总结

1. 研究背景与问题定义

核心问题：
程序规划（Procedure Planning）旨在根据起始视觉观测（Start Observation）和目标视觉观测（Goal Observation），预测一系列中间动作序列，以完成教学视频中的特定任务。

现有挑战：
尽管视觉观测包含丰富的信息，但在程序规划中存在显著的内在歧义性（Inherent Ambiguity）。不同的动作在视觉上可能非常相似（例如，“添加咖啡”和“平整咖啡表面”的起始帧在背景、物体和手部动作上高度重合），导致模型难以仅凭视觉特征区分不同的动作步骤。现有的方法主要依赖视觉输入，或在扩散模型中仅将文本作为辅助噪声/监督信号，未能充分利用语言描述在潜在空间（Latent Space）中更具区分度的特性。

核心假设：
语言描述比视觉观测在潜在空间中具有更高的区分度（Distinctiveness）。通过将视觉观测转化为详细的文本描述，可以消除视觉歧义，从而更有效地指导动作序列的规划。

2. 方法论：LAP (Language-Aware Planning)

LAP 提出了一种新颖的框架，利用自然语言描述的表达能力和区分度， bridging 视觉观测与动作规划。该方法主要包含三个关键阶段：

2.1 视频转文本（Video-to-Text）与教授强迫（Professor Forcing）

细化描述生成：为了解决原始动作标签（如"Add Coffee"）过于简短且不同动作可能共享相同动词/名词的问题，作者利用预训练的大语言模型（LLM）将简短的动作标签扩展为详细的语言描述（Elaborated Descriptions）。
VLM 微调：使用微调后的视觉语言模型（VLM）将起始和目标的视觉观测转化为文本描述。
教授强迫策略：在微调 VLM 时，采用了**教授强迫（Professor Forcing）**技术。
- 在训练过程中，VLM 以一定概率交替使用“教师强迫”（Teacher Forcing，使用真实 token）和“自由运行”（Free Running，自回归生成）。
- 引入判别器（Discriminator）来最小化两种生成模式下的分布距离，确保模型在推理阶段（自由运行）生成的文本质量与训练阶段一致，同时避免纯自回归训练带来的计算成本激增。
动作预测与嵌入提取：利用微调后的 VLM 生成多个候选描述，通过 ROUGE-1 分数筛选出最能代表起始/目标动作的描述，并提取其文本嵌入（Text Embeddings）。

2.2 基于扩散模型的规划（Diffusion-based Planning）

输入构造：规划模型采用去噪扩散概率模型（DDPM）。输入 $x_0$ 由起始动作 $a_s$ 、目标动作 $a_g$ 以及它们对应的文本嵌入 $E_{\hat{a}_s}$ 和 $E_{\hat{a}_g}$ 组成。
去噪过程：
- 在扩散的前向过程中，仅对动作维度添加高斯噪声。
- 文本嵌入维度保持不变（不被加噪），作为条件引导生成过程。
- 模型通过迭代去噪，生成中间动作序列 $\pi$ 。

2.3 整体流程

预处理：利用 LLM 扩展动作标签，构建详细的监督数据。
特征转换：利用教授强迫微调的 VLM 将起始/目标视频帧转换为文本描述，并提取文本嵌入。
序列生成：将文本嵌入作为条件输入到扩散模型中，生成中间动作序列。

3. 主要贡献

提出 LAP 模型：首创将语言描述的区分性特征引入程序规划，通过 VLM 将视觉观测映射到更具区分度的文本潜在空间，解决了视觉相似动作难以区分的问题。
SOTA 性能突破：在三个具有挑战性的程序规划基准数据集（CrossTask, Coin, NIV）上，LAP 在多个评估指标（成功率 SR、平均准确率 mAcc、平均 IoU mSIoU）和不同时间跨度（Time Horizons）下均取得了显著优于现有最先进方法（SOTA）的性能。
实证分析：通过消融实验和可视化分析，证明了文本嵌入在潜在空间中比视觉特征更清晰、更聚类，且这种区分度直接转化为规划性能的提升，特别是在视觉歧义较大的数据集中。

4. 实验结果

4.1 数据集与基准

数据集：CrossTask (2750 视频), Coin (11827 视频), NIV (150 视频)。
对比基线：PDPP, SkipPlan, ActionDiffusion, SCHEMA, KEPP, PlanLLM, MTID 等。
评估指标：
- SR (Success Rate)：序列完全正确（动作及顺序均正确），最具挑战性。
- mAcc：不考虑顺序的动作准确率。
- mSIoU：预测与真实动作的 IoU 均值。

4.2 性能表现

CrossTask：LAP 在所有时间跨度（T=3 至 T=6）的 SR 指标上均达到最高。例如在 T=3 时，SR 达到 41.14%，显著高于次优的 ActionDiffusion (33.25%)。
Coin：LAP 表现尤为突出。在 T=3 时，SR 达到 44.43%，远超次优的 PlanLLM (33.22%)，即使 PlanLLM 使用了中间视觉观测，LAP 仍大幅领先。
NIV：LAP 在 T=3 时 SR 达到 56.51%，mAcc 达到 72.86%，相比最佳基线 MTID 有巨大提升。

4.3 消融实验结论

语言增强（Language Enhancement）：使用 LLM 扩展的动作描述比原始标签能带来更高的预测准确率，证明了细化描述的重要性。
教授强迫（Professor Forcing）：使用教授强迫微调的 VLM 性能显著优于仅使用教师强迫（Teacher Forcing）的模型，证明了该策略在平衡训练效率与推理质量方面的有效性。
文本 vs 视觉：在扩散模型中使用文本嵌入（LAP）显著优于仅使用视觉特征（LAP-vo）。特别是在 Coin 和 NIV 数据集上，文本带来的提升巨大；而在 CrossTask 上提升相对较小，这归因于 CrossTask 的视觉特征本身已具有较好的区分度。
VLM 选择：专门针对动作识别预训练的 VLM（LAP 所用）比通用的视频 - 文本模型（如 LLaVa-NeXT-Video）表现更好，说明任务特定的预训练对程序规划至关重要。

5. 意义与总结

LAP 模型通过**“视觉转文本”**的范式转换，成功解决了教学视频程序规划中视觉特征歧义的核心痛点。其核心意义在于：

理论创新：揭示了在潜在空间中，语言描述比视觉观测具有更强的动作区分能力，为多模态规划提供了新的视角。
技术突破：结合教授强迫微调的 VLM 与条件扩散模型，构建了一个高效且鲁棒的规划框架。
应用价值：在构建能够主动协助人类完成复杂任务的 AI 系统（如机器人辅助、智能教学）方面，LAP 展示了更强的序列预测能力和泛化性，为未来的人机协作奠定了坚实基础。

综上所述，LAP 不仅刷新了多个基准数据集的记录，更重要的是证明了将语言作为规划的核心引导信号（而非辅助信号）是提升程序规划性能的关键路径。

LAP: A Language-Aware Planning Model For Procedure Planning In Instructional Videos