Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 OMEN 的新系统，它的核心任务是让自动驾驶汽车拥有一种"终身学习"的能力，专门用来预测路上其他物体（比如车、人、自行车）下一秒会往哪里跑。

为了让你更容易理解，我们可以把自动驾驶系统想象成一位正在开车的“老司机”。

1. 以前的困境：死记硬背的“书呆子”

在传统的自动驾驶系统中，这位“老司机”在上学（训练）时，老师只教他认识固定的一批人：比如“轿车”、“卡车”和“行人”。

封闭世界（Closed-World）：老师告诉他：“路上只有这三种东西，你只需要预测这三种。”
问题：如果有一天，路上突然出现了一种新玩意儿，比如电动滑板车或者独轮车，这位“老司机”就懵了。他要么完全看不见，要么把它当成别的物体乱猜。
重新学习的代价：如果要让他学会认识滑板车，以前的做法是把他所有的课本（历史数据）都翻出来，把“滑板车”加进去，然后让他重新把整本书背一遍。这不仅费时间、费钱，而且因为背了新东西，他反而把以前学得很熟的“轿车”和“行人”给忘了（这叫灾难性遗忘）。

2. OMEN 的解决方案：聪明的“活到老学到老”

这篇论文提出的 OMEN 系统，就像是一位超级聪明的老司机，他不需要把整本书重新背一遍，就能学会新东西，同时不忘旧知识。它主要靠两个“独门绝技”：

绝技一：VLM 辅助的“影子教练” (伪标签 + 视觉语言模型)

当这位老司机第一次遇到“电动滑板车”时，他手里没有详细的说明书（没有完美的标注数据）。

怎么做：系统先让老司机凭经验猜一下滑板车的位置和轨迹，这叫“打草稿”（生成伪标签）。
关键一步：这时候，系统请来了一个超级博学的“影子教练”（视觉语言模型，VLM）。这个教练看过无数图片和文字，非常懂常识。
- 如果老司机猜：“那个滑板车会突然飞上天！” -> 教练说：“不对，滑板车不会飞，这个猜测是错的，删掉。”
- 如果老司机猜：“那个滑板车在路边停着。” -> 教练说：“对，符合常理，保留。”
结果：通过这种“猜 - 查 - 改”的过程，老司机学会了新物体，而且因为教练把关，他不会因为瞎猜而把旧知识搞乱。

绝技二：只记“精彩片段”的“记忆回放” (基于方差的回放策略)

为了不让老司机忘了以前学过的“轿车”怎么跑，系统不能把所有以前看过的路都存下来（内存不够）。

以前的做法：随机挑一些以前的视频片段复习。但这可能挑到的都是“车在直路上匀速开”这种无聊的片段，对提升技术没帮助。
OMEN 的做法：系统会看老司机大脑里的“神经信号”（特征方差）。
- 如果一段路里，车突然急转弯、行人突然横穿马路（高方差、信息量大），系统就会想：“这段太精彩了，必须存下来复习！”
- 如果一段路车都在直直地开（低方差、太简单），系统就会想：“这段太普通了，不用存。”
结果：老司机只复习那些最复杂、最惊险的驾驶场景，用最小的内存，记住了最核心的驾驶技巧，从而防止了“遗忘”。

3. 实际效果如何？

作者在真实的自动驾驶数据集（nuScenes 和 Argoverse 2）上测试了这套系统：

不遗忘：即使学会了“滑板车”，他对“轿车”和“行人”的预测依然非常准。
适应新事物：面对从未见过的物体，它能迅速上手。
零样本迁移：最厉害的是，他们在真实的自动驾驶汽车上测试，直接把这套系统用在了从未见过的真实路况中（比如从新加坡的数据直接用到真实的德国街头），它依然能工作，不需要重新训练。这就像一位老司机，刚学会开左舵车，下一秒开右舵车也能立刻上手。

总结

简单来说，这篇论文解决了一个大问题：如何让自动驾驶汽车像人类一样，在有限的存储空间下，一边开车一边不断学习新出现的物体，同时不忘掉老本领。

它不再是一个死板的程序，而是一个会自我进化、有常识判断力、且懂得“抓重点复习”的智能驾驶助手。这为未来自动驾驶真正进入复杂多变的现实世界铺平了道路。

Each language version is independently generated for its own context, not a direct translation.

论文技术总结：Open-World Motion Forecasting (OMEN)

1. 研究背景与问题定义 (Problem)

背景：
现有的自动驾驶运动预测（Motion Forecasting）方法大多基于**封闭世界（Closed-World）**假设。这意味着模型在训练时预设了固定的物体类别（如车、人、自行车），并且假设感知系统能提供完美的检测与跟踪数据。然而，在现实世界的自动驾驶场景中，存在两个主要挑战：

感知不完美： 检测器存在误差，且依赖级联模块（检测->跟踪->预测）会累积误差。
开放世界与类别增量： 新的物体类别（如电动滑板车、轮椅等）会不断出现。传统的封闭世界模型无法处理新类别，若重新标注历史数据并全量重训，成本极高且不可行；若仅在新数据上微调，则会导致灾难性遗忘（Catastrophic Forgetting），即模型忘记旧类别的预测能力。

问题定义：
本文提出了**开放世界运动预测（Open-World Motion Forecasting）**任务。其核心设定是：

端到端（End-to-End）： 直接从多视角摄像头图像预测未来轨迹，不依赖中间的手动感知模块。
类别增量学习（Class-Incremental）： 模型按时间顺序逐步学习新的语义类别，仅能访问当前步骤的标注数据，无法访问旧类别的原始训练数据。
目标： 在适应新类别的同时，保持对已学类别的预测性能，并有效抑制灾难性遗忘。

2. 方法论 (Methodology)

作者提出了 OMEN (Open-World Motion PrEdictioN) 框架，这是首个针对端到端开放世界运动预测的解决方案。该框架主要包含两个核心机制：

2.1 VLM 引导的伪标签生成 (VLM-Guided Pseudo-Label Generation)

由于在增量步骤中缺乏旧类别的标注，模型需要利用旧模型生成伪标签。

基于未来检测的伪标签： 利用上一阶段训练好的模型（ $\Phi_{i-1}$ ）对当前输入图像进行 3D 检测。为了获得更准确的运动轨迹（特别是非线性轨迹），模型不仅使用当前帧的检测，还利用未来时间步的 3D 检测位置，通过坐标变换构建运动伪标签。
VLM 过滤假阳性： 随着训练步数增加，模型置信度可能虚高，导致大量假阳性（False Positives）。为此，引入**视觉 - 语言模型（VLM，如 Grounded SAM 2）**进行过滤：
- 将旧类别的名称提示给 VLM。
- 将 3D 检测框投影到 2D 图像平面，提取关键点特征。
- 检查这些关键点是否落在 VLM 生成的对应类别的 2D 实例掩码（Mask）内。
- 只有当大部分投影点落在正确类别的掩码内时，才保留该伪标签，否则视为假阳性并剔除。这确保了伪标签的视觉一致性。

2.2 基于序列的经验回放策略 (Sequence-Based Experience Replay)

为了缓解灾难性遗忘，模型需要回放旧数据，但受限于存储，只能保留少量样本。

序列级选择： 不同于传统的基于图像特征或数据集分布的采样，OMEN 基于运动查询（Motion Queries）的方差来选择序列。
具体流程：
1. 计算每个旧类别在旧数据集中所有运动查询的均值向量 $\bar{q}_c$ 。
2. 对于每个序列，计算其中所有实例的查询向量与该均值的平方偏差之和作为得分。
3. 选择得分最高的序列放入回放缓冲区。
优势： 这种策略优先保留包含高方差运动模式（即复杂、非线性运动）的序列，这些序列对防止遗忘最具信息量，而非仅仅保留静态或简单运动的样本。

2.3 扩展至端到端规划

该框架可自然扩展至类别增量的开环规划（Open-Loop Planning）。通过在查询集合中拼接自车（Ego-vehicle）的查询，模型可以在学习新物体类别的同时，直接优化自车的未来轨迹规划。

3. 主要贡献 (Key Contributions)

任务定义： 正式提出了“开放世界运动预测”这一新任务，填补了端到端预测与类别增量学习之间的空白。
OMEN 框架： 提出了首个端到端的类别增量运动预测框架。
创新策略：
- 提出了一种结合未来帧检测与 VLM 过滤的伪标签生成策略，有效解决了旧类别无标注问题并抑制了假阳性。
- 提出了一种基于潜在空间运动查询方差的序列回放选择机制，显著优于传统的图像特征回放。
实验验证： 在 nuScenes 和 Argoverse 2 数据集上进行了广泛评估，证明了模型在抵抗遗忘的同时能有效适应新类别。
零样本能力： 展示了模型在真实自动驾驶车辆上的零样本（Zero-shot）迁移能力，并验证了其向端到端规划扩展的可行性。

4. 实验结果 (Results)

数据集： 在 nuScenes（新加坡/波士顿）和 Argoverse 2（美国六城市）上进行了评估。
设置： 包括“每类增量”（Per-class incremental）和“分组增量”（Group-incremental）两种设置。
性能表现：
- 抗遗忘能力： OMEN 在引入新类别后，对旧类别（如车辆、行人）的预测精度（mAPf）保持优异，显著优于基线方法（如 CL-DETR、纯伪标签法）。
- 新类别适应： 能够成功学习新类别的运动模式。
- 对比基线： 在 nuScenes 上，OMEN 的 mAPf 达到了 15.60%，接近使用所有标签联合训练（Joint Training）的上限（19.87%），远优于遗忘基线（4.00%）。
- 规划任务： 在开环规划任务中，随着类别增加，自车轨迹的 L2 误差和碰撞率逐渐降低，证明了预测模块对规划模块的正向促进作用。
- 真实场景： 在自研自动驾驶车辆采集的数据上进行了零样本测试，模型成功预测了已学类别的运动，证明了其泛化能力。

5. 意义与影响 (Significance)

理论突破： 打破了自动驾驶感知与预测领域长期依赖“封闭世界”和“完美感知”的假设，为处理现实世界中不断变化的物体类别提供了可行的技术路径。
工程价值： 提出的方法无需对历史数据进行大规模重新标注，也无需存储海量原始数据，仅需少量回放序列和伪标签即可更新模型，极大地降低了自动驾驶系统的维护成本和存储需求。
系统级优化： 证明了端到端运动预测与规划可以协同进行增量学习，为构建具备“持续学习（Continual Learning）”能力的完整自动驾驶系统奠定了基础。
开源贡献： 作者公开了代码，推动了开放世界感知与预测领域的研究进展。

总结： OMEN 通过巧妙的伪标签生成（结合 VLM 过滤）和基于运动信息量的回放策略，成功解决了端到端运动预测中的灾难性遗忘问题，是实现自动驾驶系统在开放世界中持续进化、适应新场景的关键一步。

Open-World Motion Forecasting