EgoTraj-Bench: Towards Robust Trajectory Prediction Under Ego-view Noisy Observations

本文提出了首个面向真实世界第一人称视角噪声观测的轨迹预测基准 EgoTraj-Bench,并设计了结合双流去噪与 EgoAnchor 机制的 BiFlow 模型,显著提升了机器人导航在感知受限环境下的轨迹预测鲁棒性与精度。

Jiayi Liu, Jiaming Zhou, Ke Ye, Kun-Yu Lin, Allan Wang, Junwei Liang

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于**“让机器人学会在‘看不清’的情况下猜路”**的故事。

想象一下,你正在玩一个“盲人摸象”的游戏,但这次你不是摸大象,而是要预测一群人在拥挤的街道上下一秒会往哪里走。

1. 核心问题:为什么现在的机器人“太天真”了?

目前的很多预测机器人(比如自动驾驶汽车或送餐机器人)就像是在**“上帝视角”**(鸟瞰图,BEV)下长大的。

  • 上帝视角:就像站在摩天大楼顶上看街道,所有人都看得清清楚楚,没有遮挡,每个人是谁(ID)都记得死死的。
  • 现实视角(第一人称,FPV):机器人是戴着“单眼眼镜”在街上走的。
    • 遮挡:前面的人挡住了后面的人,机器人根本看不见后面的人。
    • 认错人:两个人擦肩而过,机器人的摄像头可能把“穿红衣服的人”和“穿蓝衣服的人”搞混了(ID 切换)。
    • 变形:离镜头太近或太远,人的样子会变形。

痛点:以前的训练方法都假设机器人拥有“上帝视角”的完美数据。一旦把这种模型放到真实世界里,面对这些“看不清、认不准”的混乱画面,它们就彻底懵了,预测完全失效。

2. 解决方案一:EgoTraj-Bench(给机器人造一个“模拟考场”)

作者觉得,要解决这个问题,首先得有一个真实的“模拟考场”,让模型在训练时就习惯“看不清”的情况。

  • 以前的做法:用电脑模拟出一些假乱的画面(就像用 PS 把图弄模糊),但这不够真实,因为真实的混乱是有规律的。
  • EgoTraj-Bench 的做法
    • 他们利用了一个真实数据集(TBD),这个数据集里同时有“上帝视角”的监控录像(完美的真相)和“机器人视角”的录像(充满噪音的混乱)。
    • 比喻:就像给机器人看两部电影。一部是“导演剪辑版”(完美清晰),另一部是“手持摄影版”(晃动、遮挡、模糊)。
    • 他们把“手持摄影版”里的混乱数据,强行映射到“导演剪辑版”的坐标上。这样,机器人就能在训练时明白:“哦,原来在上帝视角里那个穿黄衣服的人,在机器人眼里其实是被挡住了一半的。”

这个“考场”是第一个真正用真实世界噪音来测试轨迹预测的基准。

3. 解决方案二:BiFlow(机器人的“双脑”训练法)

有了考场,作者还设计了一个新模型叫 BiFlow。你可以把它想象成一个**“双修”的学霸**。

这个模型有两个任务同时进行:

  1. 任务 A(去噪/复原):看着那团乱糟糟的、被遮挡的“手持摄影版”画面,努力猜出它原本长什么样(还原出清晰的历史轨迹)。
  2. 任务 B(预测未来):基于刚才猜出来的清晰历史,去预测大家下一步往哪走。

为什么这么设计?

  • 比喻:这就好比一个侦探。如果侦探连“案发前发生了什么”都看不清楚(因为现场被破坏了),他怎么可能猜出“凶手下一步去哪”呢?
  • BiFlow 强迫模型先学会“把烂摊子收拾干净”(去噪),然后再去“预测未来”。在这个过程中,模型学会了从混乱中提取有用的线索。

还有一个小机关叫 EgoAnchor(意图锚点):

  • 这就像给侦探一个“直觉”。模型会分析:“虽然我看不到这个人现在的脸,但根据他之前的走路姿势和周围人的反应,他大概率是想往左边拐。”这个“直觉”被用来稳定预测结果,防止模型因为数据太乱而瞎猜。

4. 结果如何?

作者在“模拟考场”上测试了各种现有的最先进模型:

  • 旧模型:一遇到真实的“手持摄影版”噪音,成绩就崩盘,预测得乱七八糟。
  • BiFlow(新模型):表现非常稳健。它不仅能从混乱中还原出真相,还能准确预测未来。
  • 数据:在预测的准确度上,比以前的最好模型提升了 10% 到 15%

总结

这篇论文的核心思想就是:别把机器人关在温室里(完美数据)训练,要带它们去泥坑里(真实噪音)练练手。

作者通过建立 EgoTraj-Bench(真实噪音考场)和提出 BiFlow(先复原再去预测的双流模型),让机器人学会了在“看不清、认不准”的复杂现实环境中,依然能像老司机一样,稳稳地预测行人的动向,从而更安全地在人类社会中导航。