FoSS: Modeling Long Range Dependencies and Multimodal Uncertainty in Trajectory Prediction via Fourier State Space Integration

本文提出了 FoSS 框架,通过融合频域分析与线性时间状态空间模型,在显著降低计算复杂度和参数量的同时,实现了兼顾长程依赖与多模态不确定性的自动驾驶轨迹预测,并在 Argoverse 基准测试中取得了最先进精度。

Yizhou Huang, Gengze Jiang, Yihua Cheng, Kezhi Wang

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 FoSS 的新方法,旨在帮助自动驾驶汽车更聪明、更快速地预测周围车辆和行人的未来轨迹。

想象一下,你正在开一辆自动驾驶汽车,周围车水马龙。你需要知道:前面的车下一秒是直行、变道还是急刹车?旁边的行人会不会突然冲出来?

以前的预测方法就像是在“死记硬背”或者“过度思考”,要么算得太慢(像 Transformer 模型,计算量巨大),要么记不住长远的趋势(像 RNN 模型,容易遗忘)。

FoSS 的核心思想是:把“看时间”和“看频率”结合起来,就像既看乐谱的旋律,又听音乐的节奏。

下面我用几个生动的比喻来拆解它是怎么工作的:

1. 核心难题:既要“大局观”,又要“细节控”

自动驾驶预测面临两个矛盾:

  • 大局观(Global Intent): 这辆车整体是想往哪开?(比如它想左转还是直行)。这就像看一首歌的主旋律
  • 细节控(Local Dynamics): 这辆车在微调方向盘、轻微加速或减速。这就像歌里的装饰音颤音

以前的模型很难同时抓住这两点:要么只顾大局忽略了急转弯的细节,要么只顾细节忘了整体方向。

2. FoSS 的解决方案:双管齐下(双分支架构)

FoSS 就像一个拥有两个大脑的超级助手,分别处理两种信息,最后把它们融合起来。

🧠 大脑 A:时间域分支(TD-Mamba)—— “看历史,懂趋势”

  • 怎么做: 它直接观察车辆过去几秒的运动轨迹。
  • 比喻: 就像你观察一个人走路。你不需要分析他每一步的肌肉收缩(太细了),而是看他整体的行走方向和速度
  • 黑科技: 它使用了一种叫“选择性状态空间模型(SSM)”的技术。这就像是一个超级记性,它能记住很久以前的信息(比如 5 秒前这辆车开始变道了),而且计算速度极快,不像传统方法那样随着时间变长而变得笨重。

🧠 大脑 B:频率域分支(FD-Mamba)—— “听旋律,析节奏”

这是这篇论文最创新的地方。它把车辆的轨迹看作一段音乐,用数学工具(傅里叶变换)把这段“音乐”拆解。

  • 怎么做:
    • 低频(Amplitude): 对应主旋律。比如“这辆车整体在向右转”。这代表了全局意图
    • 高频(Phase): 对应装饰音。比如“它在转弯时轻微抖动了一下”。这代表了局部动态
  • 关键创新(HelixSort): 传统的拆解方法把“低音”和“高音”混在一起,像一盘乱糟糟的磁带。FoSS 发明了一个叫 HelixSort(螺旋排序) 的模块。
    • 比喻: 想象把一盘乱糟糟的毛线球,按照从中心(低音/大局)到边缘(高音/细节)的顺序,整齐地螺旋缠绕起来。这样,AI 就能先听清“主旋律”,再慢慢听清“装饰音”,顺序非常清晰。
  • 处理: 整理好后的“音乐”,通过两个专门的模块(Coarse2Fine-SSM 和 SpecEvolve-SSM)进行精细化处理,分别提取空间互动和通道演变的特征。

3. 融合与预测:交响乐团的指挥

两个大脑处理完信息后,需要一个“指挥”把它们合二为一。

  • 交叉注意力机制(Cross-Attention): 就像指挥家把“主旋律”和“装饰音”完美融合,确保大局和小细节不冲突。
  • 多模态预测(Multimodal): 自动驾驶不能只猜一种结果。FoSS 会生成多条可能的轨迹(比如:它可能直行,也可能变道)。
  • 不确定性加权: 最后,它会根据当前情况的“混乱程度”,给每条预测轨迹打上一个置信度分数。如果情况很复杂,它会说:“我有 60% 把握它直行,40% 把握它变道”,而不是盲目地只给一个答案。

4. 为什么它很厉害?(成果)

  • 快: 它的计算量比目前最先进的模型少了 22.5%,就像给汽车引擎换了个更高效的涡轮增压,跑起来更轻快。
  • 省: 参数量减少了 40% 以上,意味着它可以在更便宜、更小的芯片上运行,适合量产车。
  • 准: 在 Argoverse 1 和 2 这两个著名的自动驾驶测试数据集上,它的预测准确率达到了世界顶尖水平(SOTA)。

总结

FoSS 就像是一个既懂“宏观战略”又懂“微观战术”的老司机。
它不再只是死板地记录位置,而是像听音乐一样,把车辆的运动拆解成“大局趋势”和“细微抖动”,先理清顺序,再精准预测。这让自动驾驶汽车在面对复杂的路况时,能算得更快、想得更远、猜得更准。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →