TAPFormer: Robust Arbitrary Point Tracking via Transient Asynchronous Fusion of Frames and Events

本文提出了 TAPFormer,一种基于 Transformer 的鲁棒任意点跟踪框架,通过创新的瞬态异步融合机制自适应地结合帧与事件流,有效解决了多模态数据在时间对齐和模态失效下的跟踪难题,并在自建数据集及标准基准上取得了显著的性能提升。

Jiaxiong Liu, Zhen Tan, Jinpu Zhang, Yi Zhou, Hui Shen, Xieyuanli Chen, Dewen Hu

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 TAPFormer 的新系统,它的核心任务是:在视频中精准地追踪任意一个点

想象一下,你正在看一段视频,视频里有一只鸟在飞,或者一辆车在跑。TAPFormer 的任务就是盯着这只鸟的翅膀尖,或者那辆车的车灯,无论它们怎么动、怎么被遮挡,甚至环境怎么变(比如突然变黑或变亮),它都能死死咬住那个点,画出它走过的完整路线。

为了让你更容易理解,我们可以用几个生动的比喻来拆解这项技术:

1. 遇到的难题:两种“眼睛”的局限

传统的追踪方法通常只依赖一种“眼睛”——普通相机(帧)

  • 普通相机的缺点:它像是一个慢吞吞的摄影师。它每秒只拍 20-30 张照片。如果物体动得太快(比如赛车飞驰),照片就会模糊(运动模糊);如果光线太暗或太亮,照片就看不清。而且,因为拍得慢,它容易“跟不上”物体的快速变化,导致追踪丢失。

为了解决这个问题,科学家引入了第二种“眼睛”——事件相机(Events)

  • 事件相机的优点:它像是一个反应极快的神经末梢。它不拍完整的照片,而是只记录“哪里亮了”或“哪里暗了”的瞬间变化。它的反应速度是微秒级的(比眨眼快几百万倍),而且不怕过曝或太暗。
  • 事件相机的缺点:它虽然反应快,但没有“记忆”和“细节”。它只告诉你“这里动了”,但不知道动的是什么(是红色的球还是蓝色的车?)。在静止或慢速时,它甚至可能“发呆”,因为没什么变化可记。

以前的做法:把这两种“眼睛”的数据简单拼凑在一起,就像把慢吞吞的摄影师和反应快的神经末梢强行绑在一起走路。结果往往是:步调不一致(时间对不上),或者一方掉链子时,整个系统就崩了。

2. TAPFormer 的解决方案:完美的“双人舞”

TAPFormer 就像是一位超级指挥家,它发明了一套新的配合方式,让这两种“眼睛”完美协作。

核心创新一:瞬态异步融合 (TAF) —— “填补时间缝隙的胶水”

  • 比喻:想象普通相机是每隔 1 秒打一次节拍,而事件相机是每毫秒都在跳动
  • 以前的做法:为了配合,只能把事件相机的跳动强行放慢,或者把相机的照片强行插值,这就像让两个人跳舞时,一个人必须等另一个人,导致动作僵硬、不自然。
  • TAPFormer 的做法:它不再让两者互相等待。它把事件相机的每一次跳动,都看作是填补两张照片之间空白时间的“胶水”
    • 当一张照片(帧)到来时,系统先建立一个基础形象。
    • 在等待下一张照片的漫长 1 秒里,事件相机的每一次跳动都在实时更新这个形象。
    • 结果:系统仿佛拥有了每秒几百次的“眼睛”,既看清了细节(靠照片),又跟上了极速(靠事件),完美填补了时间缝隙。

核心创新二:跨模态局部加权融合 (CLWF) —— “聪明的看门人”

  • 比喻:在追踪过程中,有时候照片模糊了(比如车开太快),有时候事件数据稀疏了(比如车停着不动)。
  • 以前的做法:不管三七二十一,把两种数据平均混合,导致模糊的照片把清晰的数据也带偏了。
  • TAPFormer 的做法:它有一个智能的“看门人”
    • 在某个局部区域,如果照片模糊了,看门人就说:“这里别信照片,信事件数据!”
    • 如果事件数据太乱,看门人就说:“这里别信事件,信照片!”
    • 结果:系统能动态地选择最可靠的信息源。就像你在雾天开车,如果看不清路(照片),你就听雷达(事件);如果雷达没信号,你就看路标(照片)。这种自适应的能力,让追踪在极端环境下依然稳如泰山。

3. 他们做了什么额外的工作?

为了训练这个“超级指挥家”,他们发现现有的教材(数据集)不够用。

  • 造了个新“训练场” (FE-FastKub):用电脑模拟了一个超高帧率、充满各种混乱场景(极速、模糊、过曝)的虚拟世界,让 AI 在里面疯狂练习。
  • 建了个新“考场” (InivTAP & DrivTAP):他们真的去户外和车里,用特制的同步设备,录制了真实世界的视频,并人工一点点标注了成千上万个点的轨迹。这是世界上第一个专门用来测试这种“帧 + 事件”追踪能力的真实数据集。

4. 效果如何?

在所有的测试中,TAPFormer 都碾压了现有的方法:

  • 在普通相机追踪失败(模糊、过曝)的地方,它能继续追踪。
  • 在事件相机追踪失败(静止、无纹理)的地方,它能靠照片补位。
  • 它的追踪精度比第二名高出了**28%**以上,而且速度也很快。

总结

TAPFormer 就像给机器人装上了一双既看得清细节、又反应神速、还能在恶劣天气下自动切换模式的“超级眼睛”。

这项技术未来可以用在:

  • 自动驾驶:在暴雨、黑夜或高速公路上,精准追踪周围的车辆和行人。
  • 增强现实 (AR):让虚拟物体牢牢地“粘”在现实世界的物体上,无论你怎么快速移动。
  • 机器人:让机器人在混乱、快速变化的环境中灵活抓取物体。

简单来说,它解决了计算机视觉中“快”与“准”难以兼得的千古难题。