Architecture and evaluation protocol for transformer-based visual object tracking in UAV applications

本文提出了一种结合 Transformer 跟踪器、扩展卡尔曼滤波及光流补偿的模块化异步跟踪架构(MATA),并引入了面向嵌入式系统的评估协议与“归一化失效时间”(NT2F)新指标,在 Nvidia Jetson AGX Orin 平台上验证了其在无人机视觉跟踪任务中的实时性与鲁棒性。

Augustin Borne, Pierre Notin, Christophe Hennequin, Sebastien Changey, Stephane Bazeille, Christophe Cudel, Franz Quint

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章主要讲的是:如何让无人机(UAV)在天上飞的时候,更聪明、更稳定地“盯”住一个目标(比如一辆车或一个人),即使目标被挡住或者无人机自己晃得很厉害,也不会跟丢。

为了让你更容易理解,我们可以把整个系统想象成一个在高速公路上开车的“智能跟车系统”

1. 核心挑战:为什么现在的无人机跟车很难?

想象一下,你坐在一个疯狂摇晃的直升机(无人机)上,手里拿着望远镜(摄像头)去追一辆跑得飞快的跑车(目标物体)。

  • 难点一: 直升机自己也在晃(相机抖动),你很难分清是车在跑,还是直升机在晃。
  • 难点二: 跑车突然钻进了隧道或者被树挡住了(遮挡),你的视线断了。
  • 难点三: 直升机上带的电脑(嵌入式芯片)很小,算力有限,不能像超级计算机那样慢慢算,必须瞬间做出反应。

以前的方法要么算得太慢(像用算盘算微积分),要么太笨(一被挡住就彻底跟丢)。

2. 解决方案:MATA(模块化异步跟踪架构)

作者提出了一套新方案,叫 MATA。我们可以把它想象成一个由三个专家组成的“特种跟车小队”,他们分工合作,各司其职:

  • 专家 A:稳像员(相机运动补偿)
    • 任务: 专门负责消除直升机自己晃动带来的干扰。
    • 比喻: 就像你戴着一副防抖眼镜。当直升机上下颠簸时,这副眼镜能自动把画面“扶正”,让你看到的背景是稳的,这样你才能看清车到底往哪跑了。
  • 专家 B:识别员(Transformer 视觉追踪器)
    • 任务: 用最新的人工智能(Transformer 模型)去“看”车,确认目标在哪。
    • 比喻: 这是一个超级近视眼但记忆力超群的侦探。他看得很准,能认出车,但他思考比较慢(计算量大),而且如果车被树挡住了,他就瞎了,需要时间重新找。
  • 专家 C:预测员(扩展卡尔曼滤波器 EKF)
    • 任务: 这是一个老练的赛车手,他不需要一直盯着车,而是根据车之前的速度和方向,下一辆车会在哪。
    • 比喻: 即使侦探(专家 B)因为车被挡住而暂时“失明”,预测员(专家 C)也能根据惯性说:“车刚才往左跑了,速度很快,虽然我现在看不见,但我敢打赌它还在左边那个位置!”这样,系统就不会因为一瞬间的遮挡而跟丢。

关键点: 这三个专家不需要同时工作。识别员可以慢一点(比如每秒看 10 次),而预测员和稳像员可以快一点(每秒看 30 次)。这种“异步”配合,就像乐队里鼓手打快拍,主唱慢慢唱,但合起来依然和谐,既省资源又高效。

3. 新发明:NT2F(归一化失败时间)

以前评价跟车系统好不好,主要看“平均准确率”。但这有个问题:如果车被挡住 1 秒,系统跟丢了,然后马上又找到了,平均准确率可能还挺高。但这在实战中很危险。

作者发明了一个新指标叫 NT2F

  • 比喻: 以前是看“这一局比赛你赢了几个球”,现在是看**“你能连续坚持多久不失误”**。
  • 含义: 这个指标衡量的是:在目标被完全挡住或者环境很乱的时候,这个系统能“坚持”多久不跟丢? 坚持得越久,分数越高。这就像看一个司机在暴雨夜能连续开多久不出事故,而不是看他一天开了多少公里。

4. 新测试方法:EOP(嵌入式评估协议)

以前的测试方法有个大 bug:它们假设电脑是无限强大的,不管算法多慢,都能瞬间算完。但这在真实的无人机芯片上是不成立的。

作者设计了一个**“模拟真实世界”的测试协议(EOP)**。

  • 比喻: 以前的考试是让你用超级计算机做题,然后告诉你“你考得不错”。
  • 现在的 EOP 考试: 是把你关在一个只有普通笔记本的房间里,还要你一边做题一边处理其他杂事(模拟无人机上的其他任务)。
  • 结果: 这种测试更能反映真实情况。作者发现,用这种新方法测试,他们的"MATA 小队”在真实硬件上的表现,比传统方法更靠谱,尤其是在处理遮挡和快速移动时。

5. 总结与成果

  • 做了什么: 把“防抖眼镜”、“慢速侦探”和“预测车手”组合在一起,让它们异步工作。
  • 效果: 在无人机数据集(UAV123)上,特别是在目标被遮挡剧烈运动的情况下,这套系统能坚持更久不跟丢(NT2F 指标大幅提升)。
  • 意义: 这不仅让无人机跟车更稳,还发明了一套新的“考试规则”,让未来的无人机研发者能更真实地评估自己的算法在真实芯片上的表现,而不是只在实验室里“纸上谈兵”。

一句话总结:
这就好比给无人机装了一个**“防抖 + 预测 + 智能识别”的三合一超级大脑**,并且用一套模拟真实恶劣环境的新考题证明了:即使目标被挡住,它也能靠“猜”坚持很久,直到重新看清目标,非常适合在资源有限的无人机上使用。