FARTrack: Fast Autoregressive Visual Tracking with High Performance

本文提出了 FARTrack,一种通过任务特定自蒸馏和帧间自回归稀疏化技术,在保持高跟踪性能(如在 GOT-10k 上达到 70.6% 的 AO)的同时实现实时高速推理(GPU 上达 343 FPS)的自回归视觉跟踪框架。

Guijie Wang, Tong Lin, Yifan Bai, Anjia Cao, Shiyi Liang, Wangbo Zhao, Xing Wei

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 FARTrack 的新系统,它的目标是解决视频追踪领域的一个大难题:如何在让追踪器跑得飞快(像赛车手)的同时,还能看得很准(像神探)?

通常,现有的追踪器要么“跑得快但看得不准”(容易跟丢),要么“看得准但跑得太慢”(在普通手机或电脑上根本跑不动)。FARTrack 的出现,就是为了打破这个“鱼和熊掌不可兼得”的魔咒。

我们可以用两个生动的比喻来理解它的核心魔法:

1. 核心魔法一:任务特定的“自我师徒”教学 (Task-Specific Self-Distillation)

背景问题:
想象一下,你有一个超级聪明的老教授(大模型),他知识渊博但反应慢吞吞,每次回答问题都要翻遍图书馆。你想让他教一个年轻实习生(小模型)快速工作。
传统的做法是:老教授直接教实习生,但老教授和实习生的“书架”(网络层级)结构不一样。老教授可能把“历史”放在第一层,实习生却把“历史”放在第十层。这种生搬硬套的“跨层教学”,就像让实习生去猜教授的心思,很容易学歪,导致实习生虽然变快了,但脑子变笨了,经常跟丢目标。

FARTrack 的解法:
FARTrack 换了一种聪明的教法:“自我师徒,层层相传”

  • 怎么做: 它不找外部的老教授,而是让模型自己当自己的老师。第 10 层教第 9 层,第 9 层教第 8 层……就像传话游戏,但每一层都只教下一层最核心的“任务线索”(比如目标的运动轨迹)。
  • 比喻: 这就像老教授不直接给实习生一本厚厚的百科全书,而是把书里的精华提炼成一张“寻宝地图”。每一层只把下一层需要的关键信息(比如“目标往左跑了”)传递下去。
  • 结果: 实习生(小模型)虽然变薄了(层数少了),但因为只学了最精华的“轨迹线索”,所以它跑得飞快,而且依然能精准地找到目标,不会因为层数少而变笨。

2. 核心魔法二:帧间“自动精简” (Inter-frame Autoregressive Sparsification)

背景问题:
视频追踪时,系统需要不断查看过去的画面(模板)来确认目标是谁。

  • 传统做法: 就像你手里拿着一叠照片,每看一张新照片,你都要把整叠照片都重新翻一遍,把背景里的树叶、路人全都仔细检查一遍,看看有没有干扰。这非常浪费时间,而且很多背景信息(比如背景里的树)其实对找目标毫无帮助,纯属噪音
  • 痛点: 这种“全量检查”不仅慢,而且如果只盯着当前这一帧,容易因为一时的遮挡或模糊而跟丢。

FARTrack 的解法:
FARTrack 引入了**“自动精简”机制,而且它是“有记忆地精简”**。

  • 怎么做: 它利用注意力机制,像是一个经验丰富的侦探。侦探看了一眼目标,发现“哦,目标在左边,背景里的树是干扰”。于是,它直接把背景里的树叶、路人这些**“无效照片”**从手里扔掉,只留下目标及其周围的关键区域。
  • 关键点(自回归): 最厉害的是,它不是每帧都重新扔。如果上一帧它发现“树”是干扰,它会把这个结论记住,并传给下一帧。就像侦探说:“刚才那棵树是干扰,下一张图里我们也别看了,直接跳过。”
  • 比喻: 这就像你玩“找茬”游戏,以前你是每看一张图都要把整张图扫一遍;现在你学会了“自动过滤”,直接屏蔽掉那些永远不变的背景,只盯着会动的目标看。
  • 结果: 系统处理的数据量大幅减少(去掉了 25% 的无用信息),速度瞬间提升,而且因为利用了多帧的历史记忆,即使目标被遮挡了一下,它也能靠之前的记忆猜出目标在哪,不会跟丢。

总结:FARTrack 有多强?

如果把视频追踪比作赛车比赛

  • 以前的顶尖选手: 要么开法拉利(速度快但容易失控),要么开坦克(稳但慢如蜗牛)。
  • FARTrack: 它是一辆改装过的超级跑车
    • 它通过“自我师徒教学”减掉了车上的多余重量(模型压缩)。
    • 它通过“自动精简”优化了空气动力学,只保留最关键的部件(去除冗余数据)。
    • 战绩: 在著名的 GOT-10k 测试中,它的速度达到了 343 FPS(每秒 343 帧,比眨眼还快),同时在 CPU 上也能跑到 121 FPS。这意味着它不仅能跑在高端显卡上,甚至能在普通的笔记本电脑或手机芯片上流畅运行,而且准确率还比很多慢吞吞的“坦克”更高。

一句话总结:
FARTrack 就像给视频追踪系统装上了“最强大脑”和“超级过滤器”,让它学会了只关注最重要的信息,并记住过去的经验,从而在资源有限的设备上,实现了又快又准的追踪效果。