Occlusion-Aware SORT: Observing Occlusion for Robust Multi-Object Tracking

本文提出了一种无需训练且即插即用的 Occlusion-Aware SORT (OA-SORT) 框架,通过引入遮挡感知模块、偏移量及偏差感知动量机制有效缓解部分遮挡导致的位置成本混淆问题,从而在多个基准数据集上显著提升了多目标跟踪的精度与鲁棒性。

Chunjiang Li, Jianbo Ma, Li Shen, Yanru Chen, Liangyin Chen

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一种名为 OA-SORT 的新方法,旨在解决视频追踪中一个非常头疼的问题:当物体互相遮挡时,电脑怎么知道谁是谁?

想象一下,你正在看一场激烈的舞蹈比赛(或者足球赛),摄像机里有很多舞者(或球员)在快速移动。

1. 核心问题:被“挡住”的混乱

在视频追踪中,电脑需要给每个舞者贴上“标签”(ID),比如“舞者 A"、“舞者 B"。

  • 平时:电脑很容易认出他们,因为他们的脸和衣服没变。
  • 遮挡时:当舞者 A 走到舞者 B 身后,或者两人挤在一起时,电脑就“瞎”了。它看到的舞者 A 可能只露出半个身子,或者被舞者 B 挡住了。
  • 后果:电脑会糊涂。它可能以为“现在的舞者 A"其实是“昨天的舞者 B",或者把两个不同的人当成同一个人。这就叫**“身份互换”**(ID Switch),就像你在人群中跟丢了朋友,结果把别人的背影当成了他。

2. 解决方案:给电脑装上“透视眼”和“直觉”

作者提出了一套名为 OA-SORT 的“插件”,它不需要重新训练复杂的模型,直接就能装在任何现有的追踪系统上。它主要由三个聪明的“小助手”组成:

🕵️‍♂️ 助手一:OAM(遮挡观察员)

  • 它的工作:专门负责判断“谁挡住了谁”。
  • 比喻:想象你在排队买票。如果你看到前面的人(B)的脚比后面的人(A)的脚更靠近你(在画面下方),你就知道 B 挡在 A 前面。
  • 创新点:普通的电脑只看重叠的面积,容易误判。OAM 引入了一个**“高斯地图”**(Gaussian Map)。
    • 通俗解释:就像给每个舞者画了一个“热度图”。舞者的中心最“热”(最重要),边缘越“冷”(越不重要)。这样,即使舞者的衣服边缘被背景干扰,或者被挡住了一部分,OAM 也能通过“热度”精准算出到底被挡住了多少,而不是被背景噪音骗了。

🧭 助手二:OAO(遮挡感知偏移器)

  • 它的工作:在决定“谁跟谁配对”时,修正电脑的判断。
  • 比喻:假设电脑在猜:“这个新出现的舞者,是刚才那个被挡住的人吗?”
    • 如果没有 OAO,电脑可能会因为位置稍微偏了一点就猜错。
    • 有了 OAO,电脑会想:“哦,OAM 告诉我,这个舞者刚才被挡住了 50%,所以他的位置预测不准是正常的。我要宽容一点,不要因为他位置偏了就换人。”
    • 它就像给电脑加了一个**“缓冲垫”**,在遮挡发生时,降低对位置精度的要求,防止电脑因为一点小误差就乱换人。

🛡️ 助手三:BAM(偏差感知动量)

  • 它的工作:在更新舞者的位置时,防止被“坏数据”带偏。
  • 比喻:想象你在蒙眼走直线(追踪物体)。突然有人推了你一下(遮挡导致检测错误),你差点摔倒。
    • 普通的追踪器会立刻相信那个推你的力,导致你走歪。
    • BAM 会想:“刚才那个推我的力太奇怪了(检测分数低),而且 OAM 告诉我刚才有遮挡。所以我不完全相信那个新数据,我要更多地依赖我刚才走路的惯性(历史轨迹)。”
    • 它就像给追踪器加了一个**“减震器”**,在数据不可靠时,紧紧抓住之前的轨迹,防止系统崩溃。

3. 为什么这很厉害?

  • 即插即用:就像给旧手机装了一个新的“防抖插件”,不需要换手机,也不需要重新学怎么拍照,直接就能提升效果。
  • 通用性强:作者把这套方法装进了四种不同的追踪系统里,结果在跳舞(DanceTrack)、运动(SportsMOT)和街头行人(MOT17)等各种场景下,追踪准确率都提升了。
  • 解决痛点:以前的方法要么靠“长得像不像”(外观特征),但遮挡时脸都看不见了;要么靠“走得快不快”(运动轨迹),但遮挡时位置算不准。OA-SORT 直接观察遮挡本身,利用遮挡的规律来辅助判断,这是以前很少人做的。

总结

这就好比在拥挤的地铁里找人:

  • 以前的方法:死盯着对方的脸(外观),脸被挡住了就找不到了;或者死盯着对方刚才走的方向(轨迹),方向稍微偏一点就跟丢了。
  • OA-SORT 的方法:它知道“被挡住”是常态。它会观察“谁挡在谁前面”(OAM),在判断时多给点宽容度(OAO),并在数据混乱时紧紧抓住之前的记忆(BAM)。

最终,即使是在最混乱、遮挡最严重的场景下,它也能稳稳地记住:“那个穿红衣服的人,虽然刚才被挡住了,但他还是那个穿红衣服的人,没变!”