EdgeDAM: Real-time Object Tracking for Mobile Devices

本文提出了 EdgeDAM,一种专为移动设备设计的轻量级检测引导跟踪框架,通过双缓冲干扰感知记忆机制和基于置信度的切换策略,在严格资源约束下实现了兼具高精度抗干扰能力与实时性的单目标跟踪。

Syed Muhammad Raza, Syed Murtaza Hussain Abidi, Khawar Islam, Muhammad Ibrahim, Ajmal Saeed Mian

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 EdgeDAM 的新系统,它的核心任务是:让手机在运行视频追踪功能时,既快得像闪电,又稳得像老狗,即使目标被挡住或周围有很多干扰物,也能牢牢锁定目标。

为了让你更容易理解,我们可以把整个追踪过程想象成在拥挤的集市上寻找一个走散的朋友

1. 之前的困境:要么太慢,要么太笨

在 EdgeDAM 出现之前,手机上的追踪技术面临两个极端:

  • 重型追踪器(像 SAM2 等): 它们像是一个拿着放大镜和记事本的侦探。为了找到朋友,它会仔细分析每一帧画面,甚至画出朋友衣服的轮廓(分割掩码),并记住朋友长什么样。
    • 缺点: 这个侦探太累了!他在手机上跑起来慢吞吞的(每秒只能看几帧),手机发烫,电池掉得快。而且,如果朋友被人群挡住,他可能会因为记性太好反而被误导。
  • 轻量级追踪器(像 EdgeTAM 等): 它们像是一个只靠直觉的快手。它们不看细节,只大概猜朋友在哪,速度极快。
    • 缺点: 一旦朋友被挡住,或者旁边有个穿同样衣服的人(干扰物),这个快手就会“迷路”,跟错人,再也找不回原来的朋友。

EdgeDAM 的目标就是: 既不要那个累赘的侦探,也不要那个容易迷路的快手,而是造出一个既聪明又轻快的“智能向导”

2. EdgeDAM 的两大绝招

EdgeDAM 的核心创新在于它设计了一个**“双缓冲区记忆系统”(DAM),我们可以把它想象成向导脑子里的两个小笔记本**:

绝招一:双笔记本记忆法 (Dual-Buffer Memory)

  • 笔记本 A:最近记忆本 (RAM - Recent-Aware Memory)
    • 作用: 记录朋友刚刚的样子和位置。
    • 比喻: 就像你刚和朋友分开时,脑子里还清晰地记得他刚才穿什么、往哪走了。这个本子只记“新鲜事”,而且有一个几何过滤器:如果某个位置看起来不像朋友(比如框的大小突然变了,或者位置跳得太远),就直接划掉,不记进去。这防止了把路人误记成朋友。
  • 笔记本 B:救急记忆本 (DRM - Distractor-Resolving Memory)
    • 作用: 记录朋友最稳定、最可靠的特征,用来在彻底跟丢时“救急”。
    • 比喻: 当朋友被人群完全挡住(比如被一堵墙挡住),你记不住他刚才在哪了。这时候,你翻开这个“救急本”,上面记着朋友最独特的特征(比如他独特的发型或衣服颜色)。系统会拿着这个特征去人群里比对,一旦匹配上,就立刻把朋友找回来。
    • 关键点: 这个本子还会标记“黑名单”。如果某个路人长得像朋友但其实是干扰项,系统会把它记在黑名单上,下次再看到类似的人,直接扣分,防止再次跟错。

绝招二:智能切换与“冻结”策略

  • 自信切换 (Confidence-Driven Switching):
    • 向导会时刻检查:“我现在看得清朋友吗?”如果看得清,就用“快手模式”(CSRT 追踪器)跟着跑;如果看不清了(比如被挡住),就立刻切换到“侦探模式”,利用上面的两个笔记本去重新寻找。
  • 冻结与扩张 (Held-Box Stabilization):
    • 比喻: 当朋友被完全挡住,向导不知道他在哪时,它不会盲目乱跑。它会暂时“冻结”在最后一个已知位置,并且把搜索范围稍微扩大一点(就像把网撒大一点)。
    • 这样做是为了防止在混乱中误抓了旁边的路人。它就像在说:“先别动,保持在这个区域搜索,直到我确认找到了真正的朋友。”

3. 它是怎么工作的?(简单流程)

  1. 开局: 你框选一下手机屏幕上的目标(比如一个人)。
  2. 日常追踪: 系统用轻量级的算法(YOLO 检测器 + CSRT 追踪器)快速跟随。这就像向导在跑,速度很快。
  3. 遇到干扰/遮挡:
    • 如果目标被挡住,或者旁边有人干扰,向导发现“不对劲”(置信度下降)。
    • 它立刻启动**“双笔记本”**:
      • 先看“最近记忆本”,确认是不是刚才那个位置。
      • 如果不行,就看“救急记忆本”,拿着朋友的特征去比对周围。
      • 同时,系统会忽略那些长得像但其实是路人的“黑名单”目标。
  4. 找回目标: 一旦匹配成功,系统立刻把目标框回来,继续快速追踪。

4. 为什么它很厉害?(成果)

  • 快: 在 iPhone 15 这种手机上,它能达到 25 帧/秒(每秒处理 25 张图),这意味着你在手机上玩 AR 游戏或看视频时,完全感觉不到卡顿,非常流畅。
  • 准: 在充满干扰和遮挡的测试中,它的准确率达到了 88.2%,比之前那些“笨重”的顶级追踪器还要高。
  • 省: 它不需要复杂的图形处理,不需要巨大的内存,完全可以在普通手机上运行。

总结

EdgeDAM 就像是一个拥有“超级直觉”和“完美记性”的向导。它不再依赖笨重的“全图分析”,而是通过两个精心设计的记忆本(一个记最近,一个记特征)和聪明的策略(该快则快,该停则停),在拥挤、混乱的现实中,依然能死死盯住你要找的目标。

这让手机上的实时追踪技术终于突破了“要么慢、要么不准”的瓶颈,让未来的手机应用(如增强现实、智能监控、辅助驾驶)变得更加流畅和可靠。