ORMOT: A Dataset and Framework for Omnidirectional Referring Multi-Object Tracking

本文提出了面向全景图像的“全景指代多目标跟踪(ORMOT)”新任务,构建了包含丰富视觉、时序及语言信息的 ORSet 数据集,并设计了基于大视觉语言模型的 ORTrack 框架,以解决传统多目标跟踪在视场受限和长程语言理解方面的挑战。

Sijia Chen, Zihan Zhou, Yanqiu Yu, En Yu, Wenbing Tao

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 ORMOT 的新任务,以及为了完成这个任务而打造的一套“新装备”:ORSet 数据集ORTrack 框架

为了让你轻松理解,我们可以把整个研究想象成从“普通监控”升级到“全景智能管家”的过程

1. 以前的痛点:戴着“眼罩”的追踪者

想象一下,以前的多目标追踪系统(RMOT)就像一个戴着窄窄眼罩的保安

  • 场景:他在走廊里盯着几个人。
  • 问题:如果一个人走到走廊尽头,或者从侧面绕到了保安看不见的地方,保安就“跟丢”了。
  • 语言指令的尴尬:如果你给保安下指令说:“去追踪那个先推开门,然后上楼梯的人。”
    • 因为眼罩太窄,保安只看到了“上楼梯”的人,没看到“推门”的动作。
    • 结果:保安可能把所有上楼梯的人都当成目标,完全搞错了。

2. 新的解决方案:360 度全景“上帝视角”

为了解决这个问题,作者提出了 ORMOT(全方位指代多目标追踪)。

  • 新装备:把保安的“窄眼罩”换成了360 度全景鱼眼镜头
  • 优势
    1. 视野无死角:就像你站在房间中央转了一圈,无论人走到哪里(左边、右边、甚至绕到身后),都在你的视野里,不会跟丢。
    2. 听懂长指令:因为能看到全过程,保安现在能完美理解“先推门,再上楼梯”这种复杂的长指令,精准锁定目标。

3. 核心贡献一:ORSet 数据集(给 AI 的“全景教材”)

为了让 AI 学会这种新技能,作者造了一本超级教材,叫 ORSet

  • 内容:这本教材里有 27 个不同的全景场景(像咖啡馆、街道等),记录了 3400 多个人的轨迹。
  • 特色:它不仅仅是视频,还配有848 条人类语言描述
    • 普通描述:“穿黑衣服的人”。
    • 全景特供描述(这是最酷的地方):
      • “那个从左边边缘消失,又从右边边缘出现的人”(因为全景图是卷起来的,人绕一圈会这样)。
      • “沿着时钟 3 点钟方向走的人”(用钟表方位代替左右,因为全景图里没有绝对的左右)。
      • “那个走出房间的人”(强调物理空间的离开,而不仅仅是走出画面)。
  • 比喻:这就像给 AI 提供了一本《全景世界生存指南》,专门教它如何理解 360 度环境里的复杂指令。

4. 核心贡献二:ORTrack 框架(给 AI 的“超级大脑”)

有了教材,还得有个聪明的学生来学。作者设计了一个叫 ORTrack 的系统,它的核心是一个大语言视觉模型(LVLM)

  • 怎么工作?
    1. 听懂人话:它不像以前的系统只能识别“人、车、狗”这种固定类别。你让它找“那个背着书包、心情很好、正在等朋友的人”,它就能听懂并找到。
    2. 双重扫描
      • 广角扫描:先看一眼周围的大环境(比如他在哪条路上)。
      • 特写扫描:再凑近看细节(比如他穿什么颜色的鞋)。
      • 把这两者结合起来,就能在扭曲的全景图中精准锁定目标。
    3. 跨帧连线:就像玩“连连看”,它把不同时间点的同一个人连起来,确保不会把张三认成李四。

5. 实验结果:真的好用吗?

作者让 ORTrack 在 ORSet 数据集上进行了“考试”(零样本测试,即没专门针对这个数据集训练过)。

  • 成绩:它打败了所有现有的旧方法。
  • 表现
    • 即使画面因为鱼眼镜头变得扭曲(路看起来是弯的),它也能认出那是直路。
    • 即使指令很抽象(比如“那个看起来很高兴的人”),它也能通过表情和动作猜对。
    • 它能完美处理“从左边消失从右边出现”这种全景特有的情况。

总结

这篇论文就像是在说:

“以前的追踪系统像近视眼戴着眼罩,只能看眼前一点点,听不懂复杂的长指令。
我们给它们换上了360 度全景眼镜,并编写了一本专门教它们理解全景世界的教材(ORSet),还配了一个超级聪明的 AI 大脑(ORTrack)。
现在,这个系统不仅能看清全场,还能听懂‘那个先推门再上楼的人’这种复杂指令,彻底解决了跟丢和认错的问题。”

这项技术未来可以用在全景监控、自动驾驶(360 度感知)、机器人导航等领域,让机器真正拥有像人类一样“环顾四周”并理解复杂指令的能力。