RT-RMOT: A Dataset and Framework for RGB-Thermal Referring Multi-Object Tracking

本文针对低能见度场景下 referring 多目标跟踪的局限性,提出了首个 RGB-热成像 Referring 多目标跟踪任务 RT-RMOT 及数据集 RefRT,并设计了基于多模态大语言模型的 RTrack 框架,通过引入组序列策略优化、截断优势缩放及结构化奖励等策略,实现了全天候鲁棒的指代多目标跟踪。

Yanqiu Yu, Zhifan Jin, Sijia Chen, Tongfei Chu, En Yu, Liman Liu, Wenbing Tao

发布于 2026-02-26
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一项名为 RT-RMOT 的新技术,简单来说,就是给机器人或自动驾驶汽车装上了一双“全天候火眼金睛”,让它们不仅能听懂人话,还能在黑夜、烟雾等看不清的恶劣环境下,精准地找到并跟踪特定的人或物体。

我们可以把这项技术想象成给一个“超级侦探”配备了一套全新的装备和训练方法

1. 以前的侦探遇到了什么麻烦?(背景与问题)

以前的“追踪侦探”(现有的多目标跟踪技术)主要靠可见光摄像头(就像人眼)工作。

  • 场景:白天阳光充足时,它们很厉害。
  • 麻烦:一旦到了晚上大雾天或者烟雾缭绕的地方,摄像头就“瞎”了,只能看到一团黑或模糊的影子。这时候,如果主人说:“帮我盯着那个穿黑衣服、正在过马路的人”,侦探因为看不清,就完全找不到目标了。

2. 他们做了什么新发明?(核心任务:RT-RMOT)

为了解决这个问题,作者提出了 RT-RMOT 任务。

  • 新装备:他们给侦探配了一副热成像眼镜(红外摄像头)。这副眼镜不看颜色,只看“热量”。不管多黑,只要有人或车,热成像上就会显示出一个明亮的轮廓。
  • 新能力:侦探现在手里有两份情报:
    1. RGB 情报(可见光):能看清细节,比如衣服颜色、是不是在过马路。
    2. 热成像情报(红外):能看清轮廓和位置,哪怕在伸手不见五指的黑夜。
  • 目标:让侦探把这两份情报结合起来,听懂人话(比如“盯着那个在树丛里蹲着的人”),然后不管白天黑夜,都能死死盯住目标。

3. 他们准备了什么训练教材?(数据集 RefRT)

为了训练这个新侦探,作者发现市面上没有现成的教材(数据)。于是,他们自己造了一本超级教材,叫 RefRT

  • 内容:这本教材里有 72 个不同的场景(校园、城市、隧道等),包含了 1250 个目标(人、车等)。
  • 特点:每一帧画面都同时有“可见光照片”和“热成像照片”,并且配上了人类语言描述
    • 比喻:就像给侦探看视频时,旁边还配了一个解说员,解说员会说:“看,左边那个穿红衣服的人在跑步,右边那个穿蓝衣服的人在走路。”
  • 规模:有超过 16 万个这样的“画面 + 热图 + 解说”组合,足够让侦探练成神探。

4. 侦探是怎么训练的?(框架 RTrack 与 强化学习)

有了教材,怎么让侦探变强呢?作者设计了一个叫 RTrack 的训练营,并引入了两个“独门秘籍”:

  • 秘籍一:超级大脑(多模态大语言模型 MLLM)
    侦探不再是用死板的规则去匹配,而是用了一个像“超级大脑”一样的 AI 模型。这个模型能同时理解图像(可见光 + 热成像)和语言,像人一样进行推理。

    • 比喻:以前的侦探是查字典找关键词,现在的侦探是像人一样“思考”:“哦,主人说‘穿黑衣服在树丛里’,热成像显示树丛里有两个热源,可见光显示其中一个穿着深色,那就是它!”
  • 秘籍二:强化学习特训(GSPO + 奖励机制)
    为了让侦探更聪明、更稳定,作者用了一种叫 GSPO 的强化学习算法,就像给侦探做“特训”。

    • 防止“情绪失控”(CAS 策略):在特训中,如果侦探表现太好或太差,奖励分可能会忽高忽低,导致它“发疯”(梯度爆炸)。作者加了一个“稳压器”(Clipped Advantage Scaling),把分数波动限制在合理范围,让训练更平稳。
    • 双重奖励(Structured Output & Detection Reward)
      1. 格式奖励:告诉侦探,回答必须按格式来(比如必须画出框),不能乱写。
      2. 精准奖励:如果侦探不仅找到了人,还画框画得特别准(和真实位置重合度高),就给它发大奖。如果它漏掉了人,或者画歪了,就扣分。

5. 效果怎么样?(实验结果)

经过特训的侦探(RTrack 框架)在 RefRT 数据集上进行了考试。

  • 成绩:它的成绩(HOTA 等指标)比现有的所有方法都要好,大幅领先。
  • 表现:在黑夜、烟雾等以前完全看不见的场景下,它依然能精准地找到并跟踪目标,而且能听懂复杂的指令。

总结

这就好比给自动驾驶汽车或监控机器人装上了热成像夜视仪,并教会了它们像人一样听懂指令、结合视觉和热感进行推理。以前它们在晚上就是“睁眼瞎”,现在变成了24 小时待命的超级神探,无论黑夜还是迷雾,都能精准锁定目标。这项技术未来可以让我们的安防、自动驾驶在恶劣天气下更安全、更可靠。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →