GOT-Edit: Geometry-Aware Generic Object Tracking via Online Model Editing

本文提出了 GOT-Edit,一种通过在线模型编辑将几何感知线索融入通用目标跟踪器的方法,利用预训练的视觉几何基础 Transformer 从 2D 视频中推断 3D 几何信息,在保持语义判别力的同时显著提升了跟踪器在遮挡和杂乱场景下的鲁棒性与精度。

Shih-Fang Chen, Jun-Cheng Chen, I-Hong Jhuo, Yen-Yu Lin

发布于 2026-02-25
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 GOT-EDIT 的新系统,它的核心任务是让计算机在视频中更聪明地“盯住”某个物体。

为了让你轻松理解,我们可以把通用物体追踪(Generic Object Tracking)想象成“玩捉迷藏”

1. 现在的“捉迷藏”玩家有什么弱点?

以前的追踪器(比如现在的很多 AI 模型)就像是一个只盯着平面照片看的人

  • 它的做法:它主要靠“认脸”和“认颜色”。如果它记得目标是个红色的球,它就会在下一帧里找红色的东西。
  • 它的麻烦
    • 被挡住时:如果球被手挡住了一半,它可能就懵了,因为“红色的球”看起来不完整了。
    • 有干扰时:如果背景里正好也有个红色的球,它很容易跟丢,分不清哪个是真正的目标。
    • 视角变化时:如果球转了个面,或者摄像机角度变了,它可能就不认识那个“红色的球”了。
  • 原因:它只看到了2D 的平面图像(就像看一张纸上的画),缺乏对3D 空间(深度、距离、遮挡关系)的理解。

2. 人类是怎么玩的?

人类在玩捉迷藏时,大脑里自带**"3D 地图”“物理常识”**。

  • 即使球被手挡住了一半,我们知道它还在后面,只是被遮住了。
  • 即使背景里有红球,我们知道哪个离我更近,哪个是背景里的假象。
  • 这种能力来自于我们大脑里对几何形状空间关系的直觉。

3. GOT-EDIT 做了什么?(核心创新)

GOT-EDIT 就像给那个只懂看平面的 AI 玩家,强行塞了一本"3D 空间指南”,并且教它如何**“在线修改自己的大脑”**。

它做了三件很酷的事情:

A. 借用“透视眼” (VGGT)

它引入了一个叫做 VGGT 的预训练模型。你可以把它想象成一个**“透视眼镜”**。

  • 虽然输入的视频只是普通的 2D 画面(就像看照片),但戴上这副眼镜后,AI 就能“脑补”出物体的深度、形状和空间位置
  • 它不需要额外的 3D 摄像头或激光雷达,仅凭普通的视频流就能推断出 3D 信息。

B. “在线修脑” (Online Model Editing)

这是最精彩的部分。通常,给 AI 加新功能(比如加 3D 知识)很容易让它把原本擅长的功能(比如认颜色、认物体)给忘了,这叫“灾难性遗忘”。

  • GOT-EDIT 的做法:它不像以前那样把 AI 拆了重装,而是**“在线微调”**。
  • 比喻:想象你的大脑里有一个**“语义库”(专门负责认物体,比如“这是猫”),还有一个“几何库”**(专门负责空间感,比如“猫在桌子后面”)。
    • 以前的方法是把两个库硬拼在一起,结果可能把“猫”的特征搞混了。
    • GOT-EDIT 使用了一种**“零空间约束” (Null-space Constraint)** 技术。这就像是一个**“防干扰过滤器”**。
    • 当它把新的 3D 几何知识注入大脑时,这个过滤器会确保:新的知识只能填补空白,绝对不能覆盖或破坏原本关于“猫”的识别能力。
    • 简单说:“你可以教我怎么看深度,但不能让我忘了怎么认猫。”

C. 动态适应

这个系统是**“在线”**工作的。这意味着它不是在训练好就死板的,而是在追踪过程中,每一帧都在根据刚才看到的画面,实时调整自己的“大脑权重”。如果目标被挡住了,它就多依赖 3D 空间感;如果目标很清晰,它就多依赖 2D 特征。

4. 效果怎么样?

实验证明,GOT-EDIT 在各种困难场景下都表现得非常出色:

  • 被遮挡时:它不容易跟丢,因为它知道物体“应该”在哪里。
  • 背景杂乱时:它能更好地分辨真假目标,因为它懂空间距离。
  • 通用性:它不需要针对特定物体重新训练,什么都能追。

总结

GOT-EDIT 就像是给一个只会看平面画的侦探,配上了一副能看穿空间结构的“透视眼镜”,并教会了它一种**“只增不减”**的学习方法:在增加空间理解能力的同时,完美保留原本识别物体的能力。

这让计算机在视频追踪任务中,第一次真正像人类一样,既懂“是什么”(语义),又懂“在哪里、有多远”(几何),从而在复杂、混乱的现实中也能稳稳地抓住目标。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →