Each language version is independently generated for its own context, not a direct translation.
这篇论文介绍了一个名为 TABE(全称:Track Anything Behind Everything,意为“追踪万物背后的任何事物”)的新系统。
为了让你轻松理解,我们可以把这项技术想象成一位拥有“透视眼”和“超强记忆力”的魔术师助手。
1. 核心问题:我们看不见的东西还在吗?
想象一下,你正在看一场魔术表演。魔术师把一只红球放在桌上,然后拿一个杯子盖住了它。
- 普通摄像头(现在的 AI):只能看到杯子和桌子。一旦球被盖住,在摄像头的“眼”里,球就消失了。如果杯子移开前球没再出现,摄像头就不知道球还在不在,或者它是不是被变没了。
- 人类的大脑:我们知道球还在杯子里,甚至能猜出球在杯子里的哪个位置,因为我们有“物体恒存”的概念(东西不会因为看不见就消失)。
- TABE 的目标:让 AI 也能像人类一样,即使物体被完全挡住,也能“脑补”出它完整的样子和位置,并一直追踪它。
2. TABE 是怎么做到的?(三步走策略)
TABE 不像以前的 AI 那样需要背诵成千上万种物体的名字(比如“这是杯子”、“那是狗”)才能工作。它只需要你在第一帧画面里点一下你想追踪的东西,它就能搞定。
它的过程就像是在玩一个**“填色游戏” + “时间旅行”**:
第一步:给 AI 一个“起笔” (零样本提示)
你不需要教 AI 认识这个物体。你只需要在视频的第一帧(物体还没被挡住时),用手指点一下,告诉 AI:“看,就是这个东西,我要追踪它。”
- 比喻:就像你给画家一张照片,指着说:“照着这个画,不管它后面变成什么样,都要记得它长什么样。”
第二步:戴上“透视眼镜” (目标区域与遮挡推理)
视频播放时,物体可能会被挡住。TABE 会先做一个“侦探”工作:
- 看深度:它用一种“深度感知”技术(类似 3D 眼镜),判断哪些东西在前面,哪些在后面。
- 画个框:它会根据物体之前的运动轨迹,画出一个“可能存在的框”。即使物体被完全挡住了,这个框也会根据惯性继续延伸。
- 比喻:就像你在玩“躲猫猫”,虽然看不见人,但你知道他大概躲在哪个门后,并且知道门后大概有多大空间。
第三步:用“时间魔法”补全画面 (视频扩散模型微调)
这是最酷的一步。TABE 使用了一种叫**“视频扩散模型”**的 AI 技术(类似现在很火的 Sora 或 Stable Video Diffusion,能生成视频)。
- 普通做法:直接让 AI 猜,结果往往是乱画,或者把背景也画进去了。
- TABE 的做法:它在测试的时候,会花一点点时间“临时特训”一下这个 AI。
- 它把视频里没被挡住的部分给 AI 看,让 AI 专门学习“这个特定物体”长什么样、怎么动。
- 然后,它让 AI 发挥想象力,把被挡住的部分“画”出来(Outpainting),就像把一张被撕掉一角的画,根据剩下的部分把撕掉的部分完美补全。
- 最后,它把补全后的“完整物体”从背景里抠出来,就得到了完美的追踪结果。
- 比喻:就像你让一个画家先观察你几分钟(学习你的特征),然后让你背过身去,他就能在纸上画出你转身后衣服背面的褶皱和形状,而且画得和你本人一模一样。
3. 为什么这很厉害?
- 不需要“死记硬背”:以前的 AI 必须提前学过“猫”、“车”、“杯子”才能追踪。TABE 不需要,你给它看什么,它就能追踪什么,哪怕是它从未见过的奇怪外星生物。
- 能处理“完全消失”:很多 AI 一旦物体被完全挡住就“跟丢了”。TABE 即使物体在屏幕里完全看不见,它也能根据之前的运动规律,算出物体此刻应该在哪里,直到它再次出现。
- 像变魔术一样自然:它生成的补全部分非常连贯,不会突然变样或消失。
4. 总结
TABE 就像是一个拥有“读心术”和“透视眼”的超级跟班。
你只需要在视频开始时指一下:“嘿,盯着那个东西。”
哪怕它被箱子挡住、被人群淹没,甚至完全消失在视野里,TABE 也能在脑海里构建出它完整的 3D 形象,并一直默默记录它的位置,直到它再次出现。
这项技术未来可以让自动驾驶汽车更聪明(知道被大卡车挡住的行人还在哪),让机器人更灵活(知道手里拿的杯子被遮住的部分在哪),甚至让未来的 AR 眼镜能实时显示被遮挡物体的完整信息。