Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 TABE（全称：Track Anything Behind Everything，意为“追踪万物背后的任何事物”）的新系统。

为了让你轻松理解，我们可以把这项技术想象成一位拥有“透视眼”和“超强记忆力”的魔术师助手。

1. 核心问题：我们看不见的东西还在吗？

想象一下，你正在看一场魔术表演。魔术师把一只红球放在桌上，然后拿一个杯子盖住了它。

普通摄像头（现在的 AI）：只能看到杯子和桌子。一旦球被盖住，在摄像头的“眼”里，球就消失了。如果杯子移开前球没再出现，摄像头就不知道球还在不在，或者它是不是被变没了。
人类的大脑：我们知道球还在杯子里，甚至能猜出球在杯子里的哪个位置，因为我们有“物体恒存”的概念（东西不会因为看不见就消失）。
TABE 的目标：让 AI 也能像人类一样，即使物体被完全挡住，也能“脑补”出它完整的样子和位置，并一直追踪它。

2. TABE 是怎么做到的？（三步走策略）

TABE 不像以前的 AI 那样需要背诵成千上万种物体的名字（比如“这是杯子”、“那是狗”）才能工作。它只需要你在第一帧画面里点一下你想追踪的东西，它就能搞定。

它的过程就像是在玩一个**“填色游戏” + “时间旅行”**：

第一步：给 AI 一个“起笔” (零样本提示)

你不需要教 AI 认识这个物体。你只需要在视频的第一帧（物体还没被挡住时），用手指点一下，告诉 AI：“看，就是这个东西，我要追踪它。”

比喻：就像你给画家一张照片，指着说：“照着这个画，不管它后面变成什么样，都要记得它长什么样。”

第二步：戴上“透视眼镜” (目标区域与遮挡推理)

视频播放时，物体可能会被挡住。TABE 会先做一个“侦探”工作：

看深度：它用一种“深度感知”技术（类似 3D 眼镜），判断哪些东西在前面，哪些在后面。
画个框：它会根据物体之前的运动轨迹，画出一个“可能存在的框”。即使物体被完全挡住了，这个框也会根据惯性继续延伸。

比喻：就像你在玩“躲猫猫”，虽然看不见人，但你知道他大概躲在哪个门后，并且知道门后大概有多大空间。

第三步：用“时间魔法”补全画面 (视频扩散模型微调)

这是最酷的一步。TABE 使用了一种叫**“视频扩散模型”**的 AI 技术（类似现在很火的 Sora 或 Stable Video Diffusion，能生成视频）。

普通做法：直接让 AI 猜，结果往往是乱画，或者把背景也画进去了。
TABE 的做法：它在测试的时候，会花一点点时间“临时特训”一下这个 AI。
- 它把视频里没被挡住的部分给 AI 看，让 AI 专门学习“这个特定物体”长什么样、怎么动。
- 然后，它让 AI 发挥想象力，把被挡住的部分“画”出来（Outpainting），就像把一张被撕掉一角的画，根据剩下的部分把撕掉的部分完美补全。
- 最后，它把补全后的“完整物体”从背景里抠出来，就得到了完美的追踪结果。
比喻：就像你让一个画家先观察你几分钟（学习你的特征），然后让你背过身去，他就能在纸上画出你转身后衣服背面的褶皱和形状，而且画得和你本人一模一样。

3. 为什么这很厉害？

不需要“死记硬背”：以前的 AI 必须提前学过“猫”、“车”、“杯子”才能追踪。TABE 不需要，你给它看什么，它就能追踪什么，哪怕是它从未见过的奇怪外星生物。
能处理“完全消失”：很多 AI 一旦物体被完全挡住就“跟丢了”。TABE 即使物体在屏幕里完全看不见，它也能根据之前的运动规律，算出物体此刻应该在哪里，直到它再次出现。
像变魔术一样自然：它生成的补全部分非常连贯，不会突然变样或消失。

4. 总结

TABE 就像是一个拥有“读心术”和“透视眼”的超级跟班。

你只需要在视频开始时指一下：“嘿，盯着那个东西。”
哪怕它被箱子挡住、被人群淹没，甚至完全消失在视野里，TABE 也能在脑海里构建出它完整的 3D 形象，并一直默默记录它的位置，直到它再次出现。

这项技术未来可以让自动驾驶汽车更聪明（知道被大卡车挡住的行人还在哪），让机器人更灵活（知道手里拿的杯子被遮住的部分在哪），甚至让未来的 AR 眼镜能实时显示被遮挡物体的完整信息。

Each language version is independently generated for its own context, not a direct translation.

论文技术总结：Track Anything Behind Everything (TABE)

—— 零样本全模态视频对象分割

1. 研究背景与问题定义

核心问题：现有的视频对象分割（VOS）方法主要关注模态（Modal）分割，即仅分割可见部分。然而，人类视觉系统具备物体恒存性（Object Permanence），能够推断被遮挡物体的完整形状和位置，这一能力被称为全模态（Amodal）完成。
现有挑战：

数据稀缺：获取被遮挡物体的真实地面真值（Ground Truth）极其困难且昂贵。
定义模糊：被遮挡部分的“真值”往往依赖于上下文推测，存在歧义（例如：杯子遮挡球，球是被完全包含还是仅仅被遮挡？）。
泛化能力差：现有全模态分割方法通常依赖特定类别的训练数据，难以实现**零样本（Zero-Shot）**推理（即无需针对特定物体重新训练）。
严重遮挡处理：在物体完全被遮挡的帧中，现有基于图像的方法往往失效，缺乏利用时序线索的能力。

任务定义 (ZS-AVS)：给定一个视频序列和第一帧中目标对象的查询掩码（Query Mask，假设该帧无遮挡），模型需输出每一帧中目标对象的全模态分割掩码，即使物体在后续帧中完全不可见。

2. 方法论 (TABE Pipeline)

作者提出了一种名为 TABE (Track Anything Behind Everything) 的新颖流程，利用预训练的视频扩散模型进行零样本全模态分割。

2.1 核心思想

将全模态分割问题转化为**生成式外绘（Generative Outpainting）**问题。利用预训练的视频扩散模型，根据可见的模态掩码，生成被遮挡部分的完整物体，并去除背景。

2.2 具体流程

可见掩码提取：
- 输入：视频 + 第一帧的查询点/文本。
- 使用零样本分割模型（如 SAM2）生成第一帧的查询掩码。
- 利用 VOS 模型（SAM2）跟踪该掩码，生成每一帧的可见（模态）掩码。若物体被完全遮挡，掩码为空。
目标区域掩码 (Target Region Masks) 与遮挡推理：
- 为了限制扩散模型的生成空间并防止幻觉（如生成额外的物体），系统为每一帧生成一个目标区域掩码。
- 深度估计：使用单目深度估计模型（Depth Anything v2）估算深度图。
- 候选区域筛选：
  - 比较像素深度与可见区域平均深度：深度值小于平均值的像素可能是被遮挡的物体部分。
  - 时序边界框：利用时序连续性估算物体的近似全模态边界框。对于无可见像素的帧，通过线性插值/外推边界框，并假设面积恒定来扩展。
- 遮挡标注 (Occlusion Labelling)：
  - 基于可见掩码边界处的深度梯度方向判断遮挡。
  - 若边界外深度小于边界内，判定为遮挡边界。
  - 计算遮挡比例 $f_{occ}$ ，用于标记帧是“未遮挡”还是“遮挡”，指导后续训练。
测试时扩散模型微调 (Test-time Diffusion Model Fine-tuning)：
- 基座模型：使用预训练的视频扩散模型 CoCoCo（基于 Stable Diffusion Inpainting 改进，具备时序一致性）。
- 微调策略：借鉴 Realfill 和 Dreambooth 的思路，采用 LoRA (Low-Rank Adaptation) 对模型进行微调，使其专门适应当前视频中的特定物体，而无需重新训练整个模型。
- 训练数据构建：
  - 输入：将可见掩码内的物体保留，其余区域设为白色背景。
  - 随机掩码增强：
    - 在物体内部随机遮挡部分，迫使模型学习补全隐藏部分（增强全模态能力）。
    - 在物体外部随机遮挡，训练模型生成一致的背景（保持白色）。
- 损失函数：仅对标记为未遮挡的帧计算损失，避免从定义模糊的遮挡帧中引入噪声。
- 提示词 (Prompt)：使用固定提示词 "A video of a [V] on a white background"，其中 [V] 是代表该特定物体的稀有 Token。
后处理：
- 扩散模型输出全模态物体视频（白色背景）。
- 再次运行 SAM2（使用原始查询掩码）对输出视频进行分割，提取最终的全模态掩码，去除可能生成的伪影。

3. 主要贡献

TABE 流水线：首个结合视频扩散模型、目标区域掩码和遮挡推理技术的零样本全模态视频分割框架。
无需重训的泛化能力：利用预训练扩散模型，通过测试时微调（Test-time Fine-tuning）适应新物体，无需针对特定类别收集大量训练数据。
解决严重遮挡：通过时序边界框外推和深度线索，有效处理物体完全被遮挡的帧，这是现有基于图像的方法难以做到的。
开源：模型和代码将全部公开。

4. 实验结果

数据集：在 TAO-Amodal 数据集的自定义子集（100 个片段，首帧物体完全可见）上进行评估。
对比基线：
- pix2gestalt：单图扩散模型方法。
- TCOW：现有的零样本全模态跟踪模型。
- SDAmodal：依赖视觉掩码和边界框输入的方法。
- Amodal Expander：在特定类别上训练的方法。
- SAM2：仅提供模态（可见）分割的 SOTA 模型。
性能表现：
- TABE 在 AP@25 (0.659), AP@50 (0.518), AP@75 (0.352) 上均显著优于所有基线方法。
- 值得注意的是，TABE 的表现甚至超过了在相同类别上训练的 Amodal Expander，证明了其强大的泛化能力。
- 即使 SAM2（仅提供可见部分）在某些指标上优于 TCOW，TABE 通过补全遮挡部分，在严格的全模态评估中取得了最高分。

5. 意义与展望

认知对齐：TABE 使机器视觉更接近人类认知，能够理解“物体恒存性”，在物体不可见时仍能维持其位置和形状的连续性。
应用价值：对于自动驾驶（预测被遮挡车辆）、机器人操作（抓取被遮挡物体）以及视频编辑（对象移除/替换）等场景至关重要。
范式转变：展示了利用生成式扩散模型（Generative Diffusion Models）解决传统判别式任务（如分割）的潜力，特别是在缺乏高质量标注数据的领域。
未来方向：该框架鼓励社区进一步探索利用生成式先验进行零样本推理，并推动更复杂的全模态理解研究。

总结：TABE 通过巧妙结合视频扩散模型的生成能力、测试时微调策略以及基于深度和时序的遮挡推理，成功实现了无需特定训练数据的零样本全模态视频分割，显著提升了机器在复杂遮挡场景下的感知能力。

Track Anything Behind Everything: Zero-Shot Amodal Video Object Segmentation