Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一种名为 CLIP-GS 的新方法，用来解决 3D 场景重建中的一个常见麻烦：“鬼影”问题。

想象一下，你想用相机给一个漂亮的公园拍一组照片，然后合成一个完美的 3D 模型。但是，拍照的时候，总有一些路人、卖气球的小贩或者飞过的鸟（这些就是“瞬态物体”）闯入画面。

如果你直接用普通的 3D 技术（比如 3DGS）把这些照片拼起来，结果会是什么样呢？那个路人不会只出现在一个位置，而是会像幽灵一样，在 3D 空间里留下半透明的、模糊的残影，到处乱飘。这就叫“鬼影”。

这篇论文提出的方法，就像给 3D 重建过程请了一位**“超级智能保安”**，专门负责把那些不该出现的“路人”清理掉，同时保留公园里的长椅、树木和建筑。

以下是用通俗语言和比喻对核心内容的解释：

1. 以前的方法为什么不够好？

靠“动”来识别（运动检测）： 以前的方法主要看物体“动不动”。如果物体在照片里位置变了，就认为是路人。
- 比喻： 这就像保安只盯着谁在“走动”。但如果一个路人站在原地不动，而你自己（相机）在走动，保安就会误以为那个静止的路人是“鬼影”，反而把真正的长椅给删掉了。这就是所谓的“视差歧义”（Parallax Ambiguity）。
靠“猜”来识别（场景分解）： 有些方法试图把场景拆得很细，但这太占内存了，就像为了清理一个房间，把整个房子都拆了重装，效率太低。

2. 新方法（CLIP-GS）是怎么工作的？

这个方法引入了一个“超级大脑”（基于 CLIP 的视觉 - 语言模型），它不仅能“看”，还能“读”和“理解”。

第一步：给每个“像素点”贴标签（语义评分）

3D 场景是由无数个微小的“光点”（高斯球）组成的。

以前的做法： 只看这个点出现在多少张照片里。
现在的做法： 每渲染出一张图，就立刻问 AI：“这张图里有没有‘人’？有没有‘气球’？”
- 如果 AI 说：“有，这图里有人！”
- 那么，构成这个“人”的那些光点，就会被标记为“可疑分子”。
- 如果 AI 说：“这是‘墙’，这是‘树’。”
- 那么，构成“墙”和“树”的光点，就会被标记为“老实人”。

第二步：累积证据（像法庭审判）

系统不会只看一眼就定罪。它会随着训练过程，不断累积证据：

如果一个光点多次出现在被 AI 判定为“有人”的图片里，它的“嫌疑分”就会越来越高。
如果一个光点虽然出现次数少，但每次出现都被判定为“墙”，那它就是安全的。
关键点： 这解决了“不动的路人”问题。因为不管路人是动是静，AI 都能认出他是“人”，而不是因为他在动才删掉他。

第三步：清理现场（修剪与压制）

** opacity regularization（不透明度调节）：** 对于嫌疑分高的光点，系统会慢慢让它们变得“透明”，就像把鬼影慢慢擦除。
周期性修剪（Pruning）： 每隔一段时间，系统会直接把那些“嫌疑分”超过阈值的“坏分子”光点彻底删掉。

3. 效果怎么样？

作者在几个著名的测试场景（比如雕像、安卓机器人、尤达宝宝等）上做了实验：

画质更好： 重建出来的 3D 模型更清晰，没有那些讨厌的半透明鬼影。
速度快： 它不需要像以前那样把整个场景拆得粉碎，所以内存占用很小，渲染速度依然很快，可以实时显示。
聪明： 即使有些墙只出现在很少的照片里（容易被误删），AI 也能认出那是“墙”并保留下来；而即使路人只出现了几次，AI 也能认出那是“人”并删掉。

4. 有什么小缺点？

需要“通缉令”： 在开始之前，你需要告诉系统你要删掉什么（比如“人”、“气球”）。虽然通用的“人”字通常够用，但如果场景里有特殊的干扰物，你可能得手动指定。
小物体看不清： 如果路人离得太远，在照片里只有几个像素，AI 可能看不清，导致清理不干净。

总结

这就好比你在整理一堆杂乱的照片，以前的方法只能靠“谁在动”来挑出杂物，容易误伤；而这篇论文的方法，是请了一个懂语言的 AI 助手，它能直接看懂照片里“那是个人，那是棵树”，然后精准地把“人”从 3D 模型里剔除，只留下完美的“树”和“建筑”。

这种方法既聪明（利用语义理解），又高效（不增加太多负担），让 3D 重建变得更加干净和真实。

Each language version is independently generated for its own context, not a direct translation.

论文技术总结：语义引导的 3D 高斯泼溅瞬态物体去除

1. 研究背景与问题 (Problem)

3D 高斯泼溅 (3D Gaussian Splatting, 3DGS) 是一种高效的显式 3D 场景表示方法，能够实现实时渲染和快速训练。然而，现有的 3DGS 方法假设场景是静态的。在现实世界的多视图采集（如手持拍摄）中，常包含瞬态物体（如行人、移动的物品）。

核心问题：当瞬态物体出现在不同视角中时，会导致重建场景中出现重影 (Ghosting) 伪影，因为优化过程试图将这些不一致的观测融合到静态几何中。
现有方法的局限：
- 基于运动/可见性的过滤：利用视差或可见性频率来区分静态与动态物体。但在强视差或物体移动缓慢时，静态几何可能因可见性低而被误删，或者瞬态物体因视差模糊而未被识别。
- 隐式神经辐射场 (NeRF) 方法：如 RobustNeRF 等，虽然有效，但训练时间长、计算资源消耗大，且难以达到 3DGS 的实时渲染性能。
- 场景分解方法：虽然质量高，但内存开销巨大。

2. 方法论 (Methodology)

本文提出了一种语义引导的 3DGS 框架 (CLIP-GS)，利用视觉 - 语言模型（CLIP）在训练过程中对高斯球进行语义分类，从而去除瞬态物体，同时保留静态几何。

2.1 核心流程

CLIP 语义评分：
- 在训练迭代中，从当前相机姿态渲染图像。
- 将渲染图像输入 CLIP 视觉编码器提取特征。
- 定义两类文本提示（Prompts）：
  - 干扰项 (Distractors, $D$ )：描述瞬态物体（如“人”、“行人”、“手”、“气球”）。
  - 静态项 (Static, $S$ )：描述永久物体（如“建筑”、“墙”、“家具”）。
- 计算渲染图像与干扰项提示的余弦相似度，得到干扰项得分 ( $s_d$ )。
高斯级语义累积 (Per-Gaussian Accumulation)：
- 不仅关注图像级得分，还将语义证据累积到每个 3D 高斯球上。
- 维护两个指标：累积得分 $\tilde{s}_j$ 和可见视图计数 $n_j$ 。
- 仅当视图的干扰项得分超过阈值（0.5）且该高斯球在该视图中可见时，才更新其累积得分。
- 最终归一化得分 $s_j = \tilde{s}_j / n_j$ ，反映该高斯球属于瞬态类别的平均一致性，而非单纯的可见频率。
类别感知剪枝 (Category-Aware Pruning)：
通过两种互补机制抑制瞬态物体：
- 不透明度正则化 (Opacity Regularization)：在损失函数中加入语义正则化项 $L_{CLIP} = \sum s_j \alpha_j$ 。高语义得分（即可能是瞬态物体）的高斯球，其不透明度 $\alpha$ 会受到惩罚并逐渐降低。
- 周期性剪枝 (Periodic Pruning)：在训练间隔定期移除满足以下条件的高斯球：
  - 语义得分超过阈值 $\tau$ （判定为瞬态）。
  - 或者几何不稳定（视图计数少且不透明度低）。
动态高斯数量处理：
- 当 3DGS 进行分裂（Splitting）或克隆（Cloning）产生新高斯球时，初始化其语义统计为零。
- 当高斯球被移除时，同步清理对应的统计数组，确保无偏差。

3. 关键贡献 (Key Contributions)

解决视差模糊问题：不同于依赖运动模式的方法，该方法利用 CLIP 的语义分类能力，独立于运动模式识别物体类别。即使静态物体（如墙）在少数视角可见，也能被正确识别为“建筑”并保留，而不会被误删。
轻量级与实时性：仅在训练阶段使用 CLIP（推理模式，不更新参数），不引入额外的内存开销（仅增加两个标量数组），完美保留了 3DGS 的实时渲染特性。
细粒度的语义控制：实现了从图像级到单高斯球级的语义证据累积，能够精准定位并抑制瞬态物体，同时保护静态几何结构。

4. 实验结果 (Results)

实验在 RobustNeRF 基准数据集（包含 Statue, Android, Yoda, Crab(2) 四个序列）上进行，对比了 Vanilla 3DGS 和 Mip-NeRF 360。

定量指标：
- PSNR：CLIP-GS 在 4 个序列中的 3 个上取得了最高分。例如，在 "Statue" 序列上比 Vanilla 3DGS 提升了 +1.94 dB，在 "Android" 上比 Mip-NeRF 360 提升了 +0.92 dB。
- SSIM 与 LPIPS：在结构相似性和感知质量上也表现出一致的提升。
消融实验：
- 仅使用不透明度正则化提升 +0.5 dB，仅使用周期性剪枝提升 +0.8 dB，两者结合达到最大提升 +1.3 dB。
- 阈值校准至关重要：归一化后的语义得分分布在 [0.01, 0.03] 之间，最佳阈值 $\tau$ 为 0.015。过高的阈值导致去除不彻底，过低的阈值导致过度剪枝。
定性结果：
- 成功消除了重影伪影，清晰保留了墙壁等静态边界。
- 即使在某些视角仅出现 15% 的静态物体，也能通过语义分类正确保留。
- 局限性：对于极小（<50 像素）或远处的瞬态物体，由于 CLIP 置信度下降，去除效果略有不足。

5. 意义与结论 (Significance & Conclusion)

技术意义：该工作证明了将视觉 - 语言模型（VLM）的语义理解能力引入 3D 重建是可行的，且能有效解决传统几何/运动方法无法处理的视差模糊问题。
应用价值：提供了一种低内存开销、实时渲染的瞬态物体去除方案，非常适合资源受限的移动设备或实时 AR/VR 应用场景。
未来方向：
- 引入Patch 级语义评分以更好地处理小物体。
- 研究可学习的提示生成 (Learned Prompt Generation) 以减少人工指定类别的需求。
- 开发自适应阈值策略以增强对不同采集条件的泛化能力。

总结：CLIP-GS 通过语义引导的剪枝和正则化，在保持 3DGS 高效性的同时，显著提升了含瞬态物体场景的重建质量，是 3D 重建领域向语义感知方向迈进的重要一步。

Semantic-Guided 3D Gaussian Splatting for Transient Object Removal