Each language version is independently generated for its own context, not a direct translation.
这篇文章介绍了一种名为 CLIP-GS 的新方法,用来解决 3D 场景重建中的一个常见麻烦:“鬼影”问题。
想象一下,你想用相机给一个漂亮的公园拍一组照片,然后合成一个完美的 3D 模型。但是,拍照的时候,总有一些路人、卖气球的小贩或者飞过的鸟(这些就是“瞬态物体”)闯入画面。
如果你直接用普通的 3D 技术(比如 3DGS)把这些照片拼起来,结果会是什么样呢?那个路人不会只出现在一个位置,而是会像幽灵一样,在 3D 空间里留下半透明的、模糊的残影,到处乱飘。这就叫“鬼影”。
这篇论文提出的方法,就像给 3D 重建过程请了一位**“超级智能保安”**,专门负责把那些不该出现的“路人”清理掉,同时保留公园里的长椅、树木和建筑。
以下是用通俗语言和比喻对核心内容的解释:
1. 以前的方法为什么不够好?
- 靠“动”来识别(运动检测): 以前的方法主要看物体“动不动”。如果物体在照片里位置变了,就认为是路人。
- 比喻: 这就像保安只盯着谁在“走动”。但如果一个路人站在原地不动,而你自己(相机)在走动,保安就会误以为那个静止的路人是“鬼影”,反而把真正的长椅给删掉了。这就是所谓的“视差歧义”(Parallax Ambiguity)。
- 靠“猜”来识别(场景分解): 有些方法试图把场景拆得很细,但这太占内存了,就像为了清理一个房间,把整个房子都拆了重装,效率太低。
2. 新方法(CLIP-GS)是怎么工作的?
这个方法引入了一个“超级大脑”(基于 CLIP 的视觉 - 语言模型),它不仅能“看”,还能“读”和“理解”。
第一步:给每个“像素点”贴标签(语义评分)
3D 场景是由无数个微小的“光点”(高斯球)组成的。
- 以前的做法: 只看这个点出现在多少张照片里。
- 现在的做法: 每渲染出一张图,就立刻问 AI:“这张图里有没有‘人’?有没有‘气球’?”
- 如果 AI 说:“有,这图里有人!”
- 那么,构成这个“人”的那些光点,就会被标记为“可疑分子”。
- 如果 AI 说:“这是‘墙’,这是‘树’。”
- 那么,构成“墙”和“树”的光点,就会被标记为“老实人”。
第二步:累积证据(像法庭审判)
系统不会只看一眼就定罪。它会随着训练过程,不断累积证据:
- 如果一个光点多次出现在被 AI 判定为“有人”的图片里,它的“嫌疑分”就会越来越高。
- 如果一个光点虽然出现次数少,但每次出现都被判定为“墙”,那它就是安全的。
- 关键点: 这解决了“不动的路人”问题。因为不管路人是动是静,AI 都能认出他是“人”,而不是因为他在动才删掉他。
第三步:清理现场(修剪与压制)
- ** opacity regularization(不透明度调节):** 对于嫌疑分高的光点,系统会慢慢让它们变得“透明”,就像把鬼影慢慢擦除。
- 周期性修剪(Pruning): 每隔一段时间,系统会直接把那些“嫌疑分”超过阈值的“坏分子”光点彻底删掉。
3. 效果怎么样?
作者在几个著名的测试场景(比如雕像、安卓机器人、尤达宝宝等)上做了实验:
- 画质更好: 重建出来的 3D 模型更清晰,没有那些讨厌的半透明鬼影。
- 速度快: 它不需要像以前那样把整个场景拆得粉碎,所以内存占用很小,渲染速度依然很快,可以实时显示。
- 聪明: 即使有些墙只出现在很少的照片里(容易被误删),AI 也能认出那是“墙”并保留下来;而即使路人只出现了几次,AI 也能认出那是“人”并删掉。
4. 有什么小缺点?
- 需要“通缉令”: 在开始之前,你需要告诉系统你要删掉什么(比如“人”、“气球”)。虽然通用的“人”字通常够用,但如果场景里有特殊的干扰物,你可能得手动指定。
- 小物体看不清: 如果路人离得太远,在照片里只有几个像素,AI 可能看不清,导致清理不干净。
总结
这就好比你在整理一堆杂乱的照片,以前的方法只能靠“谁在动”来挑出杂物,容易误伤;而这篇论文的方法,是请了一个懂语言的 AI 助手,它能直接看懂照片里“那是个人,那是棵树”,然后精准地把“人”从 3D 模型里剔除,只留下完美的“树”和“建筑”。
这种方法既聪明(利用语义理解),又高效(不增加太多负担),让 3D 重建变得更加干净和真实。
Each language version is independently generated for its own context, not a direct translation.
论文技术总结:语义引导的 3D 高斯泼溅瞬态物体去除
1. 研究背景与问题 (Problem)
3D 高斯泼溅 (3D Gaussian Splatting, 3DGS) 是一种高效的显式 3D 场景表示方法,能够实现实时渲染和快速训练。然而,现有的 3DGS 方法假设场景是静态的。在现实世界的多视图采集(如手持拍摄)中,常包含瞬态物体(如行人、移动的物品)。
- 核心问题:当瞬态物体出现在不同视角中时,会导致重建场景中出现重影 (Ghosting) 伪影,因为优化过程试图将这些不一致的观测融合到静态几何中。
- 现有方法的局限:
- 基于运动/可见性的过滤:利用视差或可见性频率来区分静态与动态物体。但在强视差或物体移动缓慢时,静态几何可能因可见性低而被误删,或者瞬态物体因视差模糊而未被识别。
- 隐式神经辐射场 (NeRF) 方法:如 RobustNeRF 等,虽然有效,但训练时间长、计算资源消耗大,且难以达到 3DGS 的实时渲染性能。
- 场景分解方法:虽然质量高,但内存开销巨大。
2. 方法论 (Methodology)
本文提出了一种语义引导的 3DGS 框架 (CLIP-GS),利用视觉 - 语言模型(CLIP)在训练过程中对高斯球进行语义分类,从而去除瞬态物体,同时保留静态几何。
2.1 核心流程
CLIP 语义评分:
- 在训练迭代中,从当前相机姿态渲染图像。
- 将渲染图像输入 CLIP 视觉编码器提取特征。
- 定义两类文本提示(Prompts):
- 干扰项 (Distractors, D):描述瞬态物体(如“人”、“行人”、“手”、“气球”)。
- 静态项 (Static, S):描述永久物体(如“建筑”、“墙”、“家具”)。
- 计算渲染图像与干扰项提示的余弦相似度,得到干扰项得分 (sd)。
高斯级语义累积 (Per-Gaussian Accumulation):
- 不仅关注图像级得分,还将语义证据累积到每个 3D 高斯球上。
- 维护两个指标:累积得分 s~j 和可见视图计数 nj。
- 仅当视图的干扰项得分超过阈值(0.5)且该高斯球在该视图中可见时,才更新其累积得分。
- 最终归一化得分 sj=s~j/nj,反映该高斯球属于瞬态类别的平均一致性,而非单纯的可见频率。
类别感知剪枝 (Category-Aware Pruning):
通过两种互补机制抑制瞬态物体:
- 不透明度正则化 (Opacity Regularization):在损失函数中加入语义正则化项 LCLIP=∑sjαj。高语义得分(即可能是瞬态物体)的高斯球,其不透明度 α 会受到惩罚并逐渐降低。
- 周期性剪枝 (Periodic Pruning):在训练间隔定期移除满足以下条件的高斯球:
- 语义得分超过阈值 τ(判定为瞬态)。
- 或者几何不稳定(视图计数少且不透明度低)。
动态高斯数量处理:
- 当 3DGS 进行分裂(Splitting)或克隆(Cloning)产生新高斯球时,初始化其语义统计为零。
- 当高斯球被移除时,同步清理对应的统计数组,确保无偏差。
3. 关键贡献 (Key Contributions)
- 解决视差模糊问题:不同于依赖运动模式的方法,该方法利用 CLIP 的语义分类能力,独立于运动模式识别物体类别。即使静态物体(如墙)在少数视角可见,也能被正确识别为“建筑”并保留,而不会被误删。
- 轻量级与实时性:仅在训练阶段使用 CLIP(推理模式,不更新参数),不引入额外的内存开销(仅增加两个标量数组),完美保留了 3DGS 的实时渲染特性。
- 细粒度的语义控制:实现了从图像级到单高斯球级的语义证据累积,能够精准定位并抑制瞬态物体,同时保护静态几何结构。
4. 实验结果 (Results)
实验在 RobustNeRF 基准数据集(包含 Statue, Android, Yoda, Crab(2) 四个序列)上进行,对比了 Vanilla 3DGS 和 Mip-NeRF 360。
- 定量指标:
- PSNR:CLIP-GS 在 4 个序列中的 3 个上取得了最高分。例如,在 "Statue" 序列上比 Vanilla 3DGS 提升了 +1.94 dB,在 "Android" 上比 Mip-NeRF 360 提升了 +0.92 dB。
- SSIM 与 LPIPS:在结构相似性和感知质量上也表现出一致的提升。
- 消融实验:
- 仅使用不透明度正则化提升 +0.5 dB,仅使用周期性剪枝提升 +0.8 dB,两者结合达到最大提升 +1.3 dB。
- 阈值校准至关重要:归一化后的语义得分分布在 [0.01, 0.03] 之间,最佳阈值 τ 为 0.015。过高的阈值导致去除不彻底,过低的阈值导致过度剪枝。
- 定性结果:
- 成功消除了重影伪影,清晰保留了墙壁等静态边界。
- 即使在某些视角仅出现 15% 的静态物体,也能通过语义分类正确保留。
- 局限性:对于极小(<50 像素)或远处的瞬态物体,由于 CLIP 置信度下降,去除效果略有不足。
5. 意义与结论 (Significance & Conclusion)
- 技术意义:该工作证明了将视觉 - 语言模型(VLM)的语义理解能力引入 3D 重建是可行的,且能有效解决传统几何/运动方法无法处理的视差模糊问题。
- 应用价值:提供了一种低内存开销、实时渲染的瞬态物体去除方案,非常适合资源受限的移动设备或实时 AR/VR 应用场景。
- 未来方向:
- 引入Patch 级语义评分以更好地处理小物体。
- 研究可学习的提示生成 (Learned Prompt Generation) 以减少人工指定类别的需求。
- 开发自适应阈值策略以增强对不同采集条件的泛化能力。
总结:CLIP-GS 通过语义引导的剪枝和正则化,在保持 3DGS 高效性的同时,显著提升了含瞬态物体场景的重建质量,是 3D 重建领域向语义感知方向迈进的重要一步。