Semantic-Guided 3D Gaussian Splatting for Transient Object Removal

该论文提出了一种基于语义引导的 3D 高斯泼溅方法,通过利用视觉语言模型进行类别感知过滤来消除瞬态物体伪影,在显著降低内存开销的同时有效解决了运动启发式方法中的视差歧义问题,并提升了重建质量。

Aditi Prabakaran, Priyesh Shukla

发布于 2026-02-18
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一种名为 CLIP-GS 的新方法,用来解决 3D 场景重建中的一个常见麻烦:“鬼影”问题

想象一下,你想用相机给一个漂亮的公园拍一组照片,然后合成一个完美的 3D 模型。但是,拍照的时候,总有一些路人、卖气球的小贩或者飞过的鸟(这些就是“瞬态物体”)闯入画面。

如果你直接用普通的 3D 技术(比如 3DGS)把这些照片拼起来,结果会是什么样呢?那个路人不会只出现在一个位置,而是会像幽灵一样,在 3D 空间里留下半透明的、模糊的残影,到处乱飘。这就叫“鬼影”。

这篇论文提出的方法,就像给 3D 重建过程请了一位**“超级智能保安”**,专门负责把那些不该出现的“路人”清理掉,同时保留公园里的长椅、树木和建筑。

以下是用通俗语言和比喻对核心内容的解释:

1. 以前的方法为什么不够好?

  • 靠“动”来识别(运动检测): 以前的方法主要看物体“动不动”。如果物体在照片里位置变了,就认为是路人。
    • 比喻: 这就像保安只盯着谁在“走动”。但如果一个路人站在原地不动,而你自己(相机)在走动,保安就会误以为那个静止的路人是“鬼影”,反而把真正的长椅给删掉了。这就是所谓的“视差歧义”(Parallax Ambiguity)。
  • 靠“猜”来识别(场景分解): 有些方法试图把场景拆得很细,但这太占内存了,就像为了清理一个房间,把整个房子都拆了重装,效率太低。

2. 新方法(CLIP-GS)是怎么工作的?

这个方法引入了一个“超级大脑”(基于 CLIP 的视觉 - 语言模型),它不仅能“看”,还能“读”和“理解”。

第一步:给每个“像素点”贴标签(语义评分)

3D 场景是由无数个微小的“光点”(高斯球)组成的。

  • 以前的做法: 只看这个点出现在多少张照片里。
  • 现在的做法: 每渲染出一张图,就立刻问 AI:“这张图里有没有‘人’?有没有‘气球’?”
    • 如果 AI 说:“有,这图里有人!”
    • 那么,构成这个“人”的那些光点,就会被标记为“可疑分子”。
    • 如果 AI 说:“这是‘墙’,这是‘树’。”
    • 那么,构成“墙”和“树”的光点,就会被标记为“老实人”。

第二步:累积证据(像法庭审判)

系统不会只看一眼就定罪。它会随着训练过程,不断累积证据:

  • 如果一个光点多次出现在被 AI 判定为“有人”的图片里,它的“嫌疑分”就会越来越高。
  • 如果一个光点虽然出现次数少,但每次出现都被判定为“墙”,那它就是安全的。
  • 关键点: 这解决了“不动的路人”问题。因为不管路人是动是静,AI 都能认出他是“人”,而不是因为他在动才删掉他。

第三步:清理现场(修剪与压制)

  • ** opacity regularization(不透明度调节):** 对于嫌疑分高的光点,系统会慢慢让它们变得“透明”,就像把鬼影慢慢擦除。
  • 周期性修剪(Pruning): 每隔一段时间,系统会直接把那些“嫌疑分”超过阈值的“坏分子”光点彻底删掉。

3. 效果怎么样?

作者在几个著名的测试场景(比如雕像、安卓机器人、尤达宝宝等)上做了实验:

  • 画质更好: 重建出来的 3D 模型更清晰,没有那些讨厌的半透明鬼影。
  • 速度快: 它不需要像以前那样把整个场景拆得粉碎,所以内存占用很小,渲染速度依然很快,可以实时显示。
  • 聪明: 即使有些墙只出现在很少的照片里(容易被误删),AI 也能认出那是“墙”并保留下来;而即使路人只出现了几次,AI 也能认出那是“人”并删掉。

4. 有什么小缺点?

  • 需要“通缉令”: 在开始之前,你需要告诉系统你要删掉什么(比如“人”、“气球”)。虽然通用的“人”字通常够用,但如果场景里有特殊的干扰物,你可能得手动指定。
  • 小物体看不清: 如果路人离得太远,在照片里只有几个像素,AI 可能看不清,导致清理不干净。

总结

这就好比你在整理一堆杂乱的照片,以前的方法只能靠“谁在动”来挑出杂物,容易误伤;而这篇论文的方法,是请了一个懂语言的 AI 助手,它能直接看懂照片里“那是个人,那是棵树”,然后精准地把“人”从 3D 模型里剔除,只留下完美的“树”和“建筑”。

这种方法既聪明(利用语义理解),又高效(不增加太多负担),让 3D 重建变得更加干净和真实。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →