Distractor-free Generalizable 3D Gaussian Splatting

本文提出了 DGGS 框架,通过引入场景无关的参考掩码预测与优化模块以及两阶段推理机制,有效解决了跨场景泛化 3D 高斯泼溅中干扰数据导致的训练不稳定和重建伪影问题,实现了在未见场景中的鲁棒前馈推理与高质量重建。

Yanqi Bao, Jing Liao, Jing Huo, Yang Gao

发布于 2026-02-27
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 DGGS 的新系统,它的核心任务是:在重建 3D 场景时,自动把画面里“捣乱”的过客(比如路人、车辆、气球)给“过滤”掉,只留下干净、稳定的背景。

为了让你更容易理解,我们可以把这项技术想象成**“在嘈杂的菜市场里,用相机拍一张完美的风景照”**。

1. 核心痛点:为什么以前的方法不行?

想象一下,你想用几张照片重建一个公园的 3D 模型。

  • 以前的方法(通用 3D 重建): 就像是一个**“照单全收”的摄影师**。他拿着相机拍了几张照片,不管照片里有没有路人甲、有没有飘过的热气球,他都把这些东西也当成公园的一部分,试图把它们也建进 3D 模型里。
    • 结果: 建出来的 3D 模型里,公园长椅上可能坐着一个半透明的幽灵路人,或者天空中飘着几个奇怪的彩色光斑(这就是论文里说的“伪影”和“噪点”)。而且,因为照片里的人一直在动,模型怎么算都算不准,导致重建过程很不稳定。
  • 以前的“去噪”方法(特定场景去噪): 就像是一个**“死记硬背”的修图师**。他必须在这个公园待很久,反复观察,才能知道哪个人是路人,哪棵树是背景。
    • 缺点: 这种方法太慢了,而且一旦换个地方(比如去海边),他就不会用了,因为每个场景都要重新“死记硬背”。

2. DGGS 的解决方案:聪明的“三眼”侦探

DGGS 就像是一个拥有“透视眼”和“超级记忆力”的侦探,它不需要在某个地方待很久,只要看一眼几张照片,就能瞬间判断出谁是“捣乱分子”(Distractor),谁是“正经背景”。

它的工作流程分为两个阶段:

第一阶段:训练时——“找茬”与“纠错”

  • 传统做法: 看到照片里有东西不一样,就以为那是背景的一部分,拼命去拟合它,结果越拟合越乱。
  • DGGS 的做法(参考系过滤):
    • 比喻: 想象你有 4 张从不同角度拍的公园照片。DGGS 会想:“如果那个‘路人’是公园的一部分,那他在 4 张照片里的位置应该是对得上的(就像长椅一样)。如果他在照片 A 里在左边,照片 B 里突然跑到右边,或者形状变了,那肯定是个捣乱的过客!”
    • 操作: 它利用这种**“多视角一致性”**,自动给照片里的“捣乱分子”打上马赛克(Mask)。在训练模型时,它直接忽略这些被打码的区域,只学习那些稳定的背景。这样,模型就学不会那些乱七八糟的“幽灵路人”了。
    • 亮点: 它甚至能利用“重绘”技术,把背景重新画一遍,如果画出来的背景和原图对不上,那就说明原图里有捣乱的,从而修正判断。

第二阶段:推理时(实际应用)——“优中选优”与“大扫除”

当你拿着新照片去重建一个从未见过的场景时:

  • 步骤一:参考评分(Reference Scoring)
    • 比喻: 假设你有一堆照片可选,有的照片里路人很多,有的很少。DGGS 会先快速扫描所有照片,给它们打分。
    • 操作: 它会自动挑选那些**“路人最少、角度最好”**的照片作为主要素材,把那些“路人太多”的照片先放一边。这就像在选素材时,直接挑最干净的那几张用。
  • 步骤二:剪枝(Distractor Pruning)
    • 比喻: 即使你挑了最干净的照片,可能还是有一两个路人的影子漏进来了。这时候,DGGS 会进行“大扫除”。
    • 操作: 它会检查建好的 3D 模型,如果发现某个 3D 小点(高斯点)在 3D 空间里是“飘忽不定”的(因为它其实属于那个路人的影子),它就直接把这个点**“剪掉”**(Prune)。这样,最终呈现出来的 3D 场景就干干净净了。

3. 为什么这个很重要?

  • 通用性强: 以前的方法换个地方就得重新训练,DGGS 就像学会了“看穿本质”的功夫,不管是在公园、商场还是街道,只要给它几张照片,它就能自动识别并去除干扰。
  • 速度快: 它是“前馈”的(Feed-forward),意思是像流水线一样,输入照片,马上输出结果,不需要像以前那样针对每个场景慢慢优化。
  • 效果惊人: 论文里的实验显示,它不仅能重建出没有路人的干净场景,甚至能比那些专门针对某个场景死磕的“专家”做得更好。

总结

简单来说,DGGS 就是一个给 3D 重建系统装上的“智能滤镜”

以前,如果你想在 3D 世界里还原一个真实的街景,路人一多,模型就乱了套。现在,有了 DGGS,系统就像有了**“火眼金睛”**,能一眼看出谁是过客、谁是背景,自动把过客“请”出 3D 世界,只留下一个稳定、清晰、没有杂质的完美 3D 场景。这对于未来用手机随便拍几张照片就能生成高质量 3D 地图或虚拟世界,具有非常重要的意义。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →