Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 DenoiseSplat 的新技术，它能让计算机在图片很脏、很模糊的情况下，依然能重建出清晰、漂亮的 3D 世界。

为了让你更容易理解，我们可以把这项技术想象成**“在暴风雨中修复破碎的拼图”**。

1. 背景：为什么我们需要它？

想象一下，你想用几张照片重建一个 3D 的虚拟房间（就像玩 VR 游戏或制作数字电影）。

以前的方法（NeRF 或 3DGS）： 就像是一个挑剔的画家。他要求你给他的照片必须非常清晰、没有噪点、光线完美。如果照片上有灰尘、噪点或者模糊（就像现实生活中的手机随手拍的视频），这位画家就会“崩溃”，画出来的 3D 房间全是乱码、模糊不清，甚至根本建不起来。
现实情况： 我们手里的照片往往不完美。手机拍的视频有噪点，网络下载的图片有压缩痕迹，光线不好时还有雪花点。以前的技术对这些“脏照片”束手无策。

2. 以前的笨办法：先擦干净，再画画

面对脏照片，工程师们以前通常用一种**“两步走”**的笨办法：

第一步（擦窗户）： 先找一个人工智能去把每一张照片单独擦干净（去噪）。
第二步（画画）： 把擦干净的照片交给那个挑剔的画家去画 3D 房间。

这个办法的问题：

过度清洁： 那个擦窗户的人（去噪 AI）太用力了，把照片里原本就模糊的细节（比如头发的丝、砖墙的纹理）也一起擦掉了，导致照片虽然干净了，但变得像“塑料”一样假。
各自为战： 他是一张一张照片单独擦的，没考虑到照片和照片之间的关联性。结果就是，从左边看和从右边看，房间的墙壁对不上，3D 结构就崩塌了。
效率低： 还要跑两个程序，太慢了。

3. DenoiseSplat 的聪明做法：在画画时直接“去噪”

这篇论文提出的 DenoiseSplat，换了一种更聪明的思路：让画家直接在“暴风雨”中画画，并且学会自己把画里的污渍洗掉。

它不再把“擦窗户”和“画画”分开，而是训练画家直接看着脏照片，脑子里自动过滤掉噪音，画出干净的 3D 世界。

它的两个核心“超能力”：

超能力一：双核大脑（几何与外观分离）
想象画家的大脑分成了两个部门：

结构部（几何分支）： 只负责画骨架（墙壁在哪里、桌子多高）。这个部门很“固执”，它不看颜色，只看形状。因为形状通常比较稳定，不容易被噪音干扰。
装饰部（外观分支）： 负责画颜色和纹理（墙是红的还是绿的，上面有没有花纹）。这个部门比较“灵活”，专门负责处理那些因为噪音导致的颜色乱跳。
效果： 即使照片很脏，结构部也能稳稳地画出房间的轮廓，不会乱；装饰部则努力修正颜色。这样画出来的 3D 房间，骨架是正的，颜色也是对的。

超能力二：智能边界修正（CBC）
有时候，墙壁和地板交界的地方（边界）最容易出错。

DenoiseSplat 会告诉装饰部：“嘿，结构部说这里是个墙角，而且它有点拿不准，你在这里要特别小心，把颜色修得锐利一点，不要糊成一团。”
这就像是一个经验丰富的老工匠，在修补破损的壁画时，知道哪里该用力，哪里该轻柔，确保边缘清晰，不会把墙角的线条抹平。

4. 他们是怎么训练的？（造了一个“脏照片”实验室）

为了训练这个画家，作者们做了一个大工程：

他们找来了 1 万多个真实的房地产视频（RE10K 数据集），这些视频本来是干净的。
然后，他们像做实验一样，故意往这些视频里加各种“佐料”：
- 高斯噪声（像电视雪花）
- 泊松噪声（像相机感光元件的颗粒）
- 椒盐噪声（像照片上随机出现的黑白点）
- 斑点噪声
关键点： 他们确保同一个房间的所有照片，加的是同一种“佐料”，而且程度一样。这模拟了现实中：如果你用同一台手机在同一个房间拍视频，所有照片的噪点特征应该是一致的。
然后，他们让 AI 看着这些故意弄脏的照片，目标是让它画出原本干净的照片的样子。AI 不需要知道 3D 的正确答案，只要画出来的图看起来干净就行。

5. 结果怎么样？

实验结果显示，DenoiseSplat 完胜：

比“直接画”强： 以前那种直接看脏照片画的方法，画出来全是噪点。
比“先擦后画”强： 它画出来的东西，细节更丰富（没有把头发丝擦掉），结构更稳固（墙壁不会歪），而且速度更快（一步到位，不用先跑一个去噪程序）。

总结

DenoiseSplat 就像是一个拥有“透视眼”和“自我净化能力”的 3D 重建大师。它不再抱怨照片脏，而是学会了在混乱中理清秩序，直接从我们随手拍的、充满噪点的手机视频里，重建出清晰、真实、高质量的 3D 世界。这对于未来的 VR 体验、机器人导航（机器人看到的画面往往很脏）以及数字内容创作来说，是一个巨大的进步。

Each language version is independently generated for its own context, not a direct translation.

DenoiseSplat 技术总结

1. 研究背景与问题定义

核心问题：现有的 3D 场景重建和神经渲染方法（如 NeRF 和 3D Gaussian Splatting, 3DGS）通常假设输入图像是干净的。然而，现实世界中的多视图数据（如网络视频、手机拍摄）常包含传感器噪声、压缩伪影和低光照退化。
现有挑战：

直接输入噪声：将含噪图像直接输入标准的 3DGS 或 MVSplat 会导致几何估计受损、纹理模糊，重建质量随噪声强度增加而急剧下降。
两阶段方案缺陷：传统的“先 2D 去噪，再 3D 重建”方案存在明显弊端：
1. 2D 去噪容易过度平滑，丢失细微纹理。
2. 独立处理每帧图像破坏了多视图一致性（Multi-view Consistency），影响 3D 融合。
3. 增加了推理延迟和系统复杂度。

目标：提出一种端到端的前馈（Feed-Forward），能够直接从含噪的多视图输入中恢复干净的 3D 高斯场景表示，无需测试时的优化（Test-time Optimization）或外部 2D 去噪器。

2. 方法论 (Methodology)

2.1 整体架构

DenoiseSplat 基于 MVSplat 框架进行改进，采用前馈网络设计。

输入：含噪的多视图 RGB 图像及相机参数。
监督信号：仅使用干净图像的 2D 渲染结果作为监督（无需 3D 真值）。
输出：干净的 3D 高斯场景表示（位置、协方差、不透明度、颜色）及其渲染视图。

2.2 核心创新点

A. 双分支高斯头 (Dual-branch Gaussian Head)

为了在噪声环境下解耦几何与外观信息，作者将原本共享的高斯预测头 redesign 为两个轻量级分支：

**几何分支 **(Geometry Branch)：预测高斯的位置 (Centers)、旋转 (Rotations)、尺度 (Scales) 和不透明度 (Opacities)。该分支利用相对稳定的结构线索，优先保证几何结构的准确性。
**外观分支 **(Appearance Branch)：预测球谐系数 (Spherical-Harmonics) 和颜色。该分支负责处理残留的噪声和颜色波动，吸收外观上的不确定性。

作用：这种解耦设计防止了噪声外观干扰几何估计，从而在强噪声下保持更一致的 3D 结构和更清晰的纹理。

B. 跨分支边界引导外观校正 (CBC, Cross-Branch Boundary-Guided Appearance Correction)

为了解决几何分支在边界处（如深度不连续、遮挡边缘）的不确定性导致的外观伪影，引入了 CBC 机制：

原理：利用几何分支预测的深度/视差图生成“边界强度”和“置信度”图。
机制：在边界明显且置信度低的区域，CBC 模块通过一个轻量级 CNN 预测外观残差（Residual Correction），对颜色进行精细化修正。
梯度隔离：训练时，几何信号（边界图、置信度）被断开梯度（Stop-gradient），确保外观分支的更新不会反向传播破坏几何分支的稳定性。

2.3 数据集构建：RE10K 噪声基准

为了支持该任务，作者在 **RealEstate10K **(RE10K) 上构建了大规模、场景一致的“噪声 - 干净”配对基准：

噪声类型：高斯噪声、泊松噪声、散斑噪声 (Speckle)、椒盐噪声 (Salt-and-pepper)。
场景级一致性：同一场景的所有视图共享相同的噪声类型和强度参数，模拟真实拍摄设备的一致性噪声特征。
训练策略：端到端训练，仅使用干净渲染图作为监督，无需 3D 真值。

3. 主要贡献 (Key Contributions)

问题定义与框架：首次系统性地研究了含噪多视图输入的 3D 重建问题，提出了 DenoiseSplat 前馈框架，在保持高效渲染的同时显著增强了抗噪性。
双分支解耦设计：提出了几何 - 外观解耦的双分支高斯头，有效缓解了噪声对几何结构的干扰，提升了强噪声下的纹理清晰度。
场景一致性噪声基准：构建了包含四种噪声类型、场景级一致性的 RE10K 噪声基准，填补了该领域缺乏标准化测试集的空白。
性能突破：在多种噪声类型和强度下，DenoiseSplat 在 PSNR、SSIM 和 LPIPS 指标上均优于原生 MVSplat 和强基线（2D 去噪 + MVSplat）。

4. 实验结果 (Results)

在构建的噪声 RE10K 基准测试中：

定量指标：
- 相比直接输入噪声的 MVSplat (MVSplat-Noisy)，DenoiseSplat 在 PSNR、SSIM 和 LPIPS 上均有显著提升。
- 相比两阶段基线 (Denoise-Then-MVSplat, 使用 IDF 去噪)，DenoiseSplat 在感知质量 (LPIPS) 和结构相似性 (SSIM) 上表现更好，尤其是在新视图合成（Novel View Synthesis）任务中，保持了更好的多视图一致性。
- 在强噪声（如高斯噪声 $\sigma=0.15$ ）下，DenoiseSplat 的性能下降曲线更平缓，表现出更强的鲁棒性。
定性分析：
- MVSplat-Noisy：残留明显噪声，出现颜色偏移和局部畸变。
- 两阶段基线：虽然去除了噪声，但往往导致边缘模糊、高频细节丢失（如电线、栏杆等细结构被侵蚀），并产生光晕伪影。
- DenoiseSplat：在去除噪声的同时，更好地保留了边界锐度和纹理细节，新视图合成更连贯，伪影更少。
效率：推理速度与原生 MVSplat 相当，仅比两阶段方案略快（避免了独立的 2D 去噪步骤），且无需测试时优化。

5. 意义与展望 (Significance & Future Work)

意义：

打破了 3D 高斯泼溅技术对“干净输入”的依赖，使其更适用于现实世界（如手机拍摄、网络视频）的 3D 重建应用。
证明了在 3D 表示内部联合学习去噪与重建，比分离的 2D 预处理方案更能保持多视图一致性和几何结构。
为后续研究提供了标准化的噪声基准和有效的架构设计思路。

局限与未来方向：

当前噪声模型主要基于合成噪声，尚未完全涵盖真实相机的复杂噪声、运动模糊和压缩伪影。
实验主要在 RE10K 上进行，跨数据集和真实世界的泛化能力仍需进一步验证。
未来工作将探索更真实的噪声建模、动态场景扩展以及与高层语义任务的结合。

DenoiseSplat: Feed-Forward Gaussian Splatting for Noisy 3D Scene Reconstruction