Each language version is independently generated for its own context, not a direct translation.
TokenSplat 技术总结
1. 研究背景与问题定义 (Problem)
背景:
3D 高斯泼溅(3D Gaussian Splatting, 3DGS)作为一种高效的神经辐射场替代方案,能够实现高质量的实时渲染。然而,现有的 3DGS 重建流程大多依赖逐场景优化(per-scene optimization),导致泛化能力差且扩展性受限。虽然近期出现了前馈(feed-forward)方法,但它们通常依赖精确的相机位姿作为输入。在实际应用中,获取位姿通常需要通过运动恢复结构(SfM),这在复杂环境中计算昂贵且容易失败。
核心挑战:
现有的无位姿(Pose-free)前馈重建方法面临以下主要问题:
- 特征纠缠(Representation Entanglement): 场景语义信息与视角线索(Viewpoint cues)通常被编码在相同的特征嵌入中,导致相机参数难以从场景内容中解耦,位姿估计误差会传播并破坏 3D 重建质量。
- 像素级对齐的冗余(Pixel-aligned Redundancy): 大多数方法采用像素级对齐的高斯预测头。随着视角数量增加,这种机制会产生大量重叠和冗余的高斯球,导致几何模糊、颜色不一致和场景碎片化。
- 缺乏长程跨视角推理: 现有的融合方法多局限于局部聚合,难以形成全局连贯的结构,导致在密集视角或长序列输入下重建质量下降。
目标:
开发一个前馈框架,能够直接从**无位姿(unposed)**的多视角图像中联合重建 3D 高斯场景并估计相机位姿,同时保持高保真度和强泛化能力。
2. 方法论 (Methodology)
TokenSplat 提出了一种基于 Transformer 架构的前馈框架,其核心创新在于Token 对齐的高斯预测和非对称双流解码器。
2.1 整体架构
模型输入为 N 张无位姿图像 {Ii},输出为 3D 高斯集合 {(μg,σg,rg,sg,cg)} 和每张图的相机位姿 {Pi}。
- ViT 编码器: 共享权重的 ViT 将输入图像编码为图像 Token,可选地编码相机内参作为额外 Token 以缓解尺度模糊。
- 规范场景解码器(Canonical Scene Decoder): 处理参考视图,通过交叉注意力整合其他视图信息,建立规范化的场景表示。
- 非对称双流解码器(ADF-Decoder): 核心模块,用于解耦相机参数与场景特征。
- Token 对齐高斯预测模块(Token-aligned Gaussian Prediction): 在特征空间聚合多视图信息,生成稠密且连贯的 3D 高斯。
2.2 核心模块详解
A. 非对称双流解码器 (Asymmetric Dual-Flow Decoder, ADF-Decoder)
旨在解决位姿与场景特征的纠缠问题,采用方向受限的通信机制:
- Token 初始化: 图像 Token 来自编码器;相机 Token 为可学习嵌入,针对非参考视图复制。
- 自注意力(Self-Attention): 图像 Token 聚合视图内上下文;相机 Token 关注对应视图的图像 Token 以提取几何线索。
- 跨视图注意力(Cross-View Attention):
- 图像 Token: 仅与其他视图的 Token 交互,避免自身信息泄露,确保视图间一致性。
- 相机 Token: 同时与其他视图的图像 Token 和相机 Token 交互,聚合全局几何线索以优化位姿估计。
- 非对称调制(Asymmetric Modulation): 在注意力机制前后,利用相机 Token 对图像 Token 进行调制(Scale, Shift, Gate)。
- 关键设计: 相机 Token 从图像中提取几何线索支持位姿预测,但仅将稳定的低频位姿对齐信号反向传播给图像 Token。这种单向约束防止了视角特定线索污染场景语义,实现了干净的因子分解(Clean Factorization)。
B. Token 对齐高斯预测 (Token-aligned Gaussian Prediction)
解决像素级预测带来的冗余问题:
- Token 融合(Token Fusion): 首先预测每个 Token 的粗略位置和融合置信度。基于空间邻近性和置信度,将多视图的语义对应 Token 在特征空间进行聚合(Fusion)。
- 优势: 这种融合是在特征层面进行的,而非直接融合 3D 高斯,从而减少了重叠区域的冗余,增强了长程跨视角推理能力。
- 高斯预测头(Gaussian Prediction Head): 将融合后的 Token 映射到多个 3D 高斯(One-to-Many 映射)。
- 解耦: 高斯密度不再受限于像素分辨率,能够生成更稠密、表达力更强且结构完整的高斯球。
- 多尺度融合: 利用 Transformer 解码器的多层特征,从深到浅进行残差融合,结合细粒度细节与丰富语义。
C. 损失函数
- 渲染损失: 结合 L2 损失和感知损失(LPIPS)。
- 相机位姿损失: 结合均方误差(MSE)和单位四元数/对偶四元数(Unit Dual Quaternion)对齐损失,确保旋转和平移的一致性。
3. 主要贡献 (Key Contributions)
- TokenSplat 框架: 提出了首个能够从无位姿多视角图像中联合估计相机位姿和 3D 高斯场景的前馈框架,展现出强大的泛化能力。
- Token 对齐高斯预测模块: 实现了基于 Token 的长程多视图特征聚合。通过特征空间的融合而非像素级高斯融合,显著减少了冗余和碎片化,生成了高质量、结构连贯的 3D 高斯。
- 非对称双流解码器 (ADF-Decoder): 设计了方向受限的通信机制,成功将位姿推理与场景编码解耦,同时保持相互增强。这消除了对迭代优化的需求,实现了更稳定的位姿估计和更高保真度的重建。
4. 实验结果 (Results)
实验在 ScanNet 和 RealEstate10K (RE10K) 数据集上进行,涵盖了稀疏视角(3-4 视)到密集视角(8-28 视)以及跨数据集泛化测试。
- 新视角合成 (NVS) 性能:
- 在 RE10K 和 ScanNet 上,TokenSplat 在所有视角数量设置下均超越了现有的无位姿方法(如 NoPoSplat, VicaSplat, AnySplat)以及部分需要位姿的方法(如 FreeSplat)。
- 在 8 视 RE10K 设置下,PSNR 比 FreeSplat 高出 0.95 dB。
- 在 28 视 ScanNet 长序列测试中,TokenSplat 保持了稳定的重建质量,而基于像素融合的方法(如 AnySplat)性能显著下降,证明了其扩展性。
- 相机位姿估计:
- 在 RE10K 8 视设置下,相对旋转误差(RPE-r)比 VicaSplat 和 AnySplat 分别降低了 0.335 和 0.147。
- 在 ScanNet 28 视设置下,绝对平移误差(ATE)比 AnySplat 降低了 0.018,证明了其在密集视角下的鲁棒性。
- 跨数据集泛化 (Zero-shot):
- 仅在 RE10K 上训练,直接在 ScanNet 上测试。TokenSplat 在 NVS 和位姿估计上均优于所有 SOTA 方法,PSNR 提升显著,且能保持清晰的几何结构和家具边界细节。
- 消融实验:
- 移除 ADF-Decoder 会导致位姿纠缠,RPE-r 增加 0.046。
- 使用像素级对齐的高斯头(Pixel Head)会导致 SSIM 下降 0.026,证明 Token 融合的有效性。
- 移除内参嵌入会影响尺度捕捉,但位姿估计仍具竞争力。
5. 意义与影响 (Significance)
- 摆脱对位姿的依赖: TokenSplat 证明了无需外部 SfM 或精确位姿输入,即可实现高质量、高稳定性的 3D 重建,极大地降低了 3D 内容生成的门槛。
- 解决特征纠缠难题: 通过 ADF-Decoder 提出的非对称通信机制,为前馈架构中同时处理几何(位姿)和语义(场景)信息提供了新的范式,避免了传统方法中常见的误差传播问题。
- 可扩展性与效率: 基于 Token 的融合机制使得模型在处理大量输入视角时,高斯数量增长更平稳,推理时间更稳定,克服了像素级方法在密集视角下的冗余和计算瓶颈。
- 实际应用潜力: 该方法在零样本(Zero-shot)设置下表现优异,适用于手机拍摄、监控视频等无标定、无位姿的真实世界场景,为大规模 3D 场景重建和 AR/VR 应用提供了强有力的技术支撑。
总结: TokenSplat 通过引入 Token 对齐机制和非对称双流解码,成功解决了无位姿 3D 重建中的特征纠缠和冗余问题,在重建质量、位姿精度和泛化能力上均达到了当前领先水平。