CylinderSplat: 3D Gaussian Splatting with Cylindrical Triplanes for Panoramic Novel View Synthesis

本文提出了 CylinderSplat,一种基于新型圆柱体三平面表示的双分支前馈框架,旨在解决全景图像中遮挡和稀疏视角下的几何重建难题,并在单视图及多视图全景新视图合成任务中实现了最先进的重建质量与几何精度。

Qiwei Wang, Xianghui Ze, Jingyi Yu, Yujiao Shi

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 CylinderSplat 的新技术,它的目标是让电脑能根据几张全景照片(360 度照片),快速、逼真地“脑补”出整个 3D 场景,让你可以从任何角度自由观看,就像真的置身其中一样。

为了让你更容易理解,我们可以把这项技术想象成**“用不同形状的积木搭建一个虚拟世界”**。

1. 核心难题:为什么以前的方法不够好?

想象一下,你想用乐高积木(3D 数据)搭建一个房间,但手里只有几张从不同角度拍的照片。

  • 旧方法(像“方盒子”积木): 以前的技术喜欢用正方体(笛卡尔坐标系)来搭建。这就像用方方正正的积木去拼一个圆形的地球仪。虽然拼得出来,但在边缘和角落(比如天花板和地板的交界处)会非常别扭,要么拼不圆,要么出现很多缝隙和扭曲。而且,如果照片拍得不够多(比如只有一两张),积木之间会有很多空隙,导致你从某些角度看过去,会发现墙是透明的,或者地板是缺失的。
  • 新挑战: 现在的 VR 和全景相机拍的是 360 度照片,这种“圆滚滚”的视角,用“方盒子”积木去拼,就像用直尺去量圆周长,天生就不匹配。

2. 我们的解决方案:CylinderSplat(圆柱体积木)

作者发明了一种叫 CylinderSplat 的方法,它做了两件聪明的事:

第一招:换个“积木形状”——圆柱体三平面

作者发现,现实世界里的房子、街道,大部分是由垂直的墙水平的地板/天花板组成的(这被称为“曼哈顿世界”假设)。

  • 以前的“方盒子”: 很难完美贴合圆形的视野。
  • 以前的“球体”: 虽然贴合圆形视野,但在描述直直的墙壁和地板时,就像用球面去贴一张平纸,容易变形。
  • CylinderSplat 的“圆柱体”: 作者设计了一种圆柱形的积木结构。
    • 想象一下: 就像把一张长方形的纸卷成一个圆筒。
    • 优势: 这个圆筒的侧面(墙壁)是直的,顶面和底面(天花板和地板)也是平的。这完美契合了现实世界的建筑结构,同时也完美包裹了 360 度的全景视野。用这种积木去拼,既没有缝隙,也不会扭曲。

第二招:双管齐下的“施工队”

为了处理照片拍得少、有遮挡(比如树挡住了后面的房子)的情况,CylinderSplat 派出了两支施工队:

  1. 像素队(Pixel Branch)——“眼见为实”:

    • 任务: 专门处理照片里看得清楚的地方。
    • 比喻: 就像一群拿着高清相机的工人,哪里拍得清楚,他们就在那里精准地放积木。这部分还原度很高,细节很丰富。
    • 缺点: 如果照片里某个角落被挡住了(比如树后面),他们就没法放积木,那里就会变成黑洞。
  2. 体积队(Volume Branch)——“脑洞补全”:

    • 任务: 专门处理被挡住没拍到的地方。
    • 比喻: 这是一群拥有“透视眼”和“想象力”的工程师。他们利用上面提到的圆柱形积木,根据周围的环境,推测出被挡住的地方应该长什么样,并主动把积木填进去。
    • 关键点: 他们用的就是那个特制的“圆柱体积木”,所以补出来的墙是直的,地板是平的,不会补歪。

最终效果: 这两支队伍合作,一支负责把看得见的地方做得精美,另一支负责把看不见的地方补得合理。最后,电脑把这两部分拼在一起,你就得到了一个完整、没有漏洞、可以从任何角度观看的 3D 世界。

3. 这项技术有多厉害?

  • 速度快: 以前重建一个场景可能需要几个小时,现在像“喂饭”一样,喂进去几张图,几秒钟就能生成 3D 场景,可以实时在 VR 眼镜里看。
  • 适应性强: 不管你是只给一张照片(单视角),还是给好几张(多视角),它都能搞定。
  • 更真实: 在测试中,无论是看墙壁的直度,还是看地板的平整度,它都比以前的方法(比如 OmniScene 或 PanSplat)要好得多,尤其是在照片之间距离很远(稀疏视角)的情况下,它依然能补全细节,不会出现黑窟窿。

总结

简单来说,CylinderSplat 就是给电脑换了一副更懂“全景”和“现实建筑”的眼镜(圆柱体坐标系),并派出了两支配合默契的工人队伍(像素队 + 体积队)。

它不再强行用方积木去拼圆世界,而是用圆柱形积木去自然贴合现实。这让它在生成 3D 全景视频时,既快又准,还能把被遮挡的角落“脑补”得栩栩如生,是通往沉浸式 VR 体验的一大步。