StreamSplat: Towards Online Dynamic 3D Reconstruction from Uncalibrated Video Streams

本文提出了 StreamSplat,一种完全前馈的在线框架,能够通过三项关键技术革新,将未校准的视频流即时转化为动态 3D 高斯泼溅(3DGS)表示,在实现任意长度视频实时重建的同时,将重建速度相比传统优化方法提升了 1200 倍并达到了最先进的重建质量。

Zike Wu, Qi Yan, Xuanyu Yi, Lele Wang, Renjie Liao

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 StreamSplat 的新技术,它的核心目标是:让电脑像看直播一样,实时地“看懂”并重建动态的 3D 世界,而且不需要提前知道摄像头的参数。

为了让你更容易理解,我们可以把这项技术想象成一位超级厉害的“即兴皮影戏大师”

1. 以前的方法 vs. StreamSplat

  • 以前的方法(离线优化):
    想象一下,如果你想拍一部皮影戏,以前的做法是:先把一整天的录像带(视频流)全部录下来,然后关进小黑屋,花上好几个小时甚至几天,一点点地调整皮影的位置、形状和颜色,直到画面完美为止。

    • 缺点: 太慢了!等你修好,现实世界早就变了。而且你必须知道皮影戏台(摄像头)的具体尺寸和角度(相机标定),否则皮影怎么动都拼不对。
  • StreamSplat 的方法(在线流式重建):
    StreamSplat 就像那位即兴大师。他不需要看整天的录像,也不需要知道戏台的具体尺寸。他看着你手里的摄像机(哪怕是一个普通的、没校准过的手机),一边看视频,一边实时地在脑海里“变”出一个 3D 的皮影世界。

    • 特点: 速度极快(比旧方法快 1200 倍),不需要提前校准,视频多长就能重建多长。

2. StreamSplat 的三大“独门绝技”

为了让这位大师能如此神速且精准,论文提出了三个关键创新:

绝技一:概率性“盲猜”定位 (Probabilistic Position Sampling)

  • 比喻: 想象你在雾里看花,看不清花的确切位置。以前的 AI 会强行猜一个位置,结果往往猜错(陷入局部最优)。
  • StreamSplat 的做法: 它不猜“花在哪里”,而是猜“花可能在哪里的一小片区域”。它像是一个有经验的侦探,不直接锁定一个点,而是撒下一张“概率网”,在这个范围内寻找最可能的 3D 位置。
  • 效果: 即使视频模糊、光线不好,或者摄像头没校准,它也能稳稳地抓住物体的大概位置,不会轻易“迷路”。

绝技二:双向“时光穿梭”变形场 (Bidirectional Deformation Field)

  • 比喻: 想象你在玩橡皮泥。以前的方法只能把上一秒的橡皮泥捏成下一秒的样子(单向)。如果橡皮泥突然多了一块(新物体出现)或者少了一块(物体消失),单向捏法就会很尴尬,要么捏不出新东西,要么旧东西消不掉。
  • StreamSplat 的做法: 它拥有双向时光机
    • 向前看: 把上一秒的橡皮泥捏成现在的样子。
    • 向后看: 把现在的橡皮泥“倒带”回上一秒的样子。
    • 通过这种双向比对,它能完美地处理“新物体突然出现”(Emerging)和“旧物体突然消失”(Vanishing)的情况,就像变魔术一样自然。

绝技三:自适应“融合胶水” (Adaptive Gaussian Fusion)

  • 比喻: 想象你在不停地往墙上贴便利贴(3D 小点)。如果贴得太密,墙就糊成一团;如果贴得太松,画面就全是洞。
  • StreamSplat 的做法: 它有一种智能胶水
    • 对于一直存在的物体(比如桌子),它会把新旧便利贴融合在一起,越贴越结实,保持长期稳定。
    • 对于暂时出现的物体(比如路过的鸟),它会让便利贴慢慢变淡直到消失,而不是硬生生地贴在那里。
    • 效果: 无论视频播多久,画面都不会乱成一团,也不会出现“鬼影”(Ghosting),始终保持清晰连贯。

3. 它能做什么?

有了 StreamSplat,我们可以:

  • 实时 3D 建模: 拿着手机边走边拍,电脑立刻就能生成一个可以 360 度旋转查看的 3D 场景。
  • 任意视角观看: 即使你拍的时候没拍到某个角度,它也能根据已有的画面,“脑补”出那个角度的样子(新视角合成)。
  • 深度估计: 它能算出画面里每个物体离你有多远,就像给视频加了一层 3D 眼镜。
  • 应用场景: 机器人导航(实时看懂周围)、VR/AR(让虚拟物体完美融入现实)、自动驾驶(实时构建路况)。

总结

StreamSplat 就像给电脑装上了一双**“火眼金睛”和“快手”。它不再需要像以前那样慢吞吞地“事后诸葛亮”,而是能实时地、智能地**把普通的、没校准的视频流,瞬间变成高质量的动态 3D 世界。

这就好比以前我们要把一堆散乱的乐高积木拼成城堡,得花几天时间慢慢研究图纸;现在 StreamSplat 能让你看着积木盒,一边倒出来,一边瞬间就拼好了一个会动的城堡,而且不管积木盒上印的说明书(相机参数)是不是对的,它都能拼得出来!