TokenSplat: Token-aligned 3D Gaussian Splatting for Feed-forward Pose-free Reconstruction

TokenSplat 提出了一种无需相机位姿的自监督前馈框架,通过引入令牌对齐的高斯预测模块和非对称双流解码器,实现了从多视图图像中联合进行高保真 3D 高斯重建与稳定相机位姿估计。

Yihui Li, Chengxin Lv, Zichen Tang, Hongyu Yang, Di Huang

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 TokenSplat 的新技术,它的核心目标是:只给你一堆没有位置信息的照片,就能自动帮你重建出逼真的 3D 场景,并且还能算出每张照片是在哪里拍的。

为了让你更容易理解,我们可以把整个过程想象成**“组织一场混乱的跨国会议”**。

1. 以前的痛点:混乱的会议

想象一下,你有一堆来自不同国家、不同角度的照片(就像一群来自世界各地的参会者)。

  • 传统方法(需要相机位姿): 就像开会前,必须先让每个人拿着 GPS 定位器,精确报告“我在地球坐标 X, Y, Z 处”。如果 GPS 坏了(相机位姿不准),整个会议(3D 重建)就乱套了。
  • 之前的“无位姿”方法: 大家开始瞎猜。但问题是,以前的方法就像让每个人**按像素(Pixel)**来汇报。
    • 比喻: 想象每个人都要描述自己面前的一粒沙子。如果有 100 个人看同一棵树,每个人都要描述那棵树上的每一粒叶子。结果就是:信息严重重复,大家吵成一团,最后拼出来的 3D 模型模糊不清,甚至出现重影(就像照片里树影重叠,分不清哪片叶子是谁的)。

2. TokenSplat 的绝招:Token(令牌)对齐

TokenSplat 不想按“像素”来聊,它引入了一个更聪明的概念:Token(令牌/语义块)

  • 什么是 Token?
    想象一下,参会者不再描述“树叶”,而是描述“概念”。比如,大家手里都拿着一个写着“窗户”的牌子(Token)。
    • 核心创新(Token-aligned): TokenSplat 会直接把这些写着“窗户”的牌子在特征空间里对齐。不管大家站在哪个角度,只要手里拿的是“窗户”的牌子,系统就知道:“哦,这是同一个东西!”
    • 好处: 它不再重复描述每一粒沙子,而是把大家关于“窗户”的讨论聚合起来。这就解决了“信息冗余”的问题,让 3D 模型变得清晰、连贯,没有重影。

3. 两大核心黑科技

A. 不对称的双流解码器 (ADF-Decoder):把“导演”和“演员”分开

在重建 3D 时,有两个任务:

  1. 重建场景(演员演戏,把房子搭好)。
  2. 计算相机位置(导演喊“停”,告诉演员你站在哪)。

以前的方法容易把这两个搞混(纠缠在一起),导致导演喊错了,演员也演砸了。

  • TokenSplat 的做法: 它设计了一个**“单向沟通”**机制。
    • 相机令牌(导演): 专门从图像里提取几何线索,用来判断位置。
    • 图像令牌(演员): 专注构建场景细节。
    • 关键规则: 导演可以听演员的(提取线索),但导演只能把**“稳定后的位置信号”**反馈给演员,不能把杂乱的“位置猜测”直接灌给演员。
    • 比喻: 就像导演在幕后指挥,他告诉演员“往左走一步”,但他不会把“我觉得我站歪了”这种焦虑情绪传染给演员。这样,位置算得准,场景搭得稳,互不干扰。

B. 一对多的预测:从“令牌”到“无数个小球”

TokenSplat 预测的不是一个个像素点,而是一个个**“令牌”**。

  • 比喻: 以前是“一个像素对应一个 3D 小球”。现在是一个“令牌”(比如代表“桌子”)可以生成很多个 3D 小球。
  • 好处: 这样既保留了桌子的整体结构(语义连贯),又能让桌子看起来更丰满、细节更丰富,而且不会因为照片多了就产生一堆乱七八糟的重复小球。

4. 效果怎么样?

  • 不用 GPS 也能行: 即使没有相机位置信息,它也能重建出非常清晰的 3D 场景。
  • 人多力量大: 以前照片越多,模型越乱(因为重复信息太多)。TokenSplat 照片越多,反而看得越清楚,因为它懂得如何把大家的意见“去重”并“聚合”。
  • 通用性强: 在没见过的场景(比如从室内训练,去室外测试)也能表现很好,就像那个参会者去了一个新城市,依然能迅速组织好会议。

总结

TokenSplat 就像是一个超级聪明的会议组织者。它不再让每个人对着显微镜(像素)瞎忙活,而是让大家拿着“概念牌”(Token)进行高效对话。它巧妙地分离了“谁在说话”(相机位置)和“说了什么”(场景内容),最终用一堆乱糟糟的照片,拼出了一个既清晰、又准确、还没有重影的完美 3D 世界。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →