RnG: A Unified Transformer for Complete 3D Modeling from Partial Observations

本文提出了 RnG,一种统一的 Transformer 模型,通过重建引导的因果注意力机制,能够从部分 2D 观测中同时实现可见几何的精确重建与不可见几何的合理生成,从而在保持实时高效的同时输出高保真的完整 3D 表示。

Mochu Xiang, Zhelun Shen, Xuesong Li, Jiahui Ren, Jing Zhang, Chen Zhao, Shanshan Liu, Haocheng Feng, Jingdong Wang, Yuchao Dai

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于名为 RnG 的新技术的论文。为了让你轻松理解,我们可以把它想象成一位拥有“读心术”和“超级想象力”的3D 魔法建筑师

🌟 核心问题:我们只能看到物体的“半张脸”

想象一下,你手里拿着一部手机,拍了一张桌子的照片。

  • 以前的 AI(比如 VGGT): 就像是一个诚实的摄影师。它只能把你拍到的部分(桌子的正面)还原成 3D 模型。如果你问它:“桌子背面长什么样?”它会说:“我不知道,我没看见。”于是,它生成的 3D 模型背面是空的,或者是一团乱码。
  • 现在的挑战: 我们想要一个完整的 3D 物体,哪怕只给了几张没标角度的照片。我们需要 AI 不仅能“还原”看到的,还能“想象”没看到的。

🚀 RnG 是什么?

RnG(Reconstruction and Generation,重建与生成)就是这位超级建筑师。它不仅能还原你拍到的部分,还能脑补出你没拍到的背面、侧面,并且保证这些脑补出来的部分和真实部分严丝合缝,看起来非常自然。

它能在不到一秒钟的时间内(在高端显卡上),把几张普通的照片变成一个完整的、可以 360 度旋转查看的 3D 物体。

🧠 它是如何工作的?(三个神奇的比喻)

1. 大脑的“记忆缓存” (KV-Cache)

以前的 AI 每次要看新角度,都要重新计算一遍,就像每次有人问路,它都要重新翻地图、查路线,很慢。
RnG 有一个超级大脑缓存(KV-Cache)

  • 比喻: 当你给 RnG 看几张源照片时,它先把这些信息像“压缩饼干”一样存进大脑的缓存区。这个缓存区不仅仅存了图片,还存了完整的 3D 结构记忆
  • 效果: 之后,无论你想看这个物体的哪个角度(比如背面、侧面),RnG 不需要重新翻书,直接从这个“记忆缓存”里调取信息,瞬间生成新视角的画面。这让它快得惊人(比以前的技术快 100 多倍)。

2. “因果注意力”机制:先修路,再开车

RnG 的核心技术叫“重建引导的因果注意力”。这听起来很复杂,其实很简单:

  • 比喻: 想象你在盖房子。
    • 重建阶段(修路): 先根据你给的照片,把地基和看得见的墙修好。这时候,它只关注你给的照片,不瞎想。
    • 生成阶段(开车): 地基修好后,缓存里就有了完整的结构。现在,你想看房子背面,AI 就基于这个完整的地基,去“开车”(生成)背面的画面。
  • 关键点: “修路”的时候不能受“开车”的干扰,但“开车”必须依赖“修路”的结果。RnG 通过一种特殊的“遮罩”技术,把这两个过程在逻辑上分开,但在参数上共用,既保证了准确性,又保证了速度。

3. 隐形的 3D 扫描仪

以前的技术,如果你只给一张照片,生成的 3D 模型背面往往是破洞的。
RnG 就像一个隐形的 3D 扫描仪。它虽然只看到了正面,但它通过学习了海量的物体数据,知道“桌子背面通常也是平的”、“杯子把手在另一边”。

  • 比喻: 就像你看到一个完整的苹果,虽然你只摸到了左边,但你的大脑会自动补全右边的形状。RnG 就是把这个“补全”的过程做到了极致,而且补全的部分在几何结构上是完全合理的,不会出现“苹果背面长出一只脚”这种荒谬的情况。

🏆 它厉害在哪里?

  1. 又快又准: 以前那种能生成完整 3D 的技术(比如 Matrix3D),像是一个慢吞吞的画家,画一张图要几十秒,而且画出来的东西有时候结构是乱的。RnG 像是一个闪电侠,0.1 秒就能生成,而且结构非常稳固。
  2. 不需要知道相机角度: 你拍照片时不需要知道相机具体在哪、角度是多少(Unposed),RnG 自己就能算出来,然后生成完美的 3D。
  3. 全能选手: 它既是一个3D 重建专家(能把照片变 3D),又是一个3D 生成大师(能凭空想象出没拍到的部分)。以前的 AI 通常只能做其中一项,RnG 把两项合二为一了。

🎯 总结

RnG 就像是一个拥有超强空间想象力的 3D 魔术师。
你给它几张模糊的、角度随意的照片,它不仅能还原你看到的,还能瞬间脑补出你没看到的完整 3D 世界,并且能在你眼前实时旋转、展示,就像你手里真的拿着那个物体一样。

这项技术未来可以让:

  • 游戏开发:只需拍几张实物照片,就能自动生成游戏里的 3D 道具。
  • 电商购物:你在网上买东西,不仅能看正面,还能 360 度无死角地看背面和内部结构。
  • 机器人:机器人看一眼桌子,就能立刻在脑子里构建出完整的桌子模型,知道怎么绕过它,而不会被“看不见”的背面绊倒。

这就是 RnG,让 AI 从“看图说话”进化到了“看图造世界”。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →