PixARMesh: Autoregressive Mesh-Native Single-View Scene Reconstruction

PixARMesh 提出了一种基于自回归机制的单视图场景重建方法,能够直接从单张 RGB 图像联合预测物体布局与几何,在无需隐式场或后期优化的情况下,一次性生成连贯且适用于下游应用的高质量 3D 室内网格。

Xiang Zhang, Sohyun Yoo, Hongrui Wu, Chuan Li, Jianwen Xie, Zhuowen Tu

发布于 Mon, 09 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

想象一下,你手里拿着一张普通的照片,照片里是一个凌乱的客厅:有沙发、茶几、几把椅子,但有些东西被挡住了,有些角度看不全。

现在的任务是:仅凭这一张照片,在电脑里“变”出一个完整的、可以随意旋转和修改的 3D 房间模型。

以前的方法就像是一个笨拙的泥瓦匠

  1. 他先试图用一种叫"SDF"(隐式符号距离场)的模糊粘土把整个房间填满。
  2. 然后,他得用一把粗糙的铲子(Marching Cubes 算法)去挖,试图从这团粘土里把家具的轮廓“挖”出来。
  3. 最后,他还得把挖出来的家具摆摆正,如果摆歪了,还得重新调整。
    结果:做出来的模型要么面数太多(像一团乱麻),要么边缘模糊,而且很难直接拿去给游戏或电影使用。

PixARMesh 则像是一位天才的乐高大师,它换了一种全新的思路:

1. 核心魔法:像写故事一样“写”3D 模型

以前的模型是“先猜位置,再猜形状,最后拼起来”。
PixARMesh 的做法是**“边猜边写”。它把整个房间的重建过程看作是在写一个故事**。

  • 传统方法:先画个草图(布局),再慢慢填色(几何)。
  • PixARMesh:它手里有一本“乐高说明书”(预训练好的模型)。当你给它看一张照片时,它直接开始“念咒语”(自回归生成):
    • 它先“念”出:“这里有个沙发,位置在左边,稍微歪一点。”(预测位置和姿态)
    • 紧接着,它“念”出:“这个沙发的具体形状是……"(直接生成网格模型)。
    • 它不需要停下来去计算“怎么把沙发摆正”,因为它在生成形状的同时,就已经把位置算好了。

2. 它的“超能力”:一眼看穿遮挡

照片里,沙发后面可能藏着个花瓶,或者被桌子挡住了一部分。

  • 普通 AI:看到一半,就懵了,或者只能猜个大概。
  • PixARMesh:它有两个“超能力”:
    • 像素级透视眼:它不仅看点云(3D 的点),还把照片里的颜色、纹理直接“贴”在 3D 点上。就像它不仅能摸到物体的形状,还能“看”到物体表面的花纹,从而推断出被挡住的部分长什么样。
    • 全局大局观:它会看整个房间。如果它看到左边有个沙发,右边有个茶几,它就能根据经验推断出:“哦,中间肯定有个地毯,而且沙发和茶几的距离应该是这样的。”这种上下文理解让它能补全被遮挡的部分。

3. 最终产出:直接可用的“乐高积木”

这是 PixARMesh 最酷的地方。

  • 以前的模型:产出的是一团“数字粘土”,你需要把它切成一块块,还要把面数精简,才能拿去玩游戏。这就像给你一袋还没拼好的乐高,还全是碎渣。
  • PixARMesh:产出的直接就是**“乐高积木”**(原生网格 Mesh)。
    • 它生成的模型面数很少(很轻量),但结构清晰,边缘锐利。
    • 它生成的模型是**“艺术家就绪”**(Artist-ready)的。意思是,游戏设计师拿到这个文件,直接就能放进游戏引擎里用,不需要再做任何复杂的后期处理。

总结

PixARMesh 就像是一个拥有上帝视角的 3D 建筑师
它不需要先建个模糊的毛坯房再装修,而是看着你的照片,直接像拼乐高一样,一边确定家具摆在哪,一边把家具的每一个零件精准地“变”出来。

  • 以前:先猜位置 -> 再猜形状 -> 最后拼凑 -> 还要修修补补。
  • 现在 (PixARMesh):看着照片 -> 像讲故事一样,一口气把“位置 + 形状”完美地生成出来。

这不仅让重建速度更快,而且生成的模型质量极高,直接就能用于游戏、电影或虚拟现实,真正实现了从“一张照片”到“一个完整 3D 世界”的无缝跨越。