ZeroScene: A Zero-Shot Framework for 3D Scene Generation from a Single Image and Controllable Texture Editing

本文提出了名为 ZeroScene 的零样本框架,利用大视觉模型先验知识,实现了从单张图像到包含前景与背景的连贯 3D 场景重建,并支持通过掩码引导策略和 PBR 材质估计进行多视图一致的物体纹理编辑。

Xiang Tang, Ruotong Li, Xiaopeng Fan

发布于 2026-02-18
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

想象一下,你手里拿着一张普通的照片,照片里有一个房间,里面摆着桌子、椅子、花瓶,可能还有只猫。通常,如果你想把这张照片变成 3D 世界,让电脑“看懂”里面的东西,现在的技术要么只能把整个房间变成一个模糊的“面团”,要么只能把单个物体(比如那只猫)变成立体的,但一旦把它们拼在一起,位置就乱了,或者物体之间互相穿透、悬空,看起来非常假。

这篇论文介绍了一个叫 ZeroScene 的新系统,它就像一位拥有“读心术”和“透视眼”的超级 3D 建筑师。它只需要你给它一张照片,就能把照片里的世界“复活”成一个完整的、可以随意互动的 3D 场景,甚至还能让你给里面的物体“换衣服”(修改纹理)。

为了让你更容易理解,我们可以把 ZeroScene 的工作流程比作**“拆包、修图、组装、装修”**四个步骤:

1. 拆包与修图:把“被挡住”的东西补全

(对应论文中的:实例分割与生成)

  • 现实痛点:照片里,桌子挡住了花瓶的一半。如果你直接让电脑把桌子变成立体的,花瓶被挡住的那部分电脑就不知道长什么样了,变出来的花瓶可能是断头的。
  • ZeroScene 的做法
    • 它先像切蛋糕一样,把照片里的每个物体(前景)和背景(墙壁、地板)分开。
    • 然后,它利用像 GPT-4o 这样强大的 AI“大脑”进行**“脑补”**(Inpainting)。如果花瓶被挡住了,AI 会根据上下文猜出被挡住的部分长什么样,把照片修补完整。
    • 最后,它把修补好的每个物体单独变成 3D 模型。这就好比先确保每个零件都是完美的,再准备组装。

2. 组装与定位:把散落的零件拼回原位

(对应论文中的:点云提取与布局优化)

  • 现实痛点:有了 3D 零件,怎么把它们放回照片里的位置呢?如果随便放,椅子可能飘在天花板上,或者桌子插进墙里。
  • ZeroScene 的做法
    • 它先给整张照片拍个"CT 扫描”,生成一个点云(可以想象成由无数个小光点组成的 3D 骨架),这代表了整个房间的真实空间结构。
    • 然后,它把刚才做好的 3D 零件(比如那个花瓶)放进去,开始**“对号入座”**。
    • 它使用一种**“双重校准”**魔法:既看 3D 空间里的距离对不对,又看从照片角度看过去位置准不准。通过不断微调,直到花瓶稳稳地坐在桌子上,椅子紧贴着地面,完全符合照片里的透视关系。

3. 背景处理:填补“隐形”的墙壁

(对应论文中的:背景处理)

  • 现实痛点:很多技术只关注物体,忽略了背景。但在 3D 世界里,如果没有墙壁和地板,物体就会掉进虚空里。
  • ZeroScene 的做法
    • 它会把前景物体“擦除”,只留下背景,重新扫描生成墙壁和地板的 3D 模型。
    • 它特别聪明,知道墙壁是平的,地板是平的,所以它会用数学方法把这些面“拉直”,确保背景既真实又稳固,让前景物体有地方“站”。

4. 换装与装修:给物体穿上“新皮肤”

(对应论文中的:纹理编辑)

  • 现实痛点:你想把照片里的“普通木桌”变成“金色奢华桌”,或者把“白猫”变成“彩虹猫”。以前的方法一换颜色,物体表面就会变得模糊、断裂,或者换个角度看颜色就不一样了。
  • ZeroScene 的做法
    • 戴着面具画画:它使用一种**“渐进式蒙版策略”**。想象你在给一个旋转的地球仪上色,先画正面,然后遮住画好的部分,只让 AI 画还没画过的背面,再遮住,画侧面……这样一步步来,保证无论转到哪个角度,颜色都是连贯的,不会出现“一半红一半蓝”的奇怪现象。
    • 物理级质感:它不仅仅是换颜色,还会计算**“物理材质”**(PBR)。比如,它知道金属是反光的,木头是哑光的,玻璃是透明的。当你给物体打光时,它会像真实世界一样产生高光和阴影,看起来非常逼真。

总结:ZeroScene 能做什么?

简单来说,ZeroScene 就是一个**“一键 3D 化 + 自由改装”**的魔法工具:

  1. 从照片到世界:给你一张图,它还能还你一个完整的 3D 房间,物体位置精准,背景真实。
  2. 随心所欲的改造:你可以告诉它:“把那个杯子变成不锈钢的,上面还要有个粉色爱心”,它就能立刻生成符合物理规律的 3D 模型。
  3. 应用场景
    • 游戏开发:设计师拍张照,就能快速生成游戏里的道具和场景,不用从零建模。
    • 数字孪生:把现实中的工厂或房间直接变成数字版,用于模拟或监控。
    • 机器人训练:给机器人生成各种逼真的虚拟环境,让它们在虚拟世界里“练级”,学会怎么避开障碍物。

一句话概括:ZeroScene 就像一位全能的 3D 导演,它不仅能把你拍的照片“翻译”成真实的 3D 世界,还能听你的指挥,随时给这个世界里的任何东西“换造型”,而且换完后的东西在 3D 空间里看起来依然天衣无缝、真实可信。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →