SAGE: Scalable Agentic 3D Scene Generation for Embodied AI

本文提出了 SAGE 框架,这是一个可扩展的代理系统,能够通过多轮迭代推理和自适应工具选择,将用户指定的具身任务转化为语义合理、视觉逼真且物理稳定的模拟器就绪 3D 场景,从而为具身智能策略训练提供大规模合成数据并显著提升其泛化能力。

Hongchi Xia, Xuan Li, Zhaoshuo Li, Qianli Ma, Jiashu Xu, Ming-Yu Liu, Yin Cui, Tsung-Yi Lin, Wei-Chiu Ma, Shenlong Wang, Shuran Song, Fangyin Wei

发布于 2026-02-24
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 SAGE 的超级智能系统,它的核心能力是:只要你说出一个想法,它就能自动为你“变”出一个完美的、可以立刻用来训练机器人的 3D 虚拟房间。

为了让你更容易理解,我们可以把 SAGE 想象成一位**“拥有魔法的超级室内设计师 + 物理学家 + 机器人教练”的三位一体**。

1. 以前的痛点:造房子太难了

在以前,如果你想训练一个机器人(比如让它学会在卧室里拿杯子),你需要:

  • 人工建模:请人一个个画家具、摆位置,这非常慢且贵。
  • 物理测试:画好的房间可能看起来不错,但把重力一开,桌子可能悬空,枕头可能穿模掉进地板里。
  • 数据匮乏:现实世界收集数据太慢,而且机器人可能会撞坏东西。

这就像你想教孩子骑自行车,但家里没有空地,或者你只能借到一辆破旧的自行车,还总是摔跤。

2. SAGE 是怎么工作的?(核心魔法)

SAGE 的工作流程就像是一个**“有自我反省能力的创意团队”**:

第一步:听指令(像点菜一样简单)

你只需要对它说:“帮我生成一个卧室,我要训练机器人把杯子从床头柜拿到书桌上。”

  • 以前:你需要写几千行代码,定义墙壁、地板、家具的坐标。
  • SAGE:它直接听懂人话,开始动工。

第二步:组建“施工队”(生成器)

SAGE 内部有一个**“智能工头”(Agent)**,它指挥着不同的工具:

  • 画图纸:先画出房间的地板和墙壁。
  • 搬家具:根据描述,把床、桌子、杯子等 3D 模型“变”出来并摆好位置。
  • 加细节:给家具加上纹理(比如木纹、金属光泽),让它们看起来像真的一样。

第三步:双重“质检员”(Critics)—— 这是最厉害的地方!

普通的生成系统摆好家具就完了,但 SAGE 有两个严格的“质检员”会不断挑刺,直到完美为止:

  1. 视觉质检员(Visual Critic)

    • 它的作用:像一位挑剔的装修监理
    • 它会说:“嘿,这个花瓶挡住了路,而且这个枕头看起来太假了,像是飘在空中的。把枕头放好,换个更真实的材质。”
    • 结果:工头会立刻调整,直到画面看起来非常逼真。
  2. 物理质检员(Physics Critic)

    • 它的作用:像一位严谨的物理学家,手里拿着一个“重力模拟器”。
    • 它会说:“不行!这个杯子放在桌子边缘,一开重力就会掉下来。还有,那个台灯太重了,会把桌子压翻。重新摆!”
    • 结果:SAGE 会在虚拟的“物理引擎”里(Isaac Sim)反复测试,确保所有东西都稳稳当当,不会穿模或乱飞。

只有当这两个质检员都点头说“完美”时,SAGE 才会把房间交给你。

3. 为什么要这么做?(为了训练机器人)

SAGE 生成的房间不仅仅是为了“看”,而是为了**“练”**。

  • 无限复制与变体
    一旦 SAGE 生成了一个完美的卧室,它可以瞬间“克隆”出成千上万个变体。

    • 把杯子换成可乐罐?没问题。
    • 把卧室改成赛博朋克风格?没问题。
    • 把桌子换个位置?没问题。
      这就像给机器人教练准备了一万种不同的训练场地,让机器人见多识广,以后到了真实世界,不管遇到什么房间都能应对自如。
  • 自动生成动作
    SAGE 不仅能造房间,还能自动规划机器人的动作(比如手怎么伸过去抓杯子,怎么避开障碍物),生成大量的“教学视频”(演示数据)。

4. 实际效果如何?

论文中的实验显示:

  • 更稳:SAGE 生成的场景,99% 以上在物理模拟中是稳定的(不会塌房),而以前的方法经常出错。
  • 更懂行:训练出来的机器人,在没见过的房间和物体上,表现也非常好。
  • 规模大:他们甚至直接生成了一个包含 1 万个场景的超大数据库(SAGE-10k),免费提供给社区使用。

总结

SAGE 就像是一个不知疲倦的“虚拟世界工厂”
以前,我们要教机器人,得先花几个月去“盖房子”;现在,有了 SAGE,我们只要说一句话,它就能在几分钟内变出成千上万个物理完美、视觉逼真的房间,让机器人在里面疯狂练习,直到成为真正的“生活小能手”。

这不仅仅是生成图片,这是为机器人构建了一个无限可能的“训练场”,让 AI 从“纸上谈兵”真正走向“实战演练”。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →