PARSE: Part-Aware Relational Spatial Modeling

该论文提出了名为 PARSE 的框架,通过引入以部件为中心的装配图(PAG)和空间配置求解器来显式建模物体部件间的几何交互,并基于此构建了包含 10,000 个 3D 室内场景的 PARSE-10K 数据集,从而显著提升了视觉语言模型的布局推理能力以及 3D 场景生成的物理一致性与结构复杂性。

Yinuo Bai, Peijun Xu, Kuixiang Shao, Yuyang Jiao, Jingxuan Zhang, Kaixin Yao, Jiayuan Gu, Jingyi Yu

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 PARSE 的新框架,以及基于它构建的一个超大规模数据集 PARSE-10K

为了让你轻松理解,我们可以把构建一个真实的 3D 房间想象成玩一个超高难度的“乐高积木”游戏

1. 以前的问题:只有“大概”的指令

在 PARSE 出现之前,AI 在理解物体关系时,就像是一个只懂大词、不懂细节的“糊涂管家”

  • 旧方法:当你对管家说“把书在桌子上”时,管家只知道书和桌子有关系,但不知道书是封面朝下书脊朝上,还是侧着放
  • 后果:AI 生成的场景虽然看起来像那么回事,但经不起推敲。书可能会“穿”进桌子里,或者像悬浮一样飘在空中,因为 AI 不知道书具体是用哪一面接触桌子的。这就像你搭乐高时,只说了“把这块拼在那块上”,却没说怎么拼,结果拼出来摇摇欲坠。

2. PARSE 的核心:给每个积木都贴上“零件标签”

PARSE 的核心理念是:不要只看整个物体,要看物体的“零件”

  • PART 级思维
    想象一下,椅子不再只是一个“椅子”的标签,它被拆解成了“椅腿”、“坐垫”、“靠背”。
    • 当我们要放一个杯子时,PARSE 不会只说“杯子在桌上”,它会精确地指挥:"杯子的底部(零件 A)必须紧紧贴在桌子的上表面(零件 B)上。”
  • PAG(零件组装图)
    这是 PARSE 的大脑。它像一张精密的乐高说明书。这张图不仅告诉你有哪些积木(物体),还详细规定了每个积木的哪个“小凸起”(零件表面)必须和另一个积木的哪个“凹槽”(接触面)扣在一起。
    • 这就好比从“把书放在桌上”这种模糊指令,升级成了“把书的封面下边缘对齐桌子的前边缘"。

3. 它的“超级助手”:空间配置求解器

有了这张精密的说明书(PAG),PARSE 还有一个超级机器人助手(Part-Aware Spatial Configuration Solver)。

  • 这个助手的工作是按顺序搭积木。它先搭好地基(比如地板),然后根据说明书,把第一个物体(比如桌子)稳稳地放好。
  • 接着,它拿着说明书,寻找下一个物体(比如椅子),并精确计算:“椅子的必须落在地板的特定区域,且不能碰到桌子的"。
  • 通过这种从粗到细的推理,它排除了所有不可能的位置,最终算出一个既不会撞车、又符合物理常识的完美摆放方案。

4. PARSE-10K:一个巨大的“乐高图书馆”

为了训练 AI 学会这种“看零件搭积木”的本领,作者们用 PARSE 框架生成了 10,000 个 极其逼真的 3D 室内场景,这就是 PARSE-10K 数据集。

  • 这不仅仅是 1 万个房间,而是 1 万个**带有详细“零件接触图”**的房间。
  • 每个房间里的物体,从书到锤子,从杯子到书架,它们的每一个接触点(比如“杯底接触桌面”、“书脊靠着书架”)都被详细记录了下来。
  • 这就好比给 AI 提供了一本包含 1 万个完美乐高搭建案例的百科全书,而且每一页都画出了每一个小零件是如何咬合的。

5. 成果:AI 变聪明了

作者用这个数据集去“特训”了一个叫 Qwen3-VL 的 AI 模型,效果惊人:

  • 看图说话更准了:以前 AI 可能分不清“书是平放还是斜靠”,现在它能精准识别出“书的封面接触了桌面的左上角”。
  • 生成场景更真实了:当让 AI 生成新场景时,它不再让物体“悬浮”或“穿模”。生成的场景里,物体之间的接触非常自然,就像真实世界里物理法则在起作用一样。

总结

简单来说,PARSE 就是给 AI 戴上了一副显微镜,让它不再只看物体的“大轮廓”,而是能看清物体之间具体的接触点

  • 以前:AI 像是在蒙眼搭积木,大概知道谁挨着谁,但经常搭歪。
  • 现在:AI 像是拿着精密图纸的乐高大师,知道每一个零件的哪个面必须贴在一起,从而搭建出既稳固又复杂的真实世界。

这项技术让 AI 在理解空间关系、规划机器人动作(比如怎么拿杯子不洒)以及生成逼真的 3D 世界方面,迈出了巨大的一步。