PartSAM: A Scalable Promptable Part Segmentation Model Trained on Native 3D Data

本文提出了首个基于大规模原生 3D 数据训练的提示性部件分割模型 PartSAM,它通过三平面双分支编码器架构和自研的模型循环标注管线,克服了现有基于 2D 迁移方法的局限,实现了对 3D 物体表面及内部结构的高精度开放世界部件分割。

Zhe Zhu, Le Wan, Rui Xu, Yiheng Zhang, Honghua Chen, Zhiyang Dou, Cheng Lin, Yuan Liu, Mingqiang Wei

发布于 2026-02-27
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 PartSAM 的新技术,你可以把它想象成给 3D 世界装上了一双“超级透视眼”和一把“智能手术刀”。

为了让你更容易理解,我们把这篇论文的核心内容拆解成几个生动的故事:

1. 以前的难题:只能看皮,不能看骨

在电脑视觉领域,想要把一个 3D 物体(比如一把椅子、一辆车)自动拆分成它的各个零件(椅背、轮子、引擎),一直是个大难题。

  • 旧方法像“贴贴纸”:以前的技术(比如把 2D 的分割模型强行用到 3D 上)就像是在一个 3D 模型表面贴了很多张 2D 的贴纸。它们只能看清物体表面的样子。如果你让它去识别汽车内部的方向盘,或者被衣服遮住的机器人手臂,它们就“瞎”了,因为那些东西在表面看不见。
  • 旧方法像“盲人摸象”:还有些方法靠“猜”(聚类),就像让一群人闭着眼睛摸大象,然后猜哪里是耳朵、哪里是腿。如果大象形状奇怪,或者没有明确的边界,他们就会把大象切成一堆乱七八糟的碎片,根本分不清什么是“腿”,什么是“尾巴”。

2. PartSAM 的绝招: native 3D 的“原生大脑”

PartSAM 的厉害之处在于,它不是靠“贴贴纸”或“瞎猜”,而是直接在 3D 世界里长大的

  • 吃的是“真 3D 大餐”:以前的模型是吃 2D 图片长大的,而 PartSAM 吃的是500 万个真实的 3D 模型和它们的零件标签。这就像是一个厨师,以前只能看菜谱(2D 图片)做菜,现在直接进了食材仓库(3D 数据),亲手摸过、切过几百万个真实的物体。所以,它不仅能看懂表面,还能理解内部结构(比如汽车里的引擎、被遮挡的零件)。
  • 双引擎驱动:它的“大脑”有两个部分。
    • 一个部分继承了 2D 模型(SAM)的直觉,擅长看表面细节。
    • 另一个部分专门学习3D 空间感,擅长理解物体的内部和整体结构。
    • 这两个部分联手,既保留了看表面的敏锐,又拥有了理解 3D 深度的智慧。

3. 怎么教它?:AI 自己当老师(Model-in-the-Loop)

要训练这样一个超级模型,需要海量的数据。但是,给 500 万个 3D 模型一个个手动标注零件,人类根本忙不过来。

  • 以前的困境:很多 3D 模型是艺术家做的,零件碎得像拼图一样,或者连在一起分不清。
  • PartSAM 的解法:作者设计了一个"AI 互教互学"的流水线。
    1. 先用一部分好数据训练一个基础模型。
    2. 让基础模型去尝试分割那些很难的、破碎的模型。
    3. 再用一个更聪明的模型去检查基础模型的分割结果。如果基础模型切得准,就保留;切得烂,就扔掉。
    4. 就这样,AI 自己给自己“洗数据”,最终整理出了500 多万个高质量的 3D 零件对。这就像是一个学徒在师傅的指导下,自己整理出了几百万本完美的教科书。

4. 它能做什么?:指哪打哪,自动拆解

PartSAM 有两个超能力模式:

  • 模式一:指哪打哪(交互式分割)

    • 就像你在手机上点一下“分割”一样。你在 3D 模型上点一下“椅背”,它立马就把椅背高亮显示出来。
    • 厉害之处:以前的模型点一下可能只切出一小块,或者切错。PartSAM 只需要点一下,就能精准地把整个“椅背”(包括被遮挡的部分)完整地切出来。它的准确率比之前的冠军模型高了**90%**以上!
  • 模式二:自动拆解(Segment-Every-Part)

    • 如果你不想点,直接说“把这个车拆了”,它就能自动把车拆成轮子、车门、引擎等所有零件。
    • 厉害之处:它不仅能拆表面,还能拆内部。比如给一个穿着长袍的机器人,它能自动把长袍下面的身体、手臂、甚至藏在里面的机械结构都拆分开,而不会像以前的模型那样只看到长袍。

5. 总结:为什么这很重要?

这就好比以前我们看 3D 模型只能看个“皮囊”,现在 PartSAM 让我们能直接看到 3D 物体的“骨骼”和“内脏”。

  • 对游戏和电影:可以快速把复杂的 3D 角色拆分成零件,方便动画师单独调整手臂或表情。
  • 对机器人:机器人能更清楚地理解它抓取的物体是由哪些部分组成的,从而更灵活地操作(比如只拿杯子把手,不碰杯身)。
  • 对 AI 生成:现在 AI 生成的 3D 模型往往是一团乱麻,PartSAM 能帮它们自动理清结构,让 AI 生成的模型变得真正可用。

一句话总结
PartSAM 是一个在 3D 世界里“土生土长”的超级分割专家,它通过海量数据训练,不仅能一眼看穿物体的表面,还能透视内部结构,无论是你点一下让它切,还是让它自动把物体拆得七零八落,它都能做得又快又准。这是迈向"3D 世界通用人工智能”的一大步。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →