PartSAM: A Scalable Promptable Part Segmentation Model Trained on Native 3D Data

이 논문은 2D 모델의 간접적 전수가 아닌 대규모 3D 데이터와 모델 기반 주석 파이프라인을 활용하여 학습된 최초의 프롬프트 기반 3D 부분 분할 모델인 PartSAM 을 제안하며, 이를 통해 기존 방법론을 크게 능가하는 정밀한 표면 및 내부 구조 분해 능력을 입증합니다.

Zhe Zhu, Le Wan, Rui Xu, Yiheng Zhang, Honghua Chen, Zhiyang Dou, Cheng Lin, Yuan Liu, Mingqiang Wei

게시일 2026-02-27
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

PartSAM: 3D 물체를 '조립'하고 '분해'하는 새로운 마법사

이 논문은 컴퓨터 비전 분야에서 오랫동안 해결되지 않았던 난제, **"3D 물체를 의미 있는 부분으로 나누는 일"**을 해결한 획기적인 모델 PartSAM을 소개합니다.

기존의 방법들이 왜 실패했는지, 그리고 PartSAM 이 어떻게 그 문제를 해결했는지 일상적인 비유를 들어 쉽게 설명해 드리겠습니다.


1. 기존 방법들의 문제점: "2D 사진으로 3D 를 유추하는 실수"

지금까지 3D 물체를 분해하는 AI 들은 주로 **2D 이미지 모델 (예: SAM)**의 도움을 받았습니다. 마치 "3D 인형의 사진을 여러 각도에서 찍어서, 그 사진들을 이어 붙여 3D 인형을 재구성하는" 방식이었습니다.

하지만 이 방식에는 치명적인 결함이 있었습니다.

  • 표면만 보는 눈: 사진은 3D 물체의 '겉면'만 보여줍니다. 인형의 속을 파고들거나, 옷 안의 장난감, 혹은 의자 다리 안쪽의 구조를 볼 수 없습니다.
  • 잘게 찢어지는 문제: 2D 사진을 이어 붙이다 보니, 물체가 조각조각 나거나 엉뚱한 부분끼리 붙는 경우가 많았습니다.
  • 새로운 물체에는 무력: 훈련받지 않은 새로운 형태의 3D 물체 (예: AI 가 만든 이상한 모양의 의자) 가 나오면 아예 분해하지 못했습니다.

비유: 마치 레고 블록으로 만든 성을 분해하려는데, 성벽의 그림자만 보고 "여기서 저기까지가 문이야"라고 추측하는 것과 같습니다. 안쪽의 기둥이나 숨겨진 방은 전혀 알 수 없죠.


2. PartSAM 의 등장: "3D 세계 태생의 마법사"

PartSAM 은 2D 사진을 빌려오는 대신, 수백만 개의 3D 데이터로 직접 학습한 최초의 모델입니다. 마치 3D 세계 자체에서 태어나 자란 마법사처럼, 물체의 속까지 꿰뚫어 봅니다.

핵심 기술 1: "투명한 유리로 된 지도" (Triplane Encoder)

PartSAM 은 물체를 점 (Point) 나면 (Mesh) 으로만 보지 않습니다. 대신 물체 전체를 **투명한 3D 공간 (트라이플레인)**으로 감싸고, 그 공간 안에 물체의 모든 특징을 저장합니다.

  • 비유: 3D 물체를 투명한 유리상자 안에 넣고, 그 상자 벽에 물체의 모든 디테일 (색깔, 모양, 질감) 을 그려 넣은 것과 같습니다. 그래서 유리상자를 비추면 안쪽의 복잡한 구조까지 한눈에 보입니다.

핵심 기술 2: "두뇌의 두 가지 모드" (Dual-Branch Encoder)

PartSAM 은 두 가지 지식을 동시에 활용합니다.

  1. 고정된 지능 (Frozen Branch): 2D 이미지에서 배운 풍부한 지식 (예: "바퀴는 둥글다", "문은 네모다") 을 그대로 가져옵니다.
  2. 학습 중인 지능 (Learnable Branch): 3D 데이터에서 직접 배운 새로운 지식 (예: "이 AI 가 만든 이상한 의자의 다리는 어떻게 생겼지?") 을 습득합니다.
  • 비유: 经验丰富的 요리사새로운 레시피를 배우는 상황입니다. 기존에 익힌 기본기 (2D 지식) 는 그대로 유지하면서, 새로운 재료 (3D 데이터) 에 맞춰 요리법을 발전시키는 것입니다.

핵심 기술 3: "스스로 학습하는 데이터 공장" (Model-in-the-Loop)

이 모델은 500 만 개 이상의 3D 물체를 학습했습니다. 하지만 이런 데이터는 사람이 일일이 손으로 분할하기엔 너무 많습니다.

  • 해결책: PartSAM 이 먼저 대략적으로 분할하고, 그 결과를 다시 모델이 스스로 검토하며 "이건 맞다/틀리다"를 판단하는 자동 공장을 가동했습니다.
  • 비유: 스스로 자라나는 정원에서, AI 가 "이 꽃은 꽃잎이 5 장이니까 5 개로 나누자"라고 스스로 판단하고, 틀린 부분은 스스로 고쳐가며 거대한 데이터 정원을 만들어낸 것입니다.

3. PartSAM 의 놀라운 능력

이 모델은 두 가지 방식으로 작동합니다.

① "한 번 클릭으로 완벽 분해" (Interactive Segmentation)

사용자가 물체의 어느 한 점만 클릭하면, PartSAM 은 그 점을 기준으로 물체의 해당 부분을 정확히 찾아냅니다.

  • 예시: 자동차 모델의 '바퀴' 한 점을 클릭하면, 바퀴 전체가 선택됩니다. 심지어 바퀴 안쪽의 숨겨진 볼트나 내부 구조까지 정확히 인식합니다.
  • 기존 모델과의 차이: 기존 모델은 클릭하면 바퀴만 선택하거나, 바퀴와 차체가 섞여 선택되곤 했습니다. PartSAM 은 **"이건 바퀴야, 저건 차체야"**를 명확히 구분합니다.

② "모든 부분을 자동으로 찾아내기" (Segment Every Part)

사용자가 아무것도 클릭하지 않아도, PartSAM 은 물체를 **의미 있는 부분들 (바퀴, 문, 손잡이, 내부 구조 등)**로 자동으로 쪼개줍니다.

  • 비유: 레고 상자를 열자마자, AI 가 "이건 바퀴, 이건 창문, 이건 지붕"이라고 말하며 완벽하게 분류해 주는 것과 같습니다.
  • 특이점: AI 가 만든 이상한 3D 모델이나, 안쪽이 보이지 않는 물체 (예: 옷을 입은 로봇) 의 속까지 분해할 수 있습니다. 기존 모델은 옷을 입은 로봇의 속을 볼 수 없었지만, PartSAM 은 옷을 벗겨내지 않아도 속을 볼 수 있습니다.

4. 왜 이것이 중요한가요?

이 기술은 미래의 3D 세상을 바꿀 것입니다.

  • AR/VR: 가상 현실에서 물건을 고장 나게 하거나, 부품을 교체할 때 정확한 분해가 가능해집니다.
  • 로봇 공학: 로봇이 물건을 잡을 때, "손잡이" 부분을 정확히 인식하여 안전하게 들 수 있습니다.
  • 게임/영화: 복잡한 3D 캐릭터나 배경을 자동으로 분해하여 애니메이션을 만들거나 수정하는 작업이 훨씬 쉬워집니다.

요약

PartSAM은 **"2D 사진으로 3D 를 추측하던 시대"**를 끝내고, **"3D 세계 자체를 이해하고 분해하는 시대"**를 열었습니다. 마치 투명한 유리상자를 통해 물체의 속까지 꿰뚫어 보며, 한 번의 클릭이나 자동 분해로 어떤 3D 물체든 의미 있는 부분으로 나누어주는 초능력의 마법사라고 생각하시면 됩니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →