ScanDP: Generalizable 3D Scanning with Diffusion Policy

이 논문은 인간과 유사한 스캔 전략을 모방하는 확산 정책 (Diffusion Policy) 과 점유 그리드 매핑을 결합하여, 기존 강화학습 기반 방법들의 데이터 비효율성과 일반화 한계를 극복하고 다양한 미지의 물체에 대해 높은 커버리지와 효율성을 보장하는 범용 3D 스캐닝 프레임워크인 ScanDP 를 제안합니다.

Itsuki Hirako, Ryo Hakoda, Yubin Liu, Matthew Hwang, Yoshihiro Sato, Takeshi Oishi

게시일 2026-03-12
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

ScanDP: 로봇이 '사람처럼' 사물을 완벽하게 스캔하는 새로운 방법

이 논문은 **"ScanDP"**라는 새로운 3D 스캔 기술을 소개합니다. 쉽게 말해, **"로봇이 사람의 손놀림을 흉내 내면서, 처음 보는 물체도 실수 없이 빠르고 정확하게 3D 데이터로 만드는 방법"**입니다.

기존의 기술들이 겪던 문제와 이 새로운 기술이 어떻게 해결했는지, 일상적인 비유를 들어 설명해 드릴게요.


1. 왜 이 기술이 필요한가요? (기존의 문제점)

지금까지 3D 스캔은 크게 두 가지 방식으로 이루어졌습니다.

  • 규칙 기반 (Rule-based): "왼쪽에서 오른쪽으로, 위아래로 지그재그로 움직여라"라는 엄격한 명령을 내리는 방식입니다.
    • 비유: 마치 초보 운전자가 정해진 코스만 따라가는 것과 같습니다. 복잡한 길이나 예상치 못한 장애물이 나오면 당황해서 멈추거나, 같은 곳을 반복해서 지나치게 됩니다.
  • 학습 기반 (RL - 강화학습): 로봇이 스스로 시행착오를 겪으며 배웁니다.
    • 비유: 수천 번의 사고를 겪으며 운전법을 익히는 것입니다. 특정 차종 (물체) 에서는 잘하지만, 전혀 다른 차종 (새로운 물체) 이 나오면 다시 0 부터 배워야 하므로 시간이 너무 오래 걸립니다.

핵심 문제: 기존 기술들은 새로운 물체가 나오면 당황하거나, 센서 잡음 (노이즈) 에 약해 엉뚱한 곳으로 이동하는 등 불안정했습니다.


2. ScanDP 의 핵심 아이디어: "사람의 눈과 뇌를 모방한다"

이 연구팀은 로봇에게 "엄격한 규칙"이나 "무작위 시행착오" 대신, 사람이 물체를 스캔할 때 보이는 자연스러운 행동을 가르쳤습니다.

① "점구름" 대신 "지도 (OGM)"를 사용하다

기존의 3D 스캔 기술은 카메라가 찍은 점들의 뭉치 (Point Cloud) 를 그대로 분석했습니다. 하지만 이 점들은 센서 잡음 때문에 흔들리거나 끊어지기 쉽습니다.

  • 비유: 점구름 방식은 **"흐릿한 안개 속에서 손으로 만져보는 것"**과 같습니다. 손이 닿는 순간은 알 수 있지만, 전체 그림은 흐릿합니다.
  • ScanDP 의 방식: 대신 **3D 격자 지도 (Occupancy Grid Map, OGM)**를 사용합니다.
    • 비유: **"안개 낀 날에도 차분히 쌓아 올린 지도"**입니다. 한 번 찍은 데이터가 흔들려도, 여러 번 찍은 데이터를 합치면 (베이즈 업데이트) "여기는 물체가 있다", "여기는 비어있다"는 확률을 점진적으로 높여가며 명확한 지도를 완성합니다. 덕분에 센서 잡음이 있어도 로봇이 길을 잃지 않습니다.

② "확산 정책 (Diffusion Policy)"으로 사람의 손놀림을 배우다

로봇은 사람이 스캔하는 영상 (데모 데이터) 을 보고 학습합니다. 이때 **'확산 모델 (Diffusion Model)'**이라는 AI 기술을 썼습니다.

  • 비유: 소금에 절인 생선에서 소금을 빼내어 원래 생선으로 되돌리는 과정과 비슷합니다. 처음에는 무작위 소음 (무작위 움직임) 에서 시작해, 점차 노이즈를 제거하며 가장 자연스럽고 효율적인 사람의 손길을 복원해냅니다.
  • 효과: 아주 적은 양의 데이터 (사람이 스캔한 5 개 정도의 영상) 만으로도, 전혀 다른 모양의 물체가 나오더라도 사람처럼 유연하게 대응할 수 있습니다.

③ "거품 (Bubble)"로 충돌을 방지하다

로봇이 물체에 부딪히지 않도록 하는 안전장치도 도입했습니다.

  • 비유: 로봇 카메라 주변에 **투명한 거품 (Bubble)**을 하나 씌운다고 상상해 보세요. 이 거품이 물체 (장애물) 에 닿기 직전까지 안전하다고 판단합니다.
  • 효과: 로봇이 "아, 여기는 너무 가까우니까 피해야지"라고 스스로 판단하여 부드럽고 안전한 경로를 찾아갑니다.

3. 실제 결과는 어떨까요?

이 기술은 다양한 실험에서 놀라운 성과를 보였습니다.

  • 새로운 물체에도 강함: 훈련할 때 본 '토끼 (Stanford Bunny)' 모양만 가르쳤는데, 훈련하지 않은 '용', '얼룩말', '얼룩진 얼룩말' 같은 전혀 다른 물체도 97% 이상을 완벽하게 스캔했습니다. (기존 기술은 70~80% 수준에서 멈추거나 길을 잃었습니다.)
  • 잡음에 강함: 센서 데이터에 잡음이 섞여도 (비나 안개 상황), 지도를 계속 업데이트하므로 실수 없이 스캔을 완료했습니다.
  • 효율성: 불필요하게 같은 곳을 반복하거나, 엉뚱한 곳으로 이동하는 '지그재그' 움직임을 줄여 이동 거리를 32% 이상 단축했습니다.

4. 한 줄 요약

ScanDP는 로봇에게 "엄격한 규칙"을 주입하는 대신, **"사람이 물체를 관찰하는 자연스러운 눈과 뇌 (지도 + 확산 모델)"**를 심어주어, 처음 보는 물체도 실수 없이, 빠르게, 안전하게 3D 로 복제하게 만든 혁신적인 기술입니다.

이 기술이 상용화되면, 박물관의 귀한 유물을 스캔하거나 공장의 복잡한 기계를 점검할 때 사람이 직접 손을 대지 않아도 로봇이 스스로 완벽하게 데이터를 수집할 수 있게 될 것입니다.