HeRO: Hierarchical 3D Semantic Representation for Pose-aware Object Manipulation

이 논문은 DINOv2 와 Stable Diffusion 의 특징을 결합한 계층적 의미장을 통해 기하학적 구조와 부분별 의미를 동시에 표현하는 확산 기반 정책 HeRO 를 제안하여, 자세 인식 물체 조작 작업에서 새로운 최첨단 성능을 달성했다고 요약할 수 있습니다.

Chongyang Xu, Shen Cheng, Haipeng Li, Haoqiang Fan, Ziliang Feng, Shuaicheng Liu

게시일 2026-02-24
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🤖 로봇의 새로운 눈: "HeRO"란 무엇인가요?

기존의 로봇들은 물건을 볼 때 마치 흑백 사진을 보는 것과 비슷했습니다. "저게 구름 모양이니까 구름을 잡아야지"라고 생각할 수는 있지만, "구름의 왼쪽 끝이랑 오른쪽 끝이 다르다"거나 "신발의 발가락 부분과 뒤꿈치는 역할이 다르다"는 걸 구분하지 못했습니다.

그래서 로봇이 신발을 정리할 때, 발가락 방향을 맞춰야 하는데 뒤꿈치를 먼저 잡아서 신발을 거꾸로 꽂아버리는 실수를 자주 했습니다.

HeRO는 이 문제를 해결하기 위해 로봇에게 두 가지 눈을 동시에 열어준 기술입니다.

1. 두 가지 눈의 만남 (DINOv2 + Stable Diffusion)

HeRO 는 두 가지 유명한 AI 모델을 합쳐서 로봇의 시력을 업그레이드했습니다.

  • 첫 번째 눈 (DINOv2): "세밀한 관찰자"
    • 이 눈은 물체의 자세한 특징을 잘 봅니다. 마치 미니어처를 만드는 장인처럼, 신발의 발가락 끝과 뒤꿈치의 미세한 차이, 컵의 손잡이 모양을 아주 정교하게 구분합니다. 하지만 전체적인 흐름은 조금 어수선할 수 있습니다.
  • 두 번째 눈 (Stable Diffusion): "전체적인 조화자"
    • 이 눈은 전체적인 분위기를 잘 봅니다. "이건 신발이야, 저건 컵이야"라고 큰 그림을 그리고, 물체 전체가 매끄럽게 연결되도록 도와줍니다. 하지만 아주 작은 부분까지 세세하게 보기는 어렵습니다.

HeRO 의 마법: 이 두 눈을 하나로 합쳤습니다. "세밀한 관찰자"가 미세한 부분 (발가락, 손잡이) 을 정확히 짚어주고, "전체적인 조화자"가 그 부분들이 물체 전체에서 자연스럽게 이어지도록 만들어줍니다. 결과적으로 로봇은 물체의 어떤 부분이 어디에 있는지를 아주 정확하고 매끄럽게 이해하게 됩니다.

2. 지도를 두 단계로 나누기 (계층적 조건부 학습)

기존 로봇들은 물체 전체를 하나의 큰 덩어리로만 봐서 ("전체 지도") 세부적인 명령을 내리기 힘들었습니다. HeRO 는 이를 두 단계의 지도로 바꿨습니다.

  • 전체 지도 (Global Field): "이건 신발이야, 컵이야"라는 큰 맥락을 파악합니다.
  • 세부 지도 (Local Fields): "이 부분은 발가락, 저 부분은 뒤꿈치, 저기는 손잡이야"라고 부위별로 나누어 따로따로 봅니다.

비유하자면:

  • 기존 로봇: "집을 짓는 데 필요한 나무 전체를 한 번에 보다가, 기둥을 어디에 박을지 헷갈려서 망친다."
  • HeRO 로봇: "집의 전체 구조를 먼저 보고 (전체 지도), 그다음 '기둥 부분', '지붕 부분', '문 부분'으로 나누어 각각의 역할을 정확히 파악한 후 (세부 지도) 작업을 시작한다."

3. 순서 상관없는 지시 (Permutation-Invariant)

여러 개의 부위 (발가락, 뒤꿈치, 손잡이 등) 를 로봇에게 알려줄 때, 기존 방식은 "1 번은 발가락, 2 번은 뒤꿈치"라고 순서대로 알려주면, 로봇이 순서를 외워서 "1 번은 무조건 발가락이야!"라고 착각하는 문제가 있었습니다. (다른 신발은 1 번이 뒤꿈치일 수도 있는데 말이죠.)

HeRO 는 **"순서 상관없이, 어떤 부위가 어떤 역할을 하는지"**만 알려줍니다. 마치 요리사가 레시피를 볼 때 "재료 순서대로 넣지 말고, 필요한 재료가 있으면 그때그때 넣으면 돼"라고 배우는 것과 같습니다. 그래서 어떤 모양의 신발이 나오든, 어떤 컵이 나오든 유연하게 대처할 수 있습니다.


🏆 실제 성과: 얼마나 잘해냈나요?

이 기술을 적용한 로봇은 여러 가지 어려운 테스트에서 **최고의 기록 (State-of-the-Art)**을 세웠습니다.

  • 신발 정리하기: 두 켤레의 신발을 발가락 방향을 맞춰 정리하는 작업에서, 기존 기술보다 12.3% 더 많이 성공했습니다. (기존 로봇은 신발을 거꾸로 꽂는 실수를 자주 했지만, HeRO 는 정확히 맞췄습니다.)
  • 컵 걸기: 컵의 손잡이를 고리에 정확히 걸어야 하는 작업에서도 큰 개선을 보였습니다.
  • 실제 로봇 실험: 컴퓨터 시뮬레이션뿐만 아니라, 실제 로봇 팔을 이용해 실험했을 때도 가장 높은 성공률을 보였습니다.

💡 한 줄 요약

HeRO는 로봇에게 "물체의 모양"만 보는 것이 아니라, **"물체의 각 부분이 어떤 역할을 하는지"**를 세밀하게 이해하도록 가르친 기술입니다. 마치 세밀한 관찰력전체적인 통찰력을 모두 갖춘 마스터 장인처럼, 로봇이 복잡한 물건을 정확하게 다루도록 도와줍니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →