HAMMER: Harnessing MLLM via Cross-Modal Integration for Intention-Driven 3D Affordance Grounding

이 논문은 이미지 내 상호작용 의도를 텍스트 기반 어포던스 라벨로 변환하고, 계층적 교차 모달 통합 및 다중 세분화 기하학적 리프팅 모듈을 활용하여 3D 객체의 어포던스 위치를 정확하게 추정하는 새로운 프레임워크 HAMMER 를 제안합니다.

Lei Yao, Yong Chen, Yuejiao Su, Yi Wang, Moyun Liu, Lap-Pui Chau

게시일 2026-03-04
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"HAMMER"**라는 새로운 인공지능 시스템을 소개합니다. 이 시스템의 핵심 임무는 **"사물이 어떻게 쓰일 수 있는지 (사용 가능성, Affordance)"**를 3D 공간에서 정확히 찾아내는 것입니다.

예를 들어, 의자 사진을 보면 "앉을 수 있는 곳"이 어디인지, 컵을 보면 "잡을 수 있는 손잡이"가 어디인지 3D 점구름 (Point Cloud) 데이터 위에서 정확히 표시해내는 기술입니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


🛠️ HAMMER: 3D 사물의 '사용법'을 찾아주는 스마트 망치

1. 기존 방식의 문제점: "눈만 믿는 실수"

기존의 인공지능들은 3D 물체를 볼 때 두 가지 방법 중 하나를 썼는데, 둘 다 한계가 있었습니다.

  • 방법 A (텍스트 생성형): "이건 의자야, 앉을 수 있어"라고 텍스트로 설명을 만들어낸 뒤, 그 설명을 3D 에 적용하려 했습니다. 하지만 이 과정이 너무 복잡하고, 설명이 부정확하면 3D 위치도 엉망이 됩니다.
  • 방법 B (2D 마스크 투영): 2D 이미지에서 "여기다 손이 닿았네"라고 표시한 뒤, 그걸 3D 공간으로 뒤집어 (Back-projection) 붙이는 방식입니다. 마치 2D 그림을 3D 입체로 만들려다 보니, 모양이 왜곡되거나 중요한 디테일이 사라지는 실수가 자주 발생했습니다.

2. HAMMER 의 혁신: "직관과 공간 감각의 완벽한 조화"

HAMMER 는 이 두 가지 방식을 버리고, 인간의 직관을 모방했습니다.

비유: "숙련된 목공과 설계사의 협업"

  • MLLM (거대한 언어 모델) = '직관적인 목공'

    • HAMMER 는 거대한 언어 모델 (MLLM) 을 '직관적인 목공'으로 부릅니다. 이 목공은 물체의 사진을 보고 "아, 이 부분은 손잡이로 쓰일 거야", "이건 앉는 곳이야"라고 직관적으로 이해합니다.
    • 중요한 점은, 이 목공이 "의자"라는 텍스트를 길게 설명하는 게 아니라, **"어디를 잡아야 하는지"에 대한 느낌 (Embedding)**을 바로 만들어낸다는 것입니다.
  • 3D 점구름 = '미완성된 3D 모형'

    • 컴퓨터가 가진 3D 데이터는 점들이 모여 있는 미완성 모형과 같습니다. 이 모형은 모양은 있지만, "어디가 손잡이인지"에 대한 정보가 없습니다.
  • HAMMER 의 역할 = '두 전문가를 연결하는 설계사'
    HAMMER 는 이 두 가지를 연결하는 스마트 설계사 역할을 합니다.

    1. 의도 파악 (Intention Embedding): 목공 (MLLM) 이 "여기 잡아야 해"라고 손가락으로 가리키는 느낌 (Contact-aware embedding) 을 3D 모형에 전달합니다.
    2. 교차 통합 (Cross-Modal Integration): 3D 모형의 점들 하나하나에 "목공의 직관"을 주입합니다. 마치 3D 모형의 각 점에 "너는 손잡이야!"라고 속삭여 주는 것과 같습니다.
    3. 기하학적 승격 (Geometry Lifting): 여기서 HAMMER 의 가장 큰 마법이 일어납니다. 목공의 직관은 2D 이미지에서 왔기 때문에 깊이 (3D 공간감) 가 부족합니다. HAMMER 는 3D 모형의 **세밀한 모양 (기하학적 특징)**을 다시 목공의 직관에 섞어줍니다.
      • 비유: "손잡이로 잡아야 해"라는 직관에 "이 부분은 둥글고 튀어나와서 잡기 좋네"라는 3D 공간 정보를 더해서, 정확히 3D 공간 어디에 표시해야 할지 완벽하게 계산해냅니다.

3. 왜 HAMMER 가 더 뛰어난가?

  • 오염된 데이터에도 강함 (Robustness):

    • 실제 세상에서는 3D 스캐너가 고장 나거나, 물체에 먼지가 끼거나, 일부가 잘려서 데이터가 깨질 때가 많습니다.
    • 기존 방식들은 이런 '깨진 데이터 (Corrupted Data)'를 보면 당황해서 엉뚱한 곳에 표시를 했습니다.
    • 하지만 HAMMER 는 직관 (목공의 느낌) 과 3D 구조 (설계도의 모양) 를 동시에 보기 때문에, 데이터가 조금 깨져도 "아, 이 부분은 원래 손잡이였겠지"라고 추론하여 여전히 정확한 위치를 찾아냅니다.
  • 새로운 사물도 잘 이해함 (Generalization):

    • 훈련 과정에서 본 적 없는 완전히 새로운 형태의 의자나 컵이 나와도, HAMMER 는 "이건 손잡이처럼 생겼으니 잡을 수 있겠네"라고 유추하여 정확한 위치를 찾아냅니다.

📝 한 줄 요약

HAMMER 는 거대한 인공지능 (MLLM) 이 가진 '직관'과 3D 데이터가 가진 '공간 감각'을 결합하여, 비록 데이터가 조금 깨지거나 낯선 물체라도 "어디를 어떻게 잡아야 하고, 어디에 앉아야 하는지"를 3D 공간에서 정확히 찾아내는 똑똑한 시스템입니다.

이 기술은 로봇이 물건을 다룰 때, 혹은 증강현실 (AR) 에서 사물과 상호작용할 때 매우 중요한 역할을 할 것으로 기대됩니다.