HAMMER: Harnessing MLLM via Cross-Modal Integration for Intention-Driven 3D Affordance Grounding

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"HAMMER"**라는 새로운 인공지능 시스템을 소개합니다. 이 시스템의 핵심 임무는 **"사물이 어떻게 쓰일 수 있는지 (사용 가능성, Affordance)"**를 3D 공간에서 정확히 찾아내는 것입니다.

예를 들어, 의자 사진을 보면 "앉을 수 있는 곳"이 어디인지, 컵을 보면 "잡을 수 있는 손잡이"가 어디인지 3D 점구름 (Point Cloud) 데이터 위에서 정확히 표시해내는 기술입니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

🛠️ HAMMER: 3D 사물의 '사용법'을 찾아주는 스마트 망치

1. 기존 방식의 문제점: "눈만 믿는 실수"

기존의 인공지능들은 3D 물체를 볼 때 두 가지 방법 중 하나를 썼는데, 둘 다 한계가 있었습니다.

방법 A (텍스트 생성형): "이건 의자야, 앉을 수 있어"라고 텍스트로 설명을 만들어낸 뒤, 그 설명을 3D 에 적용하려 했습니다. 하지만 이 과정이 너무 복잡하고, 설명이 부정확하면 3D 위치도 엉망이 됩니다.
방법 B (2D 마스크 투영): 2D 이미지에서 "여기다 손이 닿았네"라고 표시한 뒤, 그걸 3D 공간으로 뒤집어 (Back-projection) 붙이는 방식입니다. 마치 2D 그림을 3D 입체로 만들려다 보니, 모양이 왜곡되거나 중요한 디테일이 사라지는 실수가 자주 발생했습니다.

2. HAMMER 의 혁신: "직관과 공간 감각의 완벽한 조화"

HAMMER 는 이 두 가지 방식을 버리고, 인간의 직관을 모방했습니다.

비유: "숙련된 목공과 설계사의 협업"

MLLM (거대한 언어 모델) = '직관적인 목공'
- HAMMER 는 거대한 언어 모델 (MLLM) 을 '직관적인 목공'으로 부릅니다. 이 목공은 물체의 사진을 보고 "아, 이 부분은 손잡이로 쓰일 거야", "이건 앉는 곳이야"라고 직관적으로 이해합니다.
- 중요한 점은, 이 목공이 "의자"라는 텍스트를 길게 설명하는 게 아니라, **"어디를 잡아야 하는지"에 대한 느낌 (Embedding)**을 바로 만들어낸다는 것입니다.
3D 점구름 = '미완성된 3D 모형'
- 컴퓨터가 가진 3D 데이터는 점들이 모여 있는 미완성 모형과 같습니다. 이 모형은 모양은 있지만, "어디가 손잡이인지"에 대한 정보가 없습니다.
HAMMER 의 역할 = '두 전문가를 연결하는 설계사'
HAMMER 는 이 두 가지를 연결하는 스마트 설계사 역할을 합니다.
1. 의도 파악 (Intention Embedding): 목공 (MLLM) 이 "여기 잡아야 해"라고 손가락으로 가리키는 느낌 (Contact-aware embedding) 을 3D 모형에 전달합니다.
2. 교차 통합 (Cross-Modal Integration): 3D 모형의 점들 하나하나에 "목공의 직관"을 주입합니다. 마치 3D 모형의 각 점에 "너는 손잡이야!"라고 속삭여 주는 것과 같습니다.
3. 기하학적 승격 (Geometry Lifting): 여기서 HAMMER 의 가장 큰 마법이 일어납니다. 목공의 직관은 2D 이미지에서 왔기 때문에 깊이 (3D 공간감) 가 부족합니다. HAMMER 는 3D 모형의 **세밀한 모양 (기하학적 특징)**을 다시 목공의 직관에 섞어줍니다.
  - 비유: "손잡이로 잡아야 해"라는 직관에 "이 부분은 둥글고 튀어나와서 잡기 좋네"라는 3D 공간 정보를 더해서, 정확히 3D 공간 어디에 표시해야 할지 완벽하게 계산해냅니다.

3. 왜 HAMMER 가 더 뛰어난가?

오염된 데이터에도 강함 (Robustness):
- 실제 세상에서는 3D 스캐너가 고장 나거나, 물체에 먼지가 끼거나, 일부가 잘려서 데이터가 깨질 때가 많습니다.
- 기존 방식들은 이런 '깨진 데이터 (Corrupted Data)'를 보면 당황해서 엉뚱한 곳에 표시를 했습니다.
- 하지만 HAMMER 는 직관 (목공의 느낌) 과 3D 구조 (설계도의 모양) 를 동시에 보기 때문에, 데이터가 조금 깨져도 "아, 이 부분은 원래 손잡이였겠지"라고 추론하여 여전히 정확한 위치를 찾아냅니다.
새로운 사물도 잘 이해함 (Generalization):
- 훈련 과정에서 본 적 없는 완전히 새로운 형태의 의자나 컵이 나와도, HAMMER 는 "이건 손잡이처럼 생겼으니 잡을 수 있겠네"라고 유추하여 정확한 위치를 찾아냅니다.

📝 한 줄 요약

HAMMER 는 거대한 인공지능 (MLLM) 이 가진 '직관'과 3D 데이터가 가진 '공간 감각'을 결합하여, 비록 데이터가 조금 깨지거나 낯선 물체라도 "어디를 어떻게 잡아야 하고, 어디에 앉아야 하는지"를 3D 공간에서 정확히 찾아내는 똑똑한 시스템입니다.

이 기술은 로봇이 물건을 다룰 때, 혹은 증강현실 (AR) 에서 사물과 상호작용할 때 매우 중요한 역할을 할 것으로 기대됩니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

의도 기반 3D affordance grounding은 2D 상호작용 이미지 (예: 사람이 물건을 사용하는 모습) 를 관찰하여, 해당 물체의 3D 점군 (Point Cloud) 상에서 상호작용이 가능한 영역 (affordance region) 을 예측하는 작업입니다. 이는 로봇의 정교한 조작 (dexterous manipulation) 이나 증강현실 (AR) 등 다양한 응용 분야에서 필수적입니다.

기존 방법론들은 다음과 같은 한계를 가지고 있습니다:

생성 기반 (Generation-based): MLLM 을 사용하여 객체 속성이나 상호작용 맥락을 텍스트로 생성한 후 이를 융합하는 방식 (예: GREAT) 은 수동 주석이 필요한 템플릿과 2 단계 학습 파이프라인이 필요하며, MLLM 의 강력한 2D 이해 능력을 충분히 활용하지 못합니다.
렌더링 기반 (Render-based): 점군을 2D 평면에 렌더링하여 2D 마스크를 생성하고 이를 3D 로 역투영하는 방식 (예: InteractVLM) 은 기하학적 불일치와 세부 정보 손실, 오차 누적 문제가 발생합니다.
공통된 문제: 2D 이미지에서 추출된 상호작용 의도 (intention) 정보가 3D 공간적 위치 (spatial localization) 를 정확히 파악하기 위한 기하학적 정보가 부족하다는 점입니다.

2. 방법론 (Methodology)

저자들은 HAMMER라는 새로운 프레임워크를 제안하며, MLLM 의 능력을 활용하여 이미지 기반 상호작용 의도를 추출하고 이를 3D 점군 특징과 정교하게 통합합니다. 주요 구성 요소는 다음과 같습니다.

A. affordance-Guided Intention Embedding (의도 기반 임베딩 추출)

MLLM 활용: 입력된 상호작용 이미지를 MLLM (Qwen2.5-VL) 에 입력합니다.
특수 토큰 ([CONT]): 상호작용 관련 정보를 집계하기 위해 특수 토큰 [CONT] 를 어휘에 추가합니다.
객체 중심 프롬프트: 텍스트 프롬프트에 객체 카테고리 라벨을 포함시켜 모델이 관련 객체 의미와 맥락에 집중하도록 유도합니다.
보조 작업: MLLM 이 텍스트로 affordance 라벨을 생성하도록 하여, 모델이 객체 의미와 맥락적 단서를 충분히 파악하도록 지도 학습 (language modeling loss) 을 수행합니다.
결과: 이미지에서 추출된 '접촉 인식 의도 임베딩 (contact-aware intention embedding, $f_c$ )'을 생성합니다.

B. Hierarchical Cross-Modal Integration (계층적 교차 모드 통합)

목적: 3D 점군 특징이 부족한 의미론적 및 상호작용 정보를 보충하기 위해 MLLM 의 은닉 상태 (hidden states) 를 활용합니다.
2 단계 전략:
1. 병목 단계 (Bottleneck Stage): 3D 인코더의 특징과 MLLM 의 특징을 Cross-Attention 을 통해 융합하여, 각 점 (point) 이 관련 상호작용 단서에 선택적으로 주의를 기울이도록 합니다.
2. 특징 수준 정제 (Feature-level Refinement): 디코더를 통해 복원된 다중 스케일 3D 특징에 전역적 의미 (global descriptor) 를 추가하여 객체 수준의 의미론적 정렬을 강화합니다.
효과: 서로 다른 모달리티 간의 불일치를 완화하고 일관된 특징 표현을 유도합니다.

C. Multi-Granular Geometry Lifting (다중 입자 기하학적 리프팅)

문제: MLLM 에서 추출된 2D 기반 의도 임베딩 ( $f_c$ ) 은 기하학적 세부 정보가 부족하여 정확한 3D 위치 파악이 어렵습니다.
해결: 3D 특징 추출기에서 얻은 다중 스케일 (multi-scale) 기하학적 특징을 점진적으로 의도 임베딩에 주입합니다.
메커니즘: Attention 메커니즘을 사용하여 2D 임베딩을 3D 공간적 특징 (coarse structure to fine-grained details) 과 결합합니다. 이를 통해 의도 임베딩이 3D 공간 인식 능력을 갖추게 되어 정밀한 affordance 국소화가 가능해집니다.

D. Affordance Decoding

정제된 3D 점 특징과 3D 인식 능력을 갖춘 의도 임베딩을 결합하여 최종 affordance 맵 (확률 분포) 을 예측합니다.

3. 주요 기여 (Key Contributions)

HAMMER 프레임워크 제안: 중간 텍스트나 2D 마스크 생성 없이, MLLM 에서 추출한 '접촉 인식 의도 임베딩'을 계층적 교차 모드 통합 메커니즘을 통해 3D 표현을 풍부하게 하는 새로운 아키텍처를 제안했습니다.
다중 입자 기하학적 리프팅 모듈: 의도 임베딩에 다양한 수준의 공간적 단서를 주입하여 3D affordance 국소화의 정확도를 높이는 모듈을 개발했습니다.
강건성 검증: 기존 표준 데이터셋 (PIAD, PIADv2) 과 저자들이 새로 구축한 손상된 (corrupted) 벤치마크 (노이즈, 드롭아웃 등 포함) 에서 HAMMER 가 기존 방법론보다 뛰어난 성능과 강건성을 입증했습니다.

4. 실험 결과 (Results)

성능 향상:
- PIAD 데이터셋: 'Seen' 분할에서 aIOU 가 22.20 (GREAT 대비 +1.69%), 'Unseen' 분할에서 13.71 (GREAT 대비 +5.39%) 로 SOTA 방법론들을 능가했습니다.
- PIADv2 데이터셋: Seen, Unseen Object, Unseen Affordance 모든 분할에서 가장 높은 성능을 기록했습니다. 특히 Unseen Object 에서 5.12% 의 큰 향상을 보였습니다.
강건성 (Robustness):
- 점군에 스케일, 지터 (jitter), 회전, 드롭아웃 등 다양한 노이즈를 인가한 손상된 벤치마크에서 GREAT 를 포함한 기존 방법론보다 모든 조건에서 월등히 높은 성능을 보였습니다. 이는 HAMMER 가 실제 환경의 불완전한 데이터에서도 안정적으로 작동함을 의미합니다.
Ablation Study:
- 의도 가이드 프롬프트, 계층적 통합, 기하학적 리프팅 모듈이 각각 성능에 긍정적인 영향을 미치며, 특히 'Unseen' 설정에서 그 중요성이 두드러졌습니다.
- MLLM 의 언어 부분을 LoRA 로 파인튜닝하는 것이 전체 MLLM 을 고정하는 것보다 일반화 성능을 크게 향상시켰습니다.

5. 의의 및 결론 (Significance)

이 논문은 MLLM 의 강력한 다중 모달 이해 능력을 3D affordance grounding 작업에 효과적으로 적용한 선구적인 연구입니다.

기술적 혁신: 2D 이미지에서 추출된 추상적인 '의도'를 3D 기하학적 정보와 정교하게 결합하여, 중간 표현 (중간 텍스트나 2D 마스크) 없이 직접 3D 공간으로 매핑하는 새로운 패러다임을 제시했습니다.
실용적 가치: 로봇이 새로운 물체나 상호작용 방식을 처음 접했을 때 (Unseen scenario) 도, 그리고 센서 노이즈가 있는 환경에서도 정확하게 상호작용 영역을 파악할 수 있도록 하여, 실제 로봇 조작 및 embodied AI 시스템의 발전에 기여합니다.
향후 과제: 복잡한 장면 수준의 affordance grounding 으로 확장하고, 미묘한 시각적 단서를 구별하는 능력을 더욱 강화하는 방향으로 연구가 진행될 예정입니다.

요약하자면, HAMMER 는 MLLM 의 지능을 활용하여 2D 의도 정보를 3D 공간 정보로 변환하고 정제함으로써, 기존 방법론의 한계를 극복하고 정확성과 강건성을 동시에 달성한 획기적인 모델입니다.