BEACON: Language-Conditioned Navigation Affordance Prediction under Occlusion

Each language version is independently generated for its own context, not a direct translation.

🏠 상황 설정: 어두운 방과 가려진 목표물

상상해 보세요. 로봇이 복잡한 거실에 있습니다. 주인은 로봇에게 **"식탁 뒤에 있는 빈 공간으로 가라"**라고 말합니다.
하지만 문제는, 로봇이 카메라로 보는 앞에는 식탁과 사람이 있어서 그 '빈 공간'이 완전히 가려져 (Occlusion) 있다는 것입니다.

기존의 로봇들은 "눈에 보이는 것만 믿고" 움직입니다. 그래서 "식탁 뒤에 뭐가 있는지 모르니, 그냥 식탁 앞이나 가자"라고 생각하거나, 벽을 향해 돌진해 버립니다.

🚨 기존 방법의 한계: "눈에 보이는 것만 믿는 나침반"

지금까지의 최신 기술 (VLM 이라고 부릅니다) 은 마치 카메라 렌즈에 비친 화면만 보고 길을 찾는 사람과 같습니다.

문제: 화면에 식탁 뒤에 빈 공간이 안 보이면, 그 존재를 인정하지 못합니다.
결과: 로봇은 가려진 목표물을 찾지 못하거나, 벽 (통과할 수 없는 곳) 을 향해 가버립니다.

🌟 BEACON 의 등장: "눈을 감고도 지도를 그리는 천재"

이 논문이 제안한 BEACON은 완전히 다른 방식을 사용합니다. 카메라 화면 (2 차원) 에만 의존하지 않고, **로봇이 서 있는 위치를 중심으로 아래를 내려다본 지도 (비행기에서 본 듯한 BEV, Bird's-Eye View)**를 그립니다.

이를 쉽게 비유하자면 다음과 같습니다.

1. "투명한 유리 바닥" 비유

BEACON 은 로봇이 서 있는 바닥이 투명한 유리라고 상상합니다.

기존 로봇: 유리 위에 놓인 가구를 보고 "여기 가려져 있네"라고만 생각합니다.
BEACON 로봇: 투명한 유리를 통해 가구 아래에 있는 공간까지 볼 수 있습니다. 식탁 뒤에 빈 공간이 있다는 것을 '지식'과 '깊이 (Depth)' 정보를 합쳐서 추론해냅니다.

2. "지도와 나침반"의 결합

BEACON 은 두 가지 능력을 동시에 사용합니다.

언어 이해 (나침반): "식탁 뒤에 가라"는 말의 의미를 이해합니다.
기하학적 추론 (지도): 카메라로 찍은 깊이 정보 (RGB-D) 를 이용해 3 차원 공간 지도를 그립니다.
이 두 가지를 합치면, **"말로는 저기라고 했지만, 눈에는 안 보이지만 지도상으로는 저기 빈 공간이 있구나!"**라고 결론 내릴 수 있습니다.

🛠️ BEACON 이 어떻게 작동할까요? (3 단계 과정)

3D 위치 감각 익히기: 로봇이 "내 왼쪽 앞"이라는 말을 들을 때, 단순히 화면의 왼쪽이 아니라, 자신의 몸 기준 3 차원 공간에서 어디인지 정확히 파악하도록 훈련시킵니다.
지도 그리기 (BEV): 카메라로 본 사각형 이미지를, 로봇이 아래를 내려다본 원형 지도로 변환합니다. 이때 가구에 가려진 부분도 '빈 공간일 가능성이 높은 곳'으로 채워 넣습니다.
안전한 길 찾기: 지도 위에 "여기로 가라"는 신호 (히트맵) 를 켭니다. 이때 벽이나 장애물 위로는 절대 신호를 켜지 않습니다. (이게 바로 '통과 가능성'을 보장하는 부분입니다.)

📊 결과가 어땠나요?

실험 결과, BEACON 은 기존 방법들보다 약 22% 이상 더 정확하게 목표 지점을 찾았습니다. 특히, 목표물이 가려져 있는 상황에서는 그 차이가 훨씬 더 컸습니다.

기존 방법: 벽을 향해 가거나, 가려진 곳을 못 찾음.
BEACON: 가려진 공간이 어디인지 추론해서, 정확히 그 빈 공간으로 이동함.

💡 핵심 요약

이 논문은 **"로봇이 눈에 보이지 않는 곳도 상상할 수 있게 하는 기술"**을 개발했습니다.

마치 장님 친구가 지팡이로 바닥을 짚으며 (깊이 정보), 친구가 말한 방향 (언어) 을 듣고 가려진 의자 뒤의 빈 자리를 찾아내는 것과 같습니다. BEACON 은 로봇에게 그런 '상상력'과 '공간 감각'을 심어주어, 복잡한 집안일이나 재난 구조 상황에서도 더 똑똑하고 안전하게 움직이게 해줍니다.

한 줄 요약:

"보이지 않는 장애물 뒤의 길을, 지도를 그려서 찾아내는 똑똑한 로봇 나침반 BEACON!"

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

이 논문은 언어 기반 국소 내비게이션 (Language-Conditioned Local Navigation) 과 가려짐 (Occlusion) 문제를 해결하는 데 중점을 둡니다.

목표: 로봇이 자연어 명령 (예: "식탁 뒤로 가서 왼쪽으로 돌아라") 과 현재 관찰 데이터를 바탕으로, 이동 가능한 (traversable) 국소 목표 지점을 추론해야 합니다.
주요 난제: 기존 비전 - 언어 모델 (VLM) 기반의 공간 그라운딩 (Spatial Grounding) 방법들은 주로 이미지 공간 (2D 픽셀) 에서 예측을 수행합니다. 따라서 가구가 사람 등에 의해 목표 지점이 가려진 (occluded) 경우, 가시적인 픽셀에만 의존하는 기존 모델은 목표 위치를 추론하는 데 실패합니다.
제안: 로봇이 현재 시점에서 보이지 않는 영역까지 포함하여, 이동 가능한 공간의 확률 분포를 예측할 수 있는 새로운 접근법이 필요합니다.

2. 제안 방법론: BEACON

저자들은 BEACON을 제안합니다. 이는 가려진 환경에서도 언어 명령에 따라 로봇 중심의 조류의 눈 (Bird's-Eye View, BEV) affordance 히트맵을 예측하는 모델입니다.

핵심 구성 요소

Ego-Aligned Vision-Language Model (VLM):
- 3D 위치 인코딩: 단일 뷰 RGB-D 이미지에서 추출된 비전 토큰에 로봇 중심의 3D 위치 정보 ( $x, y, z$ ) 를 주입하여 공간 이해력을 향상시킵니다.
- 자동 유도된 지시 미세 조정 (Auto-Derived Ego-Centric Instruction Tuning): 1 단계 학습에서 목표 지점을 '방향 (Front, Left 등)'과 '거리 (Small, Big)'로 변환된 텍스트로 학습시켜, 로봇의 관점에서 공간 언어를 이해하도록 합니다.
- [NAV] 토큰: 명령에 따른 요약 임베딩을 생성하여 후속 BEV 예측에 활용합니다.
Geometry-Aware Bird's-Eye View Encoder (기하학적 인식 BEV 인코더):
- 이중 소스 특징 융합:
  - 이미지 특징 ( $F^{Img}_{BEV}$ ): 깊이 정보를 이용해 2D 이미지를 지면 (Ground Plane) 에 투영하여 얻은 특징.
  - 기하학적 특징 ( $F^{Geom}_{BEV}$ ): 깊이 포인트를 볼리제이션 (Voxelization) 하고 3D 합성곱 (SECOND 기반) 으로 인코딩한 특징.
- 가드 (Gate) 메커니즘: 현재 관찰된 '자유 공간 (Free Space)' 정보를 기반으로, 이미지 특징과 기하학적 특징의 가중치를 동적으로 조절하는 게이트 ( $G$ ) 를 학습합니다. 이를 통해 가려진 영역에서는 기하학적 추론을, 가시 영역에서는 시각적 세부 정보를 우선시합니다.
Post-Fusion Affordance Decoder:
- VLM 에서 추출한 언어 조건부 특징과 BEV 인코더의 공간 특징을 융합하여, 밀도 높은 BEV affordance 히트맵을 생성합니다.
지오데식 목표 영역 감독 (Geodesic Target Region Supervision):
- 단순한 점 (Point) 예측이 아닌, 지오데식 거리 (이동 가능 경로를 따른 거리) 를 기반으로 한 영역 (Region) 을 양수로 정의하여 학습합니다. 이는 벽이나 장애물과 같은 비이동 가능 영역에 대한 명시적인 부정 (Negative) 학습을 포함하여 구조적 유효성을 보장합니다.

3. 주요 기여 (Key Contributions)

BEV 기반 Affordance 예측: 이미지 공간이 아닌, 로봇 중심의 BEV 공간에서 가려진 목표를 포함한 국소 내비게이션 affordance 히트맵을 예측하는 단일 시간 단계 (Single-timestep) 방법을 제안했습니다.
Ego-Aligned VLM 및 BEV 설계: 3D 위치 인코딩과 자동 유도 미세 조정을 통해 VLM 의 공간 이해력을 향상시키고, BEV 공간의 기하학적 구조를 명시적으로 모델링하여 가려짐에 강인한 아키텍처를 설계했습니다.
성능 검증: Habitat 시뮬레이터에서 구축된 가려짐 인식 데이터셋을 통해, 기존 SOTA 이미지 공간 기반 방법론 대비 가려진 목표 하에서 22.74%p의 정확도 향상을 입증했습니다.

4. 실험 결과 (Results)

데이터셋: Habitat 시뮬레이터 기반의 Landmark-RxR 데이터를 변형하여 생성되었으며, 가려진 목표 (Occluded-target) 하위 집합 (약 35%) 을 별도로 평가했습니다.
성능 비교 (Table I):
- 전체 검증 세트: BEACON 은 **GeoAcc 57.72%**를 기록하여, 차세대 이미지 공간 기반 베이스라인 (RoboRefer-8B-SFT, 38.00%) 보다 크게 우위를 보였습니다.
- 가려진 목표 하위 집합: BEACON 은 **GeoAcc 45.36%**를 기록하여, 기존 최선 방법 (RoboRefer-8B-SFT, 25.45%) 보다 22.74%p 향상되었습니다.
- 구조적 유효성 (SIR): 비이동 가능 영역 (벽 등) 에 예측하는 비율 (SIR) 을 기존 방법의 21.49% 에서 **2.60%**로 획기적으로 낮췄습니다.
Ablation Study (Table II & III):
- BEV 인코더와 BEV 출력 모듈을 모두 제거할 경우 성능이 급격히 하락하여, BEV 공간 모델링의 중요성을 입증했습니다.
- 단순 지도 학습 (Supervised adaptation) 만으로는 BEACON 의 성능 향상을 설명할 수 없으며, 제안된 설계 요소들의 시너지 효과가 필수적임을 보였습니다.

5. 의의 및 결론 (Significance & Conclusion)

가려짐 해결: 로봇이 현재 시야에 보이지 않는 목표 위치를 언어와 3D 기하학적 단서를 통해 추론할 수 있는 능력을 갖추게 되었습니다.
안전한 내비게이션: BEV affordance 히트맵을 통해 이동 가능한 공간과 장애물을 명확히 구분하여, 로봇이 벽이나 물체 내부로 이동하려는 오류를 방지합니다.
향후 과제: 시뮬레이션 환경에서의 뛰어난 성능을 바탕으로, 실제 로봇의 surround-view RGB-D 센서 데이터와 자연어 명령을 매칭한 실세계 (Real-world) 평가가 다음 단계로 제시되었습니다.

요약하자면, BEACON 은 VLM 의 언어 이해 능력과 BEV 기반의 3D 기하학적 추론을 결합하여, 복잡한 실내 환경에서 가려진 목표를 정확하게 찾아가는 로봇 내비게이션의 새로운 표준을 제시한 연구입니다.