LEGS-POMDP: Language and Gesture-Guided Object Search in Partially Observable Environments

Each language version is independently generated for its own context, not a direct translation.

🤖 1. 문제 상황: "어디에 있는 컵을 찾으라고?"

상상해 보세요. 로봇이 당신과 함께 방에 있습니다. 당신이 말합니다.

"저기, 빨간 컵 좀 가져와 줘."

하지만 문제는 다음과 같습니다:

모호한 말: "빨간 컵"이 여러 개 있을 수 있습니다.
정확하지 않은 손짓: 당신이 컵을 가리켰지만, 손가락이 살짝 흔들려서 컵 옆의 빨간 장난감도 가리키는 것 같습니다.
시야 제한: 로봇은 한 번에 방 전체를 볼 수 없고, 벽 뒤에 숨겨진 물건은 모릅니다.

기존의 최신 AI 로봇들은 말을 잘 이해하지만, "아직 확실하지 않아"라는 상황을 체계적으로 계산하며 계획을 세우는 데는 약점이 있습니다. 반면, 수학적인 계획 도구 (POMDP) 는 불확실성을 잘 다루지만, 인간의 복잡한 말이나 손짓을 이해하는 데는 한계가 있었습니다.

💡 2. 해결책: LEGS-POMDP (로봇의 '감각' 통합)

이 논문은 로봇에게 **세 가지 감각 (눈, 귀, 손)**을 하나로 묶어주는 새로운 시스템을 제안합니다.

LEGS는 Language (말), Eye (시각), Gesture (손짓), Search (찾기) 의 약자입니다.
POMDP는 로봇이 "내가 지금 어디에 있고, 물체가 어디 있을지 확률적으로 계산하며" 움직이게 하는 두뇌입니다.

🧩 핵심 비유: "수사관과 용의자"

이 시스템을 **수사관 (로봇)**이 **용의자 (찾을 물건)**를 찾는 과정으로 비유해 볼까요?

불완전한 정보: 수사관은 범인이 '빨간 옷'을 입었다고 들었습니다 (말). 하지만 범인이 서 있는 정확한 위치는 모릅니다.
손가락 가리키기: 목격자가 범인을 가리켰지만, 손가락이 흔들려서 범인뿐만 아니라 옆에 있는 사람도 가리킬 수 있습니다 (손짓).
확률 계산 (LEGS-POMDP 의 역할):
- 기존 방식: "말대로 빨간 옷을 입은 사람"만 찾거나, "손가락이 가리키는 방향"만 쫓다가 헛걸음질칩니다.
- LEGS-POMDP 방식: "아, 말은 '빨간 옷'을 말했지만, 손가락은 저쪽을 가리키고 있네. 두 정보를 합치면 저기 있는 사람이 범인일 확률이 가장 높겠다!"라고 계산합니다.
- 만약 손가락이 실수로 다른 사람을 가리켰다면, 로봇은 "말과 손짓이 서로 모순되네? 그럼 더 자세히 살펴봐야겠다"라고 생각하며 추가 정보를 수집합니다.

🛠️ 3. 어떻게 작동할까요? (세 가지 감각의 조화)

로봇은 세 가지 정보를 **확률 (가능성)**로 변환하여 합칩니다.

눈 (시각): 로봇 카메라가 물체를 봅니다. 하지만 멀리 있거나 가려져 있으면 "아마도 저기 있을 거야"라고 추측합니다.
귀 (말): "컵"이라고 들으면, 로봇은 "컵"과 "머그잔"을 모두 후보로 생각합니다.
손 (손짓): 사람이 손가락을 뻗으면, 로봇은 손가락이 가리키는 **원뿔 모양 (Cone)**의 영역을 생각합니다. 손가락이 정확히 가리키지 않아도, 그 방향을 중심으로 확률을 계산합니다.

이 세 가지를 수학적으로 합치면 (Fusion), 로봇은 "아, 이 물체가 내가 찾는 대상일 확률이 90% 가 넘네!"라고 결론을 내리고 찾아갑니다.

📊 4. 실험 결과: "혼자보다 함께가 더 낫다"

연구진은 시뮬레이션과 실제 로봇 (Boston Dynamics 의 Spot) 으로 실험했습니다.

혼자 할 때: 말만 들으면 헷갈리고, 손짓만 하면 방향을 잘못 잡을 수 있습니다.
함께 할 때 (LEGS-POMDP): 말과 손짓을 함께 사용하면 성공률이 **89%**까지 치솟았습니다.
실제 로봇: 실제 방에서 로봇이 말을 듣고 손짓을 따라가며 물건을 찾는 모습을 보였는데, 혼란스러운 상황에서도 잘 대처했습니다.

🌟 5. 결론: 왜 이 연구가 중요한가요?

이 연구는 로봇이 인간처럼 "모호함"을 처리하는 법을 가르쳤습니다.

기존 AI: "정확한 데이터가 아니면 못 해!"라고 포기하거나, 잘못된 데이터를 믿고 엉뚱한 곳으로 갔습니다.
LEGS-POMDP: "정보는 불완전하지만, 여러 가지를 합쳐서 가장 그럴듯한 답을 찾아보자!"라고 유연하게 대처합니다.

한 줄 요약:

이 논문은 로봇에게 **"말과 손짓을 동시에 듣고, 불확실한 상황에서도 확률을 계산해 가장 그럴듯한 물건을 찾아내는 똑똑한 두뇌"**를 심어주었습니다. 이제 로봇은 "어디에 있어?"라고 물었을 때, "모르겠어요"라고 답하는 대신, "여기 있을 것 같은데, 한번 더 확인해 볼까요?"라고 답하며 찾아낼 수 있게 되었습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

로봇이 인간의 지시를 받아 개방형 (open-world) 환경에서 원하는 물체를 찾아야 할 때, 다음과 같은 주요 도전 과제가 존재합니다.

불완전한 지시 (Ambiguous Instructions): 인간의 언어는 모호할 수 있고, 제스처 (가리킴) 는 정밀하지 않을 수 있으며, 센서 노이즈로 인해 지각이 불확실합니다.
불확실성 모델링의 부재: 기존 기초 모델 (Foundation Model) 기반 접근법은 멀티모달 지각에는 탁월하지만, 장기적 (long-horizon) 작업에서의 불확실성을 체계적으로 모델링하거나 확률적 추론을 수행하는 데 한계가 있습니다.
기존 POMDP 의 한계: 부분 관찰 마르코프 결정 과정 (POMDP) 은 불확실성 하의 계획 수립에 강력한 프레임워크를 제공하지만, 주로 언어에만 의존하거나 테이블탑 (tabletop) 과 같은 제한된 환경 가정에 머무르는 경향이 있습니다.

이 논문은 언어와 제스처를 결합하여 불완전 관찰 환경에서 물체를 검색하는 문제를 해결하기 위해 새로운 프레임워크를 제안합니다.

2. 방법론 (Methodology: LEGS-POMDP)

저자들은 LEGS-POMDP라는 모듈형 POMDP 프레임워크를 제안합니다. 이는 언어, 제스처, 시각 관측을 통합하여 불확실성을 관리하고 최적의 행동을 계획합니다.

A. POMDP 공식화

작업을 POMDP 튜플 $(S, A, T, O, Z, R, \gamma)$ 로 정의하며, 두 가지 주요 불확실성 소스를 명시적으로 모델링합니다.

상태 공간 (State Space): 로봇의 위치 ( $s_r$ ) 와 숨겨진 목표 물체의 위치 ( $s_o$ ) 를 포함합니다. 물체의 범주보다는 '목표'인지 '방해물'인지에 대한 인간 의도에 기반한 라벨링을 사용합니다.
행동 공간 (Action Space): 이동 ( $a_{move}$ ), 관측 수집 ( $a_{look}$ ), 종료/발견 ( $a_{find}$ ) 의 세 가지 클래스로 구성됩니다.
관측 모델 (Observation Model): 언어 ( $o_l$ $o_{l}$ ), 제스처 ( $o_g$ $o_{g}$ ), 시각 ( $o_v$ $o_{v}$ ) 의 세 가지 모달리티를 통합합니다. 각 모달리티는 후보 물체에 대한 확률적 가능도 (likelihood) 로 모델링되며, 로그 공간 (log-space) 에서 가중 합산되어 결합 관측 분포를 형성합니다.
- 수식: $\log Z(o|s) = w_v \log P_v(o_v|s) + w_g \log P_g(o_g|s) + w_l \log P_l(o_l|s)$
- 이 방식은 베이지안 belief update 를 통해 각 모달리티의 불확실성을 정량적으로 반영합니다.

B. 세부 관측 모델링

시각 (Visual): 카메라의 시야각과 거리에 따른 감쇠를 고려한 부채꼴 (fan-shaped) 센서 모델을 사용합니다. 물체가 시야 중심에 있고 적절한 거리에 있을 때 탐지 확률이 높습니다.
언어 (Language): 자동 음성 인식 (ASR) 오류와 모호성을 고려하여, 자연어 지시와 후보 물체 간의 의미적 유사도 ( $\kappa$ ) 를 확률적 신호로 변환합니다.
제스처 (Gesture): 인간의 가리킴 제스처는 단일 벡터가 아니라 눈 - 손목, 어깨 - 손목, 팔꿈치 - 손목 등 여러 해부학적 랜드마크의 평균 벡터를 기반으로 한 **확률적 원뿔 (probabilistic cone)**으로 모델링합니다. 이는 제스처의 변이와 노이즈를 효과적으로 포착합니다.

C. 계획 수립 (Planning)

PO-UCT (Partially Observable UCT): 몬테카를로 트리 탐색 (MCTS) 알고리즘을 사용하여 현재 belief 상태에서 시뮬레이션된 궤적을 기반으로 탐색 (exploration) 과 활용 (exploitation) 을 균형 있게 수행합니다. 이는 시뮬레이션과 실제 로봇 (Boston Dynamics Spot) 모두에 적용됩니다.

3. 주요 기여 (Key Contributions)

이중 불확실성 모델링: 목표 물체의 정체성 (인간 의도) 과 공간적 위치에 대한 두 가지 불확실성을 명시적으로 모델링하는 POMDP 프레임워크를 제안했습니다.
모듈형 멀티모달 관측 모델: 언어, 제스처, 시각을 확률적 가능도로 표현하고 베이지안 업데이트에 통합하는 모듈형 설계를 통해, 개별 지각 모듈의 교체나 업그레이드가 가능하면서도 해석 가능성 (interpretability) 을 유지합니다.
광범위한 평가 및 실증: 다양한 모달리티 조건과 환경 복잡도 하에서의 시뮬레이션 평가와 4 족 이동 매니퓰레이터 (Boston Dynamics Spot) 를 통한 실제 로봇 실험을 통해 프레임워크의 유효성을 입증했습니다.

4. 실험 결과 (Results)

A. 모듈 평가 (Modular Evaluation)

제스처: 단일 벡터 (예: 어깨 - 손목) 보다 제스처 원뿔 (Gesture Cone) 모델이 평균 각도 오차 ($14.4^\circ$) 와 커버리지 정확도 (0.89) 에서 가장 우수한 성능을 보였습니다.
시각/언어: 탐지 기반 (GroundingDINO) 보다 Set-of-Marks (SoM, SAM2 + GPT-4o) 기반의 접근법이 모호한 지시 (단일 속성 또는 공간 관계) 에 대해 더 높은 지각 정확도 (Grounding Acc) 를 보였습니다.

B. 시스템 평가 (System Evaluation)

솔버 비교: PO-UCT 솔버가 Heuristic 나 Greedy 방식보다 불확실성 하에서 훨씬 높은 성공률 (96%) 을 보였습니다.
모달리티 융합:
- 멀티모달 (언어 + 제스처): 평균 성공률 89% ± 7%, 평균 단계 수 76.8, 평균 시간 16.7 초로 가장 우수한 성능을 보였습니다.
- 단일 모달리티: 언어만 (71%), 제스처만 (61%) 사용 시 성능이 떨어졌으며, 지시 없음 (No Input) 은 48% 로 급감했습니다.
- 오류 처리: 잘못된 제스처나 언어 입력은 belief 상태를 오염시켜 성공률을 극도로 낮췄으나, 멀티모달 융합은 이러한 오류에 대한 견고성 (robustness) 을 보여주었습니다.

C. 실제 로봇 실험

Boston Dynamics Spot 로봇을 사용하여 10x10 그리드 환경에서 실험했습니다.
멀티모달 입력 (G+L) 은 엔트로피 (불확실성) 를 **60.8%**까지 감소시켰으며, 이는 단일 모달리티 (시각 30.1%, 언어 34.2%) 보다 훨씬 효과적이었습니다.
실제 환경에서 모호한 지시를 해석하고 목표 물체를 성공적으로 찾는 것을 질적으로 검증했습니다.

5. 의의 및 결론 (Significance & Conclusion)

이론적 의의: 기초 모델의 강력한 지각 능력과 POMDP 의 체계적인 불확실성 관리 능력을 결합하여, 개방형 환경에서의 인간 - 로봇 상호작용 (HRI) 에 새로운 패러다임을 제시했습니다.
실용적 의의: 모듈형 설계로 인해 새로운 로봇 하드웨어나 환경에 대한 데이터 수집 없이도 지각 모듈만 교체하여 적용 가능합니다.
한계 및 향후 작업: 현재 모달리티 간의 조건부 독립을 가정하고 있어 (예: 지시어와 가리킴의 정렬 관계 무시), 향후 더 풍부한 멀티모달 통합 (촉각, 아이콘 제스처 등) 과 자연스러운 환경에서의 사용자 연구를 계획하고 있습니다.

결론적으로, LEGS-POMDP 는 모호한 인간 지시를 해석하고 불확실한 환경에서 효율적으로 물체를 탐색하는 데 있어 멀티모달 융합의 필수성과 확률적 계획 수립의 중요성을 강력하게 입증했습니다.