LEGS-POMDP: Language and Gesture-Guided Object Search in Partially Observable Environments

이 논문은 불확실성이 존재하는 부분 관측 환경에서 언어, 제스처, 시각 정보를 통합하여 모호한 지시를 해석하고 목표 물체를 탐색하는 모듈식 POMDP 시스템인 LEGS-POMDP 를 제안하며, 시뮬레이션 및 실제 로봇 실험을 통해 기존 단일 모달리티 방법보다 뛰어난 성능을 입증합니다.

Ivy Xiao He, Stefanie Tellex, Jason Xinyu Liu

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🤖 1. 문제 상황: "어디에 있는 컵을 찾으라고?"

상상해 보세요. 로봇이 당신과 함께 방에 있습니다. 당신이 말합니다.

"저기, 빨간 컵 좀 가져와 줘."

하지만 문제는 다음과 같습니다:

  1. 모호한 말: "빨간 컵"이 여러 개 있을 수 있습니다.
  2. 정확하지 않은 손짓: 당신이 컵을 가리켰지만, 손가락이 살짝 흔들려서 컵 옆의 빨간 장난감도 가리키는 것 같습니다.
  3. 시야 제한: 로봇은 한 번에 방 전체를 볼 수 없고, 벽 뒤에 숨겨진 물건은 모릅니다.

기존의 최신 AI 로봇들은 말을 잘 이해하지만, "아직 확실하지 않아"라는 상황을 체계적으로 계산하며 계획을 세우는 데는 약점이 있습니다. 반면, 수학적인 계획 도구 (POMDP) 는 불확실성을 잘 다루지만, 인간의 복잡한 말이나 손짓을 이해하는 데는 한계가 있었습니다.

💡 2. 해결책: LEGS-POMDP (로봇의 '감각' 통합)

이 논문은 로봇에게 **세 가지 감각 (눈, 귀, 손)**을 하나로 묶어주는 새로운 시스템을 제안합니다.

  • LEGSLanguage (말), Eye (시각), Gesture (손짓), Search (찾기) 의 약자입니다.
  • POMDP는 로봇이 "내가 지금 어디에 있고, 물체가 어디 있을지 확률적으로 계산하며" 움직이게 하는 두뇌입니다.

🧩 핵심 비유: "수사관과 용의자"

이 시스템을 **수사관 (로봇)**이 **용의자 (찾을 물건)**를 찾는 과정으로 비유해 볼까요?

  1. 불완전한 정보: 수사관은 범인이 '빨간 옷'을 입었다고 들었습니다 (말). 하지만 범인이 서 있는 정확한 위치는 모릅니다.
  2. 손가락 가리키기: 목격자가 범인을 가리켰지만, 손가락이 흔들려서 범인뿐만 아니라 옆에 있는 사람도 가리킬 수 있습니다 (손짓).
  3. 확률 계산 (LEGS-POMDP 의 역할):
    • 기존 방식: "말대로 빨간 옷을 입은 사람"만 찾거나, "손가락이 가리키는 방향"만 쫓다가 헛걸음질칩니다.
    • LEGS-POMDP 방식: "아, 말은 '빨간 옷'을 말했지만, 손가락은 저쪽을 가리키고 있네. 두 정보를 합치면 저기 있는 사람이 범인일 확률이 가장 높겠다!"라고 계산합니다.
    • 만약 손가락이 실수로 다른 사람을 가리켰다면, 로봇은 "말과 손짓이 서로 모순되네? 그럼 더 자세히 살펴봐야겠다"라고 생각하며 추가 정보를 수집합니다.

🛠️ 3. 어떻게 작동할까요? (세 가지 감각의 조화)

로봇은 세 가지 정보를 **확률 (가능성)**로 변환하여 합칩니다.

  1. 눈 (시각): 로봇 카메라가 물체를 봅니다. 하지만 멀리 있거나 가려져 있으면 "아마도 저기 있을 거야"라고 추측합니다.
  2. 귀 (말): "컵"이라고 들으면, 로봇은 "컵"과 "머그잔"을 모두 후보로 생각합니다.
  3. 손 (손짓): 사람이 손가락을 뻗으면, 로봇은 손가락이 가리키는 **원뿔 모양 (Cone)**의 영역을 생각합니다. 손가락이 정확히 가리키지 않아도, 그 방향을 중심으로 확률을 계산합니다.

이 세 가지를 수학적으로 합치면 (Fusion), 로봇은 "아, 이 물체가 내가 찾는 대상일 확률이 90% 가 넘네!"라고 결론을 내리고 찾아갑니다.

📊 4. 실험 결과: "혼자보다 함께가 더 낫다"

연구진은 시뮬레이션과 실제 로봇 (Boston Dynamics 의 Spot) 으로 실험했습니다.

  • 혼자 할 때: 말만 들으면 헷갈리고, 손짓만 하면 방향을 잘못 잡을 수 있습니다.
  • 함께 할 때 (LEGS-POMDP): 말과 손짓을 함께 사용하면 성공률이 **89%**까지 치솟았습니다.
  • 실제 로봇: 실제 방에서 로봇이 말을 듣고 손짓을 따라가며 물건을 찾는 모습을 보였는데, 혼란스러운 상황에서도 잘 대처했습니다.

🌟 5. 결론: 왜 이 연구가 중요한가요?

이 연구는 로봇이 인간처럼 "모호함"을 처리하는 법을 가르쳤습니다.

  • 기존 AI: "정확한 데이터가 아니면 못 해!"라고 포기하거나, 잘못된 데이터를 믿고 엉뚱한 곳으로 갔습니다.
  • LEGS-POMDP: "정보는 불완전하지만, 여러 가지를 합쳐서 가장 그럴듯한 답을 찾아보자!"라고 유연하게 대처합니다.

한 줄 요약:

이 논문은 로봇에게 **"말과 손짓을 동시에 듣고, 불확실한 상황에서도 확률을 계산해 가장 그럴듯한 물건을 찾아내는 똑똑한 두뇌"**를 심어주었습니다. 이제 로봇은 "어디에 있어?"라고 물었을 때, "모르겠어요"라고 답하는 대신, "여기 있을 것 같은데, 한번 더 확인해 볼까요?"라고 답하며 찾아낼 수 있게 되었습니다.