REI-Bench: Can Embodied Agents Understand Vague Human Instructions in Task Planning?

이 논문은 비전문가 (노인 및 어린이) 가 자주 사용하는 모호한 지시어 (REs) 가 로봇 작업 계획 성능을 크게 저하시킨다는 문제를 제기하고, 이를 해결하기 위해 실용적 이론에 기반한 벤치마크 'REI-Bench'와 작업 지향적 맥락 인지 기법을 제안합니다.

Chenxi Jiang, Chuhao Zhou, Jianfei Yang

게시일 2026-03-12
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🤖 로봇이 "그거"라고만 하면 당황하는 이유: REI-BENCH 논문 설명

이 논문은 **"로봇이 인간의 막연한 지시를 얼마나 잘 이해할 수 있을까?"**라는 아주 실용적인 질문에서 시작합니다.

우리가 로봇에게 "그것을 치워줘"라고 말하면, 로봇은 "어떤 '그것'을 말하는 거지? 책상 위의 컵일까, 바닥에 떨어진 장난감일까?"라고 혼란에 빠집니다. 이 논문은 바로 그 **'막연함 (Vagueness)'**이 로봇의 계획 수립 능력을 얼마나 크게 망가뜨리는지 분석하고, 이를 해결하는 새로운 방법을 제안합니다.


🍳 1. 문제 상황: "무거운 거"를 치워줘!

상상해 보세요. 부엌에서 요리 중입니다.

  • 명확한 지시: "냄비 (Pot) 를 싱크대로 옮겨줘." → 로봇은 정확히 냄비를 집어갑니다.
  • 막연한 지시: "그 무거운 거 (The heavy stuff) 를 밖으로 옮겨줘." → 로봇은 당황합니다. 냄비일 수도 있지만, 무거운 식재료일 수도 있고, 심지어 식기세척기일 수도 있습니다.

이런 **'지시어 (Referring Expressions)'**가 명확하지 않을 때, 로봇은 무엇을 해야 할지 헷갈려서 엉뚱한 것을 가져오거나 아예 작업을 멈춥니다. 특히 노인이나 아이처럼 말을 간결하게 하거나 문맥에 의존하는 사람들과 로봇이 대화할 때 이 문제는 더 심각해집니다.

📉 로봇의 실수율

연구팀은 로봇에게 이런 막연한 지시를 주며 실험했습니다. 결과는 충격적이었습니다.

  • 로봇이 명확한 지시를 받았을 때: 성공률 높음
  • 로봇이 막연한 지시 ("그것", "저것", "무거운 거") 를 받았을 때: 성공률이 최대 37% 까지 폭락했습니다.

즉, 로봇이 "그것"이 무엇을 가리키는지 문맥을 파악하지 못하면, 계획 자체를 잘못 세우게 됩니다.


🧪 2. 실험실: REI-BENCH (로봇의 언어 이해도 시험)

저자들은 이 문제를 체계적으로 연구하기 위해 REI-Bench라는 새로운 시험지를 만들었습니다. 이 시험지는 로봇의 언어 이해력을 3 가지 난이도로 테스트합니다.

  1. 명확한 지시 (Explicit): "냄비를 가져와." (로봇이 가장 잘함)
  2. 혼합 지시 (Mixed): "냄비를 가져와. 그리고 그것을 식탁에 올려." (앞서 언급한 냄비를 '그것'으로 지칭)
  3. 막연한 지시 (Implicit): "그것을 가져와." (무엇이 '그것'인지 문맥에서만 유추해야 함)

또한, 대화의 맥락 (Context) 을 다음과 같이 변형해서 로봇을 더 어렵게 만들었습니다.

  • 정규 맥락: 필요한 정보가 모두 있음.
  • 소음 맥락 (Noised): "로즈 (Rose)"라는 이름의 사람과 "장미 (Rose)"라는 꽃이 동시에 등장해 로봇을 혼란스럽게 함.
  • 짧은 맥락 (Short): 중요한 정보가 빠져있어 로봇이 추론해야 함.

결론: 로봇은 명확한 지시에는 강하지만, 막연한 지시와 혼란스러운 맥락이 섞이면 완전히 무너졌습니다.


💡 3. 해결책: TOCC (로봇의 '의미 파악' 훈련)

기존 방법들 (로봇에게 "주의 깊게 읽어봐"라고 하거나, "단계별로 생각해보자"라고 하는 등) 은 효과가 미미했습니다. 로봇은 지시를 이해하는 과정과 행동을 계획하는 과정을 동시에 하느라, 막연한 단어를 해석할 에너지를 쓰지 못했기 때문입니다.

저자들은 새로운 방법을 제안했습니다. **TOCC (Task-Oriented Context Cognition, 작업 지향적 문맥 인지)**입니다.

🧠 TOCC 의 비유: "비서"와 "작업자"

이 방법은 로봇의 뇌를 두 단계로 나누는 것입니다.

  1. 비서 (해석 단계): 로봇이 "그 무거운 거"라는 말을 들으면, 바로 행동하지 않습니다. 대신 **"아, 주인님이 방금 말한 '냄비'를 의미하는구나"**라고 먼저 해석해서 명확한 문장으로 바꿉니다.
    • 원문: "그 무거운 거를 치워줘."
    • 비서의 해석: "냄비를 치워줘."
  2. 작업자 (계획 단계): 이제 로봇은 해석된 명확한 문장 ("냄비를 치워줘") 만 보고 행동을 계획합니다.

이처럼 **'무엇을 할지 (해석)'**와 **'어떻게 할지 (계획)'**를 분리해 주니, 로봇의 실수가 크게 줄어들었습니다. 기존 방법보다 성공률이 6.5% 이상 향상되었습니다.


🌟 4. 요약: 왜 이 연구가 중요한가?

  • 현실적인 문제: 우리는 로봇에게 "그거", "저기", "무거운 것"처럼 막연하게 말합니다. 하지만 현재의 로봇은 이를 이해하지 못해 실패합니다.
  • 핵심 발견: 로봇이 실패하는 주된 이유는 '행동 계획'을 잘못 세워서가 아니라, '무엇을 가리키는지'를 먼저 파악하지 못해서입니다.
  • 해결책: 로봇에게 바로 행동하게 하지 말고, 먼저 **"이 말의 진짜 뜻은 무엇인가?"**를 명확히 해석하게 하는 단계 (TOCC) 를 거치면 훨씬 똑똑해집니다.

한 줄 요약:

"로봇에게 '그것'을 치우라고 하면 로봇은 당황합니다. 대신 로봇에게 '그것'이 정확히 '냄비'라는 뜻이야라고 먼저 알려주면, 로봇은 훌륭한 요리사가 됩니다!"

이 연구는 로봇이 노인이나 아이 같은 비전문가들과 자연스럽게 대화하며 일할 수 있는 미래를 위한 중요한 첫걸음입니다.