Mixed-Initiative Dialog for Human-Robot Collaborative Manipulation

Each language version is independently generated for its own context, not a direct translation.

이 논문은 로봇과 인간이 함께 일할 때, 누가 무엇을 해야 할지 자연스럽게 대화하며 결정하는 새로운 시스템을 소개합니다. 이 시스템의 이름은 **'MICoBot(마이크로봇)'**입니다.

기존의 로봇들은 인간이 "이거 해줘"라고 명령하면 무조건 따르거나, 인간이 시키지 않으면 가만히 있는 경우가 많았습니다. 하지만 MICoBot 은 스스로 "이건 제가 할게요"라고 제안하기도 하고, "이건 제가 못해요. 도와주세요"라고 요청하기도 하는, 정말 똑똑한 파트너입니다.

이 복잡한 기술을 쉽게 이해할 수 있도록 요리하는 상황과 비유를 들어 설명해 드릴게요.

🍳 비유: "요리하는 친구와 로봇"

당신이 친구와 함께 저녁 파티를 준비한다고 상상해 보세요.

친구 (로봇): 술을 섞는 건 아주 잘하지만, 요리를 하거나 장식을 하는 건 서툴러요.
당신 (인간): 요리는 잘하지만, 술 섞는 건 귀찮아하고요.

기존의 로봇 (LLM 기반):
친구가 "술 섞어줘"라고 하면 무조건 섞어주지만, "요리 좀 해줘"라고 하면 "네!"라고 대답하고는 실패하거나, "제가 못해요"라고 말하지도 못하고 그냥 멈춰버립니다. 혹은 "제가 다 할게요"라고 말하며 무리하다가 실패합니다.

MICoBot (새로운 시스템):
이 친구는 상황을 보고 스스로 판단합니다.

자신감 있게 제안: "술 섞는 건 제가 잘하니까 제가 할게요! 대신 요리는 당신이 해주세요."
부끄러워하지 않고 요청: "죄송하지만, 저는 칼을 쓸 줄 몰라요. 당신이 이걸 잘라주세요. 저는 그 대신 재료를 가져올게요."
상황 파악: 당신이 "바빠요"라고 하면, "알겠어요, 제가 할 수 있는 걸 먼저 할게요"라고 말하며 기다립니다.

이처럼 MICoBot 은 대화를 통해 누가 무엇을 할지 자연스럽게 협상합니다.

🧠 MICoBot 의 3 단계 두뇌 구조

이 로봇은 세 가지 두뇌 (단계) 를 가지고 있어서 아주 똑똑하게 일합니다.

1. 전략가 (메타 플래너) - "작전 회의"

역할: 인간이 한 말을 듣고 전체적인 작전을 세웁니다.
예시: "아, 인간이 지금 바쁘다고 했네. 그럼 로봇이 할 수 있는 건 로봇이 하고, 인간이 편한 건 인간이 맡게 해야겠다."라고 **코드 (작전 지시서)**를 작성합니다.

2. 계획가 (플래너) - "자원 배분"

역할: 전략가가 쓴 작전서를 바탕으로, 구체적으로 누가 무엇을 할지 결정합니다.
핵심: 로봇이 "이건 내가 할 수 있어"라고 생각할 때와, 인간이 "도와줄 의사가 있어"라고 생각할 때를 계산합니다.
- 로봇이 못 하는 일을 인간에게 맡기면 실패 확률이 높으니, 인간이 도와줄 확률이 높을 때만 요청합니다.
- 인간이 싫어하면 강요하지 않고 다른 방법을 찾습니다.

3. 실행자 (액션 엑서큐터) - "실제 행동"

역할: 결정된 일을 실제로 수행합니다.
행동: 물건을 집어 올리거나 (물리적 행동), 인간에게 "이거 도와주세요"라고 말하거나 (언어적 행동) 합니다.

🌟 왜 이것이 중요한가요? (기존 방식과의 차이)

양방향 대화 (Mixed-Initiative):
- 이전: 인간이 시키면 로봇이 하고, 로봇이 말하면 인간이 듣는 일방통행이었습니다.
- MICoBot: 로봇도 인간도 누구나 먼저 말을 걸고 제안할 수 있습니다. 마치 친구끼리 대화하듯 자연스럽게 일합니다.
실패를 인정하고 조정함:
- 로봇이 "이건 못 해요"라고 솔직하게 말하면, 인간이 도와주거나 로봇이 다른 방법을 찾습니다.
- 실험 결과, MICoBot 은 기존 로봇보다 작업 성공률이 50% 이상 높아졌고, 사람들은 이 로봇과 일하는 것을 훨씬 더 좋아했습니다.
인간의 노력 최소화:
- 로봇이 할 수 있는 일은 로봇이 하고, 인간이 할 수 있는 일만 인간이 하도록 최적의 배분을 합니다. 인간이 너무 힘들지 않게 도와줍니다.

📊 실험 결과 (실제 사람들과 함께한 실험)

연구진은 TIAGo 라는 이동형 로봇 팔을 이용해 18 명의 사람들과 함께 세 가지 과제를 수행했습니다.

과자 봉지 열어 국수 그릇에 붓기
장난감 자동차 조립하기
선물 상자 포장하기

결과:

성공률: MICoBot 은 78% 성공했지만, 기존 로봇은 **28%**만 성공했습니다.
만족도: 참여자들의 78% 가 MICoBot 을 더 선호했습니다.
이유: MICoBot 은 로봇이 할 수 없는 일을 강행하지 않고, 인간에게 적절히 도움을 요청하며 대화를 이어갔기 때문입니다.

💡 결론

이 논문은 **"로봇이 인간을 지시하는 도구가 아니라, 인간과 대화하며 함께 일하는 진정한 파트너가 될 수 있다"**는 것을 보여줍니다.

앞으로 집안일을 도와주는 로봇이나, 복잡한 일을 함께 해결하는 AI 는 **"무조건 시키는 대로 하는 기계"가 아니라, "상황을 보고 내가 할 수 있는 건 하고, 못 하는 건 도와달라고 정중히 요청하는 똑똑한 친구"**가 될 것입니다. MICoBot 은 바로 그 첫걸음입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

기존의 인간 - 로봇 협업 (HRI) 시스템은 주로 인간이 주도하는 일방향 대화 (Human-initiated) 에 의존하거나, 고정된 협업 계획을 전제로 합니다. 그러나 장기적인 (long-horizon) 가정 내 작업 (예: 파티 준비, 요리 등) 에서는 인간의 물리적 능력, 도움 의지, 로봇에 대한 이해도가 시간에 따라 변할 수 있습니다.

이러한 환경에서 효과적인 협업을 위해서는 **양방향의 혼합 주도 대화 (Mixed-Initiative Dialog)**가 필수적입니다. 즉, 인간과 로봇 모두 작업의 각 단계를 누가 수행할지 제안하고, 수락하거나 거절하며, 상황에 따라 주도권을 넘겨줄 수 있어야 합니다. 기존 시스템은 로봇의 능력 한계를 고려하지 않거나 인간의 변덕스러운 태도에 적응하지 못해 작업 실패율이 높거나 사용자의 불만을 초래하는 문제가 있었습니다.

2. 방법론: MICoBot 프레임워크

저자들은 이러한 문제를 해결하기 위해 **MICoBot (Mixed-Initiative Collaborative roBot)**을 제안했습니다. 이는 자연어 대화를 통해 인간과 로봇이 모두 주도권을 가질 수 있는 계층적 로봇 시스템입니다. MICoBot 은 세 가지 주요 결정 계층 (Level) 으로 구성됩니다.

A. 문제 모델링 (MDP Formulation)

상태 (State): 로봇과 인간은 모두 환경 상태 ( $s$ ) 를 관찰합니다.
행동 (Action): 물리적 행동 ( $A_p$ , 예: 물체 이동, 열기) 과 자유 형식의 자연어 대화 행동 ( $A_v$ ) 을 포함합니다.
목표: 작업 성공 확률을 최대화하면서 인간의 노력 (시간 및 인지적 부담) 을 최소화하는 최적의 작업 할당 ( $G^*$ ) 을 찾는 것입니다. 이는 인간의 선호도 (대화에서 추출된 제약 조건) 를 준수해야 합니다.

B. 3 단계 계층적 구조

메타 플래너 (Meta-Planner, L1):
- LLM (GPT-4o) 기반의 코더입니다.
- 인간의 대화, 현재 상징적 상태 (symbolic state), 작업 계획을 입력받아 적응형 계획 코드를 생성합니다.
- 생성된 코드는 작업 할당 최적화 로직 (대화 내용을 제약 조건으로 매핑) 과 다음 행동 선택 로직 (대화 진행 여부, 작업 분할 제안 등) 을 정의합니다.
반복적 플래너 (Iterative Planner, L2):
- 메타 플래너가 생성한 코드를 실행하여 최적의 다음 행동을 결정합니다.
- 최적화 함수: 다음 식을 기반으로 로봇과 인간의 기대 비용 (Q-value) 을 비교하여 각 단계를 할당합니다.
  $\max \sum \left( 1_{g_t=H} \cdot \frac{\alpha}{p_{H,t}} + 1_{g_t=R} \right) Q_{g_t}(s_t, a_t)$
  - $Q_R, Q_H$ : 로봇과 인간의 작업 수행 예상 시간/실패 확률을 반영한 Q 함수.
  - $\alpha$ : 인간 노력에 대한 가중치 (인간 시간을 더 중요하게 평가).
  - $p_{H,t}$ : 대화 히스토리를 기반으로 LLM 이 추정한 인간의 도움 제공 확률.
- 제약 조건 처리: 대화에서 추출된 제약 조건을 만족하지 못하는 경우 (예: 로봇이 할 수 없는 일을 인간에게 요청함), 제약 조건을 점진적으로 완화하고 로봇이 그 이유를 설명합니다.
- Q 함수 학습: 로봇의 Q 함수 ( $Q_R$ ) 는 OmniGibson 시뮬레이션에서 학습된 어포던스 (affordance) 모델로, 인간의 Q 함수 ( $Q_H$ ) 는 LLM 과 거리 기반 추정치를 사용합니다.
행동 실행기 (Action Executor, L3):
- 플래너가 선택한 행동을 실행합니다.
- 물리적 행동: ROS 기반의 내비게이션, Grounding DINO 를 이용한 객체 분할, 역기구학 (IK) 을 통한 그리핑 경로 생성.
- 대화 행동: LLM 을 사용하여 작업 맥락과 대화 의도에 맞는 자연어 발화를 생성합니다.

3. 주요 기여 (Key Contributions)

새로운 문제 설정: 물리적 조작 작업에 혼합 주도 자연어 대화를 통합한 새로운 인간 - 로봇 상호작용 패러다임을 제시했습니다.
최적화 프레임워크: 작업 성공률과 인간 노력 사이의 균형을 맞추고, 대화 기반의 제약 조건을 통합한 새로운 작업 할당 최적화 함수를 제안했습니다.
계층적 로봇 시스템 (MICoBot): 실제 물리적 환경에서 다양한 인간 파트너와 유연하게 적응하며 협업할 수 있는 시스템을 구현했습니다.
광범위한 검증: 시뮬레이션 및 실제 TIAGo 모바일 매니퓰레이터를 사용한 18 명의 인간 참가자 대상 실험을 통해 방법론의 유효성을 입증했습니다.

4. 실험 결과 (Results)

실험 설정:

실제 환경: TIAGo 로봇과 18 명의 참가자가 3 가지 가정 내 작업 (패키지 컷팅 및 부어주기, 장난감 차 조립, 선물 상자 포장) 을 수행.
비교 대상: 순수 LLM 기반 베이스라인 (LLM Baseline), 무작위 할당, RL 기반 베이스라인 등.

주요 성과:

작업 성공률: MICoBot 은 **77.8%**의 성공률을 기록한 반면, LLM 베이스라인은 **27.8%**에 그쳤습니다 (통계적으로 유의미한 차이, p=0.007).
작업 단계 완료율: MICoBot 은 93.8% 의 단계를 성공적으로 완료했으나, 베이스라인은 58.2% 에 머물렀습니다.
사용자 선호도: 참가자의 **77.8%**가 MICoBot 을 선호했습니다.
사용자 만족도 및 평가:
- 전반적인 만족도, 소통 능력, 로봇의 한계 인식 등에서 MICoBot 이 LLM 베이스라인보다 통계적으로 유의미하게 높은 점수를 받았습니다.
- LLM 베이스라인은 로봇의 물리적 한계를 이해하지 못해 수행 불가능한 작업을 로봇에게 할당하거나, 인간의 거절에 유연하게 대응하지 못해 실패하는 경우가 많았습니다.
혼합 주도 대화의 중요성:
- MICoBot 은 실험 중 평균 2.4 회 주도권 전환 (Initiative Shift) 을 보였으며, 이는 인간이 로봇의 도움 요청을 거절할 때 (55% → 86% 로 증가) 유연하게 협상하여 성공률을 높였습니다.
- 반면, LLM 베이스라인은 주도권 전환이 적고 (1.1 회), 도움 요청 횟수가 적어 (0.9 회) 협업 실패율이 높았습니다.

5. 의의 및 결론 (Significance & Conclusion)

이 논문은 **혼합 주도 대화 (Mixed-Initiative Dialog)**가 장기적 인간 - 로봇 협업의 핵심 요소임을 입증했습니다. MICoBot 은 로봇이 단순히 지시를 따르는 존재가 아니라, 인간의 능력과 의지를 파악하고 대화로 협상하여 작업을 분담하는 능동적인 파트너임을 보여줍니다.

기술적 의의: 자연어 처리 (NLP) 와 로봇 제어 (Robotics) 를 통합하여, 추상적인 대화 계획과 구체적인 물리적 행동 (manipulation) 을 연결하는 새로운 아키텍처를 제시했습니다.
실용적 의의: 가정용 로봇이 다양한 사용자의 성향과 능력 차이에 적응하여 신뢰할 수 있는 조력자가 될 수 있는 길을 열었습니다.
한계 및 향후 작업: 현재는 인간과 로봇이 순차적으로 작업하는 것을 가정하고 있으며, 동시에 작업하는 경우나 더 정교한 감정/맥락 이해 (목소리 톤, 표정 등) 를 통한 대화 개선이 필요하다고 언급했습니다.

요약하자면, MICoBot 은 대화와 행동을 통합한 지능형 협업 시스템을 통해, 로봇이 인간의 한계를 보완하고 인간의 노력을 최소화하면서 복잡한 작업을 성공적으로 완수할 수 있음을 실증적으로 증명한 획기적인 연구입니다.