Memory, Benchmark & Robots: A Benchmark for Solving Complex Tasks with Reinforcement Learning

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"로봇이 기억력을 테스트할 수 있는 새로운 시험지 (MIKASA)"**를 개발한 연구입니다.

기존의 인공지능 (AI) 연구들은 로봇이 물건을 잡거나 이동하는 능력은 잘 테스트했지만, **"과거의 일을 기억해서 현재 행동을 결정하는 능력"**을 제대로 평가할 수 있는 기준이 부족했습니다. 마치 수학 문제를 풀 때 '계산 능력'은 잘 측정하지만, '이전 공식을 기억해서 복잡한 문제를 푸는 능력'은 측정하지 않는 것과 비슷합니다.

이 연구팀은 이를 해결하기 위해 MIKASA라는 새로운 벤치마크 (시험지) 를 만들었습니다. 내용을 쉽게 비유해서 설명해 드릴게요.

1. 왜 이 연구가 필요할까요? (문제 상황)

지금까지 로봇 AI 를 평가할 때는 주로 **"눈이 잘 보이는 상태 (완전한 정보)"**에서 테스트했습니다. 하지만 실제 세상에서는 로봇이 물건을 치울 때, 혹은 문 뒤에 숨은 물건을 찾을 때처럼 정보의 일부가 가려지거나 (부분 관측), 시간이 지나서 기억해야 하는 상황이 많습니다.

비유: 로봇이 "냉장고에 사과를 넣었다"는 사실을 기억하지 못하면, 나중에 "사과가 어디 있지?"라고 물어볼 때 답을 못 하거나, 이미 넣은 사과를 또 넣으려 할 수 있습니다.
현실: 기존 시험지들은 이런 '기억력'이 필요한 상황을 제대로 잡아내지 못했습니다. 그래서 로봇이 기억력이 좋은지 나쁜지 알 수 없었습니다.

2. MIKASA 란 무엇인가요? (해결책)

저자들은 MIKASA라는 새로운 시험지를 만들었습니다. 이는 로봇의 기억력을 4 가지 유형으로 나누어 꼼꼼히 테스트합니다.

물체 기억 (Object Memory): "어제 냉장고에 사과를 넣었지?"처럼, 보이지 않는 물체의 존재를 기억하는 능력입니다.
- 비유: 껍질을 벗긴 달걀을 보고 "아, 이건 달걀이야!"라고 기억하는 것.
공간 기억 (Spatial Memory): "책상 왼쪽 구석에 컵을 두었지?"처럼 물체의 위치를 기억하는 능력입니다.
- 비유: 친구가 어디에 앉았는지 기억했다가 그 자리로 가는 것.
순서 기억 (Sequential Memory): "먼저 설탕을 넣고, 그다음 우유를 넣어야 해"처럼 행동의 순서를 기억하는 능력입니다.
- 비유: 노래 가사나 춤 동작 순서를 기억하는 것.
기억 용량 (Memory Capacity): "빨간 공, 파란 공, 초록 공, 노란 공..."처럼 한 번에 여러 정보를 동시에 기억하는 능력입니다.
- 비유: 전화번호를 한 번에 외우는 것.

3. 어떤 시험 문제들이 있나요? (MIKASA-Robo)

이 시험지는 실제 로봇 팔이 사용하는 32 가지 구체적인 미션으로 구성되어 있습니다.

껍데기 게임 (Shell Game): 컵 아래에 공이 숨어있을 때, 컵을 덮은 후 어느 컵에 공이 있는지 기억해 내는 문제입니다. (물체 기억 테스트)
색상 기억 (Remember Color): 빨간색 큐브를 보여주고 잠시 숨긴 뒤, 여러 개의 큐브 중 원래 빨간색 큐브를 찾아오게 합니다. (물체 기억 테스트)
공 잡기 (Intercept): 굴러가는 공의 궤적을 기억해서 미리 손으로 잡는 문제입니다. (공간 및 순서 기억 테스트)
되돌리기 (Take It Back): 물건을 한 곳으로 옮긴 뒤, 원래 있던 자리로 다시 가져가야 합니다. 로봇이 원래 위치를 기억하지 못하면 실패합니다.

4. 실험 결과: 로봇들은 기억력이 얼마나 될까요?

저자들은 최신 로봇 AI 모델들 (VLA 모델 등) 로 이 시험을 치르게 했습니다. 결과는 충격적이었습니다.

눈에 보이는 상태 (완전 정보): 로봇은 100% 성공했습니다. "여기 빨간 공이 있네?" 하면 바로 잡습니다.
기억이 필요한 상태 (가려진 정보): 로봇은 완전히 망했습니다.
- 비유: "빨간 공을 기억해"라고 시켰는데, 공이 컵으로 덮이고 다시 섞이면 로봇은 "어? 빨간 공이 뭐였지?" 하며 엉뚱한 것을 잡거나 아무것도 못 합니다.
- 심지어 최신 AI 모델들도 "순서"나 "용량"이 필요한 문제에서는 거의 0% 에 가까운 성공률을 보였습니다.

5. 결론: 로봇에게 '기억'이 필요하다

이 논문의 핵심 메시지는 **"현재의 로봇 AI 는 눈앞에 보이는 것만 처리할 뿐, 과거의 일을 기억해서 미래를 계획하는 능력이 매우 부족하다"**는 것입니다.

우리가 로봇을 집안일이나 복잡한 업무에 쓰려면, 단순히 '보는 것'을 넘어서 **'기억하는 것'**을 잘할 수 있도록 AI 의 뇌를 업그레이드해야 합니다. MIKASA 는 바로 그 '기억력 업그레이드'를 위한 나침반이 될 것입니다.

한 줄 요약:

"로봇이 눈앞의 일만 처리하고 잊어버리는 게 아니라, 과거를 기억해서 복잡한 일을 해낼 수 있도록, **기억력을 측정하는 새로운 시험지 (MIKASA)**를 만들었으며, 현재 로봇들은 이 시험에서 크게 부진하다는 것을 발견했습니다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 제기 (Problem)

강화학습 (RL) 에이전트가 복잡한 시공간적 의존성을 가진 과제를 해결하기 위해서는 메모리 (Memory) 기능이 필수적입니다. 특히 부분 관측 가능성 (Partial Observability) 이 존재하는 실제 로봇 조작 (Robotic Manipulation) 환경에서는 과거 정보를 기억하고 활용하는 능력이 성공의 핵심입니다.

그러나 현재 RL 분야에는 다음과 같은 심각한 격차가 존재합니다:

표준화된 벤치마크 부재: Atari 나 MuJoCo 와 같은 보편적인 기준이 있는 반면, 메모리 능력을 평가하기 위한 통일된 벤치마크는 없습니다.
평가의 파편화: 기존 연구들은 각자 제안한 알고리즘에 맞춰 커스텀된 환경을 사용하여 평가하므로, 서로 다른 에이전트 간 메모리 성능을 객관적으로 비교하기 어렵습니다.
로봇 조작의 한계: 기존 메모리 벤치마크 (POPGym, DMLab-30 등) 는 주로 추상적인 퍼즐이나 내비게이션에 집중되어 있으며, 실제 로봇이 직면하는 물리적 상호작용, 가려진 객체 (Occluded objects) 기억, 다단계 절차 수행 등 실제 로봇 조작에 필요한 복잡한 메모리 요구사항을 포괄하지 못합니다.

2. 방법론 (Methodology)

저자들은 이 문제를 해결하기 위해 MIKASA (Memory-Intensive Skills Assessment Suite for Agents) 라는 통합 벤치마크를 제안했습니다.

A. 메모리 태스크 분류 체계 (Taxonomy)

인지과학 및 발달심리학의 개념을 차용하여 메모리 집약적 태스크를 4 가지 핵심 범주로 체계화했습니다:

객체 메모리 (Object Memory): 가려진 객체의 존재나 속성 (위치, 색상 등) 을 기억하는 능력 (객체 영속성).
공간 메모리 (Spatial Memory): 환경의 레이아웃, 객체 위치, 내비게이션 경로 등을 기억하는 능력.
순차 메모리 (Sequential Memory): 시간 순서대로 발생한 정보나 행동 시퀀스를 기억하고 재현하는 능력.
메모리 용량 (Memory Capacity): 동시에 여러 개의 정보를 처리하고 기억할 수 있는 한계 (작업 기억 용량).

B. MIKASA-Base (기반 벤치마크)

기존에 존재하는 오픈소스 메모리 태스크 (MiniGrid, POPGym, MemoryGym 등) 를 통합하여 Gymnasium API 표준을 준수하는 통일된 프레임워크를 구축했습니다. 이는 벡터 기반 진단 환경과 이미지 기반 복잡한 환경으로 계층화되어 있습니다.

C. MIKASA-Robo (로봇 조작 벤치마크)

실제 로봇 조작에 초점을 맞춘 32 개의 정교하게 설계된 태스크로 구성된 새로운 벤치마크입니다.

환경: ManiSkill3 시뮬레이터를 기반으로 하며, Franka Panda 등 다양한 로봇 팔을 지원합니다.
태스크 예시:
- ShellGame: 컵 아래에 숨겨진 공의 위치 기억.
- RememberColor/Shape: 사라진 객체의 색상/모양 기억 후 선택.
- Intercept: 움직이는 공의 궤적 예측 및 잡기.
- TakeItBack: 목표 지점으로 이동 후 원래 위치로 되돌리기 (과거 위치 기억).
평가 모드: 완전 관측 (State), 부분 관측 (RGB+joints), 희소 보상 (Sparse Reward) 등 다양한 조건에서 평가합니다.

3. 주요 기여 (Key Contributions)

메모리 태스크 분류 프레임워크: RL 및 로봇 공학에서 메모리 능력을 체계적으로 평가할 수 있는 4 가지 범주 분류 체계를 제안했습니다.
MIKASA-Base: 다양한 메모리 시나리오를 포괄하는 통일된 오픈소스 벤치마크를 제공하여 연구의 재현성과 공정한 비교를 가능하게 했습니다.
MIKASA-Robo: 12 개의 카테고리, 32 개의 태스크로 구성된 로봇 조작 전용 메모리 벤치마크를 공개했습니다. 이는 물리적 상호작용과 부분 관측성을 동시에 고려합니다.
오프라인 RL 데이터셋: 32 개 태스크 모두에 대한 전문가 수준의 트래젝토리 (1,000 개 성공 경로) 데이터셋을 공개하여 오프라인 RL 및 모방 학습 연구를 지원합니다.

4. 실험 결과 (Results)

저자들은 온라인 RL (PPO, SAC), 오프라인 RL (Decision Transformer, RATE, CQL, Diffusion Policy), 그리고 최신 시각 - 언어 - 행동 (VLA) 모델 (Octo, OpenVLA, $\pi_0$ ) 을 MIKASA-Robo 에서 평가했습니다.

기존 모델의 한계:
- MLP 기반 (메모리 없음): 부분 관측 환경에서는 거의 0% 의 성공률을 보였습니다.
- LSTM 기반 (기존 메모리): 간단한 태스크에서는 작동하지만, 복잡도가 증가하거나 (예: 9 가지 색상 중 선택) 희소 보상을 받으면 성능이 급격히 떨어집니다.
- Transformer 기반 오프라인 RL (RATE, DT 등): 대부분의 태스크에서 실패하거나 매우 낮은 성공률을 보였습니다. 특히 순차 메모리나 높은 용량을 요구하는 태스크에서는 거의 해결하지 못했습니다.
- VLA 모델 (Octo, OpenVLA, $\pi_0$ ): 완전 관측 태스크에서는 잘 작동하지만, 가려짐 (Occlusion) 이 포함된 장기 의존성 태스크에서는 성능이 급격히 저하되어 무작위 수준에 근접했습니다. 이는 현재 VLA 모델들이 장기적인 시간적 정보를 유지하는 능력이 부족함을 시사합니다.
실제 로봇 실험: 물리적 로봇 (SO-101) 을 이용한 실험에서도 시뮬레이션과 동일한 패턴이 관찰되었습니다. 가려진 구간이 있는 태스크 (Task 3) 에서 모델은 기억해야 할 정보를 잃어버려 실패했습니다.

5. 의의 및 결론 (Significance & Conclusion)

메모리 연구의 표준화: MIKASA 는 메모리 강화학습 연구에 있어 Atari 나 MuJoCo 와 같은 표준 벤치마크 역할을 수행할 것입니다.
현실적 한계 규명: 현재 RL 및 VLA 모델들이 실제 로봇 조작에서 요구되는 장기 기억 (Long-horizon Memory) 능력을 갖추지 못했음을 명확히 증명했습니다.
향후 연구 방향: 단순한 시퀀스 모델링을 넘어, 명시적이고 강건한 장기 기억 메커니즘을 갖춘 새로운 아키텍처 개발의 필요성을 강조합니다.
오픈소스 기여: 모든 코드, 데이터셋, 환경 설정이 MIT 라이선스로 공개되어 (pip install mikasa-robo-suite), 연구 커뮤니티의 빠른 발전을 도모합니다.

결론적으로, 이 논문은 로봇이 복잡한 실세계 과제를 수행하기 위해서는 단순한 지각과 제어뿐만 아니라 강력한 메모리 메커니즘이 필수적임을 입증하고, 이를 평가할 수 있는 체계적인 도구를 제시했다는 점에서 의의가 큽니다.