Memory, Benchmark & Robots: A Benchmark for Solving Complex Tasks with Reinforcement Learning

이 논문은 강화학습 에이전트의 기억 능력을 체계적으로 평가하기 위해 작업 분류 체계를 제안하고, 다양한 시나리오를 아우르는 MIKASA-Base 와 테이블탑 로봇 조작을 위한 32 개의 과제로 구성된 MIKASA-Robo 벤치마크를 소개합니다.

Egor Cherepanov, Nikita Kachaev, Alexey K. Kovalev, Aleksandr I. Panov

게시일 2026-03-05
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"로봇이 기억력을 테스트할 수 있는 새로운 시험지 (MIKASA)"**를 개발한 연구입니다.

기존의 인공지능 (AI) 연구들은 로봇이 물건을 잡거나 이동하는 능력은 잘 테스트했지만, **"과거의 일을 기억해서 현재 행동을 결정하는 능력"**을 제대로 평가할 수 있는 기준이 부족했습니다. 마치 수학 문제를 풀 때 '계산 능력'은 잘 측정하지만, '이전 공식을 기억해서 복잡한 문제를 푸는 능력'은 측정하지 않는 것과 비슷합니다.

이 연구팀은 이를 해결하기 위해 MIKASA라는 새로운 벤치마크 (시험지) 를 만들었습니다. 내용을 쉽게 비유해서 설명해 드릴게요.


1. 왜 이 연구가 필요할까요? (문제 상황)

지금까지 로봇 AI 를 평가할 때는 주로 **"눈이 잘 보이는 상태 (완전한 정보)"**에서 테스트했습니다. 하지만 실제 세상에서는 로봇이 물건을 치울 때, 혹은 문 뒤에 숨은 물건을 찾을 때처럼 정보의 일부가 가려지거나 (부분 관측), 시간이 지나서 기억해야 하는 상황이 많습니다.

  • 비유: 로봇이 "냉장고에 사과를 넣었다"는 사실을 기억하지 못하면, 나중에 "사과가 어디 있지?"라고 물어볼 때 답을 못 하거나, 이미 넣은 사과를 또 넣으려 할 수 있습니다.
  • 현실: 기존 시험지들은 이런 '기억력'이 필요한 상황을 제대로 잡아내지 못했습니다. 그래서 로봇이 기억력이 좋은지 나쁜지 알 수 없었습니다.

2. MIKASA 란 무엇인가요? (해결책)

저자들은 MIKASA라는 새로운 시험지를 만들었습니다. 이는 로봇의 기억력을 4 가지 유형으로 나누어 꼼꼼히 테스트합니다.

  1. 물체 기억 (Object Memory): "어제 냉장고에 사과를 넣었지?"처럼, 보이지 않는 물체의 존재를 기억하는 능력입니다.
    • 비유: 껍질을 벗긴 달걀을 보고 "아, 이건 달걀이야!"라고 기억하는 것.
  2. 공간 기억 (Spatial Memory): "책상 왼쪽 구석에 컵을 두었지?"처럼 물체의 위치를 기억하는 능력입니다.
    • 비유: 친구가 어디에 앉았는지 기억했다가 그 자리로 가는 것.
  3. 순서 기억 (Sequential Memory): "먼저 설탕을 넣고, 그다음 우유를 넣어야 해"처럼 행동의 순서를 기억하는 능력입니다.
    • 비유: 노래 가사나 춤 동작 순서를 기억하는 것.
  4. 기억 용량 (Memory Capacity): "빨간 공, 파란 공, 초록 공, 노란 공..."처럼 한 번에 여러 정보를 동시에 기억하는 능력입니다.
    • 비유: 전화번호를 한 번에 외우는 것.

3. 어떤 시험 문제들이 있나요? (MIKASA-Robo)

이 시험지는 실제 로봇 팔이 사용하는 32 가지 구체적인 미션으로 구성되어 있습니다.

  • 껍데기 게임 (Shell Game): 컵 아래에 공이 숨어있을 때, 컵을 덮은 후 어느 컵에 공이 있는지 기억해 내는 문제입니다. (물체 기억 테스트)
  • 색상 기억 (Remember Color): 빨간색 큐브를 보여주고 잠시 숨긴 뒤, 여러 개의 큐브 중 원래 빨간색 큐브를 찾아오게 합니다. (물체 기억 테스트)
  • 공 잡기 (Intercept): 굴러가는 공의 궤적을 기억해서 미리 손으로 잡는 문제입니다. (공간 및 순서 기억 테스트)
  • 되돌리기 (Take It Back): 물건을 한 곳으로 옮긴 뒤, 원래 있던 자리로 다시 가져가야 합니다. 로봇이 원래 위치를 기억하지 못하면 실패합니다.

4. 실험 결과: 로봇들은 기억력이 얼마나 될까요?

저자들은 최신 로봇 AI 모델들 (VLA 모델 등) 로 이 시험을 치르게 했습니다. 결과는 충격적이었습니다.

  • 눈에 보이는 상태 (완전 정보): 로봇은 100% 성공했습니다. "여기 빨간 공이 있네?" 하면 바로 잡습니다.
  • 기억이 필요한 상태 (가려진 정보): 로봇은 완전히 망했습니다.
    • 비유: "빨간 공을 기억해"라고 시켰는데, 공이 컵으로 덮이고 다시 섞이면 로봇은 "어? 빨간 공이 뭐였지?" 하며 엉뚱한 것을 잡거나 아무것도 못 합니다.
    • 심지어 최신 AI 모델들도 "순서"나 "용량"이 필요한 문제에서는 거의 0% 에 가까운 성공률을 보였습니다.

5. 결론: 로봇에게 '기억'이 필요하다

이 논문의 핵심 메시지는 **"현재의 로봇 AI 는 눈앞에 보이는 것만 처리할 뿐, 과거의 일을 기억해서 미래를 계획하는 능력이 매우 부족하다"**는 것입니다.

우리가 로봇을 집안일이나 복잡한 업무에 쓰려면, 단순히 '보는 것'을 넘어서 **'기억하는 것'**을 잘할 수 있도록 AI 의 뇌를 업그레이드해야 합니다. MIKASA 는 바로 그 '기억력 업그레이드'를 위한 나침반이 될 것입니다.

한 줄 요약:

"로봇이 눈앞의 일만 처리하고 잊어버리는 게 아니라, 과거를 기억해서 복잡한 일을 해낼 수 있도록, **기억력을 측정하는 새로운 시험지 (MIKASA)**를 만들었으며, 현재 로봇들은 이 시험에서 크게 부진하다는 것을 발견했습니다."