MEM: Multi-Scale Embodied Memory for Vision Language Action Models

이 논문은 로봇이 장기적 추상 개념과 단기적 구체적 사건을 모두 포착할 수 있도록 텍스트 기반 장기 기억과 비디오 기반 단기 기억을 결합한 'MEM(Multi-Scale Embodied Memory)'을 제안하여, 15 분까지 이어지는 복잡한 장기 작업 수행과 맥락에 따른 지능적 전략 적응을 가능하게 합니다.

Marcel Torne, Karl Pertsch, Homer Walke, Kyle Vedder, Suraj Nair, Brian Ichter, Allen Z. Ren, Haohuan Wang, Jiaming Tang, Kyle Stachowicz, Karan Dhabalia, Michael Equi, Quan Vuong, Jost Tobias Springenberg, Sergey Levine, Chelsea Finn, Danny Driess

게시일 2026-03-05
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 로봇이 "기억" 을 어떻게 해야 더 똑똑하게 일할 수 있는지에 대한 혁신적인 아이디어를 소개합니다. 제목은 MEM (Multi-Scale Embodied Memory, 다중 스케일 신체화 기억) 입니다.

기존의 로봇들은 "지금 눈앞에 보이는 것"만 보고 행동을 결정했습니다. 하지만 현실 세계의 복잡한 일 (예: 주방 정리, 요리하기) 은 몇 분에서 15 분까지 걸리는 긴 과정이 필요하고, 중간에 물체가 가려지거나 (가려짐), "어제 뭐 했지?" 같은 장기 기억이 필요합니다.

이 문제를 해결하기 위해 연구팀은 로봇의 머릿속에 두 가지 서로 다른 종류의 기억을 심어주었습니다. 이를 쉽게 비유해서 설명해 드릴게요.


🧠 로봇의 새로운 두 가지 기억: "메모장"과 "비디오 카메라"

연구팀은 로봇이 일을 할 때, 긴 기억 (Long-term)짧은 기억 (Short-term) 을 구분해서 처리해야 한다고 깨달았습니다.

1. 긴 기억 (Long-Term Memory): "요리책 메모장"

  • 무엇인가요? 로봇이 15 분 동안 요리나 청소를 할 때, "어떤 재료를 넣었지?", "지금까지 어떤 단계까지 했지?" 같은 핵심적인 사실만 기억하는 것입니다.
  • 어떻게 작동하나요? 로봇은 매 순간의 복잡한 영상 대신, "언어 (텍스트)" 로 요약된 메모를 사용합니다.
    • 예시: "감자, 우유, 버터를 꺼냈다" → "냄비에 재료를 넣었다" → "프라이팬을 닦았다".
    • 마치 요리사가 레시피 메모장을 보며 "아, 이제 버터를 넣을 차례구나"라고 생각하듯, 로봇은 텍스트로 된 요약본을 보고 다음 행동을 결정합니다.
  • 왜 필요한가요? 영상을 15 분 동안 다 저장하면 로봇의 뇌 (컴퓨터) 가 과부하가 걸려서 멈춰버립니다. 하지만 텍스트로 요약하면 아주 가볍고 오래 기억할 수 있습니다.

2. 짧은 기억 (Short-Term Memory): "빠른 비디오 카메라"

  • 무엇인가요? 로봇이 물건을 잡거나 문을 열 때, 최근 몇 초 동안의 영상을 기억하는 것입니다.
  • 어떻게 작동하나요? 로봇은 비디오 인코더라는 기술을 써서, 최근 몇 초의 영상을 압축해서 기억합니다.
    • 예시: 로봇이 컵을 잡으려다 미끄러졌다면, "방금 컵이 미끄러졌어"라는 사실을 영상으로 기억하고, 다음에는 잡는 방식을 바꿔야 합니다. 혹은 손이 물건을 가려서 (Occlusion) 물체가 어디 있는지 모를 때, "아까 손이 움직이기 전엔 컵이 여기 있었지"라고 기억해냅니다.
  • 왜 필요한가요? 텍스트만으로는 "컵을 잡는 각도가 5 도 더 기울어져야 해" 같은 정교한 공간 감각을 설명하기 어렵습니다. 이때는 생생한 영상이 필요합니다.

🤖 이 시스템이 로봇에게 어떤 능력을 주나요?

이 두 가지 기억을 합치면 로봇은 놀라운 능력을 갖게 됩니다.

  1. 15 분 동안의 긴 작업 가능 (Long-Horizon Tasks)

    • 비유: 마치 장기 여행 가이드처럼, 로봇은 "아침에 냉장고에서 재료를 꺼내고, 오후에 식탁을 닦고, 저녁에 설거지"까지 순서대로 기억하며 15 분 동안의 주방 정리나 그릴 치즈 만들기를 성공적으로 해냅니다. 이전 로봇들은 중간에 "내가 뭐 하고 있었지?"라고 잊어버려서 실패하곤 했습니다.
  2. 실수하고 바로 고치는 능력 (In-Context Adaptation)

    • 비유: 스마트한 배우처럼, 로봇은 실수를 하면 그 영상을 기억했다가 다음에 똑같은 실수를 하지 않습니다.
    • 상황: 로봇이 젓가락을 잡으려다 실패했다면, "아, 아까는 너무 높게 잡아서 실패했어. 이번엔 낮게 잡아야지"라고 즉석에서 전략을 수정합니다. 기억이 없으면 같은 실수를 반복하다가 멈춥니다.
  3. 가려진 물체도 기억 (Partial Observability)

    • 비유: 마술사처럼, 로봇이 손으로 물건을 가려서 못 봐도, "방금 그 손이 움직이기 전엔 물체가 여기 있었어"라고 기억해서 정확한 위치를 찾아냅니다.

🚀 결론: 왜 이것이 중요한가요?

기존의 로봇들은 "지금 이 순간"만 보고 행동하는 단기 기억만 있었습니다. 하지만 이 MEM 시스템은 로봇에게 인간처럼 "과거의 경험을 요약 (텍스트) 하고, 최근의 상황을 생생하게 (영상) 기억하는" 능력을 주었습니다.

  • 효율성: 영상을 다 저장하지 않고, 중요한 순간만 텍스트로 요약해서 저장하므로 로봇이 느려지지 않습니다.
  • 유연성: 실수를 바로 고치고, 복잡한 일을 순서대로 해낼 수 있습니다.

이 기술은 로봇이 단순한 기계가 아니라, 복잡한 현실 세계에서 오랫동안 일할 수 있는 똑똑한 파트너로 성장하는 중요한 첫걸음입니다. 마치 우리가 요리할 때 레시피 (긴 기억) 를 보면서도, 냄비 속의 상태를 눈으로 확인 (짧은 기억) 하며 요리하는 것과 같은 원리입니다.