MEM: Multi-Scale Embodied Memory for Vision Language Action Models

Each language version is independently generated for its own context, not a direct translation.

이 논문은 로봇이 "기억" 을 어떻게 해야 더 똑똑하게 일할 수 있는지에 대한 혁신적인 아이디어를 소개합니다. 제목은 MEM (Multi-Scale Embodied Memory, 다중 스케일 신체화 기억) 입니다.

기존의 로봇들은 "지금 눈앞에 보이는 것"만 보고 행동을 결정했습니다. 하지만 현실 세계의 복잡한 일 (예: 주방 정리, 요리하기) 은 몇 분에서 15 분까지 걸리는 긴 과정이 필요하고, 중간에 물체가 가려지거나 (가려짐), "어제 뭐 했지?" 같은 장기 기억이 필요합니다.

이 문제를 해결하기 위해 연구팀은 로봇의 머릿속에 두 가지 서로 다른 종류의 기억을 심어주었습니다. 이를 쉽게 비유해서 설명해 드릴게요.

🧠 로봇의 새로운 두 가지 기억: "메모장"과 "비디오 카메라"

연구팀은 로봇이 일을 할 때, 긴 기억 (Long-term) 과 짧은 기억 (Short-term) 을 구분해서 처리해야 한다고 깨달았습니다.

1. 긴 기억 (Long-Term Memory): "요리책 메모장"

무엇인가요? 로봇이 15 분 동안 요리나 청소를 할 때, "어떤 재료를 넣었지?", "지금까지 어떤 단계까지 했지?" 같은 핵심적인 사실만 기억하는 것입니다.
어떻게 작동하나요? 로봇은 매 순간의 복잡한 영상 대신, "언어 (텍스트)" 로 요약된 메모를 사용합니다.
- 예시: "감자, 우유, 버터를 꺼냈다" → "냄비에 재료를 넣었다" → "프라이팬을 닦았다".
- 마치 요리사가 레시피 메모장을 보며 "아, 이제 버터를 넣을 차례구나"라고 생각하듯, 로봇은 텍스트로 된 요약본을 보고 다음 행동을 결정합니다.
왜 필요한가요? 영상을 15 분 동안 다 저장하면 로봇의 뇌 (컴퓨터) 가 과부하가 걸려서 멈춰버립니다. 하지만 텍스트로 요약하면 아주 가볍고 오래 기억할 수 있습니다.

2. 짧은 기억 (Short-Term Memory): "빠른 비디오 카메라"

무엇인가요? 로봇이 물건을 잡거나 문을 열 때, 최근 몇 초 동안의 영상을 기억하는 것입니다.
어떻게 작동하나요? 로봇은 비디오 인코더라는 기술을 써서, 최근 몇 초의 영상을 압축해서 기억합니다.
- 예시: 로봇이 컵을 잡으려다 미끄러졌다면, "방금 컵이 미끄러졌어"라는 사실을 영상으로 기억하고, 다음에는 잡는 방식을 바꿔야 합니다. 혹은 손이 물건을 가려서 (Occlusion) 물체가 어디 있는지 모를 때, "아까 손이 움직이기 전엔 컵이 여기 있었지"라고 기억해냅니다.
왜 필요한가요? 텍스트만으로는 "컵을 잡는 각도가 5 도 더 기울어져야 해" 같은 정교한 공간 감각을 설명하기 어렵습니다. 이때는 생생한 영상이 필요합니다.

🤖 이 시스템이 로봇에게 어떤 능력을 주나요?

이 두 가지 기억을 합치면 로봇은 놀라운 능력을 갖게 됩니다.

15 분 동안의 긴 작업 가능 (Long-Horizon Tasks)
- 비유: 마치 장기 여행 가이드처럼, 로봇은 "아침에 냉장고에서 재료를 꺼내고, 오후에 식탁을 닦고, 저녁에 설거지"까지 순서대로 기억하며 15 분 동안의 주방 정리나 그릴 치즈 만들기를 성공적으로 해냅니다. 이전 로봇들은 중간에 "내가 뭐 하고 있었지?"라고 잊어버려서 실패하곤 했습니다.
실수하고 바로 고치는 능력 (In-Context Adaptation)
- 비유: 스마트한 배우처럼, 로봇은 실수를 하면 그 영상을 기억했다가 다음에 똑같은 실수를 하지 않습니다.
- 상황: 로봇이 젓가락을 잡으려다 실패했다면, "아, 아까는 너무 높게 잡아서 실패했어. 이번엔 낮게 잡아야지"라고 즉석에서 전략을 수정합니다. 기억이 없으면 같은 실수를 반복하다가 멈춥니다.
가려진 물체도 기억 (Partial Observability)
- 비유: 마술사처럼, 로봇이 손으로 물건을 가려서 못 봐도, "방금 그 손이 움직이기 전엔 물체가 여기 있었어"라고 기억해서 정확한 위치를 찾아냅니다.

🚀 결론: 왜 이것이 중요한가요?

기존의 로봇들은 "지금 이 순간"만 보고 행동하는 단기 기억만 있었습니다. 하지만 이 MEM 시스템은 로봇에게 인간처럼 "과거의 경험을 요약 (텍스트) 하고, 최근의 상황을 생생하게 (영상) 기억하는" 능력을 주었습니다.

효율성: 영상을 다 저장하지 않고, 중요한 순간만 텍스트로 요약해서 저장하므로 로봇이 느려지지 않습니다.
유연성: 실수를 바로 고치고, 복잡한 일을 순서대로 해낼 수 있습니다.

이 기술은 로봇이 단순한 기계가 아니라, 복잡한 현실 세계에서 오랫동안 일할 수 있는 똑똑한 파트너로 성장하는 중요한 첫걸음입니다. 마치 우리가 요리할 때 레시피 (긴 기억) 를 보면서도, 냄비 속의 상태를 눈으로 확인 (짧은 기억) 하며 요리하는 것과 같은 원리입니다.

Each language version is independently generated for its own context, not a direct translation.

논문 요약: MEM (Multi-Scale Embodied Memory)

이 논문은 비전 - 언어 - 행동 모델 (VLA) 에 장기간의 기억 능력을 부여하기 위해 제안된 MEM (Multi-Scale Embodied Memory) 시스템을 소개합니다. MEM 은 로봇이 복잡한 장기 작업 (Long-Horizon Tasks) 을 수행할 때 필요한 다양한 시간 규모의 기억을 효율적으로 처리하기 위해 비디오 기반의 단기 기억과 언어 기반의 장기 기억을 결합한 혼합 모달 (Multi-modal) 아키텍처를 제시합니다.

1. 문제 정의 (Problem)

기존의 엔드 - 투 - 엔드 로봇 학습 방식에서는 과거 관측치 (Observations) 의 시퀀스를 정책 (Policy) 에 직접 입력하는 방식으로 기억을 구현했습니다. 그러나 현실 세계의 복잡한 다단계 작업에서는 다음과 같은 한계가 존재합니다:

계산적 비실용성: 수십 분에 달하는 작업의 모든 고해상도 관측치를 컨텍스트에 포함시키는 것은 계산 비용과 지연 시간 (Latency) 측면에서 불가능합니다.
추상화 수준의 차이:
- 단기 기억: 물체의 위치, 장애물, 자기 가림 (Self-occlusion) 해결 등 정밀한 공간 정보와 역학 (Dynamics) 이 필요하므로 밀집된 이미지 데이터가 필요합니다.
- 장기 기억: 레시피 단계, 완료된 작업, 개체 상태 등 추상적인 의미 (Semantic) 정보만으로도 충분하며, 텍스트로 압축하는 것이 효율적입니다.
기존 접근법의 한계: 단일 모달리티 (예: proprioception, 점 궤적, 단순 프레임 샘플링) 만으로는 공간 정밀도와 장기 문맥을 동시에 만족시키기 어렵습니다.

2. 방법론 (Methodology)

MEM 은 VLA 의 정책 $\pi$ 를 **고수준 정책 (High-level Policy, $\pi_{HL}$ )**과 **저수준 정책 (Low-level Policy, $\pi_{LL}$ )**으로 분해하여 두 가지 다른 기억 메커니즘을 통합합니다.

A. 언어 기반 장기 기억 (Language-based Long-Term Memory)

역할: 작업의 전체적인 진행 상황, 완료된 단계, 의미론적 사건을 추적합니다.
구현: 고수준 정책이 현재 관측치와 이전의 언어 기억 ( $m_t$ ) 을 바탕으로 새로운 언어 기억 요약 ( $m_{t+1}$ ) 을 생성합니다.
압축 전략: LLM 을 활용하여 불필요한 세부 정보를 제거하고 핵심 정보만 압축합니다 (예: "초록색, 파란색, 노란색 그릇을 넣었다" $\rightarrow$ "그릇 3 개를 넣었다"). 이는 훈련 - 추론 시의 분포 변화 (Distribution Shift) 를 줄이고 추론 속도를 높입니다.
효과: 최대 15 분 이상의 작업 시간 동안 작업의 맥락을 유지할 수 있습니다.

B. 비디오 기반 단기 기억 (Video-based Short-Term Memory)

역할: 최근 몇 초 간의 밀집된 관측치를 처리하여 자기 가림 해결, 그립 각도 수정, 빠른 적응 (In-context adaptation) 을 가능하게 합니다.
아키텍처: 효율적인 비디오 인코더를 사용합니다.
- 기존 Vision Transformer (ViT) 구조를 확장하여, 공간적 어텐션 (Spatial Attention) 과 **인과적 시간적 어텐션 (Causal-temporal Attention)**을 교차하여 적용합니다.
- 시간 축과 공간 축의 어텐션을 분리하여 계산 복잡도를 $O(n^2K^2)$ 에서 $O(Kn^2 + nK^2)$ 로 줄였습니다.
- 과거 시간의 토큰을 제거하고 현재 시간의 표현만 VLA 백본에 전달하여 토큰 수를 일정하게 유지합니다.
효율성: 실시간 추론 (300ms 이내) 을 유지하면서 수십 초의 비디오 프레임을 처리할 수 있습니다.

C. 통합 시스템 (π0.6-MEM)

Physical Intelligence 의 일반적 VLA 인 π0.6 모델을 기반으로 MEM 을 통합했습니다.
사전 학습 (Pre-training) 단계에서 로봇 데이터, 비로봇 비디오, 언어 - 비전 데이터를 혼합하여 학습하며, 미세 조정 (Post-training) 시에는 작업별 데이터로 적응합니다.

3. 주요 기여 (Key Contributions)

혼합 모달 기억 아키텍처 제안: 밀집된 비디오 정보 (단기) 와 압축된 언어 요약 (장기) 을 결합하여 로봇 정책이 다양한 시간 규모에서 기억을 효율적으로 활용할 수 있게 했습니다.
효율적인 비디오 인코더: 실시간 제약 조건 하에서 긴 시퀀스의 비디오를 처리할 수 있는 계산 효율적인 아키텍처를 설계했습니다.
맥락 내 적응 (In-Context Adaptation): 단기 기억을 통해 로봇이 과거의 실패 경험을 학습하고, 그립 높이 조절이나 문 여는 방향 변경 등 조작 전략을 실시간으로 수정할 수 있게 했습니다.
15 분 이상의 장기 작업 수행: 주방 정리, 레시피 준비 등 15 분 이상 지속되는 복잡한 작업을 성공적으로 수행하는 것을 입증했습니다.

4. 실험 결과 (Results)

장기 작업 수행: '레시피 준비 (Recipe Setup)'와 '주방 정리 (Clean Up Kitchen)' 작업에서 MEM 을 적용한 π0.6 모델은 메모리가 없는 모델이나 기존 기억 방식 (Pool Memory, Proprio Memory) 보다 월등히 높은 성공률을 보였습니다.
- 메모리가 없는 모델은 작업 중도를 포기하거나 무작위 행동을 하는 경우가 많았습니다.
- MEM 은 15 분 이상의 작업 동안 작업 상태를 정확히 추적했습니다.
맥락 내 적응:
- 젓가락 잡기: 테이블 높이가 다를 때 실패한 후, 메모리를 통해 그립 높이를 조정하여 성공률을 11% 향상시켰습니다.
- 냉장고 열기: 문이 열리는 방향을 모를 때 실패한 후, 메모리를 통해 반대 방향으로 시도하여 성공률을 62% 향상시켰습니다.
기존 방식 대비 성능:
- 단순 평균 풀링 (Pool Memory) 은 장기 기억이 필요한 작업 (예: 여러 컵의 위치 기억) 에서 성능이 저하되었습니다.
- 프로프리오셉션 (Proprio Memory) 은 환경 상태 기억이 필요한 작업에서 실패했습니다.
- MEM 은 부분 관측성 (Partial Observability), 카운팅, 타이밍, 공간 기억 등 모든 핵심 기억 능력에서 최상위 성능을 달성했습니다.
일반화 능력: 메모리 기능이 없는 복잡한 조작 작업 (옷 개기, 상자 만들기 등) 에서도 기존 최상위 모델 (π0.6) 과 동등한 성능을 유지하며, 메모리 추가로 인한 성능 저하 (Causal confusion) 가 발생하지 않았습니다.

5. 의의 및 결론 (Significance)

이 논문은 로봇이 현실 세계의 복잡하고 긴 작업을 수행하기 위해 필수적인 다중 시간 규모의 기억 시스템을 성공적으로 구현했음을 보여줍니다.

실용성: 실시간 지연 시간을 준수하면서도 수십 분에 달하는 작업 맥락을 유지할 수 있어, 실제 로봇 배포에 매우 중요합니다.
적응성: 과거의 실패를 기억하고 전략을 수정하는 능력은 로봇이 동적 환경에서 스스로 학습하고 적응하는 데 핵심적입니다.
미래 전망: MEM 은 단일 에피소드 내 기억을 넘어, 수주, 수개월, 수년에 걸친 로봇의 지속적 학습 (Continual Learning) 을 위한 기초를 마련했습니다.

결론적으로, MEM 은 VLA 기반 로봇이 단순한 반응형 행동을 넘어, 장기적인 계획과 적응적 행동을 통해 복잡한 실세계 작업을 해결할 수 있는 중요한 도약입니다.

MEM: Multi-Scale Embodied Memory for Vision Language Action Models

🧠 로봇의 새로운 두 가지 기억: "메모장"과 "비디오 카메라"

1. 긴 기억 (Long-Term Memory): "요리책 메모장"

2. 짧은 기억 (Short-Term Memory): "빠른 비디오 카메라"

🤖 이 시스템이 로봇에게 어떤 능력을 주나요?

🚀 결론: 왜 이것이 중요한가요?

논문 요약: MEM (Multi-Scale Embodied Memory)

1. 문제 정의 (Problem)

2. 방법론 (Methodology)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

Comparison of Outlier Detection Algorithms on String Data

Structure-Aware Epistemic Uncertainty Quantification for Neural Operator PDE Surrogates

Interventional Time Series Priors for Causal Foundation Models

Fingerprinting Concepts in Data Streams with Supervised and Unsupervised Meta-Information

Graph Tokenization for Bridging Graphs and Transformers