VPWEM: Non-Markovian Visuomotor Policy with Working and Episodic Memory

Each language version is independently generated for its own context, not a direct translation.

🤖 문제: 로봇은 왜 망각증에 걸릴까요?

지금까지의 로봇들은 아주 똑똑한 요리사처럼 보이지만, 사실은 단순한 '단기 기억'만 가지고 있었습니다.

현재 상황만 봄: "지금 손에 쥔 재료가 뭐지?"만 보고 다음 행동을 결정합니다.
과거를 잊어버림: "30 분 전에 내가 이 재료를 어디에 뒀지?" 같은 질문에는 답을 못 합니다.
결과: 만약 요리 과정이 길어지거나, 중간에 재료가 가려지거나 (비마르코프적 상황), 로봇은 길을 잃고 엉뚱한 행동을 하거나 아예 멈춰버립니다.

기존 방법들은 "과거의 모든 영상을 다 기억하게 해보자!"라고 생각했습니다. 하지만 이는 메모리 용량이 터지고, 계산이 너무 느려져서 실제로 쓰기 힘들었습니다. 마치 책상 위에 과거의 모든 장면을 사진으로 찍어 쌓아두는 것과 같아서, 요리하는 동안 그 사진 더미를 뒤적거리느라 시간이 다 걸리는 꼴입니다.

💡 해결책: VPWEM (작업 기억 + 일화 기억)

이 논문은 인간의 뇌가 어떻게 기억을 처리하는지에서 영감을 받았습니다. 인간은 모든 것을 다 기억하는 게 아니라, 중요한 것만 추려서 장기 기억으로 저장합니다.

VPWEM 은 로봇에게 두 가지 종류의 '메모장'을 선물합니다.

1. 작업 기억 (Working Memory) = "손에 든 메모지"

비유: 요리사가 현재 손에 들고 있는 최근 5~10 초간의 메모지입니다.
역할: "지금 바로 직전에 무엇을 했는지", "현재 손에 든 재료가 무엇인지"를 빠르게 확인합니다.
특징: 아주 빠르지만, 시간이 지나면 지워집니다.

2. 일화 기억 (Episodic Memory) = "두꺼운 요리 레시피 책"

비유: 과거의 모든 요리 과정을 **압축해서 요약한 '요약 레시피 책'**입니다.
역할: "30 분 전에 내가 이 재료를 어디에 뒀지?" 같은 오래된 정보를 필요할 때 찾아봅니다.
핵심 기술 (컨텍스트 메모리 압축기):
- 이 책이 두꺼워지는 것을 막기 위해, AI 가 과거의 영상들을 읽어가며 '핵심 내용'만 뽑아내어 책 한 장에 요약해 넣습니다.
- 예를 들어, "과거 1000 프레임의 영상"을 보더라도 AI 는 "아, 그때는 파란 공을 오른쪽에 숨겼구나"라는 한 줄의 요약으로 저장합니다.
- 이렇게 하면 메모리 공간은 거의 차지하지 않으면서도, 과거의 중요한 정보는 잊지 않게 됩니다.

🎬 어떻게 작동할까요? (요리사 시나리오)

상황: 로봇이 "컵 세 개 중 하나에 공을 숨기고, 10 초 뒤 공이 있는 컵을 찾아라"는 미션을 받습니다.

초반 (작업 기억): 로봇은 컵을 덮는 순간부터 10 초 동안의 영상을 '작업 기억' (메모지) 에 저장하며 지켜봅니다.
중반 (압축과 저장): 10 초가 지나고 컵이 가려지면, 더 이상 실시간으로 볼 수 없습니다. 이때 **'압축기'**가 작동합니다. "아, 공이 왼쪽 컵에 들어갔구나"라는 핵심 정보만 뽑아내어 **'일화 기억' (요약 레시피)**에 저장합니다.
결정 (기억 활용): 로봇은 지금眼前的인 상황 (작업 기억) 과 과거의 요약 정보 (일화 기억) 를 동시에 봅니다.
- "지금 내 눈앞엔 아무것도 안 보이지만, 내 기억 (요약 레시피) 에 따르면 공은 왼쪽 컵에 있네!"
행동: 로봇은 왼쪽 컵을 들어 공을 찾습니다. 성공!

🏆 왜 이 기술이 대단한가요?

효율성: 과거의 모든 영상을 다 저장하지 않고, 핵심만 요약해서 저장하므로 컴퓨터 성능을 많이 잡아먹지 않습니다. (실시간으로 작동 가능)
성능: 실험 결과, 기억력이 필요한 복잡한 작업 (예: 물건 찾기, 이동하며 물건 정리하기) 에서 기존 최고의 로봇 기술들보다 20% 이상 더 잘 수행했습니다.
유연성: 기억이 필요 없는 단순한 작업에서는 기존 기술과 똑같이 잘 작동하고, 기억이 필요한 복잡한 작업에서는 압도적인 성능을 보입니다.

📝 한 줄 요약

VPWEM은 로봇에게 "지금 당장 보는 것"을 빠르게 처리하는 단기 기억과, "과거의 중요한 경험"을 요약해서 저장해두는 장기 기억을 동시에 주어, 로봇이 인간처럼 오래된 기억을 떠올리며 복잡한 미션을 해결할 수 있게 만든 혁신적인 기술입니다.

이제 로봇도 "어제 뭐 했더라?"라고 생각하며 실수를 줄이고, 더 똑똑하게 일할 수 있게 된 셈입니다! 🤖✨

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

로봇 제어 분야에서 인간 시연 (Imitation Learning) 을 통한 학습은 큰 성과를 거두었으나, 기존 시각 - 운동 정책 (Visuomotor Policies) 은 다음과 같은 한계를 가지고 있습니다.

비마르코프성 (Non-Markovian) 과 장기 기억의 부재: 실제 로봇 작업은 센서의 한계, 환경의 확률성, 복잡한 장기 목표 (Long-horizon tasks) 로 인해 현재 관측치만으로는 결정할 수 없는 비마르코프적 특성을 가집니다. 인간은 과거 경험을 장기 기억으로 압축하여 활용하지만, 기존 정책들은 단일 관측치나 짧은 컨텍스트 (예: 2~10 프레임) 만을 기반으로 하여 장기적인 시간적 의존성을 포착하지 못합니다.
기존 해결책의 한계:
- 컨텍스트 창 확대: 단순히 관측 이력을 늘리면 계산 비용이 $O(L^2)$ 로 급증하여 실시간 제어가 불가능해지고, 메모리 사용량이 폭증합니다.
- 과적합 및 오해석: 긴 이력을 단순히 입력하면 '불필요한 상관관계 (Nuisance correlations)'에 과적합되거나, 이전 행동을 무조건 복사하는 'Copycat' 문제가 발생하여 분포 변화 (Distribution Shift) 에 취약해집니다.

2. 제안 방법론: VPWEM (Methodology)

저자들은 인간의 해마 (Hippocampus) 가 작업 기억을 장기 기억으로 전환하는 생물학적 메커니즘에서 영감을 받아, **작업 기억 (Working Memory)**과 **일화 기억 (Episodic Memory)**을 모두 갖춘 새로운 프레임워크 VPWEM을 제안합니다.

핵심 구성 요소

작업 기억 (Working Memory):
- 최근의 관측 토큰 (Observation tokens) 을 고정된 슬라이딩 윈도우 (예: 최근 $L$ 프레임) 에 유지합니다.
- 이는 단기적인 맥락을 제공하며, 기존 Diffusion Policy 와 유사하게 FIFO(First-In-First-Out) 방식으로 관리됩니다.
일화 기억 (Episodic Memory) 및 컨텍스트 메모리 압축기 (Contextual Memory Compressor):
- 윈도우 밖으로 밀려난 과거 관측 이력을 **고정된 크기의 요약 토큰 (Summary tokens)**으로 변환하는 Transformer 기반의 압축기를 도입합니다.
- 동작 원리:
  - 윈도우 밖의 관측 토큰은 캐시에 저장됩니다.
  - 압축기는 Self-Attention을 통해 과거 요약 토큰 (Summary cache) 과 상호작용하고, Cross-Attention을 통해 과거 관측 토큰 (Observation cache) 과 상호작용합니다.
  - 이를 통해 불필요한 정보는 필터링하고 작업에 필수적인 정보만 추출하여 고정된 수의 일화 기억 토큰 ( $e_\tau$ ) 으로 압축합니다.
- 이 과정은 정책 (Policy) 과 함께 End-to-End 로 학습되며, 불필요한 노이즈를 제거하여 과적합을 방지합니다.
행동 생성 (Action Generation):
- 제안된 방법은 Diffusion Policy를 기반으로 합니다.
- 행동 생성 시 **작업 기억 (단기)**과 **일화 기억 (장기)**을 모두 조건 (Conditioning) 으로 사용하여 노이즈를 제거하고 최적의 행동 청크 (Action chunk) 를 생성합니다.
- 이는 각 단계에서 고정된 메모리 비용과 계산 복잡도를 유지하면서도 전체 트레젝토리의 맥락을 활용하게 합니다.

3. 주요 기여 (Key Contributions)

새로운 프레임워크 제안: Transformer 기반의 컨텍스트 메모리 압축기를 사용하여 전체 트레젝토리 이력을 고정된 크기의 메모리 토큰으로 재귀적으로 압축하는 새로운 아키텍처를 제안했습니다.
Diffusion Policy 구현: 기존 Diffusion Policy (DP) 와 MaIL(선택적 상태 공간 모델 기반) 에 이 메커니즘을 적용하여, 단기 및 장기 맥락 기억을 모두 활용한 행동 생성 파이프라인을 재설계했습니다.
광범위한 실험 검증: 메모리 집약적 작업과 마르코프적 작업 모두에서 기존 SOTA(최신 기법) 대비 우수한 성능을 입증했습니다.

4. 실험 결과 (Results)

논문은 MIKASA, MoMaRT, Robomimic 등 3 가지 벤치마크에서 실험을 수행했습니다.

MIKASA (메모리 집약적 조작 작업):
- 껍질 게임 (ShellGameTouch) 및 색상 기억 (RememberColor3) 과 같이 과거 정보를 기억해야 하는 작업에서 기존 최첨단 기법 (Diffusion Policy, VLA 모델 등) 대비 20% 이상의 성공률 향상을 보였습니다.
- 단순히 컨텍스트 크기를 늘린 방법 (DP-PTP) 은 성능이 저하되거나 계산 비용이 급증한 반면, VPWEM 은 효율적으로 해결했습니다.
MoMaRT (모바일 조작 벤치마크):
- 장기 목표의 모바일 조작 작업에서 기존 베이스라인 대비 평균 5% 향상을 기록했습니다.
- 계산 및 저장 비용 측면에서 VPWEM 은 컨텍스트 길이가 증가함에 따라 비용이 급증하는 기존 방법과 달리, 추가 메모리 모듈이 경량화되어 (약 2.24M 파라미터) 효율성이 높았습니다.
Robomimic (마르코프적 작업):
- 장기 기억이 크게 필요하지 않은 작업 (Square, Transport) 에서는 기존 베이스라인과 비슷한 성능을 유지하여, 제안된 메모리 메커니즘이 불필요한 작업을 방해하지 않음을 입증했습니다.

5. 의의 및 결론 (Significance)

효율적인 장기 기억 학습: VPWEM 은 계산 비용과 메모리 사용량을 고정된 수준으로 유지하면서 로봇이 장기적인 시간적 의존성을 학습할 수 있게 합니다. 이는 로봇이 복잡한 장기 과제 (Long-horizon tasks) 를 수행하는 데 필수적인 요소입니다.
과적합 해결: 압축기를 통해 불필요한 노이즈와 가짜 상관관계를 필터링함으로써, 분포 변화에 대한 강건성 (Robustness) 을 크게 향상시켰습니다.
실용성: Diffusion Policy 와 같은 최신 아키텍처에 쉽게 통합 가능하며, 실제 로봇 시스템의 실시간 제약 조건을 만족하면서도 비마르코프적 문제를 해결할 수 있는 실용적인 솔루션을 제공합니다.

결론적으로, VPWEM 은 로봇 학습에서 '기억'의 역할을 체계화하고, 이를 통해 기존 정책들이 해결하지 못했던 장기 목표 기반의 복잡한 작업들을 성공적으로 수행할 수 있는 새로운 패러다임을 제시합니다.