VPWEM: Non-Markovian Visuomotor Policy with Working and Episodic Memory

이 논문은 로봇 제어에서 장기 기억이 필요한 비마르코프 과제를 해결하기 위해, 최근 관측을 단기 작업 기억으로 유지하고 과거 경험을 고정된 에피소드 기억 토큰으로 압축하는 Transformer 기반 메모리 압축기를 도입한 비마르코프 비주얼 모션 정책 VPWEM 을 제안하며, 이를 통해 기존 최첨단 모델보다 우수한 성능을 입증했습니다.

Yuheng Lei, Zhixuan Liang, Hongyuan Zhang, Ping Luo

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🤖 문제: 로봇은 왜 망각증에 걸릴까요?

지금까지의 로봇들은 아주 똑똑한 요리사처럼 보이지만, 사실은 단순한 '단기 기억'만 가지고 있었습니다.

  • 현재 상황만 봄: "지금 손에 쥔 재료가 뭐지?"만 보고 다음 행동을 결정합니다.
  • 과거를 잊어버림: "30 분 전에 내가 이 재료를 어디에 뒀지?" 같은 질문에는 답을 못 합니다.
  • 결과: 만약 요리 과정이 길어지거나, 중간에 재료가 가려지거나 (비마르코프적 상황), 로봇은 길을 잃고 엉뚱한 행동을 하거나 아예 멈춰버립니다.

기존 방법들은 "과거의 모든 영상을 다 기억하게 해보자!"라고 생각했습니다. 하지만 이는 메모리 용량이 터지고, 계산이 너무 느려져서 실제로 쓰기 힘들었습니다. 마치 책상 위에 과거의 모든 장면을 사진으로 찍어 쌓아두는 것과 같아서, 요리하는 동안 그 사진 더미를 뒤적거리느라 시간이 다 걸리는 꼴입니다.

💡 해결책: VPWEM (작업 기억 + 일화 기억)

이 논문은 인간의 뇌가 어떻게 기억을 처리하는지에서 영감을 받았습니다. 인간은 모든 것을 다 기억하는 게 아니라, 중요한 것만 추려서 장기 기억으로 저장합니다.

VPWEM 은 로봇에게 두 가지 종류의 '메모장'을 선물합니다.

1. 작업 기억 (Working Memory) = "손에 든 메모지"

  • 비유: 요리사가 현재 손에 들고 있는 최근 5~10 초간의 메모지입니다.
  • 역할: "지금 바로 직전에 무엇을 했는지", "현재 손에 든 재료가 무엇인지"를 빠르게 확인합니다.
  • 특징: 아주 빠르지만, 시간이 지나면 지워집니다.

2. 일화 기억 (Episodic Memory) = "두꺼운 요리 레시피 책"

  • 비유: 과거의 모든 요리 과정을 **압축해서 요약한 '요약 레시피 책'**입니다.
  • 역할: "30 분 전에 내가 이 재료를 어디에 뒀지?" 같은 오래된 정보를 필요할 때 찾아봅니다.
  • 핵심 기술 (컨텍스트 메모리 압축기):
    • 이 책이 두꺼워지는 것을 막기 위해, AI 가 과거의 영상들을 읽어가며 '핵심 내용'만 뽑아내어 책 한 장에 요약해 넣습니다.
    • 예를 들어, "과거 1000 프레임의 영상"을 보더라도 AI 는 "아, 그때는 파란 공을 오른쪽에 숨겼구나"라는 한 줄의 요약으로 저장합니다.
    • 이렇게 하면 메모리 공간은 거의 차지하지 않으면서도, 과거의 중요한 정보는 잊지 않게 됩니다.

🎬 어떻게 작동할까요? (요리사 시나리오)

상황: 로봇이 "컵 세 개 중 하나에 공을 숨기고, 10 초 뒤 공이 있는 컵을 찾아라"는 미션을 받습니다.

  1. 초반 (작업 기억): 로봇은 컵을 덮는 순간부터 10 초 동안의 영상을 '작업 기억' (메모지) 에 저장하며 지켜봅니다.
  2. 중반 (압축과 저장): 10 초가 지나고 컵이 가려지면, 더 이상 실시간으로 볼 수 없습니다. 이때 **'압축기'**가 작동합니다. "아, 공이 왼쪽 컵에 들어갔구나"라는 핵심 정보만 뽑아내어 **'일화 기억' (요약 레시피)**에 저장합니다.
  3. 결정 (기억 활용): 로봇은 지금眼前的인 상황 (작업 기억) 과 과거의 요약 정보 (일화 기억) 를 동시에 봅니다.
    • "지금 내 눈앞엔 아무것도 안 보이지만, 내 기억 (요약 레시피) 에 따르면 공은 왼쪽 컵에 있네!"
  4. 행동: 로봇은 왼쪽 컵을 들어 공을 찾습니다. 성공!

🏆 왜 이 기술이 대단한가요?

  1. 효율성: 과거의 모든 영상을 다 저장하지 않고, 핵심만 요약해서 저장하므로 컴퓨터 성능을 많이 잡아먹지 않습니다. (실시간으로 작동 가능)
  2. 성능: 실험 결과, 기억력이 필요한 복잡한 작업 (예: 물건 찾기, 이동하며 물건 정리하기) 에서 기존 최고의 로봇 기술들보다 20% 이상 더 잘 수행했습니다.
  3. 유연성: 기억이 필요 없는 단순한 작업에서는 기존 기술과 똑같이 잘 작동하고, 기억이 필요한 복잡한 작업에서는 압도적인 성능을 보입니다.

📝 한 줄 요약

VPWEM은 로봇에게 "지금 당장 보는 것"을 빠르게 처리하는 단기 기억과, "과거의 중요한 경험"을 요약해서 저장해두는 장기 기억을 동시에 주어, 로봇이 인간처럼 오래된 기억을 떠올리며 복잡한 미션을 해결할 수 있게 만든 혁신적인 기술입니다.

이제 로봇도 "어제 뭐 했더라?"라고 생각하며 실수를 줄이고, 더 똑똑하게 일할 수 있게 된 셈입니다! 🤖✨