ELMUR: External Layer Memory with Update/Rewrite for Long-Horizon RL Problems

ELMUR 은 각 레이어가 LRU 기반의 외부 메모리를 통해 장기 의존성을 효과적으로 관리하도록 설계된 트랜스포머 아키텍처로, 부분 관측성과 긴 시간 범위를 가진 복잡한 로봇 제어 및 의사결정 과제에서 기존 방법론을 크게 능가하는 성능을 입증했습니다.

Egor Cherepanov, Alexey K. Kovalev, Aleksandr I. Panov

게시일 2026-03-05
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"ELMUR"**이라는 새로운 인공지능 모델을 소개합니다. 이 모델은 로봇이나 게임 캐릭터가 아주 긴 시간 동안 복잡한 일을 할 때, 과거의 중요한 정보를 잊지 않고 기억할 수 있도록 도와주는 기술입니다.

기존의 인공지능은 "지금 보고 있는 것"만 기억하는 경우가 많아서, 1000 걸음 전에 본 단서를 잊어버리고 실수를 하곤 했습니다. ELMUR 은 이 문제를 해결하기 위해 **특별한 '외부 메모리'**를 장착했습니다.

이 기술을 쉽게 이해할 수 있도록 몇 가지 비유로 설명해 드리겠습니다.


1. 문제 상황: "소금 넣기 실수"

논문 도입부에서 아주 재미있는 예시를 들었습니다.

"로봇이 파스타를 만들고 있습니다. 소금을 넣고, 저어주고, 나중에 다시 소금을 넣습니다. 로봇은 소금이 이미 들어갔는지, 혹은 얼마나 더 넣어야 하는지 기억하지 못해서 결국 소금에 절인 파스타를 만들어냅니다."

왜 그럴까요? 로봇은 **지금 눈앞에 보이는 것 (Partial Observability)**만 보고 결정하기 때문입니다. 소금이 녹아서 보이지 않으면, 로봇은 "아까 소금을 넣었나?"라는 질문을 할 수 있는 기억이 없습니다.

2. ELMUR 의 해결책: "지혜로운 도서관 사서"

기존의 인공지능 (변환기 모델 등) 은 단순한 메모장처럼 작동합니다. 페이지가 꽉 차면 가장 오래된 정보를 지워버립니다. 하지만 ELMUR 은 지혜로운 도서관 사서처럼 작동합니다.

  • 층별 외부 메모리 (Layer-Local Memory):
    ELMUR 은 뇌의 각 층마다 작은 개인용 메모장을 하나씩 가지고 있습니다. 모든 층이 각자 중요한 정보를 따로 저장하고 공유합니다.
  • LRU (최소 사용 빈도) 관리 시스템:
    이것이 ELMUR 의 핵심입니다. 사서는 메모장이 꽉 차면, 가장 오랫동안 한 번도 안 쓴 (Least Recently Used) 페이지를 찾아냅니다.
    • 새로운 정보: 아주 중요한 새로운 정보가 오면, 오랫동안 안 쓴 페이지를 지우고 그 정보를 적습니다.
    • 혼합 (Blending): 만약 그 페이지에 아주 오래된 중요한 정보가 있다면, 그냥 지우지 않고 새 정보와 섞어서 (Convex Blending) 업데이트합니다. 마치 오래된 레시피에 새로운 팁을 추가하는 것과 같습니다.

이 방식 덕분에 ELMUR 은 100,000 배 더 긴 시간 동안 정보를 기억할 수 있습니다.

3. 어떻게 작동할까요? (독서와 필기)

ELMUR 은 두 가지 행동을 반복합니다.

  1. 읽기 (mem2tok): 현재 상황을 판단할 때, 과거의 메모장을 뒤져서 "아, 1000 걸음 전에 빨간색을 봤었지?"라고 정보를 찾아옵니다.
  2. 쓰기 (tok2mem): 새로운 중요한 정보를 발견하면, 메모장의 가장 오래된 페이지를 찾아 그 정보를 적어 넣습니다.

이때 LRU가 "어떤 페이지를 지울지"를 결정해주기 때문에, 메모리가 꽉 차도 중요한 정보는 계속 살아남습니다.

4. 실험 결과: 얼마나 잘할까요?

논문은 ELMUR 이 얼마나 뛰어난지 세 가지 테스트로 증명했습니다.

  • 미로 탈출 (T-Maze):
    로봇이 100 만 걸음이나 되는 긴 미로를 걸어가야 합니다. 시작점에 있는 단서를 기억하고 끝에 가서 올바른 길을 선택해야 합니다.
    • 결과: ELMUR 은 100% 성공률을 기록했습니다. 다른 모델들은 100 걸음만 지나도 잊어버렸지만, ELMUR 은 100 만 걸음 후에도 기억했습니다.
  • 로봇 조종 (MIKASA-Robo):
    로봇 팔로 물건을 잡거나 색깔을 기억하는 작업입니다.
    • 결과: 기존 최고의 모델보다 성공률이 거의 2 배나 높아졌습니다. 특히 23 개 작업 중 21 개에서 1 위를 차지했습니다.
  • 퍼즐 게임 (POPGym):
    복잡한 규칙과 기억력을 요구하는 48 가지 퍼즐 게임입니다.
    • 결과: 절반 이상의 게임에서 다른 모델들을 압도했습니다.

5. 요약: 왜 이것이 중요한가요?

지금까지의 인공지능은 **"지금 당장 보이는 것"**에만 집중하는 경향이 있었습니다. 하지만 현실 세계 (로봇, 자율주행, 복잡한 게임) 는 오래된 정보가 나중에 결정에 영향을 미치는 경우가 많습니다.

ELMUR은 마치 **"과거의 경험을 체계적으로 정리해두는 지혜로운 사서"**처럼 작동하여, 인공지능이 아주 긴 시간 동안에도 중요한 정보를 잊지 않고, 더 똑똑하게 행동할 수 있게 해줍니다.

이 기술이 발전하면, 소금을 너무 많이 넣지 않는 로봇 요리사나, 아주 긴 미로를 헤매지 않고 목적지에 도달하는 자율주행 로봇을 만들 수 있게 될 것입니다.