Decision MetaMamba: Enhancing Selective SSM in Offline RL with Heterogeneous Sequence Mixing

Each language version is independently generated for its own context, not a direct translation.

1. 문제점: "기억력 좋은데, 중요한 건 놓치는 AI"

기존의 최신 AI 모델 (Mamba) 은 방대한 양의 데이터를 빠르게 처리하고 긴 문맥을 기억하는 데 매우 뛰어났습니다. 마치 기억력이 천재적인 학생처럼, 과거의 모든 시험 문제를 훑어보며 답을 찾는 데 능숙합니다.

하지만 이 학생에게 치명적인 약점이 하나 있었습니다.

선택적 기억: 이 학생은 "중요해 보이는 부분"만 집중하고, "별로 중요해 보이지 않는 부분"은 아예 무시하거나 지워버리는 버릇이 있었습니다.
실제 상황: 로봇이 길을 찾을 때, '현재 위치 (상태)'나 '목표까지 남은 점수 (RTG)' 같은 아주 중요한 정보가 '중요하지 않다'고 판단되어 무시당하면, 로봇은 길을 잃거나 엉뚱한 행동을 하게 됩니다.

이 논문은 **"기억력이 좋더라도, 중요한 순간을 놓치면 소용없다"**는 문제를 발견하고 해결책을 제시했습니다.

2. 해결책: "현미경 (DSM) 과 망원경 (Mamba) 의 조합"

저자들은 이 문제를 해결하기 위해 **Decision MetaMamba (DMM)**라는 새로운 구조를 만들었습니다. 이 모델은 두 가지 다른 도구를 조합해서 작동합니다.

① DSM (Dense Sequence Mixer): "현미경"

역할: 아주 가까운 과거의 정보들을 모두 자세히 들여다보는 역할입니다.
비유: 로봇이 한 걸음을 내디딜 때, 바로 앞의 발자국 (이전 상태) 과 그다음 발자국 (다음 상태) 사이의 미세한 연결고리를 놓치지 않도록 현미경으로 꼼꼼히 확인하는 것입니다.
효과: Mamba 가 "중요하지 않다"고 판단해서 정보를 흘려보낼 수도 있는, 아주 가까운 순간의 중요한 정보들을 모두 다 챙겨서 다음 단계로 전달합니다.

② 수정된 Mamba: "망원경"

역할: 아주 먼 과거부터 현재까지의 긴 흐름을 파악하는 역할입니다.
비유: 로봇이 전체 미로를 한눈에 보며, "아, 저기서 시작해서 저기서 끝나는구나"라는 **큰 그림 (장기적 목표)**을 그리는 망원경입니다.
효과: 긴 시간 동안의 패턴을 학습하여 복잡한 미로에서도 길을 찾을 수 있게 합니다.

핵심 아이디어:
기존 모델은 망원경만 들고 있어서 (Mamba), 가까이 있는 중요한 디테일 (현미경이 필요한 부분) 을 놓쳤습니다. 하지만 DMM 은 현미경 (DSM) 으로 가까운 정보를 먼저 꼼꼼히 챙긴 뒤, 망원경 (Mamba) 으로 먼 거리를 보게 함으로써, 중요한 정보를 절대 잃지 않게 만들었습니다.

3. 왜 이것이 혁신적인가?

정보 손실 제로: 로봇이 "이건 중요하지 않아"라고 생각해서 정보를 버리는 일이 없습니다. 모든 정보가 적절히 섞여서 전달됩니다.
작고 가벼움: 이 모델은 거대한 컴퓨터 없이도, 작은 로봇이나 스마트폰 같은 **작은 장치 (에지 디바이스)**에서도 잘 돌아갑니다. 불필요한 장식을 다 빼고 핵심 기능만 간소화했기 때문입니다.
성능: 실험 결과, 복잡한 미로 (AntMaze) 나 주방 정리 (Kitchen) 같은 어려운 과제에서 기존 최고의 모델들보다 훨씬 높은 점수를 받았습니다. 특히 보상이 드문드문 주어지는 상황 (Sparse Reward) 에서 빛을 발했습니다.

4. 요약: 한 마디로 표현하면?

"기존 AI 는 멀리 보는 데만 능해서 가까운 발걸음을 놓쳤다면, 새로운 DMM 은 '현미경'으로 가까운 디테일을 챙기고 '망원경'으로 먼 길을 보며, 중요한 정보를 절대 흘리지 않는 완벽한 가이드입니다."

이 기술은 앞으로 로봇이 스스로 학습하여 복잡한 작업을 수행하거나, 제한된 자원으로도 똑똑하게 작동하는 데 큰 역할을 할 것으로 기대됩니다.

Each language version is independently generated for its own context, not a direct translation.

논문 개요

이 논문은 오프라인 강화학습 (Offline RL) 에서 기존 Mamba 기반 모델이 가진 한계를 극복하기 위해 제안된 **Decision MetaMamba (DMM)**라는 새로운 아키텍처를 소개합니다. DMM 은 Mamba 의 선택적 스캐닝 (Selective Scanning) 메커니즘이 강화학습 시퀀스 내의 중요한 단계 정보를 누락시킬 수 있다는 문제를 해결하기 위해, **밀집 레이어 기반의 로컬 시퀀스 믹서 (Dense Sequence Mixer, DSM)**와 수정된 Mamba 를 결합한 이질적 (Heterogeneous) 시퀀스 혼합 구조를 설계했습니다.

1. 문제 제기 (Problem)

정보 손실의 문제: Mamba 와 같은 상태 공간 모델 (SSM) 은 Transformer 와 마찬가지로 시퀀스의 특정 단계에 집중하는 '선택적 메커니즘'을 사용합니다. 그러나 오프라인 RL 환경에서는 보상이 희소하거나 (Sparse Reward), 상태 (State) 와 목표 반환 (Return-to-Go, rtg) 벡터의 값이 작아 선택적 스캐닝 과정에서 이러한 토큰들이 무시되거나 가중치가 0 에 수렴할 수 있습니다.
로컬 동역학 모델링의 부족: Mamba 의 선택적 gating 메커니즘 (잔여 곱셈 및 시그모이드 활성화) 은 불필요한 정보를 억제하는 대신, 마르코프 과정 (Markov Process) 의 특성상 인접한 단계들 간의 전이 동역학 (Transition Dynamics) 을 학습하는 데 필요한 중요한 국소적 정보를 누락시킬 수 있습니다.
기존 모델의 한계: Transformer 기반 모델은 장기 의존성은 잘 포착하지만 국소적 전이에는 비효율적이며, 기존 Mamba 기반 모델은 선택적 스캐닝으로 인한 정보 손실로 인해 오프라인 RL 성능이 제한적입니다.

2. 방법론 (Methodology)

저자들은 **Decision MetaMamba (DMM)**를 제안하며, 이는 두 가지 주요 구성 요소로 이루어진 혼합 구조입니다.

가. 밀집 시퀀스 믹서 (Dense Sequence Mixer, DSM)

역할: 로컬 시퀀스 믹서 (Local Mixer) 로서 인접한 토큰 간의 의존성을 포착합니다.
작동 원리:
- Mamba 의 기존 1D 깊이별 합성곱 (Depth-wise Convolution) 을 대체합니다.
- 입력 임베딩을 로컬 윈도우 내에서 평탄화 (Flatten) 하고 연결 (Concatenate) 한 후, **밀집 선형 변환 (Dense Affine Transformation)**을 적용합니다.
- 이 방식은 모든 입력 채널을 동시에 고려하여 국소적 패턴 (Short-range patterns) 을 효과적으로 학습하며, 선택적 스캐닝 전에 로컬 정보를 통합합니다.

나. 수정된 Mamba (Modified Mamba)

역할: 글로벌 시퀀스 믹서 (Global Mixer) 로서 전체 시퀀스 간의 장기 의존성을 모델링합니다.
변경 사항:
- 원본 Mamba 블록 내부의 로컬 믹서 (Convolution) 를 제거하고, DSM 을 블록의 앞부분에 배치했습니다.
- DSM 의 출력을 Mamba 블록의 출력과 **잔여 연결 (Residual Connection)**을 통해 결합합니다.
- 이를 통해 DSM 이 로컬 정보를 먼저 처리한 후, Mamba 가 선택적 스캐닝을 수행하더라도 중요한 정보가 손실되지 않도록 보호합니다.
- Mamba 는 시퀀스 상태 공간 공식화를 통해 위치 정보를 내재화하므로, 별도의 위치 인코딩 (Positional Encoding) 이 불필요합니다.

다. 전체 구조 (DMM Block)

입력 $X_t$ 에 대해 다음과 같은 순서로 처리됩니다:

Layer Normalization 적용.
DSM 을 통한 로컬 믹싱 및 잔여 연결 ( $Z_t = \tilde{X}_t + DSM(\tilde{X}_t)$ ).
Layer Normalization 적용.
수정된 Mamba 를 통한 글로벌 믹싱 및 잔여 연결 ( $Y_t = \tilde{Z}_t + ModifiedMamba(\tilde{Z}_t)$ ).

3. 주요 기여 (Key Contributions)

DSM 설계: 평탄화된 입력 윈도우에 대한 밀집 아핀 변환을 통해 국소적 전이 동역학을 효과적으로 모델링하는 새로운 로컬 믹서를 제안했습니다.
DMM 아키텍처 제안: DSM 과 수정된 Mamba 를 통합하여 오프라인 RL 환경에서 국소적 및 글로벌 의존성을 모두 포착하면서도 인과적 모델링을 유지하는 구조를 개발했습니다.
성능 및 효율성 입증: D4RL 벤치마크 (MuJoCo, AntMaze, Franka Kitchen) 에서 최신 Transformer 및 SSM 기반 방법론을 능가하는 성능을 달성하면서도, 파라미터 수를 획기적으로 줄여 엣지 디바이스 적용 가능성을 높였습니다.

4. 실험 결과 (Results)

밀집 보상 환경 (Dense Reward, e.g., MuJoCo):
- Hopper, Walker2d, HalfCheetah 환경에서 기존 최첨단 방법론 (TD3+BC, CQL, DT, Decision Mamba 등) 보다 우수한 성능을 기록했습니다.
- 특히 Hopper 환경에서는 모든 기존 방법을 상회하는 최고 점수를 달성했습니다.
희소 보상 환경 (Sparse Reward, e.g., AntMaze, Kitchen):
- 보상이 희소한 환경에서 DMM 은 2 위 방법론보다 AntMaze 에서 13.5 점, Kitchen 에서 18.5 점이나 높은 점수를 기록하며 압도적인 우위를 보였습니다.
- 이는 DSM 이 인접 단계의 정보를 통합하여 마르코프 속성을 잘 반영하고, Mamba 가 장기 의존성을 보완함으로써 보상 지연 (Delayed Reward) 문제에서 더 강력한 추론 능력을 발휘했기 때문입니다.
파라미터 효율성:
- Decision Transformer (DT) 나 Decision Convformer (DC) 에 비해 파라미터 수가 훨씬 적음에도 동등하거나 더 나은 성능을 발휘했습니다.
- 예: Hopper-MD 에서 DMM 은 약 7 만 4 천 개의 파라미터로 DT(약 72 만 개) 보다 훨씬 적은 비용으로 높은 점수를 기록했습니다.
입력 구성 요소 분석:
- 기존 Mamba 는 Action 토큰에 과도하게 의존하는 반면, DMM 은 State 와 rtg 토큰의 기울기 (Gradient) 를 더 균형 있게 활용하여 정보 손실을 줄임을 확인했습니다.

5. 의의 및 결론 (Significance)

구조적 한계 극복: Mamba 의 선택적 스캐닝이 가져오는 정보 손실 문제를, 간단한 밀집 레이어 기반의 로컬 믹서를 추가함으로써 해결했습니다.
실용성: 적은 파라미터 수와 낮은 계산 비용으로 인해 제한된 자원을 가진 엣지 디바이스나 로봇 플랫폼에서의 오프라인 RL 적용에 매우 적합합니다.
일반화: 희소 보상 환경에서의 뛰어난 성능은 오프라인 RL 에서 국소적 전이 동역학 모델링의 중요성을 재확인시켰으며, 향후 시퀀스 모델링 기반 RL 연구에 새로운 방향을 제시합니다.

요약하자면, Decision MetaMamba는 Mamba 의 효율성과 Transformer 의 국소적 모델링 능력을 결합하여, 오프라인 강화학습에서 발생하는 정보 손실 문제를 해결하고 다양한 환경에서 State-of-the-Art 성능을 달성한 경량화된 모델입니다.