Permutation-Equivariant 2D State Space Models: Theory and Canonical Architecture for Multivariate Time Series

Each language version is independently generated for its own context, not a direct translation.

1. 문제점: "불필요한 줄서기"의 함정

기존의 많은 AI 모델들은 여러 변수를 다룰 때, 마치 사람들이 줄을 서서 차례대로 이야기하는 것처럼 처리했습니다.

비유: 100 명의 학생 (변수) 이 교실에 있다고 칩시다. 기존 모델은 "1 번 학생이 먼저 말하고, 그 말을 들은 2 번 학생이 답하고, 3 번 학생이 그 답을 듣고..."라고 순서대로 처리합니다.
문제점: 하지만 실제 세상에서는 변수들 사이에 '순서'가 없습니다. 주식 A 와 주식 B, 혹은 심장의 박동과 호흡은 서로 순서가 정해진 것이 아니라 동시에 서로 영향을 주고받는 친구들입니다.
결과: 기존 모델은 "1 번이 2 번보다 먼저다"라는 인위적인 규칙을 강요받기 때문에, 변수의 순서를 바꿔주면 (예: 100 번 학생을 1 번으로) 모델이 엉망이 되거나, 모든 학생이 차례를 기다려야 해서 계산 속도가 매우 느려집니다.

2. 해결책: "원탁 회의"와 "전체 요약"

이 논문은 **"변수들은 순서가 없으니, 모두 한 자리에 모여서 동시에 대화하자"**는 아이디어를 제안합니다. 이를 **'치환 불변성 (Permutation Invariance)'**이라고 합니다.

새로운 방식 (VI 2D SSM):
1. 전체 요약 (Global Pooling): 먼저 100 명의 학생들 모두의 이야기를 한 번에 모아 "오늘의 전체 분위기"를 요약합니다. (이 과정은 순서가 중요하지 않습니다.)
2. 동시 업데이트: 이 '전체 요약'을 바탕으로 1 번부터 100 번까지 모든 학생이 동시에 자신의 상태를 업데이트합니다.
효과:
- 속도: 줄서기 (O(C)) 가 사라지고, 모두 동시에 하므로 (O(1)) 속도가 엄청나게 빨라집니다.
- 강건성: 학생들의 순서를 바꿔도 (1 번과 100 번을 바꿔도) 전체 요약은 똑같기 때문에 결과도 똑같습니다. 모델이 훨씬 더 똑똑하고 안정적입니다.

3. 핵심 기술: "세 가지 시선"을 가진 마법사 (VI 2D Mamba)

이 모델은 단순히 순서를 없앤 것뿐만 아니라, 데이터를 보는 세 가지 다른 렌즈를 가지고 있습니다.

긴 호흡 (Long-term): 멀리서 바라보는 시선입니다. (예: 주식의 10 년 추이, 계절의 변화)
짧은 호흡 (Short-term): 가까이서 빠르게 보는 시선입니다. (예: 1 분 단위의 급격한 변동, 순간적인 심장 박동)
주파수 렌즈 (Spectral): 소리를 분석하듯 데이터의 '진동'을 봅니다. (예: 데이터가 어떤 주기로 반복되는지, 숨겨진 패턴이 있는지)

이 세 가지 렌즈를 하나로 합쳐서 (Adaptive Gating), 상황에 따라 가장 중요한 시선을 선택하여 예측을 합니다.

4. 왜 이것이 중요한가요? (실제 효과)

연구진은 이 모델을 다양한 시험 (예측, 분류, 이상 탐지) 에 적용해 보았습니다.

예측: 날씨나 전력 사용량 같은 복잡한 데이터를 예측할 때, 기존 최고 성능 모델들보다 더 정확하고 빠릅니다.
이상 탐지: 공장 기계나 우주선 데이터에서 "뭔가 이상하다"는 것을 찾아낼 때, 변수 순서에 구애받지 않아 더 정확하게 고장 신호를 포착합니다.
확장성: 변수가 10 개일 때나 10,000 개일 때나 속도가 거의 일정하게 유지됩니다. 기존 모델은 변수가 많아지면 계산이 너무 느려져서 실용성이 떨어졌는데, 이 모델은 변수가 많아질수록 그 장점이 더 빛납니다.

5. 한 줄 요약

"기존 모델이 변수들을 '줄서기' 시켜서 느리고 비효율적으로 다뤘다면, 이 논문은 변수들을 '동시 회의'로 모아 순서의 제약 없이, 여러 각도에서 데이터를 바라보게 함으로써 더 빠르고 정확한 예측을 가능하게 했습니다."

이 모델은 복잡한 데이터의 본질을 이해하는 데 있어 **"순서는 중요하지 않다"**는 철학적 통찰을 수학적으로 증명하고, 이를 실제 인공지능에 적용한 획기적인 연구입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

다변량 시계열 (MTS) 모델링의 한계: 기존 다변량 시계열 모델링은 종종 변수 (변수 축) 에 인위적인 순서 (ordering) 를 부여합니다. 그러나 기후, 금융, 생체 신호 등 많은 실제 시스템에서는 변수 간의 고유한 순서나 기하학적 좌표가 존재하지 않으며, 변수는 단순히 식별자 (identifier) 역할을 합니다. 이를 변수 교환성 (Variable-axis Exchangeability) 이라고 합니다.
기존 2D SSM 의 문제점: 최근 등장한 2 차원 상태 공간 모델 (2D SSM, 예: Chimera) 은 시간 축과 변수 축 모두에 순환 (recurrence) 을 도입하여 변수 간 상관관계를 모델링합니다. 그러나 이는 변수 축을 이미지 픽셀처럼 순차적으로 스캔하는 방식을 취합니다.
- 인위적 인덕티브 바이어스: 변수 인덱스를 순서 있는 좌표로 간주하여, 변수의 순서가 바뀌면 모델의 출력이 달라지는 문제 (Permutation Sensitivity) 가 발생합니다.
- 계산 병목: 변수 축을 따라 순차적으로 업데이트를 수행하므로, 변수 수 ( $C$ ) 가 증가할수록 의존성 깊이가 $O(C)$ 가 되어 병렬 계산이 불가능하고 확장성이 떨어집니다.

2. 제안 방법론 (Methodology)

저자들은 변수 축의 치환 불변성 (Permutation Invariance) 과 치환 공변성 (Permutation Equivariance) 원리를 2D SSM 에 적용하여 이론적으로 검증된 새로운 아키텍처를 제안합니다.

A. 이론적 기반: 치환 공변성 원리 및 표준형 도출

치환 공변성 (Permutation Equivariance): 입력 변수의 순서가 바뀌면 출력도 동일한 순서로 바뀌어야 한다는 원리를 정의합니다.
선형 결합의 표준형 (Canonical Form): 변수 축에 대한 치환 공변성을 만족하는 선형 상태 결합 행렬 $M$ $M$ 은 반드시 다음과 같은 형태여야 함을 수학적으로 증명합니다.
$M = \alpha I_C + \beta \mathbf{1}\mathbf{1}^\top$
여기서 $\alpha I_C$ $α I_{C}$ 는 국소 자기 동역학 (Local Self-dynamics) 을, $\beta \mathbf{1}\mathbf{1}^\top$ $β 1 1^{⊤}$ 는 전역 평균화된 상호작용 (Global Pooled Interaction) 을 나타냅니다.
- 결론: 기존 2D SSM 이 사용한 순차적 (Ordered) 순환은 이 대칭성 제약 하에서 구조적으로 비효율적이며, 불필요합니다.

B. VI 2D SSM (Variable-Invariant 2D State Space Model)

위 이론적 통찰을 바탕으로 인위적 순서를 제거한 새로운 모델을 설계했습니다.

전역 상호작용 필드 (Global Interaction Field): 변수 축을 따라 순차적으로 스캔하는 대신, 모든 변수의 상태를 치환 불변 집합 집계기 (Permutation-Invariant Set Aggregator, 예: 평균 풀링) 를 통해 하나의 전역 설명자 (Global Descriptor, $\psi(t)$ ) 로 만듭니다.
병렬 업데이트: 각 변수는 자신의 국소 상태와 전역 설명자 $\psi(t)$ $ψ (t)$ 를 기반으로 동시에 (병렬로) 업데이트됩니다.
- 의존성 깊이 감소: 변수 축의 의존성 깊이가 $O(C)$ 에서 $O(1)$ 로 감소하여 완전한 병렬 처리가 가능해집니다.
- 안정성 분석 단순화: 시스템의 안정성이 두 개의 스칼라 모드 (평균 모드와 차이 모드) 로만 결정되므로 분석이 간소화됩니다.

C. VI 2D Mamba 아키텍처

VI 2D SSM 을 기반으로 한 통합 아키텍처로, 다음과 같은 다중 스케일 구조를 포함합니다.

다중 스케일 시간 경로 (Multi-Scale Temporal Pathways):
- 장기 (Long-term) 분기: 큰 시간 간격 ( $\Delta_l$ ) 을 사용하여 장기적인 추세와 계절성을 포착.
- 단기 (Short-term) 분기: 작은 시간 간격 ( $\Delta_s$ ) 을 사용하여 급격한 변동과 국소적 패턴을 포착.
스펙트럼 도메인 경로 (Spectral-Domain Pathway):
- 입력 시계열을 푸리에 변환 (Fourier Transform) 하여 주파수 영역으로 변환한 후, 2D SSM 을 적용합니다. 이는 주파수 대역 간의 의존성을 모델링하여 시간 영역 모델이 놓칠 수 있는 주파수 특성을 보완합니다.
적응형 게이트 (Adaptive Gating): 세 가지 경로 (장기, 단기, 주파수) 의 출력을 학습 가능한 게이트를 통해 동적으로 가중치 합산하여 최종 표현을 생성합니다.

3. 주요 기여 (Key Contributions)

다변량 2D SSM 을 위한 치환 대칭성 공식화: 비공간적 도메인에서 유효한 2D 상태 공간 동역학을 위해 변수 축의 교환성과 치환 공변성을 필수 제약 조건으로 제시했습니다.
공변성 결합의 표준적 특성화: 치환 공변성을 만족하는 선형 결합이 반드시 '국소 자기 동역학 + 전역 평균 상호작용' 형태로 분해됨을 수학적으로 증명했습니다.
대칭성 보존 2D SSM 구현 (VI 2D SSM): 인위적 의존성 체인을 제거하고 $O(1)$ 의존성 깊이를 가진 병렬 아키텍처를 제안하여 이론적 타당성과 계산 효율성을 동시에 달성했습니다.
구조적 확장성 및 실증적 검증: 다양한 벤치마크 (예측, 분류, 이상 탐지) 에서 SOTA 성능을 달성하면서도 변수 수 증가에 따른 계산 비용 증가를 억제하는 확장성을 입증했습니다.

4. 실험 결과 (Results)

장기 예측 (Long-term Forecasting): ETT, Electricity, Traffic, Weather 등 8 개 데이터셋에서 제안된 모델 (Ours) 은 Transformer 기반 (iTransformer, PatchTST 등) 및 기존 2D SSM (Chimera) 보다 평균 MSE 와 MAE 에서 우수한 성능을 보였습니다. 특히 Chimera 대비 대부분의 데이터셋에서 더 낮은 오차를 기록했습니다.
단기 예측 (Short-term Forecasting): M4 데이터셋에서 2 위를 기록하며 경쟁력 있는 성능을 입증했습니다. (단일 채널 데이터셋에서는 변수 순서 불변성의 이점이 상대적으로 작아 Chimera 와 유사하거나 약간 뒤처질 수 있음).
분류 및 이상 탐지 (Classification & Anomaly Detection):
- 이상 탐지: 변수 간 상호작용의 비정상적 패턴을 감지하는 데 치환 불변 모델링이 유리하여, 모든 베이스라인 (Chimera 포함) 을 능가하는 최고 성능 (F1-score) 을 달성했습니다.
- 분류: UEA 데이터셋에서 Chimera 와 유사하거나 약간 낮은 정확도를 보였으나, 계산 비용은 훨씬 낮았습니다.
효율성 분석:
- 계산 시간: 변수 수 ( $C$ ) 가 증가함에 따라 기존 2D SSM 은 훈련 시간이 선형적으로 증가하는 반면, 제안된 모델은 거의 일정한 시간을 유지했습니다.
- 메모리 및 FLOPs: 순차적 스캔을 제거하여 GPU 메모리 사용량과 연산량 (FLOPs) 이 기존 2D SSM 및 Transformer 기반 모델 대비 현저히 낮았습니다.

5. 의의 및 결론 (Significance)

이 논문은 다변량 시계열 모델링에 있어 대칭성 (Symmetry) 의 중요성을 이론적으로 정립하고, 이를 구현한 효율적인 아키텍처를 제시했다는 점에서 의의가 큽니다.

이론적 통찰: "변수 간 순서가 존재하지 않는다면, 순차적 스캔은 구조적으로 부적절하다"는 명제를 증명하고, 이에 대한 최적의 해법 (전역 집계 기반) 을 제시했습니다.
실용적 가치: 변수 수가 많은 고차원 시스템 (예: 수백 개의 센서 데이터) 에서 확장성 (Scalability) 과 계산 효율성을 극대화하면서도, 변수 순서에 민감하지 않은 강건한 (Robust) 모델을 제공합니다.
미래 방향: 상태 공간 모델 (SSM) 의 설계에 대칭성 원리를 적용하는 새로운 패러다임을 제시하여, 향후 시계열 및 기타 비순서적 데이터 모델링 연구에 중요한 기준이 될 것으로 기대됩니다.