Time series forecasting with Hahn Kolmogorov-Arnold networks

Each language version is independently generated for its own context, not a direct translation.

🌟 1. 문제 상황: 왜 새로운 모델이 필요한가요?

시간 데이터를 예측하는 기존 AI 들은 두 가지 큰 문제를 안고 있었습니다.

Transformer(트랜스포머) 모델: 마치 거대한 도서관처럼 모든 책을 한 번에 훑어보며 관계를 찾습니다. 정확하지만, 책이 많아질수록 (데이터가 길어질수록) 도서관을 정리하는 데 시간이 너무 오래 걸려 비효율적입니다. 또한, 책의 순서를 무시하고 뒤섞을 수도 있어 시간의 흐름을 제대로 이해하지 못하기도 합니다.
MLP(다층 퍼셉트론) 모델: 마치 단순한 계산기처럼 빠르고 가볍습니다. 하지만 복잡한 패턴 (예: 급격한 변화나 고주파수 신호) 을 이해하는 데 한계가 있어, 정교한 요리를 할 때 맛이 떨어질 수 있습니다.

HaKAN은 이 두 가지의 단점을 없애고 장점만 모은 **'초고속 정교 요리사'**입니다.

🚀 2. HaKAN 의 핵심 아이디어: "Hahn 다항식"과 "패치"

이 모델은 **콜모고로프 - 아르놀드 네트워크 (KAN)**라는 최신 기술을 기반으로 합니다. 기존 모델이 고정된 레시피 (활성화 함수) 를 사용했다면, HaKAN 은 상황에 따라 레시피를 스스로 바꿔먹는 요리사입니다.

🧩 비유 1: 레고 블록과 "Hahn 다항식"

기존 방식: 레고 블록을 조립할 때, 모양이 딱딱하게 고정된 블록만 썼습니다.
HaKAN 방식: Hahn 다항식이라는 특별한 도구를 사용합니다. 이는 마치 유연한 점토처럼, 필요한 모양대로 스스로 변형할 수 있는 레고 블록입니다.
- 장점: 복잡한 곡선이나 급격한 변화를 훨씬 정확하게 표현하면서도, 필요한 재료 (파라미터) 는 적게 듭니다. 즉, 작은 몸집으로 큰 성능을 냅니다.

🧩 비유 2: "패치 (Patching)"와 "마이크로버스"

데이터를 한 줄로 쭉 읽는 대신, HaKAN 은 데이터를 **작은 조각 (패치)**으로 잘라냅니다.

패치: 긴 시간 데이터를 16 개씩 묶어서 작은 덩어리로 만듭니다.
이유: 긴 줄을 한 번에 보는 게 아니라, 작은 덩어리 단위로 분석하면 로컬 (국소) 패턴을 더 잘 파악할 수 있고, 계산 속도도 빨라집니다.

🏗️ 3. HaKAN 의 구조: 어떻게 작동할까요?

모델의 구조는 두 단계의 분석을 거칩니다.

내부 분석 (Intra-Patch):
- 각 작은 덩어리 (패치) 안에서 무슨 일이 일어나는지 봅니다.
- 비유: "이 16 분 동안의 날씨 변화가 갑자기 비가 오고 멈추는 급격한 변화인가?"를 파악합니다.
외부 분석 (Inter-Patch):
- 서로 다른 덩어리들 사이의 관계를 봅니다.
- 비유: "어제 아침의 패턴과 오늘 아침의 패턴이 어떻게 연결되어 있는가?"를 파악하여 장기적인 흐름을 예측합니다.

이 두 가지 분석을 Hahn-KAN 블록이라는 엔진이 반복해서 수행하며, 마지막에 **병목 구조 (Bottleneck)**를 통해 정보를 압축하고 다시 펼쳐서 최종 예측 값을 내놓습니다.

🏆 4. 실험 결과: 얼마나 잘하나요?

연구진은 전 세계적으로 유명한 7 가지 데이터셋 (날씨, 전력, 교통, 질병 등) 으로 실험을 했습니다.

결과: HaKAN 은 기존 최고의 모델들 (Transformer 기반, MLP 기반 등) 보다 일관되게 더 좋은 점수를 받았습니다.
특히: 데이터가 길어질수록 (장기 예측) 성능 차이가 더 벌어졌습니다.
효율성: Transformer 모델처럼 무거운 컴퓨터를 쓰지 않아도 되면서, MLP 모델처럼 단순하지도 않고 복잡한 패턴까지 잡아냅니다.

💡 5. 요약: 왜 HaKAN 이 특별한가요?

가볍고 빠릅니다: 무거운 도서관 (Transformer) 을 쓸 필요 없이, 스마트한 점토 (Hahn 다항식) 로 빠르게 작업합니다.
정확합니다: 국소적인 변화와 전체적인 흐름을 동시에 잡는 이중 분석 시스템을 갖췄습니다.
이해하기 쉽습니다: 모델이 어떻게 작동하는지 (어떤 레시피를 썼는지) 추적할 수 있어, 블랙박스처럼 어두운 AI 와는 다릅니다.

한 줄 요약:

"HaKAN 은 시간 데이터를 예측할 때, 작은 조각으로 나누어 세밀하게 분석하고, 유연한 수학적 도구 (Hahn 다항식) 를 써서 복잡한 패턴까지 잡아내는 차세대 예지 모델입니다."

이 모델은 앞으로 에너지 관리, 주식 시장 예측, 질병 확산 예측 등 다양한 분야에서 더 빠르고 정확한 의사결정을 돕는 도구가 될 것으로 기대됩니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

다변량 장기 시계열 예측 (Multivariate Long-term Time Series Forecasting) 은 소매, 에너지, 교통, 의료 등 다양한 분야에서 필수적이지만, 복잡한 시간적 패턴과 장기 의존성을 포착하면서도 계산 효율성을 유지해야 하는 과제를 안고 있습니다. 기존 주요 접근법들은 다음과 같은 한계가 있습니다:

Transformer 기반 모델: 어텐션 (Attention) 메커니즘을 통해 장기 의존성을 포착하지만, 시퀀스 길이에 비례하는 **이차 복잡도 (Quadratic Complexity)**로 인해 계산 비용이 높고, 시간 순서를 자연스럽게 보존하지 못하는 치환 동치 (Permutation-equivariant) 특성을 가집니다.
MLP 기반 모델: 계산 효율성이 높지만, **스펙트럴 편향 (Spectral Bias)**으로 인해 고주파 성분을 모델링하는 데 어려움을 겪으며, 선형 변환에 의존하여 비선형 시간 역동성을 포착하는 데 한계가 있습니다.

2. 제안된 방법론 (Methodology)

저자들은 **HaKAN (Hahn Kolmogorov-Arnold Network)**이라는 새로운 프레임워크를 제안합니다. 이는 Kolmogorov-Arnold Networks (KANs) 의 유연성과 Hahn 다항식의 효율성을 결합한 모델입니다.

핵심 아키텍처 구성 요소

채널 독립성 (Channel Independence): 각 변수 (채널) 를 독립적으로 처리하여 개별 변수의 고유한 시간적 역동성을 보존합니다.
패치링 (Patching): 시계열 데이터를 작은 패치 (subseries) 단위로 분할하여 지역적 패턴을 포착하고 계산 효율성을 높입니다.
Hahn-KAN 블록: 모델의 핵심으로, Hahn 다항식을 기반으로 한 학습 가능한 활성화 함수를 사용하는 KAN 레이어로 구성됩니다.
- Intra-Patch KAN: 패치 내부의 세밀한 지역적 패턴 (예: 짧은 시간窗의 급변) 을 포착합니다.
- Inter-Patch KAN: 패치 간의 관계를 모델링하여 전체 시계열에 걸친 글로벌 시간적 패턴 (예: 장기 추세) 을 포착합니다.
- 잔차 연결 (Residual Connection): 학습 안정성을 보장합니다.
병목 구조 (Bottleneck Structure): 두 개의 완전 연결층 (Fully Connected Layers) 을 사용하여 특징 벡터를 압축 (Down-projection) 하고 예측 구간 (Prediction Horizon) 으로 확장 (Up-projection) 합니다. 이는 과적합을 줄이고 예측 효율성을 높입니다.
가역 인스턴스 정규화 (RevIN): 데이터 분포의 변화를 처리하기 위해 입력 정규화와 출력 역정규화를 수행합니다.

Hahn 다항식의 활용 이유

기존 KAN 이 사용하는 B-spline 은 그리드 분할 (Grid Discretization) 이 필요하여 복잡도가 높지만, HaKAN 은 Hahn 다항식을 사용하여 다음과 같은 이점을 얻습니다:

그리드 불필요: 그리드 크기 의존성을 제거합니다.
낮은 복잡도: 시간 복잡도가 $O(d_{in}d_{out}d)$ 로 단순화되어 MLP 와 유사한 효율성을 가지며, 파라미터 수가 현저히 적습니다.
해석 가능성: 학습 가능한 활성화 함수를 통해 모델의 의사결정 과정을 해석할 수 있습니다.

3. 주요 기여 (Key Contributions)

HaKAN 프레임워크 도입: Hahn 다항식을 파라미터로 사용하는 KAN 레이어를 활용한 다변량 장기 시계열 예측을 위한 새로운 프레임워크를 제안했습니다.
계층적 Hahn-KAN 블록 설계: 글로벌 (Inter-patch) 과 로컬 (Intra-patch) 시간 패턴을 동시에 포착하기 위해 두 가지 KAN 레이어를 통합한 새로운 아키텍처를 설계했습니다.
성능 입증: 다양한 벤치마크 데이터셋에서 최신 최첨단 (SOTA) 방법론들을 일관되게 능가하는 성능을 입증하고, 핵심 구성 요소의 유효성을 검증하기 위한 애블레이션 연구를 수행했습니다.

4. 실험 결과 (Results)

데이터셋: Weather, Electricity, Illness, ETT (ETTh1, ETTh2, ETTm1, ETTm2), Traffic 등 7 개의 주요 벤치마크 데이터셋에서 평가되었습니다.
비교 대상: PatchTST, DLinear, iTransformer, TimeKAN, TsKAN, S-Mamba 등 최신 모델들과 비교되었습니다.
성능:
- HaKAN 은 대부분의 예측 구간 (T=96, 192, 336, 720) 에서 **MSE(평균 제곱 오차)**와 MAE(평균 절대 오차) 측면에서 가장 낮은 오차를 기록했습니다.
- 특히 Illness 데이터셋에서는 평균 MSE 와 MAE 를 각각 8.98%, 3.96% 감소시켰으며, ETT 데이터셋에서도 우수한 성능을 보였습니다.
- 고정된 Look-back 윈도우 (L=96) 조건에서도 PatchTST 및 Crossformer 와 같은 강력한 베이스라인들을 능가했습니다.
애블레이션 연구:
- 기저 함수 비교: Hahn 다항식이 Lucas, Chebyshev, B-Splines 등 다른 기저 함수보다 우수한 성능을 보였습니다.
- 블록 수: 블록 수 $R=5$ 일 때 성능과 파라미터 효율성 사이의 최적 균형을 이뤘습니다.
- 레이어 구성: Intra-patch 와 Inter-patch 레이어 모두를 사용할 때 가장 좋은 성능을 냈으며, 특히 Intra-patch 레이어 제거 시 성능 저하가 가장 컸습니다.

5. 의의 및 결론 (Significance & Conclusion)

계산 효율성과 표현력의 균형: HaKAN 은 Transformer 의 높은 계산 비용 없이 장기 의존성을 포착하고, MLP 의 스펙트럴 편향을 해결하는 가볍고 해석 가능한 대안을 제시합니다.
Hahn 다항식의 혁신적 적용: KAN 에 Hahn 다항식을 적용함으로써 그리드 의존성을 제거하고 파라미터 효율성을 극대화했습니다.
미래 전망: 향후 주파수 영역 (Frequency-domain) 기술과의 통합을 통해 주기적 패턴 모델링 능력을 더욱 향상시킬 계획입니다.

이 논문은 시계열 예측 분야에서 KAN 아키텍처의 잠재력을 입증하고, Hahn 다항식을 활용한 효율적인 모델 설계가 차세대 시계열 예측의 중요한 방향이 될 수 있음을 보여줍니다.