Each language version is independently generated for its own context, not a direct translation.

📊 FEAT: 거대 데이터를 위한 '초고속' 지능형 비서

안녕하세요! 오늘 소개해 드릴 논문은 FEAT이라는 새로운 인공지능 모델에 관한 것입니다. 이 모델은 우리가 매일 접하는 '정형 데이터'(엑셀 표, 고객 정보, 주가 기록 등) 를 분석하는 방식을 완전히 바꿔놓았습니다.

기존의 거대 모델들은 데이터가 조금만 많아져도 "메모리 부족!"이라며 멈춰버렸는데, FEAT 는 수백만 개의 데이터도 순식간에 처리하면서도 정확도는 그대로 유지합니다. 마치 초고속 열차가 기존 기차의 느린 속도를 완전히 대체한 것과 같습니다.

이 복잡한 기술을 쉽게 이해할 수 있도록 일상적인 비유로 설명해 드릴게요.

1. 왜 새로운 모델이 필요했을까요? (기존의 문제점)

기존의 AI 모델들은 데이터를 분석할 때 **'모든 데이터를 서로 비교하는 방식'**을 썼습니다.

비유: 100 명의 학생이 있는 교실에서, 선생님이 "누가 누구와 친구일까요?"를 알기 위해 100 명 전원을 서로 한 명씩 짝지어 대화를 시킨다고 상상해 보세요.
- 학생이 100 명일 때는 괜찮지만, 학생이 100 만 명으로 늘어나면? 서로 대화하는 횟수가 100 만 x 100 만이 되어버려, 선생님이 지쳐버리고 교실이 붕괴됩니다.
- 이것이 기존 모델의 $O(N^2)$ 복잡도 문제입니다. 데이터가 조금만 많아져도 계산량이 기하급수적으로 늘어나서 컴퓨터가 멈추거나 (Out of Memory), 시간이 너무 오래 걸립니다.

또한, 기존 모델들은 데이터를 분석할 때 순서를 중요하게 여겼습니다.

비유: 엑셀 표에서 '이름', '나이', '주소' 순서가 바뀌면 데이터가 달라진다고 생각하는 것과 같습니다. 하지만 실제로는 순서가 바뀌어도 같은 사람입니다. 기존 모델은 이 순서 없는 데이터의 특성을 무시하고 무작정 순서대로 읽다가 중요한 정보를 놓치거나 왜곡했습니다.

2. FEAT 의 해결책: "두 개의 눈"을 가진 지능

FEAT 는 이 문제를 해결하기 위해 **선형 복잡도 ( $O(N)$ )**라는 마법을 사용했습니다. 데이터가 100 만 개가 되어도 계산량은 100 만 배만 늘어나지, 100 만 x 100 만 배는 되지 않습니다.

이를 위해 FEAT 는 **두 가지 다른 방식의 '눈'**을 동시에 사용합니다.

👁️ 첫 번째 눈: AFBM (빠른 스캐너)

역할: 데이터들 사이의 국소적인 관계를 빠르게 파악합니다.
비유: 도서관에서 책을 찾을 때, 가까운 책장끼리 빠르게 훑어보는 사서입니다. "이 책 옆에 있는 책들은 주제와 비슷하겠지?"라고 빠르게 연결합니다.
특징: 데이터의 순서가 중요하지 않다는 점을 고려해, 앞에서 뒤로, 그리고 뒤에서 앞으로 양방향으로 읽습니다. 그래서 순서가 뒤섞여도 어떤 데이터가 먼저 나왔는지 상관없이 모든 정보를 골고루 챙깁니다.

👁️ 두 번째 눈: Conv-GLA (거대한 기억장)

역할: 전체적인 맥락을 기억하고, 노이즈 (오류) 를 걸러냅니다.
비유: 도서관의 전체 카탈로그를 한눈에 보는 거대한 지도입니다. 사서가 개별 책을 훑어볼 때, "아, 이 책은 너무 이상하네? (노이즈)"라고 판단하면 무시하고, "이 책은 전체 흐름에 중요하네?"라고 판단하면 **기억장 (메모리)**에 안전하게 저장해 둡니다.
특징: 데이터가 너무 길어지면 기억이 희미해지는 것을 막기 위해, 중요한 정보만 선별해서 저장하는 필터 역할을 합니다.

이 두 눈이 협력하면, 빠르게 국소적인 관계를 파악하면서도 전체적인 큰 그림을 놓치지 않는 완벽한 분석이 가능해집니다.

3. 훈련 방법: "가짜와 진짜"를 섞어 가르치기

AI 를 가르칠 때, 기존 모델들은 주로 완벽하게 정리된 가짜 데이터로만 훈련했습니다.

문제점: 현실 세계의 데이터는 **예측 불가능한 이상치 (Outlier)**가 많습니다. (예: 갑자기 주가가 100 배 뛴다거나, 고객 정보가 누락되는 경우). 가짜 데이터로만 훈련한 AI 는 이런 현실의 혼란에 노출되면 "미쳐버립니다 (학습 불안정)."

FEAT 는 현실 세계의 혼란을 시뮬레이션하는 새로운 훈련법을 썼습니다.

비유: 요리사가 요리 대회에 나가기 위해, 완벽한 재료만 있는 실험실에서 연습만 하는 게 아니라, 재료가 부족하거나 상한 재료도 섞인 실제 시장에서 연습을 합니다.
효과: FEAT 는 가짜 데이터 (구조적 인과 모델) 와 진짜 데이터 (실제 산업 데이터) 를 섞어서 훈련하고, 이상치에 강하게 반응하지 않는 특수한 손실 함수를 사용했습니다. 덕분에 현실의 더러운 데이터에서도 흔들리지 않고 안정적으로 작동합니다.

4. 실제 성과: 얼마나 빨라졌을까요?

실험 결과, FEAT 는 놀라운 성과를 보여주었습니다.

속도: 기존 모델들이 50 만 개의 데이터를 처리할 때 22 초가 걸렸다면, FEAT 는 0.5 초도 안 되어 처리했습니다. (약 40 배 빠른 속도!)
정확도: 속도가 40 배 빨라졌는데, 정확도는 기존 최고 수준 모델들과 동일한 수준을 유지했습니다.
확장성: 데이터 양이 10 배, 100 배 늘어나도 속도가 느려지지 않고 선형적으로만 증가합니다.

🌟 요약: FEAT 가 왜 중요한가요?

FEAT 는 **"거대 데이터 시대의 새로운 표준"**이 될 수 있는 모델입니다.

속도: 수백만 건의 데이터를 순식간에 분석합니다. (기존은 불가능했던 일)
정확도: 데이터를 빠르게 처리한다고 해서 정확도가 떨어지지 않습니다.
현실 대응: 현실 세계의 불완전하고 복잡한 데이터를 잘 다룹니다.

마치:
과거에는 100 만 명의 고객 정보를 분석하려면 수천 명의 직원이 몇 달씩 일해야 했지만, FEAT 는 한 명의 슈퍼 AI 가 1 초도 안 되어 모든 것을 분석해 주는 셈입니다.

이 기술은 의료 진단, 금융 리스크 관리, 개인화 추천 시스템 등 방대한 데이터를 다루는 모든 분야에서 혁신을 가져올 것으로 기대됩니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

구조화 데이터 (의료, 금융, 전자상거래 등) 를 위한 대규모 구조화 데이터 모델 (LDMs) 은 기존 Transformer 기반의 Foundation Model 패러다임을 확장하여 분류, 회귀, 의사결정 지원 등을 수행할 수 있게 합니다. 그러나 현실 세계의 대규모 데이터셋에 적용할 때 다음과 같은 세 가지 주요 한계에 직면해 있습니다.

이차적 복잡도 (Quadratic Complexity) 의 병목 현상:
- 기존 LDM 들은 샘플 간 상호작용을 포착하기 위해 전체 자기 주의 (Full Self-Attention) 메커니즘을 사용합니다.
- 이로 인해 계산 및 메모리 복잡도가 $O(N^2)$ (N 은 샘플 수) 로 급증하여, 약 5 만 개 이상의 샘플만으로도 메모리 부족 (OOM) 이나 커널 오류가 발생하여 대규모 데이터 학습이 불가능합니다.
선형 모델의 표현력 붕괴 (Representation Collapse):
- 복잡도를 $O(N)$ 으로 줄이기 위해 상태 공간 모델 (SSM, 예: Mamba) 이나 선형 주의 (Linear Attention) 를 도입하려는 시도가 있었으나, 구조화 데이터의 특성 (순서 불변성, Permutation-invariant) 과 충돌합니다.
- 순차적 모델은 고정된 크기의 은닉 상태를 사용하여 정보를 압축하므로, 무작위 순서의 표본 데이터를 처리할 때 초기 컨텍스트를 잊어버리는 '최근 편향 (Recency Bias)'이 발생하거나, 전역적 상호작용을 모델링하지 못해 표현력이 급격히 떨어집니다.
무거운 꼬리 (Heavy-tailed) 분포 하의 최적화 불안정성:
- 기존 모델은 주로 i.i.d. 가정을 기반으로 한 합성 데이터로 사전 학습됩니다. 그러나 실제 데이터는 이질적 분산 (Heteroscedasticity) 과 극단적인 이상치 (Heavy-tailed outliers) 를 포함합니다.
- 이러한 데이터 분포에서 고정된 손실 함수 (예: MSE) 를 사용하면 그래디언트 폭발 (Gradient Explosion) 이나 최적화 붕괴가 빈번하게 발생합니다.

2. 제안 방법론 (Methodology: FEAT)

이러한 한계를 해결하기 위해 제안된 FEAT는 선형 복잡도 ( $O(N)$ ) 를 가지면서도 대규모 구조화 데이터에 대한 표현력을 유지하는 Foundation Model 입니다.

2.1. 아키텍처: 다중 계층 듀얼-축 인코딩 (Multi-layer Dual-axis Encoding)

FEAT 는 두 가지 상보적인 인코딩 레이어를 결합하여 선형 모델의 단점을 보완합니다.

셀 레벨 임베딩 (Cell-level Embedding):
- 구조화 데이터의 행 (샘플) 과 열 (특성) 에 대한 순서 불변성을 유지하기 위해, 값 임베딩과 열 식별자 (Column-axis feature identifier) 를 결합한 3D 텐서로 변환합니다.
- 고정된 위치 인코딩 대신 **S-DFE (Subspace Orthogonal Discriminative Feature Encoding)**를 사용하여 각 특성을 고유하게 식별하면서도 순서 편향을 제거합니다.
특성 축 모델링 (Feature-axis Modeling):
- 각 샘플 내의 특성 간 상관관계를 포착하기 위해 표준 Transformer 의 Multi-Head Self-Attention (MHSA) 을 특성 차원 ( $D$ ) 에 적용합니다.
샘플 축 모델링 (Sample-axis Modeling):
- 샘플 간 상호작용을 선형 복잡도로 모델링하기 위해 두 가지 레이어를 직렬로 배치합니다.
- AFBM (Adaptive-Fusion bi-Mamba-2): 순방향과 역방향으로 Mamba-2 를 실행하여 샘플 간의 **동적 국소 의존성 (Dynamic Local Dependencies)**을 포착합니다. 이는 인위적인 인과성 (Causal Mask) 문제를 해결하고 양방향 정보를 제공합니다.
- Conv-GLA (Convolutional Gated Linear Attention): AFBM 의 상태 압축 한계를 보완하기 위해, 1D 컨볼루션을 통해 노이즈를 필터링한 후 **명시적인 전역 메모리 (Explicit Global Memory)**를 누적합니다. 이는 가변적 게이트 메커니즘을 통해 정보 없는 샘플의 영향을 억제하고, 긴 시퀀스에서도 전역 컨텍스트를 안정적으로 유지합니다.

2.2. 사전 학습 전략 (Pre-training Strategy)

하이브리드 SCM 파이프라인:
- 단순한 합성 데이터가 아닌, Scale-free (무척도) causal graph, Prototype-based root initialization, Heteroscedastic noise (신호 크기에 비례하는 노이즈), 그리고 Kumaraswamy warping을 통한 Heavy-tailed 분포 모방 등을 포함한 고급 합성 구조적 인과 모델 (SCM) 파이프라인을 구축합니다.
- 이를 통해 합성 데이터와 실제 데이터 간의 분포 차이를 줄이고, 모델이 실제 세계의 복잡한 분포를 학습하도록 합니다.
안정화된 손실 함수:
- Heavy-tailed 데이터의 이상치로 인한 그래디언트 폭발을 방지하기 위해 **Huber 기반의 재구성 손실 (Smooth L1 Loss)**을 사용합니다.
- 또한, 분류, 회귀, 결측치 복원 (Imputation) 과 같은 다양한 태스크가 혼합된 배치에서 손실의 균형을 맞추기 위해 동적 손실 균형 (Dynamic Loss Balancing) 전략을 적용합니다.

2.3. 태스크 인식 예측 (Task-aware Prediction)

학습된 모델을 통해 레이블이 있는 컨텍스트 샘플을 기반으로 레이블이 없는 쿼리 샘플의 분포를 예측하는 **Zero-shot In-Context Learning (ICL)**을 수행합니다.
분류, 회귀, 결측치 복원을 위한 전용 헤드 (Head) 를 사용하여 추가적인 미세 조정 (Fine-tuning) 없이 다양한 태스크에 즉시 적용 가능합니다.

3. 주요 기여 (Key Contributions)

선형 복잡도 기반 산업급 구조화 데이터 Foundation Model:
- 기존 Transformer 의 $O(N^2)$ 병목을 깨고, 엄격한 $O(N)$ 복잡도를 가진 FEAT 를 최초로 제안했습니다. 이는 수백만 개의 행을 가진 데이터셋에서도 확장 가능한 학습을 가능하게 합니다.
표현력 보존을 위한 듀얼-축 아키텍처:
- AFBM(국소 의존성) 과 Conv-GLA(전역 메모리) 를 결합하여 선형 모델에서 발생하는 표현력 붕괴와 인과성 편향을 해결했습니다. 이를 통해 순서 불변인 구조화 데이터에서도 강력한 표현 학습이 가능합니다.
실제 데이터 분포에 최적화된 사전 학습:
- Heavy-tailed 노이즈와 이질적 분포를 고려한 하이브리드 SCM 생성 파이프라인과 Huber 기반 손실 함수를 도입하여, 합성 데이터와 실제 데이터 간의 격차 (Simulation-to-Reality Gap) 를 해소하고 안정적인 최적화를 보장합니다.
압도적인 성능과 효율성:
- 11 개의 실제 데이터셋에 대한 실험을 통해 기존 SOTA 모델들과 동등하거나 더 나은 Zero-shot 예측 성능을 유지하면서, 50 만 개 샘플 기준에서 최대 40 배 빠른 추론 속도를 달성함을 입증했습니다.

4. 실험 결과 (Results)

확장성 및 효율성 (Scalability & Efficiency):
- 샘플 수 (Context Size) 가 5,000 에서 500,000 으로 증가할 때, 기존 모델 (TabPFN, LimiX 등) 은 $O(N^2)$ 복잡도로 인해 메모리 오류가 발생하거나 추론 시간이 22 초 이상으로 급증했습니다.
- 반면, FEAT 는 5,000 개 (약 153ms) 에서 500,000 개 (약 564ms) 로 확장되더라도 선형적으로만 증가하여 안정적인 추론을 가능하게 했습니다.
예측 성능 (Predictive Performance):
- 분류 (Classification): Tabzilla-CLS, GI-CLS 등 11 개의 벤치마크에서 TabPFN, LimiX, XGBoost 등 기존 최첨단 모델들과 비교하여 경쟁력 있는 성능을 보였습니다. 특히 Tabzilla-CLS 에서 AUC 0.9251 을 기록하며 SOTA 를 달성했습니다.
- 회귀 (Regression): CTR23-REG 와 같이 대규모이고 희소한 데이터셋에서 FEAT 는 LimiX 보다 우수한 성능을 보이며, Long-context 처리 중 발생하는 분산 누적 문제를 효과적으로 제어함을 입증했습니다.

5. 의의 및 결론 (Significance)

FEAT 는 구조화 데이터 처리 분야에서 선형 복잡도 (Linear Complexity) 와 강력한 표현력 (Expressive Power) 의 상충 관계 (Trade-off) 를 성공적으로 해결한 획기적인 모델입니다.

기술적 의의: 기존 Transformer 기반 모델이 가진 메모리 병목을 해결하여, 수백만 건의 레코드를 가진 대규모 데이터셋을 전역적으로 학습하고 추론할 수 있는 새로운 패러다임을 제시했습니다.
실용적 가치: Zero-shot 학습 능력을 통해 특정 도메인에 대한 추가 학습 없이도 다양한 산업 (금융, 의료, 추천 시스템 등) 에 즉시 적용 가능하며, 실시간 대규모 데이터 처리가 필요한 환경에서 혁신적인 효율성을 제공합니다.
미래 전망: 이 연구는 대규모 구조화 데이터를 위한 Foundation Model 의 새로운 기준을 설정하며, 향후 멀티모달 데이터나 더 복잡한 산업 시나리오로 확장될 수 있는 기반을 마련했습니다.

FEAT: A Linear-Complexity Foundation Model for Extremely Large Structured Data