Each language version is independently generated for its own context, not a direct translation.

🧠 "HEAPr": 거대한 AI 의 '불필요한 부속품'을 정교하게 다듬는 새로운 방법

이 논문은 거대한 언어 모델 (LLM) 이 가진 방대한 메모리 요구량이라는 문제를 해결하기 위해 개발된 새로운 기술, HEAPr에 대해 설명합니다.

상상해 보세요. 거대한 도서관 (AI 모델) 이 있는데, 책장 하나하나가 너무 커서 건물을 채울 정도입니다. 하지만 실제로 우리가 책을 읽을 때는 그중 아주 일부만 꺼내 봅니다. 문제는 모든 책장을 다 가져가야만 (메모리에 저장해야만) 도서관을 운영할 수 있다는 점입니다. 이 논문은 그 거대한 책장 중 정말 필요 없는 작은 책장 조각들을 찾아내어, 성능은 그대로 유지하면서 도서관 크기를 줄이는 방법을 제시합니다.

1. 문제: 너무 크고 비싼 AI (MoE)

최근 AI 는 **MoE(Mixture of Experts, 전문가 혼합)**라는 기술을 사용합니다.

비유: 한 명의 천재가 모든 일을 하는 게 아니라, 수천 명의 '전문가'들이 모여 있습니다. 질문이 들어오면, 가장 잘 맞는 2~3 명의 전문가만 깨워 일을 시킵니다.
장점: 계산 속도가 빠르고 성능이 좋습니다.
단점: 모든 전문가의 지식 (파라미터) 을 메모리에 다 저장해 둬야 합니다. 실제로는 3 명만 쓰는데, 1,000 명분의 책장을 다 가져가야 하니 메모리 비용이 천문학적으로 비쌉니다.

2. 기존 방법의 한계: "뚱뚱한 사람"을 통째로 잘라내는 것

기존에는 필요 없는 '전문가 (Expert)' 전체를 잘라내는 방식 (Expert Pruning) 을 썼습니다.

비유: 팀원 중 한 명이 쓸모없다고 판단되면, 그 사람 전체를 해고하는 것입니다.
문제: 그 사람 안에도 아주 유용한 작은 능력들이 섞여 있을 수 있습니다. 통째로 잘라내면 실력이 급격히 떨어지거나, 반대로 잘라내도 성능 향상은 크지 않습니다. 너무 거친 (Coarse) 방법입니다.

3. HEAPr 의 혁신: "원자 (Atomic)" 단위로 잘라내기

HEAPr 은 이 문제를 더 작은 단위로 접근합니다.

핵심 아이디어: 전문가 하나를 더 이상 잘라낼 수 없는 **가장 작은 단위인 '원자 전문가 (Atomic Expert)'**로 쪼갭니다.
비유: 한 명의 전문가가 "수학, 역사, 과학"을 모두 다룹니다. 기존 방법은 이 사람을 통째로 잘라냈다면, HEAPr 은 수학 능력만 남기고 역사와 과학 능력만 따로 잘라내는 것입니다.
효과: 정말로 쓸모없는 작은 능력 조각들만 골라내어, AI 의 크기를 줄이면서도 핵심 실력은 그대로 유지합니다.

4. 기술적 비법: "두 번째 눈"으로 중요도 측정 (Hessian)

어떤 조각을 잘라내야 할지 어떻게 알까요? 단순히 "이게 작아 보이니 잘라라"가 아닙니다.

기존 방식: "이게 얼마나 큰지" (1 차 정보) 만 봅니다.
HEAPr 방식 (OBS 이론 활용): **"이걸 잘라내면 전체 시스템이 얼마나 아파할까?"**를 계산합니다.
- 비유: 다리 하나를 자르면 몸이 얼마나 흔들리는지 예측하는 것입니다. 이를 위해 수학적으로 매우 정교한 **'2 차 정보 (Hessian)'**를 사용합니다.
- 문제: 이 계산을 하려면 컴퓨터 메모리가 터질 정도로 계산량이 많습니다.
- HEAPr 의 해결책: 계산량을 획기적으로 줄이는 마법을 부렸습니다.
  1. 원자 단위 분리: 서로 다른 조각들은 서로 영향을 주지 않는다는 사실을 이용해 계산을 단순화합니다.
  2. 출력 공간으로 이동: 파라미터 (설계도) 를 직접 계산하는 대신, 그 결과가 나온 출력값을 분석하여 중요도를 판단합니다.
- 결과: 메모리 사용량을 16 분의 1 수준으로 줄이면서도, 아주 정밀하게 "어떤 조각을 잘라내도 AI 가 아파하지 않는다"는 것을 찾아냅니다.

5. 실험 결과: "손실 없는" 압축

이론만 좋은 게 아닙니다. 실제 실험 결과도 놀랍습니다.

DeepSeek, Qwen 같은 최신 거대 모델들을 대상으로 실험했습니다.
20%~25% 정도의 조각을 잘라내도, 원래 모델과 거의 똑같은 성능을 유지했습니다. (거의 손실 없음, Nearly Lossless)
계산량 (FLOPs) 은 20% 줄어듭니다. 즉, 똑똑한 AI 를 더 가볍고 빠르게 만들었습니다.
기존 방법 비교: 다른 최신 방법들보다 훨씬 더 많은 양을 잘라내면서도 성능이 떨어지지 않았습니다.

6. 결론: AI 를 더 가볍게, 더 똑똑하게

HEAPr 은 거대한 AI 모델을 다듬는 새로운 기준을 제시합니다.

기존: "전문가"를 통째로 잘라냄 (너무 거침).
HEAPr: "원자 전문가" 단위로 정교하게 다듬음 (정밀함).
핵심: 수학적으로 복잡한 계산을 효율적으로 변형하여, 적은 비용으로 최고의 성능을 냅니다.

한 줄 요약:

"거대한 AI 의 몸집을 줄이려면, 통째로 잘라내는 게 아니라 가장 작은 불필요한 부분까지 정밀하게 찾아내어 다듬는 것이 답입니다. HEAPr 은 바로 그 정밀한 '수술 도구'입니다."

이 기술이 상용화되면, 우리 스마트폰이나 개인용 PC 에서도 거대하고 똑똑한 AI 를 부담 없이 구동할 수 있는 날이 머지않았을 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

MoE 아키텍처의 한계: 대형 언어 모델 (LLM) 에서 Mixture-of-Experts (MoE) 구조는 높은 성능과 추론 비용 절감을 제공하지만, 모든 파라미터를 GPU 메모리에 저장해야 하므로 메모리 요구량이 매우 큽니다 (예: DeepSeek-V3 는 37B 파라미터만 활성화하지만 671B 전체를 저장해야 함).
기존 가지치기 (Pruning) 방법의 부족:
- Expert-level Pruning (전문가 단위): 기존 연구들은 전체 전문가 (Expert) 를 제거하거나 병합하는 방식을 사용했습니다. 그러나 이는 입자도 (granularity) 가 너무 거칠어 정확도 저하가 크거나, 병합 시 파라미터 충돌로 인해 비효율적인 결과를 초래합니다.
- Second-order 정보의 계산 비용: 최적의 가지치기를 위해 2 차 미분 정보 (Hessian 행렬) 를 활용하는 'Optimal Brain Surgeon (OBS)' 이론은 효과적이지만, MoE 모델의 거대한 파라미터 공간에서 Hessian 행렬을 계산하는 것은 메모리 복잡도 ( $O(d^4)$ ) 와 계산 비용 측면에서 현실적으로 불가능합니다.

2. 제안 방법론 (Methodology: HEAPr)

저자들은 HEAPr이라는 새로운 가지치기 알고리즘을 제안하며, 이를 통해 MoE 모델을 더 세밀하고 효율적으로 압축합니다.

A. Atomic Expert (원자적 전문가) 개념 도입

기존 'Expert' 단위를 더 작고 분할 불가능한 Atomic Expert 단위로 분해합니다.
각 MoE 전문가 ( $E_i$ ) 는 $W_{up}, W_{gate}, W_{down}$ 행렬의 특정 열/행 조합으로 정의되며, 이는 여러 개의 Atomic Expert 의 합으로 표현됩니다.
장점: 전체 전문가를 제거하는 대신, 기여도가 낮은 Atomic Expert 만을 선택적으로 제거하여 모델 구조를 유지하면서 더 정밀한 압축이 가능합니다.

B. 출력 공간 (Output Space) 기반 2 차 정보 최적화

OBS 이론을 적용하되, 계산 비용을 획기적으로 줄이기 위해 두 가지 핵심 최적화를 수행합니다.

파라미터 공간에서의 분해: 서로 다른 Atomic Expert 간의 파라미터는 서로 독립적 (decoupled) 이므로, 교차 Hessian 항이 0 이 됩니다. 이를 통해 Hessian 행렬의 크기를 Expert 단위에서 Atomic Expert 단위로 축소합니다.
출력 공간으로의 전환 (핵심 혁신):
- 파라미터 공간에서의 가지치기 제약 조건을 Atomic Expert 의 출력 공간으로 변환합니다.
- Fisher Information Matrix 를 사용하여 기대 Hessian 을 근사하며, 이는 계산이 훨씬 효율적입니다.
- 공유 기울기 (Shared Gradient): 동일한 전문가 내의 모든 Atomic Expert 는 손실 함수에 대해 동일한 기울기 (Gradient) 를 공유한다는 성질을 이용합니다.
- 결과: 2 차 정보의 공간 복잡도를 $O((3d_{model} \cdot d_{inter})^2)$ 에서 $O(d_{model}^2)$ 로 대폭 감소시켰습니다.

C. HEAPr 알고리즘 프로세스

Shared Gradient Covariance Estimation: 작은 캘리브레이션 세트 (Calibration Set) 에서 한 번의 역전파 (Backward Pass) 를 수행하여 각 전문가의 공유 기울기 공분산 행렬을 계산합니다.
Importance Computation: 순전파 (Forward Pass) 를 통해 각 Atomic Expert 의 출력을 계산하고, 공유된 공분산 행렬과 결합하여 중요도 점수 ( $s_k$ $s_{k}$ ) 를 산출합니다.
- 중요도 점수 $s_k = \frac{1}{2} e_k^T \bar{G} e_k$ (여기서 $e_k$ 는 출력, $\bar{G}$ 는 기울기 공분산).
Global Ranking: 모델 내 모든 Atomic Expert 의 중요도를 전역적으로 순위 매겨 하위 $r\%$ 를 제거합니다.

효율성: 전체 과정은 작은 데이터셋에 대해 2 번의 순전파와 1 번의 역전파만으로 완료됩니다.

3. 주요 기여 (Key Contributions)

새로운 가지치기 단위: MoE 모델을 'Expert' 단위가 아닌 더 세밀한 'Atomic Expert' 단위로 분해하여 유연하고 정밀한 가지치기를 가능하게 함.
효율적인 2 차 정보 근사: 파라미터 공간에서 출력 공간으로 분석을 전환하고 Fisher Information Matrix 를 활용하여 2 차 정보의 공간 복잡도를 $O(d^4)$ 에서 $O(d^2)$ 로 낮춤.
HEAPr 알고리즘: 재학습 (Retraining) 이 필요 없으며, 매우 적은 계산 비용 (2 Forward, 1 Backward) 으로 전역 최적의 가지치기를 수행하는 확장 가능한 알고리즘 제안.
SOTA 성능 달성: 다양한 MoE 모델 (DeepSeek, Qwen 시리즈) 에서 기존 최첨단 방법들을 압도하는 성능을 입증.

4. 실험 결과 (Results)

모델 및 벤치마크: DeepSeekMoE-16B-Base, Qwen1.5-MoE-A2.7B-Chat, Qwen2-57B-A14B, Qwen3-30B-A3B 등 최신 MoE 모델 4 종을 대상으로 7 가지 제로샷 (Zero-shot) 태스크에서 평가.
성능 유지 (Lossless Compression):
- DeepSeekMoE-16B: 20% 가지치기 시 원본 모델과 거의 동일한 성능 유지.
- Qwen1.5-MoE: 25% 가지치기 시 성능 손실 최소화.
- Qwen2-57B: 40% 가지치기 시에도 원본 모델과 유사한 성능 유지.
- Qwen3-30B: 25% 가지치기 시 평균 정확도 0.62 → 0.59 (매우 미세한 감소).
비교 우위: NAEE, MoE-I2, MC-SMoE, D2-MoE 등 기존 가지치기 및 병합 방법들보다 다양한 가지치기 비율에서 더 높은 정확도를 기록.
FLOPs 감소: 가지치기 비율 20%~25% 에서 약 20% 의 FLOPs 감소 효과를 달성하며, 하드웨어 가속화 가능.
전역 vs 계층별 가지치기: 계층별 (Layer-wise) 가지치기보다 전역적 (Global) 순위 매기기가 더 우수한 성능을 보임.

5. 의의 및 결론 (Significance)

실용적 배포 가능성: MoE 모델의 막대한 메모리 요구량을 줄여, 리소스가 제한된 환경에서도 MoE 모델의 배포를 현실화합니다.
이론적 통찰: MoE 모델의 내부 구조를 'Atomic Expert' 수준에서 분석함으로써, 모델의 어떤 부분이 실제로 중요한지 더 깊이 이해할 수 있는 기반을 마련했습니다.
효율성: 2 차 미분 정보를 활용하면서도 계산 비용을 최소화한 방식은 향후 대규모 모델 압축을 위한 새로운 패러다임을 제시합니다.

요약하자면, HEAPr은 MoE 모델의 거친 가지치기 한계를 극복하고, 2 차 미분 정보의 계산 비용을 획기적으로 줄인 '원자적 전문가 (Atomic Expert)' 단위 가지치기 기법으로, 높은 압축률에서도 거의 손실 없는 성능을 유지하는 획기적인 솔루션입니다.

HEAPr: Hessian-based Efficient Atomic Expert Pruning in Output Space