Each language version is independently generated for its own context, not a direct translation.
이 논문은 거대 언어 모델 (LLM, 예: 챗봇이나 AI 비서) 이 더 빠르고 저렴하게 작동할 수 있도록 돕는 새로운 '데이터 압축 기술'을 소개합니다.
핵심 주제는 **"AI 의 두뇌 (모델) 를 더 작게 줄이면서도, 지능을 잃지 않는 방법"**을 찾는 것입니다. 이를 위해 연구진은 화웨이 (Huawei) 의 Ascend 칩에 최적화된 **'HiFloat'**라는 새로운 숫자 표현 방식을 제안하고 테스트했습니다.
이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.
1. 배경: AI 의 '배고픔' 문제
거대 AI 모델은 방대한 양의 데이터를 기억하고 처리해야 합니다. 마치 거대한 도서관을 한 번에 옮기려는 것과 같습니다.
- 문제: 도서관이 너무 커서 트럭 (메모리 대역폭) 이 부족하고, 이동 시간 (연산 속도) 이 너무 깁니다.
- 해결책 (양자화): 책의 내용을 요약하거나, 중요한 부분만 남기고 나머지를 줄여서 트럭에 싣는 기술입니다. 보통은 숫자를 '정수 (Integer)'로 줄여서 압축했는데, 이게 너무 강하게 줄이면 책 내용이 뭉개져서 (정확도 하락) AI 가 멍청해집니다.
2. 새로운 솔루션: HiFloat (하이플로트)
연구진은 정수 대신 부동소수점 (Floating Point) 방식을 변형한 **'HiFloat'**를 개발했습니다. 이는 Ascend 칩이라는 특수한 트럭에 딱 맞게 설계된 방식입니다.
📦 8 비트 버전 (HiF8): "상황에 맞는 유연한 상자"
- 비유: 8 비트는 8 개의 칸이 있는 선반이라고 생각하세요.
- 기존 방식 (정수): 모든 물건 (숫자) 에 똑같은 크기의 상자를 씌웁니다. 작은 물건도 큰 상자에 넣으면 공간이 낭비되고, 큰 물건은 상자가 작아서 찌그러집니다.
- HiF8 의 특징: 물건의 크기에 따라 상자의 크기를 유연하게 조절합니다.
- 결과: AI 의 '가중치 (기억)'는 대부분 작은 숫자라 정수 방식이 더 잘 맞지만, '활성화 (생각하는 과정)'는 갑자기 커지는 숫자 (이상치) 가 나오기 때문에 HiF8 같은 유연한 방식이 더 좋습니다.
- 교훈: 기억 (가중치) 은 정돈된 정리가 중요하고, 생각 (활성화) 은 유연한 대응이 필요하다.
📦 4 비트 버전 (HiF4): "3 단계 계단식 구조"
- 비유: 4 비트는 4 개의 칸밖에 없는 아주 작은 선반입니다. 여기서 정수 방식을 쓰면 모든 물건을 강제로 4 등분해야 해서 내용이 완전히 뭉개집니다.
- HiF4 의 혁신 (계층적 스케일링):
- 이 방식은 선반을 3 단계 계단으로 나눕니다.
- 1 단계 (큰 상자): 전체 블록의 크기를 잡습니다.
- 2 단계 (중간 상자): 8 개씩 묶어서 크기를 조절합니다.
- 3 단계 (작은 상자): 4 개씩 묶어서 미세하게 조절합니다.
- 효과: 마치 마이크로 렌즈처럼, 숫자가 모여 있는 곳에는 세밀하게, 숫자가 드문 곳에는 넓게 공간을 배분합니다. 덕분에 4 비트라는 극도로 좁은 공간에서도 AI 가 중요한 정보를 잃지 않고 유지할 수 있습니다.
3. 주요 발견 (세 가지 통찰)
정수 vs 부동소수점:
- 가중치 (기억): 숫자 범위가 좁고 일정하므로, **정수 (INT8)**가 가장 깔끔하고 효율적입니다. (비유: 정해진 서가에 책을 꽂는 것)
- 활성화 (생각): 갑자기 튀어나오는 큰 숫자 (이상치) 가 많으므로, **부동소수점 (HiF8)**이 범위를 잘 잡아냅니다. (비유: 갑자기 쏟아지는 물건을 담을 수 있는 넓은 통)
4 비트의 위기 탈출:
- 4 비트로 줄이면 정수 방식은 완전 붕괴됩니다. (비유: 4 칸 선반에 100 권의 책을 억지로 넣으려다 책이 찢어짐)
- 하지만 HiF4는 3 단계 계단 구조 덕분에 붕괴를 막고 거의 원본 수준의 성능을 유지합니다.
KV 캐시 (기억 저장소) 최적화:
- AI 가 긴 대화를 할 때 기억해두는 'KV 캐시'도 4 비트로 줄일 수 있습니다. HiF4 는 이 부분에서도 다른 방식들보다 훨씬 뛰어난 성능을 보여줍니다.
4. 결론: 왜 이것이 중요한가?
이 논문은 **"AI 를 더 작게, 더 빠르게, 더 저렴하게 만드는 새로운 표준"**을 제시합니다.
- 기존: AI 를 줄이면 지능이 떨어졌다. (정수 방식의 한계)
- 이제: HiFloat를 쓰면, AI 의 크기는 반으로 줄이면서도 지능은 거의 잃지 않습니다.
- 비유: 마치 고해상도 사진을 압축할 때, 중요한 얼굴 부분은 선명하게 남기고 배경만 흐리게 만드는 기술을 개발한 것과 같습니다.
이 기술이 상용화되면, 고가의 서버 없이도 일반 스마트폰이나 가정용 PC 에서도 똑똑한 AI 를 빠르게 구동할 수 있게 될 것입니다. 화웨이의 Ascend 칩을 사용하는 환경에서 특히 빛을 발할 것으로 기대됩니다.
Each language version is independently generated for its own context, not a direct translation.
1. 연구 배경 및 문제 제기 (Problem)
- LLM 의 확장성 한계: 대규모 언어 모델 (LLM) 의 급격한 확장은 계산 처리량과 메모리 대역폭에 막대한 부담을 주고 있습니다. 이를 해결하기 위해 양자화 (Quantization) 가 핵심 기법으로 부상했습니다.
- 기존 방법의 한계: 기존 연구는 주로 정수 (Integer, INT) 기반 양자화에 집중했습니다. 그러나 LLM 의 가중치 (Weights), 활성화 (Activations), KV 캐시 (KV Cache) 는 각기 다른 통계적 특성을 가집니다.
- 가중치: 좁은 범위의 분포를 가지며, 균일한 간격의 정수 양자화가 유리할 수 있습니다.
- 활성화 및 KV 캐시: 높은 변동성 (High-variance) 과 심한 아웃라이어 (Outlier) 를 포함하는 동적 특성을 가지며, 넓은 동적 범위 (Dynamic Range) 가 필요합니다.
- 저비트 (4-bit) 환경의 위기: 8 비트에서는 정수와 부동소수점 모두 성능을 유지하지만, 4 비트로 낮아지면 균일한 간격을 가진 정수 양자화 (INT4) 는 표현력 부족으로 인해 모델 정확도가 급격히 붕괴 (Catastrophic collapse) 되는 문제가 발생합니다.
- Ascend NPU 최적화 필요: 기존 부동소수점 표준 (MXFP, NVFP4 등) 이 존재하지만, 화웨이 Ascend NPU 하드웨어에 최적화된 전용 포맷인 HiFloat (HiF8, HiF4) 의 사후 학습 양자화 (PTQ) 성능에 대한 체계적인 평가가 부족했습니다.
2. 제안된 방법론 및 HiFloat 포맷 (Methodology)
이 논문은 Ascend NPU 를 위해 설계된 HiFloat 포맷 계열 (8 비트 HiF8, 4 비트 HiF4) 을 평가하고, 기존 PTQ 프레임워크 (SmoothQuant, SVDQuant) 와의 시너지를 분석합니다.
A. HiF8 (8-bit HiFloat)
- 구조: IEEE 754 표준을 확장하여, 동적 맨티사 할당 (Dynamic Mantissa Allocation) 방식을 도입했습니다.
- 부호 (Sign), 점 (Dot), 지수 (Exponent), 맨티사 (Mantissa) 필드로 구성되며, 'Dot' 필드에 따라 지수와 맨티사의 비트 할당이 동적으로 변경됩니다.
- 넓은 동적 범위를 제공하여 변동성이 큰 데이터 (활성화) 에 적합하도록 설계되었습니다.
- 특징: 훈련 (Training) 용도로는 검증되었으나, 정적 양자화 (PTQ) 에서는 가중치 분포의 좁은 범위와 불일치로 인해 비트 낭비가 발생할 수 있음을 발견하고, 이를 해결하기 위해 채널 단위 스케일링 (Per-channel scaling) 을 적용한 'HiF8 (scaled)' 버전을 제안했습니다.
B. HiF4 (4-bit HiFloat)
- 구조: 3 단계 계층적 스케일링 (Hierarchical Scaling) 구조를 사용합니다.
- Level 1: 64 개 요소 블록당 공유되는 8 비트 무부호 E6M2 스케일.
- Level 2: 8 개 요소 서브-블록당 1 비트 E1M0 스케일.
- Level 3: 4 개 요소 마이크로-블록당 1 비트 E1M0 스케일.
- 최종 요소는 4 비트 E1M2 포맷으로 표현됩니다.
- 핵심 아이디어: 4 비트라는 극도로 제한된 비트 예산 내에서 아웃라이어를 격리하고 국소적 정밀도 (Local Precision) 를 유지하기 위해 다단계 계층 구조를 활용합니다. 이는 단일 레벨 스케일링 (MXFP4) 이나 균일 정수 (INT4) 가 가진 표현력 한계를 극복합니다.
3. 주요 기여 (Key Contributions)
- 수학적 공식화: HiFloat 계열의 정량화 (Quantization) 및 역양자화 (Dequantization) 논리를 엄밀하게 정의했습니다.
- 분포 분석: 가중치, 활성화, KV 캐시의 통계적 특성을 분석하여, 어떤 데이터 유형에 어떤 포맷이 적합한지 규명했습니다.
- 가중치: 좁은 범위 → INT8 이 우수.
- 활성화/KV: 넓은 범위/아웃라이어 → 부동소수점 (HiF8/MXFP8) 이 우수.
- 4-bit: 균일 정수 (INT4) 는 붕괴, 계층적 부동소수점 (HiF4/NVFP4) 이 필수.
- 종합적 추론 평가: 가중치, 활성화, KV 캐시를 모두 포함한 엔드 - 투 - 엔드 (End-to-End) 성능을 Qwen3-8B 와 openPangu-7B 모델에서 평가했습니다.
- 알고리즘 시너지 분석: HiFloat 와 기존 PTQ 기법 (SmoothQuant, SVDQuant) 의 결합 효과를 검증하여, 아웃라이어 완화 전략이 HiFloat 의 표현 능력과 어떻게 상호작용하는지 규명했습니다.
4. 실험 결과 (Results)
실험은 Qwen3-8B 와 openPangu-7B 모델을 대상으로 Wikitext-2, C4, MMLU, GSM8K 등 다양한 벤치마크에서 수행되었습니다.
A. 8-bit 양자화 (W8A8)
- 가중치: INT8이 균일한 밀도로 인해 가장 높은 정확도를 보였습니다. HiF8 은 지수 비트의 낭비로 인해 가중치에서는 INT8 보다 약간 뒤처졌으나, 채널 단위 스케일링을 적용하면 MXFP8 과 유사한 성능을 냈습니다.
- 활성화: HiF8 (scaled) 와 MXFP8이 아웃라이어 처리 능력으로 인해 INT8 보다 우수한 안정성을 보였습니다.
- 결론: 8 비트 regime 에서는 데이터 특성에 따라 INT8(가중치) 과 부동소수점 (활성화) 을 혼용하거나, PTQ 기법과 결합하여 최적의 성능을 낼 수 있습니다.
B. 4-bit 양자화 (W4A4) - 핵심 발견
- INT4 의 붕괴: 균일한 간격의 INT4 는 4 비트 환경에서 정확도가 급격히 떨어졌습니다 (Perplexity 급증, 정확도 70% 이상 하락).
- HiF4 의 우위:
- HiF4와 NVFP4는 계층적 구조 덕분에 모델 무결성을 유지했습니다.
- Qwen3-8B: HiF4 는 RTN(가장 가까운 반올림) 만으로도 BF16 기준의 96.5% 이상 성능을 유지했으며, SmoothQuant/SVDQuant 와 결합 시 더 개선되었습니다.
- openPangu-7B: HiF4 는 RTN 에서 3.0% 오차, PTQ 기법 결합 시 2.7% 오차로 BF16 에 근접하는 성능을 달성했습니다.
- NVFP4와의 비교: NVFP4 도 강력하지만, HiF4 는 Ascend NPU 에 최적화된 구조로 인해 전반적으로 더 일관된 성능을 보였습니다.
C. KV 캐시 및 Attention 양자화
- 4-bit KV 캐시 양자화 (QKV4) 를 추가했을 때, MXFP4 는 성능이 크게 저하되었으나 HiF4 는 견고한 성능을 유지했습니다.
- LongBench(장문맥 이해) 벤치마크에서도 HiF4 가 장문맥에서의 오차 누적을 효과적으로 억제하여 다른 포맷들을 압도했습니다.
5. 의의 및 결론 (Significance)
- 저비트 추론의 새로운 표준: 이 연구는 4 비트 이하의 극저비트 환경에서 균일 정수 양자화가 한계에 부딪혔음을 증명하고, 계층적 부동소수점 (Hierarchical Floating-point) 이 필수적임을 입증했습니다.
- Ascend NPU 최적화: HiFloat 포맷이 Ascend NPU 하드웨어와 완벽하게 호환되며, PTQ 프레임워크와 결합 시 고효율 LLM 추론을 가능하게 합니다.
- 실용적 가이드:
- 가중치: 8 비트에서는 INT8, 4 비트에서는 계층적 부동소수점 (HiF4) 사용 권장.
- 활성화/KV: 변동성이 크므로 부동소수점 기반 (HiF8/HiF4) 이 필수적.
- 미래 방향: HiF4 는 4-bit W4A4 + KV Cache 양자화 환경에서도 BF16 기반 성능의 97% 이상을 유지하여, 저사양 하드웨어에서도 고품질 LLM 추론을 실현할 수 있는 강력한 솔루션으로 평가됩니다.
요약하자면, 이 논문은 HiFloat (특히 HiF4) 가 Ascend NPU 환경에서 4 비트 저비트 추론의 정확도 붕괴 문제를 해결하고, 기존 부동소수점 표준보다 우수한 성능을 제공하는 것을 체계적인 실험을 통해 입증한 중요한 연구입니다.