Each language version is independently generated for its own context, not a direct translation.

1. 문제 상황: "무거운 짐을 나르는 트럭" vs "가벼운 택배"

최근 AI(특히 대형 언어 모델) 는 거대한 데이터를 처리하며 엄청난 발전을 이루고 있습니다. 하지만 AI 칩 (하드웨어) 의 발전 속도가 균일하지 않아 병목 현상이 생겼습니다.

행렬 곱셈 (Matrix Multiplication): AI 가 가장 많이 하는 계산입니다. 마치 거대한 화물을 싣고 달리는 초고속 트럭처럼, 최근 8 년 동안 이 트럭의 속도는 80 배나 빨라졌습니다.
기타 연산 (Normalization 등): AI 가 화물을 정리하고 균형을 잡는 과정입니다. 이는 가벼운 택배를 나르는 자전거와 같습니다. 이 자전거의 속도는 불과 5~8 배 정도만 빨라졌습니다.

결과: 초고속 트럭이 아무리 빨라도, 자전거가 느리면 전체 물류 시스템은 느려집니다. AI 칩은 행렬 곱셈은 엄청나게 빠르지만, 데이터를 정리하는 '정규화 (Normalization)' 작업은 여전히 느린 고전 방식 (높은 정밀도) 으로 이루어져 속도를 방해하고 있습니다.

2. 기존 방식 (RMSNorm): "매번 새로 체중 재기"

AI 가 학습할 때, 각 단어 (토큰) 의 정보를 일정하게 맞추기 위해 RMSNorm이라는 과정을 거칩니다.

비유: 학생들의 키를 맞추기 위해, 매번 교실 전체 학생의 키를 하나하나 측정해서 평균을 내고, 그 기준으로 키를 조절하는 과정입니다.
문제점: 이 과정은 매우 정밀하지만, 매번 전체를 다시 재야 하므로 시간이 많이 걸리고 에너지도 많이 소모합니다. 특히 AI 가 초저정밀도 (MXFP8 등) 로 데이터를 압축해서 처리할 때, 이 '키 측정' 과정이 따로 또 따로 이루어져 비효율적입니다.

3. 새로운 해결책 (MXNorm): "짐을 나르는 도중 이미 측정한 체중 활용하기"

이 논문은 MXNorm이라는 새로운 방식을 제안합니다. 핵심 아이디어는 **"이미 계산한 것을 다시 쓰자"**는 것입니다.

상황: AI 가 데이터를 저정밀도 (MXFP8) 로 변환할 때, 데이터의 범위를 맞추기 위해 **블록별 최대값 (Scale)**을 계산합니다. 이는 마치 "이 상자에 들어간 물건들 중 가장 무거운 것의 무게"를 미리 재는 것과 같습니다.
MXNorm 의 아이디어:
1. 기존에는 '무거운 것의 무게 (블록 스케일)'를 계산한 뒤, 따로 '전체 평균 키 (RMS)'를 계산했습니다.
2. MXNorm은 "아, 이미 '가장 무거운 것'의 무게를 재었잖아? 이걸로 전체 평균을 추정해 보자!"라고 말합니다.
3. 수학적으로 증명된 바에 따르면, 블록별 최대값을 잘 조합하면 전체 평균 (RMS) 과 거의 동일한 결과를 얻을 수 있습니다.

비유:

기존 (RMSNorm): 상자를 옮기다가 멈춰서, 상자 안의 모든 물건 무게를 다 재서 평균을 내는 것.
MXNorm: 상자를 옮기면서 "가장 무거운 물건이 이 정도 무게네? 그럼 전체 평균은 대략 이 정도겠지?"라고 추측해서 바로 다음 단계로 넘어가는 것.

4. 왜 이것이 중요한가? (효율과 속도)

이 방식은 두 가지 큰 이점을 줍니다.

작업량 32 배 감소: 전체 데이터를 다시 계산할 필요가 없어, 정규화를 위해 필요한 계산량이 32 배나 줄어듭니다.
속도 향상: 실제 하드웨어 (NVIDIA GB200 등) 에서 테스트한 결과, 기존 방식보다 최대 2.4 배 더 빠른 속도를 보여주었습니다. 이는 AI 모델이 학습하거나 답변을 생성할 때 더 빠르고 효율적임을 의미합니다.

5. 정확도는 어떨까? (실험 결과)

"추측해서 쓰면 정확도가 떨어지지 않을까?"라는 의문이 들 수 있습니다. 연구진은 Llama 3(1 억, 10 억, 80 억 파라미터) 모델로 실험했습니다.

결과: 1 억, 10 억 규모 모델에서는 기존 방식과 거의 차이가 없었습니다.
80 억 규모 모델: 모든 방식이 완벽하지는 않았습니다. '평균 (p=1)'을 사용한 방식은 학습이 불안정해졌지만, **'제곱평균 (p=2)'**을 사용한 방식은 기존 방식과 동일한 성능을 내면서도 훨씬 빨랐습니다.
결론: 적절한 수학적 보정 (p=2) 을 거치면, 정확도 손실 없이 속도를 획기적으로 높일 수 있습니다.

6. 요약: AI 의 '스마트한 재사용'

MXNorm은 AI 칩의 발전 속도가 불균형한 문제를 해결하기 위해 고안된 지혜로운 방법입니다.

"이미 계산한 '가장 무거운 물건'의 정보를 활용하여, '전체 평균'을 빠르게 추정함으로써, AI 가 더 적은 노력으로 더 똑똑하고 빠르게 학습할 수 있게 만든 기술입니다."

이 기술은 AI 가 더 낮은 정밀도의 데이터로도 안정적으로 작동하게 하여, 미래의 AI 모델이 더 저렴하고 빠르게 만들어질 수 있는 길을 열어줍니다.

Each language version is independently generated for its own context, not a direct translation.

MXNorm: MXFP 블록 스케일을 재사용한 효율적인 텐서 정규화 기술 요약

본 논문은 Graphcore 연구팀이 제안한 MXNorm이라는 새로운 정규화 기법에 대해 다룹니다. 이는 대규모 언어 모델 (LLM) 의 전처리 (Pre-training) 및 추론 과정에서 발생하는 병목 현상을 해결하고, 저정밀도 (Low-precision) 연산의 효율성을 극대화하기 위해 고안된 기술입니다.

1. 문제 정의 (Problem)

최근 AI 가속기 (GPU 등) 는 저정밀도 행렬 곱셈 (Matrix Multiplication, MatMul) 성능을 극적으로 향상시켰습니다 (예: V100 대비 GB200 에서 80 배 향상). 그러나 행렬 곱셈과 달리 축소 연산 (Reductions) 및 **요소별 연산 (Elementwise operations)**의 성능 향상은 상대적으로 미미하여 (8.9 배 및 5.1 배), 새로운 병목 현상으로 대두되었습니다.

특히 LLM 아키텍처에서 필수적인 정규화 (Normalization) 레이어 (예: RMSNorm) 는 메모리 대역폭과 CUDA 코어 처리량에 제한을 받으며, 저정밀도 양자화 (Quantization) 와 별도로 수행될 때 추가적인 오버헤드를 발생시킵니다. 기존 방식은 정밀한 RMS(Root Mean Square) 계산을 위해 별도의 축소 연산을 수행해야 하므로, MatMul 성능이 비약적으로 발전한 환경에서도 전체 처리량 (Throughput) 을 제한하는 요인이 됩니다.

2. 방법론 (Methodology)

저자들은 MXNorm을 제안하여, 기존 RMSNorm 을 대체하면서도 MXFP (Microscaling Floating Point) 양자화 과정에서 이미 계산된 정보를 재사용하는 방식을 도입했습니다.

2.1. 핵심 아이디어: 블록 스케일 재사용

MXFP 양자화: MXFP 포맷은 텐서를 블록 (Block) 단위로 나누고, 각 블록의 절대값 최대치 (Block Absmax) 를 기반으로 스케일 팩터를 계산한 후, 요소를 저정밀도 (예: E4M3) 로 변환합니다.
통계적 관찰: MX 양자화 과정에서 계산된 '블록 Absmax'와 RMSNorm 에 필요한 'RMS'는 통계적으로 밀접한 관계가 있습니다. 특히, 확률 분포가 선형적으로 스케일링될 때, 분포의 기대값인 Absmax 와 RMS 모두 동일한 비율로 스케일링됩니다.
근사화 (Approximation): 저자들은 블록 Absmax 들의 일반화된 $p$ $p$ -평균 (Generalized $p$ $p$ -mean) 을 사용하여 전체 텐서의 RMS 를 추정할 수 있음을 수학적으로 증명했습니다.
- $RMS \approx c(p, B) \times (\frac{1}{K} \sum m_k^p)^{1/p}$
- 여기서 $m_k$ 는 블록별 Absmax, $c(p, B)$ 는 보정 상수입니다.

2.2. MXNorm 알고리즘

통계 수집 생략: 별도의 RMS 계산을 위해 전체 텐서를 한 번 더 스캔할 필요가 없습니다. MX 양자화 (MXCast) 과정에서 이미 계산된 블록 Absmax 를 활용합니다.
퓨전 (Fusion): 정규화 (Normalization) 와 양자화 (Quantization) 과정을 하나의 커널로 융합합니다.
- 입력 텐서의 블록 Absmax 를 계산합니다.
- 이를 기반으로 추정된 RMS( $\tilde{\rho}$ ) 를 구합니다.
- 입력 값을 $\tilde{\rho}$ 로 나누어 정규화하고, 동시에 MX 스케일로 재조정하여 저정밀도 값으로 변환합니다.
선형 계층 통합 (MXNormLinear): 정규화 계층 뒤에 이어지는 선형 계층 (Linear Layer) 의 가중치에 정규화 게인 (Gain, $\gamma$ ) 을 미리 곱해버림으로써, 추론 시 추가적인 연산을 제거합니다.

2.3. 수학적 안정성

상한선 (Upper Bound): RMSNorm 은 출력의 최대값을 $\sqrt{D}$ (숨겨진 차원) 로 제한합니다. MXNorm(p=2) 은 블록 수 $K$ 에 따라 $\sqrt{K}$ 수준의 제한을 두어, RMSNorm 과 유사한 안정성을 제공합니다. 반면, MXNorm(p=1, 산술 평균) 은 $K$ 에 비례하는 더 넓은 범위를 허용하여 불안정성을 초래할 수 있음을 증명했습니다.

3. 주요 기여 (Key Contributions)

RMSNorm 의 대체제 제안: MXFP 양자화 블록 스케일을 재사용하여 RMS 를 추정하는 MXNorm을 제안했습니다. 이는 기존 RMSNorm 과 호환되는 'Drop-in Replacement'입니다.
연산 효율성 극대화: 정규화를 위한 축소 연산 (Reduction) 크기를 32 배 감소시켰습니다. 이는 메모리 대역폭과 계산 오버헤드를 획기적으로 줄여줍니다.
수학적 증명 및 분석: 블록 Absmax 를 통한 RMS 근사의 수렴성을 증명하고, $p=1$ 과 $p=2$ 중 어떤 방식이 대규모 모델 전처리에서 안정적인지 분석했습니다.
실제 하드웨어 성능 검증: 상용 하드웨어 (GB200 등) 에서 torch.compile을 통해 실제 커널 속도를 측정하고, 대규모 모델 전처리에서의 효과를 입증했습니다.

4. 실험 결과 (Results)

4.1. 전처리 성능 (Pre-training)

모델 규모: Llama 3 기반 125M, 1B, 8B 파라미터 모델로 실험.
손실 (Loss) 정확도:
- MXNorm(p=2): 8B 모델 전처리에서 RMSNorm 과 거의 동일한 최종 손실 (2.126 vs 2.132) 을 달성했습니다. 제로샷 (Zero-shot) 성능도 10 개 벤치마크 중 5 개에서 동급 또는 우위를 보였습니다.
- MXNorm(p=1): 8B 규모에서 손실 급증 (Loss Spike) 이 발생하여 전처리가 불안정해졌습니다. 이는 아웃라이어 (Outlier) 특징에 대한 민감도와 출력 값의 상한선이 넓어지기 때문입니다.
결론: $p=2$ (제곱 평균) 방식을 사용할 경우, RMSNorm 과 동등한 학습 안정성과 성능을 보장합니다.

4.2. 성능 속도 향상 (Speedup)

커널 속도: MXNorm 은 RMSNorm + MXCast 조합 대비 최대 2.4 배의 속도 향상을 보였습니다.
레이어 전체 속도:
- Llama 3 8B 모델의 트랜스포머 레이어에서 MXFP8 기준 1.3% 속도 향상.
- NVFP4 기준 2.6% 속도 향상.
이는 MatMul 성능이 향상됨에 따라, MatMul 외의 연산 (정규화 등) 을 최적화하는 것이 전체 시스템 효율에 더 큰 영향을 미친다는 점을 시사합니다.

5. 의의 및 결론 (Significance)

저정밀도 시대의 필수 기술: AI 가속기의 MatMul 성능이 비약적으로 발전함에 따라, 정규화 같은 보조 연산의 최적화가 새로운 병목 해결의 핵심이 되었습니다. MXNorm 은 이러한 요구를 충족시키는 효율적인 솔루션입니다.
소프트웨어/하드웨어 간극 해소: 별도의 복잡한 하드웨어 변경 없이, 기존 MXFP 양자화 파이프라인을 활용하여 소프트웨어 레벨 (torch.compile 등) 에서만 큰 성능 향상을 얻을 수 있습니다.
확장성: 이 기법은 INT2, 3 값 (Ternary) 등 더 낮은 정밀도의 양자화나 다른 블록 기반 양자화 방식 (VS-Quant 등) 으로도 확장 가능합니다.

요약하자면, MXNorm은 LLM 전처리 및 추론 과정에서 발생하는 정규화 연산의 오버헤드를 줄이고, MXFP 양자화와의 시너지를 통해 대규모 모델의 효율적인 학습과 배포를 가능하게 하는 획기적인 기술입니다.

MXNorm: Reusing MXFP block scales for efficient tensor normalisation