MXNorm: Reusing MXFP block scales for efficient tensor normalisation

이 논문은 MXFP8 변환 시 계산된 블록 스케일을 재사용하여 정규화 연산의 축소 크기를 32 배 줄이고 RMSNorm 을 대체하는 'MXNorm'을 제안함으로써, 대규모 언어 모델 학습 시 정확도 손실 없이 연산 속도를 크게 향상시킨다고 설명합니다.

Callum McLean, Luke Y. Prince, Alexandre Payot, Paul Balança, Carlo Luschi

게시일 2026-03-16
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제 상황: "무거운 짐을 나르는 트럭" vs "가벼운 택배"

최근 AI(특히 대형 언어 모델) 는 거대한 데이터를 처리하며 엄청난 발전을 이루고 있습니다. 하지만 AI 칩 (하드웨어) 의 발전 속도가 균일하지 않아 병목 현상이 생겼습니다.

  • 행렬 곱셈 (Matrix Multiplication): AI 가 가장 많이 하는 계산입니다. 마치 거대한 화물을 싣고 달리는 초고속 트럭처럼, 최근 8 년 동안 이 트럭의 속도는 80 배나 빨라졌습니다.
  • 기타 연산 (Normalization 등): AI 가 화물을 정리하고 균형을 잡는 과정입니다. 이는 가벼운 택배를 나르는 자전거와 같습니다. 이 자전거의 속도는 불과 5~8 배 정도만 빨라졌습니다.

결과: 초고속 트럭이 아무리 빨라도, 자전거가 느리면 전체 물류 시스템은 느려집니다. AI 칩은 행렬 곱셈은 엄청나게 빠르지만, 데이터를 정리하는 '정규화 (Normalization)' 작업은 여전히 느린 고전 방식 (높은 정밀도) 으로 이루어져 속도를 방해하고 있습니다.

2. 기존 방식 (RMSNorm): "매번 새로 체중 재기"

AI 가 학습할 때, 각 단어 (토큰) 의 정보를 일정하게 맞추기 위해 RMSNorm이라는 과정을 거칩니다.

  • 비유: 학생들의 키를 맞추기 위해, 매번 교실 전체 학생의 키를 하나하나 측정해서 평균을 내고, 그 기준으로 키를 조절하는 과정입니다.
  • 문제점: 이 과정은 매우 정밀하지만, 매번 전체를 다시 재야 하므로 시간이 많이 걸리고 에너지도 많이 소모합니다. 특히 AI 가 초저정밀도 (MXFP8 등) 로 데이터를 압축해서 처리할 때, 이 '키 측정' 과정이 따로 또 따로 이루어져 비효율적입니다.

3. 새로운 해결책 (MXNorm): "짐을 나르는 도중 이미 측정한 체중 활용하기"

이 논문은 MXNorm이라는 새로운 방식을 제안합니다. 핵심 아이디어는 **"이미 계산한 것을 다시 쓰자"**는 것입니다.

  • 상황: AI 가 데이터를 저정밀도 (MXFP8) 로 변환할 때, 데이터의 범위를 맞추기 위해 **블록별 최대값 (Scale)**을 계산합니다. 이는 마치 "이 상자에 들어간 물건들 중 가장 무거운 것의 무게"를 미리 재는 것과 같습니다.
  • MXNorm 의 아이디어:
    1. 기존에는 '무거운 것의 무게 (블록 스케일)'를 계산한 뒤, 따로 '전체 평균 키 (RMS)'를 계산했습니다.
    2. MXNorm은 "아, 이미 '가장 무거운 것'의 무게를 재었잖아? 이걸로 전체 평균을 추정해 보자!"라고 말합니다.
    3. 수학적으로 증명된 바에 따르면, 블록별 최대값을 잘 조합하면 전체 평균 (RMS) 과 거의 동일한 결과를 얻을 수 있습니다.

비유:

  • 기존 (RMSNorm): 상자를 옮기다가 멈춰서, 상자 안의 모든 물건 무게를 다 재서 평균을 내는 것.
  • MXNorm: 상자를 옮기면서 "가장 무거운 물건이 이 정도 무게네? 그럼 전체 평균은 대략 이 정도겠지?"라고 추측해서 바로 다음 단계로 넘어가는 것.

4. 왜 이것이 중요한가? (효율과 속도)

이 방식은 두 가지 큰 이점을 줍니다.

  1. 작업량 32 배 감소: 전체 데이터를 다시 계산할 필요가 없어, 정규화를 위해 필요한 계산량이 32 배나 줄어듭니다.
  2. 속도 향상: 실제 하드웨어 (NVIDIA GB200 등) 에서 테스트한 결과, 기존 방식보다 최대 2.4 배 더 빠른 속도를 보여주었습니다. 이는 AI 모델이 학습하거나 답변을 생성할 때 더 빠르고 효율적임을 의미합니다.

5. 정확도는 어떨까? (실험 결과)

"추측해서 쓰면 정확도가 떨어지지 않을까?"라는 의문이 들 수 있습니다. 연구진은 Llama 3(1 억, 10 억, 80 억 파라미터) 모델로 실험했습니다.

  • 결과: 1 억, 10 억 규모 모델에서는 기존 방식과 거의 차이가 없었습니다.
  • 80 억 규모 모델: 모든 방식이 완벽하지는 않았습니다. '평균 (p=1)'을 사용한 방식은 학습이 불안정해졌지만, **'제곱평균 (p=2)'**을 사용한 방식은 기존 방식과 동일한 성능을 내면서도 훨씬 빨랐습니다.
  • 결론: 적절한 수학적 보정 (p=2) 을 거치면, 정확도 손실 없이 속도를 획기적으로 높일 수 있습니다.

6. 요약: AI 의 '스마트한 재사용'

MXNorm은 AI 칩의 발전 속도가 불균형한 문제를 해결하기 위해 고안된 지혜로운 방법입니다.

"이미 계산한 '가장 무거운 물건'의 정보를 활용하여, '전체 평균'을 빠르게 추정함으로써, AI 가 더 적은 노력으로 더 똑똑하고 빠르게 학습할 수 있게 만든 기술입니다."

이 기술은 AI 가 더 낮은 정밀도의 데이터로도 안정적으로 작동하게 하여, 미래의 AI 모델이 더 저렴하고 빠르게 만들어질 수 있는 길을 열어줍니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →