Bridging the Gap Between Promise and Performance for Microscaling FP4 Quantization

이 논문은 MXFP4 와 NVFP4 와 같은 4 비트 부동소수점 포맷의 잠재력을 실현하기 위해 블록 단위 하다마르 변환과 포맷 특화 최적화를 적용한 MR-GPTQ 를 제안함으로써, 기존 방법론의 한계를 극복하고 NVIDIA B200 과 RTX5090 에서 FP16 대비 최대 3.6 배의 레이어별 속도 향상과 SOTA 수준의 정확도를 달성했다고 설명합니다.

Vage Egiazarian, Roberto L. Castro, Denis Kuznedelev, Andrei Panferov, Eldar Kurtic, Shubhra Pandit, Alexandre Marques, Mark Kurtz, Saleh Ashkboos, Torsten Hoefler, Dan Alistarh

게시일 2026-03-04
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 최신 인공지능 (LLM) 모델이 더 빠르고 가볍게 작동할 수 있도록 도와주는 '마이크로 스케일링 FP4 양자화' 기술에 대한 연구입니다.

쉽게 말해, **"거대한 AI 모델을 아주 작은 크기로 압축했는데, 왜 실제 성능이 기대만큼 나오지 않았을까? 그리고 어떻게 하면 그 문제를 해결할 수 있을까?"**에 대한 답을 찾는 이야기입니다.

이 복잡한 내용을 일상적인 비유로 설명해 드릴게요.


1. 배경: "초소형 화물차"의 등장 (FP4 포맷)

과거에는 AI 모델을 압축할 때 '정수 (INT)'라는 단위를 사용했습니다. 하지만 최근 NVIDIA 와 AMD 같은 칩 제조사들은 **'FP4(4 비트 부동소수점)'**라는 새로운 포맷을 도입했습니다.

  • 비유: 기존에는 AI 모델을 실을 때 '큰 트럭 (FP16)'을 썼습니다. 속도는 느리지만 짐을 아주 정확하게 실을 수 있죠.
  • 새로운 시도: 이제 **'초소형 화물차 (FP4)'**를 도입했습니다. 이 차는 아주 작고 빠르지만, 짐을 싣는 방식이 조금 다릅니다.
    • NVFP4: 짐을 16 개씩 묶어서 싣습니다. (조금 더 정교한 포장)
    • MXFP4: 짐을 32 개씩 묶어서 싣습니다. (더 작고 가볍지만, 포장 방식이 단순함)

이론상으로는 이 초소형 화물차를 쓰면 AI 가 훨씬 더 빠르게 돌아갈 것이라고 기대했습니다. 하지만 실제 실험해 보니, **"속도는 빠르는데 AI 가 멍청해져서 (정확도가 떨어짐) 제자리걸음"**인 상황이었습니다.

2. 문제점: 왜 실패했을까? (두 가지 치명적인 결함)

저자들은 이 실패 원인을 두 가지로 분석했습니다.

  1. NVFP4 의 문제: "너무 작은 묶음"
    • 짐을 16 개씩 묶으니, 만약 그 묶음 안에 '특이하게 큰 짐 (아웃라이어)'이 하나라도 있으면, 나머지 15 개가 다 망가집니다. 마치 작은 상자에 거대한 물건을 넣으려다 상자가 터지는 것과 같습니다. 기존의 해결책이 이 작은 묶음에는 통하지 않았습니다.
  2. MXFP4 의 문제: "너무 투박한 자"
    • 이 방식은 짐의 크기를 측정할 때 '2 의 거듭제곱 (2, 4, 8, 16...)'이라는 딱딱한 자만 사용합니다. 하지만 실제 짐들은 3.5, 5.2 같은 정교한 크기입니다. 투박한 자로 재다 보니 오차가 너무 커서 AI 가 엉뚱한 말을 하게 된 것입니다.

3. 해결책: "MR-GPTQ" (마이크로 회전 기술)

이제 저자들이 제안한 해결책인 MR-GPTQ를 소개합니다. 이 기술은 "짐을 싣기 전에 상자를 살짝 비틀어서 (회전), 짐을 더 잘 실을 수 있게 만드는" 방법입니다.

  • 비유 (하드만 변환):
    • Imagine you have a messy pile of books (AI weights) with some very heavy books (outliers) at the top. If you try to stack them directly, the heavy ones crush the light ones.
    • 기존 방식: 그냥 무작위로 쌓았습니다.
    • MR-GPTQ 방식: 책상 위를 살짝 **회전 (Hadamard Transform)**시켜서, 무거운 책들이 흩어지도록 만듭니다. 이제 무거운 책들이 서로 겹치지 않고 고르게 분포하게 되니, 작은 상자에 담을 때 훨씬 정확해집니다.

이 기술은 특히 MXFP4의 투박한 자 문제를 해결하고, NVFP4의 작은 묶음 문제를 보완하여, 두 방식 모두에서 놀라운 정확도를 회복시켰습니다.

4. 결과: 속도와 정확도의 완벽한 조화

이론만 좋았던 것이 아니라, 실제로 **NVIDIA 의 최신 GPU(B200, RTX 5090)**에서 이 기술을 적용해 보았습니다.

  • 속도: 기존 방식 (FP16) 보다 최대 4 배까지 빨라졌습니다. (층별로 보면 6 배!)
  • 정확도: 원래 기대했던 것보다 훨씬 높은 정확도를 보여주었습니다. 특히 MXFP4 는 이제 NVFP4 와 거의 비슷한 수준까지 성능이 올라갔습니다.

5. 결론: "맞춤형 열쇠"가 필요하다

이 논문의 핵심 메시지는 다음과 같습니다.

"새로운 하드웨어 (초소형 화물차) 가 나왔다고 해서 무조건 좋은 것은 아닙니다. 기존에 쓰던 방법 (일반적인 포장법) 을 그대로 쓰면 실패합니다. 하드웨어의 특성에 맞춰서 포장법 (양자화 알고리즘) 을 새로 개발해야만 비로소 속도와 정확도라는 두 마리 토끼를 다 잡을 수 있습니다."

저자들은 이 새로운 포장법 (MR-GPTQ) 과 이를 빠르게 실행할 수 있는 QuTLASS라는 도구를 공개하여, 앞으로 더 빠르고 똑똑한 AI 시대를 열 것이라고 기대합니다.


한 줄 요약:
"새로운 초소형 AI 칩은 좋지만, 기존 포장법으로는 성능이 안 나왔습니다. 저자들은 짐을 살짝 비틀어 (회전) 포장하는 새로운 방법을 개발해, 속도는 4 배 빨라지고 정확도는 그대로 유지되는 혁신을 이루었습니다."

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →