Double-Precision Matrix Multiplication Emulation via Ozaki-II Scheme with FP8 Quantization

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"정밀한 계산 (이중 정밀도) 을 위해, 최신 컴퓨터 칩의 '빠르지만 대충 계산하는' 기능을 어떻게 똑똑하게 활용해서 정밀한 결과를 내는가?"**에 대한 이야기를 담고 있습니다.

비유를 들어 쉽게 설명해 드릴게요.

1. 배경: 왜 이런 연구가 필요한가요?

"고급 레스토랑의 정교한 요리 vs 패스트푸드의 속도"

과거의 상황: 과학 계산 (HPC) 은 항상 '정밀함 (이중 정밀도, FP64)'이 최우선이었습니다. 마치 고급 레스토랑에서 한 그릇의 스프를 3 시간 동안 정성껏 끓이는 것과 같죠. 하지만 최근 AI(인공지능) 시대가 오면서 컴퓨터 칩 제조사들은 **'속도 (저정밀도, FP8/INT8)'**에 집중했습니다. 마치 패스트푸드처럼 수천 개의 햄버거를 순식간에 만들어내는 기술이 발달한 거죠.
문제점: 그런데 최신 칩들 (NVIDIA Blackwell Ultra, Rubin 등) 은 '정밀한 요리 (FP64)' 기능은 약화시키고, '패스트푸드 (FP8)' 기능은 엄청나게 강화했습니다. 심지어 '정육 (INT8)' 기능은 아예 줄여버린 곳도 있습니다.
목표: 우리는 정밀한 요리 (FP64) 가 필요한데, 주방에는 오직 패스트푸드 기계 (FP8) 만 남아있다면 어떻게 할까요? **"패스트푸드 기계로 고급 레스토랑 요리도 가능하게 만드는 법"**을 이 논문에서 제안합니다.

2. 핵심 아이디어: 오자키 (Ozaki) 방식의 업그레이드

"거대한 숫자를 작은 블록으로 나누어 맞추기"

이 논문은 **'오자키-II (Ozaki-II)'**라는 기존 기술을 바탕으로 합니다. 이 기술은 거대한 숫자 (정밀한 계산) 를 여러 개의 작은 블록 (저정밀도 숫자) 으로 쪼개서 계산한 뒤, 다시 합치는 방식입니다.

기존의 문제 (INT8 vs FP8):
- 예전에는 이 작은 블록을 **'정수 (INT8)'**로 만들면 기계가 아주 잘 처리했습니다. (마치 레고 블록을 딱딱 맞춰서 조립하는 것)
- 하지만 최신 기계는 **'부동소수점 (FP8)'**을 더 잘 처리합니다. 문제는 FP8 은 숫자에 '소수점 위치' 정보가 포함되어 있어서, 정수처럼 딱딱 맞춰서 조립하기가 어렵다는 점입니다. 기존 방식 그대로 FP8 을 쓰면 계산이 엉망이 될 수 있습니다.
이 논문의 해결책 (새로운 조립법):
저자는 FP8 을 그대로 쓰기 어렵다는 점을 깨닫고, **'카라차바 (Karatsuba)'**라는 수학적 기법과 **'모듈러 감산'**이라는 새로운 기술을 섞어서 **'하이브리드 방식'**을 개발했습니다.
- 비유: 레고 블록 (정수) 으로 조립할 때는 1 개만 쓰면 되지만, 플라스틱 블록 (FP8) 으로 조립할 때는 3 개를 조합해서 1 개의 효과를 내는 새로운 조립법을 고안한 것입니다.
- 결과: 이렇게 하면 FP8 기계로도 정밀한 계산을 할 수 있게 되었고, 기존 방식보다 훨씬 적은 수의 연산으로 같은 결과를 낼 수 있게 되었습니다.

3. 왜 하필 FP8 인가요? (FP16, FP4 는 안 되나요?)

"너무 두꺼운 판자 (FP16) vs 너무 얇은 종이 (FP4)"

FP16/BF16: 너무 정밀도가 높아서 (판자가 너무 두꺼워서) 작은 블록으로 쪼개기엔 비효율적이고, 속도가 느립니다.
FP4: 너무 정밀도가 낮아서 (종이처럼 얇아서) 중간에 계산할 때 정보가 깨질 위험이 큽니다.
FP8: 딱 알맞은 두께입니다. 최신 칩의 속도가 가장 빠르면서도, 정밀한 계산을 위해 필요한 '오차 없는 합산'이 가능한 최적의 균형점입니다.

4. 성능 비교: 누가 더 빠를까요?

"완벽한 정육 (INT8) vs 빠른 생선 (FP8)"

INT8 이 여전히 강한 이유: 아직 많은 칩에서는 정수 (INT8) 기능이 여전히 강력합니다. 이 경우 INT8 을 쓰는 게 메모리도 덜 쓰고 속도도 더 빠릅니다. (레고 블록이 여전히 더 잘 맞는 상황)
FP8 이 필요한 이유: 하지만 최신 칩 (Rubin 등) 은 정수 기능을 대폭 줄이고 부동소수점 (FP8) 만 강화했습니다. 이 칩들에서는 FP8 을 쓰는 이 논문의 방법이 유일한 대안이 됩니다.
예상 효과: 최신 칩에서 이 방법을 쓰면, 기존 정밀 계산 속도보다 훨씬 빠른 속도로 연산을 처리할 수 있을 것으로 예상됩니다.

5. 결론: 이 연구가 의미하는 바

이 논문은 **"컴퓨터 칩이 변해도, 우리가 필요한 정밀한 계산을 포기하지 않고, 새로운 칩의 장점을 최대한 끌어낼 수 있는 지혜"**를 보여줍니다.

INT8 이 잘 되는 칩: 기존 방식 (INT8) 을 쓰세요. 더 빠르고 효율적입니다.
INT8 이 약하고 FP8 이 강한 최신 칩: 이 논문에서 제안한 FP8 기반의 새로운 방법을 쓰세요. 정밀한 계산을 유지하면서도 최신 칩의 속도를 100% 활용할 수 있습니다.

즉, **"도구가 바뀌어도 요리사는 새로운 도구를 익혀서 최고의 요리를 계속 만든다"**는 것이 이 논문의 핵심 메시지입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 제기 (Problem Statement)

HPC 와 FP64 의 중요성: 과학 계산 및 HPC 애플리케이션에서는 수치적 정확도와 안정성을 위해 FP64 연산이 필수적입니다.
하드웨어 트렌드의 변화: AI 워크로드 가속화를 위해 저정밀도 연산 (INT8, FP8 등) 의 성능은 급격히 향상되었으나, FP64 연산 성능 향상은 상대적으로 미미합니다.
INT8 의 감소 추세: NVIDIA Blackwell Ultra (B300) 및 Rubin 아키텍처와 같이 최신 GPU 들은 INT8 연산 자원을 대폭 축소하고 FP8 및 FP4 와 같은 저정밀도 부동소수점 연산을 우선시하고 있습니다.
기존 방법의 한계:
- Ozaki-I 방식: INT8, FP8, FP16 등 다양한 저정밀도 유닛에 적용 가능한 구조를 가짐.
- Ozaki-II 방식: 중국 나머지 정리 (CRT) 를 기반으로 하며, 고정소수점 (Fixed-point) 연산에 최적화되어 있어 기존에는 INT8 MMA 유닛과 높은 친화력을 보임.
- 핵심 문제: Ozaki-II 의 원래 알고리즘은 정수 모듈로 연산에 의존하므로, 이를 그대로 FP8 유닛에 적용할 경우 정확성 (Exactness) 을 유지할 수 없음. 즉, FP8 을 사용하여 Ozaki-II 기반의 FP64 에뮬레이션을 구현하는 것은 기존 알고리즘으로는 불가능했습니다.

2. 제안된 방법론 (Methodology)

저자들은 FP8 E4M3 포맷을 사용하여 Ozaki-II 기반의 DGEMM 에뮬레이션을 가능하게 하기 위해 다음과 같은 혁신적인 기법을 도입했습니다.

A. FP8 의 직접 양자화 한계 극복

FP8 E4M3 는 -16 에서 16 까지의 정수를 정확히 표현할 수 있으나, CRT 를 통해 재구성할 수 있는 정수 범위가 너무 작아 FP64 에뮬레이션에 필요한 동적 범위를 충족하지 못합니다.

B. 카라추바 (Karatsuba) 기반 확장

행렬을 두 개의 FP8 행렬의 합으로 분해하여 곱셈을 수행하는 Karatsuba 알고리즘을 적용했습니다.
이를 통해 하나의 모듈로 (Modulus) 당 3 번의 FP8 행렬 곱셈을 수행하여 곱셈 결과를 재구성합니다.
이 방식은 $p_\ell \le 513$ 까지의 모듈로를 허용하여 정밀도를 높였으나, 여전히 많은 수의 모듈로가 필요했습니다.

C. 모듈로 축소 없이 Karatsuba 를 사용하는 하이브리드 방식 (핵심 기여)

제안: 특정 모듈로 $p_\ell$ 이 제곱수 ( $s^2$ ) 인 경우, Karatsuba 재구성 과정 없이 모듈로 연산의 성질을 활용하여 곱셈 결과를 직접 계산하는 기법을 도입했습니다.
원리: $s^2 \equiv 0 \pmod{p_\ell}$ 인 성질을 이용하여, 곱셈 항 중 일부가 모듈로 연산에서 0 이 되도록 설계하여 불필요한 연산을 제거합니다.
효과:
- 제곱수 모듈로에는 이 '모듈로 축소 기법'을, 비제곱수 모듈로에는 Karatsuba 기법을 적용하는 하이브리드 방식을 채택했습니다.
- 이로 인해 FP64 정밀도 (53 비트 이상) 를 달성하기 위해 필요한 모듈로 개수를 14 개 (INT8 기준) 에서 12 개로 감소시켰습니다.
- 결과적으로 필요한 FP8 행렬 곱셈 횟수가 줄어들어 계산 효율성이 향상되었습니다.

D. 정수 행렬 변환 및 오차 제어

FP64 입력 행렬을 FP8 정수 행렬로 변환할 때, 반올림 오차가 누적되지 않도록 '정확 모드 (Accurate mode)'를 구현했습니다.
FP8 MMA 가 FP32 어큐뮬레이션을 수행할 때 반올림 오차가 발생하지 않도록 조건 ( $k \le 2^{16}$ ) 을 만족시키고, 상한값을 보수적으로 추정하여 스케일링 벡터를 결정합니다.

3. 주요 기여 (Key Contributions)

Ozaki-II 의 FP8 적용 한계 해명: INT8 기반 Ozaki-II 가 왜 FP8 에 직접 적용되지 않는지 (고정소수점 대 부동소수점 의미론의 차이) 를 명확히 분석했습니다.
새로운 FP8 기반 Ozaki-II 알고리즘: Karatsuba 확장 및 모듈로 축소 기법을 결합하여 FP8 MMA 유닛에서 FP64 에뮬레이션을 가능하게 하는 알고리즘을 제안했습니다.
FP8 선택의 타당성 증명: FP16/BF16/FP4 대신 FP8 이 DGEMM 에뮬레이션에 적합한 이유 (정확성 유지와 FP32 어큐뮬레이션의 호환성, 하드웨어 처리량) 를 설명했습니다.
종합적 비교 분석:
- 정밀도: FP8 Ozaki-I (121 회 곱셈) 대비 제안된 FP8 Ozaki-II (36~37 회 곱셈) 가 훨씬 적은 연산으로 동급 이상의 정밀도를 달성함을 보였습니다.
- 성능 모델링: INT8 및 FP8 기반의 성능 예측 모델을 개발하여 다양한 하드웨어 조건에서의 처리량을 예측했습니다.
- 메모리 사용량: FP8 방식이 INT8 방식보다 더 많은 워킹 메모리 (Workspace) 를 필요로 함을 분석하고, 이를 줄이기 위한 블로킹 전략을 제시했습니다.
오픈소스 라이브러리: NVIDIA 및 AMD GPU 를 지원하는 오픈소스 라이브러리를 공개하여 비트 단위 재현 가능한 결과를 제공합니다.

4. 실험 결과 (Results)

하드웨어: NVIDIA RTX 5080 및 HGX B200 시스템에서 실험 수행.
정확도: 제안된 FP8 방식은 cuBLAS 기반의 INT8 Ozaki-I 기준과 유사하거나 더 높은 정확도를 달성했습니다. 특히 '정확 모드'에서는 작은 값에 대한 오버플로우 보정이 잘 되어 더 정밀한 결과를 보였습니다.
처리량 (Throughput):
- RTX 5080 (INT8 지원 강함): INT8 기반 에뮬레이션이 FP8 기반보다 1.3~2.9 배 더 빨랐습니다. 이는 INT8 자원이 풍부한 환경에서는 INT8 이 여전히 우세함을 의미합니다.
- B200 (INT8 감소, FP8 강조): 큰 행렬 크기 ($16384 \times 16384$) 에서 INT8 기반은 125 TFLOP/s, FP8 기반은 64 TFLOP/s 를 기록했습니다.
- 예측: B300 및 Rubin 아키텍처와 같이 INT8 성능이 극도로 제한된 환경에서는 제안된 FP8 방식이 유일한 고효율 FP64 에뮬레이션 대안이 될 것으로 예상됩니다.
성능 모델 검증: 제안된 성능 모델이 실제 측정된 처리량과 일치함을 확인하여 모델의 유효성을 입증했습니다.

5. 의의 및 결론 (Significance & Conclusion)

하드웨어 다양성 대응: 향후 INT8 자원이 축소되고 저정밀도 부동소수점 연산이 주류가 될 GPU 아키텍처 (예: NVIDIA Rubin) 에서 FP64 연산을 수행할 수 있는 실질적인 대안을 제시했습니다.
효율성 트레이드오프:
- INT8 기반: 메모리 사용량이 적고 처리량이 높아 현재 및 근미래의 많은 가속기에서 여전히 최선의 선택입니다.
- FP8 기반: INT8 자원이 부족한 환경에서 필수적인 옵션이며, 제안된 하이브리드 알고리즘을 통해 연산 횟수를 최소화하여 효율성을 극대화했습니다.
미래 전망: 이 연구는 저정밀도 연산을 활용한 고정밀도 계산 (Mixed-Precision Emulation) 의 범위를 확장하며, 차세대 HPC 하드웨어에서의 소프트웨어 스택 발전에 중요한 기여를 합니다.

요약하자면, 이 논문은 Ozaki-II 알고리즘의 구조적 한계를 FP8 환경에 맞게 재설계함으로써, 차세대 GPU 에서 FP64 DGEMM 을 효율적으로 수행할 수 있는 새로운 패러다임을 제시했습니다.