Each language version is independently generated for its own context, not a direct translation.

"에테르플로트 (AetherFloat)": AI 를 위한 새로운 숫자 세상의 이야기

이 논문은 우리가 컴퓨터에서 사용하는 숫자, 특히 인공지능 (AI) 이 배우고 생각하는 데 쓰이는 숫자 체계에 혁명을 일으킬 수 있는 새로운 아이디어를 제안합니다.

기존의 방식은 50 년 넘게 쓰여 온 'IEEE 754'라는 표준인데, 이는 마치 과거의 만능 열쇠처럼 모든 상황에 맞췄지만, AI 가 폭발적으로 늘어나는 요즘에는 무겁고 비효율적이라는 문제가 생겼습니다. 이 논문은 그 문제를 해결하기 위해 **"에테르플로트 (AetherFloat)"**라는 새로운 숫자 체계를 만들었습니다.

이 복잡한 기술 이야기를 일상적인 비유로 쉽게 풀어보겠습니다.

1. 문제: "무거운 짐을 지고 달리는 AI"

기존의 AI 칩 (하드웨어) 은 숫자를 다룰 때 몇 가지 귀찮은 일을 해야 합니다.

숨겨진 비밀 (Hidden Bit): 숫자를 저장할 때 가장 중요한 앞자리를 '숨겨서' 저장합니다. 마치 "이 숫자는 1 로 시작한다는 걸 알아요, 굳이 쓰지 않아도 돼요"라고 하는 것과 같습니다. 하지만 AI 칩이 이걸 계산할 때, 숨겨진 숫자를 찾아내고 다시 맞춰주는 과정에서 시간과 전기를 많이 낭비합니다.
큰 숫자 공포증 (Outliers): AI, 특히 최신 언어 모델 (LLM) 은 가끔 아주 큰 숫자 (예: 1000) 와 아주 작은 숫자 (예: 0.0001) 가 섞여 나옵니다. 기존 8 비트 숫자 (FP8) 는 이 큰 숫자를 받아주지 못해 "오버플로우 (넘침)"가 발생합니다.
해결책의 부작용: 그래서 업계는 "블록 스케일링 (Block-Scaling)"이라는 추가적인 안전장치를 칩에 달았습니다. 이는 "숫자가 너무 크면 모두를 줄여서 맞춰주는 관리자" 같은 역할인데, 이 관리자가 매번 숫자를 확인하고 조정하는 과정에서 속도가 느려지고 전기가 더 많이 먹힙니다.

2. 해결책: 에테르플로트의 3 가지 마법

에테르플로트는 이 문제를 해결하기 위해 세 가지 창의적인 방법을 썼습니다.

① "숫자 비교를 단순하게" (Lexicographic One's Complement)

비유: 기존 방식은 음수와 양수를 섞어서 비교할 때 "음수는 뒤집어서 생각해야 해"라고 복잡하게 계산했습니다. 에테르플로트는 음수와 양수를 마치 줄서기 순서처럼 자연스럽게 정렬되도록 설계했습니다.
효과: AI 가 "이 숫자가 0 보다 큰가?" (ReLU 함수) 같은 간단한 판단을 할 때, 복잡한 부동소수점 계산기 (FPU) 를 쓸 필요 없이 가장 간단한 정수 비교기만 쓰면 됩니다. 이는 속도를 획기적으로 높여줍니다.

② "4 진법의 힘" (Quad-Radix Scaling)

비유: 기존 숫자는 2 진법 (2 배씩 커짐) 을 썼습니다. 에테르플로트는 **4 진법 (4 배씩 커짐)**을 사용합니다.
효과: 2 배씩 커지는 것보다 4 배씩 커지면, 같은 자리수라도 훨씬 더 큰 숫자를 표현할 수 있습니다. 마치 100 원짜리 지폐만 쓰는 나라에서 400 원짜리 지폐를 도입한 것과 같습니다. 덕분에 AI 의 거대한 숫자 (Outliers) 를 별도의 안전장치 (블록 스케일링) 없이도 자연스럽게 받아들일 수 있습니다.
- 단점: 정확도가 아주 미세하게 떨어질 수 있지만, AI 학습 과정에서 이 오차는 "잡음"처럼 작용해 오히려 학습을 돕는다는 것이 연구팀의 주장입니다.

③ "숨겨진 비밀을 공개하라" (Explicit Mantissa)

비유: 기존 방식은 "가장 중요한 숫자는 숨겨져 있어"라고 했지만, 에테르플로트는 **"모든 숫자를 다 보여줘"**라고 합니다.
효과: 숨겨진 숫자를 찾아내는 복잡한 회로를 없애고, 직접 숫자를 다 적어놓습니다. 그 결과, 칩 내부의 계산기 (승수 배열) 를 더 작게 만들 수 있습니다. (4x4 크기에서 3x3 크기로 줄임).
- 결과: 칩 크기가 33% 줄고, 전력 소모는 22% 줄어듭니다.

3. 두 가지 버전: AF16 과 AF8

이 기술은 두 가지 버전으로 나뉩니다.

AF16 (16 비트): 기존에 쓰던 bfloat16 을 거의 그대로 대체할 수 있는 버전입니다. 정확도 손실 없이 기존 AI 모델을 그대로 쓸 수 있습니다.
AF8 (8 비트): 이것이 진짜 주인공입니다. 블록 스케일링 (안전장치) 이 전혀 필요 없는 8 비트 형식입니다.
- 주의할 점: 기존 8 비트 방식은 모델을 만든 후 단순히 숫자를 줄여주면 (PTQ) 되지만, AF8 은 모델을 처음부터 8 비트에 맞춰서 다시 가르쳐야 (QAT) 합니다.
- 왜? AF8 은 숨겨진 숫자를 없애고 4 진법을 쓰기 때문에, 아주 작은 숫자를 표현하는 데는 약점이 있습니다. 하지만 대신 매우 큰 숫자를 잡는 데는 압도적으로 강합니다. 그래서 "큰 숫자 공포증"을 가진 최신 AI 에게는 AF8 이 더 적합합니다.

4. 요약: 왜 이것이 중요한가?

에테르플로트는 **"정확함을 조금 포기하고, 속도와 효율을 극대화"**하는 전략입니다.

기존 방식: "모든 상황을 완벽하게 처리하려면 복잡한 안전장치와 큰 칩이 필요해."
에테르플로트: "AI 는 완벽함보다 속도가 중요해. 큰 숫자는 자연스럽게 받아주고, 작은 숫자는 학습 과정에서 적응하게 하지. 그 대신 칩을 작게, 전기를 적게 써."

이 기술이 상용화되면, AI 칩은 더 작아지고, 더 빨라지며, 배터리도 더 오래 갈 것입니다. 특히 스마트폰이나 로봇처럼 전력이 제한된 기기에서 AI 를 구동할 때 혁신적인 변화를 가져올 것으로 기대됩니다.

한 줄 요약:

"에테르플로트는 AI 가 숫자를 계산할 때 불필요한 '숨은 규칙'과 '안전장치'를 없애고, 더 넓은 범위와 더 빠른 속도로 달릴 수 있게 해주는 새로운 숫자 언어입니다."

Each language version is independently generated for its own context, not a direct translation.

논문 요약: AetherFloat Family (AI 가속기를 위한 블록 스케일 프리 4 진법 부동소수점 아키텍처)

1. 문제 정의 (Problem)

현대 AI 가속기, 특히 대규모 병렬 신경망 처리 장치 (NPU) 에서는 기존 IEEE 754 부동소수점 표준이 다음과 같은 심각한 하드웨어 비효율성을 초래합니다.

하드웨어 오버헤드: Base-2(2 진법) 정규화를 위한 깊은 정렬 크로스바 (barrel shifters) 와 숨겨진 비트 (hidden bit) 처리 로직이 실리콘 면적과 전력 소모를 증가시킵니다.
파이프라인 정지: 비정규수 (subnormal numbers) 처리를 위한 마이크로코드 트랩이 파이프라인을 멈추게 하여 지연을 유발합니다.
LLM 활성화 이상치 (Outliers) 문제: 최근 8 비트 포맷 (FP8 등) 으로 전환되면서, 대규모 언어 모델 (LLM) 의 활성화 값에서 발생하는 거대한 이상치 (outliers) 를 수용하기 위해 블록 스케일링 (Block-Scaling, AMAX) 하드웨어가 필수적이 되었습니다. 이는 동적 범위가 제한된 8 비트 포맷에서 오버플로우를 방지하기 위해 텐서별 최대값을 계산하고 스케일링하는 복잡한 회로를 필요로 하여 성능 저하와 전력 낭비를 초래합니다.

2. 방법론 (Methodology)

저자들은 AI 가속기용 하드웨어/소프트웨어 공동 설계 (Co-Design) 관점에서 AetherFloat라는 새로운 파라미터화 가능한 부동소수점 아키텍처를 제안합니다. 주요 기술적 혁신은 다음과 같습니다.

사전적 1 의 보수 해독 (Lexicographic One's Complement Unpacking):
- 기존 부호 - 절댓값 (Sign-Magnitude) 인코딩은 정수 비교 시 부호 처리를 위해 별도의 논리가 필요하지만, AetherFloat 은 음수의 절댓값 비트를 1 의 보수 (bitwise inversion) 로 변환하여 정수 ALU 를 통한 0 사이클 비교가 가능하도록 합니다.
- 이를 통해 ReLU 나 Max-Pooling 과 같은 비선형 연산을 저비용 정수 연산으로 직접 수행할 수 있습니다.
4 진법 (Quad-Radix, Base-4) 스케일링:
- 기존 Base-2 대신 Base-4를 지수 기반으로 사용합니다.
- 장점: 2 비트 단위로 정렬이 이루어져 깊은 크로스바 대신 얕은 2 단계 멀티플렉서 (MUX) 로 대체되어 하드웨어가 간소화됩니다.
- 정밀도 변동 (Wobble) 수용: 고진법 스케일링은 정밀도 변동 (wobble) 을 발생시키지만, 확률적 경사 하강법 (SGD) 기반의 딥러닝 훈련 환경에서는 이 변동이 양질의 정규화 (regularization) 로 작용하여 정확도 저하를 흡수한다는 것을 실험적으로 증명했습니다.
명시적 맨티사 (Explicit Mantissa) 및 비트랩 서브노멀:
- 숨겨진 비트 제거: AetherFloat-8 (AF8) 은 3 비트의 명시적 맨티사를 사용합니다. 숨겨진 비트를 없애기 위해 수학적 정밀도 1 비트를 희생하는 대신, 하드웨어 승산기 배열을 4x4 에서 3x3으로 축소하여 면적을 대폭 절감합니다.
- 비트랩 서브노멀: 지수가 0 일 때에도 정렬 규칙을 일시 중단하여 서브노멀 수가 파이프라인 정지 없이 동일한 하드웨어 경로를 통과하도록 설계했습니다.
벡터 공유 확률적 반올림 (Vector-Shared Stochastic Rounding):
- 저정밀도 훈련 시 기울기 소실 (vanishing gradients) 을 방지하기 위해, 각 ALU 마다 랜덤 생성기를 두는 대신 SIMD 벡터 레인 수준에서 단일 32 비트 Galois LFSR 을 공유하여 확률적 반올림을 수행합니다.

3. 주요 기여 (Key Contributions)

블록 스케일 프리 (Block-Scale-Free) 포맷: AF8 은 동적 AMAX 하드웨어 없이 LLM 의 활성화 이상치를 수용할 수 있는 넓은 동적 범위 (약 $1.22 \times 10^{-4} $~$ 57,344 $) 를 제공합니다. 이는 FP8 의 약$ 10^{-2} $~$ 448$보다 훨씬 넓습니다.
하드웨어 효율성 극대화: 숨겨진 비트 제거와 Base-4 스케일링을 통해 MAC(승산 - 누적) 유닛에서 면적 33.17%, 총 전력 21.99%, 임계 경로 지연 11.73% 감소를 달성했습니다.
QAT 중심의 설계 철학: AF8 은 동적 스케일링 하드웨어를 제거하기 위해 **양자화 인식 훈련 (Quantization-Aware Training, QAT)**을 필수적으로 요구합니다. 이는 Post-Training Quantization (PTQ) 과는 다른 배포 경로를 제시합니다.

4. 실험 결과 (Results)

하드웨어 성능: SkyWater 130nm PDK 기반 합성 결과, AF8 은 기존 FP8 대비 MAC 유닛의 면적과 전력 소모를 획기적으로 줄였습니다.
모델 정확도 (Qwen2.5-7B):
- AF16: bfloat16 과 거의 동일한 성능을 보이며 (WikiText-2 PPL 8.7380 vs 8.7368), 16 비트 규모에서 4 진법 스케일링의 정밀도 변동이 악영향을 미치지 않음을 입증했습니다.
- AF8 (PTQ): 동적 AMAX 하드웨어가 없어 PTQ 환경에서는 성능 저하가 발생하지만, **QAT(양자화 인식 훈련)**를 적용하면 FP8 과 유사하거나 더 나은 수렴 행동을 보입니다.
- QAT 수렴: 200 스텝의 훈련 실험에서 AF8 은 FP8 보다 훈련 후반부 (150 스텝 부근) 에 더 안정적인 손실 수렴을 보였습니다.
동적 범위: AF8 은 FP8 보다 약 100 배 이상 넓은 동적 범위를 제공하여 별도의 블록 스케일링 회로 없이 LLM 의 이상치를 직접 처리할 수 있습니다.

5. 의의 및 결론 (Significance)

하드웨어 단순화: IEEE 754 의 구조적 복잡성 (숨겨진 비트, 깊은 정렬 로직, 서브노멀 트랩) 을 제거하여 AI 가속기의 물리적 효율성을 극대화했습니다.
새로운 배포 패러다임: "블록 스케일 프리"라는 개념을 도입하여, 동적 AMAX 하드웨어의 필요성을 없애고 대신 소프트웨어 측면 (QAT) 에서 해결책을 모색함으로써, AI 칩 설계의 새로운 방향성을 제시했습니다.
상용화 가능성: 특허 출원 중이며, 학술적 평가 라이선스를 통해 시뮬레이션 프레임워크와 Verilog 코드를 공개하여 재현성을 보장합니다.

결론적으로, AetherFloat 은 AI 가속기에서 부동소수점 연산의 하드웨어 비용을 대폭 줄이면서도 LLM 의 대규모 이상치를 수용할 수 있는 새로운 아키텍처를 제시하며, 특히 8 비트 추론 (Inference) 을 위한 QAT 기반의 효율적인 솔루션으로 평가됩니다.

The AetherFloat Family: Block-Scale-Free Quad-Radix Floating-Point Architectures for AI Accelerators