Unleashing Low-Bit Inference on Ascend NPUs: A Comprehensive Evaluation of HiFloat Formats

이 논문은 Ascend NPU 에 최적화된 HiFloat(HiF8 및 HiF4) 포맷을 평가하여, 고변동성 데이터와 4 비트 환경에서 기존 정수 형식보다 우수한 정밀도와 효율성을 제공하며 최신 양자화 프레임워크와 호환됨을 입증합니다.

Pengxiang Zhao, Hui-Ling Zhen, Xing Li, Han Bao, Weizhe Lin, Zhiyuan Yang, Manyi Zhang, Yuanyong Luo, Ziwei Yu, Xin Wang, Mingxuan Yuan, Xianzhi Yu, Zhenhua Dong

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 거대 언어 모델 (LLM, 예: 챗봇이나 AI 비서) 이 더 빠르고 저렴하게 작동할 수 있도록 돕는 새로운 '데이터 압축 기술'을 소개합니다.

핵심 주제는 **"AI 의 두뇌 (모델) 를 더 작게 줄이면서도, 지능을 잃지 않는 방법"**을 찾는 것입니다. 이를 위해 연구진은 화웨이 (Huawei) 의 Ascend 칩에 최적화된 **'HiFloat'**라는 새로운 숫자 표현 방식을 제안하고 테스트했습니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 배경: AI 의 '배고픔' 문제

거대 AI 모델은 방대한 양의 데이터를 기억하고 처리해야 합니다. 마치 거대한 도서관을 한 번에 옮기려는 것과 같습니다.

  • 문제: 도서관이 너무 커서 트럭 (메모리 대역폭) 이 부족하고, 이동 시간 (연산 속도) 이 너무 깁니다.
  • 해결책 (양자화): 책의 내용을 요약하거나, 중요한 부분만 남기고 나머지를 줄여서 트럭에 싣는 기술입니다. 보통은 숫자를 '정수 (Integer)'로 줄여서 압축했는데, 이게 너무 강하게 줄이면 책 내용이 뭉개져서 (정확도 하락) AI 가 멍청해집니다.

2. 새로운 솔루션: HiFloat (하이플로트)

연구진은 정수 대신 부동소수점 (Floating Point) 방식을 변형한 **'HiFloat'**를 개발했습니다. 이는 Ascend 칩이라는 특수한 트럭에 딱 맞게 설계된 방식입니다.

📦 8 비트 버전 (HiF8): "상황에 맞는 유연한 상자"

  • 비유: 8 비트는 8 개의 칸이 있는 선반이라고 생각하세요.
  • 기존 방식 (정수): 모든 물건 (숫자) 에 똑같은 크기의 상자를 씌웁니다. 작은 물건도 큰 상자에 넣으면 공간이 낭비되고, 큰 물건은 상자가 작아서 찌그러집니다.
  • HiF8 의 특징: 물건의 크기에 따라 상자의 크기를 유연하게 조절합니다.
    • 결과: AI 의 '가중치 (기억)'는 대부분 작은 숫자라 정수 방식이 더 잘 맞지만, '활성화 (생각하는 과정)'는 갑자기 커지는 숫자 (이상치) 가 나오기 때문에 HiF8 같은 유연한 방식이 더 좋습니다.
    • 교훈: 기억 (가중치) 은 정돈된 정리가 중요하고, 생각 (활성화) 은 유연한 대응이 필요하다.

📦 4 비트 버전 (HiF4): "3 단계 계단식 구조"

  • 비유: 4 비트는 4 개의 칸밖에 없는 아주 작은 선반입니다. 여기서 정수 방식을 쓰면 모든 물건을 강제로 4 등분해야 해서 내용이 완전히 뭉개집니다.
  • HiF4 의 혁신 (계층적 스케일링):
    • 이 방식은 선반을 3 단계 계단으로 나눕니다.
    • 1 단계 (큰 상자): 전체 블록의 크기를 잡습니다.
    • 2 단계 (중간 상자): 8 개씩 묶어서 크기를 조절합니다.
    • 3 단계 (작은 상자): 4 개씩 묶어서 미세하게 조절합니다.
  • 효과: 마치 마이크로 렌즈처럼, 숫자가 모여 있는 곳에는 세밀하게, 숫자가 드문 곳에는 넓게 공간을 배분합니다. 덕분에 4 비트라는 극도로 좁은 공간에서도 AI 가 중요한 정보를 잃지 않고 유지할 수 있습니다.

3. 주요 발견 (세 가지 통찰)

  1. 정수 vs 부동소수점:

    • 가중치 (기억): 숫자 범위가 좁고 일정하므로, **정수 (INT8)**가 가장 깔끔하고 효율적입니다. (비유: 정해진 서가에 책을 꽂는 것)
    • 활성화 (생각): 갑자기 튀어나오는 큰 숫자 (이상치) 가 많으므로, **부동소수점 (HiF8)**이 범위를 잘 잡아냅니다. (비유: 갑자기 쏟아지는 물건을 담을 수 있는 넓은 통)
  2. 4 비트의 위기 탈출:

    • 4 비트로 줄이면 정수 방식은 완전 붕괴됩니다. (비유: 4 칸 선반에 100 권의 책을 억지로 넣으려다 책이 찢어짐)
    • 하지만 HiF4는 3 단계 계단 구조 덕분에 붕괴를 막고 거의 원본 수준의 성능을 유지합니다.
  3. KV 캐시 (기억 저장소) 최적화:

    • AI 가 긴 대화를 할 때 기억해두는 'KV 캐시'도 4 비트로 줄일 수 있습니다. HiF4 는 이 부분에서도 다른 방식들보다 훨씬 뛰어난 성능을 보여줍니다.

4. 결론: 왜 이것이 중요한가?

이 논문은 **"AI 를 더 작게, 더 빠르게, 더 저렴하게 만드는 새로운 표준"**을 제시합니다.

  • 기존: AI 를 줄이면 지능이 떨어졌다. (정수 방식의 한계)
  • 이제: HiFloat를 쓰면, AI 의 크기는 반으로 줄이면서도 지능은 거의 잃지 않습니다.
  • 비유: 마치 고해상도 사진을 압축할 때, 중요한 얼굴 부분은 선명하게 남기고 배경만 흐리게 만드는 기술을 개발한 것과 같습니다.

이 기술이 상용화되면, 고가의 서버 없이도 일반 스마트폰이나 가정용 PC 에서도 똑똑한 AI 를 빠르게 구동할 수 있게 될 것입니다. 화웨이의 Ascend 칩을 사용하는 환경에서 특히 빛을 발할 것으로 기대됩니다.