Precision-Scalable Microscaling Datapaths with Optimized Reduction Tree for Efficient NPU Integration

이 논문은 기존 마이크로스케일링 (MX) MAC 설계의 한계를 극복하기 위해 하이브리드 정밀도 확장 가능 축소 트리를 제안하고 SNAX 플랫폼에 통합하여, 다양한 MX 포맷에서 높은 에너지 효율과 처리량을 달성한 NPU 통합 시스템을 제시합니다.

Stef Cuyckens, Xiaoling Yi, Robin Geens, Joren Dumoulin, Martin Wiesner, Chao Fang, Marian Verhelst

게시일 2026-03-13
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"지능형 칩 (NPU) 이 더 똑똑하고, 더 빠르며, 더 적은 전기를 먹도록 만든 새로운 설계"**에 대한 이야기입니다.

비유하자면, 이 연구는 **"모든 일을 할 수 있는 만능 요리사 (AI 칩) 를 위해, 부엌 (반도체) 을 더 효율적으로 재단장한 것"**이라고 할 수 있습니다.

다음은 이 복잡한 기술 내용을 일상적인 언어와 비유로 풀어낸 설명입니다.


1. 문제 상황: "요리사"의 딜레마

최근 로봇이나 자율주행차 같은 기기들은 배터리를 쓰면서도 계속 배우고 (학습), 판단해야 합니다 (추론). 이를 위해선 AI 칩이 두 가지 일을 동시에 잘해야 합니다.

  • 학습 (Training): 새로운 것을 배울 때는 정밀한 계산이 필요합니다. 마치 미슐랭 셰프가 레시피를 정교하게 다듬는 것처럼, 아주 작은 오차도 허용하지 않아야 합니다. (기존에는 FP32 라는 무거운 도구를 썼는데, 전기를 많이 먹고 부피가 큽니다.)
  • 추론 (Inference): 배운 것을 실제로 적용할 때는 빠르고 가벼운 계산이 필요합니다. 마치 패스트푸드점처럼 빠르게 대량으로 처리해야 합니다. (기존에는 INT8 같은 가벼운 도구를 썼습니다.)

기존의 문제점:
기존 칩들은 이 두 가지 일을 한 번에 처리하려다 보니 "중간 단계"에서 병목 현상이 생겼습니다.

  • 가벼운 도구를 쓰다가 무거운 도구로 바꾸려면, 데이터를 변환하는 과정에서 시간과 전기를 낭비했습니다.
  • 특히, 여러 숫자를 더할 때 (누적) 정밀도를 맞추기 위해 너무 많은 공간과 전력을 소모했습니다. (논문에 따르면 칩의 80% 이상 자원이 이 '더하기' 과정에 쓰였습니다.)

2. 해결책: "하이브리드" 요리법 개발

연구팀은 이 문제를 해결하기 위해 **두 가지 방식의 장점을 섞은 새로운 '더하기' 방식 (Hybrid Reduction Tree)**을 개발했습니다.

비유: "현명한 재고 관리"

기존 방식은 모든 재료를 무거운 금고 (FP32) 에 넣어두거나, 모든 재료를 작은 상자에 넣어두는 식이었습니다. 하지만 연구팀은 "상황에 따라 상자를 바꿔 쓰는" 방식을 고안했습니다.

  • 아이디어: 계산 중간에 너무 정밀하게 재지 않아도 되는 부분은 과감하게 줄이고, 중요한 부분만 정밀하게 처리합니다.
  • 효과: 마치 요리할 때 "소금 양은 대략적으로 재고, 고기 무게만 정밀하게 재는" 것처럼, 불필요한 계산 과정을 생략하면서도 최종 결과물의 맛 (정확도) 은 유지합니다.
  • 결과: 칩이 더 작아지고, 전기를 훨씬 덜 먹게 되었습니다.

3. 시스템 통합: "효율적인 물류 시스템"

칩 자체만 잘 만든다고 해서 다 좋은 게 아닙니다. 칩으로 데이터를 실어 나르는 **물류 시스템 (데이터 스트리머)**도 중요합니다.

  • 기존 시스템: 어떤 일을 하든 항상 최대 용량의 트럭 4 대를 대기시켰습니다. 하지만 가벼운 일을 할 때는 트럭이 비어있어 전기를 낭비하고, 물류 창고 (메모리) 가 혼잡해졌습니다.
  • 새로운 시스템 (SNAX 플랫폼): 작업의 무게 (정밀도) 에 따라 트럭 대수를 자동으로 조절합니다.
    • 가벼운 작업 (INT8): 트럭 1 대만 보냄.
    • 무거운 작업 (FP4): 트럭 4 대를 보냄.
  • 효과: 전기를 아끼고, 물류 창고의 혼잡을 막아 칩이 멈추지 않고 계속 일하게 합니다.

4. 성과: 얼마나 좋아졌나요?

연구팀은 이 새로운 칩을 실제 시스템에 적용해 보았습니다. 결과는 놀라웠습니다.

  • 에너지 효율: 같은 일을 할 때, 기존 최고의 기술 (State-of-the-Art) 보다 최대 3 배 이상 전기를 아꼈습니다.
    • 비유: 같은 거리를 가는 차인데, 기존 차는 휘발유 3 리터를 썼는데, 이 새 차는 1 리터로 충분하다는 뜻입니다.
  • 처리 속도: 초당 처리할 수 있는 작업량 (Throughput) 이 크게 늘어났습니다.
  • 적용 가능성: 학습과 추론을 하나의 칩에서 모두 처리할 수 있어, 작은 기기 (웨어러블, 로봇) 에서도 AI 가 계속 학습하며 진화할 수 있는 길이 열렸습니다.

요약

이 논문은 **"AI 칩이 학습과 추론을 할 때, 불필요한 정밀도 계산과 데이터 낭비를 줄여주는 똑똑한 설계"**를 제안했습니다.

마치 **"부엌을 재단장해서 요리사 (AI) 가 더 적은 연료로 더 맛있는 요리를 빠르게 만들어내게 만든 것"**과 같습니다. 이 기술이 상용화되면, 배터리가 오래 가는 더 똑똑한 로봇과 헬스 기기들을 만날 수 있을 것입니다.