Unveiling the Potential of Quantization with MXFP4: Strategies for Quantization Error Reduction

이 논문은 하드웨어 변경 없이 소프트웨어 기법인 오버플로우 인식 스케일링 (OAS) 과 매크로 블록 스케일링 (MBS) 을 도입하여 MXFP4 의 양자화 오차를 줄이고 NVFP4 와의 정확도 격차를 10% 에서 1% 미만으로 축소함으로써, MXFP4 를 하드웨어 효율성을 유지하면서 NVFP4 에 버금가는 성능을 내는 실용적인 대안으로 재탄생시켰음을 보여줍니다.

Jatin Chhugani, Geonhwa Jeong, Bor-Yiing Su, Yunjie Pan, Hanmei Yang, Aayush Ankit, Jiecao Yu, Summer Deng, Yunqing Chen, Nadathur Satish, Changkyu KimWed, 11 Ma🤖 cs.AI

ARKV: Adaptive and Resource-Efficient KV Cache Management under Limited Memory Budget for Long-Context Inference in LLMs

ARKV 는 LLM 의 긴 컨텍스트 추론 시 GPU 메모리 제약을 해결하기 위해 레이어별 어텐션 동역학과 토큰 중요도를 기반으로 정밀도 수준을 동적으로 할당하여 KV 캐시 메모리 사용량을 4 배 줄이면서도 기존 정확도의 약 97% 를 유지하는 경량 적응형 프레임워크를 제안합니다.

Jianlong Lei, Shashikant IlagerWed, 11 Ma🤖 cs.AI

ChatNeuroSim: An LLM Agent Framework for Automated Compute-in-Memory Accelerator Deployment and Optimization

이 논문은 메모리-연산 간 데이터 전송 오버헤드를 줄이는 컴퓨트 인 메모리 (CIM) 아키텍처의 설계 공간 탐색 (DSE) 주기를 단축하고 최적 설계를 자동화하기 위해, 대규모 언어 모델 (LLM) 기반 에이전트 프레임워크인 ChatNeuroSim 과 설계 공간 가지치기 기법을 제안합니다.

Ming-Yen Lee, Shimeng YuWed, 11 Ma💻 cs

bsort: A theoretically efficient non-comparison-based sorting algorithm for integer and floating-point numbers

이 논문은 정수와 부동소수점 숫자를 위한 이진 퀵소트에서 유래한 비비교 기반 정렬 알고리즘 'bsort'를 제안하며, 이는 작은 단어 크기의 데이터 유형에서 O(wn)O(wn) 시간 복잡도와 O(w)O(w) 보조 공간으로 실행되어 최적화된 하이브리드 알고리즘과 경쟁력 있는 성능을 보입니다.

Benjamín GuzmánWed, 11 Ma💻 cs

The qsqs Inequality: Quantifying the Double Penalty of Mixture-of-Experts at Inference

이 논문은 혼합 전문가 (MoE) 모델이 훈련 시 효율적이지만 추론 시 '이중 페널티'로 인해 대역폭 병목 현상이 발생하여 긴 컨텍스트 환경에서 밀집형 모델보다 성능이 저하될 수 있음을 'qs 부등식'을 통해 규명하고, MoE 를 훈련 최적화 기법으로 간주하고 추론 효율성을 위해 밀집형 모델로 증류하는 방안을 제안합니다.

Vignesh Adhinarayanan, Nuwan JayasenaWed, 11 Ma🤖 cs.LG

Accelerating High-Order Finite Element Simulations at Extreme Scale with FP64 Tensor Cores

이 논문은 MFEM 라이브러리의 핵심 커널에 FP64 텐서 코어와 커널 퓨전 최적화를 적용하여 Grace Hopper 및 Grace Blackwell 아키텍처에서 최대 2 배의 성능 향상과 83% 의 에너지 효율 개선을 달성하고, 알프스 시스템의 10,000 개 GPU 에서 엑사스케일 성능을 입증함으로써 대규모 유한 요소 시뮬레이션 가속화의 새로운 기준을 제시했습니다.

Jiqun Tu, Ian Karlin, John Camier, Veselin Dobrev, Tzanio Kolev, Stefan Henneking, Omar GhattasWed, 11 Ma💻 cs

Dynamic Precision Math Engine for Linear Algebra and Trigonometry Acceleration on Xtensa LX6 Microcontrollers

이 논문은 ESP32 의 Xtensa LX6 마이크로컨트롤러에서 부동소수점 연산의 오버헤드를 줄이고 실시간 성능을 향상시키기 위해 Q16.16 고정소수점 연산, CORDIC 삼각함수 모듈, 그리고 런타임 정밀도 전환 메커니즘을 통합한 동적 정밀도 수학 엔진을 설계하고 평가한 연구입니다.

Elian Alfonso Lopez PreciadoWed, 11 Ma💻 cs

Multi-DNN Inference of Sparse Models on Edge SoCs

이 논문은 재학습 없이 희소 모델의 서브그래프를 재조합하는 '모델 스티칭' 기법과 이를 에지 SoC 에 배포한 SparseLoom 시스템을 제안하여, 기존 멀티 DNN 추론 시스템 대비 SLO 위반률을 최대 74% 감소시키고 처리량을 2.31 배 향상시키며 메모리 오버헤드를 평균 28% 절감하는 것을 실험적으로 입증했습니다.

Jiawei Luo, Di Wu, Simon Dobson, Blesson VargheseWed, 11 Ma🤖 cs.LG

A Lock-Free, Fully GPU-Resident Architecture for the Verification of Goldbach's Conjecture

이 논문은 호스트-디바이스 통신 지연을 제거하고 비동기 잠금 해제 작업 도용 풀을 도입하여 골드바흐의 추측을 검증하는 완전 GPU 거주 아키텍처를 제안함으로써, 단일 RTX 5090 에서 $10^{12}$까지의 검증을 36.5 초 만에 수행하는 등 기존 방식 대비 45.6 배의 속도 향상을 달성했다고 요약할 수 있습니다.

Isaac Llorente-SaguerTue, 10 Ma🔢 math

DyLLM: Efficient Diffusion LLM Inference via Saliency-based Token Selection and Partial Attention

이 논문은 확산 언어 모델의 반복적 탈노이즈 과정에서 시간적 희소성을 활용하여 중요한 토큰만 선택적으로 계산하고 나머지는 캐싱된 활성화를 재사용하는 훈련 없는 DyLLM 프레임워크를 제안함으로써, 정확도 손실 없이 최대 9.6 배의 처리량 향상을 달성한다고 요약할 수 있습니다.

Younjoo Lee, Junghoo Lee, Seungkyun Dan, Jaiyoung Park, Jung Ho AhnTue, 10 Ma💬 cs.CL

RedFuser: An Automatic Operator Fusion Framework for Cascaded Reductions on AI Accelerators

이 논문은 AI 가속기에서 캐스케이드 축소 연산 (cascaded reductions) 을 자동으로 단일 루프로 융합하여 최적화된 커널을 생성하는 'RedFuser' 프레임워크를 제안하며, 기존 AI 컴파일러 대비 최대 5 배의 성능 향상을 달성함을 보여줍니다.

Xinsheng Tang, Yangcheng Li, Nan Wang, Zhiyi Shu, Xingyu Ling, Junna Xing, Peng Zhou, Qiang LiuThu, 12 Ma🤖 cs.AI

RAGPerf: An End-to-End Benchmarking Framework for Retrieval-Augmented Generation Systems

이 논문은 임베딩, 색인, 검색, 재순위화, 생성 등 RAG 파이프라인의 각 모듈을 분리하여 구성 가능하게 하고, 다양한 데이터셋과 벡터 데이터베이스, LLM 을 지원하며 성능 및 정확도 지표를 자동 수집하는 종단간 벤치마킹 프레임워크 'RAGPerf'를 제안합니다.

Shaobo Li, Yirui Zhou, Yuan Xu, Kevin Chen, Daniel Waddington, Swaminathan Sundararaman, Hubertus Franke, Jian HuangThu, 12 Ma💻 cs

Linear Layouts: Robust Code Generation of Efficient Tensor Computation Using F2\mathbb{F}_2

이 논문은 텐서 레이아웃을 F2\mathbb{F}_2 위의 선형 대수로 모델링하는 'Linear Layouts'를 제안하여 기존 방식의 비효율성과 복잡성을 해결하고 Triton 컴파일러의 성능과 유지보수성을 대폭 향상시켰음을 보여줍니다.

Keren Zhou, Mario Lezcano, Adam Goucher, Akhmed Rakhmati, Jeff Niu, Justin Lebar, Pawel Szczerbuk, Peter Bell, Phil Tillet, Thomas Raoux, Zahi MoudallalMon, 09 Ma💻 cs

Reexamining Paradigms of End-to-End Data Movement

이 논문은 고대역폭 네트워크만으로는 데이터 이송 성능을 보장할 수 없음을 지적하며, 네트워크 코어 외부의 병목 요인을 규명하고 '배수지 패턴 (Drainage Basin Pattern)' 개념 모델을 제안하여 하드웨어와 소프트웨어의 통합적 설계가 대규모 데이터 이송의 예측 가능한 성능 달성에 필수적임을 실증합니다.

Chin Fang, Timothy Stitt, Michael J. McManus, Toshio MoriyaMon, 09 Ma💻 cs

Parallelization Strategies for Dense LLM Deployment: Navigating Through Application-Specific Tradeoffs and Bottlenecks

이 논문은 Llama-3.1-70B 와 405B 와 같은 밀집형 LLM 의 배포 시 텐서 병렬화 (TP) 가 지연 시간 최적화에, 파이프라인 병렬화 (PP) 가 처리량 최적화에 유리하며, 두 기법을 혼합하여 지연 시간과 처리량 간의 트레이드오프를 조절할 수 있음을 실증적으로 분석합니다.

Burak Topcu, Musa Oguzhan Cim, Poovaiah Palangappa, Meena Arunachalam, Mahmut Taylan KandemirMon, 09 Ma🤖 cs.LG

Improving LLM Performance Through Black-Box Online Tuning: A Case for Adding System Specs to Factsheets for Trusted AI

이 논문은 내부 계측 없이 종단 간 측정과 힐 클라이밍을 통해 LLM 서비스의 목표 충족 처리량을 극대화하는 블랙박스 온라인 제어기를 제안하고, 이를 통해 AI 시스템의 신뢰성을 높이기 위해 사실서 (Factsheets) 에 시스템 성능 및 지속 가능성 지표를 통합해야 함을 강조합니다.

Yonas Atinafu, Henry Lin, Robin CohenFri, 13 Ma🤖 cs.AI

Unlocking Python's Cores: Hardware Usage and Energy Implications of Removing the GIL

이 논문은 Python 3.14.2 의 GIL 제거 빌드가 병렬화 가능한 작업에서는 실행 시간과 에너지 소비를 획기적으로 줄이는 반면, 순차적 작업이나 공유 객체 접근이 빈번한 경우 오히려 에너지 효율이 저하되고 메모리 사용량이 증가한다는 트레이드오프를 규명하여, 도입 전 워크로드 특성을 신중히 평가할 것을 권고합니다.

José Daniel Montoya Salazar2026-03-06💻 cs