Unveiling the Potential of Quantization with MXFP4: Strategies for Quantization Error Reduction

Ce papier propose deux techniques logicielles, l'échelle consciente des débordements (OAS) et l'échelle de bloc macro (MBS), qui réduisent considérablement l'écart de précision entre le format MXFP4 et NVFP4 pour les grands modèles de langage, rendant ainsi MXFP4 une alternative pratique et économe en matériel sans nécessiter de modifications matérielles.

Jatin Chhugani, Geonhwa Jeong, Bor-Yiing Su, Yunjie Pan, Hanmei Yang, Aayush Ankit, Jiecao Yu, Summer Deng, Yunqing Chen, Nadathur Satish, Changkyu KimWed, 11 Ma🤖 cs.AI

ARKV: Adaptive and Resource-Efficient KV Cache Management under Limited Memory Budget for Long-Context Inference in LLMs

Ce papier présente ARKV, un cadre adaptatif et léger qui optimise la gestion du cache KV pour l'inférence de grands modèles de langage à contexte long en allouant dynamiquement des niveaux de précision aux tokens, permettant ainsi de réduire l'utilisation de la mémoire GPU par un facteur quatre tout en préservant la précision du modèle sans nécessiter de réentraînement.

Jianlong Lei, Shashikant IlagerWed, 11 Ma🤖 cs.AI

The qsqs Inequality: Quantifying the Double Penalty of Mixture-of-Experts at Inference

Cet article introduit l'inégalité qsqs pour démontrer que les modèles à mélange d'experts (MoE), bien qu'efficaces à l'entraînement, subissent une double pénalité structurelle à l'inférence (fragmentation de la réutilisation des poids et saturation de la mémoire) qui les rend souvent moins performants que des modèles denses équivalents, surtout dans des contextes longs.

Vignesh Adhinarayanan, Nuwan JayasenaWed, 11 Ma🤖 cs.LG

Accelerating High-Order Finite Element Simulations at Extreme Scale with FP64 Tensor Cores

Ce papier présente la première utilisation des cœurs tensoriels FP64 des GPU NVIDIA, combinée à des optimisations de fusion de noyaux, pour accélérer significativement les simulations d'éléments finis d'ordre élevé à l'échelle exascale, offrant jusqu'à un doublement des performances et des gains d'efficacité énergétique de 83 % sur les architectures Grace Hopper et Grace Blackwell.

Jiqun Tu, Ian Karlin, John Camier, Veselin Dobrev, Tzanio Kolev, Stefan Henneking, Omar GhattasWed, 11 Ma💻 cs

Dynamic Precision Math Engine for Linear Algebra and Trigonometry Acceleration on Xtensa LX6 Microcontrollers

Cet article présente un moteur mathématique à précision dynamique pour le microcontrôleur ESP32, combinant une arithmétique en virgule fixe, un module CORDIC et une multiplication matricielle optimisée, permettant d'accélérer significativement les calculs trigonométriques et linéaires tout en offrant une commutation runtime entre précision fixe et flottante.

Elian Alfonso Lopez PreciadoWed, 11 Ma💻 cs

A Lock-Free, Fully GPU-Resident Architecture for the Verification of Goldbach's Conjecture

Cet article présente une architecture entièrement résidente sur GPU et sans verrou qui, grâce à une migration complète du pipeline de génération de segments et à un mécanisme de vol de travail asynchrone, permet de vérifier la conjecture de Goldbach jusqu'à 10¹³ en seulement 133,5 secondes sur un cluster de quatre GPU, réalisant ainsi une accélération algorithmique de 45,6 fois par rapport aux méthodes précédentes.

Isaac Llorente-SaguerTue, 10 Ma🔢 math

RAGPerf: An End-to-End Benchmarking Framework for Retrieval-Augmented Generation Systems

Le papier présente RAGPerf, un cadre de référence open-source conçu pour évaluer de manière modulaire et automatisée les performances et la qualité des systèmes de génération augmentée par la récupération (RAG) en simulant des charges de travail réalistes et en mesurant des métriques d'efficacité et de précision.

Shaobo Li, Yirui Zhou, Yuan Xu, Kevin Chen, Daniel Waddington, Swaminathan Sundararaman, Hubertus Franke, Jian HuangThu, 12 Ma💻 cs

Linear Layouts: Robust Code Generation of Efficient Tensor Computation Using F2\mathbb{F}_2

Ce papier présente « Linear Layouts », une approche novatrice modélisant les agencements de tenseurs via l'algèbre linéaire sur F2\mathbb{F}_2 pour permettre une définition générique et des conversions efficaces, réduisant ainsi l'effort d'ingénierie et les bogues dans le backend du compilateur Triton.

Keren Zhou, Mario Lezcano, Adam Goucher, Akhmed Rakhmati, Jeff Niu, Justin Lebar, Pawel Szczerbuk, Peter Bell, Phil Tillet, Thomas Raoux, Zahi MoudallalMon, 09 Ma💻 cs

Reexamining Paradigms of End-to-End Data Movement

En s'appuyant sur des déploiements à l'échelle de la production, cette étude remet en cause la vision centrée sur le réseau en démontrant que les goulots d'étranglement de la performance résident souvent dans les facteurs hôtes et logiciels, et propose le modèle conceptuel du « Drainage Basin Pattern » pour optimiser le mouvement de données de bout en bout au-delà de la simple bande passante brute.

Chin Fang, Timothy Stitt, Michael J. McManus, Toshio MoriyaMon, 09 Ma💻 cs

Parallelization Strategies for Dense LLM Deployment: Navigating Through Application-Specific Tradeoffs and Bottlenecks

Cette étude examine les stratégies de parallélisation pour le déploiement de modèles de langage denses, démontrant que la parallélisation tensorielle optimise la latence tandis que la parallélisation pipeline favorise le débit, permettant ainsi de maîtriser le compromis entre les deux via une configuration hybride.

Burak Topcu, Musa Oguzhan Cim, Poovaiah Palangappa, Meena Arunachalam, Mahmut Taylan KandemirMon, 09 Ma🤖 cs.LG

Concurrent Deterministic Skiplist and Other Data Structures

Cet article présente la conception, l'analyse et les performances d'une liste sautante déterministe concurrente sur des nœuds NUMA many-core, tout en évaluant des implémentations de files d'attente et de tables de hachage concurrentes comparées à la bibliothèque Intel TBB, et propose des stratégies de gestion de la mémoire et une utilisation hiérarchique des structures de données pour réduire les défauts de page, les ratés de cache et les accès mémoire distants.

Aparna Sasidharan2026-03-06💻 cs