cs.PF articles | Gist.Science

Unveiling the Potential of Quantization with MXFP4: Strategies for Quantization Error Reduction

Ce papier propose deux techniques logicielles, l'échelle consciente des débordements (OAS) et l'échelle de bloc macro (MBS), qui réduisent considérablement l'écart de précision entre le format MXFP4 et NVFP4 pour les grands modèles de langage, rendant ainsi MXFP4 une alternative pratique et économe en matériel sans nécessiter de modifications matérielles.

Jatin Chhugani, Geonhwa Jeong, Bor-Yiing Su, Yunjie Pan, Hanmei Yang, Aayush Ankit, Jiecao Yu, Summer Deng, Yunqing Chen, Nadathur Satish, Changkyu KimWed, 11 Ma🤖 cs.AI

ARKV: Adaptive and Resource-Efficient KV Cache Management under Limited Memory Budget for Long-Context Inference in LLMs

Ce papier présente ARKV, un cadre adaptatif et léger qui optimise la gestion du cache KV pour l'inférence de grands modèles de langage à contexte long en allouant dynamiquement des niveaux de précision aux tokens, permettant ainsi de réduire l'utilisation de la mémoire GPU par un facteur quatre tout en préservant la précision du modèle sans nécessiter de réentraînement.

Jianlong Lei, Shashikant IlagerWed, 11 Ma🤖 cs.AI

ChatNeuroSim: An LLM Agent Framework for Automated Compute-in-Memory Accelerator Deployment and Optimization

Ce papier présente ChatNeuroSim, un cadre d'agents basé sur les grands modèles de langage qui automatise le déploiement et l'optimisation des accélérateurs de mémoire calculante (CIM) en intégrant un élagage de l'espace de conception pour réduire considérablement le temps de cycle de recherche et d'exploration.

Ming-Yen Lee, Shimeng YuWed, 11 Ma💻 cs

bsort: A theoretically efficient non-comparison-based sorting algorithm for integer and floating-point numbers

Ce papier présente bsort, un algorithme de tri non basé sur la comparaison pour les entiers et les nombres à virgule flottante, qui atteint une complexité temporelle de $O(wn)$ et une complexité spatiale de $O(w)$ tout en offrant des performances compétitives pour les petits mots de données.

Benjamín GuzmánWed, 11 Ma💻 cs

The $qs$ Inequality: Quantifying the Double Penalty of Mixture-of-Experts at Inference

Cet article introduit l'inégalité $qs$ pour démontrer que les modèles à mélange d'experts (MoE), bien qu'efficaces à l'entraînement, subissent une double pénalité structurelle à l'inférence (fragmentation de la réutilisation des poids et saturation de la mémoire) qui les rend souvent moins performants que des modèles denses équivalents, surtout dans des contextes longs.

Vignesh Adhinarayanan, Nuwan JayasenaWed, 11 Ma🤖 cs.LG

Accelerating High-Order Finite Element Simulations at Extreme Scale with FP64 Tensor Cores

Ce papier présente la première utilisation des cœurs tensoriels FP64 des GPU NVIDIA, combinée à des optimisations de fusion de noyaux, pour accélérer significativement les simulations d'éléments finis d'ordre élevé à l'échelle exascale, offrant jusqu'à un doublement des performances et des gains d'efficacité énergétique de 83 % sur les architectures Grace Hopper et Grace Blackwell.

Jiqun Tu, Ian Karlin, John Camier, Veselin Dobrev, Tzanio Kolev, Stefan Henneking, Omar GhattasWed, 11 Ma💻 cs

Dynamic Precision Math Engine for Linear Algebra and Trigonometry Acceleration on Xtensa LX6 Microcontrollers

Cet article présente un moteur mathématique à précision dynamique pour le microcontrôleur ESP32, combinant une arithmétique en virgule fixe, un module CORDIC et une multiplication matricielle optimisée, permettant d'accélérer significativement les calculs trigonométriques et linéaires tout en offrant une commutation runtime entre précision fixe et flottante.

Elian Alfonso Lopez PreciadoWed, 11 Ma💻 cs

Compiler-First State Space Duality and Portable $O(1)$ Autoregressive Caching for Inference

Ce papier présente une implémentation de Mamba-2 entièrement compilée via XLA, éliminant la dépendance aux noyaux CUDA personnalisés pour permettre un cache autorégressif portable en $O(1)$ et des performances élevées sur CPU, GPU NVIDIA et TPU à partir d'une seule source JAX.

Cosmo SantoniWed, 11 Ma🤖 cs.AI

Multi-DNN Inference of Sparse Models on Edge SoCs

Ce papier présente SparseLoom, un système d'inférence multi-DNN pour SoCs de bord qui utilise une technique de « model stitching » pour recombiner des sous-graphes de modèles épars sans réentraînement, réduisant ainsi les violations d'objectifs de niveau de service et améliorant le débit par rapport aux systèmes existants.

Jiawei Luo, Di Wu, Simon Dobson, Blesson VargheseWed, 11 Ma🤖 cs.LG

A Lock-Free, Fully GPU-Resident Architecture for the Verification of Goldbach's Conjecture

Cet article présente une architecture entièrement résidente sur GPU et sans verrou qui, grâce à une migration complète du pipeline de génération de segments et à un mécanisme de vol de travail asynchrone, permet de vérifier la conjecture de Goldbach jusqu'à 10¹³ en seulement 133,5 secondes sur un cluster de quatre GPU, réalisant ainsi une accélération algorithmique de 45,6 fois par rapport aux méthodes précédentes.

Isaac Llorente-SaguerTue, 10 Ma🔢 math

DyLLM: Efficient Diffusion LLM Inference via Saliency-based Token Selection and Partial Attention

Le papier présente DyLLM, un cadre d'inférence sans entraînement qui accélère l'inférence des modèles de langage à diffusion en sélectionnant dynamiquement et en ne recalculant que les tokens saillants, permettant ainsi d'atteindre un débit jusqu'à 9,6 fois supérieur tout en préservant la précision.

Younjoo Lee, Junghoo Lee, Seungkyun Dan, Jaiyoung Park, Jung Ho AhnTue, 10 Ma💬 cs.CL

RedFuser: An Automatic Operator Fusion Framework for Cascaded Reductions on AI Accelerators

Ce papier présente RedFuser, un cadre de fusion automatique d'opérateurs conçu pour optimiser les réductions en cascade sur les accélérateurs d'IA en générant des noyaux exécutables qui surpassent les compilateurs actuels et rivalisent avec des implémentations manuelles.

Xinsheng Tang, Yangcheng Li, Nan Wang, Zhiyi Shu, Xingyu Ling, Junna Xing, Peng Zhou, Qiang LiuThu, 12 Ma🤖 cs.AI

RAGPerf: An End-to-End Benchmarking Framework for Retrieval-Augmented Generation Systems

Le papier présente RAGPerf, un cadre de référence open-source conçu pour évaluer de manière modulaire et automatisée les performances et la qualité des systèmes de génération augmentée par la récupération (RAG) en simulant des charges de travail réalistes et en mesurant des métriques d'efficacité et de précision.

Shaobo Li, Yirui Zhou, Yuan Xu, Kevin Chen, Daniel Waddington, Swaminathan Sundararaman, Hubertus Franke, Jian HuangThu, 12 Ma💻 cs

Linear Layouts: Robust Code Generation of Efficient Tensor Computation Using $\mathbb{F}_2$

Ce papier présente « Linear Layouts », une approche novatrice modélisant les agencements de tenseurs via l'algèbre linéaire sur $\mathbb{F}_2$ pour permettre une définition générique et des conversions efficaces, réduisant ainsi l'effort d'ingénierie et les bogues dans le backend du compilateur Triton.

Keren Zhou, Mario Lezcano, Adam Goucher, Akhmed Rakhmati, Jeff Niu, Justin Lebar, Pawel Szczerbuk, Peter Bell, Phil Tillet, Thomas Raoux, Zahi MoudallalMon, 09 Ma💻 cs

Reexamining Paradigms of End-to-End Data Movement

En s'appuyant sur des déploiements à l'échelle de la production, cette étude remet en cause la vision centrée sur le réseau en démontrant que les goulots d'étranglement de la performance résident souvent dans les facteurs hôtes et logiciels, et propose le modèle conceptuel du « Drainage Basin Pattern » pour optimiser le mouvement de données de bout en bout au-delà de la simple bande passante brute.

Chin Fang, Timothy Stitt, Michael J. McManus, Toshio MoriyaMon, 09 Ma💻 cs

Parallelization Strategies for Dense LLM Deployment: Navigating Through Application-Specific Tradeoffs and Bottlenecks

Cette étude examine les stratégies de parallélisation pour le déploiement de modèles de langage denses, démontrant que la parallélisation tensorielle optimise la latence tandis que la parallélisation pipeline favorise le débit, permettant ainsi de maîtriser le compromis entre les deux via une configuration hybride.

Burak Topcu, Musa Oguzhan Cim, Poovaiah Palangappa, Meena Arunachalam, Mahmut Taylan KandemirMon, 09 Ma🤖 cs.LG

Improving LLM Performance Through Black-Box Online Tuning: A Case for Adding System Specs to Factsheets for Trusted AI

Cet article présente un contrôleur en ligne en boîte noire optimisant le débit utile des LLM par hill climbing, et plaide pour l'intégration de métriques de performance et de durabilité dans les fiches techniques afin de renforcer la confiance dans les systèmes d'IA.

Yonas Atinafu, Henry Lin, Robin CohenFri, 13 Ma🤖 cs.AI

Concurrent Deterministic Skiplist and Other Data Structures

Cet article présente la conception, l'analyse et les performances d'une liste sautante déterministe concurrente sur des nœuds NUMA many-core, tout en évaluant des implémentations de files d'attente et de tables de hachage concurrentes comparées à la bibliothèque Intel TBB, et propose des stratégies de gestion de la mémoire et une utilisation hiérarchique des structures de données pour réduire les défauts de page, les ratés de cache et les accès mémoire distants.

Aparna Sasidharan2026-03-06💻 cs

Dynamic Model Routing and Cascading for Efficient LLM Inference: A Survey

Ce travail de recherche propose une analyse systématique des approches d'acheminement et de mise en cascade dynamiques entre plusieurs grands modèles de langage (LLM), présentant un cadre conceptuel pour optimiser l'efficacité et les performances de l'inférence en adaptant intelligemment le choix du modèle à la complexité des requêtes.

Yasmin Moslem, John D. Kelleher2026-03-06💻 cs

Unlocking Python's Cores: Hardware Usage and Energy Implications of Removing the GIL

Cette étude révèle que la version de Python 3.14.2 sans GIL offre des gains significatifs en temps d'exécution et en efficacité énergétique pour les charges de travail parallélisables, mais entraîne une surconsommation d'énergie pour les tâches séquentielles et une augmentation de l'empreinte mémoire due aux mécanismes de sécurité thread-safe.

José Daniel Montoya Salazar2026-03-06💻 cs

cs.PF