Unveiling the Potential of Quantization with MXFP4: Strategies for Quantization Error Reduction

Il paper introduce due tecniche software, Overflow-Aware Scaling e Macro Block Scaling, che riducono drasticamente il divario di accuratezza tra il formato MXFP4 e NVFP4 nei grandi modelli linguistici, rendendo MXFP4 un'alternativa pratica ed efficiente dal punto di vista hardware senza richiedere modifiche all'hardware.

Jatin Chhugani, Geonhwa Jeong, Bor-Yiing Su, Yunjie Pan, Hanmei Yang, Aayush Ankit, Jiecao Yu, Summer Deng, Yunqing Chen, Nadathur Satish, Changkyu KimWed, 11 Ma🤖 cs.AI

The qsqs Inequality: Quantifying the Double Penalty of Mixture-of-Experts at Inference

Il paper introduce la disuguaglianza qsqs, un criterio predittivo che dimostra come le architetture Mixture-of-Experts subiscano una "doppia penalità" strutturale durante l'inferenza a causa della frammentazione della memoria e del routing, rendendole spesso meno efficienti rispetto a modelli densi di qualità equivalente, specialmente in contesti lunghi.

Vignesh Adhinarayanan, Nuwan JayasenaWed, 11 Ma🤖 cs.LG

Accelerating High-Order Finite Element Simulations at Extreme Scale with FP64 Tensor Cores

Questo articolo presenta la prima applicazione diretta dei tensor core FP64 su GPU NVIDIA per accelerare simulazioni agli elementi finiti di alto ordine, ottenendo significativi miglioramenti nelle prestazioni e nell'efficienza energetica su larga scala e integrandoli nella libreria MFEM per applicazioni critiche come la previsione di tsunami in tempo reale.

Jiqun Tu, Ian Karlin, John Camier, Veselin Dobrev, Tzanio Kolev, Stefan Henneking, Omar GhattasWed, 11 Ma💻 cs

Dynamic Precision Math Engine for Linear Algebra and Trigonometry Acceleration on Xtensa LX6 Microcontrollers

Questo articolo presenta un motore di calcolo matematico a precisione dinamica per microcontrollori Xtensa LX6 come l'ESP32, che combina un'aritmetica in punto fisso, un modulo CORDIC e una moltiplicazione di matrici ottimizzata per ottenere accelerazioni fino a 24,7 volte rispetto alle librerie standard, permettendo un cambio di precisione in tempo reale senza ricompilazione.

Elian Alfonso Lopez PreciadoWed, 11 Ma💻 cs

A Lock-Free, Fully GPU-Resident Architecture for the Verification of Goldbach's Conjecture

Questo articolo presenta un'architettura completamente residente su GPU e priva di blocchi che, migrando l'intera pipeline di generazione dei segmenti sul dispositivo e introducendo un pool di lavoro asincrono, verifica la congettura di Goldbach fino a $10^{13}$ in 133,5 secondi su un cluster di quattro GPU, ottenendo un'accelerazione di 45,6 volte rispetto alle soluzioni precedenti.

Isaac Llorente-SaguerTue, 10 Ma🔢 math

RAGPerf: An End-to-End Benchmarking Framework for Retrieval-Augmented Generation Systems

Il paper presenta RAGPerf, un framework open source end-to-end per il benchmarking dei sistemi di Retrieval-Augmented Generation che, decodificando il flusso di lavoro in componenti modulari, permette un'analisi dettagliata delle prestazioni e della qualità attraverso la configurazione flessibile di modelli, database vettoriali e carichi di lavoro realistici.

Shaobo Li, Yirui Zhou, Yuan Xu, Kevin Chen, Daniel Waddington, Swaminathan Sundararaman, Hubertus Franke, Jian HuangThu, 12 Ma💻 cs

Linear Layouts: Robust Code Generation of Efficient Tensor Computation Using F2\mathbb{F}_2

Il paper introduce "Linear Layouts", un approccio innovativo che modella le disposizioni dei tensori tramite algebra lineare su F2\mathbb{F}_2 per generare codice efficiente, offrire definizioni generiche e conversioni flessibili, riducendo l'errore umano e i costi computazionali nell'integrazione con Triton.

Keren Zhou, Mario Lezcano, Adam Goucher, Akhmed Rakhmati, Jeff Niu, Justin Lebar, Pawel Szczerbuk, Peter Bell, Phil Tillet, Thomas Raoux, Zahi MoudallalMon, 09 Ma💻 cs

Parallelization Strategies for Dense LLM Deployment: Navigating Through Application-Specific Tradeoffs and Bottlenecks

Questo studio analizza le strategie di parallelizzazione per il deployment di modelli LLM densi, evidenziando come l'uso combinato del parallelismo tensoriale e pipeline permetta di gestire i compromessi tra latenza e throughput in base ai requisiti specifici dell'applicazione.

Burak Topcu, Musa Oguzhan Cim, Poovaiah Palangappa, Meena Arunachalam, Mahmut Taylan KandemirMon, 09 Ma🤖 cs.LG

Concurrent Deterministic Skiplist and Other Data Structures

Questo articolo presenta la progettazione, l'analisi e le prestazioni di una skip list deterministica concorrente su nodi NUMA many-core, valutando inoltre code senza lock e tabelle hash concorrenti confrontate con la libreria Intel TBB, mentre introduce strategie di gestione della memoria e un uso gerarchico delle strutture dati per ridurre i fault di pagina, i miss nella cache e le latenze di accesso alla memoria remota.

Aparna Sasidharan2026-03-06💻 cs

Unlocking Python's Cores: Hardware Usage and Energy Implications of Removing the GIL

Questo studio dimostra che la rimozione del GIL in Python 3.14.2 offre significativi vantaggi di velocità ed efficienza energetica solo per carichi di lavoro paralleli indipendenti, mentre comporta un aumento del consumo energetico e della memoria per le attività sequenziali o con forte contenzione, suggerendo che il suo utilizzo non sia universalmente vantaggioso ma dipenda dalla natura del carico di lavoro.

José Daniel Montoya Salazar2026-03-06💻 cs