cs.PF articoli | Gist.Science

Unveiling the Potential of Quantization with MXFP4: Strategies for Quantization Error Reduction

Il paper introduce due tecniche software, Overflow-Aware Scaling e Macro Block Scaling, che riducono drasticamente il divario di accuratezza tra il formato MXFP4 e NVFP4 nei grandi modelli linguistici, rendendo MXFP4 un'alternativa pratica ed efficiente dal punto di vista hardware senza richiedere modifiche all'hardware.

Jatin Chhugani, Geonhwa Jeong, Bor-Yiing Su, Yunjie Pan, Hanmei Yang, Aayush Ankit, Jiecao Yu, Summer Deng, Yunqing Chen, Nadathur Satish, Changkyu KimWed, 11 Ma🤖 cs.AI

ARKV: Adaptive and Resource-Efficient KV Cache Management under Limited Memory Budget for Long-Context Inference in LLMs

Il paper presenta ARKV, un framework adattivo e leggero che ottimizza la gestione della cache KV per l'inferenza di LLM in contesti lunghi, riducendo l'uso di memoria GPU di 4 volte mantenendo il 97% dell'accuratezza di base senza richiedere riaddestramento o modifiche architetturali.

Jianlong Lei, Shashikant IlagerWed, 11 Ma🤖 cs.AI

ChatNeuroSim: An LLM Agent Framework for Automated Compute-in-Memory Accelerator Deployment and Optimization

Il paper presenta ChatNeuroSim, un framework basato su agenti LLM che automatizza il deployment e l'ottimizzazione degli acceleratori Compute-in-Memory, riducendo significativamente il tempo necessario per l'esplorazione dello spazio di progettazione e l'identificazione delle configurazioni ottimali per carichi di lavoro DNN.

Ming-Yen Lee, Shimeng YuWed, 11 Ma💻 cs

bsort: A theoretically efficient non-comparison-based sorting algorithm for integer and floating-point numbers

Il documento presenta bsort, un algoritmo di ordinamento non basato su confronti per interi e numeri in virgola mobile che unifica i casi di segno e floating-point tramite un approccio derivato dal binary quicksort, ottenendo una complessità temporale di $O(wn)$ e uno spazio ausiliario di $O(w)$ .

Benjamín GuzmánWed, 11 Ma💻 cs

The $qs$ Inequality: Quantifying the Double Penalty of Mixture-of-Experts at Inference

Il paper introduce la disuguaglianza $qs$ , un criterio predittivo che dimostra come le architetture Mixture-of-Experts subiscano una "doppia penalità" strutturale durante l'inferenza a causa della frammentazione della memoria e del routing, rendendole spesso meno efficienti rispetto a modelli densi di qualità equivalente, specialmente in contesti lunghi.

Vignesh Adhinarayanan, Nuwan JayasenaWed, 11 Ma🤖 cs.LG

Accelerating High-Order Finite Element Simulations at Extreme Scale with FP64 Tensor Cores

Questo articolo presenta la prima applicazione diretta dei tensor core FP64 su GPU NVIDIA per accelerare simulazioni agli elementi finiti di alto ordine, ottenendo significativi miglioramenti nelle prestazioni e nell'efficienza energetica su larga scala e integrandoli nella libreria MFEM per applicazioni critiche come la previsione di tsunami in tempo reale.

Jiqun Tu, Ian Karlin, John Camier, Veselin Dobrev, Tzanio Kolev, Stefan Henneking, Omar GhattasWed, 11 Ma💻 cs

Dynamic Precision Math Engine for Linear Algebra and Trigonometry Acceleration on Xtensa LX6 Microcontrollers

Questo articolo presenta un motore di calcolo matematico a precisione dinamica per microcontrollori Xtensa LX6 come l'ESP32, che combina un'aritmetica in punto fisso, un modulo CORDIC e una moltiplicazione di matrici ottimizzata per ottenere accelerazioni fino a 24,7 volte rispetto alle librerie standard, permettendo un cambio di precisione in tempo reale senza ricompilazione.

Elian Alfonso Lopez PreciadoWed, 11 Ma💻 cs

Compiler-First State Space Duality and Portable $O(1)$ Autoregressive Caching for Inference

Questo lavoro dimostra che l'implementazione di Mamba-2 utilizzando esclusivamente primitive standard XLA, senza kernel personalizzati, abilita un caching autoregressivo portatile e a complessità $O(1)$ che raggiunge prestazioni elevate su CPU, GPU NVIDIA e TPU mantenendo la compatibilità numerica con le implementazioni CUDA di riferimento.

Cosmo SantoniWed, 11 Ma🤖 cs.AI

Multi-DNN Inference of Sparse Models on Edge SoCs

Il paper introduce SparseLoom, un sistema dimostrativo che utilizza la "model stitching" per ricombinare sottografi di modelli sparsi senza riaddestramento, permettendo l'inferenza multi-DNN su SoC edge e riducendo significativamente le violazioni degli SLO, migliorando il throughput e diminuendo l'overhead di memoria rispetto agli stati dell'arte.

Jiawei Luo, Di Wu, Simon Dobson, Blesson VargheseWed, 11 Ma🤖 cs.LG

A Lock-Free, Fully GPU-Resident Architecture for the Verification of Goldbach's Conjecture

Questo articolo presenta un'architettura completamente residente su GPU e priva di blocchi che, migrando l'intera pipeline di generazione dei segmenti sul dispositivo e introducendo un pool di lavoro asincrono, verifica la congettura di Goldbach fino a $10^{13}$ in 133,5 secondi su un cluster di quattro GPU, ottenendo un'accelerazione di 45,6 volte rispetto alle soluzioni precedenti.

Isaac Llorente-SaguerTue, 10 Ma🔢 math

DyLLM: Efficient Diffusion LLM Inference via Saliency-based Token Selection and Partial Attention

Il paper introduce DyLLM, un framework di inferenza senza addestramento che accelera l'elaborazione dei Modelli Linguistici a Diffusione Mascherata selezionando dinamicamente solo i token salienti da ricalcolare, ottenendo un aumento del throughput fino a 9,6 volte mantenendo l'accuratezza dei modelli di base.

Younjoo Lee, Junghoo Lee, Seungkyun Dan, Jaiyoung Park, Jung Ho AhnTue, 10 Ma💬 cs.CL

RedFuser: An Automatic Operator Fusion Framework for Cascaded Reductions on AI Accelerators

Il paper presenta RedFuser, un framework automatico che ottimizza le prestazioni degli acceleratori AI fondendo in un singolo ciclo le operazioni di riduzione concatenate, superando i limiti dei compilatori esistenti e raggiungendo velocità fino a 5 volte superiori.

Xinsheng Tang, Yangcheng Li, Nan Wang, Zhiyi Shu, Xingyu Ling, Junna Xing, Peng Zhou, Qiang LiuThu, 12 Ma🤖 cs.AI

RAGPerf: An End-to-End Benchmarking Framework for Retrieval-Augmented Generation Systems

Il paper presenta RAGPerf, un framework open source end-to-end per il benchmarking dei sistemi di Retrieval-Augmented Generation che, decodificando il flusso di lavoro in componenti modulari, permette un'analisi dettagliata delle prestazioni e della qualità attraverso la configurazione flessibile di modelli, database vettoriali e carichi di lavoro realistici.

Shaobo Li, Yirui Zhou, Yuan Xu, Kevin Chen, Daniel Waddington, Swaminathan Sundararaman, Hubertus Franke, Jian HuangThu, 12 Ma💻 cs

Linear Layouts: Robust Code Generation of Efficient Tensor Computation Using $\mathbb{F}_2$

Il paper introduce "Linear Layouts", un approccio innovativo che modella le disposizioni dei tensori tramite algebra lineare su $\mathbb{F}_2$ per generare codice efficiente, offrire definizioni generiche e conversioni flessibili, riducendo l'errore umano e i costi computazionali nell'integrazione con Triton.

Keren Zhou, Mario Lezcano, Adam Goucher, Akhmed Rakhmati, Jeff Niu, Justin Lebar, Pawel Szczerbuk, Peter Bell, Phil Tillet, Thomas Raoux, Zahi MoudallalMon, 09 Ma💻 cs

Reexamining Paradigms of End-to-End Data Movement

Questo paper esamina sei paradigmi che influenzano il trasferimento dati, introducendo il modello "Drainage Basin Pattern" per dimostrare come i colli di bottiglia risiedano spesso al di fuori della rete centrale e come un approccio olistico hardware-software sia essenziale per garantire prestazioni prevedibili su larga scala.

Chin Fang, Timothy Stitt, Michael J. McManus, Toshio MoriyaMon, 09 Ma💻 cs

Parallelization Strategies for Dense LLM Deployment: Navigating Through Application-Specific Tradeoffs and Bottlenecks

Questo studio analizza le strategie di parallelizzazione per il deployment di modelli LLM densi, evidenziando come l'uso combinato del parallelismo tensoriale e pipeline permetta di gestire i compromessi tra latenza e throughput in base ai requisiti specifici dell'applicazione.

Burak Topcu, Musa Oguzhan Cim, Poovaiah Palangappa, Meena Arunachalam, Mahmut Taylan KandemirMon, 09 Ma🤖 cs.LG

Improving LLM Performance Through Black-Box Online Tuning: A Case for Adding System Specs to Factsheets for Trusted AI

Il paper presenta un innovativo controller online a scatola nera che massimizza il goodput dei modelli linguistici tramite misurazioni end-to-end e arrampicata su collina, utilizzando questo caso studio per sostenere l'integrazione di metriche di prestazioni e sostenibilità nei Factsheet per l'IA affidabile.

Yonas Atinafu, Henry Lin, Robin CohenFri, 13 Ma🤖 cs.AI

Concurrent Deterministic Skiplist and Other Data Structures

Questo articolo presenta la progettazione, l'analisi e le prestazioni di una skip list deterministica concorrente su nodi NUMA many-core, valutando inoltre code senza lock e tabelle hash concorrenti confrontate con la libreria Intel TBB, mentre introduce strategie di gestione della memoria e un uso gerarchico delle strutture dati per ridurre i fault di pagina, i miss nella cache e le latenze di accesso alla memoria remota.

Aparna Sasidharan2026-03-06💻 cs

Dynamic Model Routing and Cascading for Efficient LLM Inference: A Survey

Questa rassegna sistematica analizza le strategie di routing dinamico e cascading tra diversi modelli linguistici di grandi dimensioni (LLM), proponendo un quadro concettuale per ottimizzare il compromesso tra costi computazionali e prestazioni adattando la selezione del modello alla complessità della query.

Yasmin Moslem, John D. Kelleher2026-03-06💻 cs

Unlocking Python's Cores: Hardware Usage and Energy Implications of Removing the GIL

Questo studio dimostra che la rimozione del GIL in Python 3.14.2 offre significativi vantaggi di velocità ed efficienza energetica solo per carichi di lavoro paralleli indipendenti, mentre comporta un aumento del consumo energetico e della memoria per le attività sequenziali o con forte contenzione, suggerendo che il suo utilizzo non sia universalmente vantaggioso ma dipenda dalla natura del carico di lavoro.

José Daniel Montoya Salazar2026-03-06💻 cs

cs.PF