Unveiling the Potential of Quantization with MXFP4: Strategies for Quantization Error Reduction

Die Studie stellt zwei rein softwarebasierte Techniken, Overflow-Aware Scaling (OAS) und Macro Block Scaling (MBS), vor, die die Genauigkeit des MXFP4-Formats für Large Language Models signifikant verbessern und die Leistungslücke zu NVFP4 von durchschnittlich 10 % auf unter 1 % verringern, ohne Hardwareänderungen vorzunehmen.

Jatin Chhugani, Geonhwa Jeong, Bor-Yiing Su, Yunjie Pan, Hanmei Yang, Aayush Ankit, Jiecao Yu, Summer Deng, Yunqing Chen, Nadathur Satish, Changkyu KimWed, 11 Ma🤖 cs.AI

ARKV: Adaptive and Resource-Efficient KV Cache Management under Limited Memory Budget for Long-Context Inference in LLMs

Das Paper stellt ARKV vor, einen adaptiven und ressourceneffizienten Rahmen zur Verwaltung des KV-Caches bei Large Language Models, der durch dynamische Zuweisung von Präzisionsniveaus basierend auf Aufmerksamkeitsdynamiken und Token-Wichtigkeit die Speichernutzung um den Faktor vier reduziert, während die Genauigkeit bei langen Kontexten nahezu erhalten bleibt.

Jianlong Lei, Shashikant IlagerWed, 11 Ma🤖 cs.AI

The qsqs Inequality: Quantifying the Double Penalty of Mixture-of-Experts at Inference

Die Arbeit führt die qsqs-Ungleichung ein, um zu zeigen, dass Mixture-of-Experts-Modelle aufgrund einer doppelten Ineffizienz bei der Inferenz – nämlich fragmentierter Gewichtswiederverwendung und begrenztem HBM-Speicher für den KV-Cache – bei langen Kontexten strukturell gegenüber dichteren Modellen benachteiligt sind, was ihre Trainings-FLOP-Effizienz nicht auf die Laufzeitleistung überträgt.

Vignesh Adhinarayanan, Nuwan JayasenaWed, 11 Ma🤖 cs.LG

Accelerating High-Order Finite Element Simulations at Extreme Scale with FP64 Tensor Cores

Diese Arbeit demonstriert erstmals die direkte Programmierung von FP64-Tensor-Cores auf NVIDIA-GPUs zur Beschleunigung hochauflösender Finite-Elemente-Simulationen in der MFEM-Bibliothek, wodurch auf Exascale-Systemen bis zu eine Verdopplung der Leistung und signifikante Energieeffizienzgewinne erzielt werden.

Jiqun Tu, Ian Karlin, John Camier, Veselin Dobrev, Tzanio Kolev, Stefan Henneking, Omar GhattasWed, 11 Ma💻 cs

Dynamic Precision Math Engine for Linear Algebra and Trigonometry Acceleration on Xtensa LX6 Microcontrollers

Diese Arbeit stellt einen dynamischen Präzisions-Rechenmotor für ESP32-Mikrocontroller vor, der durch die Kombination von Q16.16-Festkomma-Arithmetik, einem CORDIC-Trigonometriemodul und einem cache-optimierten Matrixmultiplikationskern die Rechengeschwindigkeit für lineare Algebra und Trigonometrie im Vergleich zur Standard-Bibliothek um das 18- bis 25-fache steigert, während eine Laufzeit-Precision-Schaltung den nahtlosen Wechsel zwischen fester und Gleitkommapräzision ermöglicht.

Elian Alfonso Lopez PreciadoWed, 11 Ma💻 cs

Multi-DNN Inference of Sparse Models on Edge SoCs

Die Arbeit stellt SparseLoom vor, ein Demonstratorsystem für Edge-SoCs, das durch eine neuartige „Model Stitching"-Methode zur rekombinierenden Erstellung von Modellvarianten ohne Nachtraining die SLO-Verletzungsraten um bis zu 74 % senkt, den Durchsatz um das 2,31-Fache steigert und den Speicherbedarf im Vergleich zu bestehenden Multi-DNN-Inferenzsystemen um durchschnittlich 28 % reduziert.

Jiawei Luo, Di Wu, Simon Dobson, Blesson VargheseWed, 11 Ma🤖 cs.LG

A Lock-Free, Fully GPU-Resident Architecture for the Verification of Goldbach's Conjecture

Die vorgestellte Arbeit stellt eine vollständig GPU-residente, sperrenfreie Multi-GPU-Architektur vor, die durch den vollständigen Umzug des Sieb-Generierungsprozesses auf die GPU und die Einführung eines asynchronen Work-Stealing-Pools die Goldbach-Vermutung bis zu $10^{13}$ mit einer Geschwindigkeit von 133,5 Sekunden auf einem Vier-GPU-System verifiziert und dabei eine algorithmische Beschleunigung von 45,6-fach gegenüber vorherigen Ansätzen erreicht.

Isaac Llorente-SaguerTue, 10 Ma🔢 math

DyLLM: Efficient Diffusion LLM Inference via Saliency-based Token Selection and Partial Attention

Das Paper stellt DyLLM vor, ein trainingsfreies Inferenz-Framework für Masked Diffusion Language Models, das durch die selektive Berechnung nur salienter Token basierend auf der Ähnlichkeit ihrer Aufmerksamkeitskontexte die Durchsatzrate um bis zu 9,6-fach steigert, ohne dabei die Genauigkeit nennenswert zu beeinträchtigen.

Younjoo Lee, Junghoo Lee, Seungkyun Dan, Jaiyoung Park, Jung Ho AhnTue, 10 Ma💬 cs.CL

RAGPerf: An End-to-End Benchmarking Framework for Retrieval-Augmented Generation Systems

Das Paper stellt RAGPerf vor, ein Open-Source-Framework zur umfassenden End-to-End-Leistungsbewertung von Retrieval-Augmented-Generation-Systemen, das durch modulare Komponenten, flexible Konfiguration und automatisierte Metrikenerfassung detaillierte Analysen ermöglicht, ohne nennenswerten Overhead zu verursachen.

Shaobo Li, Yirui Zhou, Yuan Xu, Kevin Chen, Daniel Waddington, Swaminathan Sundararaman, Hubertus Franke, Jian HuangThu, 12 Ma💻 cs

Linear Layouts: Robust Code Generation of Efficient Tensor Computation Using F2\mathbb{F}_2

Die Arbeit stellt „Linear Layouts" vor, einen neuartigen Ansatz zur effizienten Generierung von Tensor-Berechnungen, der Tensor-Layouts mithilfe linearer Algebra über F2\mathbb{F}_2 modelliert, um eine generische Definition und Konvertierung zu ermöglichen, den Engineering-Aufwand zu reduzieren und die Leistung von Triton-Operatoren zu optimieren.

Keren Zhou, Mario Lezcano, Adam Goucher, Akhmed Rakhmati, Jeff Niu, Justin Lebar, Pawel Szczerbuk, Peter Bell, Phil Tillet, Thomas Raoux, Zahi MoudallalMon, 09 Ma💻 cs

Reexamining Paradigms of End-to-End Data Movement

Diese Studie widerlegt die verbreitete Annahme, dass hohe Netzwerkbandbreite allein für performante Datenübertragung ausreicht, und zeigt durch die Einführung des „Drainage Basin Pattern"-Modells sowie umfangreiche Produktionstests, dass Engpässe häufig außerhalb des Netzwerks liegen und eine ganzheitliche Hardware-Software-Ko-Design-Strategie für zuverlässige Datenbewegung in großem Maßstab erforderlich ist.

Chin Fang, Timothy Stitt, Michael J. McManus, Toshio MoriyaMon, 09 Ma💻 cs

Parallelization Strategies for Dense LLM Deployment: Navigating Through Application-Specific Tradeoffs and Bottlenecks

Diese Arbeit untersucht Parallelisierungsstrategien für die Bereitstellung dichter LLMs, indem sie zeigt, dass Tensor-Parallelismus die Latenz verbessert, während Pipeline-Parallelismus den Durchsatz optimiert, und wie deren hybride Kombination einen gezielten Kompromiss zwischen diesen beiden Leistungszielen ermöglicht.

Burak Topcu, Musa Oguzhan Cim, Poovaiah Palangappa, Meena Arunachalam, Mahmut Taylan KandemirMon, 09 Ma🤖 cs.LG

Concurrent Deterministic Skiplist and Other Data Structures

Diese Arbeit stellt den Entwurf, die Analyse und die Leistung eines deterministischen, nebenläufigen Skiplists auf vielen NUMA-Kernen vor, bewertet weitere nebenläufige Datenstrukturen im Vergleich zu Intels TBB-Bibliothek und schlägt Strategien für das Speichermanagement sowie eine hierarchische Nutzung dieser Strukturen vor, um Speicherlatenzen durch die Reduzierung von Zugriffen auf entfernte NUMA-Knoten zu verringern.

Aparna Sasidharan2026-03-06💻 cs

Unlocking Python's Cores: Hardware Usage and Energy Implications of Removing the GIL

Die Studie zeigt, dass das experimentelle Deaktivieren des Global Interpreter Locks (GIL) in Python 3.14.2 bei parallelisierbaren Workloads die Ausführungszeit und den Energieverbrauch signifikant senken kann, jedoch bei sequenziellen Aufgaben oder häufigen Objektzugriffen zu höherem Energieverbrauch und erhöhtem Speicherverbrauch führt, was eine sorgfältige Evaluierung der spezifischen Arbeitslast vor einer Einführung erfordert.

José Daniel Montoya Salazar2026-03-06💻 cs