cs.PF Arbeiten | Gist.Science

Unveiling the Potential of Quantization with MXFP4: Strategies for Quantization Error Reduction

Die Studie stellt zwei rein softwarebasierte Techniken, Overflow-Aware Scaling (OAS) und Macro Block Scaling (MBS), vor, die die Genauigkeit des MXFP4-Formats für Large Language Models signifikant verbessern und die Leistungslücke zu NVFP4 von durchschnittlich 10 % auf unter 1 % verringern, ohne Hardwareänderungen vorzunehmen.

Jatin Chhugani, Geonhwa Jeong, Bor-Yiing Su, Yunjie Pan, Hanmei Yang, Aayush Ankit, Jiecao Yu, Summer Deng, Yunqing Chen, Nadathur Satish, Changkyu KimWed, 11 Ma🤖 cs.AI

ARKV: Adaptive and Resource-Efficient KV Cache Management under Limited Memory Budget for Long-Context Inference in LLMs

Das Paper stellt ARKV vor, einen adaptiven und ressourceneffizienten Rahmen zur Verwaltung des KV-Caches bei Large Language Models, der durch dynamische Zuweisung von Präzisionsniveaus basierend auf Aufmerksamkeitsdynamiken und Token-Wichtigkeit die Speichernutzung um den Faktor vier reduziert, während die Genauigkeit bei langen Kontexten nahezu erhalten bleibt.

Jianlong Lei, Shashikant IlagerWed, 11 Ma🤖 cs.AI

ChatNeuroSim: An LLM Agent Framework for Automated Compute-in-Memory Accelerator Deployment and Optimization

Die Arbeit stellt ChatNeuroSim vor, ein Framework auf Basis von Large Language Models, das den gesamten Workflow für die Bereitstellung und Optimierung von Compute-in-Memory-Beschleunigern automatisiert und durch Design-Space-Pruning die Identifizierung optimaler Konfigurationen für DNN-Workloads erheblich beschleunigt.

Ming-Yen Lee, Shimeng YuWed, 11 Ma💻 cs

bsort: A theoretically efficient non-comparison-based sorting algorithm for integer and floating-point numbers

Die Arbeit stellt bsort vor, einen theoretisch effizienten, nicht-vergleichsbasierten Sortieralgorithmus für Ganzzahlen und Gleitkommazahlen, der durch eine von Binärschnellsortieren abgeleitete Methode eine Laufzeit von $O(wn)$ und einen zusätzlichen Speicherbedarf von $O(w)$ erreicht.

Benjamín GuzmánWed, 11 Ma💻 cs

The $qs$ Inequality: Quantifying the Double Penalty of Mixture-of-Experts at Inference

Die Arbeit führt die $qs$ -Ungleichung ein, um zu zeigen, dass Mixture-of-Experts-Modelle aufgrund einer doppelten Ineffizienz bei der Inferenz – nämlich fragmentierter Gewichtswiederverwendung und begrenztem HBM-Speicher für den KV-Cache – bei langen Kontexten strukturell gegenüber dichteren Modellen benachteiligt sind, was ihre Trainings-FLOP-Effizienz nicht auf die Laufzeitleistung überträgt.

Vignesh Adhinarayanan, Nuwan JayasenaWed, 11 Ma🤖 cs.LG

Accelerating High-Order Finite Element Simulations at Extreme Scale with FP64 Tensor Cores

Diese Arbeit demonstriert erstmals die direkte Programmierung von FP64-Tensor-Cores auf NVIDIA-GPUs zur Beschleunigung hochauflösender Finite-Elemente-Simulationen in der MFEM-Bibliothek, wodurch auf Exascale-Systemen bis zu eine Verdopplung der Leistung und signifikante Energieeffizienzgewinne erzielt werden.

Jiqun Tu, Ian Karlin, John Camier, Veselin Dobrev, Tzanio Kolev, Stefan Henneking, Omar GhattasWed, 11 Ma💻 cs

Dynamic Precision Math Engine for Linear Algebra and Trigonometry Acceleration on Xtensa LX6 Microcontrollers

Diese Arbeit stellt einen dynamischen Präzisions-Rechenmotor für ESP32-Mikrocontroller vor, der durch die Kombination von Q16.16-Festkomma-Arithmetik, einem CORDIC-Trigonometriemodul und einem cache-optimierten Matrixmultiplikationskern die Rechengeschwindigkeit für lineare Algebra und Trigonometrie im Vergleich zur Standard-Bibliothek um das 18- bis 25-fache steigert, während eine Laufzeit-Precision-Schaltung den nahtlosen Wechsel zwischen fester und Gleitkommapräzision ermöglicht.

Elian Alfonso Lopez PreciadoWed, 11 Ma💻 cs

Compiler-First State Space Duality and Portable $O(1)$ Autoregressive Caching for Inference

Diese Arbeit demonstriert, dass sich Mamba-2 durch compilerbasierte XLA-Optimierungen ohne handgeschriebene CUDA-Kernels effizient auf CPU, NVIDIA-GPUs und TPUs portieren lässt, wodurch eine theoretische $O(1)$ -Zustandsverwaltung und hardwareunabhängige Inferenz mit hoher Leistung erreicht werden.

Cosmo SantoniWed, 11 Ma🤖 cs.AI

Multi-DNN Inference of Sparse Models on Edge SoCs

Die Arbeit stellt SparseLoom vor, ein Demonstratorsystem für Edge-SoCs, das durch eine neuartige „Model Stitching"-Methode zur rekombinierenden Erstellung von Modellvarianten ohne Nachtraining die SLO-Verletzungsraten um bis zu 74 % senkt, den Durchsatz um das 2,31-Fache steigert und den Speicherbedarf im Vergleich zu bestehenden Multi-DNN-Inferenzsystemen um durchschnittlich 28 % reduziert.

Jiawei Luo, Di Wu, Simon Dobson, Blesson VargheseWed, 11 Ma🤖 cs.LG

A Lock-Free, Fully GPU-Resident Architecture for the Verification of Goldbach's Conjecture

Die vorgestellte Arbeit stellt eine vollständig GPU-residente, sperrenfreie Multi-GPU-Architektur vor, die durch den vollständigen Umzug des Sieb-Generierungsprozesses auf die GPU und die Einführung eines asynchronen Work-Stealing-Pools die Goldbach-Vermutung bis zu $10^{13}$ mit einer Geschwindigkeit von 133,5 Sekunden auf einem Vier-GPU-System verifiziert und dabei eine algorithmische Beschleunigung von 45,6-fach gegenüber vorherigen Ansätzen erreicht.

Isaac Llorente-SaguerTue, 10 Ma🔢 math

DyLLM: Efficient Diffusion LLM Inference via Saliency-based Token Selection and Partial Attention

Das Paper stellt DyLLM vor, ein trainingsfreies Inferenz-Framework für Masked Diffusion Language Models, das durch die selektive Berechnung nur salienter Token basierend auf der Ähnlichkeit ihrer Aufmerksamkeitskontexte die Durchsatzrate um bis zu 9,6-fach steigert, ohne dabei die Genauigkeit nennenswert zu beeinträchtigen.

Younjoo Lee, Junghoo Lee, Seungkyun Dan, Jaiyoung Park, Jung Ho AhnTue, 10 Ma💬 cs.CL

RedFuser: An Automatic Operator Fusion Framework for Cascaded Reductions on AI Accelerators

Das Paper stellt RedFuser vor, ein automatisches Framework, das mithilfe einer formalen theoretischen Methode kaskadierte Reduktionsoperationen in AI-Beschleunigern effizient fusioniert und damit im Vergleich zu aktuellen Compilern Geschwindigkeitssteigerungen von bis zu 5-fach erzielt.

Xinsheng Tang, Yangcheng Li, Nan Wang, Zhiyi Shu, Xingyu Ling, Junna Xing, Peng Zhou, Qiang LiuThu, 12 Ma🤖 cs.AI

RAGPerf: An End-to-End Benchmarking Framework for Retrieval-Augmented Generation Systems

Das Paper stellt RAGPerf vor, ein Open-Source-Framework zur umfassenden End-to-End-Leistungsbewertung von Retrieval-Augmented-Generation-Systemen, das durch modulare Komponenten, flexible Konfiguration und automatisierte Metrikenerfassung detaillierte Analysen ermöglicht, ohne nennenswerten Overhead zu verursachen.

Shaobo Li, Yirui Zhou, Yuan Xu, Kevin Chen, Daniel Waddington, Swaminathan Sundararaman, Hubertus Franke, Jian HuangThu, 12 Ma💻 cs

Linear Layouts: Robust Code Generation of Efficient Tensor Computation Using $\mathbb{F}_2$

Die Arbeit stellt „Linear Layouts" vor, einen neuartigen Ansatz zur effizienten Generierung von Tensor-Berechnungen, der Tensor-Layouts mithilfe linearer Algebra über $\mathbb{F}_2$ modelliert, um eine generische Definition und Konvertierung zu ermöglichen, den Engineering-Aufwand zu reduzieren und die Leistung von Triton-Operatoren zu optimieren.

Keren Zhou, Mario Lezcano, Adam Goucher, Akhmed Rakhmati, Jeff Niu, Justin Lebar, Pawel Szczerbuk, Peter Bell, Phil Tillet, Thomas Raoux, Zahi MoudallalMon, 09 Ma💻 cs

Reexamining Paradigms of End-to-End Data Movement

Diese Studie widerlegt die verbreitete Annahme, dass hohe Netzwerkbandbreite allein für performante Datenübertragung ausreicht, und zeigt durch die Einführung des „Drainage Basin Pattern"-Modells sowie umfangreiche Produktionstests, dass Engpässe häufig außerhalb des Netzwerks liegen und eine ganzheitliche Hardware-Software-Ko-Design-Strategie für zuverlässige Datenbewegung in großem Maßstab erforderlich ist.

Chin Fang, Timothy Stitt, Michael J. McManus, Toshio MoriyaMon, 09 Ma💻 cs

Parallelization Strategies for Dense LLM Deployment: Navigating Through Application-Specific Tradeoffs and Bottlenecks

Diese Arbeit untersucht Parallelisierungsstrategien für die Bereitstellung dichter LLMs, indem sie zeigt, dass Tensor-Parallelismus die Latenz verbessert, während Pipeline-Parallelismus den Durchsatz optimiert, und wie deren hybride Kombination einen gezielten Kompromiss zwischen diesen beiden Leistungszielen ermöglicht.

Burak Topcu, Musa Oguzhan Cim, Poovaiah Palangappa, Meena Arunachalam, Mahmut Taylan KandemirMon, 09 Ma🤖 cs.LG

Improving LLM Performance Through Black-Box Online Tuning: A Case for Adding System Specs to Factsheets for Trusted AI

Diese Arbeit stellt einen neuen Black-Box-Online-Controller vor, der durch End-to-End-Messungen und Hill-Climbing den Goodput von LLMs maximiert, und nutzt dieses Beispiel, um die Notwendigkeit zu unterstreichen, Leistungs- und Nachhaltigkeitsmetriken in AI-Factsheets zu integrieren.

Yonas Atinafu, Henry Lin, Robin CohenFri, 13 Ma🤖 cs.AI

Concurrent Deterministic Skiplist and Other Data Structures

Diese Arbeit stellt den Entwurf, die Analyse und die Leistung eines deterministischen, nebenläufigen Skiplists auf vielen NUMA-Kernen vor, bewertet weitere nebenläufige Datenstrukturen im Vergleich zu Intels TBB-Bibliothek und schlägt Strategien für das Speichermanagement sowie eine hierarchische Nutzung dieser Strukturen vor, um Speicherlatenzen durch die Reduzierung von Zugriffen auf entfernte NUMA-Knoten zu verringern.

Aparna Sasidharan2026-03-06💻 cs

Dynamic Model Routing and Cascading for Efficient LLM Inference: A Survey

Diese Arbeit bietet eine systematische Analyse und ein konzeptionelles Rahmenwerk für dynamische Routing- und Kaskadierungssysteme, die durch die adaptive Auswahl verschiedener unabhängiger Large Language Models je nach Anfragekomplexität die Inferenzeffizienz optimieren und dabei die Leistungsfähigkeit einzelner Modelle übertreffen können.

Yasmin Moslem, John D. Kelleher2026-03-06💻 cs

Unlocking Python's Cores: Hardware Usage and Energy Implications of Removing the GIL

Die Studie zeigt, dass das experimentelle Deaktivieren des Global Interpreter Locks (GIL) in Python 3.14.2 bei parallelisierbaren Workloads die Ausführungszeit und den Energieverbrauch signifikant senken kann, jedoch bei sequenziellen Aufgaben oder häufigen Objektzugriffen zu höherem Energieverbrauch und erhöhtem Speicherverbrauch führt, was eine sorgfältige Evaluierung der spezifischen Arbeitslast vor einer Einführung erfordert.

José Daniel Montoya Salazar2026-03-06💻 cs

Weiter →

cs.PF