cs.PF papers | Gist.Science

Unveiling the Potential of Quantization with MXFP4: Strategies for Quantization Error Reduction

Dit paper introduceert twee software-only technieken, Overflow-Aware Scaling en Macro Block Scaling, die de nauwkeurigheidskloof tussen het MXFP4- en NVFP4-quantisatieformaat voor grote taalmodellen van ongeveer 10% tot minder dan 1% verkleinen zonder hardware-aanpassingen.

Jatin Chhugani, Geonhwa Jeong, Bor-Yiing Su, Yunjie Pan, Hanmei Yang, Aayush Ankit, Jiecao Yu, Summer Deng, Yunqing Chen, Nadathur Satish, Changkyu KimWed, 11 Ma🤖 cs.AI

ARKV: Adaptive and Resource-Efficient KV Cache Management under Limited Memory Budget for Long-Context Inference in LLMs

Dit paper introduceert ARKV, een lichtgewicht en adaptief framework dat de geheugenefficiëntie van Large Language Models bij lange contexten aanzienlijk verbetert door dynamisch precisieniveaus toe te wijzen aan tokens op basis van hun belang, waardoor het KV-cachegebruik met een factor 4 wordt gereduceerd zonder significante kwaliteitsverlies.

Jianlong Lei, Shashikant IlagerWed, 11 Ma🤖 cs.AI

ChatNeuroSim: An LLM Agent Framework for Automated Compute-in-Memory Accelerator Deployment and Optimization

Dit paper introduceert ChatNeuroSim, een framework op basis van een groot taalmodel dat het ontwerp, de implementatie en de optimalisatie van Compute-in-Memory-versnellers voor diepe neurale netwerken volledig automatiseert en versnelt door gebruik te maken van een geautomatiseerde agent en een techniek voor het afkappen van de ontwerpruimte.

Ming-Yen Lee, Shimeng YuWed, 11 Ma💻 cs

bsort: A theoretically efficient non-comparison-based sorting algorithm for integer and floating-point numbers

Dit artikel introduceert bsort, een niet-comparatief sorteeralgoritme voor gehele getallen en floating-point waarden dat via een benadering afgeleid van binaire quicksort een asymptotische looptijd van $O(wn)$ en een extra ruimtecomplexiteit van $O(w)$ bereikt, met prestaties die concurreren met geoptimaliseerde hybride algoritmen voor gegevens met kleine woordgroottes.

Benjamín GuzmánWed, 11 Ma💻 cs

The $qs$ Inequality: Quantifying the Double Penalty of Mixture-of-Experts at Inference

Dit paper introduceert de $qs$ -ongelijkheid om aan te tonen dat MoE-modellen tijdens inferentie structureel worden benadeeld door hergebruiksfragmentatie, waardoor ze bij lange contexten vaak minder efficiënt zijn dan kwalitatief gelijkwaardige dichte modellen.

Vignesh Adhinarayanan, Nuwan JayasenaWed, 11 Ma🤖 cs.LG

Accelerating High-Order Finite Element Simulations at Extreme Scale with FP64 Tensor Cores

Deze paper demonstreert dat het gebruik van FP64-tensorcores op NVIDIA-GPU's, gecombineerd met kernelfusie-optimalisaties, de prestaties en energie-efficiëntie van high-order eindige-elementensimulaties aanzienlijk verbetert, met een schaalbaarheid tot bijna 10.000 GPU's op het exascale-systeem Alps.

Jiqun Tu, Ian Karlin, John Camier, Veselin Dobrev, Tzanio Kolev, Stefan Henneking, Omar GhattasWed, 11 Ma💻 cs

Dynamic Precision Math Engine for Linear Algebra and Trigonometry Acceleration on Xtensa LX6 Microcontrollers

Dit artikel introduceert een dynamische precisie-rekenengine voor ESP32-microcontrollers die door middel van een Q16.16-vastkomma-kern, een CORDIC-module voor goniometrie en een cache-bewust matrixvermenigvuldigingsalgoritme de rekenprestaties aanzienlijk verbetert ten opzichte van standaard drijvende-kommabewerkingen.

Elian Alfonso Lopez PreciadoWed, 11 Ma💻 cs

Compiler-First State Space Duality and Portable $O(1)$ Autoregressive Caching for Inference

Dit artikel introduceert een compiler-gebaseerde implementatie van Mamba-2 in JAX die, dankzij het gebruik van standaard XLA-primitieven in plaats van aangepaste CUDA-kernels, portabele autoregressieve inferentie met $O(1)$ caching mogelijk maakt op CPU, NVIDIA GPU en Google TPU zonder host-synchronisatie.

Cosmo SantoniWed, 11 Ma🤖 cs.AI

Multi-DNN Inference of Sparse Models on Edge SoCs

Deze paper introduceert SparseLoom, een demonstratiesysteem dat 'model stitching' toepast om subgrafen van sparse modellen te herschikken zonder opnieuw te trainen, waardoor multi-DNN-inferentie op Edge-SoCs aanzienlijk efficiënter wordt met een reductie van SLO-overtredingen tot 74% en een doorvoerverhoging tot 2,31x.

Jiawei Luo, Di Wu, Simon Dobson, Blesson VargheseWed, 11 Ma🤖 cs.LG

A Lock-Free, Fully GPU-Resident Architecture for the Verification of Goldbach's Conjecture

Dit artikel presenteert een volledig GPU-residente, lock-free architectuur die de verificatie van de vermoeden van Goldbach versnelt door het gehele verwerkingsproces naar de GPU te verplaatsen, wat resulteert in een 45,6-voudige snelheidswinst en een verificatie tot $10^{13}$ in slechts 133,5 seconden op een vier-GPU-systeem.

Isaac Llorente-SaguerTue, 10 Ma🔢 math

DyLLM: Efficient Diffusion LLM Inference via Saliency-based Token Selection and Partial Attention

DyLLM is een trainingsvrij inferentiekader dat de doorvoer van Masked Diffusion Language Models tot 9,6 keer verhoogt door alleen de 'saliente' tokens te verwerken die significant bijdragen aan de denoising-stappen, terwijl de resterende tokens worden gecachet zonder de nauwkeurigheid te verstoren.

Younjoo Lee, Junghoo Lee, Seungkyun Dan, Jaiyoung Park, Jung Ho AhnTue, 10 Ma💬 cs.CL

RedFuser: An Automatic Operator Fusion Framework for Cascaded Reductions on AI Accelerators

RedFuser is een automatisch framework dat cascaderende reductie-operaties in AI-modellen efficiënt samenvoegt tot een enkele lus, waardoor een snelheidsverhoging van 2 tot 5 keer wordt bereikt ten opzichte van bestaande compilers.

Xinsheng Tang, Yangcheng Li, Nan Wang, Zhiyi Shu, Xingyu Ling, Junna Xing, Peng Zhou, Qiang LiuThu, 12 Ma🤖 cs.AI

RAGPerf: An End-to-End Benchmarking Framework for Retrieval-Augmented Generation Systems

Dit artikel introduceert RAGPerf, een open-source end-to-end benchmarkingframework dat modulaire RAG-pipelines analyseert door de prestaties en nauwkeurigheid van componenten zoals embedding, indexering en generatie te meten onder diverse realistische werklasten.

Shaobo Li, Yirui Zhou, Yuan Xu, Kevin Chen, Daniel Waddington, Swaminathan Sundararaman, Hubertus Franke, Jian HuangThu, 12 Ma💻 cs

Linear Layouts: Robust Code Generation of Efficient Tensor Computation Using $\mathbb{F}_2$

Deze paper introduceert Linear Layouts, een nieuwe aanpak die tensorindelingen modelleert met lineaire algebra over $\mathbb{F}_2$ om flexibele en efficiënte generatie van tensorberekeningen mogelijk te maken, de complexiteit van conversies te reduceren en de foutgevoeligheid in bestaande compilersystemen zoals Triton te verminderen.

Keren Zhou, Mario Lezcano, Adam Goucher, Akhmed Rakhmati, Jeff Niu, Justin Lebar, Pawel Szczerbuk, Peter Bell, Phil Tillet, Thomas Raoux, Zahi MoudallalMon, 09 Ma💻 cs

Reexamining Paradigms of End-to-End Data Movement

Dit paper betoogt dat de focus op ruwe netwerkbandbreedte onvoldoende is voor hoogwaardige datatransfer en introduceert het 'Drainage Basin Pattern'-model om end-to-end prestaties te optimaliseren door een holistische hardware-software co-design die bottlenecks buiten het netwerkcore adresseert.

Chin Fang, Timothy Stitt, Michael J. McManus, Toshio MoriyaMon, 09 Ma💻 cs

Parallelization Strategies for Dense LLM Deployment: Navigating Through Application-Specific Tradeoffs and Bottlenecks

Dit artikel onderzoekt parallelisatiestrategieën voor de implementatie van dichte grote taalmodellen, waarbij het aantoont dat Tensor Parallelism de latentie verbetert terwijl Pipeline Parallelism beter geschikt is voor doorvoeroptimalisatie, en hoe een hybride aanpak de afweging tussen deze twee prestatie-indicatoren kan sturen.

Burak Topcu, Musa Oguzhan Cim, Poovaiah Palangappa, Meena Arunachalam, Mahmut Taylan KandemirMon, 09 Ma🤖 cs.LG

Improving LLM Performance Through Black-Box Online Tuning: A Case for Adding System Specs to Factsheets for Trusted AI

Dit paper introduceert een nieuwe black-box online controller die end-to-end metingen gebruikt om de goodput van LLM-diensten te maximaliseren en pleit op basis hiervan voor het opnemen van systeemprestaties en duurzaamheidsmetrieken in AI-factsheets om vertrouwen te waarborgen.

Yonas Atinafu, Henry Lin, Robin CohenFri, 13 Ma🤖 cs.AI

Concurrent Deterministic Skiplist and Other Data Structures

Dit artikel presenteert het ontwerp, de analyse en de prestaties van een concurrerende deterministische skiplist voor many-core NUMA-nodes, vergeleken met andere lock-free datastructuren en Intel TBB, en introduceert strategieën voor geheugenbeheer en hiërarchisch gebruik om cache-misses en remote NUMA-toegang te verminderen.

Aparna Sasidharan2026-03-06💻 cs

Dynamic Model Routing and Cascading for Efficient LLM Inference: A Survey

Dit overzichtspaper analyseert geavanceerde methoden voor dynamische routering en cascading tussen meerdere onafhankelijke grote taalmodellen om de inferentie-efficiëntie te maximaliseren door query-gebaseerde modelselectie, en presenteert een conceptueel raamwerk om deze systemen te classificeren en de afwegingen tussen kosten en prestaties te optimaliseren.

Yasmin Moslem, John D. Kelleher2026-03-06💻 cs

Unlocking Python's Cores: Hardware Usage and Energy Implications of Removing the GIL

Deze studie toont aan dat de experimentele GIL-vrije build van Python 3.14.2 de uitvoeringstijd en energie-efficiëntie voor parallelle werklasten aanzienlijk verbetert, maar voor sequentiële taken of gedeelde data-structuren juist leidt tot hoger energieverbruik en meer geheugengebruik.

José Daniel Montoya Salazar2026-03-06💻 cs

cs.PF