Unveiling the Potential of Quantization with MXFP4: Strategies for Quantization Error Reduction

Dit paper introduceert twee software-only technieken, Overflow-Aware Scaling en Macro Block Scaling, die de nauwkeurigheidskloof tussen het MXFP4- en NVFP4-quantisatieformaat voor grote taalmodellen van ongeveer 10% tot minder dan 1% verkleinen zonder hardware-aanpassingen.

Jatin Chhugani, Geonhwa Jeong, Bor-Yiing Su, Yunjie Pan, Hanmei Yang, Aayush Ankit, Jiecao Yu, Summer Deng, Yunqing Chen, Nadathur Satish, Changkyu KimWed, 11 Ma🤖 cs.AI

ARKV: Adaptive and Resource-Efficient KV Cache Management under Limited Memory Budget for Long-Context Inference in LLMs

Dit paper introduceert ARKV, een lichtgewicht en adaptief framework dat de geheugenefficiëntie van Large Language Models bij lange contexten aanzienlijk verbetert door dynamisch precisieniveaus toe te wijzen aan tokens op basis van hun belang, waardoor het KV-cachegebruik met een factor 4 wordt gereduceerd zonder significante kwaliteitsverlies.

Jianlong Lei, Shashikant IlagerWed, 11 Ma🤖 cs.AI

bsort: A theoretically efficient non-comparison-based sorting algorithm for integer and floating-point numbers

Dit artikel introduceert bsort, een niet-comparatief sorteeralgoritme voor gehele getallen en floating-point waarden dat via een benadering afgeleid van binaire quicksort een asymptotische looptijd van O(wn)O(wn) en een extra ruimtecomplexiteit van O(w)O(w) bereikt, met prestaties die concurreren met geoptimaliseerde hybride algoritmen voor gegevens met kleine woordgroottes.

Benjamín GuzmánWed, 11 Ma💻 cs

Accelerating High-Order Finite Element Simulations at Extreme Scale with FP64 Tensor Cores

Deze paper demonstreert dat het gebruik van FP64-tensorcores op NVIDIA-GPU's, gecombineerd met kernelfusie-optimalisaties, de prestaties en energie-efficiëntie van high-order eindige-elementensimulaties aanzienlijk verbetert, met een schaalbaarheid tot bijna 10.000 GPU's op het exascale-systeem Alps.

Jiqun Tu, Ian Karlin, John Camier, Veselin Dobrev, Tzanio Kolev, Stefan Henneking, Omar GhattasWed, 11 Ma💻 cs

Linear Layouts: Robust Code Generation of Efficient Tensor Computation Using F2\mathbb{F}_2

Deze paper introduceert Linear Layouts, een nieuwe aanpak die tensorindelingen modelleert met lineaire algebra over F2\mathbb{F}_2 om flexibele en efficiënte generatie van tensorberekeningen mogelijk te maken, de complexiteit van conversies te reduceren en de foutgevoeligheid in bestaande compilersystemen zoals Triton te verminderen.

Keren Zhou, Mario Lezcano, Adam Goucher, Akhmed Rakhmati, Jeff Niu, Justin Lebar, Pawel Szczerbuk, Peter Bell, Phil Tillet, Thomas Raoux, Zahi MoudallalMon, 09 Ma💻 cs

Parallelization Strategies for Dense LLM Deployment: Navigating Through Application-Specific Tradeoffs and Bottlenecks

Dit artikel onderzoekt parallelisatiestrategieën voor de implementatie van dichte grote taalmodellen, waarbij het aantoont dat Tensor Parallelism de latentie verbetert terwijl Pipeline Parallelism beter geschikt is voor doorvoeroptimalisatie, en hoe een hybride aanpak de afweging tussen deze twee prestatie-indicatoren kan sturen.

Burak Topcu, Musa Oguzhan Cim, Poovaiah Palangappa, Meena Arunachalam, Mahmut Taylan KandemirMon, 09 Ma🤖 cs.LG