Scalable and Performant Data Loading

Dit paper introduceert SPDL, een open-source bibliotheek die de prestaties van GPU-data-laden aanzienlijk verbetert door de Python GIL te omzeilen, wat resulteert in een 74% snellere verwerking van ImageNet en een lagere CPU- en geheugengebruik vergeleken met PyTorch DataLoader.

Moto Hira, Christian Puhrsch, Valentin Andrei, Roman Malinovskyy, Gael Le Lan, Abhinandan Krishnan, Joseph Cummings, Victor Bourgin, Olga Gerasimova, Miguel Martin, Gokul Gunasekaran, Yuta Inoue, Alex J Turner, Raghuraman KrishnamoorthiWed, 11 Ma💻 cs

ARKV: Adaptive and Resource-Efficient KV Cache Management under Limited Memory Budget for Long-Context Inference in LLMs

Dit paper introduceert ARKV, een lichtgewicht en adaptief framework dat de geheugenefficiëntie van Large Language Models bij lange contexten aanzienlijk verbetert door dynamisch precisieniveaus toe te wijzen aan tokens op basis van hun belang, waardoor het KV-cachegebruik met een factor 4 wordt gereduceerd zonder significante kwaliteitsverlies.

Jianlong Lei, Shashikant IlagerWed, 11 Ma🤖 cs.AI

Benchmarking Federated Learning in Edge Computing Environments: A Systematic Review and Performance Evaluation

Dit artikel presenteert een systematische review en prestatie-evaluatie van federatief leertechnieken in edge-computingomgevingen, waarbij vijf toonaangevende algoritmen worden vergeleken op basis van nauwkeurigheid, communicatie-efficiëntie en energieconsumptie om bestaande uitdagingen te identificeren en een onderzoeksagenda voor de toekomst te schetsen.

Sales Aribe Jr., Gil Nicholas CagandeWed, 11 Ma🤖 cs.AI

Sensitivity-Guided Framework for Pruned and Quantized Reservoir Computing Accelerators

Dit artikel presenteert een compressieframework voor Reservoir Computing dat gebruikmaakt van een op gevoeligheid gebaseerde prune-mechanisme om de afweging tussen kwantisatie, pruning en hardware-efficiëntie te optimaliseren, wat resulteert in aanzienlijke verbeteringen in resourcegebruik en energie-efficiëntie op FPGA's zonder merkbare nauwkeurigheidsverlies.

Atousa Jafari, Mahdi Taheri, Hassan Ghasemzadeh Mohammadi, Christian Herglotz, Marco PlatznerWed, 11 Ma🤖 cs.AI

Adaptive Multi-Objective Tiered Storage Configuration for KV Cache in LLM Service

Dit paper introduceert Kareto, een geoptimaliseerde tool voor het dynamisch beheren van gestapelde opslag voor KV-caches in LLM-diensten, die door het vinden van de Pareto-grens tussen kosten, doorvoer en latentie aanzienlijke verbeteringen boekt ten opzichte van statische configuraties.

Xianzhe Zheng, Zhengheng Wang, Ruiyan Ma, Rui Wang, Xiyu Wang, Rui Chen, Peng Zhang, Sicheng Pan, Zhangheng Huang, Chenxin Wu, Yi Zhang, Bo Cai, Kan Liu, Teng Ma, Yin Du, Dong Deng, Sai Wu, Guoyun Zhu, Wei Zhang, Feifei LiWed, 11 Ma💻 cs

Zipage: Maintain High Request Concurrency for LLM Reasoning through Compressed PagedAttention

Dit paper introduceert Zipage, een hoog-concurrentie LLM-inferentie-engine die Compressed PagedAttention combineert met geavanceerde scheduling en compressie om de geheugenbottleneck bij redenerende modellen op te lossen en zo een snelheidswinst van meer dan 2,1x te bereiken met behoud van 95% van de prestaties.

Mengqi Liao, Lu Wang, Chaoyun Zhang, Bo Qiao, Si Qin, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Huaiyu WanWed, 11 Ma🤖 cs.AI

DeZent: Decentralized z-Anonymity with Privacy-Preserving Coordination

Dit paper introduceert deZent, een gedecentraliseerde implementatie van z-anonimiteit die privacy in sensornetwerken verbetert door lokale anonimiseringsprocessen te coördineren met behulp van een stochastische telstructuur en een beveiligde som, waardoor de afhankelijkheid van een centraal entiteit wordt verminderd en de communicatie-overhead wordt verlaagd zonder in te leveren op de prestaties.

Carolin Brunn, Florian TschorschWed, 11 Ma💻 cs

Accelerating High-Order Finite Element Simulations at Extreme Scale with FP64 Tensor Cores

Deze paper demonstreert dat het gebruik van FP64-tensorcores op NVIDIA-GPU's, gecombineerd met kernelfusie-optimalisaties, de prestaties en energie-efficiëntie van high-order eindige-elementensimulaties aanzienlijk verbetert, met een schaalbaarheid tot bijna 10.000 GPU's op het exascale-systeem Alps.

Jiqun Tu, Ian Karlin, John Camier, Veselin Dobrev, Tzanio Kolev, Stefan Henneking, Omar GhattasWed, 11 Ma💻 cs