ARKV: Adaptive and Resource-Efficient KV Cache Management under Limited Memory Budget for Long-Context Inference in LLMs

Dit paper introduceert ARKV, een lichtgewicht en adaptief framework dat de geheugenefficiëntie van Large Language Models bij lange contexten aanzienlijk verbetert door dynamisch precisieniveaus toe te wijzen aan tokens op basis van hun belang, waardoor het KV-cachegebruik met een factor 4 wordt gereduceerd zonder significante kwaliteitsverlies.

Jianlong Lei, Shashikant Ilager2026-03-11🤖 cs.AI

Benchmarking Federated Learning in Edge Computing Environments: A Systematic Review and Performance Evaluation

Dit artikel presenteert een systematische review en prestatie-evaluatie van federatief leertechnieken in edge-computingomgevingen, waarbij vijf toonaangevende algoritmen worden vergeleken op basis van nauwkeurigheid, communicatie-efficiëntie en energieconsumptie om bestaande uitdagingen te identificeren en een onderzoeksagenda voor de toekomst te schetsen.

Sales Aribe Jr., Gil Nicholas Cagande2026-03-11🤖 cs.AI

Sensitivity-Guided Framework for Pruned and Quantized Reservoir Computing Accelerators

Dit artikel presenteert een compressieframework voor Reservoir Computing dat gebruikmaakt van een op gevoeligheid gebaseerde prune-mechanisme om de afweging tussen kwantisatie, pruning en hardware-efficiëntie te optimaliseren, wat resulteert in aanzienlijke verbeteringen in resourcegebruik en energie-efficiëntie op FPGA's zonder merkbare nauwkeurigheidsverlies.

Atousa Jafari, Mahdi Taheri, Hassan Ghasemzadeh Mohammadi, Christian Herglotz, Marco Platzner2026-03-11🤖 cs.AI

Zipage: Maintain High Request Concurrency for LLM Reasoning through Compressed PagedAttention

Dit paper introduceert Zipage, een hoog-concurrentie LLM-inferentie-engine die Compressed PagedAttention combineert met geavanceerde scheduling en compressie om de geheugenbottleneck bij redenerende modellen op te lossen en zo een snelheidswinst van meer dan 2,1x te bereiken met behoud van 95% van de prestaties.

Mengqi Liao, Lu Wang, Chaoyun Zhang, Bo Qiao, Si Qin, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Huaiyu Wan2026-03-11🤖 cs.AI

Generalized Reduction to the Isotropy for Flexible Equivariant Neural Fields

Dit artikel introduceert een fundamentele reductie die GG-invariante functies op productruimten, waar GG transitief werkt, reduceert tot HH-invarianten van de isotropiegroep, waardoor de beperkingen van bestaande methoden voor equivariante neurale velden worden opgeheven en ze kunnen worden toegepast op willekeurige groepswerkingen.

Alejandro García-Castellanos, Gijs Bellaard, Remco Duits, Daniel Pelt, Erik J Bekkers2026-03-11🤖 cs.AI

Large Language Model-Assisted Superconducting Qubit Experiments

Dit artikel introduceert een raamwerk dat grote taalmodellen (LLM's) gebruikt om experimenten met supergeleidende qubits te automatiseren door dynamisch hulpmiddelen te genereren op basis van een kennisbank, wat leidt tot snellere implementatie van standaardprotocollen en flexibeler controle van complexe kwantumhardware.

Shiheng Li, Jacob M. Miller, Phoebe J. Lee, Gustav Andersson, Christopher R. Conner, Yash J. Joshi, Bayan Karimi, Amber M. King, Howard L. Malc, Harsh Mishra, Hong Qiao, Minseok Ryu, Xuntao Wu, Siyuan Xing, Haoxiong Yan, Jian Shi, Andrew N. Cleland2026-03-11⚛️ quant-ph