AdaFuse: Accelerating Dynamic Adapter Inference via Token-Level Pre-Gating and Fused Kernel Optimization

AdaFuse is een framework dat de inferentie-latentie van dynamische adapters in grote taalmodellen met meer dan 2,4 keer verlaagt door een token-niveau pre-gating strategie en een geoptimaliseerde CUDA-kernel te combineren, waardoor de snelheidsdaling door dynamische routing wordt opgelost zonder in te leveren op de nauwkeurigheid.

Qiyang Li, Rui Kong, Yuchen Li, Hengyi Cai, Shuaiqiang Wang, Linghe Kong, Guihai Chen, Dawei Yin2026-03-13🤖 cs.AI

Bielik-Minitron-7B: Compressing Large Language Models via Structured Pruning and Knowledge Distillation for the Polish Language

Dit artikel beschrijft de ontwikkeling van Bielik-Minitron-7B, een voor het Pools geoptimaliseerd taalmodel dat door gestructureerde pruning en kennisdistillatie 33,4% minder parameters heeft dan het origineel, terwijl het 90% van de prestaties behoudt en de inferentiesnelheid met 50% verbetert.

Remigiusz Kinas, Paweł Kiszczak, Sergio P. Perez, Krzysztof Ociepa, Łukasz Flis, Krzysztof Wróbel, Adrian Gwozdziej2026-03-13💬 cs.CL

Think While Watching: Online Streaming Segment-Level Memory for Multi-Turn Video Reasoning in Multimodal Large Language Models

Dit paper introduceert 'Think While Watching', een innovatief framework dat multimodale grote taalmodellen in staat stelt om tijdens het streamen van video's continue segmentgeheugen te behouden en gelijktijdig te waarnemen en redeneren, waardoor de prestaties bij meervoudige interacties aanzienlijk worden verbeterd en de output efficiënter wordt.

Lu Wang (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China), Zhuoran Jin (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China), Yupu Hao (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China), Yubo Chen (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China), Kang Liu (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China), Yulong Ao (Beijing Academy of Artificial Intelligence), Jun Zhao (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China)2026-03-13💬 cs.CL

MobileKernelBench: Can LLMs Write Efficient Kernels for Mobile Devices?

Deze paper introduceert MobileKernelBench, een evaluatiekader dat aantoont dat huidige LLMs moeite hebben met het genereren van efficiënte kernels voor mobiele apparaten, en stelt MoKA voor, een multi-agent systeem dat de compilatiesuccesrate aanzienlijk verbetert en prestatieverbeteringen mogelijk maakt.

Xingze Zou, Jing Wang, Yuhua Zheng, Xueyi Chen, Haolei Bai, Lingcheng Kong, Syed A. R. Abu-Bakar, Zhaode Wang, Chengfei Lv, Haoji Hu, Huan Wang2026-03-13🤖 cs.LG

Effective Resistance Rewiring: A Simple Topological Correction for Over-Squashing

Dit paper introduceert Effective Resistance Rewiring (ERR), een parameterloze methode die globale effectieve weerstand gebruikt om structurele knelpunten in Graph Neural Networks te verhelpen door randen strategisch toe te voegen en te verwijderen, waardoor langere afhankelijkheden beter worden gemodelleerd terwijl de afweging tussen over-squashing en oversmoothing wordt beheerd.

Bertran Miquel-Oliver, Manel Gil-Sorribes, Victor Guallar, Alexis Molina2026-03-13🤖 cs.LG

Delayed Backdoor Attacks: Exploring the Temporal Dimension as a New Attack Surface in Pre-Trained Models

Dit paper introduceert 'Delayed Backdoor Attacks' (DBA), een nieuwe aanvalsvorm op voorgeöorde modellen waarbij de schadelijke activatie tijdelijk wordt uitgesteld na het zien van een trigger, wat het mogelijk maakt om alledaagse woorden als triggers te gebruiken en zo een tot nu toe onbeschermd tijdsdimensie als aanvalsoppervlak blootlegt.

Zikang Ding, Haomiao Yang, Meng Hao, Wenbo Jiang, Kunlan Xiang, Runmeng Du, Yijing Liu, Ruichen Zhang, Dusit Niyato2026-03-13🤖 cs.AI

Learning Transferable Sensor Models via Language-Informed Pretraining

Dit paper introduceert SLIP, een open-source framework dat door taal-informeerde pretraining en een flexibele patch-embedder transferleerbare sensorrepresentaties leert die variabele invoer ondersteunen en superieure prestaties leveren in zero-shot transfer, signaalcaptioning en sensorgebaseerde vragenbeantwoording.

Yuliang Chen, Arvind Pillai, Yu Yvonne Wu, Tess Z. Griffin, Lisa Marsch, Michael V. Heinz, Nicholas C. Jacobson, Andrew Campbell2026-03-13🤖 cs.AI