bsort: A theoretically efficient non-comparison-based sorting algorithm for integer and floating-point numbers

Dit artikel introduceert bsort, een niet-comparatief sorteeralgoritme voor gehele getallen en floating-point waarden dat via een benadering afgeleid van binaire quicksort een asymptotische looptijd van O(wn)O(wn) en een extra ruimtecomplexiteit van O(w)O(w) bereikt, met prestaties die concurreren met geoptimaliseerde hybride algoritmen voor gegevens met kleine woordgroottes.

Benjamín GuzmánWed, 11 Ma💻 cs

DendroNN: Dendrocentric Neural Networks for Energy-Efficient Classification of Event-Based Data

Dit artikel introduceert DendroNN, een energiezuinig, niet-gedifferentieerd neuronaal netwerk dat inspiratie put uit dendritische sequentiedetectie om event-based data te verwerken en via een asynchrone hardware-architectuur een tot vier keer hogere efficiëntie bereikt dan bestaande neuromorfe systemen.

Jann Krausse, Zhe Su, Kyrus Mama, Maryada, Klaus Knobloch, Giacomo Indiveri, Jürgen BeckerWed, 11 Ma🤖 cs.AI

TrainDeeploy: Hardware-Accelerated Parameter-Efficient Fine-Tuning of Small Transformer Models at the Extreme Edge

TrainDeeploy is een framework dat hardware-versnelde, parameter-efficiënte fine-tuning van zowel CNN- als Transformer-modellen mogelijk maakt op extreem beperkte randapparatuur, waarbij het de eerste end-to-end on-device training van een Compact Convolutional Transformer op een RISC-V-SoC realiseert met aanzienlijke verbeteringen in geheugengebruik en prestaties.

Run Wang, Victor J. B. Jung, Philip Wiese, Francesco Conti, Alessio Burrello, Luca BeniniWed, 11 Ma🤖 cs.LG

Nemo: A Low-Write-Amplification Cache for Tiny Objects on Log-Structured Flash Devices

Dit paper introduceert Nemo, een nieuwe cache-architectuur voor log-gestructureerde flash-apparaten die door het optimaliseren van hash-kollicsies en het gebruik van een bloom filter-based indexering gelijktijdig lage schrijfamplificatie, hoge geheugenefficiëntie en een laag miss-ratio bereikt voor tiny-object workloads.

Xufeng Yang, Tingting Tan, Jingxin Hu, Congming Gao, Mingyang Liu, Tianyang Jiang, Jian Chen, Linbo Long, Yina Lv, Jiwu ShuWed, 11 Ma💻 cs

HaLoRA: Hardware-aware Low-Rank Adaptation for Large Language Models Based on Hybrid Compute-in-Memory Architecture

Dit paper introduceert HaLoRA, een hardwarebewuste methode die de energie-efficiëntie van een hybride Compute-in-Memory-architectuur combineert met de nauwkeurigheid van Large Language Models door een robuuste Low-Rank Adaptatie te trainen die de inherente ruis van RRAM-geheugen compenseert.

Taiqiang Wu, Chenchen Ding, Wenyong Zhou, Yuxin Cheng, Xincheng Feng, Shuqi Wang, Wendong Xu, Chufan Shi, Zhengwu Liu, Ngai WongTue, 10 Ma💬 cs.CL

HDLxGraph: Bridging Large Language Models and HDL Repositories via HDL Graph Databases

Dit paper introduceert HDLxGraph, een nieuw framework dat Large Language Models koppelt aan HDL-repositories via grafische databases en Abstract Syntax Trees om de beperkingen van traditionele RAG-systemen bij complexe hardware-beschrijvingsopdrachten te overwinnen, ondersteund door een nieuw benchmark-dataset genaamd HDLSearch.

Pingqing Zheng (Katie), Jiayin Qin (Katie), Fuqi Zhang (Katie), Niraj Chitla (Katie), Zishen Wan (Katie), Shang Wu (Katie), Yu Cao (Katie), Caiwen Ding (Katie), Yang (Katie), ZhaoTue, 10 Ma🤖 cs.LG

Mozart: Modularized and Efficient MoE Training on 3.5D Wafer-Scale Chiplet Architectures

Dit paper introduceert Mozart, een co-ontwerp van algoritme en hardware dat de training van MoE-gedreven taalmodellen op 3.5D wafer-scale chiplet-architecturen optimaliseert door middel van een slimme experttoewijzing, fijnmazige planning en een hiërarchisch geheugenontwerp om communicatie- en geheugenproblemen op te lossen.

Shuqing Luo (Katie), Ye Han (Katie), Pingzhi Li (Katie), Jiayin Qin (Katie), Jie Peng (Katie), Yang (Katie), Zhao (Kevin), Yu (Kevin), Cao, Tianlong ChenTue, 10 Ma💻 cs

Explainable and Hardware-Efficient Jamming Detection for 5G Networks Using the Convolutional Tsetlin Machine

Dit artikel presenteert een uitlegbare en hardware-efficiënte aanpak voor jamming-detectie in 5G-netwerken met behulp van de Convolutional Tsetlin Machine, die op een realistisch testbed vergelijkbare prestaties levert als een CNN maar aanzienlijk sneller traint en minder geheugen vereist, waardoor het ideaal is voor implementatie op randapparatuur.

Vojtech Halenka, Mohammadreza Amini, Per-Arne Andersen, Ole-Christoffer Granmo, Burak KantarciTue, 10 Ma🤖 cs.LG