The qsqs Inequality: Quantifying the Double Penalty of Mixture-of-Experts at Inference

Il paper introduce la disuguaglianza qsqs, un criterio predittivo che dimostra come le architetture Mixture-of-Experts subiscano una "doppia penalità" strutturale durante l'inferenza a causa della frammentazione della memoria e del routing, rendendole spesso meno efficienti rispetto a modelli densi di qualità equivalente, specialmente in contesti lunghi.

Vignesh Adhinarayanan, Nuwan JayasenaWed, 11 Ma🤖 cs.LG

DendroNN: Dendrocentric Neural Networks for Energy-Efficient Classification of Event-Based Data

Il paper presenta DendroNN, una rete neurale ispirata ai dendriti biologici che utilizza un meccanismo di ricollegamento senza gradienti e un'architettura hardware asincrona per classificare efficientemente dati basati su eventi, raggiungendo un'efficienza energetica fino a 4 volte superiore rispetto alle soluzioni neuromorfiche esistenti.

Jann Krausse, Zhe Su, Kyrus Mama, Maryada, Klaus Knobloch, Giacomo Indiveri, Jürgen BeckerWed, 11 Ma🤖 cs.AI

TrainDeeploy: Hardware-Accelerated Parameter-Efficient Fine-Tuning of Small Transformer Models at the Extreme Edge

Il paper presenta TrainDeeploy, un framework che abilita il primo addestramento end-to-end di modelli Transformer e CNN su SoC ultra-low-power basati su RISC-V, ottimizzando l'efficienza hardware e riducendo l'uso di memoria attraverso strategie di fine-tuning parametrico come LoRA.

Run Wang, Victor J. B. Jung, Philip Wiese, Francesco Conti, Alessio Burrello, Luca BeniniWed, 11 Ma🤖 cs.LG

Nemo: A Low-Write-Amplification Cache for Tiny Objects on Log-Structured Flash Devices

Il paper presenta Nemo, una nuova architettura di cache per dispositivi flash che riduce l'amplificazione di scrittura nei carichi di lavoro con oggetti di piccole dimensioni aumentando la probabilità di collisione hash e utilizzando un indicizzazione basata su filtro di Bloom e un tracciamento ibrido della "calorezza" per garantire alta efficienza di memoria e basso tasso di mancate.

Xufeng Yang, Tingting Tan, Jingxin Hu, Congming Gao, Mingyang Liu, Tianyang Jiang, Jian Chen, Linbo Long, Yina Lv, Jiwu ShuWed, 11 Ma💻 cs

HaLoRA: Hardware-aware Low-Rank Adaptation for Large Language Models Based on Hybrid Compute-in-Memory Architecture

Il paper propone HaLoRA, un metodo di adattamento a basso rango consapevole dell'hardware che combina architetture di calcolo in memoria ibride (RRAM per i pesi preaddestrati e SRAM per i rami LoRA) con una nuova strategia di addestramento robusto al rumore, ottenendo un drastico risparmio energetico (circa il 3% rispetto a una GPU Nvidia A100) e un miglioramento delle prestazioni fino al 22,7% su modelli LLM come Qwen e LLaMA.

Taiqiang Wu, Chenchen Ding, Wenyong Zhou, Yuxin Cheng, Xincheng Feng, Shuqi Wang, Wendong Xu, Chufan Shi, Zhengwu Liu, Ngai WongTue, 10 Ma💬 cs.CL

HDLxGraph: Bridging Large Language Models and HDL Repositories via HDL Graph Databases

Il paper presenta HDLxGraph, un nuovo framework che integra le caratteristiche grafiche intrinseche dei linguaggi HDL (tramite AST e DFG) nei sistemi RAG per migliorare significativamente le prestazioni di ricerca, debug e completamento del codice rispetto agli approcci basati sulla similarità semantica, supportato dal nuovo benchmark HDLSearch.

Pingqing Zheng (Katie), Jiayin Qin (Katie), Fuqi Zhang (Katie), Niraj Chitla (Katie), Zishen Wan (Katie), Shang Wu (Katie), Yu Cao (Katie), Caiwen Ding (Katie), Yang (Katie), ZhaoTue, 10 Ma🤖 cs.LG

Optimized Many-Hypercube Codes toward Lower Logical Error Rates and Earlier Realization

Il paper propone l'ottimizzazione dei codici many-hypercube utilizzando configurazioni più piccole come D6,4,4D_{6,4,4}, che, nonostante blocchi di qubit più grandi, offrono tassi di errore logico inferiori e una riduzione del 60% dell'overhead rispetto ai progetti originali, facilitando così una realizzazione sperimentale precoce del calcolo quantistico tollerante ai guasti ad alto tasso.

Hayato GotoTue, 10 Ma⚛️ quant-ph

Continuous-Flow Data-Rate-Aware CNN Inference on FPGA

Questo lavoro presenta un'architettura CNN a flusso continuo e consapevole del tasso di dati per FPGA che risolve il problema del sottoutilizzo delle unità hardware nelle reti convoluzionali, garantendo un utilizzo vicino al 100% e permettendo l'implementazione di modelli complessi come MobileNet su un singolo dispositivo con elevata efficienza.

Tobias Habermann, Michael Mecik, Zhenyu Wang, César David Vera, Martin Kumm, Mario GarridoTue, 10 Ma🤖 cs.LG

Mozart: Modularized and Efficient MoE Training on 3.5D Wafer-Scale Chiplet Architectures

Il paper presenta Mozart, un framework di co-progettazione algoritmo-hardware che ottimizza l'addestramento efficiente dei modelli LLM basati su Mixture-of-Experts su architetture di chiplet su scala wafer 3.5D, risolvendo le sfide di località della memoria e sovraccarico di comunicazione attraverso strategie di allocazione degli esperti e meccanismi di scheduling a grana fine.

Shuqing Luo (Katie), Ye Han (Katie), Pingzhi Li (Katie), Jiayin Qin (Katie), Jie Peng (Katie), Yang (Katie), Zhao (Kevin), Yu (Kevin), Cao, Tianlong ChenTue, 10 Ma💻 cs

Explainable and Hardware-Efficient Jamming Detection for 5G Networks Using the Convolutional Tsetlin Machine

Questo articolo presenta un metodo di rilevamento del jamming per le reti 5G basato sulla Convolutional Tsetlin Machine (CTM), che offre un'alternativa efficiente in termini di risorse, interpretabile e adatta all'hardware rispetto alle reti neurali convoluzionali, garantendo prestazioni comparabili con tempi di addestramento ridotti e un minore consumo di memoria su dispositivi edge.

Vojtech Halenka, Mohammadreza Amini, Per-Arne Andersen, Ole-Christoffer Granmo, Burak KantarciTue, 10 Ma🤖 cs.LG

Mitigating the Memory Bottleneck with Machine Learning-Driven and Data-Aware Microarchitectural Techniques

Questa tesi dimostra che l'adozione di tecniche microarchitettoniche guidate dai dati e dall'apprendimento automatico, che sfruttano le caratteristiche semantiche delle applicazioni e i comportamenti di esecuzione osservati, supera efficacemente i colli di bottiglia della memoria, migliorando significativamente le prestazioni e l'efficienza energetica rispetto alle soluzioni tradizionali.

Rahul BeraTue, 10 Ma🤖 cs.LG