The qsqs Inequality: Quantifying the Double Penalty of Mixture-of-Experts at Inference

Cet article introduit l'inégalité qsqs pour démontrer que les modèles à mélange d'experts (MoE), bien qu'efficaces à l'entraînement, subissent une double pénalité structurelle à l'inférence (fragmentation de la réutilisation des poids et saturation de la mémoire) qui les rend souvent moins performants que des modèles denses équivalents, surtout dans des contextes longs.

Vignesh Adhinarayanan, Nuwan JayasenaWed, 11 Ma🤖 cs.LG

DendroNN: Dendrocentric Neural Networks for Energy-Efficient Classification of Event-Based Data

Ce papier présente DendroNN, un réseau de neurones bio-inspiré qui exploite les mécanismes de détection de séquences des dendrites pour classifier efficacement des données événementielles via une phase de ré câblage sans gradient et une architecture matérielle asynchrone, surpassant ainsi les solutions neuromorphiques existantes en termes d'efficacité énergétique.

Jann Krausse, Zhe Su, Kyrus Mama, Maryada, Klaus Knobloch, Giacomo Indiveri, Jürgen BeckerWed, 11 Ma🤖 cs.AI

TrainDeeploy: Hardware-Accelerated Parameter-Efficient Fine-Tuning of Small Transformer Models at the Extreme Edge

Le papier présente TrainDeeploy, un cadre accéléré par le matériel permettant le premier fine-tuning complet et efficace en termes de paramètres de modèles CNN et Transformer directement sur des SoCs ultra-basse consommation de type RISC-V, tout en préservant la confidentialité des données et en réduisant significativement l'utilisation mémoire.

Run Wang, Victor J. B. Jung, Philip Wiese, Francesco Conti, Alessio Burrello, Luca BeniniWed, 11 Ma🤖 cs.LG

Nemo: A Low-Write-Amplification Cache for Tiny Objects on Log-Structured Flash Devices

Ce papier présente Nemo, une nouvelle conception de cache pour les objets minuscules sur les dispositifs flash à structure journalisée qui réduit l'amplification d'écriture au niveau de l'application en augmentant la probabilité de collisions de hachage pour améliorer le taux de remplissage des ensembles, tout en maintenant une haute efficacité mémoire et un faible taux de défauts grâce à un indexage par filtre de Bloom et un suivi hybride de la chaleur des données.

Xufeng Yang, Tingting Tan, Jingxin Hu, Congming Gao, Mingyang Liu, Tianyang Jiang, Jian Chen, Linbo Long, Yina Lv, Jiwu ShuWed, 11 Ma💻 cs

HaLoRA: Hardware-aware Low-Rank Adaptation for Large Language Models Based on Hybrid Compute-in-Memory Architecture

Ce papier propose HaLoRA, une méthode d'adaptation à faible rang consciente du matériel qui optimise le déploiement des modèles de langage sur une architecture hybride Compute-in-Memory en entraînant les branches LoRA pour être robustes au bruit des mémoires RRAM, permettant ainsi de réduire la consommation énergétique à 3 % de celle d'un GPU A100 tout en améliorant les performances de 22,7 %.

Taiqiang Wu, Chenchen Ding, Wenyong Zhou, Yuxin Cheng, Xincheng Feng, Shuqi Wang, Wendong Xu, Chufan Shi, Zhengwu Liu, Ngai WongTue, 10 Ma💬 cs.CL

HDLxGraph: Bridging Large Language Models and HDL Repositories via HDL Graph Databases

Le papier présente HDLxGraph, un cadre innovant qui intègre les caractéristiques graphiques inhérentes aux langages de description matérielle (HDL) aux systèmes de génération augmentée par récupération (RAG) pour surmonter les limites des approches actuelles dans la recherche, le débogage et la complétion de projets HDL complexes, tout en introduisant le benchmark HDLSearch pour évaluer ces performances.

Pingqing Zheng (Katie), Jiayin Qin (Katie), Fuqi Zhang (Katie), Niraj Chitla (Katie), Zishen Wan (Katie), Shang Wu (Katie), Yu Cao (Katie), Caiwen Ding (Katie), Yang (Katie), ZhaoTue, 10 Ma🤖 cs.LG

Optimized Many-Hypercube Codes toward Lower Logical Error Rates and Earlier Realization

Cette étude propose des codes many-hypercube optimisés de plus petite taille, notamment le code D6,4,4D_{6,4,4}, qui, grâce à des encodeurs tolérants aux fautes efficaces réduisant la surcharge de 60 %, permettent d'atteindre des taux d'erreurs logiques inférieurs et une réalisation expérimentale plus précoce que les versions précédentes, malgré un taux d'encodage plus élevé.

Hayato GotoTue, 10 Ma⚛️ quant-ph

Continuous-Flow Data-Rate-Aware CNN Inference on FPGA

Cet article propose une architecture d'inférence CNN continue et adaptée au débit de données pour FPGA, qui résout le problème de sous-utilisation des unités matérielles causé par la réduction du flux de données dans les couches de convolution et de pooling, permettant ainsi d'atteindre une utilisation matérielle proche de 100 % et d'exécuter des réseaux complexes comme MobileNet sur une seule puce avec un haut débit.

Tobias Habermann, Michael Mecik, Zhenyu Wang, César David Vera, Martin Kumm, Mario GarridoTue, 10 Ma🤖 cs.LG

Mozart: Modularized and Efficient MoE Training on 3.5D Wafer-Scale Chiplet Architectures

Le papier présente Mozart, un cadre de co-conception algorithme-hardware qui optimise l'entraînement des modèles de langage à base d'experts (MoE) sur des architectures de puces 3,5D en exploitant leur modularité pour améliorer l'allocation des experts, le recouvrement communication-calcul et l'utilisation des ressources.

Shuqing Luo (Katie), Ye Han (Katie), Pingzhi Li (Katie), Jiayin Qin (Katie), Jie Peng (Katie), Yang (Katie), Zhao (Kevin), Yu (Kevin), Cao, Tianlong ChenTue, 10 Ma💻 cs

Explainable and Hardware-Efficient Jamming Detection for 5G Networks Using the Convolutional Tsetlin Machine

Ce papier propose une méthode de détection de brouillage pour les réseaux 5G basée sur la Machine Tsetlin Convolutionnelle (CTM), qui offre une alternative interprétable et économe en ressources par rapport aux réseaux de neurones profonds, permettant un déploiement matériel efficace sur FPGA pour des environnements de bord contraints.

Vojtech Halenka, Mohammadreza Amini, Per-Arne Andersen, Ole-Christoffer Granmo, Burak KantarciTue, 10 Ma🤖 cs.LG

Mitigating the Memory Bottleneck with Machine Learning-Driven and Data-Aware Microarchitectural Techniques

Cette thèse propose de surmonter le goulot d'étranglement de la mémoire en faisant évoluer la conception microarchitecturale d'une approche agnostique des données vers une approche informée par les données, en utilisant des techniques d'apprentissage automatique et l'exploitation des caractéristiques sémantiques pour optimiser significativement les performances et l'efficacité énergétique.

Rahul BeraTue, 10 Ma🤖 cs.LG